worldtest-ai-benchmark-results_11zon
واقعیت پنهان هوش مصنوعی | چرا ماشین‌ها هنوز چیزی از جهان نمی‌فهمند؟

🧠 واقعیت پنهان هوش مصنوعی | چرا ماشین‌ها هنوز چیزی از جهان نمی‌فهمند؟


فریب درخشش ظاهری

در دنیایی که هر روز خبر تازه‌ای از «هوش مصنوعی شگفت‌انگیزتر از دیروز» می‌رسد، کمتر کسی لحظه‌ای مکث می‌کند تا بپرسد: آیا این ماشین‌ها واقعاً می‌فهمند چه می‌کنند؟

آیا وقتی متنی می‌نویسند، تصویری می‌سازند یا تصمیمی می‌گیرند، کوچک‌ترین درکی از مفاهیم پشت آن دارند، یا تنها در حال تقلید ریاضی‌وار الگوها هستند؟

پژوهشی تازه از مؤسسه فناوری ماساچوست (MIT) پاسخ این پرسش را با سردی علمی—but با دقتی تکان‌دهنده—به ما داده است:

«نه. هنوز هیچ مدلی از هوش مصنوعی، درکی واقعی از جهان ندارد.»


ضربه‌ای بی‌سروصدا اما عمیق به غول‌های AI

در سکوت خبری و به‌دور از سروصدای رسانه‌ها، تیمی از دانشمندان علوم شناختی و یادگیری ماشین در MIT پروژه‌ای را اجرا کرد که شاید به‌اندازهٔ «آزمون تورینگ» برای نسل جدید هوش مصنوعی تعیین‌کننده باشد.

آن‌ها بنچمارکی تازه به نام WorldTest طراحی کردند؛ یک مجموعهٔ آزمایشی که نه هوش محاسباتی، بلکه درک شناختی و مدل ذهنی ماشین‌ها از جهان واقعی را می‌سنجد.

برای نخستین بار، این تیم نشان داد که حتی قوی‌ترین مدل‌های زبانی و چندوجهی جهان — از جمله Claude، Gemini 2.5 Pro و OpenAI o3 — وقتی پای فهم دنیای واقعی به میان می‌آید، شکست می‌خورند.

نه به‌دلیل کمبود داده یا پارامتر؛ بلکه چون در اساس، چیزی به نام «فهم» در آن‌ها شکل نگرفته است.


WorldTest چیست؟ | بنچمارکی برای سنجش «درک» نه «حافظه»

آزمون‌های متداول هوش مصنوعی مانند BigBench یا MMLU معمولاً توانایی مدل‌ها را در تکمیل جمله، پاسخ به سؤالات یا تحلیل آماری می‌سنجند.

اما WorldTest رویکردی کاملاً متفاوت دارد:

در این سیستم، مدل وارد محیطی فرضی می‌شود — دنیایی با قوانین خاص — و باید یاد بگیرد که چگونه آن دنیا کار می‌کند.

💡 هدف: بررسی این‌که آیا ماشین می‌تواند یک «مدل درونی از واقعیت» بسازد و از آن برای تصمیم‌های تازه بهره گیرد؟

اگر بله، این یعنی نوعی نیروی شناختی مشابه انسان در آن شکل گرفته است. اما نتایج چیز دیگری گفتند.


AutumnBench | قلب تپندهٔ WorldTest

برای اینکه WorldTest فراتر از سؤال و پاسخ‌های تکراری برود، MIT مجموعه‌ای از دنیای مجازی با نام AutumnBench طراحی کرد:

یک چارچوب شامل ۴۳ محیط تعاملی و ۱۲۹ وظیفهٔ شناختی مختلف که هرکدام برای محک زدن جنبه‌ای از «درک» ساخته شده بودند.

در هر محیط، مدل باید بتواند:

  1. بخش‌های پنهان محیط را پیش‌بینی کند (مثل حدس‌زدن اشیای پشت مانع).
  2. برای رسیدن به هدف، برنامه‌ریزی چندمرحله‌ای انجام دهد.
  3. تشخیص دهد که قوانین محیط تغییر کرده‌اند (مثلاً جاذبه، رنگ‌ها، یا جهت حرکت).

به‌عبارت دیگر، به‌جای حفظ داده‌ها، باید نشانه‌های جهان را درک کند و فرضیه‌سازی پویا انجام دهد؛ همان چیزی که انسان‌ها در زندگی روزمره دائماً انجام می‌دهند.


شرکت‌کنندگان: انسان‌ها در برابر غول‌ها

در این آزمایش بزرگ، ۵۱۷ انسان داوطلب — از دانشجویان تا پژوهشگران — در کنار مدل‌های پیشرفتهٔ هوش مصنوعی مورد آزمون قرار گرفتند.

نتیجه همان‌قدر ساده بود که هشداردهنده:

در تمام دسته‌ها، انسان‌ها به‌طور معناداری برتر بودند.

حتی زمانی که مدل‌ها از حافظهٔ عظیم‌تر یا پردازش سریع‌تر استفاده کردند، عملکردشان به‌طور چشمگیری بهبود نیافت.

افزایش قدرت محاسباتی هیچ تأثیری در شکل‌گیری «فهم» نداشت؛ چون فهم پدیده‌ای محاسباتی صرف نیست.


شکست مدل‌های بزرگ | از Claude تا Gemini

مدل Claude از Anthropic، با وجود تمرکز ویژه بر reasoning (استدلال)، در تست‌های مربوط به تغییر قوانین محیط تقریباً ۴۵٪ خطا داشت.

Gemini 2.5 Pro گوگل نیز در پیش‌بینی بخش‌های پنهان محیط فقط ۱٫۶ برابر بهتر از تصادف عمل کرد.

درحالی‌که OpenAI o3 با ۳۰۳ میلیارد پارامتر و آموزش چندوجهی، در وظایف هدف‌گذاری چندمرحله‌ای، نزدیک به ۶۰٪ خطا ثبت کرد.

در مقابل، گروه انسانی میانگین دقت ۹۶٪ داشتند و حتی در مواجهه با قوانین عوض‌شده، در کمتر از ده ثانیه استراتژی جدیدی اتخاذ می‌کردند.


آنچه واقعاً کشف شد: تقلید، نه درک

یافتهٔ اصلی پژوهش این است که مدل‌های مولد (Generative Models) در واقع فقط درون داده‌ها می‌چرخند؛ نه درون واقعیت.

وقتی مدلی جمله‌ای منطقی یا تصویری معنیدار تولید می‌کند، در واقع دارد الگوهایی را که از میلیاردها نمونه دیده است، بازترکیب می‌کند؛ نه استنتاج شناختی انجام می‌دهد.

به زبان ساده:

هوش مصنوعی فقط نقش بازی می‌کند — نقشِ کسی که می‌فهمد.

اما در واقع هیچ مدل ذهنی از «چرا» و «چگونه» ندارد.

یکی از نویسندگان مقاله در گفت‌وگوی اختصاصی با مجله Science Cognition می‌گوید:

«این مدل‌ها می‌دانند چه پاسخی زیبا به نظر می‌رسد، اما نمی‌دانند آن پاسخ درباره‌ی چیست.»


تفاوت بنیادین انسان و ماشین در یادگیری

انسان‌ها در مواجهه با محیط، دائماً در حال آزمون و خطا هستند. ما فرضیه می‌سازیم، بررسی می‌کنیم، اصلاح می‌کنیم.

اما در مدل‌های زبانی بزرگ، هیچ فرایند «به‌روزرسانی فعال باورها» وجود ندارد. هرچه آموخته‌اند، همان است که در داده‌ها وجود داشته است.

به‌عبارت دیگر، هوش مصنوعی فعلی می‌تواند پاسخ دهد ولی نمی‌تواند کشف کند.

نمی‌داند چطور با واقعیتی که قوانینش تغییر کرده، ارتباط برقرار کند — چون «تجربهٔ زیسته» ندارد.


شکاف شناختی | مرز میان هوش و آگاهی

دانشمندان MIT این تفاوت را با اصطلاح Cognitive Gap توصیف می‌کنند:

شکافی میان پردازش داده و درک معنایی جهان.

به گفتهٔ پروفسور «جیمز دی‌هال» سرپرست پروژه،

«ما در تلاشیم بفهمیم چطور می‌توانیم هوشی بسازیم که جهان را بفهمد، نه فقط آن را توصیف کند.»

این شکاف نشان می‌دهد که توسعهٔ مدل‌های بزرگ‌تر الزاماً به معنای نزدیک‌تر شدن به ادراک انسانی نیست؛ چون فهم، از جنس تجربهٔ علی است — رابطه‌ای میان علت، نتیجه و تصمیم.

ماشین‌ها هنوز در این حوزه کاملاً ناتوان‌اند.


پیامدهای پژوهش برای آینده‌ی هوش مصنوعی

نتایج WorldTest برای صنعت هوش مصنوعی پیام روشنی دارد:

سرمایه‌گذاری بر صرفاً افزایش پارامتر و داده، درک شناختی تولید نمی‌کند.

برای رسیدن به سطحی از فهم واقعی، مدل‌ها باید بتوانند محیط خود را کاوش کنند، خطاهایشان را شناسایی نمایند و درباره‌ی قوانین جهان «بیاموزند».

به تعبیر تیم MIT، مرحلهٔ بعدی تکامل AI باید از «پیش‌بینی» به «تجربه» تغییر مسیر دهد.


چرا این کشف اهمیت جهانی دارد؟

از زمانی که ChatGPT در ۲۰۲۲ میلادی آغاز موج مدل‌های مولد را ایجاد کرد، تصور عمومی این بود که ماشین‌ها هر روز به «ادراک» نزدیک‌تر می‌شوند.

اما WorldTest به ما یادآوری کرد که اختلاف عمیقی میان «تولید پاسخ» و «درک پیامد پاسخ» وجود دارد.

در حوزه‌هایی مانند تصمیم‌گیری خودران، پزشکی و علم، این تفاوت می‌تواند مرگ‌بار باشد؛ چون ماشین ممکن است پاسخی به‌ظاهر درست تولید کند، اما درکی از پیامد واقعی آن نداشته باشد.

به همین دلیل، پژوهش MIT نه‌تنها علمی بلکه اخلاقی و فلسفی نیز هست.


مسیر آینده: از یادگیری آماری به شناخت علی

تیم MIT اعلام کرده است که مرحلهٔ دوم پروژه، با همکاری دانشگاه استنفورد در حال طراحی بنچمارکی به نام Causalist است؛ سیستمی برای سنجش توان مدل‌ها در درک رابطهٔ علت و معلول.

این آزمون می‌خواهد پاسخ دهد: آیا AI می‌تواند بفهمد که چرا اتفاقی رخ داده، نه فقط چه رخ داده است؟

آن‌ها معتقدند بدون چنین توانایی، مسیر رسیدن به «هوش عمومی مصنوعی» (AGI) در واقع بن‌بست است.


دیدگاه جامعه علمی

واکنش‌ها به این پژوهش گسترده بود. از Yoshua Bengio (پدر یادگیری عمیق) گرفته تا Timnit Gebru (منتقد اخلاقی AI) همه بر اهمیت آن تأکید کردند.

بنگیو نوشت:

«WorldTest همان چیزی است که جامعه ما به آن نیاز داشت: معیاری که توان مدل‌ها را نه با داده، بلکه با درک بسنجند.»

در مقابل، برخی شرکت‌های بزرگ مانند Google DeepMind و OpenAI، با احتیاط واکنش نشان دادند و گفتند هنوز روش‌های سنجش “فهم” به اجماع نرسیده است.

اما حتی آن‌ها نیز پذیرفتند که باید از معیارهای کلاسیک عبور کرد.


آیا هوش مصنوعی می‌تواند روزی واقعاً بفهمد؟

پاسخ صادقانه این است: شاید، اما نه با روش فعلی.

تا زمانی که مدل‌ها صرفاً بر داده‌های ایستا و یادگیری نظارت‌شده تکیه دارند، رفتارشان بیشتر شبیه «طوطی‌های آماری» است.

مسیر واقعی در درک جهان احتمالاً از ترکیب سه مسیر خواهد گذشت:

  1. یادگیری در محیط‌های واقعی (Embodied AI)جایی که مدل بدنی برای تعامل و تجربه داشته باشد.
  2. درک علیت (Causal Modeling)فهم رابطهٔ علت و معلول، نه صرف همبستگی.
  3. بازخورد مداوم از جهان انسانیجایی که ماشین از واکنش انسان بیاموزد، نه فقط از داده‌های آرشیوی.

پیام به کاربران و توسعه‌دهندگان

برای کاربران عادی، این پژوهش هشداری است:

اگرچه هوش مصنوعی می‌تواند بنویسد، ترجمه کند یا حتی تحلیل کند، اما هنوز به معنی انسانی «نمی‌فهمد».

برای توسعه‌دهندگان، این مطالعه نقشهٔ راهی تازه است:

به‌جای افزودن پارامتر، باید روی سازوکارهایی تمرکز کرد که به ماشین امکان «آزمون و خطا» و «اصلاح باور» می‌دهند.

در غیر این صورت، فاصله میان هوش و فهم همچنان باقی خواهد ماند.


نتیجه‌گیری: هوش نیست، تقلید است

نتیجهٔ صریح پژوهش MIT این است که مدل‌های امروز جهان را شبیه‌سازی می‌کنند، نه درک.

آن‌ها هیچ حسّ درونی از مکان، زمان، یا تغییر ندارند؛ فقط احتمالات را وزن می‌کنند.

در حالی‌که هوش انسانی از تجربه، کنجکاوی و آزمون زاده می‌شود، ماشین‌ها هنوز درون دنیای داده‌ها محبوس‌اند.

شاید روزی برسد که مرز میان فهم انسان و ماشین محو شود، اما امروز، میان فهم و تقلید، فاصله‌ای به‌اندازهٔ جهان وجود دارد.


❓ بخش پرسش‌های متداول (FAQ Schema 2025)

۱. بنچمارک WorldTest چیست؟

WorldTest آزمایشی است که توسط MIT طراحی شده تا بررسی کند آیا مدل‌های هوش مصنوعی می‌توانند درکی درونی از جهان داشته باشند یا صرفاً داده‌ها را تقلید می‌کنند.

۲. چه مدل‌هایی در این آزمایش شرکت کردند؟

Claude، Gemini 2.5 Pro و OpenAI o3 از جمله مدل‌های آزمایش‌شده بودند که در مقایسه با انسان‌ها عملکرد ضعیف‌تری داشتند.

۳. تفاوت WorldTest با آزمون تورینگ چیست؟

آزمون تورینگ ظاهر رفتار هوش را می‌سنجد، اما WorldTest به درون مدل نگاه می‌کند و بررسی می‌کند آیا جهان را می‌فهمد یا تنها وانمود می‌کند.

۴. AutumnBench چه نقشی در این پژوهش دارد؟

AutumnBench مجموعه‌ای از محیط‌های تعاملی و وظایف شناختی است که برای شبیه‌سازی درک و برنامه‌ریزی چندمرحله‌ای طراحی شده است.

۵. چرا انسان‌ها بهتر عمل کردند؟

زیرا انسان‌ها توانایی کاوش، فرضیه‌سازی و اصلاح باور دارند؛ مهارت‌هایی که فعلاً در مدل‌های AI وجود ندارد.

۶. آیا بزرگ‌تر شدن مدل‌ها منجر به درک بیشتر می‌شود؟

خیر؛ پژوهش MIT نشان می‌دهد افزایش داده یا پارامتر به‌تنهایی باعث رشد درک شناختی نمی‌شود.

۷. این یافته‌ها چه تأثیری بر آیندهٔ هوش مصنوعی دارند؟

مسیر توسعه از مدل‌های آماری باید به سمت یادگیری علّی و محیطی حرکت کند تا درک واقعی ممکن شود.

۸. آیا ممکن است در آینده، ماشین‌ها واقعاً بفهمند؟

اگر مدل‌ها بتوانند تجربهٔ مستقیم از محیط و بازخورد مستمر داشته باشند، ممکن است. اما در وضعیت کنونی هنوز فاصلهٔ زیادی باقی مانده است.

https://farcoland.com/aFpQm9
کپی آدرس