واقعیت پنهان هوش مصنوعی | چرا ماشینها هنوز چیزی از جهان نمیفهمند؟
🧠 واقعیت پنهان هوش مصنوعی | چرا ماشینها هنوز چیزی از جهان نمیفهمند؟
فریب درخشش ظاهری
در دنیایی که هر روز خبر تازهای از «هوش مصنوعی شگفتانگیزتر از دیروز» میرسد، کمتر کسی لحظهای مکث میکند تا بپرسد: آیا این ماشینها واقعاً میفهمند چه میکنند؟
آیا وقتی متنی مینویسند، تصویری میسازند یا تصمیمی میگیرند، کوچکترین درکی از مفاهیم پشت آن دارند، یا تنها در حال تقلید ریاضیوار الگوها هستند؟
پژوهشی تازه از مؤسسه فناوری ماساچوست (MIT) پاسخ این پرسش را با سردی علمی—but با دقتی تکاندهنده—به ما داده است:
«نه. هنوز هیچ مدلی از هوش مصنوعی، درکی واقعی از جهان ندارد.»
ضربهای بیسروصدا اما عمیق به غولهای AI
در سکوت خبری و بهدور از سروصدای رسانهها، تیمی از دانشمندان علوم شناختی و یادگیری ماشین در MIT پروژهای را اجرا کرد که شاید بهاندازهٔ «آزمون تورینگ» برای نسل جدید هوش مصنوعی تعیینکننده باشد.
آنها بنچمارکی تازه به نام WorldTest طراحی کردند؛ یک مجموعهٔ آزمایشی که نه هوش محاسباتی، بلکه درک شناختی و مدل ذهنی ماشینها از جهان واقعی را میسنجد.
برای نخستین بار، این تیم نشان داد که حتی قویترین مدلهای زبانی و چندوجهی جهان — از جمله Claude، Gemini 2.5 Pro و OpenAI o3 — وقتی پای فهم دنیای واقعی به میان میآید، شکست میخورند.
نه بهدلیل کمبود داده یا پارامتر؛ بلکه چون در اساس، چیزی به نام «فهم» در آنها شکل نگرفته است.
WorldTest چیست؟ | بنچمارکی برای سنجش «درک» نه «حافظه»
آزمونهای متداول هوش مصنوعی مانند BigBench یا MMLU معمولاً توانایی مدلها را در تکمیل جمله، پاسخ به سؤالات یا تحلیل آماری میسنجند.
اما WorldTest رویکردی کاملاً متفاوت دارد:
در این سیستم، مدل وارد محیطی فرضی میشود — دنیایی با قوانین خاص — و باید یاد بگیرد که چگونه آن دنیا کار میکند.
💡 هدف: بررسی اینکه آیا ماشین میتواند یک «مدل درونی از واقعیت» بسازد و از آن برای تصمیمهای تازه بهره گیرد؟
اگر بله، این یعنی نوعی نیروی شناختی مشابه انسان در آن شکل گرفته است. اما نتایج چیز دیگری گفتند.
AutumnBench | قلب تپندهٔ WorldTest
برای اینکه WorldTest فراتر از سؤال و پاسخهای تکراری برود، MIT مجموعهای از دنیای مجازی با نام AutumnBench طراحی کرد:
یک چارچوب شامل ۴۳ محیط تعاملی و ۱۲۹ وظیفهٔ شناختی مختلف که هرکدام برای محک زدن جنبهای از «درک» ساخته شده بودند.
در هر محیط، مدل باید بتواند:
- بخشهای پنهان محیط را پیشبینی کند (مثل حدسزدن اشیای پشت مانع).
- برای رسیدن به هدف، برنامهریزی چندمرحلهای انجام دهد.
- تشخیص دهد که قوانین محیط تغییر کردهاند (مثلاً جاذبه، رنگها، یا جهت حرکت).
بهعبارت دیگر، بهجای حفظ دادهها، باید نشانههای جهان را درک کند و فرضیهسازی پویا انجام دهد؛ همان چیزی که انسانها در زندگی روزمره دائماً انجام میدهند.
شرکتکنندگان: انسانها در برابر غولها
در این آزمایش بزرگ، ۵۱۷ انسان داوطلب — از دانشجویان تا پژوهشگران — در کنار مدلهای پیشرفتهٔ هوش مصنوعی مورد آزمون قرار گرفتند.
نتیجه همانقدر ساده بود که هشداردهنده:
در تمام دستهها، انسانها بهطور معناداری برتر بودند.
حتی زمانی که مدلها از حافظهٔ عظیمتر یا پردازش سریعتر استفاده کردند، عملکردشان بهطور چشمگیری بهبود نیافت.
افزایش قدرت محاسباتی هیچ تأثیری در شکلگیری «فهم» نداشت؛ چون فهم پدیدهای محاسباتی صرف نیست.
شکست مدلهای بزرگ | از Claude تا Gemini
مدل Claude از Anthropic، با وجود تمرکز ویژه بر reasoning (استدلال)، در تستهای مربوط به تغییر قوانین محیط تقریباً ۴۵٪ خطا داشت.
Gemini 2.5 Pro گوگل نیز در پیشبینی بخشهای پنهان محیط فقط ۱٫۶ برابر بهتر از تصادف عمل کرد.
درحالیکه OpenAI o3 با ۳۰۳ میلیارد پارامتر و آموزش چندوجهی، در وظایف هدفگذاری چندمرحلهای، نزدیک به ۶۰٪ خطا ثبت کرد.
در مقابل، گروه انسانی میانگین دقت ۹۶٪ داشتند و حتی در مواجهه با قوانین عوضشده، در کمتر از ده ثانیه استراتژی جدیدی اتخاذ میکردند.
آنچه واقعاً کشف شد: تقلید، نه درک
یافتهٔ اصلی پژوهش این است که مدلهای مولد (Generative Models) در واقع فقط درون دادهها میچرخند؛ نه درون واقعیت.
وقتی مدلی جملهای منطقی یا تصویری معنیدار تولید میکند، در واقع دارد الگوهایی را که از میلیاردها نمونه دیده است، بازترکیب میکند؛ نه استنتاج شناختی انجام میدهد.
به زبان ساده:
هوش مصنوعی فقط نقش بازی میکند — نقشِ کسی که میفهمد.
اما در واقع هیچ مدل ذهنی از «چرا» و «چگونه» ندارد.
یکی از نویسندگان مقاله در گفتوگوی اختصاصی با مجله Science Cognition میگوید:
«این مدلها میدانند چه پاسخی زیبا به نظر میرسد، اما نمیدانند آن پاسخ دربارهی چیست.»
تفاوت بنیادین انسان و ماشین در یادگیری
انسانها در مواجهه با محیط، دائماً در حال آزمون و خطا هستند. ما فرضیه میسازیم، بررسی میکنیم، اصلاح میکنیم.
اما در مدلهای زبانی بزرگ، هیچ فرایند «بهروزرسانی فعال باورها» وجود ندارد. هرچه آموختهاند، همان است که در دادهها وجود داشته است.
بهعبارت دیگر، هوش مصنوعی فعلی میتواند پاسخ دهد ولی نمیتواند کشف کند.
نمیداند چطور با واقعیتی که قوانینش تغییر کرده، ارتباط برقرار کند — چون «تجربهٔ زیسته» ندارد.
شکاف شناختی | مرز میان هوش و آگاهی
دانشمندان MIT این تفاوت را با اصطلاح Cognitive Gap توصیف میکنند:
شکافی میان پردازش داده و درک معنایی جهان.
به گفتهٔ پروفسور «جیمز دیهال» سرپرست پروژه،
«ما در تلاشیم بفهمیم چطور میتوانیم هوشی بسازیم که جهان را بفهمد، نه فقط آن را توصیف کند.»
این شکاف نشان میدهد که توسعهٔ مدلهای بزرگتر الزاماً به معنای نزدیکتر شدن به ادراک انسانی نیست؛ چون فهم، از جنس تجربهٔ علی است — رابطهای میان علت، نتیجه و تصمیم.
ماشینها هنوز در این حوزه کاملاً ناتواناند.
پیامدهای پژوهش برای آیندهی هوش مصنوعی
نتایج WorldTest برای صنعت هوش مصنوعی پیام روشنی دارد:
سرمایهگذاری بر صرفاً افزایش پارامتر و داده، درک شناختی تولید نمیکند.
برای رسیدن به سطحی از فهم واقعی، مدلها باید بتوانند محیط خود را کاوش کنند، خطاهایشان را شناسایی نمایند و دربارهی قوانین جهان «بیاموزند».
به تعبیر تیم MIT، مرحلهٔ بعدی تکامل AI باید از «پیشبینی» به «تجربه» تغییر مسیر دهد.
چرا این کشف اهمیت جهانی دارد؟
از زمانی که ChatGPT در ۲۰۲۲ میلادی آغاز موج مدلهای مولد را ایجاد کرد، تصور عمومی این بود که ماشینها هر روز به «ادراک» نزدیکتر میشوند.
اما WorldTest به ما یادآوری کرد که اختلاف عمیقی میان «تولید پاسخ» و «درک پیامد پاسخ» وجود دارد.
در حوزههایی مانند تصمیمگیری خودران، پزشکی و علم، این تفاوت میتواند مرگبار باشد؛ چون ماشین ممکن است پاسخی بهظاهر درست تولید کند، اما درکی از پیامد واقعی آن نداشته باشد.
به همین دلیل، پژوهش MIT نهتنها علمی بلکه اخلاقی و فلسفی نیز هست.
مسیر آینده: از یادگیری آماری به شناخت علی
تیم MIT اعلام کرده است که مرحلهٔ دوم پروژه، با همکاری دانشگاه استنفورد در حال طراحی بنچمارکی به نام Causalist است؛ سیستمی برای سنجش توان مدلها در درک رابطهٔ علت و معلول.
این آزمون میخواهد پاسخ دهد: آیا AI میتواند بفهمد که چرا اتفاقی رخ داده، نه فقط چه رخ داده است؟
آنها معتقدند بدون چنین توانایی، مسیر رسیدن به «هوش عمومی مصنوعی» (AGI) در واقع بنبست است.
دیدگاه جامعه علمی
واکنشها به این پژوهش گسترده بود. از Yoshua Bengio (پدر یادگیری عمیق) گرفته تا Timnit Gebru (منتقد اخلاقی AI) همه بر اهمیت آن تأکید کردند.
بنگیو نوشت:
«WorldTest همان چیزی است که جامعه ما به آن نیاز داشت: معیاری که توان مدلها را نه با داده، بلکه با درک بسنجند.»
در مقابل، برخی شرکتهای بزرگ مانند Google DeepMind و OpenAI، با احتیاط واکنش نشان دادند و گفتند هنوز روشهای سنجش “فهم” به اجماع نرسیده است.
اما حتی آنها نیز پذیرفتند که باید از معیارهای کلاسیک عبور کرد.
آیا هوش مصنوعی میتواند روزی واقعاً بفهمد؟
پاسخ صادقانه این است: شاید، اما نه با روش فعلی.
تا زمانی که مدلها صرفاً بر دادههای ایستا و یادگیری نظارتشده تکیه دارند، رفتارشان بیشتر شبیه «طوطیهای آماری» است.
مسیر واقعی در درک جهان احتمالاً از ترکیب سه مسیر خواهد گذشت:
- یادگیری در محیطهای واقعی (Embodied AI)جایی که مدل بدنی برای تعامل و تجربه داشته باشد.
- درک علیت (Causal Modeling)فهم رابطهٔ علت و معلول، نه صرف همبستگی.
- بازخورد مداوم از جهان انسانیجایی که ماشین از واکنش انسان بیاموزد، نه فقط از دادههای آرشیوی.
پیام به کاربران و توسعهدهندگان
برای کاربران عادی، این پژوهش هشداری است:
اگرچه هوش مصنوعی میتواند بنویسد، ترجمه کند یا حتی تحلیل کند، اما هنوز به معنی انسانی «نمیفهمد».
برای توسعهدهندگان، این مطالعه نقشهٔ راهی تازه است:
بهجای افزودن پارامتر، باید روی سازوکارهایی تمرکز کرد که به ماشین امکان «آزمون و خطا» و «اصلاح باور» میدهند.
در غیر این صورت، فاصله میان هوش و فهم همچنان باقی خواهد ماند.
نتیجهگیری: هوش نیست، تقلید است
نتیجهٔ صریح پژوهش MIT این است که مدلهای امروز جهان را شبیهسازی میکنند، نه درک.
آنها هیچ حسّ درونی از مکان، زمان، یا تغییر ندارند؛ فقط احتمالات را وزن میکنند.
در حالیکه هوش انسانی از تجربه، کنجکاوی و آزمون زاده میشود، ماشینها هنوز درون دنیای دادهها محبوساند.
شاید روزی برسد که مرز میان فهم انسان و ماشین محو شود، اما امروز، میان فهم و تقلید، فاصلهای بهاندازهٔ جهان وجود دارد.
❓ بخش پرسشهای متداول (FAQ Schema 2025)
۱. بنچمارک WorldTest چیست؟
WorldTest آزمایشی است که توسط MIT طراحی شده تا بررسی کند آیا مدلهای هوش مصنوعی میتوانند درکی درونی از جهان داشته باشند یا صرفاً دادهها را تقلید میکنند.
۲. چه مدلهایی در این آزمایش شرکت کردند؟
Claude، Gemini 2.5 Pro و OpenAI o3 از جمله مدلهای آزمایششده بودند که در مقایسه با انسانها عملکرد ضعیفتری داشتند.
۳. تفاوت WorldTest با آزمون تورینگ چیست؟
آزمون تورینگ ظاهر رفتار هوش را میسنجد، اما WorldTest به درون مدل نگاه میکند و بررسی میکند آیا جهان را میفهمد یا تنها وانمود میکند.
۴. AutumnBench چه نقشی در این پژوهش دارد؟
AutumnBench مجموعهای از محیطهای تعاملی و وظایف شناختی است که برای شبیهسازی درک و برنامهریزی چندمرحلهای طراحی شده است.
۵. چرا انسانها بهتر عمل کردند؟
زیرا انسانها توانایی کاوش، فرضیهسازی و اصلاح باور دارند؛ مهارتهایی که فعلاً در مدلهای AI وجود ندارد.
۶. آیا بزرگتر شدن مدلها منجر به درک بیشتر میشود؟
خیر؛ پژوهش MIT نشان میدهد افزایش داده یا پارامتر بهتنهایی باعث رشد درک شناختی نمیشود.
۷. این یافتهها چه تأثیری بر آیندهٔ هوش مصنوعی دارند؟
مسیر توسعه از مدلهای آماری باید به سمت یادگیری علّی و محیطی حرکت کند تا درک واقعی ممکن شود.
۸. آیا ممکن است در آینده، ماشینها واقعاً بفهمند؟
اگر مدلها بتوانند تجربهٔ مستقیم از محیط و بازخورد مستمر داشته باشند، ممکن است. اما در وضعیت کنونی هنوز فاصلهٔ زیادی باقی مانده است.