محققان در پاسخ به نتایج مقاله پر سر و صدای اپل درباره ناتوانی مدلهای هوش مصنوعی در حل مسائل پیچیده گفتند که مشکل از نقصهای ارزیابی است و ارتباطی با هوش مصنوعی ندارد.
به گزارش تکناک، مقاله اخیر اپل با عنوان «توهم تفکر» (The Illusion of Thinking) که به بررسی توانایی مدلهای بزرگ استدلالی (LRM) در حل مسائل پیچیده پرداخته بود، بازتاب گستردهای در میان پژوهشگران هوش مصنوعی داشت. اپل در این مقاله به صراحت نتیجه گرفته بود که حتی پیشرفتهترین مدلها نیز در مواجهه با وظایف پیچیده دچار فروپاشی میشوند. اما همه این تحلیل را قبول ندارند.
الکس لاوسن، پژوهشگر بنیاد Open Philanthropy روز گذشته، مقالهای تحلیلی منتشر کرد که بسیاری از یافتههای بحثبرانگیز اپل را ناشی از ضعف در طراحی آزمایشها دانسته است. این مقاله با همکاری مدل هوش مصنوعی کلود اوپوس (Claude Opus) از شرکت Anthropic نوشته شده است.
لاوسن در مقاله خود با عنوان «توهمِ توهم تفکر» به این موضوع پرداخته است که اگرچه مدلهای فعلی در حل پازلهای پیچیده برنامهریزی دچار چالش میشوند، اما اپل در تفسیر نتایج، میان محدودیتهای خروجی عملی و نقصهای طراحی ارزیابی با شکست واقعی در استدلال خلط کرده است.

او سه ایراد اصلی را به روش اپل وارد میداند:
- نادیده گرفتن محدودیتهای توکن خروجی:
شرکت اپل مدعی است که مدلها در پازلهایی مانند برج هانوی با ۸ دیسک یا بیشتر دچار فروپاشی میشوند، اما لاوسن میگوید که مدلهایی مانند Claude در این موارد به سقف ظرفیت توکنهای خروجی خود رسیدهاند. به گفته او، خروجیهای واقعی مدلها به صراحت اشاره میکنند: «الگو ادامه دارد، اما برای صرفهجویی در توکنها متوقف میشوم.»
- شمارش پازلهای غیرقابل حل به عنوان شکست:
به گفته لاوسن، در آزمون عبور از رودخانه اپل، نمونههایی از پازلها گنجانده شده بود که اصولاً غیرقابل حل بودند (برای مثال، بیش از ۶ جفت کاراکتر با قایقی که ظرفیت عبور همه را نداشت). مدلها به دلیل تشخیص این موضوع و عدم تلاش برای حل آنها، نمره منفی گرفتهاند.
- عدم تمایز میان شکست استدلالی و محدودیت خروجی:
شرکت اپل از اسکریپتهای ارزیابی خودکاری استفاده کرده است، که تنها پاسخهایی با فهرست کامل حرکات را به عنوان موفقیت تلقی کردهاند. به همین دلیل، خروجیهای جزئی یا استراتژیک به عنوان شکست کامل ثبت شدهاند.
لاوسن برای اثبات ادعای خود، بخشی از آزمونهای برج هانوی را به شیوهای متفاوت بازآزمایی کرده است: به جای فهرست کامل حرکات، از مدلها خواسته است یک تابع بازگشتی به زبان Lua بنویسند که راهحل را تولید کند. نتیجه؟ مدلهایی مانند Claude، Gemini و o3 از OpenAI بدون مشکل توانستند راهحل الگوریتمی صحیح برای پازلهایی با ۱۵ دیسک ارائه دهند؛ یعنی بهمراتب فراتر از پیچیدگی که اپل در آن موفقیتی گزارش نکرده بود.
لاوسن نتیجهگیری میکند: «زمانی که محدودیتهای مصنوعی خروجی را حذف میکنیم، مدلهای زبانی بزرگ توان استدلال درباره وظایف پیچیده را دارند؛ حداقل در زمینه تولید الگوریتم به این صورت است.»
اهمیت این جدال علمی درباره هوش مصنوعی
در نگاه نخست، این بحث شاید مانند اختلافات معمول در تحقیقات هوش مصنوعی به نظر برسد، اما اهمیت آن بیش از این است. مقاله اپل بارها به عنوان شاهدی بر این ادعا مطرح شده است که مدلهای زبانی کنونی فاقد توانایی استدلال مقیاسپذیر هستند. اما لاوسن نشان میدهد که واقعیت میتواند پیچیدهتر باشد: بله، مدلها در شمارش طولانی توکنها مشکل دارند، اما موتورهای استدلالی آنها به اندازهای شکننده نیست که مقاله اپل القا میکند.
البته این به معنای رفع مسئولیت از مدلها نیست. حتی لاوسن اذعان میکند که تعمیم الگوریتم در عمل همچنان یک چالش است و نتایج آزمایشهای او فعلا مقدماتی به حساب میآیند. او همچنین پیشنهادهایی برای تحقیقات آینده مطرح کرده است:
- طراحی آزمونهایی که تفاوت میان توان استدلال و محدودیت خروجی را نشان دهد.
- از قابل حل بودن پازلها پیش از ارزیابی عملکرد مدل اطمینان حاصل شود.
- از سنجههای پیچیدگی که دشواری محاسباتی را نشان دهد نه صرفاً طول راهحل را استفاده شود.
- اشکال مختلف ارائه پاسخ برای تفکیک درک الگوریتمی از اجرای آن در نظر گرفته شود.
به گفته لاوسن، پرسش اصلی این نیست که آیا مدلهای زبانی بزرگ میتوانند استدلال کنند یا خیر؛ بلکه این است که آیا روشهای ارزیابی ما میتوانند تفاوت میان استدلال واقعی و صرفاً تایپ کردن خروجی را نشان دهند یا خیر.