خلاصه: این پژوهش نشان میدهد که مدلهای زبانی بزرگ (LLM) و چتباتهای قدیمیتر ممکن است با گذشت زمان دچار کاهش در تواناییهای شناختی شوند، مشابه با افت شناختی در انسانها.
هوش مصنوعی (AI) بهطور فزایندهای در تشخیصهای پزشکی مورد استفاده قرار میگیرد، زیرا این ابزارها میتوانند بهسرعت و با دقت بالا ناهنجاریها و نشانههای هشداردهنده را در سوابق پزشکی، تصاویر رادیولوژی و دیگر دادهها شناسایی کنند. با این حال، پژوهشی که در ۲۰ دسامبر ۲۰۲۴ در مجله BMJ منتشر شده است. نگرانیهایی را مطرح میکند مبنی بر اینکه فناوریهایی مانند مدلهای زبانی بزرگ و چتباتها، مشابه انسانها، ممکن است با گذشت زمان دچار کاهش در تواناییهای شناختی شوند.
مطالعه تواناییهای شناختی مدلهای زبان بزرگ (LLMs) را با اجرای آزمونهایی که معمولا برای ارزیابی عملکرد شناختی انسان استفاده میشود، مانند ارزیابی شناختی مونترال (MoCA) بررسی میکند.
(1) اختلال شناختی در LLM: این مطالعه نشان میدهد که اکثر LLMهای پیشرو، از جمله ChatGPT نسخههای 4 و 4o، و جمینی نسخههای 1 و 1.5، نشانههایی از اختلال شناختی خفیف را بر اساس نمرات MoCA نشان میدهند. هیچ یک از مدل ها نمره کامل 30 را به دست نیاوردند و اکثر آنها زیر آستانه 26 را کسب کردند که نشان دهنده اختلال شناختی خفیف در انسان است.
(2) تغییرپذیری عملکرد: ChatGPT4o با 26 امتیاز بالاترین امتیاز را کسب کرد و ChatGPT 4 و کلود هر کدام با 25 امتیاز در رتبه های بعدی قرار گرفتند. Gemini1.0 با 16 امتیاز کمترین امتیاز را کسب کرد. عملکرد نسخههای قدیمیتر LLM عموماً بدتر بود، مشابه عملکرد انسانهای مسنتر در تستهای شناختی.
(3) نقایص عملکرد بصری و اجرایی: LLMها ضعفهای قابل توجهی را در عملکردهای دیداری-فضایی و اجرایی نشان دادند، مشابه آنچه در انسانهای با اختلال شناختی خفیف مشاهده شد. وظایفی که نیاز به انتزاع بصری و عملکرد اجرایی دارند، چالشهایی را برای این مدلها ایجاد میکند و محدودیتهایی را در توانایی آنها برای جایگزینی پزشکان انسانی در نقشهای تصمیمگیری پیچیده برجسته میکند.
مفاهیم
(1) محدودیتها در تنظیمات بالینی: این مطالعه نشان میدهد که در حالی که LLMها در برخی از وظایف تشخیصی پزشکی ماهر هستند، حساسیت آنها به اختلالات شناختی میتواند مانع از کاربرد آنها در محیطهای بالینی شود که در آن تصمیمگیری دقیق مورد نیاز است.
(2) چالشهای توسعه هوش مصنوعی: یافتهها این فرض را به چالش میکشند که هوشمصنوعی به زودی از تواناییهای انسانی در کارهای پیچیده پیشی میگیرد و بر نیاز به تحقیقات مداوم برای بهبود استحکام شناختی هوشمصنوعی تأکید میکند.
(3) دستورالعملهای تحقیقاتی آینده: توسعه مدلهای پیشرفتهتر هوش مصنوعی که میتوانند بر این محدودیتهای شناختی غلبه کنند، برای افزایش قابلیت اطمینان و اثربخشی آنها در برنامههای کاربردی دنیای واقعی بسیار مهم است.
نتیجهگیری
این مطالعه بر اهمیت ارزیابی سیستمهای هوش مصنوعی با استفاده از ابزارهای ارزیابی شناختی انسان برای شناسایی نقاط ضعف بالقوه تاکید میکند. با درک این محدودیتها، محققان میتوانند به جای جایگزینی کامل، بر توسعه مدلهای هوشمصنوعی قویتر که مکمل تواناییهای انسان هستند، تمرکز کنند.
در حالی که برخی از جنبههای آزمون مانند نامگذاری، توجه، زبان و استدلال انتزاعی برای بیشتر مدلهای زبانی آسان به نظر میرسید، همه آنها در مهارتهای بصری/فضایی و وظایف اجرایی عملکرد ضعیفی داشتند. بهویژه، نسخههای قدیمیتر این مدلها نشانههای بیشتری از زوال شناختی نشان دادند. بهعنوان مثال، نسخه ۴ ChatGPT امتیاز ۲۶ از ۳۰ را کسب کرد، در حالی که نسخه قدیمیتر Gemini 1.0 تنها امتیاز ۱۶ را بهدست آورد. این نتایج نشان میدهد که مدلهای زبانی بزرگ قدیمیتر ممکن است نشانههایی از کاهش تواناییهای شناختی را نشان دهند.
نویسندگان پژوهش اشاره میکنند که این یافتهها چالشهایی را برای فرضیه جایگزینی پزشکان انسانی با هوش مصنوعی مطرح میکند، زیرا کاهش تواناییهای شناختی در چتباتهای پیشرو ممکن است بر قابلیت اطمینان آنها در تشخیصهای پزشکی تأثیر بگذارد و اعتماد بیماران را تضعیف کند.
برخی از متخصصان هوش مصنوعی معتقدند که این نتایج به معنای ضعف ذاتی در مدلهای زبانی بزرگ نیست، بلکه نشاندهنده نیاز به بهینهسازی و بهروزرسانی مداوم این فناوریها است. آنها بر این باورند که با پیشرفت در توسعه و آموزش مدلهای جدیدتر، میتوان بر این چالشها غلبه کرد و از افت شناختی در مدلهای قدیمیتر جلوگیری نمود.