سن در برابر ماشین - حساسیت مدل‌های زبان بزرگ به اختلال شناختی

خلاصه: این پژوهش نشان می‌دهد که مدل‌های زبانی بزرگ (LLM) و چت‌بات‌های قدیمی‌تر ممکن است با گذشت زمان دچار کاهش در توانایی‌های شناختی شوند، مشابه با افت شناختی در انسان‌ها.

هوش مصنوعی (AI) به‌طور فزاینده‌ای در تشخیص‌های پزشکی مورد استفاده قرار می‌گیرد، زیرا این ابزارها می‌توانند به‌سرعت و با دقت بالا ناهنجاری‌ها و نشانه‌های هشداردهنده را در سوابق پزشکی، تصاویر رادیولوژی و دیگر داده‌ها شناسایی کنند. با این حال، پژوهشی که در ۲۰ دسامبر ۲۰۲۴ در مجله BMJ منتشر شده است. نگرانی‌هایی را مطرح می‌کند مبنی بر اینکه فناوری‌هایی مانند مدل‌های زبانی بزرگ و چت‌بات‌ها، مشابه انسان‌ها، ممکن است با گذشت زمان دچار کاهش در توانایی‌های شناختی شوند.

مطالعه توانایی‌های شناختی مدل‌های زبان بزرگ (LLMs) را با اجرای آزمون‌هایی که معمولا برای ارزیابی عملکرد شناختی انسان استفاده می‌شود، مانند ارزیابی شناختی مونترال (MoCA) بررسی می‌کند.

(1) اختلال شناختی در LLM: این مطالعه نشان می‌دهد که اکثر LLM‌های پیشرو، از جمله ChatGPT نسخه‌های 4 و 4o، و جمینی نسخه‌های 1 و 1.5، نشانه‌هایی از اختلال شناختی خفیف را بر اساس نمرات MoCA نشان می‌دهند. هیچ یک از مدل ها نمره کامل 30 را به دست نیاوردند و اکثر آنها زیر آستانه 26 را کسب کردند که نشان دهنده اختلال شناختی خفیف در انسان است.

(2) تغییرپذیری عملکرد: ChatGPT4o با 26 امتیاز بالاترین امتیاز را کسب کرد و ChatGPT 4 و کلود هر کدام با 25 امتیاز در رتبه های بعدی قرار گرفتند. Gemini1.0 با 16 امتیاز کمترین امتیاز را کسب کرد. عملکرد نسخه‌های قدیمی‌تر LLM عموماً بدتر بود، مشابه عملکرد انسان‌های مسن‌تر در تست‌های شناختی.

(3) نقایص عملکرد بصری و اجرایی: LLMها ضعف‌های قابل توجهی را در عملکردهای دیداری-فضایی و اجرایی نشان دادند، مشابه آنچه در انسان‌های با اختلال شناختی خفیف مشاهده شد. وظایفی که نیاز به انتزاع بصری و عملکرد اجرایی دارند، چالش‌هایی را برای این مدل‌ها ایجاد می‌کند و محدودیت‌هایی را در توانایی آنها برای جایگزینی پزشکان انسانی در نقش‌های تصمیم‌گیری پیچیده برجسته می‌کند.

مفاهیم

(1) محدودیت‌ها در تنظیمات بالینی: این مطالعه نشان می‌دهد که در حالی که LLMها در برخی از وظایف تشخیصی پزشکی ماهر هستند، حساسیت آنها به اختلالات شناختی می‌تواند مانع از کاربرد آنها در محیط‌های بالینی شود که در آن تصمیم‌گیری دقیق مورد نیاز است.

(2) چالش‌های توسعه هوش مصنوعی: یافته‌ها این فرض را به چالش می‌کشند که هوش‌مصنوعی به زودی از توانایی‌های انسانی در کارهای پیچیده پیشی می‌گیرد و بر نیاز به تحقیقات مداوم برای بهبود استحکام شناختی هوش‌مصنوعی تأکید می‌کند.

(3) دستورالعمل‌های تحقیقاتی آینده: توسعه مدل‌های پیشرفته‌تر هوش مصنوعی که می‌توانند بر این محدودیت‌های شناختی غلبه کنند، برای افزایش قابلیت اطمینان و اثربخشی آنها در برنامه‌های کاربردی دنیای واقعی بسیار مهم است.

نتیجه‌گیری

این مطالعه بر اهمیت ارزیابی سیستم‌های هوش مصنوعی با استفاده از ابزارهای ارزیابی شناختی انسان برای شناسایی نقاط ضعف بالقوه تاکید می‌کند. با درک این محدودیت‌ها، محققان می‌توانند به جای جایگزینی کامل، بر توسعه مدل‌های هوش‌مصنوعی قوی‌تر که مکمل توانایی‌های انسان هستند، تمرکز کنند.

در حالی که برخی از جنبه‌های آزمون مانند نام‌گذاری، توجه، زبان و استدلال انتزاعی برای بیشتر مدل‌های زبانی آسان به نظر می‌رسید، همه آن‌ها در مهارت‌های بصری/فضایی و وظایف اجرایی عملکرد ضعیفی داشتند. به‌ویژه، نسخه‌های قدیمی‌تر این مدل‌ها نشانه‌های بیشتری از زوال شناختی نشان دادند. به‌عنوان مثال، نسخه ۴ ChatGPT امتیاز ۲۶ از ۳۰ را کسب کرد، در حالی که نسخه قدیمی‌تر Gemini 1.0 تنها امتیاز ۱۶ را به‌دست آورد. این نتایج نشان می‌دهد که مدل‌های زبانی بزرگ قدیمی‌تر ممکن است نشانه‌هایی از کاهش توانایی‌های شناختی را نشان دهند.

نویسندگان پژوهش اشاره می‌کنند که این یافته‌ها چالش‌هایی را برای فرضیه جایگزینی پزشکان انسانی با هوش مصنوعی مطرح می‌کند، زیرا کاهش توانایی‌های شناختی در چت‌بات‌های پیشرو ممکن است بر قابلیت اطمینان آن‌ها در تشخیص‌های پزشکی تأثیر بگذارد و اعتماد بیماران را تضعیف کند.

برخی از متخصصان هوش مصنوعی معتقدند که این نتایج به معنای ضعف ذاتی در مدل‌های زبانی بزرگ نیست، بلکه نشان‌دهنده نیاز به بهینه‌سازی و به‌روزرسانی مداوم این فناوری‌ها است. آن‌ها بر این باورند که با پیشرفت در توسعه و آموزش مدل‌های جدیدتر، می‌توان بر این چالش‌ها غلبه کرد و از افت شناختی در مدل‌های قدیمی‌تر جلوگیری نمود.

علی روحانی فر دوشنبه 6 اسفند 1403 ساعت 08:30

GML (Graph Machine Learning)

GML (Graph Machine Learning)

درباره من