خلاصه: پژوهشی تازه نشان میدهد که مدلهای زبانی بزرگ (LLM) و چتباتهای قدیمیتر ممکن است با گذشت زمان دچار کاهش در تواناییهای شناختی، مشابه با افت شناختی در انسانها شوند.
هوش مصنوعی (AI) بهطور فزایندهای در تشخیصهای پزشکی مورد استفاده قرار میگیرد، زیرا این ابزارها میتوانند بهسرعت و با دقت بالا ناهنجاریها و نشانههای هشداردهنده را در سوابق پزشکی، تصاویر رادیولوژی و دیگر دادهها شناسایی کنند. با این حال، پژوهشی که در ۲۰ دسامبر ۲۰۲۴ در مجله BMJ منتشر شده است (https://doi.org/10.1136/bmj-2024-081948)، نگرانیهایی را مطرح میکند مبنی بر اینکه فناوریهایی مانند مدلهای زبانی بزرگ و چتباتها، مشابه انسانها، ممکن است با گذشت زمان دچار کاهش در تواناییهای شناختی شوند.
روش تحقیق: دانشمندان در این مطالعه، چتباتهای مبتنی بر LLM از جمله ChatGPT شرکت OpenAI، Sonnet شرکت Anthropic و Gemini شرکت Alphabet را با استفاده از آزمون ارزیابی شناختی مونترال (MoCA) مورد بررسی قرار دادند. این آزمون شامل مجموعهای از وظایف است که توسط نورولوژیستها برای سنجش تواناییهایی مانند توجه، حافظه، زبان، مهارتهای فضایی و عملکرد اجرایی طراحی شده است.
نتایج: در حالی که برخی از جنبههای آزمون مانند نامگذاری، توجه، زبان و استدلال انتزاعی برای بیشتر مدلهای زبانی آسان به نظر میرسید، همه آنها در مهارتهای بصری/فضایی و وظایف اجرایی عملکرد ضعیفی داشتند. بهویژه، نسخههای قدیمیتر این مدلها نشانههای بیشتری از زوال شناختی نشان دادند. بهعنوان مثال، نسخه ۴ ChatGPT امتیاز ۲۶ از ۳۰ را کسب کرد، در حالی که نسخه قدیمیتر Gemini 1.0 تنها امتیاز ۱۶ را بهدست آورد. این نتایج نشان میدهد که مدلهای زبانی بزرگ قدیمیتر ممکن است نشانههایی از کاهش تواناییهای شناختی را نشان دهند.
نویسندگان پژوهش اشاره میکنند که این یافتهها چالشهایی را برای فرضیه جایگزینی پزشکان انسانی با هوش مصنوعی مطرح میکند، زیرا کاهش تواناییهای شناختی در چتباتهای پیشرو ممکن است بر قابلیت اطمینان آنها در تشخیصهای پزشکی تأثیر بگذارد و اعتماد بیماران را تضعیف کند.
برخی از متخصصان هوش مصنوعی معتقدند که این نتایج به معنای ضعف ذاتی در مدلهای زبانی بزرگ نیست، بلکه نشاندهنده نیاز به بهینهسازی و بهروزرسانی مداوم این فناوریها است. آنها بر این باورند که با پیشرفت در توسعه و آموزش مدلهای جدیدتر، میتوان بر این چالشها غلبه کرد و از افت شناختی در مدلهای قدیمیتر جلوگیری نمود.
مفاهیم
(1) محدودیتها در تنظیمات بالینی: این مطالعه نشان میدهد که در حالی که LLMها در برخی از وظایف تشخیصی پزشکی ماهر هستند، حساسیت آنها به اختلالات شناختی میتواند مانع از کاربرد آنها در محیطهای بالینی شود که در آن تصمیمگیری دقیق مورد نیاز است.
(2) چالشهای توسعه هوش مصنوعی: یافتهها این فرض را به چالش میکشند که هوشمصنوعی به زودی از تواناییهای انسانی در کارهای پیچیده پیشی میگیرد و بر نیاز به تحقیقات مداوم برای بهبود استحکام شناختی هوشمصنوعی تأکید میکند.
(3) دستورالعملهای تحقیقاتی آینده: توسعه مدلهای پیشرفتهتر هوش مصنوعی که میتوانند بر این محدودیتهای شناختی غلبه کنند، برای افزایش قابلیت اطمینان و اثربخشی آنها در برنامههای کاربردی دنیای واقعی بسیار مهم است.
نتیجهگیری
این مطالعه بر اهمیت ارزیابی سیستمهای هوش مصنوعی با استفاده از ابزارهای ارزیابی شناختی انسان برای شناسایی نقاط ضعف بالقوه تاکید میکند. با درک این محدودیتها، محققان میتوانند به جای جایگزینی کامل، بر توسعه مدلهای هوشمصنوعی قویتر که مکمل تواناییهای انسان هستند، تمرکز کنند.
[1] https://pubmed.ncbi.nlm.nih.gov/39706600/
[2] https://www.eurekalert.org/news-releases/1068361
[3] https://www.bmj.com/content/bmj/387/bmj-2024-081948.full.pdf
[4] https://pmc.ncbi.nlm.nih.gov/articles/PMC10936766/
[5] https://pmc.ncbi.nlm.nih.gov/articles/PMC10752754/
[7] https://www.bmj.com/content/387/bmj-2024-081948/rr-6