«مدلهای زبان مقیاسبندی: روشها، تحلیل و بینشهای آموزش گوفر» یک مقاله تحقیقاتی است که مدلهای زبان مبتنی بر ترانسفورماتور را در مقیاسهای مختلف، از دهها میلیون تا ۲۸۰ میلیارد پارامتر، تحلیل میکند. این مقاله یک تجزیه و تحلیل جامع از مجموعه داده آموزشی و رفتار مدل ارائه میکند، که به تقاطع مقیاس مدل با سوگیری و سمیت نگاه میکند. مدلها بر روی 152 کار متنوع مورد ارزیابی قرار گرفتند و عملکردی پیشرفته در اکثر آنها به دست آوردند. سود حاصل از مقیاس بندی در زمینه هایی مانند درک مطلب، بررسی حقایق و شناسایی زبان سمی بسیار مهم بود، اما در استدلال منطقی و ریاضی کمتر بود.
جنبه های کلیدی مدل گوفر و تحقیق عبارتند از:
معماری مدل: مدلها از معماری ترانسفورماتور اتورگرسیو با تغییراتی مانند RMSNorm و کدگذاری موقعیتی نسبی استفاده میکنند.
جزئیات آموزش: مدل ها برای 300 میلیارد توکن با استفاده از Adam optimizer1 آموزش داده شدند. با افزایش اندازه مدل، حداکثر نرخ یادگیری کاهش یافت و اندازه دسته افزایش یافت.
مجموعه داده های آموزشی: مدل ها بر روی MassiveText، مجموعه بزرگی از مجموعه داده های متنی به زبان انگلیسی از منابع مختلف، که مجموعاً 2.35 میلیارد سند یا حدود 10.5 ترابایت متن را شامل می شود، آموزش داده شدند.
وظایف ارزیابی: مدلها در 152 کار، از جمله مدلسازی زبان، درک مطلب، بررسی واقعیت، پاسخگویی به سؤال، استدلال عقل سلیم و موارد دیگر مورد ارزیابی قرار گرفتند.
عملکرد: مدل Gopher در طیف وسیعی از وظایف، با مهمترین دستاوردها در درک مطلب، بررسی واقعیت و شناسایی زبان سمی، بهبودهایی را نشان داد. این تحقیق همچنین کاربرد مدلهای زبانی برای ایمنی هوش مصنوعی و کاهش آسیبهای پاییندستی را بررسی میکند.