CNDM (Complex Networks and Data Mining)

CNDM (Complex Networks and Data Mining)

شبکه‌های پیچیده و داده کاوی
CNDM (Complex Networks and Data Mining)

CNDM (Complex Networks and Data Mining)

شبکه‌های پیچیده و داده کاوی

مدل‌های زبان مقیاس‌بندی: روش‌ها، تجزیه و تحلیل و بینش‌های آموزشی Gopher

«مدل‌های زبان مقیاس‌بندی: روش‌ها، تحلیل و بینش‌های آموزش گوفر» یک مقاله تحقیقاتی است که مدل‌های زبان مبتنی بر ترانسفورماتور را در مقیاس‌های مختلف، از ده‌ها میلیون تا ۲۸۰ میلیارد پارامتر، تحلیل می‌کند. این مقاله یک تجزیه و تحلیل جامع از مجموعه داده آموزشی و رفتار مدل ارائه می‌کند، که به تقاطع مقیاس مدل با سوگیری و سمیت نگاه می‌کند. مدل‌ها بر روی 152 کار متنوع مورد ارزیابی قرار گرفتند و عملکردی پیشرفته در اکثر آنها به دست آوردند. سود حاصل از مقیاس بندی در زمینه هایی مانند درک مطلب، بررسی حقایق و شناسایی زبان سمی بسیار مهم بود، اما در استدلال منطقی و ریاضی کمتر بود.

 
 

جنبه های کلیدی مدل گوفر و تحقیق عبارتند از:

معماری مدل: مدل‌ها از معماری ترانسفورماتور اتورگرسیو با تغییراتی مانند RMSNorm و کدگذاری موقعیتی نسبی استفاده می‌کنند.

جزئیات آموزش: مدل ها برای 300 میلیارد توکن با استفاده از Adam optimizer1 آموزش داده شدند. با افزایش اندازه مدل، حداکثر نرخ یادگیری کاهش یافت و اندازه دسته افزایش یافت.

مجموعه داده های آموزشی: مدل ها بر روی MassiveText، مجموعه بزرگی از مجموعه داده های متنی به زبان انگلیسی از منابع مختلف، که مجموعاً 2.35 میلیارد سند یا حدود 10.5 ترابایت متن را شامل می شود، آموزش داده شدند.

وظایف ارزیابی: مدل‌ها در 152 کار، از جمله مدل‌سازی زبان، درک مطلب، بررسی واقعیت، پاسخ‌گویی به سؤال، استدلال عقل سلیم و موارد دیگر مورد ارزیابی قرار گرفتند.

عملکرد: مدل Gopher در طیف وسیعی از وظایف، با مهمترین دستاوردها در درک مطلب، بررسی واقعیت و شناسایی زبان سمی، بهبودهایی را نشان داد. این تحقیق همچنین کاربرد مدل‌های زبانی برای ایمنی هوش مصنوعی و کاهش آسیب‌های پایین‌دستی را بررسی می‌کند.

https://arxiv.org/pdf/2112.11446

نظرات 0 + ارسال نظر
ایمیل شما بعد از ثبت نمایش داده نخواهد شد