مفهوم آموزش محاسبه بهینه برای مدلهای زبان بزرگ (LLM) بر به حداکثر رساندن کارایی با متعادل کردن اندازه مدل، حجم دادههای آموزشی و منابع محاسباتی تمرکز دارد. این رویکرد به طور گسترده در آثاری مانند "مقاله چینچیلا" مورد مطالعه قرار گرفته است، که بینشهای پیشگامانهای را در مورد مقیاسبندی موثر LLMها تحت بودجههای محدود ارائه میدهد. در زیر ترکیبی از روشها، یافتهها و جهتگیریهای آینده بر اساس منابع ارائه شده ارائه شده است.
نتایج BIG-bench در مقایسه با Gopher Chinchilla out، Gopher را در همه به جز چهار کار BIG-bench در نظر گرفته شده انجام میدهد.
آموزش Gopher، یک مدل زبان پارامتری 280 میلیاردی که توسط DeepMind توسعه یافته است، نشان دهنده نقطه عطف مهمی در مقیاسبندی مدلهای زبان مبتنی بر Transformer است. این تحقیق بینشی در مورد روشها، چالشها و مبادلات مربوط به مقیاسبندی مدلهای زبان بزرگ (LLM) ارائه میکند و عملکرد آنها را در وظایف مختلف بررسی میکند. در زیر ترکیبی از یافتهها از مقالات و تجزیه و تحلیل است.
شکل 1 | نمودار مراحل پردازش دادهها. همه مراحل در MassiveWeb اعمال میشوند، مجموعه دادههای انتخاب شده از متن وب که 48 درصد از دادههای آموزشی را شامل میشود. برای سایر زیرمجموعههای MassiveText (کتاب، اخبار، کد، C4 و ویکیپدیا)، فیلتر محتوا، کپیبرداری از اسناد و فیلتر مجموعه تست را اعمال میکنیم.
تنظیم دقیق پارامترهای کارآمد[1] (PEFT) مجموعهای از تکنیکهایی است که برای تطبیق مدلهای بزرگ از پیش آموزشدیدهشده با وظایف خاص بدون نیاز به بازآموزی کامل طراحی شدهاند. روشهای PEFT با تغییر تنها زیر مجموعهای از پارامترها، هزینههای محاسباتی و استفاده از حافظه را کاهش میدهند و آنها را برای محیطهای با محدودیت منابع ایدهآل میسازند. در زیر یک راهنمای جامع برای PEFT، شامل دستهبندیها، برنامههای کاربردی و مسیرهای آینده آن آمده است.
دستهبندی روشهای تنظیم دقیق پارامتر کارآمد. ما سه دسته اصلی از روشها را شناسایی میکنیم: مبتنی بر جمع[2]، مبتنی بر انتخاب[3]، و مبتنی بر پارامترسازی مجدد[4]. در روشهای افزایشی، دو گروه بزرگ شامل روشهای آداپتور مانند[5] و درخواستهای نرم[6] را تشخیص میدهیم.
ادامه مطلب ...