آموزش Gopher، یک مدل زبان پارامتری 280 میلیاردی که توسط DeepMind توسعه یافته است، نشان دهنده نقطه عطف مهمی در مقیاسبندی مدلهای زبان مبتنی بر Transformer است. این تحقیق بینشی در مورد روشها، چالشها و مبادلات مربوط به مقیاسبندی مدلهای زبان بزرگ (LLM) ارائه میکند و عملکرد آنها را در وظایف مختلف بررسی میکند. در زیر ترکیبی از یافتهها از مقالات و تجزیه و تحلیل است.
شکل 1 | نمودار مراحل پردازش دادهها. همه مراحل در MassiveWeb اعمال میشوند، مجموعه دادههای انتخاب شده از متن وب که 48 درصد از دادههای آموزشی را شامل میشود. برای سایر زیرمجموعههای MassiveText (کتاب، اخبار، کد، C4 و ویکیپدیا)، فیلتر محتوا، کپیبرداری از اسناد و فیلتر مجموعه تست را اعمال میکنیم.
(ب) 20 دامنه برتر MassiveWeb (الف) زبانهای غیر انگلیسی در MassiveText
شکل ۲ | آمار مجموعه داده (الف) توزیع زبانها (غیر انگلیسی) در MassiveText، به استثنای GitHub. بیش از 99 درصد از MassiveText انگلیسی است. متن باقیمانده عمدتاً هندی و پس از آن زبانهای اروپایی است. (ب) 20 دامنه برتر MassiveWeb با بیشترین تعداد توکن. چهار حوزه از شش حوزه برتر، با وجود اینکه MassiveWeb به طور صریح نسبت به آنها سوگیری ندارند، ماهیت علمی یا آکادمیک دارند.
شکل ۳: MassiveWeb Ablations. عملکرد مدلهای پارامتر 1.4B (کمتر بهتر است) آموزشدیده بر روی OpenWebText، C4 و نسخههای MassiveWeb با مراحل پیشپردازش به تدریج اضافه شده است. عملکرد پاییندستی ورودی بدون فیلتر MassiveWeb برای خلاصهسازی Corpus Corpus و پیشبینی کلمه در سطح کتاب LAMBADA بدتر است. اعمال فیلتر با کیفیت و مراحل حذف مجدد به طور قابل توجهی کیفیت را بهبود میبخشد. نسخه نهایی MassiveWeb به طور مداوم از دو مجموعه داده پایه در نظر گرفته شده بهتر عمل میکند.
1. اهداف کلیدی
- مقیاسبندی عملکرد: بررسی کنید که چگونه افزایش اندازه مدل بر عملکرد در 152 کار، از جمله درک مطلب، بررسی واقعیت، و شناسایی زبان سمی تأثیر میگذارد.
- کارایی محاسبه: رابطه بین اندازه مدل، تعداد توکنهای آموزشی و منابع محاسباتی را برای بهینهسازی تنظیمات آموزشی تجزیه و تحلیل کنید.
- ملاحظات اخلاقی: به مسائلی مانند سوگیری، و ایمنی هوشمصنوعی در مدلهای مقیاسپذیر رسیدگی کنید.
2. روشهای مقیاسبندی
* اندازه مدل در مقابل دادههای آموزشی
- Gopher: با 280 میلیارد پارامتر روی تقریباً 300 میلیارد توکن آموزش دیده است. در حالی که دستیابی به عملکرد پیشرفته در بسیاری از وظایف، تجزیه و تحلیل ناکارآمدی را در تخصیص محاسبات نشان داد.
- چینچیلا: یک مدل کوچکتر (70 میلیارد پارامتر) آموزش داده شده بر روی 1.3 تریلیون توکن نشان داد که افزایش دادههای آموزشی به جای اندازه مدل نتایج بهتری را تحت بودجههای محاسباتی ثابت به همراه دارد [1][3].
* تخصیص محاسبه بهینه
- یافتههای تجربی نشان میدهد که مدلهای بزرگ فعلی نسبت به دادههای آموزشی آنها بیش از حد پارامتر شدهاند. به عنوان مثال:
- یک مدل کوچکتر که روی توکنهای بیشتری آموزش داده شده بود، از مدلهای بزرگتر مانند Gopher بهتر عمل کرد.
- موفقیت چینچیلا اهمیت متعادل کردن تعداد پارامترها با شمارش توکن را برجسته میکند.
* تکنیکهای آموزشی
- استفاده از معماری ترانسفورمر با تغییراتی که برای مقیاسبندی طراحی شدهاند.
- روشهای بهینهسازی کارآمد برای کاهش مصرف انرژی در حین تمرین [2][6].
3. تجزیه و تحلیل عملکرد
* دستاوردهای خاص وظیفه
- سود حاصل از پوسته پوسته شدن بیشتر در موارد زیر مشهود بود:
- درک مطلب: درک بهتر و پاسخهای متنی.
- بررسی واقعیت: افزایش دقت در تأیید اطلاعات.
- شناسایی زبان: کاهش تولید محتوای مضر.
* مناطق با بهبود محدود
- استدلال منطقی و تکالیف ریاضی با افزایش اندازه مدل بازدهی کاهشی نشان دادند [3][4].
مقایسه بین مدلها
مدل |
توکنهای آموزشی |
پارامترها |
بینشهای کلیدی |
Gopher |
280B |
300B |
پیشرفته ترین اما محاسباتی ناکارآمد |
Chinchilla |
70B |
1.3T |
علیرغم اندازه کوچکتر Gopher عملکرد بهتری داشت |
PALM |
540B |
768B |
بودجه محاسباتی بزرگتر اما راهاندازی کمتر از حد مطلوب |
4. ملاحظات اخلاقی
* سوگیری
- مدلهای بزرگتر، سوگیریهای موجود در دادههای آموزشی را تقویت میکنند و به استراتژیهای کاهش قوی نیاز دارند.
- تحقیقات Gopher بر اهمیت شناسایی و به حداقل رساندن خروجیهای مضر تأکید کرد.
* ایمنی هوشمصنوعی: قابلیت ردیابی خروجیها به دادههای آموزشی به عنوان روشی برای افزایش پاسخگویی پیشنهاد شد [2][6].
5. بینش برای مقیاسگذاری آینده
- 1. محاسبه بهینهسازی:
- تعداد پارامترهای موجود با تعداد توکن برای استفاده کارآمد از منابع.
- مدلهای کوچکتر آموزش داده شده بر روی مجموعه دادههای بزرگتر (مانند چینچیلا) از نظر محاسباتی بهینهتر هستند.
- 2. تطبیق ویژه کار: به جای تکیه بر مقیاسبندی، بر تنظیم دقیق مدلهای کوچکتر برای کارهای خاص تمرکز کنید.
- 3. پادمانهای اخلاقی:
- توسعه روشهایی برای کاهش سوگیری و سمیت در مقیاس.
- از قابلیت ردیابی خروجیهای مدل برای پاسخگویی اطمینان حاصل کنید.
- 4. کارایی استنتاج: مدلهای کوچکتر مانند چینچیلا هزینههای استنتاج را کاهش میدهند و در عین حال عملکرد بالا را حفظ میکنند و آنها را برای استقرار در محیطهای با محدودیت منابع مناسبتر میکند [1][3].
نتیجهگیری
آموزش Gopher اهمیت استراتژیهای مقیاسبندی متفکرانه را در مدلسازی زبان برجسته میکند. با اولویتبندی تخصیص محاسباتی کارآمد و پرداختن به نگرانیهای اخلاقی، محققان میتوانند مدلهایی را توسعه دهند که برای کاربردهای دنیای واقعی هم قدرتمند و هم کاربردی هستند. موفقیت چینچیلا نشان میدهد که کاهش اندازه پارامتر و افزایش توکنهای آموزشی یک جهت امیدوارکننده برای توسعه آینده LLM است.
1. [DeepMind Blog: Compute-Optimal Large Language Model Training] (https://deepmind.google/discover/blog/an-empirical-analysis-of-compute-optimal-large-language-model-training) [1].
2. [DeepMind Blog: Gopher Ethical Considerations] (https://deepmind.google/discover/blog/language-modelling-at-scale-gopher-ethical-considerations-and-retrieval) [2].
3. [Hugging Face Paper Summary] (https://huggingface.co/papers/2112.11446) [3].
4. [Papers with Code] (https://paperswithcode.com/paper/scaling-language-models-methods-analysis-1) [4].
5. [arXiv PDF] (https://arxiv.org/pdf/2112.11446.pdf) [5][6].
[3] https://huggingface.co/papers/2112.11446
[4] https://paperswithcode.com/paper/scaling-language-models-methods-analysis-1
[5] https://arxiv.org/pdf/2112.11446.pdf