مدل‌های زبان مقیاس‌بندی: روش‌ها، تجزیه و تحلیل و بینش‌های آموزشی Gopher

آموزش Gopher، یک مدل زبان پارامتری 280 میلیاردی که توسط DeepMind توسعه یافته است، نشان دهنده نقطه عطف مهمی در مقیاس‌بندی مدل‌های زبان مبتنی بر Transformer است. این تحقیق بینشی در مورد روش‌ها، چالش‌ها و مبادلات مربوط به مقیاس‌بندی مدل‌های زبان بزرگ (LLM) ارائه می‌کند و عملکرد آنها را در وظایف مختلف بررسی می‌کند. در زیر ترکیبی از یافته‌ها از مقالات و تجزیه و تحلیل است.

شکل 1 | نمودار مراحل پردازش داده‌ها. همه مراحل در MassiveWeb اعمال می‌شوند، مجموعه داده‌های انتخاب شده از متن وب که 48 درصد از داده‌های آموزشی را شامل می‌شود. برای سایر زیرمجموعه‌های MassiveText (کتاب، اخبار، کد، C4 و ویکی‌پدیا)، فیلتر محتوا، کپی‌برداری از اسناد و فیلتر مجموعه تست را اعمال می‌کنیم.

(ب) 20 دامنه برتر MassiveWeb (الف) زبان‌های غیر انگلیسی در MassiveText

شکل ۲ | آمار مجموعه داده (الف) توزیع زبان‌ها (غیر انگلیسی) در MassiveText، به استثنای GitHub. بیش از 99 درصد از MassiveText انگلیسی است. متن باقیمانده عمدتاً هندی و پس از آن زبان‌های اروپایی است. (ب) 20 دامنه برتر MassiveWeb با بیشترین تعداد توکن. چهار حوزه از شش حوزه برتر، با وجود اینکه MassiveWeb به طور صریح نسبت به آنها سوگیری ندارند، ماهیت علمی یا آکادمیک دارند.

شکل ۳: MassiveWeb Ablations. عملکرد مدل‌های پارامتر 1.4B (کمتر بهتر است) آموزش‌دیده بر روی OpenWebText، C4 و نسخه‌های MassiveWeb با مراحل پیش‌پردازش به تدریج اضافه شده است. عملکرد پایین‌دستی ورودی بدون فیلتر MassiveWeb برای خلاصه‌سازی Corpus Corpus و پیش‌بینی کلمه در سطح کتاب LAMBADA بدتر است. اعمال فیلتر با کیفیت و مراحل حذف مجدد به طور قابل توجهی کیفیت را بهبود می‌بخشد. نسخه نهایی MassiveWeb به طور مداوم از دو مجموعه داده پایه در نظر گرفته شده بهتر عمل می‌کند.

1. اهداف کلیدی

- مقیاس‌بندی عملکرد: بررسی کنید که چگونه افزایش اندازه مدل بر عملکرد در 152 کار، از جمله درک مطلب، بررسی واقعیت، و شناسایی زبان سمی تأثیر می‌گذارد.

- کارایی محاسبه: رابطه بین اندازه مدل، تعداد توکن‌های آموزشی و منابع محاسباتی را برای بهینه‌سازی تنظیمات آموزشی تجزیه و تحلیل کنید.

- ملاحظات اخلاقی: به مسائلی مانند سوگیری، و ایمنی هوش‌مصنوعی در مدل‌های مقیاس‌پذیر رسیدگی کنید.

2. روش‌های مقیاس‌بندی

* اندازه مدل در مقابل داده‌های آموزشی

- Gopher: با 280 میلیارد پارامتر روی تقریباً 300 میلیارد توکن آموزش دیده است. در حالی که دستیابی به عملکرد پیشرفته در بسیاری از وظایف، تجزیه و تحلیل ناکارآمدی را در تخصیص محاسبات نشان داد.

- چینچیلا: یک مدل کوچکتر (70 میلیارد پارامتر) آموزش داده شده بر روی 1.3 تریلیون توکن نشان داد که افزایش داده‌های آموزشی به جای اندازه مدل نتایج بهتری را تحت بودجه‌های محاسباتی ثابت به همراه دارد [1][3].

* تخصیص محاسبه بهینه

- یافته‌های تجربی نشان می‌دهد که مدل‌های بزرگ فعلی نسبت به داده‌های آموزشی آن‌ها بیش از حد پارامتر شده‌اند. به عنوان مثال:

- یک مدل کوچکتر که روی توکن‌های بیشتری آموزش داده شده بود، از مدل‌های بزرگتر مانند Gopher بهتر عمل کرد.

- موفقیت چینچیلا اهمیت متعادل کردن تعداد پارامترها با شمارش توکن را برجسته می‌کند.

* تکنیک‌های آموزشی

- استفاده از معماری ترانسفورمر با تغییراتی که برای مقیاس‌بندی طراحی شده‌اند.

- روش‌های بهینه‌سازی کارآمد برای کاهش مصرف انرژی در حین تمرین [2][6].

3. تجزیه و تحلیل عملکرد

* دستاوردهای خاص وظیفه

- سود حاصل از پوسته پوسته شدن بیشتر در موارد زیر مشهود بود:

- درک مطلب: درک بهتر و پاسخ‌های متنی.

- بررسی واقعیت: افزایش دقت در تأیید اطلاعات.

- شناسایی زبان: کاهش تولید محتوای مضر.

* مناطق با بهبود محدود

- استدلال منطقی و تکالیف ریاضی با افزایش اندازه مدل بازدهی کاهشی نشان دادند [3][4].

مقایسه بین مدل‌ها

مدل	توکن‌های آموزشی	پارامترها	بینش‌های کلیدی
Gopher	280B	300B	پیشرفته ترین اما محاسباتی ناکارآمد
Chinchilla	70B	1.3T	علیرغم اندازه کوچکتر Gopher عملکرد بهتری داشت
PALM	540B	768B	بودجه محاسباتی بزرگتر اما راه‌اندازی کمتر از حد مطلوب

4. ملاحظات اخلاقی

* سوگیری

- مدل‌های بزرگ‌تر، سوگیری‌های موجود در داده‌های آموزشی را تقویت می‌کنند و به استراتژی‌های کاهش قوی نیاز دارند.

- تحقیقات Gopher بر اهمیت شناسایی و به حداقل رساندن خروجی‌های مضر تأکید کرد.

* ایمنی هوش‌مصنوعی: قابلیت ردیابی خروجی‌ها به داده‌های آموزشی به عنوان روشی برای افزایش پاسخگویی پیشنهاد شد [2][6].

5. بینش برای مقیاس‌گذاری آینده

- 1. محاسبه بهینه‌سازی:

- تعداد پارامترهای موجود با تعداد توکن برای استفاده کارآمد از منابع.

- مدل‌های کوچکتر آموزش داده شده بر روی مجموعه داده‌های بزرگتر (مانند چینچیلا) از نظر محاسباتی بهینه‌تر هستند.

- 2. تطبیق ویژه کار: به جای تکیه بر مقیاس‌بندی، بر تنظیم دقیق مدل‌های کوچکتر برای کارهای خاص تمرکز کنید.

- 3. پادمان‌های اخلاقی:

- توسعه روش‌هایی برای کاهش سوگیری و سمیت در مقیاس.

- از قابلیت ردیابی خروجی‌های مدل برای پاسخگویی اطمینان حاصل کنید.

- 4. کارایی استنتاج: مدل‌های کوچکتر مانند چینچیلا هزینه‌های استنتاج را کاهش می‌دهند و در عین حال عملکرد بالا را حفظ می‌کنند و آنها را برای استقرار در محیط‌های با محدودیت منابع مناسب‌تر می‌کند [1][3].

نتیجه‌گیری

آموزش Gopher اهمیت استراتژی‌های مقیاس‌بندی متفکرانه را در مدل‌سازی زبان برجسته می‌کند. با اولویت‌بندی تخصیص محاسباتی کارآمد و پرداختن به نگرانی‌های اخلاقی، محققان می‌توانند مدل‌هایی را توسعه دهند که برای کاربردهای دنیای واقعی هم قدرتمند و هم کاربردی هستند. موفقیت چینچیلا نشان می‌دهد که کاهش اندازه پارامتر و افزایش توکن‌های آموزشی یک جهت امیدوارکننده برای توسعه آینده LLM است.

1. [DeepMind Blog: Compute-Optimal Large Language Model Training] (https://deepmind.google/discover/blog/an-empirical-analysis-of-compute-optimal-large-language-model-training) [1].

2. [DeepMind Blog: Gopher Ethical Considerations] (https://deepmind.google/discover/blog/language-modelling-at-scale-gopher-ethical-considerations-and-retrieval) [2].

3. [Hugging Face Paper Summary] (https://huggingface.co/papers/2112.11446) [3].

4. [Papers with Code] (https://paperswithcode.com/paper/scaling-language-models-methods-analysis-1) [4].

5. [arXiv PDF] (https://arxiv.org/pdf/2112.11446.pdf) [5][6].

[1] https://deepmind.google/discover/blog/an-empirical-analysis-of-compute-optimal-large-language-model-training/

[2] https://deepmind.google/discover/blog/language-modelling-at-scale-gopher-ethical-considerations-and-retrieval/

[3] https://huggingface.co/papers/2112.11446

[4] https://paperswithcode.com/paper/scaling-language-models-methods-analysis-1

[5] https://arxiv.org/pdf/2112.11446.pdf

[6] https://arxiv.org/pdf/2112.11446v2.pdf

[7] https://www.semanticscholar.org/paper/Scaling-Language-Models:-Methods,-Analysis-&-from-Rae-Borgeaud/68f141724814839d556a989646194be88641b143