GML (Graph Machine Learning)

GML (Graph Machine Learning)

یادگیری ماشین گراف
GML (Graph Machine Learning)

GML (Graph Machine Learning)

یادگیری ماشین گراف

مدل‌های زبان مقیاس‌بندی: روش‌ها، تجزیه و تحلیل و بینش‌های آموزشی Gopher

آموزش Gopher، یک مدل زبان پارامتری 280 میلیاردی که توسط DeepMind توسعه یافته است، نشان دهنده نقطه عطف مهمی در مقیاس‌بندی مدل‌های زبان مبتنی بر Transformer است. این تحقیق بینشی در مورد روش‌ها، چالش‌ها و مبادلات مربوط به مقیاس‌بندی مدل‌های زبان بزرگ (LLM) ارائه می‌کند و عملکرد آنها را در وظایف مختلف بررسی می‌کند. در زیر ترکیبی از یافتهها از مقالات و تجزیه و تحلیل است.

شکل 1 | نمودار مراحل پردازش داده‌ها. همه مراحل در MassiveWeb اعمال می‌شوند، مجموعه داده‌های انتخاب شده از متن وب که 48 درصد از داده‌های آموزشی را شامل می‌شود. برای سایر زیرمجموعه‌های MassiveText (کتاب، اخبار، کد، C4 و ویکی‌پدیا)، فیلتر محتوا، کپی‌برداری از اسناد و فیلتر مجموعه تست را اعمال می‌کنیم.

  

(ب) 20 دامنه برتر MassiveWeb                                    (الف) زبان‌های غیر انگلیسی در MassiveText

شکل ۲ | آمار مجموعه داده (الف) توزیع زبان‌ها (غیر انگلیسی) در MassiveText، به استثنای GitHub. بیش از 99 درصد از MassiveText انگلیسی است. متن باقیمانده عمدتاً هندی و پس از آن زبان‌های اروپایی است. (ب) 20 دامنه برتر MassiveWeb با بیشترین تعداد توکن. چهار حوزه از شش حوزه برتر، با وجود اینکه MassiveWeb به طور صریح نسبت به آنها سوگیری ندارند، ماهیت علمی یا آکادمیک دارند.

شکل ۳: MassiveWeb Ablations.  عملکرد مدل‌های پارامتر 1.4B (کمتر بهتر است) آموزش‌دیده بر روی OpenWebText، C4 و نسخه‌های MassiveWeb با مراحل پیش‌پردازش به تدریج اضافه شده است. عملکرد پایین‌دستی ورودی بدون فیلتر MassiveWeb برای خلاصه‌سازی Corpus Corpus و پیش‌بینی کلمه در سطح کتاب LAMBADA بدتر است. اعمال فیلتر با کیفیت و مراحل حذف مجدد به طور قابل توجهی کیفیت را بهبود می‌بخشد. نسخه نهایی MassiveWeb به طور مداوم از دو مجموعه داده پایه در نظر گرفته شده بهتر عمل می‌کند.


 1. اهداف کلیدی

- مقیاسبندی عملکرد: بررسی کنید که چگونه افزایش اندازه مدل بر عملکرد در 152 کار، از جمله درک مطلب، بررسی واقعیت، و شناسایی زبان سمی تأثیر می‌گذارد.

- کارایی محاسبه: رابطه بین اندازه مدل، تعداد توکن‌های آموزشی و منابع محاسباتی را برای بهینهسازی تنظیمات آموزشی تجزیه و تحلیل کنید.

- ملاحظات اخلاقی: به مسائلی مانند سوگیری، و ایمنی هوش‌مصنوعی در مدل‌های مقیاس‌پذیر رسیدگی کنید.

 

 2. روش‌های مقیاسبندی

* اندازه مدل در مقابل داده‌های آموزشی

- Gopher: با 280 میلیارد پارامتر روی تقریباً 300 میلیارد توکن آموزش دیده است. در حالی که دستیابی به عملکرد پیشرفته در بسیاری از وظایف، تجزیه و تحلیل ناکارآمدی را در تخصیص محاسبات نشان داد.

- چینچیلا: یک مدل کوچکتر (70 میلیارد پارامتر) آموزش داده شده بر روی 1.3 تریلیون توکن نشان داد که افزایش داده‌های آموزشی به جای اندازه مدل نتایج بهتری را تحت بودجه‌های محاسباتی ثابت به همراه دارد [1][3].

 

* تخصیص محاسبه بهینه

- یافته‌های تجربی نشان می‌دهد که مدل‌های بزرگ فعلی نسبت به داده‌های آموزشی آن‌ها بیش از حد پارامتر شده‌اند. به عنوان مثال:

 - یک مدل کوچکتر که روی توکن‌های بیشتری آموزش داده شده بود، از مدل‌های بزرگتر مانند Gopher بهتر عمل کرد.

 - موفقیت چینچیلا اهمیت متعادل کردن تعداد پارامترها با شمارش توکن را برجسته می‌کند.

 

* تکنیکهای آموزشی

- استفاده از معماری ترانسفورمر با تغییراتی که برای مقیاسبندی طراحی شده‌اند.

- روش‌های بهینهسازی کارآمد برای کاهش مصرف انرژی در حین تمرین [2][6].

 

 3. تجزیه و تحلیل عملکرد

* دستاوردهای خاص وظیفه

- سود حاصل از پوسته پوسته شدن بیشتر در موارد زیر مشهود بود:

 - درک مطلب: درک بهتر و پاسخ‌های متنی.

 - بررسی واقعیت: افزایش دقت در تأیید اطلاعات.

 - شناسایی زبان: کاهش تولید محتوای مضر.

 

* مناطق با بهبود محدود

- استدلال منطقی و تکالیف ریاضی با افزایش اندازه مدل بازدهی کاهشی نشان دادند [3][4].

 

مقایسه بین مدل‌ها

مدل

توکنهای آموزشی

پارامترها

بینشهای کلیدی

Gopher

280B

300B

پیشرفته ترین اما محاسباتی ناکارآمد

Chinchilla

70B

1.3T

علیرغم اندازه کوچکتر Gopher عملکرد بهتری داشت

PALM

540B

768B

بودجه محاسباتی بزرگتر اما راهاندازی کمتر از حد مطلوب

 

 4. ملاحظات اخلاقی

* سوگیری

- مدل‌های بزرگ‌تر، سوگیری‌های موجود در داده‌های آموزشی را تقویت می‌کنند و به استراتژی‌های کاهش قوی نیاز دارند.

- تحقیقات Gopher بر اهمیت شناسایی و به حداقل رساندن خروجی‌های مضر تأکید کرد.

 

* ایمنی هوش‌مصنوعی: قابلیت ردیابی خروجی‌ها به داده‌های آموزشی به عنوان روشی برای افزایش پاسخگویی پیشنهاد شد [2][6].

 

 5. بینش برای مقیاسگذاری آینده

- 1. محاسبه بهینهسازی:

 - تعداد پارامترهای موجود با تعداد توکن برای استفاده کارآمد از منابع.

 - مدل‌های کوچکتر آموزش داده شده بر روی مجموعه داده‌های بزرگتر (مانند چینچیلا) از نظر محاسباتی بهینهتر هستند.

- 2. تطبیق ویژه کار: به جای تکیه بر مقیاسبندی، بر تنظیم دقیق مدل‌های کوچکتر برای کارهای خاص تمرکز کنید.

- 3. پادمان‌های اخلاقی:

 - توسعه روش‌هایی برای کاهش سوگیری و سمیت در مقیاس.

 - از قابلیت ردیابی خروجی‌های مدل برای پاسخگویی اطمینان حاصل کنید.

- 4. کارایی استنتاج: مدل‌های کوچکتر مانند چینچیلا هزینههای استنتاج را کاهش می‌دهند و در عین حال عملکرد بالا را حفظ می‌کنند و آنها را برای استقرار در محیطهای با محدودیت منابع مناسب‌تر می‌کند [1][3].

 

نتیجهگیری

آموزش Gopher اهمیت استراتژی‌های مقیاس‌بندی متفکرانه را در مدل‌سازی زبان برجسته می‌کند. با اولویت‌بندی تخصیص محاسباتی کارآمد و پرداختن به نگرانی‌های اخلاقی، محققان می‌توانند مدل‌هایی را توسعه دهند که برای کاربردهای دنیای واقعی هم قدرتمند و هم کاربردی هستند. موفقیت چینچیلا نشان می‌دهد که کاهش اندازه پارامتر و افزایش توکن‌های آموزشی یک جهت امیدوارکننده برای توسعه آینده LLM است.

  

 1. [DeepMind Blog: Compute-Optimal Large Language Model Training] (https://deepmind.google/discover/blog/an-empirical-analysis-of-compute-optimal-large-language-model-training) [1]. 

 2. [DeepMind Blog: Gopher Ethical Considerations] (https://deepmind.google/discover/blog/language-modelling-at-scale-gopher-ethical-considerations-and-retrieval) [2]. 

 3. [Hugging Face Paper Summary] (https://huggingface.co/papers/2112.11446) [3].

 4. [Papers with Code] (https://paperswithcode.com/paper/scaling-language-models-methods-analysis-1) [4]. 

 5. [arXiv PDF] (https://arxiv.org/pdf/2112.11446.pdf) [5][6].

 

[1] https://deepmind.google/discover/blog/an-empirical-analysis-of-compute-optimal-large-language-model-training/

[2] https://deepmind.google/discover/blog/language-modelling-at-scale-gopher-ethical-considerations-and-retrieval/

[3] https://huggingface.co/papers/2112.11446

[4] https://paperswithcode.com/paper/scaling-language-models-methods-analysis-1

[5] https://arxiv.org/pdf/2112.11446.pdf

[6] https://arxiv.org/pdf/2112.11446v2.pdf

[7] https://www.semanticscholar.org/paper/Scaling-Language-Models:-Methods,-Analysis-&-from-Rae-Borgeaud/68f141724814839d556a989646194be88641b143

[8] https://dblp.org/rec/journals/corr/abs-2112-11446.html

نظرات 0 + ارسال نظر
ایمیل شما بعد از ثبت نمایش داده نخواهد شد