GML (Graph Machine Learning)

GML (Graph Machine Learning)

یادگیری ماشین گراف
GML (Graph Machine Learning)

GML (Graph Machine Learning)

یادگیری ماشین گراف

Pythia: مجموعه‌ای برای تجزیه و تحلیل مدل‌های زبان بزرگ در آموزش و مقیاس‌بندی

Pythia که توسط EleutherAI توسعه یافته است، مجموعه‌ای از 16 مدل زبان بزرگ (LLM) است که برای ارائه بینش‌های تکرارپذیر در مورد پویایی آموزش و رفتار مقیاس‌پذیری مدل‌های ترانسفورمر اتورگرسیو طراحی شده‌اند. این مجموعه تحقیقات عمیق را در مورد چگونگی تکامل LLM ها در طول آموزش و چگونگی تغییر عملکرد آنها با مقیاس آنها تسهیل می‌کند. در زیر مروری بر ویژگی‌های کلیدی، روش‌شناسی، مطالعات موردی و برنامه‌های کاربردی ارائه شده است.

 

 1. مروری بر Pythia

* هدف

-          برای مطالعه تکامل LLM ها در آموزش و مقیاس‌بندی.

-          امکان تکرارپذیری در تحقیقات با فراهم کردن دسترسی عمومی به مدل‌ها، نقاط بازرسی، بارگذارهای داده آموزشی و فراپارامترها.

* سوئیت مدل

-          اندازه‌ها: محدوده از پارامترهای 70M تا 12B.

-          داده‌های آموزشی: مدل‌ها بر روی مجموعه داده Pile (300B توکن) و نسخه حذف شده آن (207B توکن) آموزش داده می‌شوند.

-          پست‌های بازرسی: 154 ایست بازرسی در هر مدل، از جمله فواصل ثبت شده برای مراحل اولیه آموزش.

  

 

- 2. روش‌شناسی

* فرآیند آموزش

- همه مدل‌ها بر روی داده‌های یکسان به ترتیب دقیقاً یکسان آموزش داده می‌شوند تا از سازگاری اطمینان حاصل شود.

- معماری:

-          لایههای کاملا متراکم با توجه فلاش برای کارایی.

-          ماتریسهای تعبیه شده برای تفسیر آسان‌تر.

- اندازه دسته: 1024 با طول دنباله 2048.

- ابزارها: کتابخانه GPT-NeoX با ویژگی‌های DeepSpeed ​​برای بهینهسازی.

 

* ویژگی‌های تکرارپذیری

- دسترسی عمومی به ایستهای بازرسی میانی به محققان امکان تجزیه و تحلیل مراحل خاص آموزش را می‌دهد.

- ترتیب دقیق داده‌ها تضمین می‌کند که نتایج می‌توانند تکرار شوند.

 

 3. زمینههای تحقیقاتی کلیدی

* حفظ کردن

- بررسی می‌کند که آیا موقعیت یک دنباله در مجموعه داده آموزشی بر حفظ کردن تأثیر می‌گذارد یا خیر.

- یافتهها: به خاطر سپردن به عنوان یک فرآیند نقطه پواسون مدل می‌شود و تحت تأثیر مکان توالی نیست.

* سوگیری جنسیتی

- روش‌هایی را برای کاهش تعصب جنسیتی با اصلاح داده‌های پیش‌آموزشی با توزیع‌های ضمیر کنترل‌شده مطالعه می‌کند.

- نتایج تکرارپذیری در تکنیکهای کاهش سوگیری را نشان می‌دهد.

 

* اثرات فرکانس ترم

- بررسی می‌کند که چگونه فراوانی‌های اصطلاحی خاص کار در داده‌های پیش‌آموزشی بر عملکرد وظایفی مانند پاسخ‌گویی به سؤال و استدلال حسابی تأثیر می‌گذارد.

- مشاهدات:

 - مدل‌های بزرگتر (پارامترهای 2.8B+) از اصطلاحات مکرر مربوط به کار سود می‌برند.

 - مقیاسگذاری عملکرد در کارهای پیچیده مانند جمع حسابی را بهبود می‌بخشد.

 

 4. برنامه‌های کاربردی

- 1. تحقیقات تکرارپذیر:

 - تجزیه و تحلیل رفتار LLM را در طول آموزش و مقیاسبندی تسهیل می‌کند.

 - امکان مطالعه پدیدههایی مانند کاهش سوگیری، حفظ کردن، و قوانین مقیاسبندی را فراهم می‌کند.

- 2. محک زدن: در مقایسه با معیارهایی مانند LAMBADA (سرگشتگی در مدل‌سازی زبان) ارزیابی می‌شود که عملکرد قابل مقایسه با مدل‌های OPT و BLOOM را نشان می‌دهد.

- 3. پتانسیل تحقیقات چند زبانه: در حالی که روی مجموعه داده‌های انگلیسی متمرکز است، روش Pythia می‌تواند به LLMهای چند زبانه برای مطالعه پویایی‌های بین زبانی گسترش یابد.

 

 5. مزایا

- 1. دسترسی عمومی: همه مدل‌ها، نقاط بازرسی، هایپرپارامترها و بارگذارهای داده برای عموم در دسترس هستند.

- 2. سازگاری در مقیاس: تصمیمات طراحی یکنواخت در اندازه‌های مدل، مقایسه قابل اعتماد را تضمین می‌کند.

- 3. Scientific Utility: آزمایش‌های کنترل‌شده روی دینامیک LLM را فعال می‌کند که قبلاً به دلیل محدودیت‌های اختصاصی غیرممکن بودند.

 

 6. محدودیتها

- 1. تمرکز بر داده‌های انگلیسی: کاربرد محدود برای تحقیقات چند زبانه یا دامنه خاص بدون مجموعه داده‌های اضافی.

- 2. محدودیت‌های مقیاس: مدل‌های بزرگتر ممکن است با وجود خطوط لوله بهینه شده، همچنان به منابع محاسباتی قابل توجهی نیاز داشته باشند.

 

 7. مسیرهای آینده

- 1. چارچوب تکرارپذیر Pythia را به مجموعه داده‌های چند زبانه برای مطالعات بین زبانی گسترش دهید.

- 2. بررسی عوامل اضافی موثر بر رفتار LLM، مانند استحکام خصمانه یا همسویی اخلاقی.

- 3. نسخه‌های سبک وزن مدل‌های Pythia را برای استقرار در محیطهای با محدودیت منابع توسعه دهید.

 

نتیجهگیری

Pythia نشان دهنده یک گام مهم رو به جلو در فعال کردن تحقیقات قابل تکرار در مدل‌های زبان بزرگ است. تنظیم کنترل شده آن بینش جدیدی را در مورد پویایی آموزش، رفتار مقیاسبندی، و عملکرد ویژه کار ارائه می‌دهد و در عین حال به چالش‌هایی مانند کاهش سوگیری و به خاطر سپردن پاسخ می‌دهد. Pythia با در دسترس قرار دادن همه منابع برای عموم، محققان را قادر می‌سازد تا درک LLM را به شیوهای شفاف و مشارکتی پیش ببرند.

- 1. [EleutherAI Blog] (https://www.eleuther.ai/papers-blog/pythia-a-suite-for-analyzing-large-language-modelsacross-training-and-scaling) [1]. 

- 2. [Papers with Code] (https://paperswithcode.com/paper/pythia-a-suite-for-analyzing-large-language) [2].

- 3. [Hugging Face Paper Summary] (https://huggingface.co/papers/2304.01373) [3].

- 4. [Proceedings of ICML] (https://proceedings.mlr.press/v202/biderman23a.html) [4].

- 5. [KDnuggets Overview] (https://www.kdnuggets.com/2023/08/pythia-suite-16-llms-indepth-research.html) [5].

- 6. [MarkTechPost Summary] (https://www.marktechpost.com) [8].

 

[1] https://www.eleuther.ai/papers-blog/pythia-a-suite-for-analyzing-large-language-modelsacross-training-and-scaling

[2] https://paperswithcode.com/paper/pythia-a-suite-for-analyzing-large-language

[3] https://huggingface.co/papers/2304.01373

[4] https://proceedings.mlr.press/v202/biderman23a.html

[5] https://www.kdnuggets.com/2023/08/pythia-suite-16-llms-indepth-research.html

[6] https://proceedings.mlr.press/v202/biderman23a/biderman23a.pdf

[7] https://dl.acm.org/doi/10.5555/3618408.3618510

[8] https://www.marktechpost.com/2023/04/09/a-new-ai-research-proposes-pythia-a-suite-of-decoder-only-autoregressive-language-models-ranging-from-70m-to-12b-parameters/

نظرات 0 + ارسال نظر
ایمیل شما بعد از ثبت نمایش داده نخواهد شد