GML (Graph Machine Learning)

GML (Graph Machine Learning)

یادگیری ماشین گراف
GML (Graph Machine Learning)

GML (Graph Machine Learning)

یادگیری ماشین گراف

آموزش کارآمد ترانسفورمرها

آموزش کارآمد مدل‌های ترانسفورمر به دلیل ماهیت محاسباتی و حافظه فشرده آن‌ها به یک حوزه حیاتی تحقیقاتی تبدیل شده است، به‌ویژه که اندازه مدل‌ها همچنان در حوزه‌هایی مانند پردازش زبان طبیعی (NLP) و بینایی کامپیوتری رشد می‌کنند. در زیر ترکیبی از بینشهای کلیدی از مقالات نظرسنجی ارائه شده است:

 
 

 1. بررسی اجمالی

ترانسفورمرها هوش‌مصنوعی را متحول کرده‌اند اما در آموزش با چالش‌هایی روبرو هستند زیرا:

- هزینههای محاسباتی بالا: پیچیدگی درجه دوم در مکانیسمهای خود توجهی.

- محدودیتهای حافظه: مدل‌های در مقیاس بزرگ به منابع سخت افزاری قابل توجهی نیاز دارند.

- تاثیرات زیست محیطی: آموزش مدل‌های بزرگ به انتشار کربن کمک می‌کند.

هدف تکنیکهای آموزشی کارآمد کاهش هزینهها در عین حفظ عملکرد، تمرکز بر راندمان محاسباتی، بهینهسازی حافظه و استفاده از داده‌ها است.

 

 2. راندمان محاسباتی

* بهینه سازها

- AdamW: به طور گسترده برای همگرایی پایدار در آموزش ترانسفورمر استفاده می‌شود.

- Lion Optimizer: یک نوآوری اخیر که سریعتر همگرا می‌شود و نسبت به AdamW در حافظه کارآمدتر است و سرعت تمرین را در بین معیارها بهبود می‌بخشد.

 

* مقدار دهی اولیه

تکنیکهای اولیهسازی مناسب همگرایی و تعمیم را بهبود می‌بخشد:

- Fixup: تمرین را بدون نرمال‌سازی لایهها تثبیت می‌کند.

- ReZero: اتصالات باقیمانده را برای بهینهسازی روان تر بازنشانی می‌کند.

- T-Fixup: نرخ یادگیری بالاتر را برای همگرایی سریعتر فعال می‌کند.

 

* آموزش پراکنده

- زیرشبکههای پراکنده را مستقیماً با استفاده از تکنیکهایی مانند فرضیه بلیط بخت آزمایی (LTH) آموزش دهید که مدل‌های فرعی کارآمد را بدون کاهش دقت شناسایی می‌کند.

 

* آموزش دسته‌ای بزرگ

- تکنیک‌هایی مانند مقیاس‌گذاری خطی نرخ‌های یادگیری، LARS و LAMB استفاده کارآمد از اندازه‌های دسته‌ای بزرگ را امکان‌پذیر می‌سازد و تکرارها را در هر دوره کاهش می‌دهد.

 

* یادگیری افزایشی

مسائل بهینهسازی را به زیرمسائل کوچکتر تبدیل کنید:

- تکنیکهایی مانند انباشته شدن لایهها، عمق تصادفی و AutoProg راندمان همگرایی را بهبود می‌بخشد.

 

 3. بهینهسازی حافظه

* آموزش با دقت ترکیبی: از دقت کمتر (مانند FP16 یا FP8) برای فعال‌سازی، گرادیان‌ها و وزن‌ها استفاده کنید و در عین حال دقت کامل را برای به‌روزرسانی‌ها حفظ کنید. این امر مصرف حافظه را کاهش می‌دهد و محاسبات را تسریع می‌کند.

* مادی‌سازی مجدد[1] (چک پوینت): فقط زیر مجموعه‌ای از فعال‌سازی‌ها را در طول پاس رو به جلو ذخیره کنید و سایرین را در طول پاس به عقب برای ذخیره حافظه مجدداً محاسبه کنید.

* Offloading: تکنیک‌هایی مانند تخلیه CPU یا NVMe فعال‌سازی‌های میانی را در دستگاه‌های حافظه کندتر اما بزرگ‌تر ذخیره می‌کنند. به عنوان مثال:

-                                                   ZeRO-Offload آموزش دقیق ترکیبی را با حداقل هزینه ارتباطی بهینه می‌کند.

 

* تنظیم کارآمد از نظر پارامتر (PET): مدل‌های از پیش آموزش دیده را با وظایف پایین دستی با پارامترهای آموزش‌پذیر کمتر تطبیق دهید:

- روش‌ها شامل تنظیم آداپتور، تنظیم سریع و LoRA (انطباق با رتبه پایین) است که به‌روزرسانی‌های وزن توجه را با استفاده از ماتریس‌های رتبه پایین تقریبی می‌کند.

 

 4. کارایی داده‌ها

* Token masking: به طور گسترده در کارهای پیش‌آموزشی مانند مدل‌سازی زبان ماسک‌دار (MLM) و مدل‌سازی تصویر ماسک‌دار (MIM) استفاده می‌شود:

- حذف توکن‌های پوشانده شده در حین آموزش، پیچیدگی محاسباتی را به میزان قابل توجهی کاهش می‌دهد.

 - مثال: وصله‌های تصویر ماسک‌شده در MIM در مقایسه با نگه‌داشتن همه توکن‌ها، زمان پیش‌آموزشی 3× کمتری را به دست می‌آورند.

 

* نمونه‌برداری از اهمیت: در طول آموزش با استفاده از معیارهایی مانند هنجارهای گرادیان، نمونه‌های آموزنده را اولویتبندی کنید:

- همگرایی را تسریع می‌کند و در عین حال تعمیم را بهبود می‌بخشد.

- کار اخیر قوانین مقیاسپذیری نمایی را برای کاهش خطای تست در صورت تجهیز به معیارهای هرس داده برتر نشان می‌دهد.

 

 5. طراحی مشترک سخت افزار/الگوریتم

شتاب دهنده‌های سخت‌افزاری کارآمد برای بهینهسازی آموزش ترانسفورمر ضروری هستند:

- تکنیکهایی مانند ضرب ماتریس پراکنده، تقریب رتبه پایین، و محاسبات با دقت پایین با آگاهی از سخت‌افزار، سرعت و کارایی انرژی را بهبود می‌بخشد.

- مثال‌ها:

FlashAttention با استفاده از تکنیکهای کاشی کاری، هزینههای ارتباطی GPU را کاهش می‌دهد.

مکانیسم‌های توجه کم بیت (به عنوان مثال، پرسش‌ها/کلیدهای 4 بیتی) استفاده از حافظه را بدون کاهش دقت بهبود می‌بخشد.

 

 6. چالش‌ها

- 1. مقیاسپذیری: تکنیکها باید مجموعه داده‌های میلیاردی را به طور موثر مدیریت کنند.

- 2. تعمیم: شبکه‌های فرعی پراکنده یا کاهش دقت ممکن است عملکرد در وظایف پیچیده را کاهش دهد.

- 3. تأثیر محیطی: علیرغم افزایش بهره‌وری، آموزش مدل در مقیاس بزرگ همچنان نیازمند منابع است.

 

 7. مسیرهای آینده

- 1. ادغام PET با استراتژی‌های فشرده‌سازی مدل برای دستاوردهای همزمان در آموزش و کارایی استنتاج.

- 2. توسعه چارچوب‌های یکپارچه ترکیبی از آموزش پراکنده، کمی‌سازی، و تکنیکهای تخلیه.

- 3. کاوش قوانین مقیاس عصبی با استفاده از معیارهای نمونه‌برداری اهمیت برای آموزش کارآمد داده‌ها.

 

نتیجهگیری

تکنیک‌های آموزشی کارآمد برای ترانسفورمرها بر بهینه‌سازی محاسبات، استفاده از حافظه و استفاده از داده‌ها در حالی که از الگوریتم‌های سخت‌افزار آگاه استفاده می‌کنند، تمرکز دارند. محققان با اتخاذ روش‌هایی مانند آموزش پراکنده، محاسبات دقیق ترکیبی، پوشش توکن و رویکردهای PET مانند LoRA، می‌توانند هزینه‌ها را بدون به خطر انداختن عملکرد کاهش دهند و مدل‌های ترانسفورمر در مقیاس بزرگ را در دسترس‌تر و سازگارتر با محیط‌زیست کنند.

 

 1. Continuum Labs Survey on Efficient Training of Transformers [1].

 2. HKUST Review on Parameter-Efficient Fine-Tuning [2].

 3. ZeRO-Offload Implementation [3].

 4. FlashAttention Hardware Optimization [5].


[1] https://training.continuumlabs.ai/training/the-fine-tuning-process/hyperparameters/a-survey-on-efficient-training-of-transformers

[2] https://cse.hkust.edu.hk/pg/defenses/S25/sliuau-01-04-2025.html

[3] https://arxiv.org/pdf/2302.01107.pdf

[4] https://arxiv.org/abs/2307.05979

[5] https://arxiv.org/pdf/2009.06732.pdf

[6] https://arxiv.org/abs/2301.03044

[7] https://dl.acm.org/doi/10.1016/j.sysarc.2023.102990

[8] https://arxiv.org/abs/2106.04554



[1] Rematerialization

نظرات 0 + ارسال نظر
ایمیل شما بعد از ثبت نمایش داده نخواهد شد