GML (Graph Machine Learning)

GML (Graph Machine Learning)

یادگیری ماشین گراف
GML (Graph Machine Learning)

GML (Graph Machine Learning)

یادگیری ماشین گراف

ترانسفورمرهای کارآمد

این مقاله توسط یی تای و همکاران. (2020، به روز رسانی 2022) یک بررسی سیستماتیک از معماری ترانسفورمر بهینهسازی شده برای کارایی محاسباتی و حافظه ارائه می‌دهد. در زیر یک ترکیب ساختاریافته از بینشهای کلیدی از نظرسنجی و آثار مرتبط آورده شده است:

 

 1. چالش کارایی در ترانسفورمرها

مدل‌های ترانسفورمر استاندارد از پیچیدگی درجه دوم در توجه به خود رنج می‌برند O(n2) برای طول دنباله n، که آنها را برای دنباله‌های طولانی غیرعملی می‌سازد. این نظرسنجی بر روی مدل‌های X-Ferer متمرکز است که این تنگنا را از طریق نوآوری‌های معماری، به چهار رویکرد اصلی دسته‌بندی می‌کند:

 

  

 2. دسته‌بندی ترانسفورمرهای کارآمد

* الگوهای ثابت

- توجه محلی: توجه را به یک پنجره ثابت محدود کنید (به عنوان مثال، Longformer، Image Transformer).

- الگوهای راه راه/ پراکنده: از ماتریسهای توجه پراکنده از پیش تعریف شده (مثلاً ترانسفورمر پراکنده) استفاده کنید.

- سلسله مراتبی: توجه محلی و جهانی را ترکیب کنید (به عنوان مثال، ترانسفورمر بلند-کوتاه، BigBird)

 

* الگوهای آموخته شده

- پراکندگی قابل یادگیری: وزنه‌های توجه را به طور پویا هرس کنید (به عنوان مثال، ترانسفورمر مسیریابی).

- فشرده‌سازی حافظه: طول دنباله را از طریق پیشبینی‌های با رتبه پایین (مانند Linformer، Performer) کاهش دهید.

 

* تکنیکهای کاهش حافظه

- لایه‌های برگشت‌پذیر: از ذخیره فعال‌سازی‌ها از طریق شبکه‌های باقی‌مانده برگشت‌پذیر (مانند Reformer) خودداری کنید.

- کمی‌سازی: کاهش دقت وزنه‌ها/فعال‌سازی‌ها (به عنوان مثال Q-BERT).

 

* تقریب هسته

- توجه خطی شده: softmax را با ترفندهای هسته (به عنوان مثال، ترانسفورمر خطی، Nyströmformer) جایگزین کنید.

 

 3. مدل‌های کلیدی و نوآوری‌ها

مدل

ایده کلیدی

دامنه

Reformer

لایههای برگشت‌پذیر+  هشینگ حساس به محلی

NLP

Linformer

نمایش رتبه پایین کلیدها/مقدار

NLP

Performer

FAVOR + (توجه سریع از طریق ویژگی‌های تصادفی متعامد)

دامنه متقابل

Long-Short

توجه محلی و سراسری را ترکیب می‌کند

NLP/Vision

Sparse

Factorized attention heads

Vision

 

 

 4. عملکرد و برنامه‌های کاربردی

- زبان: در معیارهایی مانند Long Range Arena (LRA)، enwik8 (0.97 BPC با نیمی از پارامترهای پیشینیان) به آخرین هنر دست می‌یابد.

- Vision: پردازش تصویر با وضوح بالا را فعال می‌کند (به عنوان مثال، دقت ImageNet Top-1 84.1%).

- دستاوردهای بهره‌وری:

 - ترانسفورمر Long-Short توالی‌هایی را 3× طولانی‌تر از ترانسفورمرهای استاندارد روی همان سخت‌افزار کنترل می‌کند.

 - Reformer استفاده از حافظه را 50 تا 90 درصد از طریق لایههای برگشت‌پذیر کاهش می‌دهد.

 

 5. محدودیتها و چالش‌های باز

- 1. بهینه‌سازی ویژه وظایف: بسیاری از مدل‌ها کلیات را با کارایی عوض می‌کنند (مثلاً Linformer در NLP برتری دارد اما در بینش نیست).

- 2. محدودیتهای سخت افزاری: تکنیکهایی مانند تقریب هسته اغلب به بهینهسازی‌های تخصصی GPU نیاز دارند.

- 3. مقیاسپذیری: تعداد کمی از مدل‌ها به طور موثر به دنباله‌های میلیارد توکن بدون از دست دادن دقت مقیاس می‌شوند.

 

 6. فراتر از معماری: کارایی آموزش

کار اخیر (به عنوان مثال، بررسی IJCAI 2023) تلاش‌های کارآمدی را به روش‌های آموزشی گسترش می‌دهد:

- محاسبات پویا: در طول آموزش از لایهها یا سرها صرف نظر کنید (به عنوان مثال، ترانسفورمرهای تطبیقی ​​مطمئن).

- طراحی مشترک سخت افزار-الگوریتم: بهینهسازی سلسله مراتب حافظه GPU/TPU.

 

نتیجهگیری

چشمانداز X-Forer نشان می‌دهد که کارایی نیازی به قربانی کردن عملکرد ندارد. ترانسفورمرهای مدرن با ترکیب توجه کم، کاهش حافظه و ترفندهای هسته، به پیچیدگی نزدیک به خطی دست می‌یابند و دقت را حفظ می‌کنند. تحقیقات آینده احتمالاً بر روی چارچوب‌های یکپارچه متمرکز خواهد شد که در بین وظایف و روش‌ها، در کنار بهینه‌سازی‌های سخت‌افزاری تعمیم می‌یابد.


 1. Tay et al., Efficient Transformers: A Survey (2022) [arXiv:2009.06732]. 

 2. Zhuang et al., A Survey on Efficient Training of Transformers (IJCAI 2023). 

 3. Long-Short Transformer (NeurIPS 2021). 

 4. Blog Summary by Shreyansh Gandhi (2022).


[1] https://arxiv.org/abs/2009.06732

[2] https://openreview.net/pdf?id=M_lkFOwVdYc

[3] https://dl.acm.org/doi/fullHtml/10.1145/3530811

[4] https://www.ijcai.org/proceedings/2023/764

[5] https://dl.acm.org/doi/abs/10.1145/3530811

[6] https://shreyansh26.github.io/post/2022-10-10_efficient_transformers_survey/

[7] https://arxiv.org/pdf/2009.06732.pdf

[8] https://arxiv.org/abs/2311.13657

[9] https://dl.acm.org/doi/10.1145/3530811

[10] https://paperswithcode.com/paper/efficient-transformers-a-survey

نظرات 0 + ارسال نظر
ایمیل شما بعد از ثبت نمایش داده نخواهد شد