ترانسفورمرهای کارآمد

این مقاله توسط یی تای و همکاران. (2020، به روز رسانی 2022) یک بررسی سیستماتیک از معماری ترانسفورمر بهینه‌سازی شده برای کارایی محاسباتی و حافظه ارائه می‌دهد. در زیر یک ترکیب ساختاریافته از بینش‌های کلیدی از نظرسنجی و آثار مرتبط آورده شده است:

1. چالش کارایی در ترانسفورمرها

مدل‌های ترانسفورمر استاندارد از پیچیدگی درجه دوم در توجه به خود رنج می‌برند O(n²) برای طول دنباله n، که آنها را برای دنباله‌های طولانی غیرعملی می‌سازد. این نظرسنجی بر روی مدل‌های X-Ferer متمرکز است که این تنگنا را از طریق نوآوری‌های معماری، به چهار رویکرد اصلی دسته‌بندی می‌کند:

2. دسته‌بندی ترانسفورمرهای کارآمد

* الگوهای ثابت

- توجه محلی: توجه را به یک پنجره ثابت محدود کنید (به عنوان مثال، Longformer، Image Transformer).

- الگوهای راه راه/ پراکنده: از ماتریس‌های توجه پراکنده از پیش تعریف شده (مثلاً ترانسفورمر پراکنده) استفاده کنید.

- سلسله مراتبی: توجه محلی و جهانی را ترکیب کنید (به عنوان مثال، ترانسفورمر بلند-کوتاه، BigBird)

* الگوهای آموخته شده

- پراکندگی قابل یادگیری: وزنه‌های توجه را به طور پویا هرس کنید (به عنوان مثال، ترانسفورمر مسیریابی).

- فشرده‌سازی حافظه: طول دنباله را از طریق پیش‌بینی‌های با رتبه پایین (مانند Linformer، Performer) کاهش دهید.

* تکنیک‌های کاهش حافظه

- لایه‌های برگشت‌پذیر: از ذخیره فعال‌سازی‌ها از طریق شبکه‌های باقی‌مانده برگشت‌پذیر (مانند Reformer) خودداری کنید.

- کمی‌سازی: کاهش دقت وزنه‌ها/فعال‌سازی‌ها (به عنوان مثال Q-BERT).

* تقریب هسته

- توجه خطی شده: softmax را با ترفندهای هسته (به عنوان مثال، ترانسفورمر خطی، Nyströmformer) جایگزین کنید.

3. مدل‌های کلیدی و نوآوری‌ها

مدل	ایده کلیدی	دامنه
Reformer	لایه‌های برگشت‌پذیر+ هشینگ حساس به محلی	NLP
Linformer	نمایش رتبه پایین کلیدها/مقدار	NLP
Performer	FAVOR + (توجه سریع از طریق ویژگی‌های تصادفی متعامد)	دامنه متقابل
Long-Short	توجه محلی و سراسری را ترکیب می‌کند	NLP/Vision
Sparse	Factorized attention heads	Vision

4. عملکرد و برنامه‌های کاربردی

- زبان: در معیارهایی مانند Long Range Arena (LRA)، enwik8 (0.97 BPC با نیمی از پارامترهای پیشینیان) به آخرین هنر دست می‌یابد.

- Vision: پردازش تصویر با وضوح بالا را فعال می‌کند (به عنوان مثال، دقت ImageNet Top-1 84.1%).

- دستاوردهای بهره‌وری:

- ترانسفورمر Long-Short توالی‌هایی را 3× طولانی‌تر از ترانسفورمرهای استاندارد روی همان سخت‌افزار کنترل می‌کند.

- Reformer استفاده از حافظه را 50 تا 90 درصد از طریق لایه‌های برگشت‌پذیر کاهش می‌دهد.

5. محدودیت‌ها و چالش‌های باز

- 1. بهینه‌سازی ویژه وظایف: بسیاری از مدل‌ها کلیات را با کارایی عوض می‌کنند (مثلاً Linformer در NLP برتری دارد اما در بینش نیست).

- 2. محدودیت‌های سخت افزاری: تکنیک‌هایی مانند تقریب هسته اغلب به بهینه‌سازی‌های تخصصی GPU نیاز دارند.

- 3. مقیاس‌پذیری: تعداد کمی از مدل‌ها به طور موثر به دنباله‌های میلیارد توکن بدون از دست دادن دقت مقیاس می‌شوند.

6. فراتر از معماری: کارایی آموزش

کار اخیر (به عنوان مثال، بررسی IJCAI 2023) تلاش‌های کارآمدی را به روش‌های آموزشی گسترش می‌دهد:

- محاسبات پویا: در طول آموزش از لایه‌ها یا سرها صرف نظر کنید (به عنوان مثال، ترانسفورمرهای تطبیقی مطمئن).

- طراحی مشترک سخت افزار-الگوریتم: بهینه‌سازی سلسله مراتب حافظه GPU/TPU.

نتیجه‌گیری

چشم‌انداز X-Forer نشان می‌دهد که کارایی نیازی به قربانی کردن عملکرد ندارد. ترانسفورمرهای مدرن با ترکیب توجه کم، کاهش حافظه و ترفندهای هسته، به پیچیدگی نزدیک به خطی دست می‌یابند و دقت را حفظ می‌کنند. تحقیقات آینده احتمالاً بر روی چارچوب‌های یکپارچه متمرکز خواهد شد که در بین وظایف و روش‌ها، در کنار بهینه‌سازی‌های سخت‌افزاری تعمیم می‌یابد.

1. Tay et al., Efficient Transformers: A Survey (2022) [arXiv:2009.06732].

2. Zhuang et al., A Survey on Efficient Training of Transformers (IJCAI 2023).

3. Long-Short Transformer (NeurIPS 2021).

4. Blog Summary by Shreyansh Gandhi (2022).

[1] https://arxiv.org/abs/2009.06732

[2] https://openreview.net/pdf?id=M_lkFOwVdYc

[3] https://dl.acm.org/doi/fullHtml/10.1145/3530811

[4] https://www.ijcai.org/proceedings/2023/764

[5] https://dl.acm.org/doi/abs/10.1145/3530811

[6] https://shreyansh26.github.io/post/2022-10-10_efficient_transformers_survey/

[7] https://arxiv.org/pdf/2009.06732.pdf

[8] https://arxiv.org/abs/2311.13657