این مقاله توسط یی تای و همکاران. (2020، به روز رسانی 2022) یک بررسی سیستماتیک از معماری ترانسفورمر بهینهسازی شده برای کارایی محاسباتی و حافظه ارائه میدهد. در زیر یک ترکیب ساختاریافته از بینشهای کلیدی از نظرسنجی و آثار مرتبط آورده شده است:
1. چالش کارایی در ترانسفورمرها
مدلهای ترانسفورمر استاندارد از پیچیدگی درجه دوم در توجه به خود رنج میبرند O(n2) برای طول دنباله n، که آنها را برای دنبالههای طولانی غیرعملی میسازد. این نظرسنجی بر روی مدلهای X-Ferer متمرکز است که این تنگنا را از طریق نوآوریهای معماری، به چهار رویکرد اصلی دستهبندی میکند:
2. دستهبندی ترانسفورمرهای کارآمد
* الگوهای ثابت
- توجه محلی: توجه را به یک پنجره ثابت محدود کنید (به عنوان مثال، Longformer، Image Transformer).
- الگوهای راه راه/ پراکنده: از ماتریسهای توجه پراکنده از پیش تعریف شده (مثلاً ترانسفورمر پراکنده) استفاده کنید.
- سلسله مراتبی: توجه محلی و جهانی را ترکیب کنید (به عنوان مثال، ترانسفورمر بلند-کوتاه، BigBird)
* الگوهای آموخته شده
- پراکندگی قابل یادگیری: وزنههای توجه را به طور پویا هرس کنید (به عنوان مثال، ترانسفورمر مسیریابی).
- فشردهسازی حافظه: طول دنباله را از طریق پیشبینیهای با رتبه پایین (مانند Linformer، Performer) کاهش دهید.
* تکنیکهای کاهش حافظه
- لایههای برگشتپذیر: از ذخیره فعالسازیها از طریق شبکههای باقیمانده برگشتپذیر (مانند Reformer) خودداری کنید.
- کمیسازی: کاهش دقت وزنهها/فعالسازیها (به عنوان مثال Q-BERT).
* تقریب هسته
- توجه خطی شده: softmax را با ترفندهای هسته (به عنوان مثال، ترانسفورمر خطی، Nyströmformer) جایگزین کنید.
3. مدلهای کلیدی و نوآوریها
مدل |
ایده کلیدی |
دامنه |
Reformer |
لایههای برگشتپذیر+ هشینگ حساس به محلی |
NLP |
Linformer |
نمایش رتبه پایین کلیدها/مقدار |
NLP |
Performer |
FAVOR + (توجه سریع از طریق ویژگیهای تصادفی متعامد) |
دامنه متقابل |
Long-Short |
توجه محلی و سراسری را ترکیب میکند |
NLP/Vision |
Sparse |
Factorized attention heads |
Vision |
4. عملکرد و برنامههای کاربردی
- زبان: در معیارهایی مانند Long Range Arena (LRA)، enwik8 (0.97 BPC با نیمی از پارامترهای پیشینیان) به آخرین هنر دست مییابد.
- Vision: پردازش تصویر با وضوح بالا را فعال میکند (به عنوان مثال، دقت ImageNet Top-1 84.1%).
- دستاوردهای بهرهوری:
- ترانسفورمر Long-Short توالیهایی را 3× طولانیتر از ترانسفورمرهای استاندارد روی همان سختافزار کنترل میکند.
- Reformer استفاده از حافظه را 50 تا 90 درصد از طریق لایههای برگشتپذیر کاهش میدهد.
5. محدودیتها و چالشهای باز
- 1. بهینهسازی ویژه وظایف: بسیاری از مدلها کلیات را با کارایی عوض میکنند (مثلاً Linformer در NLP برتری دارد اما در بینش نیست).
- 2. محدودیتهای سخت افزاری: تکنیکهایی مانند تقریب هسته اغلب به بهینهسازیهای تخصصی GPU نیاز دارند.
- 3. مقیاسپذیری: تعداد کمی از مدلها به طور موثر به دنبالههای میلیارد توکن بدون از دست دادن دقت مقیاس میشوند.
6. فراتر از معماری: کارایی آموزش
کار اخیر (به عنوان مثال، بررسی IJCAI 2023) تلاشهای کارآمدی را به روشهای آموزشی گسترش میدهد:
- محاسبات پویا: در طول آموزش از لایهها یا سرها صرف نظر کنید (به عنوان مثال، ترانسفورمرهای تطبیقی مطمئن).
- طراحی مشترک سخت افزار-الگوریتم: بهینهسازی سلسله مراتب حافظه GPU/TPU.
نتیجهگیری
چشمانداز X-Forer نشان میدهد که کارایی نیازی به قربانی کردن عملکرد ندارد. ترانسفورمرهای مدرن با ترکیب توجه کم، کاهش حافظه و ترفندهای هسته، به پیچیدگی نزدیک به خطی دست مییابند و دقت را حفظ میکنند. تحقیقات آینده احتمالاً بر روی چارچوبهای یکپارچه متمرکز خواهد شد که در بین وظایف و روشها، در کنار بهینهسازیهای سختافزاری تعمیم مییابد.
1. Tay et al., Efficient Transformers: A Survey (2022) [arXiv:2009.06732].
2. Zhuang et al., A Survey on Efficient Training of Transformers (IJCAI 2023).
3. Long-Short Transformer (NeurIPS 2021).
4. Blog Summary by Shreyansh Gandhi (2022).
[1] https://arxiv.org/abs/2009.06732
[2] https://openreview.net/pdf?id=M_lkFOwVdYc
[3] https://dl.acm.org/doi/fullHtml/10.1145/3530811
[4] https://www.ijcai.org/proceedings/2023/764
[5] https://dl.acm.org/doi/abs/10.1145/3530811
[6] https://shreyansh26.github.io/post/2022-10-10_efficient_transformers_survey/
[7] https://arxiv.org/pdf/2009.06732.pdf
[8] https://arxiv.org/abs/2311.13657
[9] https://dl.acm.org/doi/10.1145/3530811
[10] https://paperswithcode.com/paper/efficient-transformers-a-survey