آموزش کارآمد مدلهای ترانسفورمر به دلیل ماهیت محاسباتی و حافظه فشرده آنها به یک حوزه حیاتی تحقیقاتی تبدیل شده است، بهویژه که اندازه مدلها همچنان در حوزههایی مانند پردازش زبان طبیعی (NLP) و بینایی کامپیوتری رشد میکنند. در زیر ترکیبی از بینشهای کلیدی از مقالات نظرسنجی ارائه شده است:
این مقاله توسط یی تای و همکاران. (2020، به روز رسانی 2022) یک بررسی سیستماتیک از معماری ترانسفورمر بهینهسازی شده برای کارایی محاسباتی و حافظه ارائه میدهد. در زیر یک ترکیب ساختاریافته از بینشهای کلیدی از نظرسنجی و آثار مرتبط آورده شده است:
1. چالش کارایی در ترانسفورمرها
مدلهای ترانسفورمر استاندارد از پیچیدگی درجه دوم در توجه به خود رنج میبرند O(n2) برای طول دنباله n، که آنها را برای دنبالههای طولانی غیرعملی میسازد. این نظرسنجی بر روی مدلهای X-Ferer متمرکز است که این تنگنا را از طریق نوآوریهای معماری، به چهار رویکرد اصلی دستهبندی میکند:
این نظرسنجی جامع کاربردهای عملی، چالشها و مسیرهای آینده مدلهای زبان بزرگ (LLM) را با تمرکز بر ChatGPT و مدلهای مرتبط بررسی میکند. در زیر ترکیبی از بینشهای کلیدی از منابع ارائه شده است: