درک مدل‌های زبان بزرگ

مدل‌های زبانی بزرگ توجه عموم را به خود جلب کرده‌اند. تنها در نیم دهه، مدل‌های بزرگ زبان - ترانسفورمرها - تقریباً به طور کامل حوزه پردازش زبان طبیعی را تغییر داده‌اند. علاوه بر این، آنها همچنین شروع به ایجاد انقلاب در زمینه‌هایی مانند بینایی کامپیوتر و زیست‌شناسی محاسباتی کرده‌اند.

از آنجایی که ترانسفورمرها تأثیر زیادی بر برنامه تحقیقاتی همه دارند، می‌خواستم فهرست کوتاهی را برای محققان و متخصصان یادگیری ماشین ارائه کنم.

فهرست زیر عمدتاً به صورت زمانی خوانده می‌شود و من کاملاً روی مقالات تحقیقاتی دانشگاهی تمرکز می‌کنم. البته، منابع اضافی زیادی وجود دارد که مفید هستند. به عنوان مثال،

· ترانسفورمر مصور اثر جی آلمار

http://jalammar.github.io/illustrated-transformer/

· مقاله فنی‌تر وبلاگ توسط لیلیان ونگ.

https://lilianweng.github.io/posts/2020-04-07-the-transformer-family/

· کاتالوگ و شجره‌نامه تمام ترانسفورمرهای اصلی تا به امروز توسط خاویر آماترین.

https://amatriain.net/blog/transformer-models-an-introduction-and-catalog-2d1e9039f376/

· اجرای حداقل کد یک مدل زبان مولد برای اهداف آموزشی توسط آندری کارپاتی.

https://github.com/karpathy/nanoGPT

· یک سری سخنرانی و فصل کتاب.

https://sebastianraschka.com/blog/2021/dl-course.html#l19-self-attention-and-transformer-networks

https://github.com/rasbt/machine-learning-book/tree/main/ch16

درک معماری اصلی و وظایف

اگر با ترانسفورمرها/مدل‌های زبان بزرگ تازه کار هستید، منطقی است که از ابتدا شروع کنید.

(1) ترجمه ماشین عصبی با یادگیری مشترک تراز و ترجمه (2014)

Bahdanau, Cho, and Bengio, https://arxiv.org/abs/1409.0473

توصیه می کنم اگر چند دقیقه وقت دارید، با مقاله بالا شروع کنید. این یک مکانیسم توجه برای شبکه‌های عصبی بازگشتی (RNN) برای بهبود قابلیت‌های مدل‌سازی توالی دوربرد معرفی می‌کند. این به RNNها اجازه می‌دهد تا جملات طولانی‌تر را با دقت بیشتری ترجمه کنند - انگیزه ایجاد معماری اصلی ترانسفورمر بعدا

https://arxiv.org/abs/1409.0473

(2) توجه تنها چیزی است که شما نیاز دارید (2017)

Vaswani، Shazeer، Parmar، Uszkoreit، Jones، Gomez، Kaiser، و Polosukhin، https://arxiv.org/abs/1706.03762

مقاله بالا معماری اصلی ترانسفورمر را معرفی می‌کند که از یک بخش رمزگذار و رمزگشا تشکیل شده است که بعداً به عنوان ماژول‌های جداگانه مرتبط خواهد شد. علاوه بر این، این مقاله مفاهیمی مانند مکانیسم توجه محصول نقطه‌ای مقیاس‌شده، بلوک‌های توجه چند سر، و رمزگذاری ورودی موقعیتی را معرفی می‌کند که پایه و اساس ترانسفورمرهای مدرن باقی مانده‌اند.

https://arxiv.org/abs/1706.03762

(3) در مورد عادی‌سازی لایه در معماری ترانسفورمر (2020)

Xiong، Yang، He، K Zheng، S Zheng، Xing، Zhang، Lan، Wang و Liu، https://arxiv.org/abs/2002.04745

در حالی که شکل اصلی ترانسفورمر بالا (از Attention Is All You Need، https://arxiv.org/abs/1706.03762) خلاصه‌ای مفید از معماری رمزگذار-رمزگشای اصلی است، مکان LayerNorm در این شکل همچنان موضوعی داغ است.

به عنوان مثال، شکل ترانسفورمر Attention Is All You Need نرمال‌سازی لایه را بین بلوک‌های باقیمانده قرار می‌دهد، که با اجرای کد رسمی (به روز شده) همراه با کاغذ ترانسفورمر اصلی مطابقت ندارد. نوع نشان داده شده در شکل Attention Is All You Need به عنوان Transformer Post-LN شناخته می‌شود و اجرای کد به روز شده به طور پیش فرض روی نوع Pre-LN است.

نرمال‌سازی لایه در مقاله معماری ترانسفورمر نشان می‌دهد که Pre-LN بهتر عمل می‌کند و مشکلات گرادیان را برطرف می‌کند، همانطور که در زیر نشان داده شده است. بسیاری از معماری‌ها این را در عمل اتخاذ کردند، اما می‌تواند منجر به فروپاشی نمایش شود.

بنابراین، در حالی که هنوز بحث در مورد استفاده از Post-LN یا Pre-LN وجود دارد، مقاله جدیدی نیز وجود دارد که استفاده از هر دو جهان را پیشنهاد می‌کند:

ResiDual: Transformer with Dual Residual Connections (https://arxiv.org/abs/2304.14802)

اینکه آیا در عمل مفید خواهد بود یا خیر، باید دید.

https://arxiv.org/abs/1706.03762

https://arxiv.org/abs/2002.04745

(4) آموزش کنترل حافظه‌های با وزن سریع: جایگزینی برای شبکه‌های عصبی عودکننده پویا (1991)

توسط اشمیدهابر،

https://www.semanticscholar.org/paper/Learning-to-Control-Fast-Weight-Memories%3A-An-to-Schmidhuber/bc22e87a26d020215afe91c751e5bdaddd8e4922

این مقاله برای کسانی که به نکات تاریخی و رویکردهای اولیه که اساساً شبیه به ترانسفورمرهای مدرن هستند، توصیه می‌شود.

به عنوان مثال، در سال 1991، که حدود دو دهه و نیم قبل از کاغذ ترانسفورمر اصلی در بالا ("توجه همه آن چیزی است که نیاز دارید")، یورگن اشمیدهابر جایگزینی برای شبکه‌های عصبی مکرر به نام برنامه‌نویسان وزن سریع[1] (FWP) پیشنهاد کرد. رویکرد FWP شامل یک شبکه عصبی پیش‌خور است که به آرامی با نزول گرادیان یاد می‌گیرد تا تغییرات وزن‌های سریع شبکه عصبی دیگر را برنامه‌ریزی کند.

تشبیه ترانسفورماتورهای مدرن در این پست وبلاگ به شرح زیر توضیح داده شده است:

در اصطلاح ترانسفورمر امروزی، FROM و TO به ترتیب کلید و ارزش نامیده می‌شوند. ورودی که شبکه سریع روی آن اعمال می‌شود Query نامیده می‌شود. در اصل، Query توسط ماتریس وزن سریع پردازش می‌شود که مجموع محصولات بیرونی کلیدها و مقادیر است (بدون توجه به نرمال‌سازی‌ها و پیش‌بینی‌ها). از آنجایی که همه عملیات هر دو شبکه قابل تمایز هستند، ما کنترل فعال متمایز سرتاسر تغییرات وزن سریع را از طریق محصولات افزودنی بیرونی یا محصولات تانسور مرتبه دوم به دست می‌آوریم. این از نظر ریاضی معادل (به غیر از نرمال‌سازی) چیزی است که بعداً ترانسفورمرهایی با توجه به خود خطی (یا ترانسفورمرهای خطی) نامیده شدند.

همانطور که در گزیده پست وبلاگ در بالا ذکر شد، این رویکرد اکنون "ترانسفورمرهای خطی[2]" یا "ترانسفورمرهایی با توجه به خود خطی[3]" نامیده می‌شود.

در سال 2021، مقاله ترانسفورمرهای خطی برنامه‌نویسان مخفیانه وزن سریع هستند، سپس به صراحت هم ارزی بین توجه خطی شده به خود و برنامه‌نویسان وزن سریع از دهه 1990 را نشان داد.

https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2

(5) تنظیم دقیق مدل زبان جهانی برای طبقه بندی متن (2018)

توسط هوارد و رادر،

https://arxiv.org/abs/1801.06146

این مقاله دیگری است که از منظر تاریخی بسیار جالب است. در حالی که یک سال پس از انتشار ترانسفورمر اصلی Attention Is All You Need نوشته شد، این ترانسفورمر شامل ترانسفورمر نیست، بلکه بر روی شبکه‌های عصبی تکراری تمرکز دارد. با این حال، هنوز هم قابل توجه است زیرا به طور موثر مدل‌های زبانی پیش اموزشی و انتقال یادگیری را برای کارهای پایین دستی پیشنهاد کرد.

در حالی که یادگیری انتقالی قبلاً در بینایی رایانه ایجاد شده بود، هنوز در پردازش زبان طبیعی (NLP) رایج نبود. ULMFit یکی از اولین مقالاتی بود که نشان داد که پیش‌آموزش یک مدل زبان و تنظیم دقیق آن در یک کار خاص می‌تواند نتایج پیشرفته‌ای را در بسیاری از وظایف NLP به همراه داشته باشد.

فرآیند سه مرحله‌ای برای تنظیم دقیق مدل‌های زبان پیشنهاد شده توسط ULMFit به شرح زیر بود:

· یک مدل زبان را روی مجموعه بزرگی از متن آموزش دهید.

· این مدل زبان از پیش آموزش‌دیده را بر روی داده‌های مربوط به کار به‌خوبی تنظیم کنید و به آن اجازه دهید تا با سبک و واژگان خاص متن سازگار شود.

· برای جلوگیری از فراموشی فاجعه‌آمیز، دسته‌بندی‌ را بر روی داده‌های ویژه کار با باز کردن تدریجی لایه‌ها تنظیم کنید.

این دستور العمل - آموزش یک مدل زبان بر روی یک پیکره بزرگ و سپس تنظیم دقیق آن در یک کار پایین دست - رویکرد اصلی مورد استفاده در مدل‌های مبتنی بر ترانسفورمر و مدل‌های پایه مانند BERT، GPT2/3/4، RoBERTa، و غیره است.

با این حال، یخ زدایی تدریجی، بخش کلیدی ULMFiT، معمولاً در عمل در هنگام کار با معماری ترانسفورمر انجام نمی‌شود، جایی که همه لایه‌ها به طور معمول یکباره تنظیم می‌شوند.

https://arxiv.org/abs/1801.06146

(6) BERT: Pre-training Deep Bidirectional Transformers for Language Understanding (2018)

توسط Devlin، Chang، Lee و Toutanova،

https://arxiv.org/abs/1810.04805

به دنبال معماری اصلی ترانسفورمر، تحقیقات مدل زبان بزرگ شروع به دوشاخه شدن در دو جهت کرد: ترانسفورمرهای سبک رمزگذار برای وظایف مدل‌سازی پیش‌بینی‌کننده مانند طبقه‌بندی متن و ترانسفورمرهای سبک رمزگشا برای کارهای مدل‌سازی تولیدی مانند ترجمه، خلاصه‌سازی و سایر اشکال ایجاد متن.

مقاله BERT بالا مفهوم اصلی مدل‌سازی با زبان نقاب‌دار و پیش‌بینی جمله بعدی را معرفی می‌کند. هنوز هم تاثیرگذارترین معماری به سبک رمزگذار است. اگر به این شاخه تحقیقاتی علاقه دارید، توصیه می‌کنم با RoBERTa پیگیری کنید، که با حذف وظایف پیش‌بینی جمله بعدی، اهداف پیش آموزشی را ساده کرد.

https://arxiv.org/abs/1810.04805

(7) بهبود درک زبان از طریق پیش‌آموزش مولد (2018)

توسط رادفورد و نراسیمهان،

https://www.semanticscholar.org/paper/Improving-Language-Understanding-by-Generative-Radford-Narasimhan/cd18800a0fe0b69503030100b695030001

مقاله اصلی GPT معماری محبوب سبک رمزگشا و پیش‌آموزش را از طریق پیش‌بینی کلمه بعدی معرفی کرد. در جایی که BERT را می‌توان یک ترانسفورمر دو طرفه به دلیل هدف پیش آموزشی مدل زبان پوشانده در نظر گرفت، GPT یک مدل یک طرفه و خودرگرسیون است. در حالی که تعبیه‌های GPT را می‌توان برای دسته‌بندی نیز استفاده کرد، رویکرد GPT در هسته تأثیرگذارترین LLM‌های امروزی مانند chatGPT قرار دارد.

اگر به این شاخه تحقیقاتی علاقه دارید، توصیه می‌کنم مقالات GPT-2 و GPT-3 را دنبال کنید. این دو مقاله نشان می‌دهد که LLMها قادر به یادگیری Zero و Few-shot هستند و توانایی‌های نوظهور LLM را برجسته می‌کنند. GPT-3 همچنین یک مدل پایه و پایه محبوب برای آموزش LLMهای نسل فعلی مانند ChatGPT است - ما رویکرد InstructGPT را که بعداً به ChatGPT منجر می‌شود به عنوان یک ورودی جداگانه پوشش خواهیم داد.

https://www.semanticscholar.org/paper/Improving-Language-Understanding-by-Generative-Radford-Narasimhan/cd18800a0fe0b668a1cc19f2ec95b5003d0a5035

(8) BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation and Comprehension،

توسط لوئیس، لیو، گویال، قزوینی نژاد، محمد، لوی، استویانوف، و زتل مایر، https://arxiv.org/abs/1961.

همانطور که قبلا ذکر شد، LLMهای نوع رمزگذار نوع BERT معمولاً برای کارهای مدلسازی پیشگو ترجیح داده می‌شوند، در حالی که LLMهای نوع رمزگشای نوع GPT در تولید متون بهتر هستند. برای به دست آوردن بهترین هر دو جهان، کاغذ BART بالا هر دو بخش رمزگذار و رمزگشا را با هم ترکیب می‌کند (بر خلاف ترانسفورمر اصلی - کاغذ دوم در این لیست).

https://arxiv.org/abs/1910.13461

(9) استفاده از قدرت LLM در عمل: نظرسنجی در ChatGPT و فراتر از آن (2023) توسط یانگ، جین، تانگ، هان، فنگ، جیانگ، یین، و هو، https://arxiv.org/abs/2304.13712

این یک مقاله تحقیقاتی نیست، بلکه احتمالاً بهترین نظرسنجی معماری عمومی تا به امروز است که چگونگی تکامل معماری‌های مختلف را نشان می‌دهد. با این حال، در کنار بحث در مورد مدل‌های زبان نقاب‌دار به سبک BERT (رمزگذارها) و مدل‌های زبان اتورگرسیو به سبک GPT (رمزگشا)، بحث‌ها و راهنمایی‌های مفیدی در مورد پیش‌آموزش و تنظیم دقیق داده‌ها ارائه می‌کند.

https://arxiv.org/abs/2304.13712

قوانین مقیاس‌بندی و بهبود کارایی

اگر می‌خواهید در مورد تکنیک‌های مختلف برای بهبود کارایی ترانسفورمرها اطلاعات بیشتری کسب کنید، من مقاله 2020 Efficient Transformers: A Survey و به دنبال آن مقاله 2023 A Survey on Efficient Training of Transformers را توصیه می‌کنم.

علاوه بر این، در زیر مقالاتی وجود دارد که به نظر من بسیار جالب و ارزش خواندن دارند.

(10) FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness (2022)،

توسط Dao، Fu، Ermon، Rudra و Ré، https://arxiv.org/abs/2205.14135.

در حالی که اکثر مقالات ترانسفورمر در مورد جایگزین کردن مکانیسم اصلی محصول نقطه مقیاس شده برای اجرای خودتوجهی به خود زحمت نمی‌دهند، FlashAttention مکانیزمی است که اخیراً اغلب به آن اشاره شده است.

https://arxiv.org/abs/2205.14135

(11) Cramming: Training a Language Model on a Single GPU in One Day (2022)

توسط Geiping و Goldstein، https://arxiv.org/abs/2212.14034.

در این مقاله، محققان یک مدل زبان پوشانده / LLM به سبک رمزگذار (اینجا: BERT) را به مدت 24 ساعت روی یک GPU واحد آموزش دادند. برای مقایسه، مقاله BERT اصلی 2018 آن را بر روی 16 TPU به مدت چهار روز آموزش داد. یک بینش جالب این است که در حالی که مدل‌های کوچک‌تر توان عملیاتی بالاتری دارند، مدل‌های کوچک‌تر نیز کارآمدی کمتری یاد می‌گیرند. بنابراین، مدل‌های بزرگ‌تر برای رسیدن به یک آستانه عملکرد پیش‌بینی‌کننده به زمان بیشتری نیاز ندارند.

ttps://arxiv.org/abs/2212.14034

(12) LoRA: سازگاری با رتبه پایین مدل‌های زبان بزرگ (2021)

توسط هو، شن، والیس، آلن ژو، لی، ال وانگ، اس وانگ و چن، https://arxiv.org/abs/2106.09685.

سازگاری با رتبه پایین (LoRA) یکی از تاثیرگذارترین رویکردها برای تنظیم دقیق مدل‌های زبان بزرگ به شیوه‌ای کارآمد از نظر پارامتر است. در حالی که روش‌های دیگری برای تنظیم دقیق پارامترهای کارآمد وجود دارد (به بررسی زیر مراجعه کنید)، LoRA به‌ویژه ارزش برجسته‌کردن دارد، زیرا هم روشی ظریف و هم بسیار کلی است که می‌تواند برای انواع دیگر مدل‌ها نیز اعمال شود.

در حالی که وزن یک مدل از پیش آموزش دیده رتبه کاملی در کارهای از پیش آموزش دیده دارد، نویسندگان LoRA خاطرنشان می‌کنند که مدل‌های زبان بزرگ از قبل آموزش دیده زمانی که با یک کار جدید تطبیق داده می‌شوند، «بعد ذاتی» پایینی دارند. بنابراین، ایده اصلی پشت LoRA این است که تغییرات وزن، ΔW، را به یک نمایش رتبه پایین‌تر تجزیه کنیم، که پارامتر کارآمدتر است.

https://arxiv.org/abs/2106.09685

(13) کاهش مقیاس برای افزایش مقیاس: راهنمای تنظیم دقیق پارامترهای کارآمد (2022)

توسط Lialin، Deshpande، و Rumshisky، https://arxiv.org/abs/2303.15647.

مدل‌های زبان بزرگ مدرن که روی مجموعه داده‌های بزرگ از قبل آموزش داده شده‌اند، توانایی‌های نوظهوری را نشان می‌دهند و در کارهای مختلف از جمله ترجمه زبان، خلاصه‌سازی، کدگذاری و پرسش و پاسخ به خوبی عمل می‌کنند. با این حال، اگر می‌خواهیم توانایی ترانسفورمرها را در داده‌های خاص دامنه و کارهای تخصصی بهبود بخشیم، ارزش آن را دارد که ترانسفورمرها را دقیق‌تر کنیم. این نظرسنجی بیش از 40 مقاله را در مورد روش‌های تنظیم دقیق پارامترها (از جمله تکنیک‌های رایج مانند تنظیم پیشوند، آداپتورها و سازگاری با رتبه پایین) بررسی می‌کند تا تنظیم دقیق (بسیار) از نظر محاسباتی کارآمد باشد.

https://arxiv.org/abs/2303.15647

(14) مقیاس‌بندی مدل‌های زبان: روش‌ها، تجزیه و تحلیل و بینش‌های آموزشی Gopher (2022)

توسط Rae و همکارانش (78 نویسنده مشترک!)، https://arxiv.org/abs/2112.11446

Gopher مقاله بسیار خوبی است که شامل تجزیه و تحلیل‌های زیادی برای درک آموزش LLM است. در اینجا، محققان مدل 280 میلیارد پارامتری را با 80 لایه روی 300 میلیارد توکن آموزش دادند. این شامل تغییرات معماری جالبی مانند استفاده از RMSNorm (هنجارسازی میانگین مربع ریشه) به جای LayerNorm (نرمال‌سازی لایه) است. هر دو LayerNorm و RMSNorm بر BatchNorm ترجیح داده می‌شوند زیرا به اندازه دسته بستگی ندارند و نیازی به همگام‌سازی ندارند، که در تنظیمات توزیع شده با اندازه‌های دسته کوچکتر یک مزیت است. با این حال، RMSNorm به طور کلی گفته می‌شود که آموزش را در معماری‌های عمیق‌تر تثبیت می‌کند.

علاوه بر نکات جالبی مانند موارد فوق، تمرکز اصلی این مقاله تحلیل عملکرد کار برای مقیاس‌های مختلف است. ارزیابی بر روی 152 کار متنوع نشان می‌دهد که افزایش اندازه مدل‌ها بیشترین سود را برای کارهایی مانند درک مطلب، بررسی واقعیت و شناسایی زبان سمی دارد. با این حال، وظایف مربوط به استدلال منطقی و ریاضی کمتر از مقیاس‌بندی معماری بهره می‌برند.

https://arxiv.org/abs/2112.11446

(15) آموزش مدل‌های زبان بزرگ محاسباتی بهینه (2022)

توسط هافمن، بورگو، منش، بوچاتسکایا، کای، رادرفورد، د لاس کاساس، هندریکس، ولبل، کلارک، هنیگان، نولاند، میلیکان، ون دن دریش، داموک، وی، گی، گای، و یان سیفره، https://arxiv.org/abs/2203.15556.

این مقاله مدل چینچیلا با پارامتر 70 میلیاردی را معرفی می‌کند که از مدل محبوب 175 میلیاردی GPT-3 در وظایف مدل‌سازی مولد بهتر عمل می‌کند. با این حال، نقطه عطف اصلی آن این است که مدل‌های زبان بزرگ معاصر «به میزان قابل توجهی آموزش‌دیده نیستند».

این مقاله قانون مقیاس‌بندی خطی را برای آموزش مدل زبان بزرگ تعریف می‌کند. به عنوان مثال، در حالی که اندازه چینچیلا فقط نصف GPT-3 است، از GPT-3 بهتر عمل می‌کند زیرا با 1.4 تریلیون (به جای فقط 300 میلیارد) توکن آموزش داده شده است. به عبارت دیگر، تعداد توکن‌های آموزشی به اندازه مدل حیاتی است.

https://arxiv.org/abs/2203.15556

(16) Pythia: مجموعه‌ای برای تجزیه و تحلیل مدل‌های زبان بزرگ در سراسر آموزش و مقیاس (2023)

توسط Biderman، Schoelkopf، Anthony، Bradley، O'Brien، Hallahan، Khan، Purohit، Prashanth، Raff، Skowron، Sutawika، و van der Wal. https://arxiv.org/abs/2304.01373

Pythia مجموعه‌ای از LLMهای منبع باز (70M تا 12B پارامتر) برای مطالعه چگونگی تکامل LLMها در طول دوره آموزشی است.

معماری مشابه GPT-3 است، اما شامل برخی پیشرفت‌ها، به عنوان مثال، توجه Flash (مانند LLaMA) و تعبیه‌های موقعیتی چرخشی (مانند PalM) است. Pythia بر روی مجموعه داده Pile (825 گیگابیت) برای 300 B توکن (~ 1 دوره در PILE معمولی، ~ 1.5 دوره در PILE غیر تکراری) آموزش داده شد.

https://arxiv.org/abs/2304.01373

بینش اصلی مطالعه Pythia به شرح زیر است:

۱) آموزش بر روی داده‌های تکراری (به دلیل نحوه آموزش LLMها، این به معنای آموزش برای بیش از یک دوره است) به عملکرد یا عملکرد آسیب نمی‌رساند.

۲) ترتیب آموزش تاثیری در حفظ کردن ندارد. این مایه تاسف است زیرا اگر برعکس بود، می‌توانستیم با مرتب کردن مجدد داده‌های آموزشی، مسائل نامطلوب حفظ کلمه به کلمه را کاهش دهیم.

۳) فرکانس مدت از پیش آموزش دیده بر عملکرد کار تأثیر می‌گذارد. به عنوان مثال، دقت چند شات برای عبارت‌های متداول‌تر بیشتر است.

۴) دوبرابر کردن اندازه دسته، زمان آموزش را به نصف کاهش می‌دهد اما به همگرایی آسیبی نمی‌رساند.

تراز - هدایت مدل‌های زبان بزرگ به اهداف و علایق مورد نظر

در سال‌های اخیر، مدل‌های زبان بزرگ نسبتاً توانمند زیادی را دیده‌ایم که می‌توانند متون واقعی تولید کنند (به عنوان مثال، GPT-3 و چینچیلا، در میان دیگران). به نظر می‌رسد که ما از نظر آنچه می‌توانیم با پارادایم‌های متداول پیش آموزش به دست آوریم به سقفی رسیده‌ایم.

برای کمک کردن مدل‌های زبان و کاهش اطلاعات نادرست[4] و زبان مضر[5]، محققان پارادایم‌های آموزشی بیشتری را برای تنظیم دقیق مدل‌های پایه از پیش آموزش‌دیده طراحی کردند.

(17) آموزش مدل‌های زبان برای پیروی از دستورالعمل‌ها با بازخورد انسانی (2022)

توسط Ouyang، Wu، Jiang، Almeida، Wainwright، Mishkin، Zhang، Agarwal، Slama، Ray، Schulman، Hilton، Kelton، Miller، Simens، Askell، Welinder، و Christiano، Leike https://arxiv.org/abs/2203.02155.

در این مقاله به اصطلاح InstructGPT، محققان از مکانیزم یادگیری تقویتی با انسان در حلقه (RLHF) استفاده می‌کنند. آنها با یک مدل پایه GPT-3 از پیش آموزش دیده شروع می‌کنند و با استفاده از یادگیری نظارت شده بر روی جفت‌های پاسخ سریع تولید شده توسط انسان، آن را بیشتر تنظیم می‌کنند (مرحله 1). سپس از انسان‌ها می‌خواهند که خروجی‌های مدل را برای آموزش مدل پاداش رتبه‌بندی کنند (مرحله 2). در نهایت، آنها از مدل پاداش برای به روز رسانی مدل GPT-3 از پیش آموزش دیده و تنظیم شده با استفاده از یادگیری تقویتی از طریق بهینه‌سازی خط مشی پروگزیمال (مرحله 3) استفاده می‌کنند.

به عنوان یک یادداشت، این مقاله همچنین به عنوان مقاله توصیف کننده ایده ChatGPT شناخته می‌شود - طبق شایعات اخیر، ChatGPT یک نسخه کوچک شده از InstructGPT است که روی یک مجموعه داده بزرگتر تنظیم شده است.

https://arxiv.org/abs/2203.02155

(18) هوش‌مصنوعی اساسی: بی‌ضرر بودن از بازخورد هوش‌مصنوعی (2022)

توسط یونتائو، ساوراو، ساندیپان، آماندا، جکسون، جونز، چن، آنا، میرحسینی، مک‌کینون، چن، اولسون، اولا، هرناندز، درین، گانگولی، لی، تران-جان، لند، تران-جان، لند، کردی ندوس، لوکوسویت، لوویت، سلیتو، الهاگه، شیفر، مرکادو، داس سرما، لاسنبی، لارسون، رینگر، جانستون، کراوک، ال شوک، فورت، لانهام، تلین-لاوتون، کانرلی، هنیگان، هیوم، بومن، هتفیلد-دودلی، هتفیلد-دوددز کاپلان، https://arxiv.org/abs/2212.08073.

در این مقاله، محققان ایده همراستایی[6] را یک قدم جلوتر می‌برند و مکانیزم آموزشی برای ایجاد یک سیستم هوش‌مصنوعی «بی‌ضرر» پیشنهاد می‌کنند. به جای نظارت مستقیم انسانی، محققان مکانیسم خودآموزی را پیشنهاد می‌کنند که بر اساس فهرستی از قوانین (که توسط یک انسان ارائه می‌شود) است. مشابه مقاله InstructGPT که در بالا ذکر شد، روش پیشنهادی از رویکرد یادگیری تقویتی استفاده می‌کند.

https://arxiv.org/abs/2212.08073

(19) خودآموزی: همسویی مدل زبان با آموزش خود تولید شده (2022)

توسط وانگ، کردی، میشرا، لیو، اسمیت، خشابی و حاجی شیرزی، https://arxiv.org/abs/2212.10560

تنظیم دقیق دستورالعمل نحوه رسیدن ما از مدل‌های پایه از پیش‌آموزش دیده مشابه GPT-3 به LLMهای توانمندتری مانند ChatGPT است. و مجموعه داده‌های دستورالعمل تولید شده توسط انسان منبع باز مانند databricks-dolly-15k می‌تواند به این امکان کمک کند. اما چگونه این را مقیاس کنیم؟ یکی از راه‌ها، بوت استرپ کردن یک LLM از نسل‌های خودش است.

Self-Instruct یکی از راه‌های (تقریباً بدون حاشیه‌نویسی) برای همسو کردن LLM‌های از پیش آموزش دیده با دستورالعمل‌ها است.

این چگونه کار می کند؟ به طور خلاصه، این یک فرآیند 4 مرحله‌ای است:

۱) مجموعه‌ای از دستورالعمل‌های نوشته شده توسط انسان (در این مورد 175) و دستورالعمل‌های نمونه.

۲) برای تعیین دسته کار از یک LLM از پیش آموزش دیده (مانند GPT-3) استفاده کنید.

۳) با توجه به دستورالعمل جدید، اجازه دهید یک LLM از پیش آموزش دیده پاسخ را ایجاد کند.

۴) قبل از افزودن پاسخ‌ها به مجموعه وظایف، جمع‌آوری، هرس و فیلتر کنید.

https://arxiv.org/abs/2212.10560

در عمل، این بر اساس نمرات ROUGE نسبتاً خوب عمل می‌کند.

به عنوان مثال، یک LLM تنظیم شده توسط Self-Instruct بهتر از LLM پایه GPT-3 (1) عمل می‌کند و می‌تواند با یک LLM که بر روی یک مجموعه بزرگ دستورالعمل نوشته شده توسط انسان از قبل آموزش داده شده است (2) رقابت کند. و خودآموزی همچنین می‌تواند به LLMهایی که قبلاً بر اساس دستورالعمل‌های انسانی تنظیم شده‌اند سود برساند (3).

اما البته، استاندارد طلایی برای ارزیابی LLMها این است که از ارزیابی کنندگان انسانی بپرسید. بر اساس ارزیابی انسانی، Self-Instruct بهتر از LLM پایه عمل می‌کند و LLMهایی که بر روی مجموعه داده‌های دستورالعمل انسانی به روش نظارت شده آموزش دیده‌اند (SuperNI، T0 Trainer). اما جالب اینجاست که Self-Instruct از روش‌های آموزش‌دیده از طریق یادگیری تقویتی با بازخورد انسانی (RLHF) بهتر عمل نمی‌کند.

کدام مجموعه داده‌های دستورالعمل تولید شده توسط انسان یا مجموعه داده‌های خودآموز، امیدوارکننده‌تر است؟ من به هر دو رای می‌دهم. چرا با یک مجموعه داده دستورالعمل تولید شده توسط انسان مانند دستورالعمل‌های 15k از databricks-dolly-15k شروع نمی‌کنیم و سپس این را با خودآموزی مقیاس نمی‌دهیم؟

یادگیری تقویتی با بازخورد انسانی (RLHF)

برای توضیحات بیشتر در مورد یادگیری تقویتی با بازخورد انسانی (RLHF)، به علاوه مقالاتی در مورد بهینه‌سازی خط مشی پروگزیمال برای اجرای RLHF، لطفاً به مقاله مفصل‌تر زیر مراجعه کنید:

آموزش LLM: RLHF و جایگزین‌های آن

آموزش LLM: RLHF و جایگزین های آن

اغلب هنگام بحث در مورد LLM، چه در اخبار تحقیق و چه در آموزش، به فرآیندی به نام یادگیری تقویتی با بازخورد انسانی (RLHF) اشاره می‌کنیم. RLHF بخشی جدایی‌ناپذیر از خط لوله آموزشی مدرن LLM است به دلیل توانایی آن در ترکیب ترجیحات انسانی در چشم‌انداز بهینه‌سازی، که می‌تواند مفید بودن و ایمنی مدل را بهبود بخشد.

داستان کامل را بخوانید

https://magazine.sebastianraschka.com/p/llm-training-rlhf-and-its-alternatives

نتیجه‌گیری و مطالعه بیشتر

من سعی کردم لیست بالا را زیبا و مختصر نگه دارم و بر روی 10 مقاله برتر (به علاوه 3 مقاله جایزه در RLHF) تمرکز کردم تا طراحی، محدودیت‌ها و تکامل پشت مدل‌های زبان بزرگ معاصر را درک کنیم.

برای مطالعه بیشتر، پیشنهاد می‌کنم از منابع موجود در مقالات ذکر شده در بالا پیروی کنید. یا، برای ارائه برخی نکات اضافی، در اینجا چند منبع اضافی وجود دارد (این لیست‌ها جامع نیستند):

جایگزین‌های متن باز برای GPT

· BLOOM: مدل زبان چندزبانه با دسترسی آزاد با پارامتر 176B (2022)، https://arxiv.org/abs/2211.05100

· OPT: Open Pre-trained Language Models (2022)، https://arxiv.org/abs/2205.01068

· UL2: Unifying Language Learning Paradigms (2022)، https://arxiv.org/abs/2205.05131

جایگزین‌های ChatGPT

· LaMDA: مدل‌های زبان برای برنامه‌های گفتگو (2022)، https://arxiv.org/abs/2201.08239

· (Bloomz) تعمیم بین زبانی از طریق تنظیم دقیق چند وظیفه‌ای (2022)، https://arxiv.org/abs/2211.01786

· (Sparrow) بهبود همسویی عوامل گفتگو از طریق قضاوت های انسانی هدفمند (2022)، https://arxiv.org/abs/2209.14375

· BlenderBot3: یک عامل مکالمه مستقر که به طور مداوم یاد می‌گیرد که مسئولانه درگیر شود، https://arxiv.org/abs/2208.03188

مدل‌های زبان بزرگ در زیست‌شناسی محاسباتی

· ProtTrans: Towards Cracking the Language of Life's Through Self-Supervised Deep Learning and High Performance Computing (2021)، https://arxiv.org/abs/2007.06225

· پیش‌بینی ساختار پروتئین بسیار دقیق با AlphaFold (2021)، https://www.nature.com/articles/s41586-021-03819-2

· مدل‌های زبان بزرگ توالی‌های پروتئینی عملکردی در میان خانواده‌های متنوع تولید می‌کنند (2023)، https://www.nature.com/articles/s41587-022-01618-2

این مجله یک پروژه اشتیاق شخصی است. برای کسانی که مایل هستند، من مطمئن هستم که از این کتاب چیزهای زیادی به دست خواهید آورد زیرا توضیح می‌دهد که چگونه LLMها در سطحی از جزئیات کار می‌کنند که در هیچ جای دیگری یافت نمی‌شود.

https://amazon.com/Build-Large-Language-Model-Scratch/dp/1633437167

[1] Fast Weight Programmers

[2] linear Transformers

[3] Transformers with linearized self-attention

[4] misinformation

[5] harmful language

[6] alignment idea

علی روحانی فر پنج‌شنبه 21 فروردین 1404 ساعت 06:28

GML (Graph Machine Learning)

GML (Graph Machine Learning)

درباره من