مدلهای زبانی بزرگ توجه عموم را به خود جلب کردهاند. تنها در نیم دهه، مدلهای بزرگ زبان - ترانسفورمرها - تقریباً به طور کامل حوزه پردازش زبان طبیعی را تغییر دادهاند. علاوه بر این، آنها همچنین شروع به ایجاد انقلاب در زمینههایی مانند بینایی کامپیوتر و زیستشناسی محاسباتی کردهاند.
از آنجایی که ترانسفورمرها تأثیر زیادی بر برنامه تحقیقاتی همه دارند، میخواستم فهرست کوتاهی را برای محققان و متخصصان یادگیری ماشین ارائه کنم.
فهرست زیر عمدتاً به صورت زمانی خوانده میشود و من کاملاً روی مقالات تحقیقاتی دانشگاهی تمرکز میکنم. البته، منابع اضافی زیادی وجود دارد که مفید هستند. به عنوان مثال،
· ترانسفورمر مصور اثر جی آلمار
http://jalammar.github.io/illustrated-transformer/
· مقاله فنیتر وبلاگ توسط لیلیان ونگ.
https://lilianweng.github.io/posts/2020-04-07-the-transformer-family/
· کاتالوگ و شجرهنامه تمام ترانسفورمرهای اصلی تا به امروز توسط خاویر آماترین.
https://amatriain.net/blog/transformer-models-an-introduction-and-catalog-2d1e9039f376/
· اجرای حداقل کد یک مدل زبان مولد برای اهداف آموزشی توسط آندری کارپاتی.
https://github.com/karpathy/nanoGPT
· یک سری سخنرانی و فصل کتاب.
https://sebastianraschka.com/blog/2021/dl-course.html#l19-self-attention-and-transformer-networks
https://github.com/rasbt/machine-learning-book/tree/main/ch16
درک معماری اصلی و وظایف
اگر با ترانسفورمرها/مدلهای زبان بزرگ تازه کار هستید، منطقی است که از ابتدا شروع کنید.
(1) ترجمه ماشین عصبی با یادگیری مشترک تراز و ترجمه (2014)
Bahdanau, Cho, and Bengio, https://arxiv.org/abs/1409.0473
توصیه می کنم اگر چند دقیقه وقت دارید، با مقاله بالا شروع کنید. این یک مکانیسم توجه برای شبکههای عصبی بازگشتی (RNN) برای بهبود قابلیتهای مدلسازی توالی دوربرد معرفی میکند. این به RNNها اجازه میدهد تا جملات طولانیتر را با دقت بیشتری ترجمه کنند - انگیزه ایجاد معماری اصلی ترانسفورمر بعدا
(2) توجه تنها چیزی است که شما نیاز دارید (2017)
Vaswani، Shazeer، Parmar، Uszkoreit، Jones، Gomez، Kaiser، و Polosukhin، https://arxiv.org/abs/1706.03762
مقاله بالا معماری اصلی ترانسفورمر را معرفی میکند که از یک بخش رمزگذار و رمزگشا تشکیل شده است که بعداً به عنوان ماژولهای جداگانه مرتبط خواهد شد. علاوه بر این، این مقاله مفاهیمی مانند مکانیسم توجه محصول نقطهای مقیاسشده، بلوکهای توجه چند سر، و رمزگذاری ورودی موقعیتی را معرفی میکند که پایه و اساس ترانسفورمرهای مدرن باقی ماندهاند.
(3) در مورد عادیسازی لایه در معماری ترانسفورمر (2020)
Xiong، Yang، He، K Zheng، S Zheng، Xing، Zhang، Lan، Wang و Liu، https://arxiv.org/abs/2002.04745
در حالی که شکل اصلی ترانسفورمر بالا (از Attention Is All You Need، https://arxiv.org/abs/1706.03762) خلاصهای مفید از معماری رمزگذار-رمزگشای اصلی است، مکان LayerNorm در این شکل همچنان موضوعی داغ است.
به عنوان مثال، شکل ترانسفورمر Attention Is All You Need نرمالسازی لایه را بین بلوکهای باقیمانده قرار میدهد، که با اجرای کد رسمی (به روز شده) همراه با کاغذ ترانسفورمر اصلی مطابقت ندارد. نوع نشان داده شده در شکل Attention Is All You Need به عنوان Transformer Post-LN شناخته میشود و اجرای کد به روز شده به طور پیش فرض روی نوع Pre-LN است.
نرمالسازی لایه در مقاله معماری ترانسفورمر نشان میدهد که Pre-LN بهتر عمل میکند و مشکلات گرادیان را برطرف میکند، همانطور که در زیر نشان داده شده است. بسیاری از معماریها این را در عمل اتخاذ کردند، اما میتواند منجر به فروپاشی نمایش شود.
بنابراین، در حالی که هنوز بحث در مورد استفاده از Post-LN یا Pre-LN وجود دارد، مقاله جدیدی نیز وجود دارد که استفاده از هر دو جهان را پیشنهاد میکند:
ResiDual: Transformer with Dual Residual Connections (https://arxiv.org/abs/2304.14802)
اینکه آیا در عمل مفید خواهد بود یا خیر، باید دید.
https://arxiv.org/abs/1706.03762
https://arxiv.org/abs/2002.04745
(4) آموزش کنترل حافظههای با وزن سریع: جایگزینی برای شبکههای عصبی عودکننده پویا (1991)
توسط اشمیدهابر،
این مقاله برای کسانی که به نکات تاریخی و رویکردهای اولیه که اساساً شبیه به ترانسفورمرهای مدرن هستند، توصیه میشود.
به عنوان مثال، در سال 1991، که حدود دو دهه و نیم قبل از کاغذ ترانسفورمر اصلی در بالا ("توجه همه آن چیزی است که نیاز دارید")، یورگن اشمیدهابر جایگزینی برای شبکههای عصبی مکرر به نام برنامهنویسان وزن سریع[1] (FWP) پیشنهاد کرد. رویکرد FWP شامل یک شبکه عصبی پیشخور است که به آرامی با نزول گرادیان یاد میگیرد تا تغییرات وزنهای سریع شبکه عصبی دیگر را برنامهریزی کند.
تشبیه ترانسفورماتورهای مدرن در این پست وبلاگ به شرح زیر توضیح داده شده است:
در اصطلاح ترانسفورمر امروزی، FROM و TO به ترتیب کلید و ارزش نامیده میشوند. ورودی که شبکه سریع روی آن اعمال میشود Query نامیده میشود. در اصل، Query توسط ماتریس وزن سریع پردازش میشود که مجموع محصولات بیرونی کلیدها و مقادیر است (بدون توجه به نرمالسازیها و پیشبینیها). از آنجایی که همه عملیات هر دو شبکه قابل تمایز هستند، ما کنترل فعال متمایز سرتاسر تغییرات وزن سریع را از طریق محصولات افزودنی بیرونی یا محصولات تانسور مرتبه دوم به دست میآوریم. این از نظر ریاضی معادل (به غیر از نرمالسازی) چیزی است که بعداً ترانسفورمرهایی با توجه به خود خطی (یا ترانسفورمرهای خطی) نامیده شدند.
همانطور که در گزیده پست وبلاگ در بالا ذکر شد، این رویکرد اکنون "ترانسفورمرهای خطی[2]" یا "ترانسفورمرهایی با توجه به خود خطی[3]" نامیده میشود.
در سال 2021، مقاله ترانسفورمرهای خطی برنامهنویسان مخفیانه وزن سریع هستند، سپس به صراحت هم ارزی بین توجه خطی شده به خود و برنامهنویسان وزن سریع از دهه 1990 را نشان داد.
https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2
(5) تنظیم دقیق مدل زبان جهانی برای طبقه بندی متن (2018)
توسط هوارد و رادر،
https://arxiv.org/abs/1801.06146
این مقاله دیگری است که از منظر تاریخی بسیار جالب است. در حالی که یک سال پس از انتشار ترانسفورمر اصلی Attention Is All You Need نوشته شد، این ترانسفورمر شامل ترانسفورمر نیست، بلکه بر روی شبکههای عصبی تکراری تمرکز دارد. با این حال، هنوز هم قابل توجه است زیرا به طور موثر مدلهای زبانی پیش اموزشی و انتقال یادگیری را برای کارهای پایین دستی پیشنهاد کرد.
در حالی که یادگیری انتقالی قبلاً در بینایی رایانه ایجاد شده بود، هنوز در پردازش زبان طبیعی (NLP) رایج نبود. ULMFit یکی از اولین مقالاتی بود که نشان داد که پیشآموزش یک مدل زبان و تنظیم دقیق آن در یک کار خاص میتواند نتایج پیشرفتهای را در بسیاری از وظایف NLP به همراه داشته باشد.
فرآیند سه مرحلهای برای تنظیم دقیق مدلهای زبان پیشنهاد شده توسط ULMFit به شرح زیر بود:
· یک مدل زبان را روی مجموعه بزرگی از متن آموزش دهید.
· این مدل زبان از پیش آموزشدیده را بر روی دادههای مربوط به کار بهخوبی تنظیم کنید و به آن اجازه دهید تا با سبک و واژگان خاص متن سازگار شود.
· برای جلوگیری از فراموشی فاجعهآمیز، دستهبندی را بر روی دادههای ویژه کار با باز کردن تدریجی لایهها تنظیم کنید.
این دستور العمل - آموزش یک مدل زبان بر روی یک پیکره بزرگ و سپس تنظیم دقیق آن در یک کار پایین دست - رویکرد اصلی مورد استفاده در مدلهای مبتنی بر ترانسفورمر و مدلهای پایه مانند BERT، GPT2/3/4، RoBERTa، و غیره است.
با این حال، یخ زدایی تدریجی، بخش کلیدی ULMFiT، معمولاً در عمل در هنگام کار با معماری ترانسفورمر انجام نمیشود، جایی که همه لایهها به طور معمول یکباره تنظیم میشوند.
https://arxiv.org/abs/1801.06146
(6) BERT: Pre-training Deep Bidirectional Transformers for Language Understanding (2018)
توسط Devlin، Chang، Lee و Toutanova،
https://arxiv.org/abs/1810.04805
به دنبال معماری اصلی ترانسفورمر، تحقیقات مدل زبان بزرگ شروع به دوشاخه شدن در دو جهت کرد: ترانسفورمرهای سبک رمزگذار برای وظایف مدلسازی پیشبینیکننده مانند طبقهبندی متن و ترانسفورمرهای سبک رمزگشا برای کارهای مدلسازی تولیدی مانند ترجمه، خلاصهسازی و سایر اشکال ایجاد متن.
مقاله BERT بالا مفهوم اصلی مدلسازی با زبان نقابدار و پیشبینی جمله بعدی را معرفی میکند. هنوز هم تاثیرگذارترین معماری به سبک رمزگذار است. اگر به این شاخه تحقیقاتی علاقه دارید، توصیه میکنم با RoBERTa پیگیری کنید، که با حذف وظایف پیشبینی جمله بعدی، اهداف پیش آموزشی را ساده کرد.
https://arxiv.org/abs/1810.04805
(7) بهبود درک زبان از طریق پیشآموزش مولد (2018)
توسط رادفورد و نراسیمهان،
مقاله اصلی GPT معماری محبوب سبک رمزگشا و پیشآموزش را از طریق پیشبینی کلمه بعدی معرفی کرد. در جایی که BERT را میتوان یک ترانسفورمر دو طرفه به دلیل هدف پیش آموزشی مدل زبان پوشانده در نظر گرفت، GPT یک مدل یک طرفه و خودرگرسیون است. در حالی که تعبیههای GPT را میتوان برای دستهبندی نیز استفاده کرد، رویکرد GPT در هسته تأثیرگذارترین LLMهای امروزی مانند chatGPT قرار دارد.
اگر به این شاخه تحقیقاتی علاقه دارید، توصیه میکنم مقالات GPT-2 و GPT-3 را دنبال کنید. این دو مقاله نشان میدهد که LLMها قادر به یادگیری Zero و Few-shot هستند و تواناییهای نوظهور LLM را برجسته میکنند. GPT-3 همچنین یک مدل پایه و پایه محبوب برای آموزش LLMهای نسل فعلی مانند ChatGPT است - ما رویکرد InstructGPT را که بعداً به ChatGPT منجر میشود به عنوان یک ورودی جداگانه پوشش خواهیم داد.
(8) BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation and Comprehension،
توسط لوئیس، لیو، گویال، قزوینی نژاد، محمد، لوی، استویانوف، و زتل مایر، https://arxiv.org/abs/1961.
همانطور که قبلا ذکر شد، LLMهای نوع رمزگذار نوع BERT معمولاً برای کارهای مدلسازی پیشگو ترجیح داده میشوند، در حالی که LLMهای نوع رمزگشای نوع GPT در تولید متون بهتر هستند. برای به دست آوردن بهترین هر دو جهان، کاغذ BART بالا هر دو بخش رمزگذار و رمزگشا را با هم ترکیب میکند (بر خلاف ترانسفورمر اصلی - کاغذ دوم در این لیست).
(9) استفاده از قدرت LLM در عمل: نظرسنجی در ChatGPT و فراتر از آن (2023) توسط یانگ، جین، تانگ، هان، فنگ، جیانگ، یین، و هو، https://arxiv.org/abs/2304.13712
این یک مقاله تحقیقاتی نیست، بلکه احتمالاً بهترین نظرسنجی معماری عمومی تا به امروز است که چگونگی تکامل معماریهای مختلف را نشان میدهد. با این حال، در کنار بحث در مورد مدلهای زبان نقابدار به سبک BERT (رمزگذارها) و مدلهای زبان اتورگرسیو به سبک GPT (رمزگشا)، بحثها و راهنماییهای مفیدی در مورد پیشآموزش و تنظیم دقیق دادهها ارائه میکند.
قوانین مقیاسبندی و بهبود کارایی
اگر میخواهید در مورد تکنیکهای مختلف برای بهبود کارایی ترانسفورمرها اطلاعات بیشتری کسب کنید، من مقاله 2020 Efficient Transformers: A Survey و به دنبال آن مقاله 2023 A Survey on Efficient Training of Transformers را توصیه میکنم.
علاوه بر این، در زیر مقالاتی وجود دارد که به نظر من بسیار جالب و ارزش خواندن دارند.
(10) FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness (2022)،
توسط Dao، Fu، Ermon، Rudra و Ré، https://arxiv.org/abs/2205.14135.
در حالی که اکثر مقالات ترانسفورمر در مورد جایگزین کردن مکانیسم اصلی محصول نقطه مقیاس شده برای اجرای خودتوجهی به خود زحمت نمیدهند، FlashAttention مکانیزمی است که اخیراً اغلب به آن اشاره شده است.
(11) Cramming: Training a Language Model on a Single GPU in One Day (2022)
توسط Geiping و Goldstein، https://arxiv.org/abs/2212.14034.
در این مقاله، محققان یک مدل زبان پوشانده / LLM به سبک رمزگذار (اینجا: BERT) را به مدت 24 ساعت روی یک GPU واحد آموزش دادند. برای مقایسه، مقاله BERT اصلی 2018 آن را بر روی 16 TPU به مدت چهار روز آموزش داد. یک بینش جالب این است که در حالی که مدلهای کوچکتر توان عملیاتی بالاتری دارند، مدلهای کوچکتر نیز کارآمدی کمتری یاد میگیرند. بنابراین، مدلهای بزرگتر برای رسیدن به یک آستانه عملکرد پیشبینیکننده به زمان بیشتری نیاز ندارند.
ttps://arxiv.org/abs/2212.14034
(12) LoRA: سازگاری با رتبه پایین مدلهای زبان بزرگ (2021)
توسط هو، شن، والیس، آلن ژو، لی، ال وانگ، اس وانگ و چن، https://arxiv.org/abs/2106.09685.
مدلهای زبان بزرگ مدرن که روی مجموعه دادههای بزرگ از قبل آموزش داده شدهاند، تواناییهای نوظهوری را نشان میدهند و در کارهای مختلف از جمله ترجمه زبان، خلاصهسازی، کدگذاری و پرسش و پاسخ به خوبی عمل میکنند. با این حال، اگر میخواهیم توانایی ترانسفورمرها را در دادههای خاص دامنه و کارهای تخصصی بهبود بخشیم، ارزش آن را دارد که ترانسفورمرها را دقیقتر کنیم.
سازگاری با رتبه پایین (LoRA) یکی از تاثیرگذارترین رویکردها برای تنظیم دقیق مدلهای زبان بزرگ به شیوهای کارآمد از نظر پارامتر است. در حالی که روشهای دیگری برای تنظیم دقیق پارامترهای کارآمد وجود دارد (به بررسی زیر مراجعه کنید)، LoRA بهویژه ارزش برجستهکردن دارد، زیرا هم روشی ظریف و هم بسیار کلی است که میتواند برای انواع دیگر مدلها نیز اعمال شود.
در حالی که وزن یک مدل از پیش آموزش دیده رتبه کاملی در کارهای از پیش آموزش دیده دارد، نویسندگان LoRA خاطرنشان میکنند که مدلهای زبان بزرگ از قبل آموزش دیده زمانی که با یک کار جدید تطبیق داده میشوند، «بعد ذاتی» پایینی دارند. بنابراین، ایده اصلی پشت LoRA این است که تغییرات وزن، ΔW، را به یک نمایش رتبه پایینتر تجزیه کنیم، که پارامتر کارآمدتر است.
(13) کاهش مقیاس برای افزایش مقیاس: راهنمای تنظیم دقیق پارامترهای کارآمد (2022)
توسط Lialin، Deshpande، و Rumshisky، https://arxiv.org/abs/2303.15647.
مدلهای زبان بزرگ مدرن که روی مجموعه دادههای بزرگ از قبل آموزش داده شدهاند، تواناییهای نوظهوری را نشان میدهند و در کارهای مختلف از جمله ترجمه زبان، خلاصهسازی، کدگذاری و پرسش و پاسخ به خوبی عمل میکنند. با این حال، اگر میخواهیم توانایی ترانسفورمرها را در دادههای خاص دامنه و کارهای تخصصی بهبود بخشیم، ارزش آن را دارد که ترانسفورمرها را دقیقتر کنیم. این نظرسنجی بیش از 40 مقاله را در مورد روشهای تنظیم دقیق پارامترها (از جمله تکنیکهای رایج مانند تنظیم پیشوند، آداپتورها و سازگاری با رتبه پایین) بررسی میکند تا تنظیم دقیق (بسیار) از نظر محاسباتی کارآمد باشد.
(14) مقیاسبندی مدلهای زبان: روشها، تجزیه و تحلیل و بینشهای آموزشی Gopher (2022)
توسط Rae و همکارانش (78 نویسنده مشترک!)، https://arxiv.org/abs/2112.11446
Gopher مقاله بسیار خوبی است که شامل تجزیه و تحلیلهای زیادی برای درک آموزش LLM است. در اینجا، محققان مدل 280 میلیارد پارامتری را با 80 لایه روی 300 میلیارد توکن آموزش دادند. این شامل تغییرات معماری جالبی مانند استفاده از RMSNorm (هنجارسازی میانگین مربع ریشه) به جای LayerNorm (نرمالسازی لایه) است. هر دو LayerNorm و RMSNorm بر BatchNorm ترجیح داده میشوند زیرا به اندازه دسته بستگی ندارند و نیازی به همگامسازی ندارند، که در تنظیمات توزیع شده با اندازههای دسته کوچکتر یک مزیت است. با این حال، RMSNorm به طور کلی گفته میشود که آموزش را در معماریهای عمیقتر تثبیت میکند.
علاوه بر نکات جالبی مانند موارد فوق، تمرکز اصلی این مقاله تحلیل عملکرد کار برای مقیاسهای مختلف است. ارزیابی بر روی 152 کار متنوع نشان میدهد که افزایش اندازه مدلها بیشترین سود را برای کارهایی مانند درک مطلب، بررسی واقعیت و شناسایی زبان سمی دارد. با این حال، وظایف مربوط به استدلال منطقی و ریاضی کمتر از مقیاسبندی معماری بهره میبرند.
(15) آموزش مدلهای زبان بزرگ محاسباتی بهینه (2022)
توسط هافمن، بورگو، منش، بوچاتسکایا، کای، رادرفورد، د لاس کاساس، هندریکس، ولبل، کلارک، هنیگان، نولاند، میلیکان، ون دن دریش، داموک، وی، گی، گای، و یان سیفره، https://arxiv.org/abs/2203.15556.
این مقاله مدل چینچیلا با پارامتر 70 میلیاردی را معرفی میکند که از مدل محبوب 175 میلیاردی GPT-3 در وظایف مدلسازی مولد بهتر عمل میکند. با این حال، نقطه عطف اصلی آن این است که مدلهای زبان بزرگ معاصر «به میزان قابل توجهی آموزشدیده نیستند».
این مقاله قانون مقیاسبندی خطی را برای آموزش مدل زبان بزرگ تعریف میکند. به عنوان مثال، در حالی که اندازه چینچیلا فقط نصف GPT-3 است، از GPT-3 بهتر عمل میکند زیرا با 1.4 تریلیون (به جای فقط 300 میلیارد) توکن آموزش داده شده است. به عبارت دیگر، تعداد توکنهای آموزشی به اندازه مدل حیاتی است.
(16) Pythia: مجموعهای برای تجزیه و تحلیل مدلهای زبان بزرگ در سراسر آموزش و مقیاس (2023)
توسط Biderman، Schoelkopf، Anthony، Bradley، O'Brien، Hallahan، Khan، Purohit، Prashanth، Raff، Skowron، Sutawika، و van der Wal. https://arxiv.org/abs/2304.01373
Pythia مجموعهای از LLMهای منبع باز (70M تا 12B پارامتر) برای مطالعه چگونگی تکامل LLMها در طول دوره آموزشی است.
معماری مشابه GPT-3 است، اما شامل برخی پیشرفتها، به عنوان مثال، توجه Flash (مانند LLaMA) و تعبیههای موقعیتی چرخشی (مانند PalM) است. Pythia بر روی مجموعه داده Pile (825 گیگابیت) برای 300 B توکن (~ 1 دوره در PILE معمولی، ~ 1.5 دوره در PILE غیر تکراری) آموزش داده شد.
بینش اصلی مطالعه Pythia به شرح زیر است:
۱) آموزش بر روی دادههای تکراری (به دلیل نحوه آموزش LLMها، این به معنای آموزش برای بیش از یک دوره است) به عملکرد یا عملکرد آسیب نمیرساند.
۲) ترتیب آموزش تاثیری در حفظ کردن ندارد. این مایه تاسف است زیرا اگر برعکس بود، میتوانستیم با مرتب کردن مجدد دادههای آموزشی، مسائل نامطلوب حفظ کلمه به کلمه را کاهش دهیم.
۳) فرکانس مدت از پیش آموزش دیده بر عملکرد کار تأثیر میگذارد. به عنوان مثال، دقت چند شات برای عبارتهای متداولتر بیشتر است.
۴) دوبرابر کردن اندازه دسته، زمان آموزش را به نصف کاهش میدهد اما به همگرایی آسیبی نمیرساند.
تراز - هدایت مدلهای زبان بزرگ به اهداف و علایق مورد نظر
در سالهای اخیر، مدلهای زبان بزرگ نسبتاً توانمند زیادی را دیدهایم که میتوانند متون واقعی تولید کنند (به عنوان مثال، GPT-3 و چینچیلا، در میان دیگران). به نظر میرسد که ما از نظر آنچه میتوانیم با پارادایمهای متداول پیش آموزش به دست آوریم به سقفی رسیدهایم.
برای کمک کردن مدلهای زبان و کاهش اطلاعات نادرست[4] و زبان مضر[5]، محققان پارادایمهای آموزشی بیشتری را برای تنظیم دقیق مدلهای پایه از پیش آموزشدیده طراحی کردند.
(17) آموزش مدلهای زبان برای پیروی از دستورالعملها با بازخورد انسانی (2022)
توسط Ouyang، Wu، Jiang، Almeida، Wainwright، Mishkin، Zhang، Agarwal، Slama، Ray، Schulman، Hilton، Kelton، Miller، Simens، Askell، Welinder، و Christiano، Leike https://arxiv.org/abs/2203.02155.
در این مقاله به اصطلاح InstructGPT، محققان از مکانیزم یادگیری تقویتی با انسان در حلقه (RLHF) استفاده میکنند. آنها با یک مدل پایه GPT-3 از پیش آموزش دیده شروع میکنند و با استفاده از یادگیری نظارت شده بر روی جفتهای پاسخ سریع تولید شده توسط انسان، آن را بیشتر تنظیم میکنند (مرحله 1). سپس از انسانها میخواهند که خروجیهای مدل را برای آموزش مدل پاداش رتبهبندی کنند (مرحله 2). در نهایت، آنها از مدل پاداش برای به روز رسانی مدل GPT-3 از پیش آموزش دیده و تنظیم شده با استفاده از یادگیری تقویتی از طریق بهینهسازی خط مشی پروگزیمال (مرحله 3) استفاده میکنند.
به عنوان یک یادداشت، این مقاله همچنین به عنوان مقاله توصیف کننده ایده ChatGPT شناخته میشود - طبق شایعات اخیر، ChatGPT یک نسخه کوچک شده از InstructGPT است که روی یک مجموعه داده بزرگتر تنظیم شده است.
(18) هوشمصنوعی اساسی: بیضرر بودن از بازخورد هوشمصنوعی (2022)
توسط یونتائو، ساوراو، ساندیپان، آماندا، جکسون، جونز، چن، آنا، میرحسینی، مککینون، چن، اولسون، اولا، هرناندز، درین، گانگولی، لی، تران-جان، لند، تران-جان، لند، کردی ندوس، لوکوسویت، لوویت، سلیتو، الهاگه، شیفر، مرکادو، داس سرما، لاسنبی، لارسون، رینگر، جانستون، کراوک، ال شوک، فورت، لانهام، تلین-لاوتون، کانرلی، هنیگان، هیوم، بومن، هتفیلد-دودلی، هتفیلد-دوددز کاپلان، https://arxiv.org/abs/2212.08073.
در این مقاله، محققان ایده همراستایی[6] را یک قدم جلوتر میبرند و مکانیزم آموزشی برای ایجاد یک سیستم هوشمصنوعی «بیضرر» پیشنهاد میکنند. به جای نظارت مستقیم انسانی، محققان مکانیسم خودآموزی را پیشنهاد میکنند که بر اساس فهرستی از قوانین (که توسط یک انسان ارائه میشود) است. مشابه مقاله InstructGPT که در بالا ذکر شد، روش پیشنهادی از رویکرد یادگیری تقویتی استفاده میکند.
(19) خودآموزی: همسویی مدل زبان با آموزش خود تولید شده (2022)
توسط وانگ، کردی، میشرا، لیو، اسمیت، خشابی و حاجی شیرزی، https://arxiv.org/abs/2212.10560
تنظیم دقیق دستورالعمل نحوه رسیدن ما از مدلهای پایه از پیشآموزش دیده مشابه GPT-3 به LLMهای توانمندتری مانند ChatGPT است. و مجموعه دادههای دستورالعمل تولید شده توسط انسان منبع باز مانند databricks-dolly-15k میتواند به این امکان کمک کند. اما چگونه این را مقیاس کنیم؟ یکی از راهها، بوت استرپ کردن یک LLM از نسلهای خودش است.
Self-Instruct یکی از راههای (تقریباً بدون حاشیهنویسی) برای همسو کردن LLMهای از پیش آموزش دیده با دستورالعملها است.
این چگونه کار می کند؟ به طور خلاصه، این یک فرآیند 4 مرحلهای است:
۱) مجموعهای از دستورالعملهای نوشته شده توسط انسان (در این مورد 175) و دستورالعملهای نمونه.
۲) برای تعیین دسته کار از یک LLM از پیش آموزش دیده (مانند GPT-3) استفاده کنید.
۳) با توجه به دستورالعمل جدید، اجازه دهید یک LLM از پیش آموزش دیده پاسخ را ایجاد کند.
۴) قبل از افزودن پاسخها به مجموعه وظایف، جمعآوری، هرس و فیلتر کنید.
https://arxiv.org/abs/2212.10560
در عمل، این بر اساس نمرات ROUGE نسبتاً خوب عمل میکند.
به عنوان مثال، یک LLM تنظیم شده توسط Self-Instruct بهتر از LLM پایه GPT-3 (1) عمل میکند و میتواند با یک LLM که بر روی یک مجموعه بزرگ دستورالعمل نوشته شده توسط انسان از قبل آموزش داده شده است (2) رقابت کند. و خودآموزی همچنین میتواند به LLMهایی که قبلاً بر اساس دستورالعملهای انسانی تنظیم شدهاند سود برساند (3).
اما البته، استاندارد طلایی برای ارزیابی LLMها این است که از ارزیابی کنندگان انسانی بپرسید. بر اساس ارزیابی انسانی، Self-Instruct بهتر از LLM پایه عمل میکند و LLMهایی که بر روی مجموعه دادههای دستورالعمل انسانی به روش نظارت شده آموزش دیدهاند (SuperNI، T0 Trainer). اما جالب اینجاست که Self-Instruct از روشهای آموزشدیده از طریق یادگیری تقویتی با بازخورد انسانی (RLHF) بهتر عمل نمیکند.
کدام مجموعه دادههای دستورالعمل تولید شده توسط انسان یا مجموعه دادههای خودآموز، امیدوارکنندهتر است؟ من به هر دو رای میدهم. چرا با یک مجموعه داده دستورالعمل تولید شده توسط انسان مانند دستورالعملهای 15k از databricks-dolly-15k شروع نمیکنیم و سپس این را با خودآموزی مقیاس نمیدهیم؟
یادگیری تقویتی با بازخورد انسانی (RLHF)
برای توضیحات بیشتر در مورد یادگیری تقویتی با بازخورد انسانی (RLHF)، به علاوه مقالاتی در مورد بهینهسازی خط مشی پروگزیمال برای اجرای RLHF، لطفاً به مقاله مفصلتر زیر مراجعه کنید:
آموزش LLM: RLHF و جایگزینهای آن
آموزش LLM: RLHF و جایگزین های آن
اغلب هنگام بحث در مورد LLM، چه در اخبار تحقیق و چه در آموزش، به فرآیندی به نام یادگیری تقویتی با بازخورد انسانی (RLHF) اشاره میکنیم. RLHF بخشی جداییناپذیر از خط لوله آموزشی مدرن LLM است به دلیل توانایی آن در ترکیب ترجیحات انسانی در چشمانداز بهینهسازی، که میتواند مفید بودن و ایمنی مدل را بهبود بخشد.
داستان کامل را بخوانید
https://magazine.sebastianraschka.com/p/llm-training-rlhf-and-its-alternatives
نتیجهگیری و مطالعه بیشتر
من سعی کردم لیست بالا را زیبا و مختصر نگه دارم و بر روی 10 مقاله برتر (به علاوه 3 مقاله جایزه در RLHF) تمرکز کردم تا طراحی، محدودیتها و تکامل پشت مدلهای زبان بزرگ معاصر را درک کنیم.
برای مطالعه بیشتر، پیشنهاد میکنم از منابع موجود در مقالات ذکر شده در بالا پیروی کنید. یا، برای ارائه برخی نکات اضافی، در اینجا چند منبع اضافی وجود دارد (این لیستها جامع نیستند):
جایگزینهای متن باز برای GPT
· BLOOM: مدل زبان چندزبانه با دسترسی آزاد با پارامتر 176B (2022)، https://arxiv.org/abs/2211.05100
· OPT: Open Pre-trained Language Models (2022)، https://arxiv.org/abs/2205.01068
· UL2: Unifying Language Learning Paradigms (2022)، https://arxiv.org/abs/2205.05131
جایگزینهای ChatGPT
· LaMDA: مدلهای زبان برای برنامههای گفتگو (2022)، https://arxiv.org/abs/2201.08239
· (Bloomz) تعمیم بین زبانی از طریق تنظیم دقیق چند وظیفهای (2022)، https://arxiv.org/abs/2211.01786
· (Sparrow) بهبود همسویی عوامل گفتگو از طریق قضاوت های انسانی هدفمند (2022)، https://arxiv.org/abs/2209.14375
· BlenderBot3: یک عامل مکالمه مستقر که به طور مداوم یاد میگیرد که مسئولانه درگیر شود، https://arxiv.org/abs/2208.03188
مدلهای زبان بزرگ در زیستشناسی محاسباتی
· ProtTrans: Towards Cracking the Language of Life's Through Self-Supervised Deep Learning and High Performance Computing (2021)، https://arxiv.org/abs/2007.06225
· پیشبینی ساختار پروتئین بسیار دقیق با AlphaFold (2021)، https://www.nature.com/articles/s41586-021-03819-2
· مدلهای زبان بزرگ توالیهای پروتئینی عملکردی در میان خانوادههای متنوع تولید میکنند (2023)، https://www.nature.com/articles/s41587-022-01618-2
این مجله یک پروژه اشتیاق شخصی است. برای کسانی که مایل هستند، من مطمئن هستم که از این کتاب چیزهای زیادی به دست خواهید آورد زیرا توضیح میدهد که چگونه LLMها در سطحی از جزئیات کار میکنند که در هیچ جای دیگری یافت نمیشود.
https://amazon.com/Build-Large-Language-Model-Scratch/dp/1633437167