elf-Instruct یک چارچوب نیمه خودکار است که برای بهبود قابلیتهای پیروی از دستورالعملهای مدلهای زبان از پیش آموزشدیده (LMs) با استفاده از توانایی خود برای تولید دادههای دستورالعمل مصنوعی طراحی شده است. این رویکرد اتکا به مجموعه دادههای برچسبگذاری شده توسط انسان را به حداقل میرساند و تنظیم دستورالعمل را مقیاسپذیرتر و متنوعتر میکند. در زیر یک نمای کلی از روش، مشارکت و پیامدهای آن ارائه شده است.
شکل ۱: مروری بر سطح بالای خودآموز. این فرآیند با مجموعه کوچکی از وظایف به عنوان مجموعه وظایف شروع میشود. وظایف تصادفی از مجموعه وظایف نمونهبرداری میشوند و برای تحریک یک LM خارج از قفسه برای تولید دستورالعملهای جدید و نمونههای مربوطه، به دنبال فیلتر کردن نسلهای با کیفیت پایین یا مشابه استفاده میشوند و سپس به مخزن اولیه وظایف اضافه میشوند. دادههای به دست آمده را میتوان بعداً برای تنظیم دستورالعمل خود مدل زبان استفاده کرد تا دستورالعملها را بهتر دنبال کند. وظایف نشان داده شده در شکل توسط GPT3 تولید میشوند.
Constitutional AI (CAI) رویکردی است که توسط Anthropic برای آموزش مدلهای زبانی بزرگ (LLM) به منظور کمک، صادقانه و بیضرر با همسو کردن آنها با اصول صریح یا "قوانین اساسی" پیشگام شده است. این چارچوب اتکا به بازخورد انسانی را در طول آموزش با استفاده از بازخورد تولید شده توسط هوشمصنوعی که توسط یک قانون از پیش تعریف شده هدایت میشود، کاهش میدهد. در زیر مروری بر هوشمصنوعی، روششناسی، مزایا و چالشهای آن است.
شکل 1: مراحل اساسی فرآیند هوشمصنوعی[1] (CAI) خود را نشان میدهیم، که شامل یک مرحله یادگیری نظارت شده (SL) شامل مراحل در بالا و یک مرحله یادگیری تقویتی (RL) است که به عنوان دنباله مراحل در پایین شکل نشان داده شده است. هم نقدها و هم بازخوردهای هوشمصنوعی توسط مجموعه کوچکی از اصول برگرفته از یک «قانون اساسی» هدایت میشوند. مرحله تحت نظارت به طور قابل توجهی مدل اولیه را بهبود میبخشد و کنترلی بر رفتار اولیه در شروع فاز RL میدهد و مسائل احتمالی اکتشاف را برطرف میکند. مرحله RL به طور قابل توجهی عملکرد و قابلیت اطمینان را بهبود میبخشد.
Pythia که توسط EleutherAI توسعه یافته است، مجموعهای از 16 مدل زبان بزرگ (LLM) است که برای ارائه بینشهای تکرارپذیر در مورد پویایی آموزش و رفتار مقیاسپذیری مدلهای ترانسفورمر اتورگرسیو طراحی شدهاند. این مجموعه تحقیقات عمیق را در مورد چگونگی تکامل LLM ها در طول آموزش و چگونگی تغییر عملکرد آنها با مقیاس آنها تسهیل میکند. در زیر مروری بر ویژگیهای کلیدی، روششناسی، مطالعات موردی و برنامههای کاربردی ارائه شده است.
1. مروری بر Pythia
* هدف
- برای مطالعه تکامل LLM ها در آموزش و مقیاسبندی.
- امکان تکرارپذیری در تحقیقات با فراهم کردن دسترسی عمومی به مدلها، نقاط بازرسی، بارگذارهای داده آموزشی و فراپارامترها.
* سوئیت مدل
- اندازهها: محدوده از پارامترهای 70M تا 12B.
- دادههای آموزشی: مدلها بر روی مجموعه داده Pile (300B توکن) و نسخه حذف شده آن (207B توکن) آموزش داده میشوند.
- پستهای بازرسی: 154 ایست بازرسی در هر مدل، از جمله فواصل ثبت شده برای مراحل اولیه آموزش.
ادامه مطلب ...