تنظیم دستورالعمل یک تکنیک حیاتی برای افزایش توانایی مدلهای زبان بزرگ (LLM) برای پیروی از دستورالعملهای خاص کار و تعمیم به وظایف نامرئی است. این نظرسنجی روششناسی، مجموعه دادهها، چالشها و جهتگیریهای آینده را در تنظیم دستورالعملها ترکیب میکند و بینشهایی را درباره تأثیر آن بر عملکرد و سازگاری مدل ارائه میدهد.
1. Instruction Tuning چیست؟
تنظیم دستورالعمل شامل تنظیم دقیق LLMها در وظایف مختلف است که به عنوان دستورالعملها قالببندی شدهاند (مثلاً "این متن را خلاصه کنید: [ورودی]") تا خروجیهای مدل را با نیت انسان تراز کنند. برخلاف تنظیم دقیق سنتی، با قرار دادن مدلها در معرض طیف گستردهای از وظایف که بهعنوان درخواستهای زبان طبیعی بیان میشوند، بر تعمیم وظایف و یادگیری صفر/چند شات تمرکز دارد.
مزایای کلیدی:
- تعمیم Zero-shot را به کارهای دیده نشده بهبود میبخشد.
- قابلیت کنترل و همسویی با هدف کاربر را افزایش میدهد.
- نیاز به تنظیم دقیق کار خاص را کاهش میدهد.
2. روششناسی
الف) تنظیم دستورالعمل نظارت شده
- رویکرد: مدلهای آموزش بر روی مجموعه دادههای برچسبگذاری شده که هر نمونه شامل دستورالعمل، ورودی و خروجی است.
- مثالها:
- FLAN (2021): آموزش با بیش از 60 کار که به عنوان دستورالعمل بیان شده است، عملکرد Zero-shot را بهبود میبخشد.
- T (2022): از آموزش چند وظیفهای در مجموعه داده P3 (PromptSource) برای تعمیم وظایف استفاده میکند.
ب) تنظیم بدون نظارت/خود نظارت
- Self-Instruct (2022): مجموعه دادههای دستورالعمل مصنوعی را با استفاده از خود مدل تولید میکند و حاشیهنویسی انسانی را به حداقل میرساند.
- Alpaca (2023): LLaMA را روی 52K نمونه خود تولید شده از طریق ChatGPT تنظیم دقیق میکند.
ج) رویکردهای ترکیبی
- InstructGPT (2022): تنظیم نظارت شده را با یادگیری تقویتی از بازخورد انسانی (RLHF) برای تراز کردن ترکیب میکند.
- OPT-IML (2022): آموزش چند وظیفهای را در بیش از 1500 کار ادغام میکند.
3. مجموعه دادههای کلیدی
Dataset |
Tasks |
Size |
Example Models |
Super-NaturalInstructions |
1,600+ tasks |
5M examples |
Tk-Instruct, FLAN |
P3 (PromptSource) |
200+ tasks |
13M examples |
T0, T5 |
Unnatural Instructions |
Synthetic |
240K examples |
Self-Instruct, Alpaca |
FLAN Collection |
60+ tasks |
1.8M examples |
FLAN, PaLM |
4. تأثیر تنظیم دستورالعمل
1. تعمیم Zero-Shot:
- FLAN دقت Zero-shot GPT-3 را 10 تا 20 درصد در معیارهایی مانند MMLU و TyDiQA بهبود میبخشد.
- T0 در 11 از 12 کار ارزیابی از مدلهای تنظیم نشده بهتر عمل میکند.
2. تطبیقپذیری کار: مدلهای تنظیمشده با دستورالعمل (مانند InstructGPT، Alpaca) بهتر است از دستورات پیچیده مانند استدلال زنجیرهای از فکر پیروی کنند.
3. همسویی انسانی: مدلهایی مانند کلود (هوشمصنوعی قانون اساسی) با همسویی با اصول اخلاقی از پیش تعریف شده، خروجیهای مضر را کاهش میدهند.
5. چالشها
1. کیفیت و تنوع دادهها:
- نویز در مجموعه دادههای مصنوعی (به عنوان مثال، خودآموزی) تعمیم را محدود میکند.
- مجموعه دادههای تنظیم شده توسط انسان (به عنوان مثال، دستورالعملهای فوق طبیعی) کار فشردهای هستند.
2. تطبیق بیش از حد با دستورالعملها: مدلها ممکن است فرمتهای کار را به جای یادگیری استدلال اساسی حفظ کنند.
3. تقویت تعصب: تنظیم دستورالعمل میتواند سوگیریها را از دادههای آموزشی به ارث ببرد (به عنوان مثال، کلیشههای جنسیتی در درخواستها).
4. مقیاسپذیری: آموزش در مجموعه دادههای چندوظیفهای عظیم (به عنوان مثال، OPT-IML) به منابع محاسباتی قابل توجهی نیاز دارد.
6. پیشرفتهای اخیر
- 1. تنظیم کارآمد پارامتر:
- LoRA (انطباق با رتبه پایین): فقط فضاهای فرعی با وزن کم را به خوبی تنظیم میکند و استفاده از حافظه را 3× کاهش میدهد.
- تنظیم سریع: به جای وزنههای کامل مدل، اعلانهای نرم را یاد میگیرد.
- 2. انتقال وظایف متقابل: ExT5 (2023): نشان میدهد که تنظیم دستورالعملها انتقال وظایف متقابل را در تنظیمات چند زبانه بهبود میبخشد.
- 3. ترکیب با RLHF: Claude و GPT-4 از RLHF برای اصلاح مدلهای تنظیم شده توسط دستورالعملها با استفاده از ترجیحات انسانی استفاده میکنند.
7. مسیرهای آینده
1. تنظیم دستورالعمل چندوجهی: چارچوبها را برای مدیریت متن، تصاویر و صدا گسترش دهید (به عنوان مثال، Flamingo، Kosmos-1).
2. تولید دستورالعمل پویا: به طور خودکار دستورالعملهای آگاه از زمینه را برای کارهای شخصیسازی شده ایجاد کنید.
- 3. کاهش تعصب: تکنیکهای انحرافی متناسب با خطوط لوله تنظیم دستورالعمل توسعه دهید.
- 4. معیارهای ارزیابی: معیارهای یکپارچه (به عنوان مثال، BIG-bench، HELM) برای ارزیابی تعمیم و ایمنی ایجاد کنید.
- 5. بهبود کارایی: آموزش را از طریق توجه پراکنده، کمیسازی و روشهای توزیع شده بهینه کنید.
نتیجهگیری
تنظیم دستورالعملها LLMها را به سیستمهای همه کاره و عمومی تبدیل کرده است که قادر به تطبیق کار Zero-Shot هستند. در حالی که چالشهایی مانند کیفیت دادهها و سوگیری وجود دارند، پیشرفتها در تنظیم خود نظارتی، کارایی پارامترها و همسویی انسانی باعث پیشرفت میشوند. کار آینده بر مقیاسبندی این روشها به حوزههای چندوجهی و در عین حال حصول اطمینان از استقرار اخلاقی و قوی متمرکز خواهد بود.
1. Wei et al., *Finetuned Language Models Are Zero-Shot Learners* (FLAN, 2021).
2. Chung et al., *Scaling Instruction-Finetuned Language Models* (2022).
3. Wang et al., *Self-Instruct: Aligning Language Models with Self-Generated Instructions* (2022).
4. Ouyang et al., *Training Language Models to Follow Instructions with Human Feedback* (InstructGPT, 2022).
5. Sanh et al., *Multitask Prompted Training Enables Zero-Shot Task Generalization* (T0, 2022).