تنظیم دستورالعمل برای مدل‌های زبان بزرگ

تنظیم دستورالعمل یک تکنیک حیاتی برای افزایش توانایی مدل‌های زبان بزرگ (LLM) برای پیروی از دستورالعمل‌های خاص کار و تعمیم به وظایف نامرئی است. این نظرسنجی روش‌شناسی، مجموعه داده‌ها، چالش‌ها و جهت‌گیری‌های آینده را در تنظیم دستورالعمل‌ها ترکیب می‌کند و بینش‌هایی را درباره تأثیر آن بر عملکرد و سازگاری مدل ارائه می‌دهد.

1. Instruction Tuning چیست؟

تنظیم دستورالعمل شامل تنظیم دقیق LLMها در وظایف مختلف است که به عنوان دستورالعمل‌ها قالب‌بندی شده‌اند (مثلاً "این متن را خلاصه کنید: [ورودی]") تا خروجی‌های مدل را با نیت انسان تراز کنند. برخلاف تنظیم دقیق سنتی، با قرار دادن مدل‌ها در معرض طیف گسترده‌ای از وظایف که به‌عنوان درخواست‌های زبان طبیعی بیان می‌شوند، بر تعمیم وظایف و یادگیری صفر/چند شات تمرکز دارد.

مزایای کلیدی:

- تعمیم Zero-shot را به کارهای دیده نشده بهبود می‌بخشد.

- قابلیت کنترل و همسویی با هدف کاربر را افزایش می‌دهد.

- نیاز به تنظیم دقیق کار خاص را کاهش می‌دهد.

2. روش‌شناسی

الف) تنظیم دستورالعمل نظارت شده

- رویکرد: مدل‌های آموزش بر روی مجموعه داده‌های برچسب‌گذاری شده که هر نمونه شامل دستورالعمل، ورودی و خروجی است.

- مثال‌ها:

- FLAN (2021): آموزش با بیش از 60 کار که به عنوان دستورالعمل بیان شده است، عملکرد Zero-shot را بهبود می‌بخشد.

- T (2022): از آموزش چند وظیفه‌ای در مجموعه داده P3 (PromptSource) برای تعمیم وظایف استفاده می‌کند.

ب) تنظیم بدون نظارت/خود نظارت

- Self-Instruct (2022): مجموعه داده‌های دستورالعمل مصنوعی را با استفاده از خود مدل تولید می‌کند و حاشیه‌نویسی انسانی را به حداقل می‌رساند.

- Alpaca (2023): LLaMA را روی 52K نمونه خود تولید شده از طریق ChatGPT تنظیم دقیق می‌کند.

ج) رویکردهای ترکیبی

- InstructGPT (2022): تنظیم نظارت شده را با یادگیری تقویتی از بازخورد انسانی (RLHF) برای تراز کردن ترکیب می‌کند.

- OPT-IML (2022): آموزش چند وظیفه‌ای را در بیش از 1500 کار ادغام می‌کند.

3. مجموعه داده‌های کلیدی

Dataset	Tasks	Size	Example Models
Super-NaturalInstructions	1,600+ tasks	5M examples	Tk-Instruct, FLAN
P3 (PromptSource)	200+ tasks	13M examples	T0, T5
Unnatural Instructions	Synthetic	240K examples	Self-Instruct, Alpaca
FLAN Collection	60+ tasks	1.8M examples	FLAN, PaLM

4. تأثیر تنظیم دستورالعمل

1. تعمیم Zero-Shot:

- FLAN دقت Zero-shot GPT-3 را 10 تا 20 درصد در معیارهایی مانند MMLU و TyDiQA بهبود می‌بخشد.

- T0 در 11 از 12 کار ارزیابی از مدل‌های تنظیم نشده بهتر عمل می‌کند.

2. تطبیق‌پذیری کار: مدل‌های تنظیم‌شده با دستورالعمل (مانند InstructGPT، Alpaca) بهتر است از دستورات پیچیده مانند استدلال زنجیره‌ای از فکر پیروی کنند.

3. همسویی انسانی: مدل‌هایی مانند کلود (هوش‌مصنوعی قانون اساسی) با همسویی با اصول اخلاقی از پیش تعریف شده، خروجی‌های مضر را کاهش می‌دهند.

5. چالش‌ها

1. کیفیت و تنوع داده‌ها:

- نویز در مجموعه داده‌های مصنوعی (به عنوان مثال، خودآموزی) تعمیم را محدود می‌کند.

- مجموعه داده‌های تنظیم شده توسط انسان (به عنوان مثال، دستورالعمل‌های فوق طبیعی) کار فشرده‌ای هستند.

2. تطبیق بیش از حد با دستورالعمل‌ها: مدل‌ها ممکن است فرمت‌های کار را به جای یادگیری استدلال اساسی حفظ کنند.

3. تقویت تعصب: تنظیم دستورالعمل می‌تواند سوگیری‌ها را از داده‌های آموزشی به ارث ببرد (به عنوان مثال، کلیشه‌های جنسیتی در درخواست‌ها).

4. مقیاس‌پذیری: آموزش در مجموعه داده‌های چندوظیفه‌ای عظیم (به عنوان مثال، OPT-IML) به منابع محاسباتی قابل توجهی نیاز دارد.

6. پیشرفت‌های اخیر

- 1. تنظیم کارآمد پارامتر:

- LoRA (انطباق با رتبه پایین): فقط فضاهای فرعی با وزن کم را به خوبی تنظیم می‌کند و استفاده از حافظه را 3× کاهش می‌دهد.

- تنظیم سریع: به جای وزنه‌های کامل مدل، اعلان‌های نرم را یاد می‌گیرد.

- 2. انتقال وظایف متقابل: ExT5 (2023): نشان می‌دهد که تنظیم دستورالعمل‌ها انتقال وظایف متقابل را در تنظیمات چند زبانه بهبود می‌بخشد.

- 3. ترکیب با RLHF: Claude و GPT-4 از RLHF برای اصلاح مدل‌های تنظیم شده توسط دستورالعمل‌ها با استفاده از ترجیحات انسانی استفاده می‌کنند.

7. مسیرهای آینده

1. تنظیم دستورالعمل چندوجهی: چارچوب‌ها را برای مدیریت متن، تصاویر و صدا گسترش دهید (به عنوان مثال، Flamingo، Kosmos-1).

2. تولید دستورالعمل پویا: به طور خودکار دستورالعمل‌های آگاه از زمینه را برای کارهای شخصی‌سازی شده ایجاد کنید.

- 3. کاهش تعصب: تکنیک‌های انحرافی متناسب با خطوط لوله تنظیم دستورالعمل توسعه دهید.

- 4. معیارهای ارزیابی: معیارهای یکپارچه (به عنوان مثال، BIG-bench، HELM) برای ارزیابی تعمیم و ایمنی ایجاد کنید.

- 5. بهبود کارایی: آموزش را از طریق توجه پراکنده، کمی‌سازی و روش‌های توزیع شده بهینه کنید.

نتیجه‌گیری

تنظیم دستورالعمل‌ها LLMها را به سیستم‌های همه کاره و عمومی تبدیل کرده است که قادر به تطبیق کار Zero-Shot هستند. در حالی که چالش‌هایی مانند کیفیت داده‌ها و سوگیری وجود دارند، پیشرفت‌ها در تنظیم خود نظارتی، کارایی پارامترها و همسویی انسانی باعث پیشرفت می‌شوند. کار آینده بر مقیاس‌بندی این روش‌ها به حوزه‌های چندوجهی و در عین حال حصول اطمینان از استقرار اخلاقی و قوی متمرکز خواهد بود.

1. Wei et al., *Finetuned Language Models Are Zero-Shot Learners* (FLAN, 2021).

2. Chung et al., *Scaling Instruction-Finetuned Language Models* (2022).

3. Wang et al., *Self-Instruct: Aligning Language Models with Self-Generated Instructions* (2022).

4. Ouyang et al., *Training Language Models to Follow Instructions with Human Feedback* (InstructGPT, 2022).

5. Sanh et al., *Multitask Prompted Training Enables Zero-Shot Task Generalization* (T0, 2022).

علی روحانی فر چهارشنبه 13 فروردین 1404 ساعت 08:56

GML (Graph Machine Learning)

GML (Graph Machine Learning)

درباره من