CNDM (Complex Networks and Data Mining)

CNDM (Complex Networks and Data Mining)

شبکه‌های پیچیده و داده کاوی
CNDM (Complex Networks and Data Mining)

CNDM (Complex Networks and Data Mining)

شبکه‌های پیچیده و داده کاوی

ویرایش مدل قوی و مقیاس‌پذیر برای مدل‌های زبان بزرگ

 

ویرایش مدل برای مدل‌های زبان بزرگ (LLM) تکنیکی است که برای به‌روزرسانی دانش، تصحیح خطاها، و کاهش مسائلی مانند توهمات بدون آموزش مجدد کل مدل استفاده می‌شود. این به ویژه مفید است زیرا LLMها می‌توانند دانش نادرست یا قدیمی داشته باشند. هدف این است که به‌روزرسانی‌های هدفمند را به‌طور کارآمد انجام دهیم، بدون اینکه مدل اطلاعاتی را که قبلاً آموخته‌اید فراموش کند یا توانایی‌های عمومی‌اش را کاهش دهد.

در اینجا خلاصه ای از رویکردهای ویرایش مدل قوی و مقیاس‌پذیر آورده شده است:

1. مسئله: LLMها می‌توانند حاوی دانش نادرست یا قدیمی باشند که باید اصلاح شوند. هدف ویرایش مدل اصلاح این دانش بدون فرآیند بازآموزی کامل با منابع فشرده است. یک چالش کلیدی انجام ویرایش‌ها بدون تأثیر منفی بر قابلیت‌های گسترده‌تر مدل یا فراموش کردن دانش قبلی است.

2. رویکردهای ویرایش مدل:

روش‌های مبتنی بر فرایادگیری: این روش‌ها شامل آموزش یک شبکه فوق‌العاده برای ایجاد تغییر پارامترها است که پارامترهای LLM را به‌روزرسانی می‌کند.

MALMEN (شبکه ویرایش مدل زبان عظیم): یک رویکرد فرا یادگیری که تجمیع تغییر پارامتر را به عنوان مسئله حداقل مربعات فرموله می‌کند و پارامترهای LM را با استفاده از معادله عادی به روز می‌کند. این محاسبات روی شبکه هایپرشبکه و LM را از هم جدا می‌کند و امکان اندازه‌های دسته دلخواه و ویرایش هزاران واقعیت را فراهم می‌کند. می‌تواند صدها برابر بیشتر از MEND حقایق را با همان معماری هایپرشبکه‌ای ویرایش کند.

روش‌های مبتنی بر بازیابی: این رویکردها LLM را با یک حافظه خارجی یا شاخص برای ذخیره و بازیابی حقایق تقویت می‌کنند.

GRACE (General Retrieval Adapters for Continual Editing): روشی که هزاران ویرایش متوالی را برای هر معماری مدل از پیش آموزش دیده با استفاده از خطاهای جریانی امکان‌پذیر می‌کند. تعبیه‌ها (کلیدها) را در حافظه پنهان نگه می‌دارد و جاسازی‌های جدید (مقادیر) را برای تولید پاسخ‌های دلخواه یاد می‌گیرد و آنها را در یک کتاب کد ذخیره می‌کند. ورودی‌های جدید (پرس‌وجوها) با کلیدهای موجود مقایسه می‌شوند و اگر مطابقت یافت شود، از مقدار مربوطه برای اعمال edit استفاده می‌شود.

روش‌های مکان‌یابی و ویرایش: این تکنیک‌ها مستقیماً پارامترهای خاصی را در LLM تغییر می‌دهند که مسئول ذخیره دانش مورد ویرایش هستند.

3. چالش‌ها و ملاحظات:

فراموشی فاجعه آمیز: یک چالش بزرگ این است که اطمینان حاصل شود که مدل هنگام اعمال ویرایش‌های جدید، اطلاعات آموخته شده قبلی را فراموش نمی‌کند.

حفظ توانایی‌های عمومی: ویرایش نباید استدلال مدل، استنتاج زبان طبیعی یا توانایی‌های پاسخ‌گویی به سؤال را کاهش دهد.

مقیاس‌پذیری: روش‌ها باید بتوانند تعداد زیادی از ویرایش‌ها را به نحو احسن انجام دهند.

4. راهبردهای کاهش:

منظم‌سازی: تکنیک‌هایی مانند RECT (تغییر نسبی در وزنT)، وزن‌های به‌روزرسانی ویرایش را منظم می‌کنند تا از تغییر بیش از حد وزن‌های مدل اصلی جلوگیری کنند، بنابراین تطبیق بیش از حد با حقایق ویرایش‌شده را کاهش می‌دهند.

طراحی دقیق ویرایش‌ها: ویرایش‌ها باید تا حد امکان هدفمند و کوچک باشند تا پیامدهای ناخواسته به حداقل برسد.

5. منابع:

EasyEdit: یک چارچوب ویرایش دانش با استفاده آسان برای LLMs.

FastEdit: ابزاری برای تزریق موثر دانش به LLMs.

https://arxiv.org/pdf/2403.17431

نظرات 0 + ارسال نظر
ایمیل شما بعد از ثبت نمایش داده نخواهد شد