هوش‌مصنوعی اساسی: بی ضرر بودن بازخورد هوش‌مصنوعی

Constitutional AI (CAI) رویکردی است که توسط Anthropic برای آموزش مدل‌های زبانی بزرگ (LLM) به منظور کمک، صادقانه و بی‌ضرر با همسو کردن آنها با اصول صریح یا "قوانین اساسی" پیشگام شده است. این چارچوب اتکا به بازخورد انسانی را در طول آموزش با استفاده از بازخورد تولید شده توسط هوش‌مصنوعی که توسط یک قانون از پیش تعریف شده هدایت می‌شود، کاهش می‌دهد. در زیر مروری بر هوش‌مصنوعی، روش‌شناسی، مزایا و چالش‌های آن است.

شکل 1: مراحل اساسی فرآیند هوش‌مصنوعی[1] (CAI) خود را نشان می‌دهیم، که شامل یک مرحله یادگیری نظارت شده (SL) شامل مراحل در بالا و یک مرحله یادگیری تقویتی (RL) است که به عنوان دنباله مراحل در پایین شکل نشان داده شده است. هم نقدها و هم بازخوردهای هوش‌مصنوعی توسط مجموعه کوچکی از اصول برگرفته از یک «قانون اساسی» هدایت می‌شوند. مرحله تحت نظارت به طور قابل توجهی مدل اولیه را بهبود می‌بخشد و کنترلی بر رفتار اولیه در شروع فاز RL می‌دهد و مسائل احتمالی اکتشاف را برطرف می‌کند. مرحله RL به طور قابل توجهی عملکرد و قابلیت اطمینان را بهبود می‌بخشد.

شکل 2: نمرات Elo بیBضرری در مقابل سودمندی را نشان می‌دهیم (بالاتر بهتر است، فقط تفاوت‌ها معنی‌دار هستند) که از مقایسه‌های مدل کارگران جمعی برای همه اجراهای RL 52B محاسبه شده است. نقاط بیشتر به سمت راست مراحل بعدی آموزش RL هستند. مدل‌های مفید و HH با بازخورد انسانی مانند [Bai et al., 2022] آموزش دیدند، و تعادلی بین مفید بودن و بی‌ضرر بودن را نشان می‌دهند. مدل‌های RL-CAI که با بازخورد هوشBمصنوعی آموزش دیده‌اند، یاد می‌گیرند که در سطح معینی از مفید بودن، آسیب کمتری داشته باشند. به کارگرانی که این مدل‌ها را ارزیابی می‌کردند، آموزش داده شد که وقتی هر دو پاسخ به یک اندازه بی‌ضرر بودند، پاسخ‌های گریزان کمتری را ترجیح دهند. به همین دلیل است که مدلBهای Helpful و HH آموزش دیده با بازخورد انسانی در امتیازات بی ضرری خود تفاوت بیشتری ندارند.

1. Constitutional AI چیست؟

هوش‌مصنوعی قانون اساسی چارچوبی ساختاریافته برای آموزش سیستم‌های هوش‌مصنوعی برای عملکرد در محدوده‌های اخلاقی و اجتماعی معرفی می‌کند. «قانون اساسی» مجموعه ای از اصول یا قواعد است که رفتار الگو را در حین آموزش و اعزام هدایت می‌کند. این اصول برای اطمینان از اینکه هوش‌مصنوعی:

- از خروجی‌های مضر، سمی یا تبعیض‌آمیز جلوگیری می‌کند.

- رفتار اخلاقی و قانونی را تشویق می‌کند.

- خروجی‌های همسو با ارزش‌های انسانی تولید می‌کند.

* ویژگی‌های کلیدی

- اصول صریح: قانون اساسی به صراحت ارزش‌هایی را تعریف می‌کند که مدل باید به آنها پایبند باشد و رفتار آن را در مقایسه با یادگیری ضمنی از بازخوردهای انسانی در مقیاس بزرگ شفاف تر و قابل تنظیم‌تر می‌کند.

- بازخورد هوش‌مصنوعی: این مدل به جای تکیه صرفاً بر حاشیه‌نویسان انسانی، خروجی های خود را بر اساس بازخورد تولید شده توسط هوش‌مصنوعی که بر اساس قانون اساسی هدایت می‌شود، نقد و تجدید نظر می‌کند.

2. فرآیند آموزش

فرآیند آموزش برای هوش‌مصنوعی مشروطه شامل دو مرحله اصلی است:

فاز 1: یادگیری تحت نظارت با انتقاد از خود

- این مدل برای نقد و تجدید نظر در پاسخ‌های خود با استفاده از اصول ذکر شده در قانون اساسی آموزش دیده است.

- مثال: اگر خروجی یک اصل را نقض کند (مثلاً ترویج آسیب)، مدل مسئله را شناسایی کرده و پاسخ خود را بر اساس آن تنظیم می‌کند.

فاز 2: یادگیری تقویتی با بازخورد هوش‌مصنوعی (RLAIF)

- مشابه یادگیری تقویتی از بازخورد انسانی (RLHF)، اما به جای بازبین‌های انسانی، از بازخورد تولید شده توسط هوش‌مصنوعی استفاده می‌شود.

- در این مرحله:

- مدل چندین خروجی ممکن را برای یک ورودی معین ارزیابی می‌کند.

- خروجی را انتخاب می‌کند که با اصول قانون اساسی مطابقت دارد و بی ضرر بودن و مفید بودن را تقویت می‌کند.

3. مزایای هوش‌مصنوعی مشروطه

- 1. شفافیت و پاسخگویی:

- قانون اساسی چارچوب روشنی برای درک و ارزیابی رفتار مدل ارائه می‌دهد.

- توسعه دهندگان و کاربران می توانند تصمیمات را به اصول خاص ردیابی کنند.

- 2. کاهش خطر: خطراتی مانند تعصب، تبعیض، یا خروجی‌های مضر را با تعبیه پادمان‌های اخلاقی در آموزش کاهش می‌دهد.

- 3. مقیاس‌پذیری: با استفاده از بازخورد هوش‌مصنوعی به جای حاشیه‌نویس‌های انسانی، CAI وابستگی به نظارت نیروی انسانی را کاهش می‌دهد و آموزش را مقیاس‌پذیرتر و کارآمدتر می‌کند.

- 4. سازگاری: قانون اساسی می‌تواند به روز شود تا هنجارهای اجتماعی و استانداردهای اخلاقی در حال تحول را منعکس کند.

4. چالش‌ها

- 1. تعریف اصول:

- ایجاد مجموعه‌ای جامع، روشن و قابل انطباق از اصول قانون اساسی پیچیده است.

- اصول باید بین عمومیت (قابلیت کاربرد گسترده) و خاص بودن (ارتباط وظیفه) تعادل ایجاد کنند.

- 2. استانداردهای اخلاقی پویا: هنجارهای اجتماعی دائماً در حال تغییر هستند. حفظ همسویی مستلزم به روز رسانی دوره‌ای قانون اساسی است.

- 3. محدودیت‌های بازخورد هوشذمصنوعی: در حالی که مقیاس‌پذیر است، تکیه بر بازخوردهای ایجاد شده توسط هوش‌مصنوعی ممکن است تعصبات یا خطاهای ظریفی را منتشر کند، اگر به دقت نظارت نشود.

- 4. تفسیرپذیری: اطمینان از اینکه کاربران می‌توانند درک کنند که چگونه اصول قانون اساسی بر رفتار مدل تأثیر می‌گذارد، همچنان چالش برانگیز است.

5. برنامه‌های کاربردی

- 1. دستیاران هوش‌مصنوعی مولد: مدل‌هایی مانند Claude (ربات چت آنتروپیک) از CAI استفاده می‌کنند تا اطمینان حاصل کنند که پاسخ‌ها ایمن، اخلاقی و مطابق با انتظارات کاربر هستند.

- 2. تعدیل محتوا: CAI می‌تواند به پلتفرم‌ها کمک کند تا محتوای مضر یا نامناسب را به طور خودکار شناسایی و کاهش دهند.

- 3. توسعه هوش‌مصنوعی اخلاقی: یک چارچوب قابل تکرار برای توسعه مدل‌های مولد ایمن‌تر در سراسر صنایع ارائه می‌کند.

6. نمونه‌هایی از اصول قانون اساسی

قانون اساسی Anthropic برای کلود شامل اصولی است که از منابع مختلفی الهام گرفته شده است، مانند شرایط خدمات اپل، اعلامیه سازمان ملل در مورد حقوق بشر، و ورودی‌های آزمایشگاه‌های تحقیقاتی. مثال‌ها عبارتند از:

- از تولید محتوایی که آسیب یا فعالیت‌های غیرقانونی را تبلیغ می‌کند خودداری کنید.

- در مورد محدودیت‌های دانش یا توانایی‌ها شفاف باشید.

- از اقدامات فریبنده یا اطلاعات نادرست خودداری کنید.

7. مقایسه با RLHF

ویژگی	RLHF	Constitutional AI
منبع بازخورد	حاشیه‌نویسی‌های انسانی	بازخورد ایجاد شده توسط هوش‌مصنوعی
مقیاس‌پذیری	محدود شده توسط نیروی انسانی	بسیار مقیاس‌پذیر
شفافیت	همسویی ارزش ضمنی	اصول صریح
سازگاری	قانون اساسی را می‌توان به راحتی به روز کرد	نیاز به آموزش مجدد برای وظایف جدید

8. مسیرهای آینده

- 1. اصلاح قوانین اساسی: چارچوب‌هایی را برای ایجاد اصول دقیق‌تر و آگاه‌تر از زمینه متناسب با حوزه‌های خاص (مانند مراقبت‌های بهداشتی یا آموزش) بررسی کنید.

- 2. یکپارچه‌سازی چند وجهی: CAI را به سیستم‌های چندوجهی که متن، تصاویر، صدا و ویدئو را به طور همزمان مدیریت می‌کنند، گسترش دهید.

- 3. همکاری جهانی: تدوین دستورالعمل‌های جهانی برای اصول قانون اساسی از طریق همکاری بین المللی بین محققان، سیاست‌گذاران، و متخصصان اخلاق.

- 4. یادگیری مستمر: مکانیسم‌هایی را برای مدل‌ها اجرا کنید تا رفتار خود را به صورت پویا بر اساس بازخورد دنیای واقعی و در عین حال رعایت پادمان‌های قانون اساسی تطبیق دهند.

نتیجه‌گیری

هوش‌مصنوعی مشروطه گامی رو به جلو در همسویی LLMها با ارزش‌های انسانی و در عین حال رفع نگرانی در مورد مقیاس‌پذیری و ایمنی در مدل‌های تولیدی نشان می‌دهد. CAI با تعبیه اصول اخلاقی صریح در فرآیندهای آموزشی، شفافیت، پاسخگویی و سازگاری را در استقرار سیستم‌های هوش‌مصنوعی پیشرفته مانند کلود تضمین می‌کند. با تکامل هنجارهای اجتماعی، این رویکرد چارچوبی انعطاف‌پذیر و در عین حال قوی برای هدایت رفتار هوش‌مصنوعی مسئولانه ارائه می‌دهد.

1. [Anthropic Blog: Claude’s Constitution] (https://www.anthropic.com/news/claudes-constitution).

2. [Toloka Blog: Constitutional AI Explained] (https://toloka.ai/blog/constitutional-ai-explained/).

3. [Forbes Analysis: Constitutional AI] (https://www.forbes.com/sites/lanceeliot/2023/05/25/latest-generative-ai-boldly-labeled-as-constitutional-ai-such-as-claude-by-anthropic-has-heart-in-the-right-place-says-ai-ethics-and-ai-law/).

4. [Marketing Interactive: Constitutional AI 101] (https://www.marketing-interactive.com/constitutional-ai-dummies-101).

5. [Hugging Face Blog: Constitutional AI](https://huggingface.co/blog/constitutional_ai).

[1] https://toloka.ai/blog/constitutional-ai-explained/

[2] https://www.anthropic.com/news/claudes-constitution

[3] https://www.marketing-interactive.com/constitutional-ai-dummies-101

[4] https://www.forbes.com/sites/lanceeliot/2023/05/25/latest-generative-ai-boldly-labeled-as-constitutional-ai-such-as-claude-by-anthropic-has-heart-in-the-right-place-says-ai-ethics-and-ai-law/

[5] https://www.androidpolice.com/constitutional-ai-guide/

[6] https://www.anthropic.com/research/specific-versus-general-principles-for-constitutional-ai

[7] https://www.whitehouse.gov/ostp/ai-bill-of-rights/