Constitutional AI (CAI) رویکردی است که توسط Anthropic برای آموزش مدلهای زبانی بزرگ (LLM) به منظور کمک، صادقانه و بیضرر با همسو کردن آنها با اصول صریح یا "قوانین اساسی" پیشگام شده است. این چارچوب اتکا به بازخورد انسانی را در طول آموزش با استفاده از بازخورد تولید شده توسط هوشمصنوعی که توسط یک قانون از پیش تعریف شده هدایت میشود، کاهش میدهد. در زیر مروری بر هوشمصنوعی، روششناسی، مزایا و چالشهای آن است.
شکل 1: مراحل اساسی فرآیند هوشمصنوعی[1] (CAI) خود را نشان میدهیم، که شامل یک مرحله یادگیری نظارت شده (SL) شامل مراحل در بالا و یک مرحله یادگیری تقویتی (RL) است که به عنوان دنباله مراحل در پایین شکل نشان داده شده است. هم نقدها و هم بازخوردهای هوشمصنوعی توسط مجموعه کوچکی از اصول برگرفته از یک «قانون اساسی» هدایت میشوند. مرحله تحت نظارت به طور قابل توجهی مدل اولیه را بهبود میبخشد و کنترلی بر رفتار اولیه در شروع فاز RL میدهد و مسائل احتمالی اکتشاف را برطرف میکند. مرحله RL به طور قابل توجهی عملکرد و قابلیت اطمینان را بهبود میبخشد.
شکل 2: نمرات Elo بیBضرری در مقابل سودمندی را نشان میدهیم (بالاتر بهتر است، فقط تفاوتها معنیدار هستند) که از مقایسههای مدل کارگران جمعی برای همه اجراهای RL 52B محاسبه شده است. نقاط بیشتر به سمت راست مراحل بعدی آموزش RL هستند. مدلهای مفید و HH با بازخورد انسانی مانند [Bai et al., 2022] آموزش دیدند، و تعادلی بین مفید بودن و بیضرر بودن را نشان میدهند. مدلهای RL-CAI که با بازخورد هوشBمصنوعی آموزش دیدهاند، یاد میگیرند که در سطح معینی از مفید بودن، آسیب کمتری داشته باشند. به کارگرانی که این مدلها را ارزیابی میکردند، آموزش داده شد که وقتی هر دو پاسخ به یک اندازه بیضرر بودند، پاسخهای گریزان کمتری را ترجیح دهند. به همین دلیل است که مدلBهای Helpful و HH آموزش دیده با بازخورد انسانی در امتیازات بی ضرری خود تفاوت بیشتری ندارند.
1. Constitutional AI چیست؟
هوشمصنوعی قانون اساسی چارچوبی ساختاریافته برای آموزش سیستمهای هوشمصنوعی برای عملکرد در محدودههای اخلاقی و اجتماعی معرفی میکند. «قانون اساسی» مجموعه ای از اصول یا قواعد است که رفتار الگو را در حین آموزش و اعزام هدایت میکند. این اصول برای اطمینان از اینکه هوشمصنوعی:
- از خروجیهای مضر، سمی یا تبعیضآمیز جلوگیری میکند.
- رفتار اخلاقی و قانونی را تشویق میکند.
- خروجیهای همسو با ارزشهای انسانی تولید میکند.
* ویژگیهای کلیدی
- اصول صریح: قانون اساسی به صراحت ارزشهایی را تعریف میکند که مدل باید به آنها پایبند باشد و رفتار آن را در مقایسه با یادگیری ضمنی از بازخوردهای انسانی در مقیاس بزرگ شفاف تر و قابل تنظیمتر میکند.
- بازخورد هوشمصنوعی: این مدل به جای تکیه صرفاً بر حاشیهنویسان انسانی، خروجی های خود را بر اساس بازخورد تولید شده توسط هوشمصنوعی که بر اساس قانون اساسی هدایت میشود، نقد و تجدید نظر میکند.
2. فرآیند آموزش
فرآیند آموزش برای هوشمصنوعی مشروطه شامل دو مرحله اصلی است:
فاز 1: یادگیری تحت نظارت با انتقاد از خود
- این مدل برای نقد و تجدید نظر در پاسخهای خود با استفاده از اصول ذکر شده در قانون اساسی آموزش دیده است.
- مثال: اگر خروجی یک اصل را نقض کند (مثلاً ترویج آسیب)، مدل مسئله را شناسایی کرده و پاسخ خود را بر اساس آن تنظیم میکند.
فاز 2: یادگیری تقویتی با بازخورد هوشمصنوعی (RLAIF)
- مشابه یادگیری تقویتی از بازخورد انسانی (RLHF)، اما به جای بازبینهای انسانی، از بازخورد تولید شده توسط هوشمصنوعی استفاده میشود.
- در این مرحله:
- مدل چندین خروجی ممکن را برای یک ورودی معین ارزیابی میکند.
- خروجی را انتخاب میکند که با اصول قانون اساسی مطابقت دارد و بی ضرر بودن و مفید بودن را تقویت میکند.
3. مزایای هوشمصنوعی مشروطه
- 1. شفافیت و پاسخگویی:
- قانون اساسی چارچوب روشنی برای درک و ارزیابی رفتار مدل ارائه میدهد.
- توسعه دهندگان و کاربران می توانند تصمیمات را به اصول خاص ردیابی کنند.
- 2. کاهش خطر: خطراتی مانند تعصب، تبعیض، یا خروجیهای مضر را با تعبیه پادمانهای اخلاقی در آموزش کاهش میدهد.
- 3. مقیاسپذیری: با استفاده از بازخورد هوشمصنوعی به جای حاشیهنویسهای انسانی، CAI وابستگی به نظارت نیروی انسانی را کاهش میدهد و آموزش را مقیاسپذیرتر و کارآمدتر میکند.
- 4. سازگاری: قانون اساسی میتواند به روز شود تا هنجارهای اجتماعی و استانداردهای اخلاقی در حال تحول را منعکس کند.
4. چالشها
- 1. تعریف اصول:
- ایجاد مجموعهای جامع، روشن و قابل انطباق از اصول قانون اساسی پیچیده است.
- اصول باید بین عمومیت (قابلیت کاربرد گسترده) و خاص بودن (ارتباط وظیفه) تعادل ایجاد کنند.
- 2. استانداردهای اخلاقی پویا: هنجارهای اجتماعی دائماً در حال تغییر هستند. حفظ همسویی مستلزم به روز رسانی دورهای قانون اساسی است.
- 3. محدودیتهای بازخورد هوشذمصنوعی: در حالی که مقیاسپذیر است، تکیه بر بازخوردهای ایجاد شده توسط هوشمصنوعی ممکن است تعصبات یا خطاهای ظریفی را منتشر کند، اگر به دقت نظارت نشود.
- 4. تفسیرپذیری: اطمینان از اینکه کاربران میتوانند درک کنند که چگونه اصول قانون اساسی بر رفتار مدل تأثیر میگذارد، همچنان چالش برانگیز است.
5. برنامههای کاربردی
- 1. دستیاران هوشمصنوعی مولد: مدلهایی مانند Claude (ربات چت آنتروپیک) از CAI استفاده میکنند تا اطمینان حاصل کنند که پاسخها ایمن، اخلاقی و مطابق با انتظارات کاربر هستند.
- 2. تعدیل محتوا: CAI میتواند به پلتفرمها کمک کند تا محتوای مضر یا نامناسب را به طور خودکار شناسایی و کاهش دهند.
- 3. توسعه هوشمصنوعی اخلاقی: یک چارچوب قابل تکرار برای توسعه مدلهای مولد ایمنتر در سراسر صنایع ارائه میکند.
6. نمونههایی از اصول قانون اساسی
قانون اساسی Anthropic برای کلود شامل اصولی است که از منابع مختلفی الهام گرفته شده است، مانند شرایط خدمات اپل، اعلامیه سازمان ملل در مورد حقوق بشر، و ورودیهای آزمایشگاههای تحقیقاتی. مثالها عبارتند از:
- از تولید محتوایی که آسیب یا فعالیتهای غیرقانونی را تبلیغ میکند خودداری کنید.
- در مورد محدودیتهای دانش یا تواناییها شفاف باشید.
- از اقدامات فریبنده یا اطلاعات نادرست خودداری کنید.
7. مقایسه با RLHF
ویژگی |
RLHF |
Constitutional AI |
منبع بازخورد |
حاشیهنویسیهای انسانی |
بازخورد ایجاد شده توسط هوشمصنوعی |
مقیاسپذیری |
محدود شده توسط نیروی انسانی |
بسیار مقیاسپذیر |
شفافیت |
همسویی ارزش ضمنی |
اصول صریح |
سازگاری |
قانون اساسی را میتوان به راحتی به روز کرد |
نیاز به آموزش مجدد برای وظایف جدید |
8. مسیرهای آینده
- 1. اصلاح قوانین اساسی: چارچوبهایی را برای ایجاد اصول دقیقتر و آگاهتر از زمینه متناسب با حوزههای خاص (مانند مراقبتهای بهداشتی یا آموزش) بررسی کنید.
- 2. یکپارچهسازی چند وجهی: CAI را به سیستمهای چندوجهی که متن، تصاویر، صدا و ویدئو را به طور همزمان مدیریت میکنند، گسترش دهید.
- 3. همکاری جهانی: تدوین دستورالعملهای جهانی برای اصول قانون اساسی از طریق همکاری بین المللی بین محققان، سیاستگذاران، و متخصصان اخلاق.
- 4. یادگیری مستمر: مکانیسمهایی را برای مدلها اجرا کنید تا رفتار خود را به صورت پویا بر اساس بازخورد دنیای واقعی و در عین حال رعایت پادمانهای قانون اساسی تطبیق دهند.
نتیجهگیری
هوشمصنوعی مشروطه گامی رو به جلو در همسویی LLMها با ارزشهای انسانی و در عین حال رفع نگرانی در مورد مقیاسپذیری و ایمنی در مدلهای تولیدی نشان میدهد. CAI با تعبیه اصول اخلاقی صریح در فرآیندهای آموزشی، شفافیت، پاسخگویی و سازگاری را در استقرار سیستمهای هوشمصنوعی پیشرفته مانند کلود تضمین میکند. با تکامل هنجارهای اجتماعی، این رویکرد چارچوبی انعطافپذیر و در عین حال قوی برای هدایت رفتار هوشمصنوعی مسئولانه ارائه میدهد.
1. [Anthropic Blog: Claude’s Constitution] (https://www.anthropic.com/news/claudes-constitution).
2. [Toloka Blog: Constitutional AI Explained] (https://toloka.ai/blog/constitutional-ai-explained/).
3. [Forbes Analysis: Constitutional AI] (https://www.forbes.com/sites/lanceeliot/2023/05/25/latest-generative-ai-boldly-labeled-as-constitutional-ai-such-as-claude-by-anthropic-has-heart-in-the-right-place-says-ai-ethics-and-ai-law/).
4. [Marketing Interactive: Constitutional AI 101] (https://www.marketing-interactive.com/constitutional-ai-dummies-101).
5. [Hugging Face Blog: Constitutional AI](https://huggingface.co/blog/constitutional_ai).
[1] https://toloka.ai/blog/constitutional-ai-explained/
[2] https://www.anthropic.com/news/claudes-constitution
[3] https://www.marketing-interactive.com/constitutional-ai-dummies-101
[5] https://www.androidpolice.com/constitutional-ai-guide/
[6] https://www.anthropic.com/research/specific-versus-general-principles-for-constitutional-ai
[7] https://www.whitehouse.gov/ostp/ai-bill-of-rights/
[8] https://huggingface.co/blog/constitutional_ai