1. مقدمه
ChatGPT چیست؟
ChatGPT یک مدل زبان است که از کاربر درخواست میکند و یک پاسخ متنی ایجاد میکند. پاسخهای ایجاد شده توسط ChatGPT واقع بینانهترین رباتهای چت موجود در جهان تا به امروز است. درک ChatGPT مستلزم درک مفاهیم زیر است:
· GPT یعنی – ترانسفورماتورهای از پیش آموزش دیده مولد[1] که مدلهای زبانی هستند که بر روی شبکه عصبی ترانسفورماتور ساخته شدهاند.
· یادگیری تقویتی
اجازه دهید اجزای بالا ChatGPT را با جزئیات درک کنیم:
اولا،
مدلهای زبان چیست؟
مدلهای زبان مدلهایی هستند که درک ذاتی از زبان به معنای ریاضی دارند. مدلهای زبان توزیع احتمال یک دنباله از کلمات را درک میکنند. یعنی: با توجه به بافت کلماتی که قبل از آن وجود داشته است، مدلهای زبانی میدانند که در مرحله بعد چه کلمهای (یا دقیقاً نشانه) تولید کنند. میتوان مدلهای زبانی را برای انجام وظایف خاص مانند:
· پرسش و پاسخ
· خلاصهسازی متن
· ترجمه ماشینی
برخی از مدلهای زبان شامل موارد زیر است:
1. نمایش رمزگذاری دو جهته ترانسفورماتورها[2] [BERT]
2. ترانسفورماتورهای از پیش آموزش دیده مولد[3] [GPT]
3. شبکههای عصبی مکرر[4] [RNN]
4. شبکههای حافظه کوتاه مدت[5] [LSTM]
مدلهای زبان از قبل بر روی دادههای زبان عمومی آموزش داده شدهاند و سپس بسته به وظیفهای که میخواهیم حل کنیم، تنظیم میشوند. ChatGPT یک مدل ترانسفورماتور از پیش آموزش دیده (GPT) است که برای پاسخ به درخواست کاربر به خوبی تنظیم میشود و سپس با یادگیری تقویتی تنظیم میشود. در پستی در مورد یادگیری تقویتی صحبت خواهم کرد.
2. ChatGPT چگونه آموزش داده میشود؟
اجازه دهید کمی عمیقتر به ChatGPT برویم. ChatGPT با استفاده از آموزش تقویتی از بازخورد انسانی[6] (RLHF) آموزش داده شده است. آموزش ChatGPT را میتوان در 3 مرحله اساسی خلاصه کرد:
مرحله 1:
یک مدل اولیه از ChatGPT با استفاده از تنظیم دقیق نظارت شده[7] (SFT) آموزش داده شد - که در آن یک مدل زبان از قبل آموزش دیده وجود داشت - مدل زبان از پیش آموزش دیده در مورد ChatGPT، ترانسفورماتور از قبل آموزش دیده (GPT) بود.
تنظیم دقیق GPT با استفاده از مربیهای هوش مصنوعی انسانی که پرسشها و پاسخها را ارائه میکنند، انجام شده است. یعنی: مربیان هوش مصنوعی – برچسبها یک درخواست مینویسند و همچنین پاسخ به پاسخها را مینویسند – این تنظیم دقیق مدل GPT است.
مرحله 2:
در مرحله بعدی آموزش ChatGPT، دادههای مقایسهای جمعآوری شد که شامل 2 یا چند پاسخ "مدل" بود که بر اساس کیفیت رتبهبندی شده بودند. در این مورد، پاسخها مربوط به مدل GPT تنظیم شده بود اما توسط مربیان هوشمصنوعی انسانی رتبهبندی شدند.
این اعلان / پاسخ / رتبهبندی[8] برای آموزش مدل GPT دیگری که "مدل پاداش[9]" نامیده می شود استفاده می شود. ورودی "مدل پاداش" اعلان و یکی از پاسخهای مدل تنظیم شده نظارت شده مرحله 1 است و خروجی پاداشی خواهد بود که کمی کردن میزان پاسخ خوب است.
مرحله 3:
در مرحله 3 آموزش GPT، یک دستور نادیده گرفته میشود و از یک کپی از مدل تنظیم شده نظارت شده و سپس از طریق مدل پاداش مرحله 2 برای کسب رتبه عبور میکند.
هر رتبهای که به دست میآید برای تنظیم بیشتر مدل برای ایجاد پاسخ بهتر استفاده میشود. این فرآیند به مدل GPT کمک میکند تا پاسخهای واقعیتر، پاسخهای منسجمتر با اصل سؤال ایجاد کند و هرگونه پاسخ مغرضانه یا نامطلوب را حذف کند.
[1] Generative Pre-trained Transformers
[2] Bidirectional Encoding Representation of Transformers
[3] Generative Pre-trained Transformers
[4] Recurrent Neural Networks
[5] Long Short-Term Memory
[6] Reinforcement Learning from Human Feedback
[7] Supervised Fine Tuning
[8] Prompt/Response/Ranking
[9] Rewards Model