ChatGPT چیست؟

1. مقدمه

ChatGPT چیست؟

ChatGPT یک مدل زبان است که از کاربر درخواست می‌کند و یک پاسخ متنی ایجاد می‌کند. پاسخ‌های ایجاد شده توسط ChatGPT واقع بینانه‌ترین ربات‌های چت موجود در جهان تا به امروز است. درک ChatGPT مستلزم درک مفاهیم زیر است:

· GPT یعنی – ترانسفورماتورهای از پیش آموزش دیده مولد[1] که مدل‌های زبانی هستند که بر روی شبکه عصبی ترانسفورماتور ساخته شده‌اند.

· یادگیری تقویتی

اجازه دهید اجزای بالا ChatGPT را با جزئیات درک کنیم:

اولا،

مدل‌های زبان چیست؟

مدل‌های زبان مدل‌هایی هستند که درک ذاتی از زبان به معنای ریاضی دارند. مدل‌های زبان توزیع احتمال یک دنباله از کلمات را درک می‌کنند. یعنی: با توجه به بافت کلماتی که قبل از آن وجود داشته است، مدل‌های زبانی می‌دانند که در مرحله بعد چه کلمه‌ای (یا دقیقاً نشانه) تولید کنند. می‌توان مدل‌های زبانی را برای انجام وظایف خاص مانند:

· پرسش و پاسخ

· خلاصه‌سازی متن

· ترجمه ماشینی

برخی از مدل‌های زبان شامل موارد زیر است:

1. نمایش رمزگذاری دو جهته ترانسفورماتورها[2] [BERT]

2. ترانسفورماتورهای از پیش آموزش دیده مولد[3] [GPT]

3. شبکه‌های عصبی مکرر[4] [RNN]

4. شبکه‌های حافظه کوتاه مدت[5] [LSTM]

مدل‌های زبان از قبل بر روی داده‌های زبان عمومی آموزش داده شده‌اند و سپس بسته به وظیفه‌ای که می‌خواهیم حل کنیم، تنظیم می‌شوند. ChatGPT یک مدل ترانسفورماتور از پیش آموزش دیده (GPT) است که برای پاسخ به درخواست کاربر به خوبی تنظیم می‌شود و سپس با یادگیری تقویتی تنظیم می‌شود. در پستی در مورد یادگیری تقویتی صحبت خواهم کرد.

2. ChatGPT چگونه آموزش داده می‌شود؟

اجازه دهید کمی عمیق‌تر به ChatGPT برویم. ChatGPT با استفاده از آموزش تقویتی از بازخورد انسانی[6] (RLHF) آموزش داده شده است. آموزش ChatGPT را می‌توان در 3 مرحله اساسی خلاصه کرد:

مرحله 1:

یک مدل اولیه از ChatGPT با استفاده از تنظیم دقیق نظارت شده[7] (SFT) آموزش داده شد - که در آن یک مدل زبان از قبل آموزش دیده وجود داشت - مدل زبان از پیش آموزش دیده در مورد ChatGPT، ترانسفورماتور از قبل آموزش دیده (GPT) بود.

تنظیم دقیق GPT با استفاده از مربی‌های هوش مصنوعی انسانی که پرسش‌ها و پاسخ‌ها را ارائه می‌کنند، انجام شده است. یعنی: مربیان هوش مصنوعی – برچسب‌ها یک درخواست می‌نویسند و همچنین پاسخ به پاسخ‌ها را می‌نویسند – این تنظیم دقیق مدل GPT است.

مرحله 2:

در مرحله بعدی آموزش ChatGPT، داده‌های مقایسه‌ای جمع‌آوری شد که شامل 2 یا چند پاسخ "مدل" بود که بر اساس کیفیت رتبه‌بندی شده بودند. در این مورد، پاسخ‌ها مربوط به مدل GPT تنظیم شده بود اما توسط مربیان هوش‌مصنوعی انسانی رتبه‌بندی شدند.

این اعلان / پاسخ / رتبه‌بندی[8] برای آموزش مدل GPT دیگری که "مدل پاداش[9]" نامیده می شود استفاده می شود. ورودی "مدل پاداش" اعلان و یکی از پاسخ‌های مدل تنظیم شده نظارت شده مرحله 1 است و خروجی پاداشی خواهد بود که کمی کردن میزان پاسخ خوب است.

مرحله 3:

در مرحله 3 آموزش GPT، یک دستور نادیده گرفته می‌شود و از یک کپی از مدل تنظیم شده نظارت شده و سپس از طریق مدل پاداش مرحله 2 برای کسب رتبه عبور می‌کند.

هر رتبه‌ای که به دست می‌آید برای تنظیم بیشتر مدل برای ایجاد پاسخ بهتر استفاده می‌شود. این فرآیند به مدل GPT کمک می‌کند تا پاسخ‌های واقعی‌تر، پاسخ‌های منسجم‌تر با اصل سؤال ایجاد کند و هرگونه پاسخ مغرضانه یا نامطلوب را حذف کند.

[1] Generative Pre-trained Transformers

[2] Bidirectional Encoding Representation of Transformers

[3] Generative Pre-trained Transformers

[4] Recurrent Neural Networks

[5] Long Short-Term Memory

[6] Reinforcement Learning from Human Feedback

[7] Supervised Fine Tuning

[8] Prompt/Response/Ranking

[9] Rewards Model

علی روحانی فر جمعه 18 آبان 1403 ساعت 09:12

GML (Graph Machine Learning)

GML (Graph Machine Learning)

درباره من