GML (Graph Machine Learning)

GML (Graph Machine Learning)

یادگیری ماشین گراف
GML (Graph Machine Learning)

GML (Graph Machine Learning)

یادگیری ماشین گراف

ChatGPT چیست؟

1. مقدمه

ChatGPT چیست؟

ChatGPT یک مدل زبان است که از کاربر درخواست میکند و یک پاسخ متنی ایجاد میکند. پاسخهای ایجاد شده توسط ChatGPT واقع بینانهترین رباتهای چت موجود در جهان تا به امروز است. درک ChatGPT مستلزم درک مفاهیم زیر است:

·         GPT  یعنی ترانسفورماتورهای از پیش آموزش دیده مولد[1] که مدلهای زبانی هستند که بر روی شبکه عصبی ترانسفورماتور ساخته شدهاند.

·         یادگیری تقویتی

  اجازه دهید اجزای بالا ChatGPT را با جزئیات درک کنیم:

اولا،

مدلهای زبان چیست؟

مدل‌های زبان مدل‌هایی هستند که درک ذاتی از زبان به معنای ریاضی دارند. مدل‌های زبان توزیع احتمال یک دنباله از کلمات را درک می‌کنند. یعنی: با توجه به بافت کلماتی که قبل از آن وجود داشته است، مدل‌های زبانی می‌دانند که در مرحله بعد چه کلمه‌ای (یا دقیقاً نشانه) تولید کنند. میتوان مدلهای زبانی را برای انجام وظایف خاص مانند:

·         پرسش و پاسخ

·         خلاصهسازی متن

·         ترجمه ماشینی

برخی از مدلهای زبان شامل موارد زیر است:

1. نمایش رمزگذاری دو جهته ترانسفورماتورها[2] [BERT]

2. ترانسفورماتورهای از پیش آموزش دیده مولد[3] [GPT]

3. شبکههای عصبی مکرر[4] [RNN]

4. شبکههای حافظه کوتاه مدت[5] [LSTM]

مدل‌های زبان از قبل بر روی داده‌های زبان عمومی آموزش داده شده‌اند و سپس بسته به وظیفه‌ای که می‌خواهیم حل کنیم، تنظیم می‌شوند. ChatGPT یک مدل ترانسفورماتور از پیش آموزش دیده (GPT) است که برای پاسخ به درخواست کاربر به خوبی تنظیم میشود و سپس با یادگیری تقویتی تنظیم میشود. در پستی در مورد یادگیری تقویتی صحبت خواهم کرد.

 

2. ChatGPT چگونه آموزش داده میشود؟

اجازه دهید کمی عمیقتر به ChatGPT برویم. ChatGPT با استفاده از آموزش تقویتی از بازخورد انسانی[6] (RLHF) آموزش داده شده است. آموزش ChatGPT را میتوان در 3 مرحله اساسی خلاصه کرد:

مرحله 1:

یک مدل اولیه از ChatGPT با استفاده از تنظیم دقیق نظارت شده[7] (SFT) آموزش داده شد - که در آن یک مدل زبان از قبل آموزش دیده وجود داشت - مدل زبان از پیش آموزش دیده در مورد ChatGPT، ترانسفورماتور از قبل آموزش دیده (GPT) بود.

تنظیم دقیق GPT با استفاده از مربی‌های هوش مصنوعی انسانی که پرسش‌ها و پاسخ‌ها را ارائه می‌کنند، انجام شده است. یعنی: مربیان هوش مصنوعی برچسب‌ها یک درخواست می‌نویسند و همچنین پاسخ به پاسخ‌ها را می‌نویسند این تنظیم دقیق مدل GPT است.

مرحله 2:

در مرحله بعدی آموزش ChatGPT، دادههای مقایسهای جمعآوری شد که شامل 2 یا چند پاسخ "مدل" بود که بر اساس کیفیت رتبهبندی شده بودند. در این مورد، پاسخها مربوط به مدل GPT تنظیم شده بود اما توسط مربیان هوشمصنوعی انسانی رتبهبندی شدند.

این اعلان / پاسخ / رتبهبندی[8] برای آموزش مدل GPT دیگری که "مدل پاداش[9]" نامیده می شود استفاده می شود. ورودی "مدل پاداش" اعلان و یکی از پاسخهای مدل تنظیم شده نظارت شده مرحله 1 است و خروجی پاداشی خواهد بود که کمی کردن میزان پاسخ خوب است.

مرحله 3:

در مرحله 3 آموزش GPT، یک دستور نادیده گرفته میشود و از یک کپی از مدل تنظیم شده نظارت شده و سپس از طریق مدل پاداش مرحله 2 برای کسب رتبه عبور میکند.

هر رتبهای که به دست میآید برای تنظیم بیشتر مدل برای ایجاد پاسخ بهتر استفاده میشود. این فرآیند به مدل GPT کمک می‌کند تا پاسخ‌های واقعی‌تر، پاسخ‌های منسجم‌تر با اصل سؤال ایجاد کند و هرگونه پاسخ مغرضانه یا نامطلوب را حذف کند.



[1] Generative Pre-trained Transformers

[2] Bidirectional Encoding Representation of Transformers

[3] Generative Pre-trained Transformers

[4] Recurrent Neural Networks

[5] Long Short-Term Memory

[6] Reinforcement Learning from Human Feedback

[7] Supervised Fine Tuning

[8] Prompt/Response/Ranking

[9] Rewards Model

نظرات 0 + ارسال نظر
ایمیل شما بعد از ثبت نمایش داده نخواهد شد