1. مقدمه
من در حال نوشتن یک سری وبلاگ در مورد عملکرد مدلهای زبان بزرگ، آموزش ChatGPT، کار کردن با Transformers بودهام و تمام یادداشتهایم را میتوان در مقالات زیر پیدا کرد:
۱) ChatGPT چیست؟
https://ali-rouhanifar.blogsky.com/1403/08/18/post-62/ChatGPT-چیست؟
۲) ChatGPT - قسمت 2
https://concepts-define.blogsky.com/1403/08/19/post-35/ChatGPT-قسمت-۲
۳) ChatGPT - قسمت ۳
https://concepts-define.blogsky.com/1403/08/19/post-36/ChatGPT-قسمت-۳
۴) ChatGPT - قسمت 4
https://concepts-define.blogsky.com/1403/08/19/post-37/ChatGPT-قسمت-۴
۵) اصول اساسی یادگیری عمیق
https://concepts-define.blogsky.com/1403/08/11/post-30/اصول-اساسی-یادگیری-عمیق
۶) تکامل مدلهای زبان
https://ali-rouhanifar.blogsky.com/1403/08/18/post-63/تکامل-مدل%e2%80%8cهای-زبانی
۷) Self-Attention در معماری شبکه عصبی ترانسفورمر
https://ali-rouhanifar.blogsky.com/1403/08/19/post-64/Self-Attention-در-معماری-شبکه-عصبی-ترانسفورمر
این وبلاگ درباره LangChain است که چارچوبی برای توسعه برنامههای کاربردی با مدلهای زبان بزرگ است. این مقاله به شرح زیر تنظیم شده است:
· در بخش 2، من به طور رسمی مسئله را تعریف میکنم - با تاکید بر اینکه چرا LangChain مهم است، بخش به پس زمینه LangChain میرویم.
· بخش 3 به جزئیات اجزای ضروری تشکیل دهنده LangChain میپردازیم.
· بخش 4 در مورد برنامههای کاربردی / موارد استفاده از LangChain صحبت میکنیم.
· بخش 5 به موارد استفاده شامل پرسش-پاسخ بر روی اسناد با استفاده از LangChain میرود و قطعه کد را ارائه میدهیم.
· بخش 6 در مورد مفهوم Agents در LangChain صحبت میکنیم.
· بخش 7 2 مقاله تحقیقاتی بسیار جالب را در مورد: پردازش زنجیرهای فکر و واکنش: هم افزایی استدلال و عمل در مدلهای زبانی مورد بحث قرار میدهیم.
· بخش 8 بحثهای بخش را خلاصه میکنیم.
ادامه مطلب ...
1. مقدمه
این سومین وبلاگ از مجموعه در حال انجام من در رابطه با معماری شبکه عصبی ترانسفورمر است - هدف از کل مجموعه، ابهامزدایی از واحدها / اجزای مختلف معماری شبکه عصبی ترانسفورمر به منظور ایجاد درک دقیق و شهودی از کلیت کار ترانسفورمر است.
2 مقاله اول مربوط به این سری، درک عمیقتری از اصول بنیادی یادگیری عمیق و تکامل مدلهای زبانی ارائه کردند.
https://concepts-define.blogsky.com/1403/08/11/post-30/اصول-اساسی-یادگیری-عمیق
https://ali-rouhanifar.blogsky.com/1403/08/18/post-63/تکامل-مدل%e2%80%8cهای-زبانی
مقاله در اصول بنیادی یادگیری عمیق به تدریج درک شبکه های عصبی را از مفهوم پرسپترون تا شبکه عصبی تک لایه تا شبکه عصبی چند لایه ایجاد کرد. بحث از طریق مقاله مفهوم توابع فعالسازی، منظمسازی در مورد شبکههای عصبی را پوشش میدهد.
مقاله تکامل مدلهای زبان، تکامل سلسله مراتبی مدلهای زبان را از مدلهای n-gram و محدودیتهای آنها شروع کرد و سپس به عصر یادگیری عمیق با شبکههای عصبی بازگشتی، واحدهای حافظه کوتاهمدت بلند مدت (LSTM) و مسائل در این شبکهها و سپس پیشرفت به عصر هوشمصنوعی مولد - صحبت از ترانسفورمرها با تأکید دقیق بر مکانیسم توجه، صحبت کردن در سطح بالاتر از معماری معماری ترانسفورمر وارد شد.
معماری شبکه عصبی ترانسفورمر مکانیسم توجه را به عنوان نقطه برجسته اصلی خود دارد - هدف این مقاله پوشش - یا کشف - جزئیات بیشتر Self-Attention است! مقاله به شرح زیر تنظیم شده است:
· در مرحله اول، ما انگیزه پشت توجه را بازبینی میکنیم - با تأکید بر مفهوم "امتیازات توجه[1]" که به طور بسیار شهودی کلمات مرتبط را در یک جمله نشان میدهد و بنابراین معنای متنی / معنایی جمله را به تصویر میکشد.
· در بخش بعدی مقاله، به بررسی کلی معماری ترانسفورمر در سطح بسیار بالا میپردازم.
· و در نهایت، مهمترین نکته این مقاله - من وارد دفترچه Colab می شوم که در آن ریاضیات مربوط به خود توجه را رمزگذاری کردهام.
1. مقدمه
در مورد سری بعدی وبلاگهایم که شروع میشود از:
· اصول اساسی یادگیری عمیق
· تکامل مدلهای زبانی
و سپس هر وبلاگ بعدی وارد هر واحد / جزء معماری ترانسفورماتور از جمله:
· تعبیه ورودی
· تعبیههای موقعیتی
· توجه به خود و توجه چند راس
· نرمالسازی لایهها
· از اتصالات و سایر واحدهایی که معماری ترانسفورماتور را تشکیل می دهند صرف نظر کنید
اولین وبلاگ از مجموعه فوق در مورد اصول بنیادی یادگیری عمیق را میتوانید در اینجاhttps://concepts-define.blogsky.com/1403/08/11/post-30/اصول-اساسی-یادگیری-عمیق بیابید.
این مقاله در مورد تکامل مدلهای زبانی است - موضوع خود برای یک کتاب درسی دقیق مناسب است - با این حال، محتوای اینجا تلفیقی از یادداشتهای من از منابع مختلف است – از جمله تخصص پردازش زبان طبیعی در
https://www.deeplearning.ai/courses/natural-language-processing-specialization/
، تخصص یادگیری عمیق توسط اندرو نگ
https://www.deeplearning.ai/courses/deep-learning-specialization/
، چندین ویدیوی یوتیوب، سخنرانیهای دانشگاه منبع باز، و مطالب دیگر
ادامه مطلب ...