[1] (NMT)
1. مقدمه
در این وبلاگ سعی دارم توضیح دهم تا فرآیند کلی ساخت یک مدل ترجمه ماشین عصبی (NMT) را با توجه توضیح دهم. ابتدا، در بخش 2، من در مورد آمادهسازی دادهها برای ساخت یک مدل NMT صحبت میکنم. من با توجه به ریاضیات مدل NMT نرفتهام - در بخش 2 به وبلاگ قبلی خود مراجعه میکنم تا مروری بر مراحل تهیه مدل NMT با توجه داشته باشم. بخش 3 در مورد معیارهای ارزیابی برای مدل صحبت میکند: امتیاز BLEU و امتیاز ROUGE و در نهایت بخش 4 در مورد نمونهگیری و رمزگشایی است - که اساساً به جزئیات نحوه انتخاب بهترین پیش بینی برای یک کار مرتبط NMT میپردازد. این بحث در مورد رمزگشایی حریص بدنام، الگوریتم جستجوی پرتو و حداقل خطر بیز[2] (MBR) است.
ادامه مطلب ...
۱. مقدمه
در این مقاله، ابتدا سعی کردهام یادداشتهای خود را در مورد مدل Llama 2 که (ژوئیه 2023) منتشر شده است (Large Language Model Meta AI) ادغام کنم. مطالب مربوط به این موضوع در بخشهای 2، 3 و 4 مورد بحث قرار گرفته است.
بخش 5 برخی از جزئیات را در مورد بسته HuggingFace پیشرفته با آموزش خودکار ارائه میکند که میتواند برای تنظیم دقیق یک LLM با یک خط کد استفاده شود!
در بخش 6، من در مورد گوریلا بحث کردهام - این مدلی است که توسط Microsoft Research و UC Berkeley توسعه یافته است که یک مدل مبتنی بر Llama 2 تنظیم شده است که در فراخوانهای API به خوبی تنظیم شده است.
بخش 7 پیوندی به مخزن GitHub من ارائه میدهد که استفاده از مدل گوریلا را نشان میدهد.
۲. راز زدایی از مدل Llama 2
متای فیس بوک Llama v2 را در جولای 2023 منتشر کرد - این دومین نسخه از مدل اصلی Llama است که در فوریه 2023 منتشر شد و انقلاب LLMهای منبع باز را آغاز کرد. یکی از محدودیتهای مدل اصلی این بود که فقط استفاده تحقیقاتی بود، اما نسخه دوم Llama که در جولای 2023 منتشر شد هم برای تحقیقات و هم برای استفاده تجاری رایگان است. میتوانید درخواست دانلود وزنها و پارامترها و کد مرجع را بدهید، فرمی را پر کنید و کد را به همراه پارامترها/وزنهای مدل دریافت کنید.
شکل: از https://ai.meta.com/llama/
مدل یادگیری ماشین شما در مجموعه آزمایشی به خوبی عمل میکند – کار مهندس یادگیری ماشین ممکن است بسیار سادهتر باشد اگر فقط به اندازهای باشد که خطای مجموعه تست متوسط پایین را دریافت کند، اما اینطور نیست! در وبلاگ خود چند روز پیش، در مورد مفاهیم Data Drift و Concept Drift صحبت کردهام، اما چالشهای دیگری نیز وجود دارد که باید برای یک پروژه یادگیری ماشینی آماده تولید مورد توجه قرار گیرد.
یک سیستم یادگیری ماشین ممکن است یک خطای مجموعه تست پایین داشته باشد، اما اگر عملکرد آن در برخی از نمونههای مهم نامتناسب، تکههای کلیدی داده، هر دسته از دادهها و غیره به اندازه کافی خوب نباشد، سیستم یادگیری ماشین قابل قبول نیست. اجازه دهید این بیانیه را با چند مثال درک کنیم: