مدل یادگیری ماشین شما در مجموعه آزمایشی به خوبی عمل میکند – کار مهندس یادگیری ماشین ممکن است بسیار سادهتر باشد اگر فقط به اندازهای باشد که خطای مجموعه تست متوسط پایین را دریافت کند، اما اینطور نیست! در وبلاگ خود چند روز پیش، در مورد مفاهیم Data Drift و Concept Drift صحبت کردهام، اما چالشهای دیگری نیز وجود دارد که باید برای یک پروژه یادگیری ماشینی آماده تولید مورد توجه قرار گیرد.
یک سیستم یادگیری ماشین ممکن است یک خطای مجموعه تست پایین داشته باشد، اما اگر عملکرد آن در برخی از نمونههای مهم نامتناسب، تکههای کلیدی داده، هر دسته از دادهها و غیره به اندازه کافی خوب نباشد، سیستم یادگیری ماشین قابل قبول نیست. اجازه دهید این بیانیه را با چند مثال درک کنیم:
مثالهای مهم:
۱) به عنوان مثال، ممکن است یک مدل یادگیری ماشینی برای جستجوی اسناد و استخراج متن خاص از یک پایگاه داده / سیستم مدیریت اسناد عظیم ایجاد کرده باشید (این را میتوان با جستجوی وب/گوگل مقایسه کرد). بیایید بگوییم، شما یک پرس و جو از فرم را جستجو میکنید:
“Best fatigue life estimation methods for the bore of an IP Compressor”
در چنین حالتی، مدل یادگیری ماشین ممکن است چندین روش خوب را از چندین سند پایگاه داده/سیستم مدیریت اسناد استخراج کند که ممکن است برای زنده کردن حفره یک کمپرسور IP یک موتور استفاده شود. از این روشها، برخی ممکن است مرتبط باشند، و برخی ممکن است به جستجوی شما مرتبط نباشند. چنین اختلافاتی ممکن است برای ذینفعان قابل قبول باشد زیرا پرس و جوی جستجو کاملاً عمومی بود.
حال، فرض کنید که عبارت جستجوی فرم را تایپ کنید:
“Low Cycle Fatigue Life of IP Compressor bore of XYZ engine of flight profile ABC”
و اگر مدل یادگیری ماشین پاسخ نامربوطی بدهد، ممکن است این مورد برای ذینفعان قابل قبول نباشد زیرا پرس و جو مستقیم/خیلی خاص بود و ذینفع شما ممکن است به مداخله دستی در جستجو متوسل شود و مدل ML شما ممکن است همه تبلیغات را از دست بدهد! میتوان به تخصیص وزنهای بالاتر به نمونههای تمرینی از فرم بالا فکر کرد، اما این ممکن است اوضاع را کمی پیچیده کند.
بنابراین، ارزیابی مدل بر روی نمونههای نامتناسب مهم میشود. این ارتباط نزدیکی با عملکرد مدل در بخشهای کلیدی مجموعه داده مورد بحث در ادامه دارد.
ارزیابی مدل بر روی برشهای کلیدی مجموعه داده
۲) مثال دیگری که بسیار مرتبط است، ارزیابی مدل بر روی برشهای کلیدی مجموعه داده است. به عنوان مثال، اگر کسی یک مدل یادگیری ماشینی برای دستهبندی تأییدیه وام از یک سازمان مالی یا تأییدیه بانک ساخته باشد (مثلاً: بله/خیر)، در این صورت، مدل شما ممکن است میانگین نمره مجموعه آزمون بالایی داشته باشد. اما با عمیقتر رفتن، ممکن است متوجه شوید که این مدل نسبت به جنسیت یا نسبت به قومیت خاصی از مشتری تعصب دارد. این ممکن است در نهایت بر تجارت تأثیر بگذارد و مطمئناً قابل قبول نیست. بنابراین، ارزیابی مدل برشهای خاصی از مجموعه داده مربوط به ویژگیهای مربوط به قومیت/جنسیت (در چنین مواردی) مهم است.
۳) مثال دیگر مربوط به یک مهندس برآورد استرس/زندگی (از دنیایی که من در آن متولد و بزرگ شدم!) ممکن است این باشد که یک مدل رگرسیون برای پیشبینی زندگی ایجاد میکرد. میانگین دقت مجموعه تست ممکن است زیاد باشد، اما مدل ممکن است در نمونههای خاصی که شامل خزش هستند به درستی پیشبینی نکند - یعنی در مواردی که ویژگی مورد بررسی تحت فشار خزشی قابلتوجهی قرار گرفته است که ممکن است مضر باشد یا به زندگی بیافزاید (مثلاً به دلیل تاخیر در اثر خزش) – بنابراین، ارزیابی مدل یادگیری ماشین بر روی بخشهای خاصی از دادههای مربوط به ویژگیهایی مانند خزش مهم میشود.
مجموعه دادههای کج – دقت، فراخوانی و F1-Score
۴) من در مورد مجموعه دادههای کج صحبت کردهام که در آن معیارهای ارزیابی متفاوت از دقت مهم / کاملا ضروری است. میتوانید به پست وبلاگ من در اینجا https://concepts-define.blogsky.com/1403/08/27/post-39/مجموعه-داده%e2%80%8cهای-Skewed-و-معیارهای-خطا مراجعه کنید. بنابراین، من مطالب را تکرار نمیکنم.
معیارهای ارزیابی برای هر کلاس:
۵) مثال دیگری که در آن مدیریت متفاوت معیارهای ارزیابی مهم میشود، زمانی است که ممکن است با مسائل دستهبندی چند-کلاسه سروکار داشته باشید. بیایید دوباره مسئله تولیدی را که در وبلاگم مربوط به Data Drift و مفاهیم مطرح کرده بودم، مرور کنیم. فرض کنید در حال شناسایی عیوب در قسمتی از موتور هستیم. بیایید بگوییم که این یک مسئله دستهبندی چند-کلاسه است. نقص ممکن است Scratch، Dents، Pitها باشد.
سطح عیب: خراش، فرورفتگی، آثار سایش، ریز خراش
حتی اگر دقت کلی، Precision و F1-Score (برای تعاریف Precision، Recall و F1-Score، به وبلاگ من در https://concepts-define.blogsky.com/1403/08/27/post-39/مجموعه-داده%e2%80%8cهای-Skewed-و-معیارهای-خطا مراجعه کنید) ممکن است رضایت بخش باشد، ممکن است بخواهیم مطمئن شویم که Precision، Recall و F1-Score برای هر نقص رضایت بخش است. در این صورت، ما باید Precision، Recall و F1-Score را برای هر کلاس به صورت زیر بدست آوریم:
مثال: معیارهای ارزیابی مورد نیاز برای هر کلاس