چالش‌های استقرار مدل یادگیری ماشین: آیا خطای مجموعه تست میانگین پایین کافی است؟

مدل یادگیری ماشین شما در مجموعه آزمایشی به خوبی عمل می‌کند – کار مهندس یادگیری ماشین ممکن است بسیار ساده‌تر باشد اگر فقط به اندازه‌ای باشد که خطای مجموعه تست متوسط پایین را دریافت کند، اما اینطور نیست! در وبلاگ خود چند روز پیش، در مورد مفاهیم Data Drift و Concept Drift صحبت کرده‌ام، اما چالش‌های دیگری نیز وجود دارد که باید برای یک پروژه یادگیری ماشینی آماده تولید مورد توجه قرار گیرد.

یک سیستم یادگیری ماشین ممکن است یک خطای مجموعه تست پایین داشته باشد، اما اگر عملکرد آن در برخی از نمونه‌های مهم نامتناسب، تکه‌های کلیدی داده، هر دسته از داده‌ها و غیره به اندازه کافی خوب نباشد، سیستم یادگیری ماشین قابل قبول نیست. اجازه دهید این بیانیه را با چند مثال درک کنیم:

مثال‌های مهم:

۱) به عنوان مثال، ممکن است یک مدل یادگیری ماشینی برای جستجوی اسناد و استخراج متن خاص از یک پایگاه داده / سیستم مدیریت اسناد عظیم ایجاد کرده باشید (این را می‌توان با جستجوی وب/گوگل مقایسه کرد). بیایید بگوییم، شما یک پرس و جو از فرم را جستجو می‌کنید:

“Best fatigue life estimation methods for the bore of an IP Compressor”

در چنین حالتی، مدل یادگیری ماشین ممکن است چندین روش خوب را از چندین سند پایگاه داده/سیستم مدیریت اسناد استخراج کند که ممکن است برای زنده کردن حفره یک کمپرسور IP یک موتور استفاده شود. از این روش‌ها، برخی ممکن است مرتبط باشند، و برخی ممکن است به جستجوی شما مرتبط نباشند. چنین اختلافاتی ممکن است برای ذینفعان قابل قبول باشد زیرا پرس و جوی جستجو کاملاً عمومی بود.

حال، فرض کنید که عبارت جستجوی فرم را تایپ کنید:

“Low Cycle Fatigue Life of IP Compressor bore of XYZ engine of flight profile ABC”

و اگر مدل یادگیری ماشین پاسخ نامربوطی بدهد، ممکن است این مورد برای ذینفعان قابل قبول نباشد زیرا پرس و جو مستقیم/خیلی خاص بود و ذینفع شما ممکن است به مداخله دستی در جستجو متوسل شود و مدل ML شما ممکن است همه تبلیغات را از دست بدهد! می‌توان به تخصیص وزن‌های بالاتر به نمونه‌های تمرینی از فرم بالا فکر کرد، اما این ممکن است اوضاع را کمی پیچیده کند.

بنابراین، ارزیابی مدل بر روی نمونه‌های نامتناسب مهم می‌شود. این ارتباط نزدیکی با عملکرد مدل در بخش‌های کلیدی مجموعه داده مورد بحث در ادامه دارد.

ارزیابی مدل بر روی برش‌های کلیدی مجموعه داده

۲) مثال دیگری که بسیار مرتبط است، ارزیابی مدل بر روی برش‌های کلیدی مجموعه داده است. به عنوان مثال، اگر کسی یک مدل یادگیری ماشینی برای دسته‌بندی تأییدیه وام از یک سازمان مالی یا تأییدیه بانک ساخته باشد (مثلاً: بله/خیر)، در این صورت، مدل شما ممکن است میانگین نمره مجموعه آزمون بالایی داشته باشد. اما با عمیق‌تر رفتن، ممکن است متوجه شوید که این مدل نسبت به جنسیت یا نسبت به قومیت خاصی از مشتری تعصب دارد. این ممکن است در نهایت بر تجارت تأثیر بگذارد و مطمئناً قابل قبول نیست. بنابراین، ارزیابی مدل برش‌های خاصی از مجموعه داده مربوط به ویژگی‌های مربوط به قومیت/جنسیت (در چنین مواردی) مهم است.

۳) مثال دیگر مربوط به یک مهندس برآورد استرس/زندگی (از دنیایی که من در آن متولد و بزرگ شدم!) ممکن است این باشد که یک مدل رگرسیون برای پیش‌بینی زندگی ایجاد می‌کرد. میانگین دقت مجموعه تست ممکن است زیاد باشد، اما مدل ممکن است در نمونه‌های خاصی که شامل خزش هستند به درستی پیش‌بینی نکند - یعنی در مواردی که ویژگی مورد بررسی تحت فشار خزشی قابل‌توجهی قرار گرفته است که ممکن است مضر باشد یا به زندگی بیافزاید (مثلاً به دلیل تاخیر در اثر خزش) – بنابراین، ارزیابی مدل یادگیری ماشین بر روی بخش‌های خاصی از داده‌های مربوط به ویژگی‌هایی مانند خزش مهم می‌شود.

مجموعه داده‌های کج – دقت، فراخوانی و F1-Score

۴) من در مورد مجموعه داده‌های کج صحبت کرده‌ام که در آن معیارهای ارزیابی متفاوت از دقت مهم / کاملا ضروری است. می‌توانید به پست وبلاگ من در اینجا https://concepts-define.blogsky.com/1403/08/27/post-39/مجموعه-داده%e2%80%8cهای-Skewed-و-معیارهای-خطا مراجعه کنید. بنابراین، من مطالب را تکرار نمی‌کنم.

معیارهای ارزیابی برای هر کلاس:

۵) مثال دیگری که در آن مدیریت متفاوت معیارهای ارزیابی مهم می‌شود، زمانی است که ممکن است با مسائل دسته‌بندی چند-کلاسه سروکار داشته باشید. بیایید دوباره مسئله تولیدی را که در وبلاگم مربوط به Data Drift و مفاهیم مطرح کرده بودم، مرور کنیم. فرض کنید در حال شناسایی عیوب در قسمتی از موتور هستیم. بیایید بگوییم که این یک مسئله دسته‌بندی چند-کلاسه است. نقص ممکن است Scratch، Dents، Pitها باشد.

سطح عیب: خراش، فرورفتگی، آثار سایش، ریز خراش

حتی اگر دقت کلی، Precision و F1-Score (برای تعاریف Precision، Recall و F1-Score، به وبلاگ من در https://concepts-define.blogsky.com/1403/08/27/post-39/مجموعه-داده%e2%80%8cهای-Skewed-و-معیارهای-خطا مراجعه کنید) ممکن است رضایت بخش باشد، ممکن است بخواهیم مطمئن شویم که Precision، Recall و F1-Score برای هر نقص رضایت بخش است. در این صورت، ما باید Precision، Recall و F1-Score را برای هر کلاس به صورت زیر بدست آوریم:

مثال: معیارهای ارزیابی مورد نیاز برای هر کلاس

علی روحانی فر یکشنبه 27 آبان 1403 ساعت 03:49

GML (Graph Machine Learning)

GML (Graph Machine Learning)

درباره من