GML (Graph Machine Learning)

GML (Graph Machine Learning)

یادگیری ماشین گراف
GML (Graph Machine Learning)

GML (Graph Machine Learning)

یادگیری ماشین گراف

چالش‌های استقرار مدل یادگیری ماشین: نمونه‌های رانش داده و رانش مفهومی

مدل یادگیری ماشین شما در مجموعه آموزشی به خوبی عمل می‌کند، سپس در مجموعه آزمایشی نیز به خوبی عمل می‌کند. وقت جشن گرفتن است. اما هنوز همه چیز تمام نشده است. استقرار مدل یادگیری ماشینی چالش‌های زیادی دارد.

صحبت در مورد چالش‌های آماری شامل Data Drift و Concept Drift است. اجازه می‌دهد از طریق مثال‌ها را درک کنیم.

1) فرض کنید شما در حال ساخت یک سیستم بینایی کامپیوتری برای تشخیص ترک در قطعاتی هستید که در یک کارگاه یا واحد کارخانه تولید می‌شوند. این مدل ترک‌های قطعه را تشخیص می‌دهد و بر اساس آن مهندسان مکانیک قطعه را قبول یا رد می‌کنند و یا با تعمیرات اساسی بر اساس اندازه ترک (عیب) آن را می‌پذیرند.

به طور معمول در واحد تولید ممکن است یک دستگاه با نرم افزار و دوربین داشته باشد که تصاویر قطعه ساخته شده را می‌گیرد و آن را به سرور ارسال می‌کند (به دنبال تماس API) جایی که مدل ML مستقر است. مدل یادگیری ماشینی پیش بینی را انجام می‌دهد و نتیجه را از طریق رابط API به نرم‌افزار برمی‌گرداند. شما مدل را بر اساس n چنین داده‌ای آموزش داده‌اید و مدل شما به خوبی از آن استفاده کرده است.

در حال حاضر تغییرات نوری در واحد تولیدی به وجود آمده است که به دلیل آن تصاویر به صورت متفاوتی ظاهر می‌شوند. چنین تغییراتی به معنای تغییر در توزیع داده‌ها است. ممکن است جلوه نور در داده‌های آموزشی یا آزمایشی شما لحاظ نشده باشد. با توجه به این تغییر، مدل ممکن است عملکرد خوبی نداشته باشد. این Data Drift است. توزیع داده‌ها تغییر کرده است

2) دریفت مفهومی زمانی اتفاق می‌افتد که در رابطه بین متغیرهای وابسته و مستقل تغییر ایجاد شود. فرض کنید موادی مانند فولاد یا آلومینیوم دارید و این ماده بخشی را تشکیل می‌دهد. متخصصان مواد، نمونه مواد را در آزمایشگاه آزمایش می‌کنند، نتایج آزمایشات را در کشش، فشرده‌سازی و پیچش دریافت می‌کنند.

مهندس ML یک مدل رگرسیون را بر اساس داده‌های ارائه شده توسط متخصصان مواد برای بازنمایی داده‌های آزمایشی به درستی برازش می‌دهد. مهندسین مکانیک شبیه‌سازی، شبیه‌سازی یک جزء (که از مواد ساخته شده است) را با استفاده از مدل یادگیری ماشین ارائه شده توسط مهندسین ML انجام می‌دهند. معلوم می‌شود که جزء تحت بار (در سرویس) شروع به ترک خوردن می‌کند.

دلیل ترک خوردگی (پس از بررسی) مشخص شد که رفتار مواد در حالت تنش چند محوری (یعنی تنش و پیچش ترکیبی یا ترکیبی از حالت‌های تنش) با حالت‌های تک محوری خالص متفاوت است. این رانش مفهومی است زیرا نگاشت متغیرها متفاوت است زیرا تغییر مفهومی از حالت تک محوری به حالت تنش ترکیبی وجود دارد.

 

3) مثال ساده‌تر Concept Drift می‌تواند تغییر در قیمت ملک در مواردی باشد که شما یک مدل ML برای پیش‌بینی قیمت مسکن بر اساس چندین ویژگی مانند اندازه، تعداد اتاق خواب، امکانات مجاورت و غیره ساخته‌اید. اما با گذشت زمان قیمت‌ها به دلیل تحولات مختلف افزایش یافته است. بنابراین بازآموزی مدل مهم است

بینشی از مدل درخت تصمیم‌گیری

 در وبلاگ خود با عنوان "قدرت یادگیری ضعیف"، من در مورد الگوریتم‌های مختلف یادگیری ماشین بر اساس مفهوم "تقویت[1]" یعنی ترکیب چندین "یادگیر ضعیف[2]" برای تشکیل یک الگوریتم یادگیری قوی صحبت کرده‌ام.

 https://concepts-define.blogsky.com/1403/08/27/post-38/قدرت-یادگیری-ضعیف

برخی از این الگوریتم‌هایی که من در مورد جزئیات کاملاً مورد بحث قرار گرفتم عبارتند از:

·         الگوریتم جنگلی تصادفی که به طور تصادفی از مجموعه داده‌ها نمونه می‌گیرد و از هر یک از نمونه‌ها (هر نمونه به طور معمول از اندازه یک اندازه N) برای آموزش هر درخت تصمیم استفاده می‌کند. علاوه بر این ، جنگل‌های تصادفی، ما به طور تصادفی ویژگی‌های هر درخت را انتخاب و نمونه می‌کنیم.

·         در تقویت تطبیقی[3]​​، تقسیم مدل کلی به درختان تصمیم N (دقیقاً مدل‌های ضعیف - اجازه دهید در نظر بگیریم که یادگیر ضعیف یک درخت تصمیم است) - هر درخت تصمیم‌گیری یک تصمیم‌گیری است (شکل زیر را ببینید) با یک تقسیم واحد – N به تعداد ویژگی‌ها در اینجا اشاره دارد. بنابراین ، ما یک تصمیم تصمیم‌گیری برای هر ویژگی ایجاد می‌کنیم و اولین تصمیم‌گیری با کمترین معیار تصادفی (شاخص آنتروپی/ جینی[4]) خواهد بود.

·         تقویت گرادیان[5] و XGBoost - که در آن ، در تقویت گرادیان مدل، وزن را از طریق گرادیان می‌آموزد. از گرادیان برای به حداقل رساندن عملکرد از دست دادن استفاده می‌شود و وزن‌ها را "یادمی‌گیرد" - در اینجا مدل می‌آموزد که وزن‌های بالاتری را به نمونه‌های دسته‌بندی شده اختصاص دهد. در حالی که،XGBOOST ، هدف این است که فرآیند را از طریق محاسبات توزیع شده کارآمد کنیم.

 از آنجا که همه رویکردها از درختان تصمیم‌گیری استفاده می‌کنند، من احساس کردم که در مورد مفاهیم مربوط به آنتروپی و افزایش اطلاعات مربوط به درختان تصمیم‌گیری بحث کنم. اینها در بخش‌های بعدی مورد بحث قرار گرفته است.

  ادامه مطلب ...

تشخیص نفوذ با دسته‌بند‌های یادگیری عمیق

سیستم‌های تشخیص نفوذ[1] (IDS) تعداد فزاینده‌ای از پیشنهادات توسط محققانی که از یادگیری عمیق (DL) برای محافظت از شبکه‌های حیاتی استفاده می‌کنند، دیده‌اند. با این حال، آنها اغلب از نرخ هشدار نادرست بالا رنج می‌برند، که چالشی قابل توجه برای استقرار آنها در شبکه‌های حیاتی است. این مقاله یک چارچوب جامع انسان و ماشین برای کاهش هشدارهای کاذب در سیستم‌های تشخیص نفوذ مبتنی بر DL ارائه می‌کند. رویکرد پیشنهادی این مقاله از خوشه‌بندی احتمالی برای فعال کردن همکاری انسان و ماشین به شیوه‌ای هم افزایی استفاده می‌کند. خوشه‌بندی احتمالی شامل گروه‌بندی مجدد ترافیک شبکه به خوشه‌ها بر اساس احتمالات آنها (محاسبه شده با استفاده از مدل DL ) است. خوشه‌هایی با آلارم‌های کاذب بالا[2] (H-FAR) شناسایی می‌شوند و تمام ترافیکی که در آنها قرار می‌گیرد برای دسته‌بندی کارآمد توسط مدل DL به عنوان مخرب یا خوش‌خیم نامشخص در نظر گرفته می‌شود. آنها برای تجزیه و تحلیل و تصمیم‌گیری نهایی به متخصصان انسانی هدایت می‌شوند. چارچوب پیشنهادی دارای یک فایروال نسل بعدی (NGFW) است تا به متخصصان انسانی کمک کند تا ترافیک پردازش شده را به طور موثر مدیریت کنند. چارچوب پیشنهادی عملکرد دسته‌بند‌های تشخیص نفوذ مبتنی بر DL را با کاهش آلارم‌های کاذب افزایش می‌دهد. برای اعتبارسنجی مفهوم پیشنهادی، ارزیابی‌ها با استفاده از یک شبکه عصبی کانولوشنال سفارشی با کارایی بالا (CNN) و یک مدل شبکه عصبی بازگشتی ترکیبی (RNN) با سه مجموعه داده معیار دسترسی باز (CICDDoS2019، UNSW-NB15، و CICIDS2017) انجام شد. ارزیابی از طریق شبیه‌سازی نشان داد که ترکیب تخصص انسانی با فناوری یادگیری عمیق می‌تواند به طور قابل‌توجهی تعداد مثبت‌های کاذب (FP) و منفی‌های کاذب (FNs) را به ترتیب تا ۷۹.۶۱ درصد و ۸۶.۹۹ درصد کاهش دهد.

https://ieeexplore.ieee.org/abstract/document/10415442

 

 

 

 

 

 

 

 

 

ا

 



[1] Intrusion detection systems

[2] next-generation firewall