GML (Graph Machine Learning)

GML (Graph Machine Learning)

یادگیری ماشین گراف
GML (Graph Machine Learning)

GML (Graph Machine Learning)

یادگیری ماشین گراف

یادگیری عمیق در ده سال گذشته

 همانطور که سال 20۲۵ آغاز می‌شود، نقطه عطف یادگیری عمیق که واقعاً شروع به ورود به جریان اصلی کرده است، رسیده‌ایم. در مورد آن فکر کنید. فقط ۱۰ سال گذشته است و ما کاملاً انقلابی در نگاه خود به قابلیت‌های ماشین‌ها، نحوه ساخت نرم‌افزار و روش‌هایی که در مورد ایجاد محصولات و شرکت‌ها فکر می‌کنیم را متحول کرده‌ایم. کارهایی که تا یک دهه پیش غیرممکن به نظر می‌رسیدند قابل انجام شدن هستند، البته به شرطی که مجموعه داده برچسب‌گذاری شده مناسب و قدرت محاسباتی داشته باشید.

در این پست، چند سال گذشته را در یادگیری عمیق، با تمرکز بر کاربردهای صنعتی مرور خواهیم کرد و با بحث در مورد آینده ممکن پایان می‌دهیم.

من مطمئن هستم که همه ما به سهم خود در مورد نوع تأثیری که هوش‌مصنوعی (به ویژه ML و به طور خاص DL) خواهد داشت، شنیده‌ایم. و بله، در حالی که مطمئنم همه ما یاد گرفته‌ایم که با جملاتی مانند «از یک شبکه عصبی عمیق برای حل X استفاده کردم» با کمی موشکافی رفتار کنیم، نمی‌توان انکار کرد که ظهور یادگیری عمیق اساساً روش ما را برای ایجاد سیستم‌های هوشمند تغییر داده است.

  

بنابراین، چه چیزی در مورد یادگیری عمیق وجود دارد که آن را به مرکز همه کلمات کلیدی فناوری تبدیل کرده است؟ به نظر من، این به توانایی مدل‌های یادگیری عمیق برای انجام تجزیه و تحلیل اشکال داده‌ها مانند گفتار، متن و تصاویر از طریق مجموعه داده‌های بزرگ برچسب‌گذاری‌شده، قدرت محاسباتی عظیم و معماری‌های شبکه مؤثر مربوط می‌شود.

به طور سنتی، اینها اشکالی از داده‌ها بودند که سیستم‌های رایانه‌ای ما به خوبی از آن‌ها استفاده نمی‌کردند. شما می‌توانید از یک کامپیوتر بخواهید 34632 را در 68821 ضرب کند و این یک تکه کیک خواهد بود. اما، اگر از همان رایانه بخواهید تعیین کند که آیا یک تصویر حاوی سگ است یا گربه، کار بسیار دشواری بود (و هنوز هم گاهی اوقات).

به عنوان انسان، زندگی ما حول این 3 فرم داده می‌چرخد. ما هر روز از طریق گفتار با یکدیگر ارتباط برقرار می‌کنیم، ایده‌ها را از طریق متن منتقل می‌کنیم و دنیای خود را از طریق تصاویر به تصویر می‌کشیم. اگر هدف نهایی ما ساختن سیستم‌های هوش‌مصنوعی هوشمند است، توانایی تجزیه و تحلیل گفتار، متن و تصاویر یک نیاز حیاتی است.

اگرچه نمی‌توانم بگویم که یادگیری عمیق لزوماً مسیر درستی برای آن نوع هوش عمومی مصنوعی (AGI) است - من در مورد اینکه آیا محاسبات + داده + یادگیری تحت نظارت می‌تواند برای همه کارها کار کند مردد هستم - هنوز معتقدم که این یک تحول فوق‌العاده است. فناوری که مستحق تبلیغاتی است که دریافت می‌کند. بیایید نگاهی به چند زمینه بیندازیم و ببینیم که چگونه تحت تأثیر DL قرار گرفته‌اند.

پردازش تصویر

فکر می‌کنم اکثر مردم موافق هستند که پردازش تصویر زمینه‌ای است که با موفقیت بیشتر تحت تأثیر یادگیری عمیق قرار گرفته است. برای اکثر کارهای مربوط به تصویر، روش‌های استخراج ویژگی مانند SIFT و HOG به نفع مدل‌های یادگیری عمیق به نام شبکه‌های عصبی کانولوشنال کنار گذاشته می‌شوند. اینها انواع خاصی از شبکه‌های عصبی هستند که از فیلترهای کانولوشنال قابل یادگیری برای پردازش داده‌های تصویر استفاده می‌کنند.

 

تاثیر بر صنعت

می‌خواهم به بزرگ‌ترین شرکت‌ها و داغ‌ترین استارت‌آپ‌های فناوری امروز فکر کنید. به 5 بزرگ فکر کنید، به شرکت‌هایی فکر کنید که از محصولاتشان هر روز استفاده می‌کنید، به استارت‌آپ‌هایی فکر کنید که IPO دارند، آنهایی که احتمالاً نباید داشته باشند، و آنها را یادداشت کنید.

تصاویر آنقدر بخش کلیدی از محصولات و خدمات آنها هستند که توانایی ایجاد سیستمهای یادگیری عمیق برای خودکارسازی تجزیه و تحلیل این داده‌ها می‌تواند به شرکت‌ها و محصولات آنها بسیار سودمند باشد. بیایید به برخی از این شرکت‌ها نگاه کنیم و ببینیم که آنها چگونه از CNN و سایر تکنیکهای DL در چند سال گذشته استفاده کرده‌اند.

Dropbox - در چند سال گذشته، Dropbox یک پست وبلاگی منتشر کرد که توضیح می‌داد چگونه از یادگیری عمیق برای ساختن خط لوله OCR استفاده می‌شود که در ویژگی اسکنر اسناد تلفن همراه خود استفاده می‌شود. خلاصه این رویکرد این بود که آنها از یک سیستم برای برش جعبه‌های محدود از کلمات متمایز در تصویر استفاده کردند، و سیستم دیگری از لایههای کانولوشن و لایههای LSTM دو جهته برای استخراج متن موجود در کادر محدود کننده استفاده کردند. نکته جالبی که باید در مورد این مورد خاص ذکر شود، نیاز به تأخیر است که Dropbox به آن نیاز داشت. در بسیاری از مواقع در یادگیری عمیق، یک شبکه بزرگتر اغلب منجر به دقت بیشتر می‌شود، اما می‌تواند به قیمت زمان استنتاج کندتر باشد. این یک مصالحه است که هنگام فکر کردن به استفاده از روش‌های DL در تولید از اهمیت کلیدی برخوردار است.

گوگل یک روند جدید جالب که در نتیجه انقلاب هوش مصنوعی به وجود آمده است، مدل AI-as-a-service است. در حالی که شرکت‌های کوچک‌تر ممکن است داده‌ها، محاسبات یا استعداد لازم برای انجام پردازش تصویر در مقیاس یا اثربخشی شرکت‌های دیگر را نداشته باشند، خدماتی مانند Google Cloud Platform، Amazon Rekognition، Clarifai و سایرین وجود دارند که درک تصویر را از طریق API ارائه می‌دهند. گوگل در حال حاضر از CNNها به عنوان مؤلفه اصلی پشت API تشخیص اشیاء خود استفاده می‌کند.

فیس بوک - با بیش از 350 میلیون عکس که هر روز در فیس بوک آپلود می‌شود، واضح است که تجزیه و تحلیل هوشمند این داده‌ها می‌تواند مفید باشد. در حالی که وبلاگ تحقیقات هوش‌مصنوعی فیس بوک دارای پست‌هایی است که در مورد موضوعات مختلف صحبت می‌کنند، من می‌خواهم روی یکی تمرکز کنم که به چالش‌های ناشی از تجزیه و تحلیل تصاویر و ویدیوها در زمان واقعی می‌پردازد. در این پست، نویسندگان به چگونگی ماهیت پردازش بلادرنگ (مانند انتقال سبک) به چارچوب‌های سبک وزن، مانند Caffe2Go و همچنین بهینه‌سازی اندازه مدل اشاره می‌کنند.

اسنپ ​​چت در حالی که اسنپ در هنگام اطلاع رسانی به عموم در مورد تکنیکهای ML و Computer Vision کمی محرمانه‌تر است، قطعا واضح است که فیلمها و تصاویر برای محصول اصلی ضروری هستند. تشخیص چهره و فیلترها مناطقی هستند که احتمالاً از رویکردهای DL استفاده می‌شود.

Pinterest - اگر تا به حال از محصول Pinterest استفاده کرده باشید، از همان اولین لحظه‌ای که برنامه را باز می‌کنید، خواهید دید که جذابیت برای حواس و علایق بصری کاربر، بخش کلیدی تعامل کاربر است. همانطور که در این پست مدیوم توضیح داده شد، Pinterest از DL برای نشان دادن پینهای بصری مشابه با پینهایی که قبلا به بردهای شخصی خود پین کرده است، استفاده می‌کند. در حالی که رویکرد دقیق از CNN استفاده نمی‌کند، ما شاهد یک شبکه عصبی کوچک و یک جزء Pin2Vec تعبیه شده برای رتبه‌بندی پینهای مرتبط هستیم.

Hudl - Hudl یک استارت آپ مبتنی بر لینکلن است که ابزارهایی را برای مربیان و ورزشکاران برای تجزیه و تحلیل فیلم بازی فراهم می‌کند. این پست وبلاگ نشان می‌دهد که چگونه آنها توانستند از CNN برای دسته‌بندی نقاط در ویدیوهای ورزشی استفاده کنند که در آن یک رویداد خاص (مانند یک 3 امتیازی) رخ داده است.

Airbnb - تصاویر ممکن است به اندازه محصولات شرکت‌های دیگر برای محصول Airbnb اصلی نباشند، اما اجازه دادن به کاربران برای آپلود و مشاهده تصاویر فهرست‌های موجود بخش مهمی از تجربه کاربر است. این پست وبلاگ نشان می‌دهد که چگونه از تکنیکهای یادگیری ماشین برای دستهبندی و رتبه‌بندی کیفیت تصویر تصاویر آپلود شده استفاده می‌شود. از نقطه نظر محصول، این می‌تواند هنگام تعیین تصاویری که مشتری در حال مرور فهرست هستند، مفید باشد.

اپل به‌عنوان شرکتی که به‌طور سنتی به خاطر محرمانه بودن محصولات و فناوری‌های جدیدش شناخته می‌شد، دیدن اینکه اپل در اوایل سال جاری مجله یادگیری ماشین خود را راه‌اندازی کرد، بسیار شاداب بود. یکی از جالب‌ترین پست‌ها، توضیحات آنها در مورد استفاده از شبکه‌های عمیق برای تشخیص چهره روی دستگاه بود. رویکردهای سنتی برای تشخیص چهره، مانند الگوریتم ویولا-جونز، تا حدودی جواب داده است، اما جالب است که شرکت‌های زیادی را ببینیم که می‌خواهند آزمایش کنند و ببینند آیا رویکرد یادگیری عمیق می‌تواند بهتر از رویکردهای فعلی کار کند (و اغلب اوقات). ، انجام می دهد). فضای مشکل اپل نیز منحصربه‌فرد است زیرا آنها نه تنها به پیش‌بینی‌های تاخیر کم اهمیت می‌دهند، بلکه به مصرف انرژی کم نیز اهمیت می‌دهند، زیرا تمام محاسبات برای تشخیص چهره روی دستگاه انجام می‌شود.

Houzz - Houzz استارت آپی است که بستر و جامعه‌ای را برای طراحی و دکوراسیون داخلی ارائه می‌دهد. آنها از روش‌های DL برای شناسایی تکه‌های منحصر به فرد مبلمان از تصویری از فضای داخلی خانه استفاده می‌کنند. با شناسایی نوع و برند مبلمان، Houzz می‌تواند فروشگاه‌های بزرگ را جستجو کرده و به شما اجازه دهد محصول را مستقیماً از برنامه خریداری کنید.

 

مقالات پژوهشی مهم

اگر به مرورهای عمیقتر علاقه دارید، این پست وبلاگ و این یکی را بررسی کنید.

الکس نت (2012) - جشن خروجی شبکه‌های عصبی کانولوشنال را مشخص کرد. اولین باری است که یک سی ان ان در مجموعه داده‌های ImageNet که از لحاظ تاریخی دشوار است عملکرد خوبی داشت.

ZFNet (2013) تکنیکهای جدیدی را برای تجسم عملکرد درونی CNNها نشان داد.

OverFeat (2013) محلی‌سازی و تشخیص اشیا با استفاده از CNN.

R-CNN (2014)، Fast R-CNN (2015)، و سریعتر R-CNN (2016) مدل‌هایی که برای وظایف تشخیص اشیا استفاده می‌شوند.

VGGNet (2014) - سادگی و عمق با 13 لایه کانولوشن از فیلترهای 3x3.

GoogLeNet/Inception (2015) - ماژول جدید Inception که شامل عملیات پیچیدگی با اندازه‌های متفاوت و همچنین یک maxpool است.

ResNet (2015) - مفهوم بلوک باقی مانده جدید که به بسیاری از معماری‌های شبکه جدید منتقل شده است.

Mask R-CNN (2017) - از پیشرفت‌های سریعتر R-CNN برای انجام تقسیمبندی سطح پیکسل استفاده کرد.


پردازش زبان طبیعی

وقتی در مورد پردازش زبان طبیعی صحبت می‌کنیم، وظایف مختلفی در زیر این چتر جای می‌گیرند. پاسخگویی به سوالات، ترجمه ماشینی، تجزیه و تحلیل احساسات، خلاصه‌سازی اسناد، لیست ادامه دارد و ادامه دارد. NLP یک زمینه بزرگ و گسترده است که پیشرفت در زبان شناسی و رویکردهای سنتی هوش مصنوعی را در بر می‌گیرد. استفاده از یادگیری عمیق در وظایف NLP تا حدودی موفقیت آمیز است، اما ما راه‌های زیادی نیز در پیش داریم.

 

تاثیر بر صنعت

گوگل و فیس‌بوک پیشرفت‌ها در زمینه ترجمه ماشینی، ایجاد سیستم‌هایی که می‌توانند متن را به زبان‌های دیگر ترجمه کنند، یکی از بزرگترین داستان‌های موفقیت در DL اعمال شده در NLP بوده است. گوگل و فیسبوک هر دو از رویکردی به نام ترجمه ماشین عصبی برای بهبود ترجمه گوگل و ایجاد ترجمه‌های دقیق از پست‌های فیس بوک استفاده کرده‌اند.

بایدو، گوگل، اپل و آمازون - ظهور عوامل مکالمه مانند سیری، الکسا، کورتانا و دستیار گوگل را می‌توان به تکنیکهای پیشرفتهتر تشخیص گفتار که شامل شبکه‌های عمیق است نسبت داد. ما گزارش‌های مطبوعاتی و پست‌های وبلاگی از بایدو، گوگل، اپل و آمازون را دیده‌ایم. این شرکت‌ها قطعاً پیچش‌های منحصربه‌فرد خود را در مدل‌های خود دارند، اما ایده کلی استفاده از سیستم‌هایی با RNN، LSTM، مدل‌های Seq2Seq و/یا توابع از دست دادن CTC در همه جا قابل اجرا است.

توییتر با حدود 350 میلیون توییت ارسال شده در روز، توییتر قطعا اطلاعات متنی زیادی برای تجزیه و تحلیل دارد. یکی از پست‌های وبلاگ اخیر آنها درباره یک شبکه عصبی سفارشی بحث می‌کند که رتبه‌بندی مجموعه‌ای از توییت‌ها را برای نمایش در فید کاربر تعیین می‌کند.

Quora - در اوایل سال جاری، Quora مجموعه داده‌ای را منتشر کرد که شامل جفت‌های سؤال و همچنین برچسب‌هایی بود که آیا دو جمله در هر جفت تکراری هستند یا خیر. اگرچه مشخص نیست که Quora از چه نوع سیستمی در پشت صحنه برای رسیدگی به مسئله سؤال تکراری استفاده می‌کند، ممکن است در حال حاضر از نوعی ML (یا DL) استفاده شود.

Spotify - معمولاً برای کارهای پردازش تصویر استفاده می‌شود، CNNها روش DL انتخابی برای سیستم توصیه موسیقی Spotify بودند (این پست با استانداردهای DL کمی قدیمی است 2014 بنابراین جالب است بدانید چه به روز رسانی‌هایی انجام داده‌اند). این سیستم برای تقویت الگوریتم فیلتر مشارکتی که به طور سنتی مورد استفاده قرار می‌گرفت استفاده شد.

Salesforce - در سال 2016، Salesforce، MetaMind، استارت آپی به سرپرستی استاد دانشگاه استنفورد، ریچارد سوچر را خریداری کرد. از آن زمان، این گروه در درجه اول تحقیقات NLP را انجام داده و به ایجاد زمینه برای انیشتین، یکی از محصولات اصلی Salesforce کمک کرده است. یکی از ویژگی‌های جالب، قابلیت خلاصه‌سازی متن آن‌ها است که هم از RNN‌های رمزگذار/رمزگشا و هم از یادگیری تقویتی برای خلاصه کردن مقالات متنی استفاده می‌کند. این گروه همچنین دارای یک وبلاگ فعال است که بیشتر جنبه فنی دارد.

مقالات مهم

Word2Vec (2013) - اولین روش موثر و مقیاسپذیر برای تولید بردارهای کلمه متراکم از مجموعه‌های متنی.

Seq2Seq (2014) - شبکه عصبی عمیق که توالی‌ها را به دنباله‌های دیگر نگاشت می‌کند. یک رویکرد بسیار کلی که به عنوان پایهای برای بسیاری از پیشرفتهای آینده در DL عمل کرده است که در NLP اعمال می‌شود. یکی از بزرگترین پیشرفتهای بعدی مکانیسم توجه بود که در این مقاله معرفی شد.

Deep Speech (2014) - کاری از نویسندگان Baidu که اولین استفاده مقیاسپذیر از معماری شبکه یادگیری عمیق پایان به انتها را برای تشخیص گفتار نشان می‌دهد. به Deep Speech2 (2015)، Attention-Based SR (2015) و Deep Speech3 (2017) برای پیشرفتهایی که عمدتاً از این مقاله نشات می‌گیرد، رجوع کنید.

شبکه‌های حافظه پویا برای NLP (2015) - یک معماری شبکه عصبی را برای پاسخگویی به سؤال اعمال کرد.

ترجمه ماشین عصبی (2016) - مقاله گوگل که رویکرد آنها را برای ترجمه متن از یک زبان به زبان دیگر توصیف می‌کند.

 

یادگیری تقویتی

رویکردهای RL معمولاً در زمینه‌های رباتیک دیده می‌شوند، جایی که من فکر می‌کنم جام مقدس به معنای ایجاد یک عامل یا رباتی است که قادر به یادگیری نحوه انجام هر کاری که می‌خواهیم است. پیشرفت‌های بزرگی وجود داشته است که توسط عواملی که می‌توانند بازی‌های Atari و Go را شکست دهند، به اثبات رسیده است، اما من فکر می‌کنم هنوز چند سال طول می‌کشد تا ما واقعاً تأثیری بر محصولات و خدماتی که هر روز استفاده می‌کنیم، ببینیم.

 

تاثیر بر صنعت

Deepmind - مشابه OpenAI، DeepMind یک شرکت به معنای سنتی نیست، اما آنها بیشترین کمک را در پیشبرد تحقیقات RL داشته‌اند. از اختراع DQN تا ایجاد سیستم معروف AlphaGo، DeepMind یکی از عوامل کلیدی در تحقیقات عمیق RL بوده است. می‌توانید از طریق وبلاگشان درباره آنچه که آنها در حال حاضر روی آن کار می‌کنند اطلاعات بیشتری کسب کنید.

Boston Dynamics - در حالی که مشخص نیست که چه مقدار از یادگیری عمیق در سیستم‌های آنها استفاده می‌شود (به نظر می‌رسد که آنها مهندسی ویژگی‌های بسیار بیشتری انجام می‌دهند)، آنها شرکتی هستند که پیشرفت‌های جالبی داشته‌اند و قطعاً یکی از مواردی است که باید مراقب آن بود. و صادقانه بگویم، من مجبور شدم آنها را اضافه کنم زیرا این خیلی جالب است.

OpenAI - در حالی که حتی نمی‌توان گفت که OpenAI واقعاً بخشی از صنعت است یا اینکه آنها فقط یک آزمایشگاه تحقیقاتی با بودجه خوبی هستند، واضح است که در تلاش برای دستیابی به ماموریت خود برای "ساخت AGI ایمن"، این جاده شامل تحقیقات در RL است. آنها اغلب وبلاگ خود را به روز می‌کنند، جایی که در مورد پیشرفتهای جدید در خودبازی، بهینهسازی خط مشی و همکاری چند بازنمایی صحبت می‌کنند.

Bonsai - Bonsai یک استارت‌آپ مستقر در برکلی است که می‌خواهد پیچیدگی ساخت سیستم‌های هوش مصنوعی را با ایجاد پلتفرمی که کسب‌وکارها می‌توانند برای ایجاد و استقرار مدل‌های ML (با تمرکز بر RL) از آن استفاده کنند، از بین ببرد. آنها همچنین یک وبلاگ فعال دارند که مطالب جالبی در مورد RL، هوش مصنوعی صنعتی و قابلیت تفسیر دارد.

بخش بعدی "مقالات مهم" برای من جالب است زیرا RL با یادگیری عمیق هنوز در مراحل اولیه است. یادگیری تقویتی، به طور کلی، دشوار است. وادار کردن یک عامل به انجام کاری که شما می‌خواهید در یک محیط ناشناخته با حالت مداوم و فضاهای عمل، کار بی‌اهمیتی نیست. در حالی که پیشرفت‌های نشان‌داده‌شده از طریق بازی‌های Atari و AlphaGo پیشرفت‌های خارق‌العاده‌ای هستند، دشوار است که ببینیم چقدر از چیزهایی که از طریق پیشرفت‌های کنونی آموخته‌ایم می‌تواند به وظایفی که می‌توانند در صنعت مفید باشند منتقل شوند.

پس چرا این انتقال سخت است؟ خوب، این تا حدی به دلیل ساختار بازی‌های رومیزی و بازی‌های رایانه‌ای است. در بازی‌های آتاری و Go، عامل در فضایی تصمیم‌گیری می‌کند و اقداماتی را انجام می‌دهد که محیط قطعی است. ما دقیقاً می‌دانیم که وقتی بازنمایی تصمیم می‌گیرد یک سنگ سفید را در ردیف 20، ستون 13 قرار دهد، وضعیت تخته چگونه تغییر می‌کند. با تعداد زیادی از وظایف RL در دنیای واقعی، محیط ها کمی دشوارتر هستند. فضای عمل و فضای حالت برای عامل می‌تواند پیوسته باشد و تقریباً مقدار نامحدودی از نویز و تنوع وجود دارد که عامل با آن مواجه خواهد شد. برای علاقه‌مندان، پست وبلاگ آندری کارپاتی در مورد این تمایز را بررسی کنید.

مسائل در مدیریت محیطهای جزئی مشاهده شده و نامعین، با فضاهای کنش و حالت پیوسته، RL را به مسئله‌ای تبدیل می‌کند که حتی روش‌های DL نیز با آن مسئله داشته‌اند. جالب است که ببینیم این رشته چگونه پیشرفت می‌کند. در اینجا چند پیشرفت گذشته وجود ‌دارد.

 

مقالات مهم

اگر به مرورهای عمیقتر علاقه دارید، این پست وبلاگ را بررسی کنید.

آتاری با DQN (2013) و مقاله Nature Paper (2015) - اولین استفاده موفق از یادگیری عمیق در RL. DQN (شبکه Q-Deep) را معرفی کرد که یک عامل RL پایان به پایان است که از یک شبکه عصبی بزرگ برای پردازش حالت‌های بازی و انتخاب اقدامات مناسب استفاده می‌کند.

روش‌های ناهمزمان برای Deep RL (2016) - الگوریتم A3C را معرفی کرد که در DQN گسترش و بهبود یافت.

AlphaGo (2016) - رویکرد مورد استفاده برای ایجاد سیستم AlphaGo را توصیف کرد که لی سدول را در تابستان 2016 شکست داد. جستجوی درخت مونت کارلو و DNN اجزای اصلی در سیستم بودند.

AlphaGo Zero (2017) آخرین پیشرفت در AlphaGo، که یک بازی تصادفی جالب/شروع از رویکرد را نشان داد.

سایر مقالات مهم

من فکر نمی کنم که بتوانم بدون یافتن راهی برای گنجاندن این مقالات تحقیقاتی بعدی، یک مرور کلی برای یادگیری عمیق انجام دهم. حتی اگر نمی‌توانیم به موارد استفاده منحصربه‌فرد در صنعت اشاره کنیم، مشارکت‌های زیر در پیشبرد یادگیری عمیق هنر بسیار مهم بوده است.

 

یادگیری مبتنی بر گرادیان برای شناسایی اسناد اعمال شده (1998) - مستعار LeNet. استفاده موفقیت‌آمیز Yann LeCun از CNN در داده‌های MNIST اعمال شد. تا اینکه در سال 2012 با AlexNet بود که CNNها روی مجموعه داده‌های تصویری سخت‌تری مانند ImageNet بهتر عمل کردند. باور نکردنی است که این مقاله اکنون نزدیک به 20 سال از عمرش می‌گذرد!

الگوریتم یادگیری سریع برای DBNها (2006) - مقاله جفری هینتون که تکنیکهایی را برای آموزش مؤثر شبکه‌های باور عمیق (همانطور که قبلاً به آنها اشاره شد) نشان داد.

Dropout (2013) - تکنیک منظم‌سازی بسیار مهم که نورون‌های تصادفی را در DNNها حذف می‌کند تا با مسائل کلاسیک بیش از حد برازش مقابله کند.

در مورد اهمیت راه‌اندازی و تکانه در DL (2013) - همانطور که عنوان مقاله نشان می‌دهد، نویسندگان SGD و پیشرفت‌هایی را که می‌توان با مقداردهی اولیه وزن دقیق و تنظیم حرکت مناسب مشاهده کرد، مورد بحث قرار می‌دهد.

Adam: A Method for Stochastic Optimization (2014) - Adam یکی از پرکاربردترین الگوریتم‌های بهینه‌سازی برای آموزش DNN است.

ویژگی‌ها در DNN چگونه قابل انتقال هستند (2014) - اولین مطالعه بزرگی که این ایده را روشن می‌کند که ویژگی‌های آموخته شده توسط فیلترها در CNN می‌توانند به شبکه‌های دیگر منتقل شوند و به عنوان نقطه شروع مؤثر مورد استفاده قرار گیرند.

شبکه‌های متخاصم مولد (2014) - مقاله GAN اصلی که استفاده از شبکه‌های متمایزکننده و مولد را برای مدل‌سازی توزیع داده معرفی کرد.

Neural Turing Machines (2014) - استفاده احتمالی از حافظه خارجی همراه با DNNهای استاندارد را بررسی کرد. کار با رایانه عصبی متمایز (2016) گسترش یافت.

نرمالسازی دسته‌ای (2015) - آموزش و پایداری شبکه‌های عصبی عمیق را با پرداختن به مسئله تغییر متغیر داخلی تسریع کرد.

Style Transfer (2015) - نشان داد که چگونه می‌توانید از شبکه‌های عصبی عمیق برای ایجاد تصاویر هنری مصنوعی استفاده کنید.

 

رو به جلو

پیش بینی فناوری بسیار دشوار است. صادقانه بگویم، من فکر می‌کنم تقریباً غیرممکن است که بتوانیم پیش‌بینی کنیم که چشم‌انداز فناوری 10 سال یا بیشتر در آینده چگونه خواهد بود. با این حال، وقتی برای اولین بار به ساخت این پست فکر کردم، می‌خواستم نه تنها بر پیشرفت‌های دهه گذشته تمرکز کنم، بلکه می‌خواستم بحثی را در مورد تأثیر یادگیری عمیق در آینده ایجاد کنم.

همانطور که در مقدمه ذکر کردم، فکر می‌کنم یادگیری عمیق منحصر به فرد است زیرا ما در نهایت راه‌هایی برای درک گفتار، متن و تصاویر داریم. این امر، فضاهای مسئله بسیاری را در زمینه‌های مختلف باز می‌کند. بیایید به یک زوج فکر کنیم.

بر اساس تصاویر هوایی، کشاورزان می‌توانند از CNN برای تعیین مکان‌هایی در مزرعه خود استفاده کنند که در آن به خاک یا کود بیشتری نیاز است.

پزشکان می‌توانند از CNN برای کمک به تشخیص الگوها و یافتن ناهنجاری‌ها در اشعه ایکس و سایر داده‌های تصویربرداری استفاده کنند.

شرکت‌های مدیریت پسماند می‌توانند از CNN برای مرتب‌سازی زباله‌ها و بازیافت زباله استفاده کنند.

شرکتها می‌توانند از RNN برای ایجاد سیستمهایی استفاده کنند که به تسهیل و هدایت مکالمات بین نمایندگان خدمات مشتری و کاربران به مکان‌های صحیح کمک می‌کند.

روانشناسان می‌توانند از RNN برای کمک به تشخیص تغییرات یا ناهنجاری‌ها در الگوهای گفتاری افراد برای تشخیص علائم بیماری روانی یا افسردگی استفاده کنند.

قابلیت‌هایی که روش‌های یادگیری عمیق ارائه می‌کنند فقط برای Big5 یا استارت‌آپ‌های فناوری منحصراً در SF در دسترس نیست. با توجه به مقدار مناسب داده، محاسبات و هدف نهایی روشن (*اینها فرضیات بی اهمیتی نیستند*)، من فکر می‌کنم تقریباً هر سازمان/شرکت/گروه در جهان می‌تواند از این فناوری استفاده کند.

و بله، همه اینها عالی به نظر می‌رسد، اما من موافقم که برای برخی از فضاهای مسئله، یادگیری عمیق میخ مربعی برای یک سوراخ گرد است. گاهی اوقات راه حل درستی نیست. در حالی که موارد بالا همه فضاهای کاربردی معقول هستند، برای شرکت/سازمان شما مهم است که زمان بگذارد تا بفهمد که آیا یادگیری عمیق راه حل است یا اینکه یک رگرسیون خطی ساده + گردش کار پیش پردازش داده گزینه بهتری است. برای برخی از انواع داده‌ها و برای برخی از فضاهای مسئله، روش‌های سنتی ML بسیار موثر خواهند بود و شما قطعا باید از آنها استفاده کنید.

اما وقتی نوبت به مسائل واقعاً جالب دنیای امروزی می‌شود، اغلب با گفتار، متن یا تصویر سروکار دارند. برای آن‌ها، یادگیری عمیق یک گزینه بسیار هیجان‌انگیز است و باید صبر کنیم تا ببینم این رشته در سال‌های آینده چگونه تکامل می‌یابد.

 

نتیجهگیری

فقط می‌خواهم با یک تمرین فکری دیگر به پایان برسانم. من اخیراً در حال گوش دادن به یک قسمت پادکست A16Z به نام Platforming the Future بودم، جایی که تیم اوریلی و بندیکت ایوانز در مورد امواج اخیر پیشرفت در فناوری صحبت کردند. این باعث شد که در مورد چگونگی نگاه کردن به یادگیری عمیق با نگاهی به 20 سال آینده تعجب کنم. آیا می‌خواهیم آن را به‌عنوان یک روند فناوری ۵ تا ۱۰ ساله ببینیم که به آرامی از بین رفت یا می‌تواند نقطه آغازی برای جستجوی AGI، بزرگترین پیشرفت فناوری در تاریخ باشد؟

بله، یادگیری عمیق در حال حاضر یک کلمه مهیج است. بله، هیپ است. بله، مردم از آن در موقعیتهایی استفاده می‌کنند که احتمالاً نباید استفاده کنند. اما، همانطور که در این پست دیدید، به پیشرفت باورنکردنی در دنیای فناوری امروزی دامن می‌زند و مسائل واقعی را حل می‌کند که چندی پیش فکر می‌کردیم غیرممکن است. دیدن کارهایی که در نیم دهه گذشته انجام داده‌ایم و تصور مسائلی که حل خواهیم کرد و زندگی‌هایی که در نیم دهه آینده بر آن‌ها تأثیر خواهیم گذاشت، خوب، کاملاً هیجان‌انگیز است.

 

راههایی برای همگام شدن با پیشرفت یادگیری عمیق

هکرنیوز - من به شما تضمین می‌دهم که در هر زمان حداقل یک خبر مرتبط با یادگیری عمیق/ یادگیری ماشینی در بین 60 خبر برتر در هر زمان وجود داشته باشد (در زمانی که من این مطلب را می‌نویسم یکی در رتبه 18 قرار دارد).

ML Subreddit - با کمال تعجب، می‌توانید بسیاری از بحث‌های فنی عمیق را در اینجا بیابید.

توییتر - Smerity، Jack Clark، Karpathy، Soumith Chintala، Ian Goodfellow، hardmaru را دنبال کنید و من همچنین دوست دارم درباره ML توییت/بازتوییت کنم.

خبرنامه واردات هوش مصنوعی جک کلارک یک خبرنامه هفتگی در مورد هوش مصنوعی منتشر می‌کند.

گروه فیس بوک AI/DL - گروه بسیار فعالی که اعضا هر چیزی از مقالات خبری گرفته تا پست‌های وبلاگ و سوالات عمومی ML را ارسال می‌کنند.

Arxiv - قطعاً برای پزشکان پیشرفتهتر، اما جستجو در بخش نسخه‌های جدید راهی عالی برای درک این موضوع است که تحقیقات در این زمینه به کجا می‌رود.

نظرات 0 + ارسال نظر
ایمیل شما بعد از ثبت نمایش داده نخواهد شد