همانطور که سال 20۲۵ آغاز میشود، نقطه عطف یادگیری عمیق که واقعاً شروع به ورود به جریان اصلی کرده است، رسیدهایم. در مورد آن فکر کنید. فقط ۱۰ سال گذشته است و ما کاملاً انقلابی در نگاه خود به قابلیتهای ماشینها، نحوه ساخت نرمافزار و روشهایی که در مورد ایجاد محصولات و شرکتها فکر میکنیم را متحول کردهایم. کارهایی که تا یک دهه پیش غیرممکن به نظر میرسیدند قابل انجام شدن هستند، البته به شرطی که مجموعه داده برچسبگذاری شده مناسب و قدرت محاسباتی داشته باشید.
در این پست، چند سال گذشته را در یادگیری عمیق، با تمرکز بر کاربردهای صنعتی مرور خواهیم کرد و با بحث در مورد آینده ممکن پایان میدهیم.
من مطمئن هستم که همه ما به سهم خود در مورد نوع تأثیری که هوشمصنوعی (به ویژه ML و به طور خاص DL) خواهد داشت، شنیدهایم. و بله، در حالی که مطمئنم همه ما یاد گرفتهایم که با جملاتی مانند «از یک شبکه عصبی عمیق برای حل X استفاده کردم» با کمی موشکافی رفتار کنیم، نمیتوان انکار کرد که ظهور یادگیری عمیق اساساً روش ما را برای ایجاد سیستمهای هوشمند تغییر داده است.
بنابراین، چه چیزی در مورد یادگیری عمیق وجود دارد که آن را به مرکز همه کلمات کلیدی فناوری تبدیل کرده است؟ به نظر من، این به توانایی مدلهای یادگیری عمیق برای انجام تجزیه و تحلیل اشکال دادهها مانند گفتار، متن و تصاویر از طریق مجموعه دادههای بزرگ برچسبگذاریشده، قدرت محاسباتی عظیم و معماریهای شبکه مؤثر مربوط میشود.
به طور سنتی، اینها اشکالی از دادهها بودند که سیستمهای رایانهای ما به خوبی از آنها استفاده نمیکردند. شما میتوانید از یک کامپیوتر بخواهید 34632 را در 68821 ضرب کند و این یک تکه کیک خواهد بود. اما، اگر از همان رایانه بخواهید تعیین کند که آیا یک تصویر حاوی سگ است یا گربه، کار بسیار دشواری بود (و هنوز هم گاهی اوقات).
به عنوان انسان، زندگی ما حول این 3 فرم داده میچرخد. ما هر روز از طریق گفتار با یکدیگر ارتباط برقرار میکنیم، ایدهها را از طریق متن منتقل میکنیم و دنیای خود را از طریق تصاویر به تصویر میکشیم. اگر هدف نهایی ما ساختن سیستمهای هوشمصنوعی هوشمند است، توانایی تجزیه و تحلیل گفتار، متن و تصاویر یک نیاز حیاتی است.
اگرچه نمیتوانم بگویم که یادگیری عمیق لزوماً مسیر درستی برای آن نوع هوش عمومی مصنوعی (AGI) است - من در مورد اینکه آیا محاسبات + داده + یادگیری تحت نظارت میتواند برای همه کارها کار کند مردد هستم - هنوز معتقدم که این یک تحول فوقالعاده است. فناوری که مستحق تبلیغاتی است که دریافت میکند. بیایید نگاهی به چند زمینه بیندازیم و ببینیم که چگونه تحت تأثیر DL قرار گرفتهاند.
پردازش تصویر
فکر میکنم اکثر مردم موافق هستند که پردازش تصویر زمینهای است که با موفقیت بیشتر تحت تأثیر یادگیری عمیق قرار گرفته است. برای اکثر کارهای مربوط به تصویر، روشهای استخراج ویژگی مانند SIFT و HOG به نفع مدلهای یادگیری عمیق به نام شبکههای عصبی کانولوشنال کنار گذاشته میشوند. اینها انواع خاصی از شبکههای عصبی هستند که از فیلترهای کانولوشنال قابل یادگیری برای پردازش دادههای تصویر استفاده میکنند.
تاثیر بر صنعت
میخواهم به بزرگترین شرکتها و داغترین استارتآپهای فناوری امروز فکر کنید. به 5 بزرگ فکر کنید، به شرکتهایی فکر کنید که از محصولاتشان هر روز استفاده میکنید، به استارتآپهایی فکر کنید که IPO دارند، آنهایی که احتمالاً نباید داشته باشند، و آنها را یادداشت کنید.
تصاویر آنقدر بخش کلیدی از محصولات و خدمات آنها هستند که توانایی ایجاد سیستمهای یادگیری عمیق برای خودکارسازی تجزیه و تحلیل این دادهها میتواند به شرکتها و محصولات آنها بسیار سودمند باشد. بیایید به برخی از این شرکتها نگاه کنیم و ببینیم که آنها چگونه از CNN و سایر تکنیکهای DL در چند سال گذشته استفاده کردهاند.
Dropbox - در چند سال گذشته، Dropbox یک پست وبلاگی منتشر کرد که توضیح میداد چگونه از یادگیری عمیق برای ساختن خط لوله OCR استفاده میشود که در ویژگی اسکنر اسناد تلفن همراه خود استفاده میشود. خلاصه این رویکرد این بود که آنها از یک سیستم برای برش جعبههای محدود از کلمات متمایز در تصویر استفاده کردند، و سیستم دیگری از لایههای کانولوشن و لایههای LSTM دو جهته برای استخراج متن موجود در کادر محدود کننده استفاده کردند. نکته جالبی که باید در مورد این مورد خاص ذکر شود، نیاز به تأخیر است که Dropbox به آن نیاز داشت. در بسیاری از مواقع در یادگیری عمیق، یک شبکه بزرگتر اغلب منجر به دقت بیشتر میشود، اما میتواند به قیمت زمان استنتاج کندتر باشد. این یک مصالحه است که هنگام فکر کردن به استفاده از روشهای DL در تولید از اهمیت کلیدی برخوردار است.
گوگل – یک روند جدید جالب که در نتیجه انقلاب هوش مصنوعی به وجود آمده است، مدل AI-as-a-service است. در حالی که شرکتهای کوچکتر ممکن است دادهها، محاسبات یا استعداد لازم برای انجام پردازش تصویر در مقیاس یا اثربخشی شرکتهای دیگر را نداشته باشند، خدماتی مانند Google Cloud Platform، Amazon Rekognition، Clarifai و سایرین وجود دارند که درک تصویر را از طریق API ارائه میدهند. گوگل در حال حاضر از CNNها به عنوان مؤلفه اصلی پشت API تشخیص اشیاء خود استفاده میکند.
فیس بوک - با بیش از 350 میلیون عکس که هر روز در فیس بوک آپلود میشود، واضح است که تجزیه و تحلیل هوشمند این دادهها میتواند مفید باشد. در حالی که وبلاگ تحقیقات هوشمصنوعی فیس بوک دارای پستهایی است که در مورد موضوعات مختلف صحبت میکنند، من میخواهم روی یکی تمرکز کنم که به چالشهای ناشی از تجزیه و تحلیل تصاویر و ویدیوها در زمان واقعی میپردازد. در این پست، نویسندگان به چگونگی ماهیت پردازش بلادرنگ (مانند انتقال سبک) به چارچوبهای سبک وزن، مانند Caffe2Go و همچنین بهینهسازی اندازه مدل اشاره میکنند.
اسنپ چت – در حالی که اسنپ در هنگام اطلاع رسانی به عموم در مورد تکنیکهای ML و Computer Vision کمی محرمانهتر است، قطعا واضح است که فیلمها و تصاویر برای محصول اصلی ضروری هستند. تشخیص چهره و فیلترها مناطقی هستند که احتمالاً از رویکردهای DL استفاده میشود.
Pinterest - اگر تا به حال از محصول Pinterest استفاده کرده باشید، از همان اولین لحظهای که برنامه را باز میکنید، خواهید دید که جذابیت برای حواس و علایق بصری کاربر، بخش کلیدی تعامل کاربر است. همانطور که در این پست مدیوم توضیح داده شد، Pinterest از DL برای نشان دادن پینهای بصری مشابه با پینهایی که قبلا به بردهای شخصی خود پین کرده است، استفاده میکند. در حالی که رویکرد دقیق از CNN استفاده نمیکند، ما شاهد یک شبکه عصبی کوچک و یک جزء Pin2Vec تعبیه شده برای رتبهبندی پینهای مرتبط هستیم.
Hudl - Hudl یک استارت آپ مبتنی بر لینکلن است که ابزارهایی را برای مربیان و ورزشکاران برای تجزیه و تحلیل فیلم بازی فراهم میکند. این پست وبلاگ نشان میدهد که چگونه آنها توانستند از CNN برای دستهبندی نقاط در ویدیوهای ورزشی استفاده کنند که در آن یک رویداد خاص (مانند یک 3 امتیازی) رخ داده است.
Airbnb - تصاویر ممکن است به اندازه محصولات شرکتهای دیگر برای محصول Airbnb اصلی نباشند، اما اجازه دادن به کاربران برای آپلود و مشاهده تصاویر فهرستهای موجود بخش مهمی از تجربه کاربر است. این پست وبلاگ نشان میدهد که چگونه از تکنیکهای یادگیری ماشین برای دستهبندی و رتبهبندی کیفیت تصویر تصاویر آپلود شده استفاده میشود. از نقطه نظر محصول، این میتواند هنگام تعیین تصاویری که مشتری در حال مرور فهرست هستند، مفید باشد.
اپل – بهعنوان شرکتی که بهطور سنتی به خاطر محرمانه بودن محصولات و فناوریهای جدیدش شناخته میشد، دیدن اینکه اپل در اوایل سال جاری مجله یادگیری ماشین خود را راهاندازی کرد، بسیار شاداب بود. یکی از جالبترین پستها، توضیحات آنها در مورد استفاده از شبکههای عمیق برای تشخیص چهره روی دستگاه بود. رویکردهای سنتی برای تشخیص چهره، مانند الگوریتم ویولا-جونز، تا حدودی جواب داده است، اما جالب است که شرکتهای زیادی را ببینیم که میخواهند آزمایش کنند و ببینند آیا رویکرد یادگیری عمیق میتواند بهتر از رویکردهای فعلی کار کند (و اغلب اوقات). ، انجام می دهد). فضای مشکل اپل نیز منحصربهفرد است زیرا آنها نه تنها به پیشبینیهای تاخیر کم اهمیت میدهند، بلکه به مصرف انرژی کم نیز اهمیت میدهند، زیرا تمام محاسبات برای تشخیص چهره روی دستگاه انجام میشود.
Houzz - Houzz استارت آپی است که بستر و جامعهای را برای طراحی و دکوراسیون داخلی ارائه میدهد. آنها از روشهای DL برای شناسایی تکههای منحصر به فرد مبلمان از تصویری از فضای داخلی خانه استفاده میکنند. با شناسایی نوع و برند مبلمان، Houzz میتواند فروشگاههای بزرگ را جستجو کرده و به شما اجازه دهد محصول را مستقیماً از برنامه خریداری کنید.
مقالات پژوهشی مهم
اگر به مرورهای عمیقتر علاقه دارید، این پست وبلاگ و این یکی را بررسی کنید.
الکس نت (2012) - جشن خروجی شبکههای عصبی کانولوشنال را مشخص کرد. اولین باری است که یک سی ان ان در مجموعه دادههای ImageNet که از لحاظ تاریخی دشوار است عملکرد خوبی داشت.
ZFNet (2013) – تکنیکهای جدیدی را برای تجسم عملکرد درونی CNNها نشان داد.
OverFeat (2013) – محلیسازی و تشخیص اشیا با استفاده از CNN.
R-CNN (2014)، Fast R-CNN (2015)، و سریعتر R-CNN (2016) – مدلهایی که برای وظایف تشخیص اشیا استفاده میشوند.
VGGNet (2014) - سادگی و عمق با 13 لایه کانولوشن از فیلترهای 3x3.
GoogLeNet/Inception (2015) - ماژول جدید Inception که شامل عملیات پیچیدگی با اندازههای متفاوت و همچنین یک maxpool است.
ResNet (2015) - مفهوم بلوک باقی مانده جدید که به بسیاری از معماریهای شبکه جدید منتقل شده است.
Mask R-CNN (2017) - از پیشرفتهای سریعتر R-CNN برای انجام تقسیمبندی سطح پیکسل استفاده کرد.
پردازش زبان طبیعی
وقتی در مورد پردازش زبان طبیعی صحبت میکنیم، وظایف مختلفی در زیر این چتر جای میگیرند. پاسخگویی به سوالات، ترجمه ماشینی، تجزیه و تحلیل احساسات، خلاصهسازی اسناد، لیست ادامه دارد و ادامه دارد. NLP یک زمینه بزرگ و گسترده است که پیشرفت در زبان شناسی و رویکردهای سنتی هوش مصنوعی را در بر میگیرد. استفاده از یادگیری عمیق در وظایف NLP تا حدودی موفقیت آمیز است، اما ما راههای زیادی نیز در پیش داریم.
تاثیر بر صنعت
گوگل و فیسبوک – پیشرفتها در زمینه ترجمه ماشینی، ایجاد سیستمهایی که میتوانند متن را به زبانهای دیگر ترجمه کنند، یکی از بزرگترین داستانهای موفقیت در DL اعمال شده در NLP بوده است. گوگل و فیسبوک هر دو از رویکردی به نام ترجمه ماشین عصبی برای بهبود ترجمه گوگل و ایجاد ترجمههای دقیق از پستهای فیس بوک استفاده کردهاند.
بایدو، گوگل، اپل و آمازون - ظهور عوامل مکالمه مانند سیری، الکسا، کورتانا و دستیار گوگل را میتوان به تکنیکهای پیشرفتهتر تشخیص گفتار که شامل شبکههای عمیق است نسبت داد. ما گزارشهای مطبوعاتی و پستهای وبلاگی از بایدو، گوگل، اپل و آمازون را دیدهایم. این شرکتها قطعاً پیچشهای منحصربهفرد خود را در مدلهای خود دارند، اما ایده کلی استفاده از سیستمهایی با RNN، LSTM، مدلهای Seq2Seq و/یا توابع از دست دادن CTC در همه جا قابل اجرا است.
توییتر – با حدود 350 میلیون توییت ارسال شده در روز، توییتر قطعا اطلاعات متنی زیادی برای تجزیه و تحلیل دارد. یکی از پستهای وبلاگ اخیر آنها درباره یک شبکه عصبی سفارشی بحث میکند که رتبهبندی مجموعهای از توییتها را برای نمایش در فید کاربر تعیین میکند.
Quora - در اوایل سال جاری، Quora مجموعه دادهای را منتشر کرد که شامل جفتهای سؤال و همچنین برچسبهایی بود که آیا دو جمله در هر جفت تکراری هستند یا خیر. اگرچه مشخص نیست که Quora از چه نوع سیستمی در پشت صحنه برای رسیدگی به مسئله سؤال تکراری استفاده میکند، ممکن است در حال حاضر از نوعی ML (یا DL) استفاده شود.
Spotify - معمولاً برای کارهای پردازش تصویر استفاده میشود، CNNها روش DL انتخابی برای سیستم توصیه موسیقی Spotify بودند (این پست با استانداردهای DL کمی قدیمی است – 2014 – بنابراین جالب است بدانید چه به روز رسانیهایی انجام دادهاند). این سیستم برای تقویت الگوریتم فیلتر مشارکتی که به طور سنتی مورد استفاده قرار میگرفت استفاده شد.
Salesforce - در سال 2016، Salesforce، MetaMind، استارت آپی به سرپرستی استاد دانشگاه استنفورد، ریچارد سوچر را خریداری کرد. از آن زمان، این گروه در درجه اول تحقیقات NLP را انجام داده و به ایجاد زمینه برای انیشتین، یکی از محصولات اصلی Salesforce کمک کرده است. یکی از ویژگیهای جالب، قابلیت خلاصهسازی متن آنها است که هم از RNNهای رمزگذار/رمزگشا و هم از یادگیری تقویتی برای خلاصه کردن مقالات متنی استفاده میکند. این گروه همچنین دارای یک وبلاگ فعال است که بیشتر جنبه فنی دارد.
مقالات مهم
Word2Vec (2013) - اولین روش موثر و مقیاسپذیر برای تولید بردارهای کلمه متراکم از مجموعههای متنی.
Seq2Seq (2014) - شبکه عصبی عمیق که توالیها را به دنبالههای دیگر نگاشت میکند. یک رویکرد بسیار کلی که به عنوان پایهای برای بسیاری از پیشرفتهای آینده در DL عمل کرده است که در NLP اعمال میشود. یکی از بزرگترین پیشرفتهای بعدی مکانیسم توجه بود که در این مقاله معرفی شد.
Deep Speech (2014) - کاری از نویسندگان Baidu که اولین استفاده مقیاسپذیر از معماری شبکه یادگیری عمیق پایان به انتها را برای تشخیص گفتار نشان میدهد. به Deep Speech2 (2015)، Attention-Based SR (2015) و Deep Speech3 (2017) برای پیشرفتهایی که عمدتاً از این مقاله نشات میگیرد، رجوع کنید.
شبکههای حافظه پویا برای NLP (2015) - یک معماری شبکه عصبی را برای پاسخگویی به سؤال اعمال کرد.
ترجمه ماشین عصبی (2016) - مقاله گوگل که رویکرد آنها را برای ترجمه متن از یک زبان به زبان دیگر توصیف میکند.
یادگیری تقویتی
رویکردهای RL معمولاً در زمینههای رباتیک دیده میشوند، جایی که من فکر میکنم جام مقدس به معنای ایجاد یک عامل یا رباتی است که قادر به یادگیری نحوه انجام هر کاری که میخواهیم است. پیشرفتهای بزرگی وجود داشته است که توسط عواملی که میتوانند بازیهای Atari و Go را شکست دهند، به اثبات رسیده است، اما من فکر میکنم هنوز چند سال طول میکشد تا ما واقعاً تأثیری بر محصولات و خدماتی که هر روز استفاده میکنیم، ببینیم.
تاثیر بر صنعت
Deepmind - مشابه OpenAI، DeepMind یک شرکت به معنای سنتی نیست، اما آنها بیشترین کمک را در پیشبرد تحقیقات RL داشتهاند. از اختراع DQN تا ایجاد سیستم معروف AlphaGo، DeepMind یکی از عوامل کلیدی در تحقیقات عمیق RL بوده است. میتوانید از طریق وبلاگشان درباره آنچه که آنها در حال حاضر روی آن کار میکنند اطلاعات بیشتری کسب کنید.
Boston Dynamics - در حالی که مشخص نیست که چه مقدار از یادگیری عمیق در سیستمهای آنها استفاده میشود (به نظر میرسد که آنها مهندسی ویژگیهای بسیار بیشتری انجام میدهند)، آنها شرکتی هستند که پیشرفتهای جالبی داشتهاند و قطعاً یکی از مواردی است که باید مراقب آن بود. و صادقانه بگویم، من مجبور شدم آنها را اضافه کنم زیرا این خیلی جالب است.
OpenAI - در حالی که حتی نمیتوان گفت که OpenAI واقعاً بخشی از صنعت است یا اینکه آنها فقط یک آزمایشگاه تحقیقاتی با بودجه خوبی هستند، واضح است که در تلاش برای دستیابی به ماموریت خود برای "ساخت AGI ایمن"، این جاده شامل تحقیقات در RL است. آنها اغلب وبلاگ خود را به روز میکنند، جایی که در مورد پیشرفتهای جدید در خودبازی، بهینهسازی خط مشی و همکاری چند بازنمایی صحبت میکنند.
Bonsai - Bonsai یک استارتآپ مستقر در برکلی است که میخواهد پیچیدگی ساخت سیستمهای هوش مصنوعی را با ایجاد پلتفرمی که کسبوکارها میتوانند برای ایجاد و استقرار مدلهای ML (با تمرکز بر RL) از آن استفاده کنند، از بین ببرد. آنها همچنین یک وبلاگ فعال دارند که مطالب جالبی در مورد RL، هوش مصنوعی صنعتی و قابلیت تفسیر دارد.
بخش بعدی "مقالات مهم" برای من جالب است زیرا RL با یادگیری عمیق هنوز در مراحل اولیه است. یادگیری تقویتی، به طور کلی، دشوار است. وادار کردن یک عامل به انجام کاری که شما میخواهید در یک محیط ناشناخته با حالت مداوم و فضاهای عمل، کار بیاهمیتی نیست. در حالی که پیشرفتهای نشاندادهشده از طریق بازیهای Atari و AlphaGo پیشرفتهای خارقالعادهای هستند، دشوار است که ببینیم چقدر از چیزهایی که از طریق پیشرفتهای کنونی آموختهایم میتواند به وظایفی که میتوانند در صنعت مفید باشند منتقل شوند.
پس چرا این انتقال سخت است؟ خوب، این تا حدی به دلیل ساختار بازیهای رومیزی و بازیهای رایانهای است. در بازیهای آتاری و Go، عامل در فضایی تصمیمگیری میکند و اقداماتی را انجام میدهد که محیط قطعی است. ما دقیقاً میدانیم که وقتی بازنمایی تصمیم میگیرد یک سنگ سفید را در ردیف 20، ستون 13 قرار دهد، وضعیت تخته چگونه تغییر میکند. با تعداد زیادی از وظایف RL در دنیای واقعی، محیط ها کمی دشوارتر هستند. فضای عمل و فضای حالت برای عامل میتواند پیوسته باشد و تقریباً مقدار نامحدودی از نویز و تنوع وجود دارد که عامل با آن مواجه خواهد شد. برای علاقهمندان، پست وبلاگ آندری کارپاتی در مورد این تمایز را بررسی کنید.
مسائل در مدیریت محیطهای جزئی مشاهده شده و نامعین، با فضاهای کنش و حالت پیوسته، RL را به مسئلهای تبدیل میکند که حتی روشهای DL نیز با آن مسئله داشتهاند. جالب است که ببینیم این رشته چگونه پیشرفت میکند. در اینجا چند پیشرفت گذشته وجود دارد.
مقالات مهم
اگر به مرورهای عمیقتر علاقه دارید، این پست وبلاگ را بررسی کنید.
آتاری با DQN (2013) و مقاله Nature Paper (2015) - اولین استفاده موفق از یادگیری عمیق در RL. DQN (شبکه Q-Deep) را معرفی کرد که یک عامل RL پایان به پایان است که از یک شبکه عصبی بزرگ برای پردازش حالتهای بازی و انتخاب اقدامات مناسب استفاده میکند.
روشهای ناهمزمان برای Deep RL (2016) - الگوریتم A3C را معرفی کرد که در DQN گسترش و بهبود یافت.
AlphaGo (2016) - رویکرد مورد استفاده برای ایجاد سیستم AlphaGo را توصیف کرد که لی سدول را در تابستان 2016 شکست داد. جستجوی درخت مونت کارلو و DNN اجزای اصلی در سیستم بودند.
AlphaGo Zero (2017) – آخرین پیشرفت در AlphaGo، که یک بازی تصادفی جالب/شروع از رویکرد را نشان داد.
سایر مقالات مهم
من فکر نمی کنم که بتوانم بدون یافتن راهی برای گنجاندن این مقالات تحقیقاتی بعدی، یک مرور کلی برای یادگیری عمیق انجام دهم. حتی اگر نمیتوانیم به موارد استفاده منحصربهفرد در صنعت اشاره کنیم، مشارکتهای زیر در پیشبرد یادگیری عمیق هنر بسیار مهم بوده است.
یادگیری مبتنی بر گرادیان برای شناسایی اسناد اعمال شده (1998) - مستعار LeNet. استفاده موفقیتآمیز Yann LeCun از CNN در دادههای MNIST اعمال شد. تا اینکه در سال 2012 با AlexNet بود که CNNها روی مجموعه دادههای تصویری سختتری مانند ImageNet بهتر عمل کردند. باور نکردنی است که این مقاله اکنون نزدیک به 20 سال از عمرش میگذرد!
الگوریتم یادگیری سریع برای DBNها (2006) - مقاله جفری هینتون که تکنیکهایی را برای آموزش مؤثر شبکههای باور عمیق (همانطور که قبلاً به آنها اشاره شد) نشان داد.
Dropout (2013) - تکنیک منظمسازی بسیار مهم که نورونهای تصادفی را در DNNها حذف میکند تا با مسائل کلاسیک بیش از حد برازش مقابله کند.
در مورد اهمیت راهاندازی و تکانه در DL (2013) - همانطور که عنوان مقاله نشان میدهد، نویسندگان SGD و پیشرفتهایی را که میتوان با مقداردهی اولیه وزن دقیق و تنظیم حرکت مناسب مشاهده کرد، مورد بحث قرار میدهد.
Adam: A Method for Stochastic Optimization (2014) - Adam یکی از پرکاربردترین الگوریتمهای بهینهسازی برای آموزش DNN است.
ویژگیها در DNN چگونه قابل انتقال هستند (2014) - اولین مطالعه بزرگی که این ایده را روشن میکند که ویژگیهای آموخته شده توسط فیلترها در CNN میتوانند به شبکههای دیگر منتقل شوند و به عنوان نقطه شروع مؤثر مورد استفاده قرار گیرند.
شبکههای متخاصم مولد (2014) - مقاله GAN اصلی که استفاده از شبکههای متمایزکننده و مولد را برای مدلسازی توزیع داده معرفی کرد.
Neural Turing Machines (2014) - استفاده احتمالی از حافظه خارجی همراه با DNNهای استاندارد را بررسی کرد. کار با رایانه عصبی متمایز (2016) گسترش یافت.
نرمالسازی دستهای (2015) - آموزش و پایداری شبکههای عصبی عمیق را با پرداختن به مسئله تغییر متغیر داخلی تسریع کرد.
Style Transfer (2015) - نشان داد که چگونه میتوانید از شبکههای عصبی عمیق برای ایجاد تصاویر هنری مصنوعی استفاده کنید.
رو به جلو
پیش بینی فناوری بسیار دشوار است. صادقانه بگویم، من فکر میکنم تقریباً غیرممکن است که بتوانیم پیشبینی کنیم که چشمانداز فناوری 10 سال یا بیشتر در آینده چگونه خواهد بود. با این حال، وقتی برای اولین بار به ساخت این پست فکر کردم، میخواستم نه تنها بر پیشرفتهای دهه گذشته تمرکز کنم، بلکه میخواستم بحثی را در مورد تأثیر یادگیری عمیق در آینده ایجاد کنم.
همانطور که در مقدمه ذکر کردم، فکر میکنم یادگیری عمیق منحصر به فرد است زیرا ما در نهایت راههایی برای درک گفتار، متن و تصاویر داریم. این امر، فضاهای مسئله بسیاری را در زمینههای مختلف باز میکند. بیایید به یک زوج فکر کنیم.
بر اساس تصاویر هوایی، کشاورزان میتوانند از CNN برای تعیین مکانهایی در مزرعه خود استفاده کنند که در آن به خاک یا کود بیشتری نیاز است.
پزشکان میتوانند از CNN برای کمک به تشخیص الگوها و یافتن ناهنجاریها در اشعه ایکس و سایر دادههای تصویربرداری استفاده کنند.
شرکتهای مدیریت پسماند میتوانند از CNN برای مرتبسازی زبالهها و بازیافت زباله استفاده کنند.
شرکتها میتوانند از RNN برای ایجاد سیستمهایی استفاده کنند که به تسهیل و هدایت مکالمات بین نمایندگان خدمات مشتری و کاربران به مکانهای صحیح کمک میکند.
روانشناسان میتوانند از RNN برای کمک به تشخیص تغییرات یا ناهنجاریها در الگوهای گفتاری افراد برای تشخیص علائم بیماری روانی یا افسردگی استفاده کنند.
قابلیتهایی که روشهای یادگیری عمیق ارائه میکنند فقط برای Big5 یا استارتآپهای فناوری منحصراً در SF در دسترس نیست. با توجه به مقدار مناسب داده، محاسبات و هدف نهایی روشن (*اینها فرضیات بی اهمیتی نیستند*)، من فکر میکنم تقریباً هر سازمان/شرکت/گروه در جهان میتواند از این فناوری استفاده کند.
و بله، همه اینها عالی به نظر میرسد، اما من موافقم که برای برخی از فضاهای مسئله، یادگیری عمیق میخ مربعی برای یک سوراخ گرد است. گاهی اوقات راه حل درستی نیست. در حالی که موارد بالا همه فضاهای کاربردی معقول هستند، برای شرکت/سازمان شما مهم است که زمان بگذارد تا بفهمد که آیا یادگیری عمیق راه حل است یا اینکه یک رگرسیون خطی ساده + گردش کار پیش پردازش داده گزینه بهتری است. برای برخی از انواع دادهها و برای برخی از فضاهای مسئله، روشهای سنتی ML بسیار موثر خواهند بود و شما قطعا باید از آنها استفاده کنید.
اما وقتی نوبت به مسائل واقعاً جالب دنیای امروزی میشود، اغلب با گفتار، متن یا تصویر سروکار دارند. برای آنها، یادگیری عمیق یک گزینه بسیار هیجانانگیز است و باید صبر کنیم تا ببینم این رشته در سالهای آینده چگونه تکامل مییابد.
نتیجهگیری
فقط میخواهم با یک تمرین فکری دیگر به پایان برسانم. من اخیراً در حال گوش دادن به یک قسمت پادکست A16Z به نام Platforming the Future بودم، جایی که تیم اوریلی و بندیکت ایوانز در مورد امواج اخیر پیشرفت در فناوری صحبت کردند. این باعث شد که در مورد چگونگی نگاه کردن به یادگیری عمیق با نگاهی به 20 سال آینده تعجب کنم. آیا میخواهیم آن را بهعنوان یک روند فناوری ۵ تا ۱۰ ساله ببینیم که به آرامی از بین رفت یا میتواند نقطه آغازی برای جستجوی AGI، بزرگترین پیشرفت فناوری در تاریخ باشد؟
بله، یادگیری عمیق در حال حاضر یک کلمه مهیج است. بله، هیپ است. بله، مردم از آن در موقعیتهایی استفاده میکنند که احتمالاً نباید استفاده کنند. اما، همانطور که در این پست دیدید، به پیشرفت باورنکردنی در دنیای فناوری امروزی دامن میزند و مسائل واقعی را حل میکند که چندی پیش فکر میکردیم غیرممکن است. دیدن کارهایی که در نیم دهه گذشته انجام دادهایم و تصور مسائلی که حل خواهیم کرد و زندگیهایی که در نیم دهه آینده بر آنها تأثیر خواهیم گذاشت، خوب، کاملاً هیجانانگیز است.
راههایی برای همگام شدن با پیشرفت یادگیری عمیق
هکرنیوز - من به شما تضمین میدهم که در هر زمان حداقل یک خبر مرتبط با یادگیری عمیق/ یادگیری ماشینی در بین 60 خبر برتر در هر زمان وجود داشته باشد (در زمانی که من این مطلب را مینویسم یکی در رتبه 18 قرار دارد).
ML Subreddit - با کمال تعجب، میتوانید بسیاری از بحثهای فنی عمیق را در اینجا بیابید.
توییتر - Smerity، Jack Clark، Karpathy، Soumith Chintala، Ian Goodfellow، hardmaru را دنبال کنید و من همچنین دوست دارم درباره ML توییت/بازتوییت کنم.
خبرنامه واردات هوش مصنوعی – جک کلارک یک خبرنامه هفتگی در مورد هوش مصنوعی منتشر میکند.
گروه فیس بوک AI/DL - گروه بسیار فعالی که اعضا هر چیزی از مقالات خبری گرفته تا پستهای وبلاگ و سوالات عمومی ML را ارسال میکنند.
Arxiv - قطعاً برای پزشکان پیشرفتهتر، اما جستجو در بخش نسخههای جدید راهی عالی برای درک این موضوع است که تحقیقات در این زمینه به کجا میرود.