GML (Graph Machine Learning)

یادگیری ماشین گراف

GML (Graph Machine Learning)

یادگیری ماشین گراف

کاربردهای زبان و بینایی ترانسفورمرهای گراف

گراف ترانسفورمرها (GTs) به طور فزاینده‌ای در وظایفی که زبان و بینایی را با هم ترکیب می‌کنند، استفاده می‌شوند و از توانایی آنها برای پردازش داده‌های ساختار یافته گراف و ادغام اطلاعات چندوجهی استفاده می‌شود. در زیر مروری بر کاربردهای آنها در این حوزه‌ها آورده شده است:

 

  

(1) ویژن + وظایف زبان: گراف ترانسفورمر برای پر کردن شکاف بین بینش و زبان با مدل‌سازی روابط بین ویژگی‌های بصری (به عنوان مثال، تکه‌های تصویر یا اشیاء) و داده‌های متنی (به عنوان مثال، شرح‌ها یا توضیحات) استفاده می‌شود.

برنامه‌های کاربردی:

عنوان تصویر: GTها روابط بین اشیاء شناسایی شده در یک تصویر را مدل می‌کنند و با یکپارچه‌سازی ویژگی‌های بصری و متنی، شرح‌های توصیفی ایجاد می‌کنند.

پاسخگویی به سؤالات بصری (VQA): GTها گراف‌های بصری (مانند روابط شی) را در کنار سؤالات متنی پردازش می‌کنند تا پاسخ‌ها را پیش‌بینی کنند و امکان استدلال عمیق‌تر در مورد محتوای تصویر را فراهم کنند.

تولید گراف صحنه: GTها گراف‌های صحنه را از تصاویر استخراج می‌کنند و اشیا را به عنوان گره‌ها و روابط آنها را به عنوان لبه نشان می‌دهند. سپس این گراف‌ها برای کارهای پایین دستی مانند درک تصویر یا زیرنویس استفاده می‌شوند.

 

(2) ترانسفورمرهای بینایی با ساختارهای گراف: ترانسفورمرهای بینایی تقویت شده با گراف (ViTs) ساختارهای گراف را در مکانیسم‌های توجه خود برای بهبود عملکرد در وظایف بینایی ترکیب می‌کنند.

 

مدل‌های کلیدی:

Graph Head Attention Vision Transformer (GHA-ViT): برای حفظ ویژگی‌های محلی و سراسری تصاویر ورودی، توجه استاندارد چند راس را با توجه مبتنی بر گراف جایگزین می‌کند. این رویکرد دقت بهبود یافته‌ای را در مجموعه داده‌هایی مانند CIFAR-100/10 و ImageNet-1K نشان داده است [2].

ترانسفورمر تعاملی گراف (GiT): یک ماژول ترانسفورمر را برای استخراج ویژگی‌های پچ سراسری با یک ماژول گراف همبستگی محلی برای یادگیری ویژگی‌های ریز ترکیب می‌کند که در کارهایی مانند شناسایی مجدد وسیله نقلیه مفید است [2].

 

برنامه‌های کاربردی:

دسته‌بندی تصویر: GTها مدل‌های دسته‌بندی را با یکپارچه‌سازی روابط ساختاری بین وصله‌های تصویر یا مناطق بهبود می‌بخشند.

تشخیص شی: ViTs مبتنی بر گراف، تعاملات شی را مدل می‌کند، که دقت تشخیص را با گرفتن روابط متنی بهبود می‌بخشد.

تقسیم بندی تصویر: GTها تصاویر را با در نظر گرفتن پیکسل‌ها یا مناطق به عنوان گره‌های گراف، تقسیم بندی می‌کنند و از وابستگی‌های ساختاری برای تقسیم‌بندی بهتر استفاده می‌کنند.

 

(3) یادگیری چندوجهی

GTها به ویژه برای وظایف یادگیری چندوجهی که هر دو روش زبان و بینایی باید به طور همزمان پردازش شوند مناسب هستند.

 

برنامه‌های کاربردی:

بازیابی چند وجهی: GTها تعبیه‌های بصری و متنی را برای کارهایی مانند بازیابی تصاویر بر اساس جستارهای متنی یا بالعکس تراز می‌کنند.

درک ویدیویی: در کارهای زیرنویس ویدیویی، GTها روابط زمانی را در ویدیوها در کنار توضیحات متنی برای ایجاد زیرنویس‌های دقیق مدل‌سازی می‌کنند.

 

(4) مزایا نسبت به مدل‌های سنتی

(1) مدل‌سازی زمینه سراسری: بر خلاف CNNها که بر الگوهای محلی تمرکز می‌کنند، GTها وابستگی‌های محلی و سراسری را در بین وصلههای تصویر یا اشیاء ثبت می‌کنند.

(2) ادغام چندوجهی: GTها به طور یکپارچه داده‌های بصری و متنی را ادغام می‌کنند و آنها را برای کارهای استدلالی پیچیده مانند VQA ایده آل می‌کند.

(3) آگاهی ساختاری: با ترکیب ساختارهای گراف، GTها می‌توانند به صراحت روابط بین موجودیت‌ها را در متن و تصویر مدل کنند.

 

(5) چالش‌ها

(1) پیچیدگی محاسباتی: پیچیدگی درجه دوم مکانیسم‌های توجه به خود می‌تواند گلوگاهی برای وظایف بینایی + زبان در مقیاس بزرگ باشد.

(2) بازنمایی داده‌ها: بازنمایی موثر ویژگی‌های بصری به عنوان گراف همچنان یک چالش است، به ویژه برای تصاویر یا ویدیوهای با وضوح بالا.

 

نتیجه‌گیری

گراف ترانسفورمرها با ترکیب نقاط قوت ترانسفورمرها با استدلال مبتنی بر گراف، پتانسیل قابل توجهی را در کاربردهای زبان و بینایی نشان داده‌اند. آنها در کارهایی که نیاز به ادغام چندوجهی دارند، مانند شرح تصاویر، VQA، و تولید گراف صحنه برتری دارند، در حالی که وظایف بینایی سنتی مانند دسته‌بندی و تقسیم‌بندی را از طریق آگاهی ساختاری افزایش می‌دهند. با این حال، چالش‌هایی مانند مقیاس‌پذیری و بازنمایی کارآمد، زمینه‌های حیاتی برای تحقیقات آینده باقی می‌مانند.


[1] https://pubmed.ncbi.nlm.nih.gov/39159038/

[2] https://pmc.ncbi.nlm.nih.gov/articles/PMC10892187/

[3] https://openreview.net/forum?id=OeWooOxFwDa

[4] https://www.pinecone.io/learn/series/image-search/vision-transformers/

[5] https://www.synopsys.com/designware-ip/technical-bulletin/transformers-for-vision.html

[6] https://arxiv.org/html/2407.09777v1

[7] https://arxiv.org/html/2209.13232v4

[8] https://arxiv.org/html/2302.04181v3


نظرات 0 + ارسال نظر
ایمیل شما بعد از ثبت نمایش داده نخواهد شد