گراف ترانسفورمرها (GTs) به طور فزایندهای در وظایفی که زبان و بینایی را با هم ترکیب میکنند، استفاده میشوند و از توانایی آنها برای پردازش دادههای ساختار یافته گراف و ادغام اطلاعات چندوجهی استفاده میشود. در زیر مروری بر کاربردهای آنها در این حوزهها آورده شده است:
(1) ویژن + وظایف زبان: گراف ترانسفورمر برای پر کردن شکاف بین بینش و زبان با مدلسازی روابط بین ویژگیهای بصری (به عنوان مثال، تکههای تصویر یا اشیاء) و دادههای متنی (به عنوان مثال، شرحها یا توضیحات) استفاده میشود.
برنامههای کاربردی:
عنوان تصویر: GTها روابط بین اشیاء شناسایی شده در یک تصویر را مدل میکنند و با یکپارچهسازی ویژگیهای بصری و متنی، شرحهای توصیفی ایجاد میکنند.
پاسخگویی به سؤالات بصری (VQA): GTها گرافهای بصری (مانند روابط شی) را در کنار سؤالات متنی پردازش میکنند تا پاسخها را پیشبینی کنند و امکان استدلال عمیقتر در مورد محتوای تصویر را فراهم کنند.
تولید گراف صحنه: GTها گرافهای صحنه را از تصاویر استخراج میکنند و اشیا را به عنوان گرهها و روابط آنها را به عنوان لبه نشان میدهند. سپس این گرافها برای کارهای پایین دستی مانند درک تصویر یا زیرنویس استفاده میشوند.
(2) ترانسفورمرهای بینایی با ساختارهای گراف: ترانسفورمرهای بینایی تقویت شده با گراف (ViTs) ساختارهای گراف را در مکانیسمهای توجه خود برای بهبود عملکرد در وظایف بینایی ترکیب میکنند.
مدلهای کلیدی:
Graph Head Attention Vision Transformer (GHA-ViT): برای حفظ ویژگیهای محلی و سراسری تصاویر ورودی، توجه استاندارد چند راس را با توجه مبتنی بر گراف جایگزین میکند. این رویکرد دقت بهبود یافتهای را در مجموعه دادههایی مانند CIFAR-100/10 و ImageNet-1K نشان داده است [2].
ترانسفورمر تعاملی گراف (GiT): یک ماژول ترانسفورمر را برای استخراج ویژگیهای پچ سراسری با یک ماژول گراف همبستگی محلی برای یادگیری ویژگیهای ریز ترکیب میکند که در کارهایی مانند شناسایی مجدد وسیله نقلیه مفید است [2].
برنامههای کاربردی:
دستهبندی تصویر: GTها مدلهای دستهبندی را با یکپارچهسازی روابط ساختاری بین وصلههای تصویر یا مناطق بهبود میبخشند.
تشخیص شی: ViTs مبتنی بر گراف، تعاملات شی را مدل میکند، که دقت تشخیص را با گرفتن روابط متنی بهبود میبخشد.
تقسیم بندی تصویر: GTها تصاویر را با در نظر گرفتن پیکسلها یا مناطق به عنوان گرههای گراف، تقسیم بندی میکنند و از وابستگیهای ساختاری برای تقسیمبندی بهتر استفاده میکنند.
(3) یادگیری چندوجهی
GTها به ویژه برای وظایف یادگیری چندوجهی که هر دو روش زبان و بینایی باید به طور همزمان پردازش شوند مناسب هستند.
برنامههای کاربردی:
بازیابی چند وجهی: GTها تعبیههای بصری و متنی را برای کارهایی مانند بازیابی تصاویر بر اساس جستارهای متنی یا بالعکس تراز میکنند.
درک ویدیویی: در کارهای زیرنویس ویدیویی، GTها روابط زمانی را در ویدیوها در کنار توضیحات متنی برای ایجاد زیرنویسهای دقیق مدلسازی میکنند.
(4) مزایا نسبت به مدلهای سنتی
(1) مدلسازی زمینه سراسری: بر خلاف CNNها که بر الگوهای محلی تمرکز میکنند، GTها وابستگیهای محلی و سراسری را در بین وصلههای تصویر یا اشیاء ثبت میکنند.
(2) ادغام چندوجهی: GTها به طور یکپارچه دادههای بصری و متنی را ادغام میکنند و آنها را برای کارهای استدلالی پیچیده مانند VQA ایده آل میکند.
(3) آگاهی ساختاری: با ترکیب ساختارهای گراف، GTها میتوانند به صراحت روابط بین موجودیتها را در متن و تصویر مدل کنند.
(5) چالشها
(1) پیچیدگی محاسباتی: پیچیدگی درجه دوم مکانیسمهای توجه به خود میتواند گلوگاهی برای وظایف بینایی + زبان در مقیاس بزرگ باشد.
(2) بازنمایی دادهها: بازنمایی موثر ویژگیهای بصری به عنوان گراف همچنان یک چالش است، به ویژه برای تصاویر یا ویدیوهای با وضوح بالا.
نتیجهگیری
گراف ترانسفورمرها با ترکیب نقاط قوت ترانسفورمرها با استدلال مبتنی بر گراف، پتانسیل قابل توجهی را در کاربردهای زبان و بینایی نشان دادهاند. آنها در کارهایی که نیاز به ادغام چندوجهی دارند، مانند شرح تصاویر، VQA، و تولید گراف صحنه برتری دارند، در حالی که وظایف بینایی سنتی مانند دستهبندی و تقسیمبندی را از طریق آگاهی ساختاری افزایش میدهند. با این حال، چالشهایی مانند مقیاسپذیری و بازنمایی کارآمد، زمینههای حیاتی برای تحقیقات آینده باقی میمانند.
[1] https://pubmed.ncbi.nlm.nih.gov/39159038/
[2] https://pmc.ncbi.nlm.nih.gov/articles/PMC10892187/
[3] https://openreview.net/forum?id=OeWooOxFwDa
[4] https://www.pinecone.io/learn/series/image-search/vision-transformers/
[5] https://www.synopsys.com/designware-ip/technical-bulletin/transformers-for-vision.html
[6] https://arxiv.org/html/2407.09777v1
[7] https://arxiv.org/html/2209.13232v4
[8] https://arxiv.org/html/2302.04181v3