GML (Graph Machine Learning)

GML (Graph Machine Learning)

یادگیری ماشین گراف
GML (Graph Machine Learning)

GML (Graph Machine Learning)

یادگیری ماشین گراف

واژه‌نامه‌ای برای صرف در زبان فرانسه

منبع سال ۲۰۱۴ بونامی، بویه و کرلرو، فلِکسیک: واژه‌نامه‌ای برای صرف زبان فرانسه (CNRS/Laboratoire de Linguistique Formelle)، فلکِکسیک را به عنوان یک واژه‌نامه‌ی متن‌باز و نظام‌مند معرفی می‌کند که الگوهای صرفی اسم‌ها، صفت‌ها و فعل‌های فرانسوی را پوشش می‌دهد و ارتباط مستقیمی با تحقیقات زبانی و کاربردهای محاسباتی دارد [1][2][3].

 

طراحی و دامنه

فلِکسیک به طور خاص برای تحلیل تجربی و مدل‌سازی صرف صرفی زبان فرانسه ساخته شده است. این واژه‌نامه:

- بر اساس lexemes (نه اشکال جداگانه‌ی کلمات) سازماندهی شده است و الگوهای صرفی کاملی را برای تمام صفت‌ها، اسم‌ها و فعل‌های مستند شده در پایگاه داده‌ی پرکاربرد لکِکسیک ارائه می‌دهد.

- متشکل از بیش از ۴۷۰۰۰ واژه و بیش از ۳۶۰۰۰۰ صورت صرفی، که هر واژه به صورت‌های سطحی، برچسب‌های ریخت‌شناسی و بازنمایی‌های واج‌شناسی مرتبط است [2][1].

 

مبانی روش‌شناختی

- منبع و اعتبارسنجی: فلکسیک بسطی از لکسیکو ۳.۷۰ است، اما به طور گسترده به صورت دستی اصلاح و به طور سیستماتیک فیلتر شده است. بخش‌های اصلی هر واژه بررسی می‌شوند و پارادایم‌های کامل تولید و تا حدی به صورت دستی و از طریق روابط ضمنی بین سلول‌های پارادایم اعتبارسنجی می‌شوند و انسجام داخلی بسیار بالاتری نسبت به منابع قبلی را تضمین می‌کنند.

- بازنمایی واج‌شناسی: هر صورت دارای یک رشته واج‌شناسی است که دقت و عمومیت را متعادل می‌کند و هدف آن نمایش همه و فقط آن ویژگی‌های واج‌شناسی است که زیربنای تنوع سطحی هستند. به عنوان مثال، مکان‌های schwa به طور سیستماتیک علامت‌گذاری می‌شوند، حتی زمانی که فقط به صورت شرطی تحقق می‌یابند، و علامت‌گذاری برای مصوت‌های خنثی شده نیز گنجانده شده است.

- ساختار الگو: برای هر اسم، صفت و فعل، Flexique کل مجموعه صورت‌های قابل تولید از طریق صرف منظم را ارائه می‌دهد و از مطالعه کامل صرف واجی و تجزیه محاسباتی پشتیبانی می‌کند [1][2].

 

ویژگی‌ها و مزایای منحصر به فرد

·         پوشش نظام‌مند الگو: برخلاف واژگان قبلی، سازماندهی مبتنی بر واژگان Flexique امکان استخراج آسان جداول صرف کامل را فراهم می‌کند و از تحقیقات کمی، روان‌زبان‌شناسی و محاسباتی پشتیبانی می‌کند.

·         کلیت واجی: لایه واجی به گونه‌ای طراحی شده است که همه گونه‌های سطح منظم را می‌توان به صورت الگوریتمی استخراج کرد و Flexique را برای مدل‌سازی واجی، سنتز گفتار و مطالعات واژشناسی بسیار مناسب می‌سازد.

·         باز و مشارکتی: به عنوان داده‌های باز با پروتکل مستندسازی واضح و ابزارهایی برای تجزیه و تحلیل/اصلاح توزیع شده است و از مشارکت‌ها و پیشرفت‌های جامعه در طول زمان دعوت می‌کند [3][1].

 

تأثیر علمی و عملی

Flexique اکنون ابزاری اساسی برای نظریه صرفی زبان فرانسه، آزمایش‌های روان‌زبان‌شناسی، مدل‌سازی محاسباتی زبان‌شناسی و منابع آموزشی است. این ابزار اغلب در مطالعات تطبیقی ​​در کنار سایر منابع فرانسوی مانند Lexique، Morphalou و Leff برای معیارسنجی، القای دستور زبان و ارزیابی فناوری زبان استفاده می‌شود.

به طور خلاصه، Flexique یک فرهنگ لغت معتبر، متمرکز بر الگو و از نظر واج‌شناسی صریح برای صرف زبان فرانسه ارائه می‌دهد - منبعی کلیدی برای زبان‌شناسی نظری و کارهای محاسباتی کاربردی، که امکان تحقیقات تکرارپذیر، توسعه‌پذیر و از نظر زبانی قوی در مورد ساختار صرفی زبان فرانسه را فراهم می‌کند [2][3][1].

 

[1](http://www.llf.cnrs.fr/fr/flexique-fr.php)

[2](http://www.lexique.org/databases/flexique091/flexique091/flexique-doc.pdf)

[3](http://www.llf.cnrs.fr/sites/sandbox.linguist.univ-paris-diderot.fr/files/statiques/flexique/distrib/documentation.pdf)

[4](https://aclanthology.org/W14-4720.pdf)

[5](https://www.semanticscholar.org/paper/Flexique-:-an-in%EF%AC%82ectional-lexicon-for-spoken-French-Bonami-Caron/e79f0394870c9a0604055d4517d5147d87d88334)

[6](https://zenodo.org/records/10638682)

[7](https://zenodo.org/records/14069226)

[8](https://www.gitlab.com/sbeniamine/vlexique)

نگاشت واج‌شناسی چندزبانه در محیط‌های کم‌منبع

مقاله اپستین در سال ۲۰۱۹، "نگاشت واج‌شناسی چندزبانه در محیط‌های کم‌منبع" (ارتباط گفتاری، ۱۱۰، ۳۲۴۴)، رویکردهای محاسباتی قوی برای نگاشت توالی‌های گرافیم به واج‌ها در زبان‌های کم‌منبع را با استفاده از اطلاعات واج‌شناسی چندزبانه و یادگیری انتقالی بررسی می‌کند.

 

انگیزه و زمینه

- بسیاری از زبان‌ها فاقد داده‌های آموزشی کافی برای مدل‌های سنتی گرافیم به واج (G2P) هستند و این امر نیاز به استفاده از داده‌ها از زبان‌های مرتبط یا غنی از منابع را ایجاد می‌کند.

یک چالش اصلی، ایجاد نقشه‌های واج‌شناسی است که به طور دقیق موجودی واج‌های بین زبانی و تغییرات املایی را منعکس کند.

 

مشارکت‌های روش‌شناختی

- اپستین یک چارچوب چندزبانه ایجاد می‌کند که موجودی واج‌ها را در زبان‌ها با استفاده از تعبیه ویژگی‌های تولیدی و آوایی همسو می‌کند.

مدل پیشنهادی، مکاتبات گرافیم-واج خاص زبان را با ویژگی‌های واج‌شناسی جهانی ادغام می‌کند تا انتقال دانش را امکان‌پذیر سازد.

- تکنیک‌ها شامل تنظیمات یادگیری صفر و چند مرحله‌ای برای راه‌اندازی مدل‌های G2P برای زبان‌هایی با واژگان حداقلی هستند.

 

نتایج تجربی

- چارچوب نگاشت واج‌شناسی چندزبانه، بهبودهای قابل توجهی را در نرخ خطای واج برای زبان‌های کم‌منبع در مقایسه با خطوط پایه تک‌زبانه نشان می‌دهد.

نتایج، اهمیت ترازبندی واج بین زبانی با طراحی دقیق را برای امکان‌پذیر کردن انتقال مؤثر و کاهش خطاهای تلفظ برجسته می‌کند.

 

پیامدها

- این کار با ارائه مدل‌سازی G2P مقیاس‌پذیر و آگاه از نظر زبانی، فناوری گفتار را برای زبان‌های کم‌منبع پیشرفت می‌دهد.

این کار با تسهیل ایجاد واژگان تلفظ در زمینه‌های داده‌های کمیاب، از تلاش‌های تشخیص گفتار چندزبانه، سنتز و مستندسازی زبان پشتیبانی می‌کند.

به طور خلاصه، اپستین (2019) یک مدل پیشگام نگاشت واج‌شناسی چندزبانه ارائه می‌دهد که از دانش آوایی بین زبانی و یادگیری انتقال برای بهبود قابل توجه دقت تبدیل G2P در زبان‌های کم‌منبع استفاده می‌کند و شکاف‌های قابل توجهی را در دسترسی به فناوری گفتار برطرف می‌کند [1].

 

[1](https://kilthub.cmu.edu/articles/thesis/Low-Resource_Speech_Recognition_for_Thousands_of_Languages/24011307)

[2](https://pmc.ncbi.nlm.nih.gov/articles/PMC11362297/)

[3](https://www.sciencedirect.com/science/article/pii/S091160441730091X)

[4](https://www.biorxiv.org/content/10.1101/410795v2.full.pdf)

[5](https://pmc.ncbi.nlm.nih.gov/articles/PMC6406634/)

[6](https://arxiv.org/html/2510.18840v1)

[7](https://bpspsychub.onlinelibrary.wiley.com/doi/pdf/10.1111/bjop.12598)

[8](https://repositori.upf.edu/bitstreams/6d7916a0-53aa-49e7-8467-5f0eb852fa49/download)

[9](https://journals.bilpubgroup.com/index.php/fls/article/view/8991)

 

هم‌ترازی بین زبانی و یادگیری انتقالی

مقاله لی و گلس در سال ۲۰۲۲، «هم‌ترازی بین زبانی و یادگیری انتقالی برای G2P» (Transactions of the Association for Computational Linguistics, 10, 456472)، روش‌هایی را برای افزایش عملکرد تبدیل گرافیم به واج (G2P) در زبان‌های کم‌منبع از طریق هم‌ترازی بین زبانی مؤثر و یادگیری انتقالی بررسی می‌کند [1].

 

تمرکز تحقیقاتی

- این کار بر ایجاد بازنمایی‌های واج مشترک و هم‌ترازی فضاهای آوایی در زبان‌ها برای تسهیل انتقال دانش از زبان‌های غنی از منابع به زبان‌های کم‌منبع برای وظایف G2P تمرکز دارد.

- آنها بازنمایی‌های رمزگذار و خروجی‌های رمزگشا را تجزیه و تحلیل می‌کنند تا اطمینان حاصل شود که پدیده‌های زبانی به طور محکم بین زبان‌هایی با املا و واج‌شناسی‌های مختلف منتقل می‌شوند.

 

نوآوری‌های روش‌شناختی

- نویسندگان یک معماری عصبی بین زبانی پیشنهاد می‌کنند که با به اشتراک گذاشتن اجزای مدل خاص، مدل‌های G2P را در چندین زبان به طور مشترک یاد می‌گیرد و در عین حال تنظیمات خاص زبان را نیز امکان‌پذیر می‌سازد.

- آنها تکنیک‌های هم‌ترازی مبتنی بر تعبیه واج و نمایش‌های مشترک شبیه IPA را معرفی می‌کنند که عدم تطابق در فهرست‌های آوایی بین زبان‌ها را کاهش می‌دهد.

- استراتژی‌های یادگیری انتقال، از پیش‌آموزش در زبان‌های پرمنبع و به دنبال آن تنظیم دقیق در زبان‌های کم‌منبع برای به حداکثر رساندن دقت پیش‌بینی واج استفاده می‌کنند.

 

یافته‌های تجربی

- آزمایش‌ها در جفت‌های زبانی متنوع، بهبودهای قابل توجهی را در نرخ خطای واج (PER) و دقت کلی G2P برای زبان‌های کم‌منبع با استفاده از انتقال بین زبانی بر روی مدل‌های تک‌زبانه مستقل نشان می‌دهند.

تجزیه و تحلیل نشان می‌دهد که هم‌ترازی‌های با دقت طراحی‌شده نمایش‌های آوایی نقش مهمی در موفقیت انتقال دارند.

این رویکرد به خوبی با بسیاری از زبان‌ها سازگار است و به طور موثر از شباهت زبانی و ویژگی‌های آوایی مشترک بهره می‌برد.

 

مشارکت‌ها و تأثیر

- این مقاله تکنیک‌های اصولی برای هم‌ترازی و انتقال در چارچوب‌های G2P چندزبانه را ارائه می‌دهد که مقیاس‌پذیری و عملکرد را افزایش می‌دهد و به یک تنگنای اصلی در فناوری گفتار چندزبانه می‌پردازد. - نتایج تجربی بر اهمیت هم‌ترازی بازنمایی در سطح واج در سناریوهای یادگیری بین زبانی تأکید می‌کنند.

به طور خلاصه، لی و گلس (2022) چارچوبی جامع ارائه می‌دهند که هم‌ترازی عصبی بین زبانی و یادگیری انتقالی را ترکیب می‌کند و با بهره‌برداری از ساختارهای آوایی مشترک و فضاهای تعبیه، تبدیل واج به واج را در زبان‌های کم‌منبع به طور قابل توجهی بهبود می‌بخشد [1].

 

[1](https://aclanthology.org/2024.naacl-long.43.pdf)

[2](https://arxiv.org/html/2311.08323v2)

[3](https://arxiv.org/html/2404.06228v2)

[4](https://aclanthology.org/2024.findings-acl.649.pdf)

[5](https://ieeexplore.ieee.org/iel8/6287639/10380310/10597571.pdf)

[6](https://github.com/sigmorphon/2022G2PST)

[7](https://par.nsf.gov/servlets/purl/10437894)