دادهٔ فرهنگ‌نگاشتی چیست؟

در روزهای نخست آبان ۱۴۰۱، دانشگاه اسکودار در شهر استانبول، میزبان همایشی بود به نام «آموزش ویکی‌داده برای ویکی‌مدین‌های تُرک» که توسط گروه کاربری ویکی‌مدیای ترکیه و گروه کاربری ویکی‌مدیای ترک‌زبانان برگزار شد. هدف از این برنامه، توسعهٔ پروژه‌های ویکی‌مدیا، به ویژه ویکی‌داده و ارتقای مهارت‌های شرکت‌کنندگان این همایش بود که عمدتاً از کشورها و مناطق ترک‌زبان بودند. در روز دوم این کنفرانس، آصاف بارتُف موضوعی را مطرح کرد که من تا قبل از آن چیزی در موردش نشنیده بودم: دادهٔ فرهنگ‌نگاشتی یا به زبان ساده‌تر، پروژهٔ لِکسیم.در روزهای نخست آبان ۱۴۰۱، دانشگاه اسکودار در شهر استانبول، میزبان همایشی بود به نام «آموزش ویکی‌داده برای ویکی‌مدین‌های تُرک» که توسط گروه کاربری ویکی‌مدیای ترکیه و گروه کاربری ویکی‌مدیای ترک‌زبانان برگزار شد. هدف از این برنامه، توسعهٔ پروژه‌های ویکی‌مدیا، به ویژه ویکی‌داده و ارتقای مهارت‌های شرکت‌کنندگان این همایش بود که عمدتاً از کشورها و مناطق ترک‌زبان بودند. در روز دوم این کنفرانس، آصاف بارتُف موضوعی را مطرح کرد که من تا قبل از آن چیزی در موردش نشنیده بودم: دادهٔ فرهنگ‌نگاشتی یا به زبان ساده‌تر، پروژهٔ لِکسیم.

عکس گروهی همایش آموزش ویکی‌داده برای ویکی‌مدین‌های ترک، استانبول ۱۴۰۱.

دادهٔ فرهنگ‌نگاشتی یکی از پروژه‌های ویکی‌داده است که از سال ۲۰۱۸ آغاز شده و هدف آن ذخیره‌سازی نوع تازه‌ای از اطلاعات است. اطلاعاتی شامل کلمات، عبارات، و جملات در زبان‌های مختلف . این داده‌ها می‌توانند برای هر زبانی تعریف شوند و علاوه بر ثبت تکواژه (لکسیم)، معانی و حالت‌های دستوری آن تکواژه را نیز ضبط کنند. این پروژه باعث می‌شود تا درک و یادگیری زبان انسانی برای ماشین‌ها میسر شود، و برای رسیدن به این هدف، به داده‌های ساختارمندی نیاز است که بستر آنها در ویکی‌داده وجود دارد. باید توجه داشت که واژه‌ها می‌توانند حالت‌های صرفی متعددی داشته باشند و در پروژهٔ دادهٔ فرهنگ‌نگاشتی، این حالت‌ها برای اسامی، افعال، و ترکیب‌ها مشخص می‌شوند تا ماشین‌ها بهتر بتوانند آن‌ها را درک کنند. همچنین باید توجه داشت که واژه‌ها می‌توانند معناهای مختلفی نیز داشته باشند که در این پروژه، علاوه بر ثبت و درج این معناها، واژگان مترادف و متضاد با هر معنا نیز به یکدیگر متصل می‌شوند.

در این پروژه، واژه‌های هم‌آوا، مانند «خوار» و «خار»، و نیز واژه‌های هم‌نگاره، مانند «مُلْک» و «مَلَک» به یکدیگر پیوند دارند و واژگانی که دارای چند نقش دستوری مختلف هستند نیز مشخص می‌شوند. یکی از نکات مهم در مورد این پروژه، افزودن مثال‌های واقعی و کاربردی از صورت‌های صرفی و معنایی واژگان مختلف است که برای هر واژه، مثالی کاربردی نیز درج می‌شود. در این پروژه، واژگان و معانی آنها برچسب‌گذاری می‌شوند تا ماشین بداند لحن این واژه به چه صورت است و این واژه در چه قالبی استفاده می‌شود، مثلاً «اُکسایش» اغلب در متون رسمی و دانشگاهی استفاده می‌شود، ولی «قُلچُماق» یک واژهٔ عامیانه است.

در این پروژه می‌توانیم ریشهٔ واژگان را نیز مشخص کنیم و در واژه‌های مرکب، اجزای تشکیل‌دهندهٔ آن ترکیب درج می‌شود که خود نیز مدخل جداگانه‌ای دارند. در این پروژه امکان درج معنای واژگان به زبان‌های دیگر نیز وجود دارد و می‌توان معادل دقیق هر واژه در زبان‌های دیگر را نیز درج کرد. امکانات متعدد دیگری از جمله افزودن تصویر، افزودن آوای صوتی انسانی، و افزودن الفبای آوانگاری بین‌المللی به واژگان نیزوجود دارد. یکی از کاربردی‌ترین بخش‌های این پروژه، متصل کردن واژگان به صفحهٔ ویکی‌دادهٔ متناظر آنهاست که کاربر می‌تواند علاوه بر درک معنای انتزاعی واژگان، به توضیحات گسترده‌تری نیز رجوع کند.

لوگوی پروژهٔ دادهٔ فرهنگ‌نگاشتی

کاربرد

این پروژه قابلیت‌های متعددی را در اختیار استفاده‌کنندگان قرار می‌دهد که مهم‌ترین آنها به شرح زیر است:

ماشین ترجمه: برخلاف ماشین‌های ترجمهٔ موجود که براساس مطابقت نظیر به نظیر کار می‌کنند، با استفاده از این پروژه می‌توانیم ماشین ترجمه‌ای ایجاد کنیم که دقیقاً قادر به خواندن و فهمیدن متن باشد زیرا در این پروژه همهٔ معنی‌های واژگان به معادل‌های آنها در زبان‌های دیگر نیز اضافه خواهند شد.

نرم‌افزارهای نویسه‌خوانی برای نابینایان: به دلیل وجود تلفظ و نیز آوانگاری بین‌المللی برای همهٔ واژگان، می‌توان نرم‌افزارهایی تهیه کرد که برای نابینایان کاربرد دارند و به خواندن متن برای آنها کمک می‌کنند.

ابزارهای بررسی گرامر و املاء: با کمک داده‌هایی که در این پروژه تهیه می‌شود، می‌توان ابزارهای کنترل گرامر و املاء ایجاد کرد تا غلط‌های دستوری و املایی را تصحیح کند.

فلش‌کارت: در امر آموزش زبان، استفاده از فلش‌کارت می‌تواند بسیار موثر باشد و امروزه برای یادگیری زبان‌های خارجی بسیاری از این امکان استفاده می‌شود و نرم‌افزارهای زیادی در این زمینه تولید شده‌اند. داده‌های این پروژه می‌تواند منبع مناسبی برای ایجاد فلش‌کارت باشد.

تمرین گرامر: از آن‌جایی که حالت‌های دستوری واژگان مختلف در این پروژه درج می‌شوند، از داده‌های موجود می‌توان استفادهٔ بهینه‌ای برای تمرین دستور زبان کرد و نرم‌افزارهایی طراحی نمود که زبان‌آموز بتواند اشتباهات گرامری خود را تصحیح کند.

تمرین تلفظ: از آن‌جایی که همهٔ واژگان دارای فایل صوتی تلفظ خواهند بود، زبان آموزان می‌توانند تلفظ خود را با تلفظ شخصی گویشوران زبان مقصد تطابق دهند.

از آنجایی که این پروژه نوپا است و افراد زیادی در آن مشارکت ندارند، اجتماع کاربران این پروژه از هر نیروی تازه ای استقبال می کنند.اکنون فرصت دارید که از اولین مشارکت‌کنندگان این پروژه در کشورتان باشید. برای پرسیدن سوالات‌تان می‌توانید از گروه تلگرام به نشانی :زیر استفاده کنید
https://t.me/joinchat/ICn09hkymb2dwpFKwGo5uA