در روزهای نخست آبان ۱۴۰۱، دانشگاه اسکودار در شهر استانبول، میزبان همایشی بود به نام «آموزش ویکیداده برای ویکیمدینهای تُرک» که توسط گروه کاربری ویکیمدیای ترکیه و گروه کاربری ویکیمدیای ترکزبانان برگزار شد. هدف از این برنامه، توسعهٔ پروژههای ویکیمدیا، به ویژه ویکیداده و ارتقای مهارتهای شرکتکنندگان این همایش بود که عمدتاً از کشورها و مناطق ترکزبان بودند. در روز دوم این کنفرانس، آصاف بارتُف موضوعی را مطرح کرد که من تا قبل از آن چیزی در موردش نشنیده بودم: دادهٔ فرهنگنگاشتی یا به زبان سادهتر، پروژهٔ لِکسیم.در روزهای نخست آبان ۱۴۰۱، دانشگاه اسکودار در شهر استانبول، میزبان همایشی بود به نام «آموزش ویکیداده برای ویکیمدینهای تُرک» که توسط گروه کاربری ویکیمدیای ترکیه و گروه کاربری ویکیمدیای ترکزبانان برگزار شد. هدف از این برنامه، توسعهٔ پروژههای ویکیمدیا، به ویژه ویکیداده و ارتقای مهارتهای شرکتکنندگان این همایش بود که عمدتاً از کشورها و مناطق ترکزبان بودند. در روز دوم این کنفرانس، آصاف بارتُف موضوعی را مطرح کرد که من تا قبل از آن چیزی در موردش نشنیده بودم: دادهٔ فرهنگنگاشتی یا به زبان سادهتر، پروژهٔ لِکسیم.
دادهٔ فرهنگنگاشتی یکی از پروژههای ویکیداده است که از سال ۲۰۱۸ آغاز شده و هدف آن ذخیرهسازی نوع تازهای از اطلاعات است. اطلاعاتی شامل کلمات، عبارات، و جملات در زبانهای مختلف . این دادهها میتوانند برای هر زبانی تعریف شوند و علاوه بر ثبت تکواژه (لکسیم)، معانی و حالتهای دستوری آن تکواژه را نیز ضبط کنند. این پروژه باعث میشود تا درک و یادگیری زبان انسانی برای ماشینها میسر شود، و برای رسیدن به این هدف، به دادههای ساختارمندی نیاز است که بستر آنها در ویکیداده وجود دارد. باید توجه داشت که واژهها میتوانند حالتهای صرفی متعددی داشته باشند و در پروژهٔ دادهٔ فرهنگنگاشتی، این حالتها برای اسامی، افعال، و ترکیبها مشخص میشوند تا ماشینها بهتر بتوانند آنها را درک کنند. همچنین باید توجه داشت که واژهها میتوانند معناهای مختلفی نیز داشته باشند که در این پروژه، علاوه بر ثبت و درج این معناها، واژگان مترادف و متضاد با هر معنا نیز به یکدیگر متصل میشوند.
در این پروژه، واژههای همآوا، مانند «خوار» و «خار»، و نیز واژههای همنگاره، مانند «مُلْک» و «مَلَک» به یکدیگر پیوند دارند و واژگانی که دارای چند نقش دستوری مختلف هستند نیز مشخص میشوند. یکی از نکات مهم در مورد این پروژه، افزودن مثالهای واقعی و کاربردی از صورتهای صرفی و معنایی واژگان مختلف است که برای هر واژه، مثالی کاربردی نیز درج میشود. در این پروژه، واژگان و معانی آنها برچسبگذاری میشوند تا ماشین بداند لحن این واژه به چه صورت است و این واژه در چه قالبی استفاده میشود، مثلاً «اُکسایش» اغلب در متون رسمی و دانشگاهی استفاده میشود، ولی «قُلچُماق» یک واژهٔ عامیانه است.
در این پروژه میتوانیم ریشهٔ واژگان را نیز مشخص کنیم و در واژههای مرکب، اجزای تشکیلدهندهٔ آن ترکیب درج میشود که خود نیز مدخل جداگانهای دارند. در این پروژه امکان درج معنای واژگان به زبانهای دیگر نیز وجود دارد و میتوان معادل دقیق هر واژه در زبانهای دیگر را نیز درج کرد. امکانات متعدد دیگری از جمله افزودن تصویر، افزودن آوای صوتی انسانی، و افزودن الفبای آوانگاری بینالمللی به واژگان نیزوجود دارد. یکی از کاربردیترین بخشهای این پروژه، متصل کردن واژگان به صفحهٔ ویکیدادهٔ متناظر آنهاست که کاربر میتواند علاوه بر درک معنای انتزاعی واژگان، به توضیحات گستردهتری نیز رجوع کند.
کاربرد
این پروژه قابلیتهای متعددی را در اختیار استفادهکنندگان قرار میدهد که مهمترین آنها به شرح زیر است:
ماشین ترجمه: برخلاف ماشینهای ترجمهٔ موجود که براساس مطابقت نظیر به نظیر کار میکنند، با استفاده از این پروژه میتوانیم ماشین ترجمهای ایجاد کنیم که دقیقاً قادر به خواندن و فهمیدن متن باشد زیرا در این پروژه همهٔ معنیهای واژگان به معادلهای آنها در زبانهای دیگر نیز اضافه خواهند شد.
نرمافزارهای نویسهخوانی برای نابینایان: به دلیل وجود تلفظ و نیز آوانگاری بینالمللی برای همهٔ واژگان، میتوان نرمافزارهایی تهیه کرد که برای نابینایان کاربرد دارند و به خواندن متن برای آنها کمک میکنند.
ابزارهای بررسی گرامر و املاء: با کمک دادههایی که در این پروژه تهیه میشود، میتوان ابزارهای کنترل گرامر و املاء ایجاد کرد تا غلطهای دستوری و املایی را تصحیح کند.
فلشکارت: در امر آموزش زبان، استفاده از فلشکارت میتواند بسیار موثر باشد و امروزه برای یادگیری زبانهای خارجی بسیاری از این امکان استفاده میشود و نرمافزارهای زیادی در این زمینه تولید شدهاند. دادههای این پروژه میتواند منبع مناسبی برای ایجاد فلشکارت باشد.
تمرین گرامر: از آنجایی که حالتهای دستوری واژگان مختلف در این پروژه درج میشوند، از دادههای موجود میتوان استفادهٔ بهینهای برای تمرین دستور زبان کرد و نرمافزارهایی طراحی نمود که زبانآموز بتواند اشتباهات گرامری خود را تصحیح کند.
تمرین تلفظ: از آنجایی که همهٔ واژگان دارای فایل صوتی تلفظ خواهند بود، زبان آموزان میتوانند تلفظ خود را با تلفظ شخصی گویشوران زبان مقصد تطابق دهند.
از آنجایی که این پروژه نوپا است و افراد زیادی در آن مشارکت ندارند، اجتماع کاربران این پروژه از هر نیروی تازه ای استقبال می کنند.اکنون فرصت دارید که از اولین مشارکتکنندگان این پروژه در کشورتان باشید. برای پرسیدن سوالاتتان میتوانید از گروه تلگرام به نشانی :زیر استفاده کنید
https://t.me/joinchat/ICn09hkymb2dwpFKwGo5uA
Can you help us translate this article?
In order for this article to reach as many people as possible we would like your help. Can you translate this article to get the message out?
Start translation