ويكي البيانات والذكاء الاصطناعي: الوصول المبسط إلى البيانات المفتوحة للمشاريع مفتوحة المصدر

Translate this post

ويكيميديا ألمانيا، بالتعاون مع داتا ستاكس وجينا أيه آي، بدأت مشروعًا لتبسيط الوصول إلى البيانات المفتوحة في ويكي داتا لتطبيقات الذكاء الاصطناعي، مما يسمح ليس فقط عمالقة التكنولوجيا ولكن أيضًا المبادرات مفتوحة المصدر باستخدام هذه البيانات. ويهدف المشروع في المقام الأول إلى تشجيع تطوير تطبيقات الذكاء الاصطناعي لصالح الجمهور باستخدام بيانات مفتوحة وعالية الجودة كأساس.

تصميم مرئي أنشأه استوديو MOR لصالح مؤسسة ويكيميديا ألمانيا، برخصة المشاع الإبداعي نسب المصنف – الترخيص بالمثل 4.0 CC BY-SA 4.0

يؤدي الاعتماد المتزايد على تطبيقات الذكاء الاصطناعي للحصول على المعلومات، من بين أمور أخرى، إلى زيادة أهمية تدريبها باستخدام بيانات عالية الجودة. في الوقت نفسه، تهيمن الشركات الكبرى على تطوير ChatGPT وما شابه ذلك نظرًا لإمكاناتها المالية. أطلقت ويكيميديا ​​ألمانيا مشروعًا جديدًا لدعم تطوير مشاريع الذكاء الاصطناعي غير الربحية والمساهمة في نظام معلومات موثوق. يهدف إلى تسهيل استخدام البيانات المفتوحة من ويكيداتا.

بصفتها رسم بياني مفتوح للمعرفة يحتوي على أكثر من 112 مليون إدخال يمكن قراءتها بواسطة الآلة والإنسان، تمثل ويكيداتا مصدرًا مركزيًا للبيانات المفتوحة عالية الجودة. تستفيد جميع مشاريع ويكيميديا ، بما في ذلك ويكيبيديا، من هذه البيانات لتحديث المعلومات تلقائيًا مثل أرقام السكان أو تواريخ الميلاد. مدعومة بأكثر من 12000 متطوع، تقدم ويكيداتا قاعدة بيانات شاملة وموثقة. على الرغم من أن البيانات متاحة للمطورين في مشاريع المصدر المفتوح ، إلا أنهم غالبًا ما يفتقرون إلى الموارد لاستخدامها في تدريب الذكاء الاصطناعي، وهو خيار عادة ما يكون متاحًا فقط لشركات التكنولوجيا الكبيرة.

البيانات المتجهة للتعلم الآلي

يهدف المشروع الجديد إلى منح المشاريع الصغيرة مفتوحة المصدر على وجه الخصوص الفرصة لاستخدام البيانات من ويكيداتا. تعاونت ويكيميديا ألمانيا مع DataStax وJina AI لمعالجة بيانات ويكيداتا بطريقة يمكن للمشاريع الأصغر التي لا تملك الموارد المالية والبشرية للشركات الكبيرة استخدامها أيضًا.

يقع في قلب المشروع الجديد تحويل بيانات ويكيداتا إلى ناقلات معنوية – وهي خطوة تستغرق وقتًا طويلاً ولكنها ضرورية ولا يمكن للمطورين مفتوح المصدر إدارتها بمفردهم. لتحقيق هذه الغاية، توفر DataStax قاعدة بيانات ناقلية قوية، بينما تساهم Jina AI في نموذج مفتوح المصدر لنقل البيانات النصية إلى ناقلات.

يتيح هذا التحويل للبيانات إلى ناقلات للمطورين تشغيل استعلامات البحث الدلالي بشكل أكثر كفاءة وتكامل بيانات ويكيداتا في نماذج الذكاء الاصطناعي الخاصة بهم. وهذا يتيح ليس فقط بحثًا أسرع وأكثر دقة، بل يسهل أيضًا عملية تضمين ويكيداتا في تطبيقات RAG (الجيل المعزز بالاسترجاع). تقلل هذه التطبيقات من أخطاء الذكاء الاصطناعي من خلال استكمال نتائجها بوقائع محدثة وموثقة.

ومن الأهداف الأخرى للمشروع اكتشاف التخريب على ويكيداتا بسهولة أكبر. نظرًا لأن الذكاء الاصطناعي التوليدي لديه القدرة على إنشاء المحتوى على نطاق واسع، فإنه يلائم أيضًا نشر المعلومات المضللة. تسمح ناقل البيانات بتحديد التغييرات المحتملة الضارة في إدخالات ويكيداتا وتصحيحها.

الذكاء الاصطناعي وقيم ويكيميديا ألمانيا

بهذا العمل، تؤكد ويكيميديا إيمانها بقيم الشفافية والوصول الحر إلى المعلومات في شكل بيانات مفتوحة. خاصة في سياق الذكاء الاصطناعي التوليدي، الذي غالبًا ما ينتج محتوى غير دقيق أو موثوق دائمًا، فإن توفير البيانات المصادقة هو إجراء مهم لتحسين جودة المحتوى الذي ينشئه الذكاء الاصطناعي.

يشرح الدكتور جوناثان فرين، رئيس تطوير البرمجيات في ويكيميديا ألمانيا، قائلاً: “كثير من المطورين يتشاركون قيمنا، لكن الوصول إلى بيانات ويكيداتا يمثل تحدياً لهم. يجب علينا تبسيط هذه العملية حتى نجعل هذه الكميات الهائلة من البيانات قابلة للاستخدام في أحدث تطبيقات الذكاء الاصطناعي”. وتضيف ليديا بينتشر، رئيسة المشاريع في ويكيداتا: “من خلال توفير بيانات مفتوحة عالية الجودة، ندعم المجتمعات في تطوير أفكار مبتكرة تعود بالنفع على البشرية بدلاً من خدمة الأغراض التجارية”.

ويكي داتا كأساس لمستقبل رقمي أكثر إنصافًا

تكمن أهمية هذا المشروع في ترسيخ بيانات ويكيداتا كمصدر موثوق للأنظمة الذكية. في عصر يكتسح فيه المحتوى الذي تولده الأنظمة الذكية الإنترنت، تزداد المخاطر التي يمثلها انتشار المعلومات غير المؤكدة وغالباً غير الصحيحة. وتقدم ويكيداتا بديلاً مستقراً. إذ تحتوي الشبكة المعرفية على كم هائل من البيانات، والمعلومات الموجودة فيها متاحة بحرية تحت رخصة مفتوحة، وتخضع باستمرار للتحقق والتوسع من قبل مجتمع نشط.

من خلال التعاون مع DataStax وJina AI، تقوم ويكيميديا ألمانيا بإنشاء بنية تحتية تقنية تجعل مستودع المعرفة المفتوحة، وهو ويكيداتا، قابلاً للاستخدام من قبل فرق التطوير الأصغر أيضًا. على المدى الطويل، يمكن أن يسمح ذلك لمشاريع الذكاء الاصطناعي مفتوحة المصدر بمنافسة عمالقة التكنولوجيا المهيمنة بشكل أفضل. في الوقت نفسه، سيصبح الوصول إلى البيانات الموثوقة أسهل للجميع، مما يدعم الديمقراطية في الوصول إلى المعرفة في العالم الرقمي.

مستقبل الذكاء الاصطناعي في ويكيميديا ​​ألمانيا

بدأت ويكيميديا ألمانيا في ديسمبر 2023 بتنفيذ خطة البحث الدلالي هذه. ومن المخطط إجراء اختبارات بيتا الأولية لنماذج أولية في عام 2025. يعد هذا المشروع فرصة كبيرة لتحسين النظام البيئي للمعلومات باستخدام الذكاء الاصطناعي وفي نفس الوقت حماية القيم الأساسية للانفتاح والشفافية.

تعد هذه الخطوة مهمة ضمن مهمة ويكيميديا ألمانيا في جعل المعرفة الحرة متاحة للجميع. بمساعدة التعلم الآلي والبحث الدلالي، سيتم تبسيط الوصول إلى البيانات القيمة في ويكيداتا، مما قد يساهم في تطوير ليس فقط مجتمع المطورين، بل المجتمع ككل.

عرض المشروع في باريس

قدم جوناثان فراين (رئيس تطوير البرمجيات في ويكيميديا ألمانيا) وليديا بينتشير (مديرة محفظة ويكيداتا) المشروع في مؤتمر “AI_dev: Open Source GenAI & ML Summit Europe 2024”. العرض التقديمي متوفر على يوتيوب:

Can you help us translate this article?

In order for this article to reach as many people as possible we would like your help. Can you translate this article to get the message out?