Was sind lexikografische Daten?

Gruppenfoto der Konferenz “Wikidata Trainings für turksprachige Wikimedianer/innen”, Istanbul 2022

Ende November 2022 fand an der Üsküdar-Universität in Istanbul die Konferenz “Wikidata Training für turksprachige Wikimedianer/innen” statt, die von der Wikimedia UG Türkei & Turkic Languages UG organisiert wurde. Das Hauptziel dieses Workshops war die Verbesserung von Wikimediaprojekten, mit besonderem Schwerpunkt auf Wikidata, und die Erweiterung der Kompetenzen der Teilnehmenden, die überwiegend aus turksprachigen Regionen stammten. Am zweiten Tag der Konferenz stellte Asaf Bartov ein bisher unbekanntes Thema vor: Lexikografische Daten, oder einfach Lexeme.

Wikidata wurde 2012 gegründet und konzentrierte sich zunächst auf konzeptionelle Elemente, wobei Q-Items mit Ideen und nicht mit den Wörtern, die sie repräsentieren, verbunden wurden. Seit 2018 wurde eine neue Kategorie von Daten in Wikidata aufgenommen, die Wörter, Phrasen und Sätze in zahlreichen Sprachen umfasst, die jeweils sorgfältig in den entsprechenden Sprachen beschrieben werden. Dieses sprachliche Wissen ist in einzigartigen Einheiten untergebracht, die als Lexeme (L), Formen (F) und Bedeutungen (S) bezeichnet werden.

Die präzise Darstellung der Wörter steht in direktem Zusammenhang mit den zugrundeliegenden Konzepten und gibt Autor/innen die Möglichkeit, alle Wörter in verschiedenen Sprachen genau zu beschreiben. Diese strukturierten Daten sind, ähnlich wie das gesamte Repository von Wikidata, wiederverwendbar und dienen der Community als wertvolle Ressource für diverse Tools und Abfragen. Vor allem lexikografische Daten können Wiktionary sehr unterstützen.

A logo for lexicographical data in Wikidata CC0 1.0 Universal Public Domain Dedication.
Das Logo des Projekts

Im Rahmen dieser Initiative werden Homonyme (z. B. live /lɪv/ und live /laɪv/) und Homographen (z. B. close, d. h. nah, oder close, d. h. geschlossen) miteinander verknüpft. Außerdem werden Wörter mit mehreren grammatikalischen Rollen identifiziert. Ein wesentlicher Aspekt dieses Vorhabens ist die Bereitstellung praktischer Beispiele, die die morphologischen und semantischen Variationen der verschiedenen Wörter zeigen und jeweils von einem anschaulichen Anwendungsfall begleitet werden. Im Rahmen des Projekts werden Wörter und ihre Bedeutungen sorgfältig markiert, was unschätzbare Informationen über Wortregister und Formate liefert. So wird zum Beispiel “Mann” typischerweise in offiziellen und akademischen Texten verwendet, während “Kerl” umgangssprachlich ist.

In den Wikidata-Lexemen kann man die Wortwurzeln selbst in zusammengesetzten Wörtern aufspüren, wobei die einzelnen Bestandteile separate Einträge haben. Dieses Projekt ermöglicht auch die Aufnahme von Wortbedeutungen in verschiedenen Sprachen und die genauen Entsprechungen in diesen Sprachen. Außerdem bietet es zahlreiche Möglichkeiten, wie z. B. das Hinzufügen von Bildern, menschlichen Sprachaufnahmen und dem Internationalen Phonetischen Alphabet (IPA) für den Wortschatz. Ein besonders vorteilhafter Aspekt ist die Verknüpfung der Wörter mit den entsprechenden Wikidata-Seiten, auf denen die Benutzer/innen über die abstrakten Bedeutungen der Wörter hinaus ausführliche Erklärungen abrufen können.

Anwendung:

Dieses Vorhaben bietet den Benutzer/innen eine Fülle von Möglichkeiten, von denen ich die wichtigsten erläutern möchte:

  • Übersetzungsmaschine: Im Gegensatz zu bestehenden Übersetzungssystemen, die auf Peer-to-Peer-Matching beruhen, ermöglicht dieses Projekt die Entwicklung von Übersetzungsmaschinen, die in der Lage sind, Texte umfassend zu lesen und zu verstehen. Dies wird durch die Einbeziehung der Bedeutungen von Wörtern in verschiedenen Sprachen ermöglicht.
  • Text-zu-Sprache: Dank der Aussprache und des IPA für alle Wörter ist es möglich, Software zu entwickeln, die sehbehinderten Menschen beim Lesen von Texten hilft.
  • Tools für die Grammatik- und Rechtschreibprüfung: Mithilfe der in diesem Projekt gewonnenen Daten können Tools zur Grammatik- und Rechtschreibprüfung entwickelt werden, um sprachliche Fehler zu korrigieren.
  • Flashcards: Im Bereich des Sprachunterrichts sind Flashcards sehr effektiv, und moderne Lernende nutzen sie häufig, um neue Sprachen zu lernen. Die in diesem Projekt gewonnenen Daten sind eine wertvolle Ressource für die Erstellung von Flashcards.
  • Grammatik üben: Da in diesem Projekt die grammatikalischen Eigenschaften diverser Wörter erfasst werden, können die verfügbaren Daten optimal für Grammatikübungen genutzt werden. Es kann eine Software entwickelt werden, die den Lernenden hilft, ihre grammatikalischen Ungenauigkeiten zu korrigieren.
  • Aussprachetraining: Da jedes Wort mit einer Aussprache-Audiodatei versehen ist, können die Lernenden ihre Aussprache mit der von Muttersprachlern vergleichen.

Jetzt hast du die Möglichkeit, der erste Beitragende für dieses bahnbrechende Projekt in deinem Land zu werden. Da das Projekt neu ist und bisher nur wenige Teilnehmer/innen mitmachen, ist die Benutzer/in-Community offen für Neulinge und hilft ihnen gerne. Wenn du Fragen hast, wende dich bitte an die Telegram-Gruppe unter der folgenden Adresse: Telegram-Gruppen-Link.
https://t.me/joinchat/ICn09hkymb2dwpFKwGo5uA