Sprache und Internationalisierung/Newsletters/2

Willkommen zur Ausgabe Januar 2024 des Newsletters Sprache und Internationalisierung des Sprachenteams der Wikimedia Foundation!

In diesem Newsletter findest du vierteljährliche Updates zu neuen Entwicklungen von Features, Verbesserungen in verschiedenen sprachbezogenen technischen Projekten und Unterstützungsarbeiten, Community-Versammlungen und Ideen, wie du zu den Projekten beitragen kannst.

Abonniere den Newsletter

Die wichtigsten Highlights

Fon Wikipedia ist nach fünf Jahren Entwicklung im Wikimedia-Inkubator offiziell gestartet

Fon Wikipedia, das beim Wikimedia Hackathon 2018 in Barcelona entstanden ist, ist nach dem Abschluss des Inkubators offiziell gestartet! Fon wird von Millionen Menschen in Benin und Togo gesprochen und ist für viele die Muttersprache. In Benin ist Fon auch als Nationalsprache weit verbreitet. Es hat fünf Jahre gedauert, diese neue Fon-Wikipedia zu erstellen. Da viele Menschen nicht in Fon schreiben können und die Muttersprachen in Afrika weniger Beachtung finden als andere, war es für die Community-Mitglieder, die das Projekt ins Leben gerufen haben, eine große Herausforderung, eine Community zur Unterstützung aufzubauen. Erfahre außerdem mehr über die vier neuen Wikimediaprojekte, die kürzlich genehmigt wurden (Wikipedia Dagaare, Wikipedia Moroccan Amazigh, Wikipedia Toba Batak und Wikiquote Banjar).

Mahuton, ein beninischer Wikimedianer über den Bau einer Tastatur zum einfachen Bearbeiten von Artikeln in Fon beim Wikimedia Hackathon 2018, Barcelona. Foto: Tbayer (WMF), Lizenz: CC BY SA 4.0.

Einführung von Sentencex, einem Tool für verbesserte natürliche Sprachverarbeitung (Natural Language Processing, NLP) und mehrsprachige Satzextraktion

Das Sprachteam hat gerade ein neues Tool namens Sentencex vorgestellt, das jetzt sowohl in Python als auch in Javascript verfügbar ist. Bei der Satzsegmentierung, einem wichtigen Teil der natürlichen Sprachverarbeitung, wird ein Text in einzelne Sätze zerlegt. Dieser Prozess wird auf vielfältige Weise eingesetzt und trägt dazu bei, die Funktionalität und Geschwindigkeit der Sprache zu verbessern, insbesondere im neuen maschinellen Übersetzungssystem von Wikimedia (Machine in Translation, MinT) und im Projekt zur Übersetzung von Abschnitten.

Du kannst das Tool auf GitHub finden und es in Aktion sehen.

MinT-Übersetzungsdienst für 55 neue Wikipedias verfügbar, verdoppelt den Inhalt und steht an zweiter Stelle bei der Nutzung

Der neue maschinelle Übersetzungsdienst MinT, der nun zum ersten Mal 55 Wikipedias mit maschineller Übersetzung versorgt, hat einen positiven Einfluss auf die Wikimedia-Communities gehabt. Durch diese umfassende sprachliche Unterstützung haben sich die veröffentlichten Übersetzungen fast verdoppelt, und die mit MinT erstellten Artikel haben eine niedrige Löschquote (1,72%). MinT wird nun in 8% der mit Content Translation veröffentlichten Übersetzungen verwendet und ist damit in nur wenigen Monaten zum zweithäufigsten Übersetzungsdienst in der Wikipedia geworden, nach Google Translate.

Grafische Darstellung der von MinT erstmals unterstützten Sprachen. CC BY SA 4.0.

Offener Spracherkennungsdienst jetzt für über 200 Sprachen verfügbar

Das Sprachenteam hat einen offenen Spracherkennungsdienst eingerichtet, der automatisch die Sprache erkennt, in der ein bestimmter Text geschrieben ist, um die Interaktion der Benutzer/innen mit den Wikimedia Plattformen zu vereinfachen. Der Dienst unterstützt die Erkennung von 201 Sprachen, und jeder kann auf die API zugreifen, um den Dienst zu nutzen. Gegenwärtig laufen die abschließenden Prüfungen des Dienstes und die Evaluation seiner Belastbarkeit.

Im Jahr 2012 übernahmen fundamentalistische Islamisten die Stadt Timbuktu in Mali. Aus Angst um die Sicherheit hunderttausender alter Manuskripte, von denen einige aus dem 11. Jahrhundert stammen, schmuggelte eine Gruppe von Bibliothekaren und Denkmalpflegern zwischen 200.000 und 400.000 Manuskripte aus Timbuktu in die malische Hauptstadt Bamako.

 Seitdem hat die Nichtregierungsorganisation SAVAMA-DCI (Sauvegarde et Valorisation des Manuscripts pour la defense de la Culture Islamiqu; deutsch: Verein zum Schutz und zur Förderung von Manuskripten und zur Verteidigung der islamischen Kultur) Hunderttausende von Manuskripten gereinigt, geschützt, restauriert, digitalisiert und schließlich übersetzt.

 Dieses Foto zeigt einen Arbeiter, der eine der alten Handschriften vorsichtig von Staub und anderen Verunreinigungen befreit.

 Weitere Informationen über die Gruppe und ihre Arbeit findest du in meinem Bericht unter https://fischerfotos.exposure.co/preserving-malis-historic-manuscripts

Wikisource erkennt jetzt handschriftliche Texte mit Transkribus

Die OCR-Engine von Transkribus erkennt jetzt auch handschriftliche Texte auf Wikisource. Transkribus, eine KI-gestützte Plattform, vereinfacht den Umgang mit handgeschriebenen oder gedruckten Manuskripten, indem sie verschiedene Modelle anbietet, die auf unterschiedliche Schreibschriften, historische Epochen und andere Faktoren zugeschnitten sind. Die Transkribus-Engine ist jetzt als Option neben Google und Tesseract verfügbar und wird derzeit für die auf dieser Seite aufgeführten Wikisources eingesetzt.

Vereinheitlichtes Dashboard für die Übersetzung von Abschnitten für Benutzer/innen auf dem Desktop und auf dem Handy

Das Sprachenteam arbeitet aktiv an der Einführung eines einheitlichen Dashboards für die Übersetzung von Abschnitten für Benutzer/innen auf dem Desktop und auf dem Handy. Ursprünglich wurde das Dashboard in Content Translation für Mobilgeräte entwickelt. Jetzt wird es als einheitliches Dashboard für verschiedene Plattformen weiterentwickelt und bietet eine verbesserte Übersetzungsumgebung. Derzeit befindet es sich in der Beta-Phase. Du kannst es im Wikipedia-Testwiki oder in jedem anderen Wiki mit Abschnittsübersetzung mit dem URL-Parameter “unified-dashboard=true” testen (z. B. https://ig.wikipedia.org/wiki/Special:ContentTranslation?unified-dashboard=true).

Dieses vereinheitlichte Dashboard bietet ein nahtloses, plattformübergreifendes Übersetzungserlebnis. Benutzer/innen können die Übersetzung auf ihrem Desktop beginnen und auf einem mobilen Gerät fortsetzen oder umgekehrt. Es unterstützt auch die Übersetzung von Abschnitten auf dem Desktop, so dass Benutzer/innen geräteübergreifend flexibel sind.

Community-Versammlungen und Veranstaltungen

Mach mit

Bleib dran für die nächste Version! Du kannst dich für diesen Newsletter anmelden.

No comments

Comments are closed automatically after 21 days.