MinT: Unterstützung für unterversorgte Sprachen mit offener maschineller Übersetzung

Unsere Vision ist eine Welt, in der jeder einzelne Mensch frei an der Summe allen Wissens teilhaben kann. Die maschinelle Übersetzung hat das Potenzial, uns bei der Verwirklichung dieser Vision zu helfen, indem sie es mehr Menschen ermöglicht, Inhalte in ihrer Muttersprache oder ihrer bevorzugten Sprache zu Wikipedia beizutragen.

Content Translation, das Tool, mit dem die Autor/innen von Wikipedia mehr als anderthalb Millionen Artikel übersetzen, nutzt die maschinelle Übersetzung als Ausgangspunkt, wenn sie verfügbar ist, und stellt sicher, dass die Menschen im Spiel bleiben, indem sie ermutigt werden, die ursprüngliche Übersetzung zu verbessern und zu kontrollieren, wie stark sie bearbeitet wird. In diesem Fall hilft die Automatisierung den Autor/innen von Wikipedia, produktiver zu werden und gleichzeitig hochwertige Inhalte zu produzieren. Allerdings gibt es nicht für alle Sprachen qualitativ hochwertige maschinelle Übersetzungen, von denen Autor/innen profitieren können.

Wir führen MinT ein, um die derzeitige Unterstützung für maschinelle Übersetzungen zu erweitern. MinT (englisch “Machine in Translation”) ist ein neuer Übersetzungsdienst des Wikimedia Foundation Language Teams, der auf Open-Source-Modellen für neuronale maschinelle Übersetzung basiert und über 200 Sprachen unterstützt. Der Dienst wird in der Infrastruktur der Wikimedia Foundation gehostet und verwendet Übersetzungsmodelle, die von anderen Organisationen mit einer Open Source-Lizenz veröffentlicht wurden.

Das Video zeigt die Verwendung von MinT für die Übersetzung von Wikipedia-Artikeln auf dem Handy.
[Quelle des Videos]

MinT wurde entwickelt, um Übersetzungen aus mehreren maschinellen Übersetzungsmodellen bereitzustellen. Zunächst verwendet es die folgenden Modelle:

  • NLLB-200. Das neueste Modell aus dem No Language Left Behind Projekt eines Forschungsteams bei Meta. Dieses Modell unterstützt die Übersetzung von 200 Sprachen, darunter viele, die von anderen Anbietern nicht unterstützt werden. In Zusammenarbeit mit dem Forschungsteam von Meta wurde ein erster Pilotversuch zur Unterstützung einer kleinen Anzahl von Sprachen durchgeführt, und wir erhielten sehr positive Rückmeldungen zur Übersetzungsqualität dieses Modells. Nach und nach haben wir das NLLB-200-Modell für die Übersetzung von Wikipedia-Artikeln in mehr Sprachen aktiviert.
  • OPUS. Das Projekt OPUS (Open Parallel Corpus) der Universität Helsinki stellt mehrsprachige Inhalte unter einer freien Lizenz zusammen, um ein Übersetzungsmodell zu trainieren. Die Verfügbarkeit von sprachenübergreifenden Open-Source-Ressourcen mag für viele Sprachen begrenzt sein, aber die Integration mit Wikimedia Tools ermöglicht einen völlig offenen Verbesserungszyklus: übersetzte Wikipedia-Artikel werden als neue Ressourcen in das OPUS-Repository aufgenommen, um die Übersetzungsqualität für die nächste Version des Modells zu verbessern.
  • IndicTrans2. Das Projekt IndicTrans2 bietet Übersetzungsmodelle zur Unterstützung von über 20 indischen Sprachen. Diese Modelle wurden von AI4Bharat@IIT Madras entwickelt, einer Forschungsgruppe am Indian Institute of Technology Madras. Die Modelle wurden mit Unterstützung der Digital India Bhashini Mission, einer Initiative des indischen Ministeriums für Elektronik und Informationstechnologie (MeitY) zur Förderung der indischen Sprachen mit Hilfe neuester Technologien, und der Nilekani Philanthropies entwickelt.
  • Softcatalà. Softcatalà ist eine gemeinnützige Organisation, die sich zum Ziel gesetzt hat, die Verwendung der katalanischen Sprache in digitalen Produkten zu verbessern. Im Rahmen des Projekts Softcatalà Translation wurden Übersetzungsmodelle veröffentlicht, die in ihrem Übersetzungsdienst für die Übersetzung von 10 Sprachen ins und aus dem Katalanischen verwendet werden.

Die von MinT verwendeten Übersetzungsmodelle unterstützen über 200 Sprachen, darunter viele unterversorgte Sprachen, die zum ersten Mal maschinell übersetzt werden. So unterstützte die kürzliche Integration des NLLB-200-Modells in das Content Translation Tool zum ersten Mal die maschinelle Übersetzung von Fula, das von über 25 Millionen Menschen gesprochen wird.

Die Übersetzungsqualität von MinT hängt von den verfügbaren Daten für die unterstützten Sprachen ab. Daher kann sie bei Sprachen mit geringen Ressourcen anfangs niedrig sein. Die Integration mit unseren Tools ermöglicht jedoch einen völlig offenen Verbesserungszyklus: Übersetzte Wikipedia-Artikel werden als neue Ressourcen in das Opus-Repository aufgenommen, um die Übersetzungsqualität für die nächste Version des Modells zu verbessern. Das heißt, Autor/innen können der maschinellen Übersetzung helfen, besser zu werden, indem sie Wikipedia-Artikel übersetzen und die Fehler beheben, die sie macht. Es gibt auch andere Möglichkeiten, wie Sprach-Communities zum Opus Projekt oder zu anderen offenen Communities wie Tatoeba beitragen können, deren Inhalte ebenfalls in die Übersetzungsmodelle einfließen.

MinT ist in der Inhaltsübersetzung für 78 Sprachen verfügbar (44 davon mit MinT als einziger verfügbarer maschineller Übersetzungsoption), und wir planen, die Unterstützung für weitere Sprachen auszubauen. Du kannst MinT ausprobieren, wenn du einen Wikipedia-Artikel in diesen Sprachen übersetzen möchtest, egal ob auf dem Desktop oder auf dem Handy. Auf der Seite mit der Zusammenfassung des Projekts kannst du mehr über MinT erfahren und uns dein Feedback geben. Wenn du daran interessiert bist, dein eigenes Übersetzungssystem einzurichten, ist der Code für MinT ebenfalls verfügbar.

Warum ein weiterer Übersetzungsdienst?

Content Translation integriert bereits mehrere Übersetzungsdienste. Mit der Einführung des Tools Content Translation im Jahr 2014 konzentrierte sich das Tool auf Übersetzungen aus dem Spanischen ins Katalanische, sowohl aufgrund des Engagements dieser Autor/innen-Communities als auch aufgrund einer Integration mit dem Open-Source-System für maschinelle Übersetzung Apertium. Apertium unterstützt 43 Sprachen und funktioniert sehr gut bei eng verwandten Sprachen. Die Mitarbeit an dem Projekt, um die Unterstützung für eine Sprache zu erweitern, erfordert jedoch fortgeschrittene linguistische Kenntnisse, um die spezifischen Regeln einer Sprache zu kodieren.

Seitdem haben wir mit den Wikimedia-Communities und externen Partnern zusammengearbeitet, um die Übersetzungsmöglichkeiten für Autor/innen der Wikipedia zu erweitern und eine Reihe von maschinellen Übersetzungsdiensten in das Content Translation Tool einzubauen. Das Content Translation Tool macht diesen Raum möglich, indem es Open-Source-Systeme wie eine Apertium-Instanz neben offenen API-Clients von sonst geschlossenen Plattformen wie Google Translate integriert. Jedes dieser Modelle bietet einen einzigartigen Mehrwert für das Content Translation Tool – zusätzliche Sprachen, mehr Übersetzungsoptionen für bestehende Sprachen oder oft beides.

In diesem Zusammenhang können wir mit MinT zum ersten Mal einen offenen Übersetzungsdienst anbieten, der auf den neuesten Techniken des maschinellen Lernens basiert und eine breite Palette von Sprachen mit einem Qualitätsniveau abdeckt, das mit den proprietären Diensten vergleichbar ist. So kann insbesondere das Modell NLLB-200 über 200 Sprachen unterstützen, darunter Wikipedias in 44 Sprachen, für die keine maschinelle Übersetzung verfügbar war. Darüber hinaus unterstützt NLLB-200 auch 23 weitere Sprachen, für die es noch keine Wikipedia gibt. Das repräsentiert insgesamt 67 Sprachen ohne Unterstützung für maschinelle Übersetzung, die mit MinT zum ersten Mal automatische Übersetzungen erfahren können.

Darüber hinaus repräsentiert MinT eine Verbesserung der Übersetzungsqualität für mehrere andere Sprachen, die bereits von kommerziellen Diensten abgedeckt werden. Die Rückmeldungen von Isländisch– und Igbo-Sprecher/innen zeigten beispielsweise, dass sie NLLB-200 (damals noch unter dem Namen Flores bekannt) als qualitativ bessere Option für ihre Sprachen bevorzugen. Ein isländischer Wikipedianer schrieb:

Flores ist normalerweise besser als Google Translate für Isländisch

Igbo-Wikipedianer schrieben:

Flores ist besser und sollte als Standard eingestellt werden

und

Flores ist einfacher und am besten für Übersetzungen zu verwenden.

Nach einem anfänglichen Pilotprojekt haben wir die Unterstützung für weitere Sprachen ausgeweitet, wobei wir unterversorgten Sprachen, für die es keine anderen Übersetzungsmöglichkeiten gibt, Priorität einräumen. Der Input aus den Wikimedia-Communities war äußerst nützlich. Autor/innen aus verschiedenen Wikipedia Communities wie Kashmiri, Santali oder Tumbuka haben ihr Interesse an den neuen maschinellen Übersetzungsfunktionen bekundet. Gleichzeitig zogen es die Autor/innen der kantonesischen Wikipedia vor, keinen Zugang zu den Übersetzungen mit dem NLLB-200-Modell zu haben, da der Datensatz, der zum Trainieren des Modells verwendet wurde, auf einer Variante der Sprache basierte, die für die kantonesische Wikipedia nicht nützlich war.

MinT wird am Desktop verwendet, um einen Wikipedia-Artikel nach Luganda zu übersetzen. Die meisten (bisher 82 %) der Luganda-Übersetzer/innen haben MinT als Ausgangspunkt verwendet, anstatt bei Null anzufangen oder andere Dienste zu nutzen.
[Quelle des Bildes]

Eine lange Reise

Die Entwicklung von MinT war eine lange Reise, die sich über vier Jahre hinzog. Dieser Prozess begann mit den ersten Erkundungen der OPU-Modelle im Jahr 2019 und schließt das nächste Chapter im Jahr 2023 mit der Veröffentlichung von MinT ab.

Im Januar 2019 haben wir uns mit dem OpusMT Projekt für die Integration von Content Translation verbunden. Das Language-Team hat mit dem Projekt zusammengearbeitet und zur Codebasis beigetragen, um die Automatisierung der Bereitstellung und die API-Endpunkte zu unterstützen. Auf der Grundlage dieser Zusammenarbeit verfasste das Language-Team gemeinsam mit dem Opus-MT-Team einen Aufsatz.

Eine Testinstanz wurde aktiviert und in die Inhaltsübersetzung mit Unterstützung für Assamese, Central Bikol und Tsonga integriert. Das volle Potenzial des Projekts konnte jedoch nicht ausgeschöpft werden, da die Leistung schnell zu einem Hindernis wurde.

Neuronale maschinelle Übersetzungsmodelle, die auf Ansätzen des maschinellen Lernens basieren, haben hohe Leistungsanforderungen. Um sie mit einer halbwegs akzeptablen Leistung auszuführen, ist eine Hardware-Beschleunigung durch Grafikprozessoren (GPUs) erforderlich. GPUs wurden ursprünglich zur Beschleunigung von 3D-Grafikberechnungen eingesetzt, sind aber auch für andere datenintensive Bereiche wie das maschinelle Lernen sehr nützlich.

Der Bedarf an Grafikprozessoren wurde beim Betrieb von Modellen wie NLLB-200 und OPUS zum Problem, da die für diese Modelle erforderliche GPU-Architektur auf proprietäre Treiber angewiesen war, was für die Betreuer der Wikimedia-Infrastruktur nicht akzeptabel war.

Im Jahr 2021, bevor das No Language Left Behind (NLLB)-Projekt und sein Übersetzungsmodell NLLB-200 im Jahr 2022 öffentlich bekannt gegeben wurden, nahm das im Projekt arbeitende Forschungsteam Kontakt mit dem Language-Team der Wikimedia Foundation auf.

Der Fokus ihres Projekts, ein Open-Source-Modell zur Unterstützung unterversorgter Sprachen bereitzustellen, war für das Language-Team der Wikimedia Foundation sehr relevant. Aufgrund des vorangegangenen erfolglosen Versuchs, OPUS-Modelle zu integrieren, waren wir uns jedoch über die Einschränkungen im Klaren, die wir hatten, um diese Art von Modellen in der Infrastruktur der Wikimedia Foundation zu betreiben.

Das Forschungsteam bei Meta erklärte sich bereit, den Dienst zur Integration in Content Translation ein Jahr lang als externen Dienst zu betreiben. Auf diese Weise konnten wir evaluieren, wie das Modell für eine Reihe von Pilot-Wikis funktioniert. Zunächst für 6 Sprachen (Igbo, Isländisch, Luganda, Okzitanisch, Chinesisch und Zulu).

Nach der anfänglichen Integration in Content Translation wurden 17 weitere Sprachen in Content Translation mit NLLB-200 unterstützt, so dass insgesamt 23 Sprachen zur Verfügung standen. Die Nutzungsdaten der verschiedenen Übersetzungsdienste wurden für den Anfangszeitraum und nach der Hinzufügung der neuen Sprachen analysiert. Die Berichte zeigten sehr vielversprechende Daten. NLLB-200 war der Übersetzungsdienst, der weniger Bearbeitungen durch die Übersetzer/innen erforderte und dazu führte, dass weniger Artikel gelöscht wurden:

Über alle Sprachen hinweg hat NLLB-200 derzeit den niedrigsten Prozentsatz an Artikeln, die mit Content Translation erstellt wurden und gelöscht werden (0,13%), im Vergleich zu allen anderen verfügbaren MÜ-Diensten, während der höchste Prozentsatz an geänderten Übersetzungen unter 10% liegt, was darauf hindeutet, dass die Änderungsraten für diesen maschinellen Übersetzungsdienst ein Signal für eine gute maschinelle Übersetzungsqualität sind.

Mit der jüngsten Entwicklung von OpenNMTs Ctranslate2 Bibliothek wurde dieses Hindernis beseitigt. Ctranslate2 ist eine Bibliothek zur Optimierung von maschinellen Lernmodellen für eine bessere Leistung. Diese Leistungsverbesserungen machen es möglich, dass die Modelle auf Servern ohne GPU-Beschleunigung laufen und eine akzeptable Leistung erbringen. Dieser Prozess erfordert eine einmalige Konvertierung der Modelle, um eine optimierte Version zu erhalten. MinT verwendet die optimierte Version der Übersetzungsmodelle NLLB-200, OPUS, IndicTrans2 und Softcatalà unter Verwendung von Ctranslate2, um den Bedarf an GPU-Beschleunigung zu vermeiden. Durch die Verwendung der optimierten Modelle nur mit CPUs haben wir eine ähnliche Übersetzungsleistung wie mit GPUs erreicht.

Nächste Schritte

Der anfängliche Schwerpunkt lag darauf, MinT in Content Translation für Sprachen zu ermöglichen, die bisher keine Unterstützung für maschinelle Übersetzung hatten. Auf diese Weise können Autor/innen der Wikipedia in diesen Communities zum ersten Mal von der maschinellen Übersetzung profitieren.

MinT kann in vielen Kontexten hilfreich sein, und wir planen, die Unterstützung für maschinelle Übersetzung auf verschiedene Arten weiter auszubauen:

  • Mehr Sprachen. Ermöglichen von mehr Sprachen, die von den aktuellen Modellen unterstützt werden. Auch die Sprachen, die von anderen Übersetzungsdiensten abgedeckt werden, können von einem Dienst wie MinT profitieren. Das Feedback der Communities wird uns dabei helfen, zu entscheiden, welche Optionen standardmäßig zur Verfügung stehen sollen.
  • Mehr Projekte. Ein offener maschineller Übersetzungsdienst wie MinT zu haben, ermöglicht die Integration und Nutzung von maschineller Übersetzung in einer Diversität von Projekten, die über Content Translation hinausgeht. Maschinelle Übersetzung kann ein nützlicher Dienst für viele andere Projekte der Wikimedia-Communities und für das Internet im Allgemeinen sein.
  • Mehr Modelle. MinT wurde entwickelt, um mehrere Übersetzungsmodelle zu unterstützen, und wir denken, dass es eine interessante Plattform für Organisationen sein wird, die im Bereich des maschinellen Lernens arbeiten, um ihre offenen Modelle zur Unterstützung von Sprach-Communities in einem realen Kontext anzuwenden.

Das Content Translation Tool ist ein Beispiel dafür, wie ein offenes Modell Einzelpersonen und Organisationen in die Lage versetzen kann, sprach- und technologieübergreifend zusammenzuarbeiten, um etwas zu schaffen, von dem alle profitieren und das gleichzeitig mit den Wikimedia-Standards für Technologie und Design übereinstimmt.

Wir werden diese Tools weiter ausbauen und stärken und freuen uns darauf, dies in Zusammenarbeit mit der globalen Community der Autor/innen und Organisationen zu tun.