Offene Sprachidentifikations-API für mehr als 200 Sprachen

Die Spracherkennung (englisch: language identification, LID) spielt eine zentrale Rolle in vielen Systemen zur Verarbeitung natürlicher Sprache (englisch: natural language processing, NLP). Man denke nur an die Benutzeroberflächen, mit denen wir täglich zu tun haben. Normalerweise gibt es eine Option, mit der Benutzer/innen die Sprache des Inhalts angeben können. Aber stell dir vor, diese manuelle Auswahl würde umgangen und das System könnte die Sprache selbständig vorhersagen! Dieser Fortschritt würde das Erlebnis für die Benutzer/innen sicherlich verbessern.

Man denke zum Beispiel an die Notwendigkeit, übersetzte Nachrichten auf Plattformen wie Wikipedia Diskussionsseiten anzuzeigen. Wenn Benutzer/innen Übersetzungen erhalten, ohne die Ausgangssprache bestimmen zu müssen, vereinfacht dies ihre Interaktion mit der Plattform. Ein anderes Beispiel ist ein maschinelles Übersetzungssystem, bei dem Benutzer/in den Ausgangstext eingibt und die Zielsprache auswählt. Das System wählt die Ausgangssprache automatisch anhand der Sprachidentifikation aus.

Es gibt zwar zahlreiche LID Tools, aber keines davon kann sich rühmen, alle 300+ Sprachen zu erkennen, in denen Wikipedia verfügbar ist. Zum Vergleich: Die Bibliothek Compact Language Detector 2 kann 83 Sprachen identifizieren, während das LID-Modell von FastText bis zu 176 Sprachen erkennen kann. Ein großes Problem ist, dass viele dieser Modelle ihre Trainingsdaten nicht veröffentlichen.

Hier setzt das Projekt Ein offener Datensatz und ein Modell zur Sprachidentifizierung” an, das von Forscher/innen der Universität Edinburgh geleitet wird. Ihre Bemühungen haben zu einem Datensatz und einem Modell geführt, das eine beeindruckende Anzahl von 201 Sprachen erkennen kann. Damit ist es möglicherweise das geschickteste und leistungsfähigste LID-System, das es gibt.

Angesichts dieser Entwicklung führt das Sprachenteam in Zusammenarbeit mit dem Team für maschinelles Lernen eine neue API ein, mit der die Sprache eines beliebigen Textes vorhergesagt werden kann. Diese wird im LiftWing-System gehostet – einer skalierbaren Infrastruktur für maschinelles Lernen von Wikimedia.

Verwendung der API

Bitte beachte die API-Dokumentation im Wikimedia API Portal

Ein Beispiel mit Curl:


$ curl https://api.wikimedia.org/service/lw/inference/v1/models/langid:predict -X POST -d '{"text": "Some sample text in any language that we want to identify"}' -H "Content-type: application/json"

Informationen über die mögliche Nutzung, ethische Überlegungen, Vorbehalte und Empfehlungen findest du in der Modellkarte.

Danke

Wir danken Laurie Burchell und Alexandra Birch sowie Nikolay Bogoychev und Kenneth Heafield von der University of Edinburgh für ihre Forschungen und das Modell, das diese API ermöglicht hat.