Facebook veröffentlicht viele zu viele mehrsprachige Übersetzer als Open Source
2 min readFacebook veröffentlicht eine Übersetzungsfunktion, die als “MMT-Modell” (Multi-to-Many Multilingual Machine Translation) bezeichnet wird. Während die meisten Übersetzer englische Daten als Zwischenstopp verwenden, führt der M2M-100 diesen Schritt nicht aus. Es wird also direkt vom Chinesischen ins Französische übersetzt.
Laut Facebook sind die meisten Trainingsdaten auf Englisch verfügbar, weshalb frühere Modelle vom Chinesischen ins Englische und von dort in eine andere Sprache übersetzt werden. Dies führt zu einer zusätzlichen Fehlerquelle. Das neue Modell kann 100 Sprachen verarbeiten – in alle Richtungen. Dies ist besonders wichtig für das soziale Netzwerk, da Newsfeeds automatisch in die vom Benutzer festgelegte Sprache konvertiert werden. Zwei Drittel der Kontoinhaber sprechen kein Englisch.
Milliarden von Daten für 100 Sprachen
Auf der maschinell übersetzten Textbewertungsskala erzielte BLEU, M2M-100 laut einem Facebook-Blogbeitrag sowie einfache zweisprachige Modelle und noch besser als die englischzentrierten Modelle. Hierfür wurden 7,5 Milliarden Sätze in den 100 Sprachen verwendet, 15 Milliarden Parameter werden verwendet. Die Datenmenge, die einfließen muss, um direkte Übersetzungskanäle zu ermöglichen, war eine der größten Schwierigkeiten. Die erforderlichen Trainingsdaten wuchsen auf das Quadrat: “Wenn wir zehn Millionen Satzpaare in jede Richtung benötigen, brauchen wir eine Milliarde Satzpaare für 10 Sprachen und 100 Milliarden für 100 Sprachen.” Die Daten stammen aus den vorhandenen Sammlungen ccAligned, ccMatrix und Laser, aus denen Facebook im Rahmen seiner Arbeit Laser 2.0 erstellt.
Der Code ist auf Github verfügbar. Facebook erklärt – für das Unternehmen – ungewöhnlich viel über die Entwicklungsverfahren.
Die 100 Sprachen wurden basierend auf der Verwendung ausgewählt, dh. Leute, die sie sprechen, Verfügbarkeit von Daten und Kombinationen. “Statistisch gesehen haben wir seltene Übersetzungen vermieden, zum Beispiel von Isländisch nach Nepali.”
(emw)
“Zertifizierter Schriftsteller. Totaler Problemlöser. Alkoholiker. Entdecker. Wütend bescheidener Student. Wannabe-Unternehmer. Twitter-Liebhaber.”