November 15, 2024

Buzznice.com

Komplette Nachrichtenwelt

Facebook veröffentlicht viele zu viele mehrsprachige Übersetzer als Open Source

2 min read

Facebook veröffentlicht eine Übersetzungsfunktion, die als “MMT-Modell” (Multi-to-Many Multilingual Machine Translation) bezeichnet wird. Während die meisten Übersetzer englische Daten als Zwischenstopp verwenden, führt der M2M-100 diesen Schritt nicht aus. Es wird also direkt vom Chinesischen ins Französische übersetzt.

Laut Facebook sind die meisten Trainingsdaten auf Englisch verfügbar, weshalb frühere Modelle vom Chinesischen ins Englische und von dort in eine andere Sprache übersetzt werden. Dies führt zu einer zusätzlichen Fehlerquelle. Das neue Modell kann 100 Sprachen verarbeiten – in alle Richtungen. Dies ist besonders wichtig für das soziale Netzwerk, da Newsfeeds automatisch in die vom Benutzer festgelegte Sprache konvertiert werden. Zwei Drittel der Kontoinhaber sprechen kein Englisch.

Auf der maschinell übersetzten Textbewertungsskala erzielte BLEU, M2M-100 laut einem Facebook-Blogbeitrag sowie einfache zweisprachige Modelle und noch besser als die englischzentrierten Modelle. Hierfür wurden 7,5 Milliarden Sätze in den 100 Sprachen verwendet, 15 Milliarden Parameter werden verwendet. Die Datenmenge, die einfließen muss, um direkte Übersetzungskanäle zu ermöglichen, war eine der größten Schwierigkeiten. Die erforderlichen Trainingsdaten wuchsen auf das Quadrat: “Wenn wir zehn Millionen Satzpaare in jede Richtung benötigen, brauchen wir eine Milliarde Satzpaare für 10 Sprachen und 100 Milliarden für 100 Sprachen.” Die Daten stammen aus den vorhandenen Sammlungen ccAligned, ccMatrix und Laser, aus denen Facebook im Rahmen seiner Arbeit Laser 2.0 erstellt.

Der Code ist auf Github verfügbar. Facebook erklärt – für das Unternehmen – ungewöhnlich viel über die Entwicklungsverfahren.

Die 100 Sprachen wurden basierend auf der Verwendung ausgewählt, dh. Leute, die sie sprechen, Verfügbarkeit von Daten und Kombinationen. “Statistisch gesehen haben wir seltene Übersetzungen vermieden, zum Beispiel von Isländisch nach Nepali.”

Siehe auch  Steigende Anzahl von Koronafällen: Söder warnt vor Kontrollverlust


(emw)

Zur Startseite

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Copyright Buzz Nice © All rights reserved.