Meta KI: Sprachverständnis & Transkription in 1600+ Sprachen

Metas Omnilingual ASR: Ein Durchbruch in der universellen Spracherkennung

Stand: 11. November 2025

Meta hat ein bahnbrechendes KI-System namens „Omnilingual ASR“ vorgestellt, das die Fähigkeit besitzt, über 1.600 gesprochene Sprachen zu verstehen und zu transkribieren. Diese Ankündigung, die am 10. und 11. November 2025 erfolgte, markiert einen entscheidenden Fortschritt in der künstlichen Intelligenz und Sprachverarbeitung. Besonders hervorzuheben ist die Unterstützung von rund 500 sogenannten „Low-Resource-Sprachen“, die bisher kaum oder gar keinen Zugang zu KI-basierter Transkription hatten.

Was ist Omnilingual ASR?

  • Name des Systems: Omnilingual ASR (Automatic Speech Recognition).
  • Sprachabdeckung: Das System unterstützt über 1.600 gesprochene Sprachen.
  • Fokus auf Low-Resource-Sprachen: Rund 500 der unterstützten Sprachen sind „Low-Resource-Sprachen“, also Sprachen mit begrenzten digitalen Daten oder Forschungsressourcen, die zuvor keine KI-Transkriptionsmöglichkeiten hatten.
  • Open-Source: Meta hat Omnilingual ASR als Open-Source-Projekt veröffentlicht, einschließlich der Modelle und eines Datensatzes, um die Forschung und Entwicklung in der KI-Gemeinschaft zu fördern.
  • Kerntechnologie: Im Zentrum des Systems steht „Omnilingual wav2vec 2.0“, ein mehrsprachiges Sprachmodell mit sieben Milliarden Parametern, das zu den größten von Meta veröffentlichten Sprachmodellen gehört. Es wurde darauf trainiert, eine breite Palette von Akzenten, Dialekten und Sprachmustern zu verarbeiten.

Warum ist Omnilingual ASR wichtig?

Meta verfolgt mit Omnilingual ASR das Ziel, die digitale Kluft zu überbrücken und den Zugang zu digitalen Sprachtools für unterrepräsentierte Sprachgemeinschaften weltweit zu erweitern. Dies soll die Sprachvielfalt erhalten und Menschen ermöglichen, Informationen in ihrer Muttersprache zu nutzen und mit Technologie zu interagieren.

Metas Engagement für mehrsprachige KI

Die Einführung von Omnilingual ASR ist Teil von Metas umfassenderer Vision, universelle KI zu schaffen und Sprachbarrieren abzubauen. Meta-CEO Mark Zuckerberg bezeichnete die universelle Übersetzungstechnologie als „Supermacht, von der Menschen schon immer geträumt haben“ und als potenziellen „Menschheitstraum“, der es Milliarden von Menschen ermöglichen würde, online auf Informationen in ihrer Muttersprache zuzugreifen.

Zuvor hat Meta bereits andere bedeutende Projekte in diesem Bereich vorgestellt:

  • Massively Multilingual Speech (MMS) (2023): Dieses Projekt ermöglichte die Erkennung von über 4.000 gesprochenen Sprachen und die Umwandlung von Sprache in Text (ASR) sowie Text in Sprache (TTS) in über 1.100 Sprachen. MMS übertraf bestehende Modelle und deckte fast die zehnfache Anzahl an Sprachen ab.
  • No Language Left Behind (NLLB-200) (2022): Ein einzelnes KI-Modell, das in der Lage ist, zwischen 200 verschiedenen Sprachen mit hoher Qualität zu übersetzen. NLLB-200 verbesserte die Übersetzungsqualität im Durchschnitt um 44 % gegenüber dem damaligen Stand der Technik. Es unterstützte auch viele Sprachen, die zuvor von Übersetzungstools schlecht oder gar nicht abgedeckt wurden, darunter 55 afrikanische Sprachen.
  • SeamlessM4T (2023): Ein multimodales und mehrsprachiges Übersetzungsmodell, das nahtlose Kommunikation über Sprachen hinweg durch Sprach-zu-Sprach-, Sprach-zu-Text-, Text-zu-Sprach- und Text-zu-Text-Übersetzungsfunktionen in einem einzigen System für fast 100 Sprachen ermöglicht.

Herausforderungen und Genauigkeit

Obwohl Omnilingual ASR einen großen Schritt nach vorne darstellt, variiert die Genauigkeit je nach Sprache. Metas interne Daten zeigen, dass über 95 % der Sprachen mit vielen oder mittleren Ressourcen eine Zeichenfehlerrate (Character Error Rate, CER) von unter 10 % erreichten. Bei den 546 Low-Resource-Sprachen erreichten jedoch nur 36 % diesen Wert, was die anhaltenden Herausforderungen bei der Entwicklung von KI für unterdokumentierte Sprachen verdeutlicht.

Expertenstimmen

Alexandr Wang, Metas KI-Chef, erklärte auf X: „Meta Omnilingual ASR erweitert die Spracherkennung auf über 1.600 Sprachen, darunter 500, die noch nie zuvor unterstützt wurden, als wichtigen Schritt in Richtung einer wirklich universellen KI. Wir stellen eine vollständige Suite von Modellen und einen Datensatz als Open Source zur Verfügung.“

Potenzielle Anwendungen

Die Omnilingual ASR Suite eröffnet neue Möglichkeiten für inklusive digitale Kommunikation, Echtzeit-Sprachschnittstellen und globale Geschäftsmöglichkeiten in verschiedenen Sektoren wie Bildung, Kundenservice und Barrierefreiheit. Es könnte die Grundlage für KI-Anwendungen der nächsten Generation in aufstrebenden Märkten und vielfältigen Sprachgemeinschaften bilden. In der Medien- und Unterhaltungsbranche könnte dies automatisierte Untertitelung für globale Inhalte bedeuten, was die Zugänglichkeit und den Umsatz steigert.

Fazit

Metas Omnilingual ASR ist ein bedeutender Meilenstein auf dem Weg zu einer wirklich universellen KI, die Sprachbarrieren überwindet. Durch die Unterstützung von über 1.600 Sprachen, insbesondere der Einbeziehung von Hunderten von Low-Resource-Sprachen, demokratisiert Meta den Zugang zu Sprachtechnologie und fördert die globale Kommunikation. Obwohl Herausforderungen bei der Genauigkeit für Low-Resource-Sprachen bestehen bleiben, unterstreicht die Open-Source-Veröffentlichung das Engagement von Meta, die Forschung und Entwicklung in diesem kritischen Bereich voranzutreiben.

Quellen:

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Nach oben scrollen