Im Arabischen gibt es zu viele individuelle Dialekte, die noch keine Künstliche Intelligenz umsetzen konnte.
Grafik:  
Getty Images/iStockphoto

Siri ist eine polyglotte Zeitgenossin. 21 Sprachen beherrscht Apples Sprachassistentin, dazu noch einige Dialekte wie etwa das mexikanische Spanisch. Die Künstliche Intelligenz mit ihren maschinell lernenden Algorithmen macht ständig Fortschritte. Doch mit einer Sprache hat Siri nach wie vor Schwierigkeiten: Arabisch.

Seitdem Apple 2015 eine arabische Version seiner Sprachassistentin lanciert hat, macht die Software kaum Fortschritte. Siri hat Probleme bei der Aussprache und versteht auch zahlreiche Sprachkommandos nicht oder falsch.

Auch Amazons Sprachassistentin Alexa und das Microsoft-Pendant Cortana kommen mit Arabisch nicht klar. Für die 300 Millionen Menschen, die Arabisch sprechen, tut sich hier eine neue Sprachbarriere auf, wenn sie von Maschinen nicht verstanden werden.

Arabisch kennt keinen Satzbau

Der Grund liegt zum einen in der komplexen Syntax und Semantik der Sprache, zum anderen in der Art und Weise, wie Sprachcomputer lernen. Das Arabische kennt im Gegensatz zu romanischen oder angelsächsischen Sprachen keinen Satzbau nach der Vorschrift Subjekt, Prädikat, Objekt. Das heißt: Ein Algorithmus kann nicht einfach einen Satz dekonstruieren und in seine einzelnen Bestandteile zerlegen.

Zudem gibt es in arabischen Texten keine Großschreibung, was es für Algorithmen schwer macht, Namen, geografische Bezeichnungen und den Anfang eines Satzes zu erkennen. Erschwerend kommt hinzu, dass es zwischen dem modernen Hocharabisch, wie es etwa in den Medien gesprochen wird, und den lokalen Dialekten erhebliche Unterschiede gibt.

„Für Arabisch fehlen schlicht oft Trainingsdaten“, erklärt der Journalist und Buchautor Gerald Drißner, der viel in der arabischen Welt gereist ist und mehrere Jahre in Ägypten Arabisch studiert hat, im Gespräch mit der Berliner Zeitung.

Hocharabisch folgt mathematischer Logik

Für die Dialekte gebe es weder vernünftige Wörterbücher noch Audio-Aufnahmen noch eine Aussprachedatenbank, auf die man zurückgreifen könnte. Die Dialekte unterscheiden sich selbst bei grundlegenden Dingen wie Fragewörtern und Verneinung. „Ein Iraker und ein Marokkaner können sich nur mit großer Mühe über einfache Dinge unterhalten.

Man bräuchte also eine Künstliche Intelligenz für mehr als ein Dutzend arabischer Dialekte“, konstatiert Drißner. Diese zu entwickeln kostet viel Zeit und Geld.

Eine logische Alternative wäre, wie im Deutschen oder Englischen, der Verzicht auf Dialekte bei KIs für große Sprachgemeinschaften: „Da die Grammatik des Hocharabischen fast einer mathematischen Logik folgt, wäre es prinzipiell nicht wirklich schwierig, einer KI formales Arabisch beizubringen.“

So lernen Siri & Co sprechen

Übersetzung: Die Basis sind statistische Modelle: Sie durchpflügen tonnenweise Texte, vergleichen Übersetzungen. Google fütterte zum Beispiel seine Übersetzungs-KI anfangs mit Dokumenten der Vereinten Nationen und der Europäischen Union.

Sprachassistenten: Sie errechnen Wahrscheinlichkeiten, mit denen ein Wort oder ein Satz diese oder jene Bedeutung hat. Das macht sie bei der Auswahl der Lösungsmöglichkeiten flexibler, die Trefferquote konnte so gesteigert werden.

Arabische Welt: Erste, vorsichtige Versuche gibt es schon: Google hat für seine Sprachsoftware in diesem Jahr eine Version für den saudischen und den ägyptischen Dialekt lanciert: Google Assistant soll die Gebetszeiten oder das Wetter ansagen.

Das Problem: Die Standardsprache, das sogenannte Hocharabisch, spricht kein arabischer Muttersprachler im Alltag. Selbst die korrekte hocharabische Aussprache bereite vielen Schwierigkeiten, da sie Wörter so aussprechen, wie sie es von ihren Dialekten kennen. „Die korrekte Aussprache ist für Hocharabisch aber von großer Bedeutung, ebenso die korrekte Grammatik.“

Im Arabischen gibt es zum Beispiel Zeichen für die Vokalisation von Kurzvokalen, sogenannte Diakritika, welche die Semantik von Wörtern verändern können und Sprachcomputer vor Probleme stellen. Eine Alternative wäre laut Drißner eine KI für die großen Dialektgruppen: „Sehr viele arabische Muttersprachler können den ägyptischen Dialekt verstehen und einfachste Sätze darin formulieren.“

Analphabeten können von Sprachassistenten profitieren

Nach den Erfahrungen des Journalisten können die jungen Leute in der Oberschicht in den arabischen Ländern inzwischen Englisch häufig besser als Arabisch, da sie auf internationale Privatschulen gehen. Sie bräuchten kein Arabisch, um mit Sprachassistenten zu kommunizieren.

Andererseits sei ein Sprachassistent für die einfachen Menschen in den arabischen Ländern noch immer Luxus. „Gerade für die ärmeren Menschen, für jene also, die zum Beispiel nicht lesen und schreiben gelernt haben, würde ein Sprachassistent enorm hilfreich sein – zumal diese Technik das gesprochene Wort in gedruckte Form bringen kann und umgekehrt“, sagt Drißner.