Die Stimme übermittelt nicht nur Sprache, sondern auch Gefühle. Computer können sie lesen. 
Foto: Imago Images / Ralf Hiemisch

BerlinDie bayerische Firma Audeering, die selbstlernende Programme für Sprachanalyse entwickelt, hat eine wache Presseabteilung: Sie interessieren sich für Künstliche Intelligenz? Wissen Sie denn schon, was wir so machen? Das könnte für den Kulturbereich doch auch interessant sein. Nein, wussten wir nicht. Aber jetzt. Und ja, es ist interessant. Das Gespräch mit Dagmar Schuller fand natürlich über Video statt. 

Frau Schuller, Sie entwickeln eine Software, die die menschliche Stimme analysiert. Nach welchen Normen geschieht das? Ein freudig erregtes Kind und ein empörter Erwachsener können ja durchaus ähnliche Tonhöhen erreichen.

Es gibt viele psychologische Modelle, wie Emotionen aus der Sprache gemessen werden können, und wir verlassen uns auf die bei technischen Anwendungen am weitesten verbreitete Theorie, die Appraisal-Theorie, die auch die Entstehungsgeschichte von Emotionen mit einbezieht. Bei unserem Ansatz werden nicht nur Sprachmerkmale wie Tonhöhe oder Rhythmus ausgewertet, sondern auch Geräusche, die gar keinen Sprachinhalt haben wie Husten oder Zögern. In der Psychologie geht es dann im Wesentlichen um den Grad der Erregtheit und darum, wie angenehm oder unangenehm von einer Person offenbar etwas wahrgenommen wird, also um die Valenz, mit der sie spricht. Und weiter darum, wie dominant oder aufrichtig jemand spricht. Dabei klassifizieren wir die einzelnen Aspekte auch prozentual. Es geht um eine Wahrscheinlichkeit, mit der bestimmte Emotionen vorliegen.

Und welches Alter jemand hat oder aus welcher Region er oder sie kommt, ist dabei egal?

Alter, Geschlecht und Dialektfärbungen werden erkannt und in die Emotionserkennung mit eingearbeitet. Die Grundsätze der Emotionserkennung aber sind unabhängig von der Sprache selbst. Schon in der vorsprachlichen Zeit konnte man sich ja verständigen. Allerdings gilt es schon, kulturelle Einflüsse zu berücksichtigen. Wenn man Lautstärke mit negativer Erregung gleichsetzte, würde man in Italien schnell falschliegen. Das muss man dann entsprechend kalibrieren, um eine höhere Wahrscheinlichkeit zu erreichen.

Wie weit ist die Entwicklung, wenn man das Mögliche in Betracht zieht? Stecken Sie noch in den Kinderschuhen oder tragen Sie schon Cowboystiefel?

Man bewegt sich aktuell auf dem menschlichen Niveau. Die Maschine kann Stimmen so gut lesen, wie es ein Mensch tut. Und wie unter Menschen kann sie das umso besser, je mehr Erfahrung sie mit einer bestimmten Stimme hat. Man muss also unterscheiden zwischen einem neutralen System, das allgemein einsetzbar ist, und einem System, das speziell auf eine Person zugeschnitten werden soll. Im ersten Fall erreichen Sie ein human level, das zwischen 70 und 80 Prozent Erkennungsrate liegt, punktuell bekommen Sie sogar super human level. So können wir etwa aus der Stimme auf den Alkoholkonsum schließen oder aus den Atemgeräuschen den Herzrhythmus erkennen. Das leistet ein menschliches Ohr in der Regel nicht.

Foto: IHK/Goran Gajanin
Zur Person

Dagmar Schuller, 1975 geboren, studierte Wirtschaftsinformatik und Management in Wien und New York. 2012 gründete sie mit den Wissenschaftlern Florian Eyben und Björn Schuller im bayerischen Gilching das Unternehmen Audeering, dem sie als Geschäftsführerin vorsteht. Die KI-Technologie von Audeering erkennt über 50 Befindlichkeiten in der menschlichen Stimme. 

Heißt das für den persönlichen Gebrauch, dass man in schwierigen Entscheidungssituationen statt langen Grübelns die Varianten einfach laut aussprechen könnte, und das Programm würde einem auswerten, von welchem Weg man mit größerer Zuversicht und Überzeugung spricht?

Theoretisch ja. Das wäre eine Nutzung als Self-Awareness-Trainer, die wir bislang noch gar nicht geplant haben. Aber wenn das Programm Sie kennt, kann es Ihnen dieses Feedback tatsächlich geben. Die Frage ist natürlich, ob Sie dem Ergebnis auch vertrauen. Aktuell wird unsere Software beispielsweise in Callcentern eingesetzt, um zu erkennen, wie verärgert oder zufrieden der Kunde ist und ob sich seine Stimmung während des Gesprächs ändert und wie freundlich der Agent reagiert. Es kommt aber auch im medizinischen Bereich beziehungsweise Wellness-Bereich zum Einsatz. 

Wenn ein Kunde im Callcenter mit einer Vorinformation über seine vermutliche Stimmung an einen Mitarbeiter weitergeleitet wird, reagiert dieser doch voreingenommen. Und wenn man als wütender Mensch dann extra sanft angesprochen wird, macht einen das unter Umständen ja noch wütender. Haben Sie solche Rückkopplungen mit einkalkuliert?

Der Callcenter-Mitarbeiter bekommt aktuell keine Vorinformation – obwohl so etwas auch möglich wäre. Das System schaltet sich zu Beginn des Gesprächs ein und zeichnet in Form eines Verlaufs mit Ampelalarmsystem die Stimmung des Anrufers auf. Wenn der rote Bereich trotz aller Bemühungen des Mitarbeiters nicht verlassen wird, kann er etwa entscheiden, eine Supervision dazuzuholen. Wenn es aber ihm gelingt, auf grün zu kommen, hat er ein Erfolgserlebnis. Früher ging es in Callcentern immer nur um die Anzahl der Anrufe, die geschafft wurden. Mit diesem System kann man auch die Qualität bewerten, das kann eine große Motivation für die Beschäftigten sein, wie wir schon im Einsatz sehen konnten.

Was bedeutet das Deer, der englische Begriff für Rotwild, denn in Ihrem Firmennamen Audeering.

Das Rotwild sind die Mitarbeiter. Audeers, das sind wir. Unser Firmenzeichen, die drei Wellen, sehen, wenn man sie spiegelt, auch wie ein Geweih aus, das ist einfach so ein Spaß …

Es hat diese Waldkomponente – wie man in den Wald hineinruft, so schallt es hinaus …

Ja, das könnte man sagen. Wir sind die wilden Pioniere, aber auch die Soliden, auf die man sich verlassen kann, das Rudel, mit dem man gut durch den Wald kommt.

Was machen Sie denn für den medizinischen Bereich?

Da analysieren wir die Stimme als Biomarker. Wir untersuchen sie auf unterschiedliche Krankheitsbilder und/oder signifikante Merkmale mit oder auch ohne unmittelbaren Krankheitsbezug. Da sind wir an der Forschung für neurodegenerative, neurokognitive, aber auch psychische Erkrankungen und Voice Disorders beteiligt. Schon nach 15 Sekunden etwa können wir bei qualifizierten Tests klassifizieren, ob eine Person bereits an Parkinson erkrankt ist. Wir arbeiten aber auch an einer Feingranulierung, damit man das System für die Früherkennung einsetzen kann. Man braucht dazu aber idealerweise historische Daten, und Daten sind in Deutschland oder Europa insgesamt natürlich immer so eine Schwierigkeit. 

Sie klingen hier etwas frustriert.

Wir haben ja eine App zur Erkennung von Laut-Symptomen in Zusammenhang mit Covid-19 entwickelt. Die Idee ist, dass die Nutzer in der Nacht eine Stunde lang aufnehmen, welche Geräusche sie im Schlaf machen, und dann können sie sich entscheiden, diese Daten gemeinsam mit ihrem Hausarzt auszuwerten oder uns zu spenden, damit wir das System auf die Bedenklichkeit von Husten, Niesen, Atemfrequenzen und Lungenrasseln hin verfeinern können und dies auch unmittelbar der Covid-19-Forschung zur Verfügung stellen können. Die App ist fertig, aber Apple lässt in Deutschland derzeit nur solche Anwendungen zu Forschung mit Datensammlung über Covid-19 auf den Markt, die direkt von der Bundesregierung kommen. Niemand anders darf im diesem Zusammenhang Daten sammeln.

Finden Sie das auch persönlich nicht fair?

Einerseits sehe ich es ein, dass Menschen vor der wirtschaftlichen Nutzung ihrer Daten zu schützen sind. Andererseits ist eine Pandemie eine Ausnahmesituation, und es stellt auch einen Wert dar, über eine Krankheit möglichst viel in möglichst kurzer Zeit zu erfahren. Wenn ein klarer, transparenter Forschungszweck dahintersteht und die Leute darüber informiert sind und die Daten aktiv und freiwillig geben, sollte das auch möglich sein. Hier würden ja nicht still im Hintergrund Daten gesammelt, wie es die Kollegen von großen, oft in den USA beheimateten Konzernen gern selbst tun, sondern alles wäre offen und eine freie Entscheidung des Anwenders.

Haben Sie Ihr System schon einmal mit Schauspielern getestet? Kann man es hacken?     

Jein. Wenn Sie wissen, was das System sucht, können Sie sich darauf trainieren und es überlisten. Wir haben unsere Systeme mit Datenbanken mit Schauspielern und Datenbanken ohne Schauspieler gefüttert. Das Grundsystem kann eine gespielte Emotion nicht unbedingt als solche erkennen.

Wenn wir nicht über Theaterschauspiel reden, das bis in den zweiten Rang reichen muss, sondern über den Anspruch einer realistischen Darstellung, könnte ich also eine Folge „Rosenheim Cops“ oder „Tatort“ daraufhin analysieren lassen, welche Gemütszustände die Figuren vorgegeben haben, und dann objektiv bewerten, wie gut das Drehbuch umgesetzt wurde?

Ja, wobei man vielleicht eher über Hörspiel sprechen sollte, weil der Schauspieler immer noch die Mimik hat. Aber Ärger beispielsweise formuliert sich bei Normalmenschen tatsächlich oft leise und monoton, während Schauspieler dazu neigen, bei „Ärger“ immer laut zu werden. Wir haben auch einen Demonstrator für Public Speaking, mit dem wir im Bundestag Plenardebatten analysiert haben. Da gehen wir ja ebenfalls davon aus, dass die Protagonisten ihre Standpunkte mit einer bestimmten Intention und einer professionellen rhetorischen Versiertheit vertreten. Und dabei hat sich herausgestellt, dass relativ häufig mit negativer Valenz gesprochen wird. Es gibt kaum Beispiele dafür, dass in Debatten positiv kommuniziert wird. Das fanden wir spannend, weil wir uns fragten, welche Diskussionen entstünden und welches Handlungsfeld sich eröffnen würde, wenn man einmal positiv an die Dinge heranginge.

Folgende Szene: Ein Bahnhof oder Flughafen. Menschen im Gespräch, eine Drohne mit Ihrem System schwebt sanft über die Menge und meldet plötzlich an die Zentrale: Die Frau im blauen Mantel im Abschnitt C hat einen starken Infekt, sie sollte besser nicht einsteigen … Ist das denkbar und erstrebenswert?

Es ist denkbar und erstrebenswert, wenn der Nutzen für die gesamte Bevölkerung damit ganz deutlich das individuelle Interesse überwiegt. Alles andere, was in Richtung Überwachung geht und Einzelnen Nachteile bringen könnte, sollte man lassen. Wenn eine Mehrheit demokratisch dafür ist, solche Systeme eine Zeit lang zum Einsatz zu bringen, sollte man zumindest abwägen, sie zum Einsatz zu bringen. Aber Einzelne müssen immer die Möglichkeit haben, sich davon ausnehmen zu lassen – solange sie das Gemeinwohl nicht gefährden.

Wie wäre Ihr persönliches System idealerweise programmiert?

Es würde erkennen, wie es mir geht, und alle Umstände so optimieren, dass sie mir helfen. Mein Wohlgefühl muss im Zentrum stehen. Das fängt bei meinem Kopfhörer an, der ideal auf mein Hörvermögen abgestimmt ist, bei meinen Haushaltsgeräten, die wissen, dass alles gesaugt sein muss, wenn ich einen stressigen Tag hatte, und mir anbieten, beim Italiener Lasagne zu bestellen. Aber wenn ich Ruhe brauche, schaltet sich auch alles von selbst ab. Es soll mir langfristig und nachhaltig besser gehen, aber ich werde dadurch zu nichts verpflichtet und kann in jeder Lebenssituation neu entscheiden.

Was würden Sie mit der gewonnenen Zeit und Energie machen?

Ich würde gern mein Bogenschießen verbessern, mehr Zeit mit meinen Lieben verbringen, noch mehr in der Natur sein und vielleicht ein spannendes Buch verfassen.