BerlinStellen Sie sich vor, Sie sitzen zu Hause auf dem Sofa und tätigen eine Online-Überweisung. Während Sie auf Ihrem Smartphone oder Tablet nichtsahnend die Zugangsdaten zu Ihrem Online-Konto eingeben, zeichnet das Mikrofon in Ihrem Smartphone oder Smart-Speaker die Tippgeräusche auf. Am nächsten Tag ist das Konto leergeräumt. Was nach einem Science-Fiction-Szenario klingt, könnte schon bald Realität werden. Computerwissenschaftler der University of Cambridge zeigen in einer aktuellen Studie, wie sich mithilfe von Spracherkennungssystemen Smartphone-Geräusche entschlüsseln lassen.

Die Informatiker wollten in ihrem Experiment ein Szenario simulieren, bei dem ein Smart-Speaker das Tippen auf einem mobilen Endgerät aufzeichnet. Weil weder Google noch Amazon Dritten Zugang zu Audio-Rohdaten ihrer Netzwerklautsprecher gewähren, nutzten die Wissenschaftler einen ReSpeaker als Hardware, um Umgebungsgeräusche aufzuzeichnen. Das runde Gerät kommt mit seinen sechs Mikrofonen Amazon Echo recht nahe. Die Probanden sollten in dem Versuch einen fünfstelligen Code oder ein Wort aus dem englischen Wörterbuch auf drei verschiedenen Geräten abtippen: auf zwei Smartphones (Nokia 5.1, Huawei Mate 20 Pro) sowie einem Tablet (Nexus 9).

Um eine reale Geräuschkulisse zu simulieren, wurden die Tippgeräusche in einem Raum aufgezeichnet, in dem Leute ein- und ausgingen und sich im Hintergrund leise unterhielten. Zudem wurde in der Nähe der Mikrofone ein Podcast abgespielt, um einen zusätzlichen Klangteppich zu schaffen. Trotz des Grundrauschens konnten die Forscher das Tippen erkennen – anhand von winzigen Ausschlägen in einem Frequenzbereich von 1000 bis 5500 Hertz. Wenn jemand auf einem Display tippt, erzeugt das Vibrationen, kleine Schallwellen, die man messen kann.

Computerwissenschaftler der Universität Berkeley hatten bereits 2005 einen Algorithmus entwickelt, der aus Tonaufnahmen von Tastaturanschlägen die einzelnen Buchstaben und somit Teile des Texts ableiten konnte. Mithilfe der statistischen Lerntheorie konnten die Geräusche von jedem Anschlag kategorisiert und eine Wahrscheinlichkeit für die Zeichen errechnet werden. Bei Buchstaben lag sie bei 60 Prozent, bei Wörtern bei 20 Prozent. Denn: Jeder Anschlag hat einen eigenen, spezifischen Sound.

Tippen als biometrisches Merkmal

Der Anschlagrhythmus – also Schreibgeschwindigkeit, Tastendruck und Pausenverhalten – sind ein biometrisches Merkmal, das uns von anderen Menschen unterscheidet. Bloß, das Geräusch, das entsteht, wenn man in die Tasten greift, ist noch einmal etwas ganz anderes, als wenn man auf die Buchstaben einer virtuellen Tastatur einer Glasscheibe hämmert. Es gibt da keine Mechanik oder Druckknöpfe, die man unterschiedlich betätigen könnte. Daher ist es viel schwieriger, von virtuellen Tastaturanschlägen auf die Zeichen zu schließen. Zumal die Signalstärke von einer Reihe von Faktoren abhängt, etwa, ob man das Gerät in einer Hand oder beiden Händen hält und beispielsweise einhändig oder mit beiden Daumen schreibt.

Mithilfe einer komplexen Audiosignalverarbeitungstechnik konnten die Cambridge-Forscher den Druckbereich oder die Schallquelle auf dem Display exakt lokalisieren. Je nachdem, ob der Nutzer oben, in der Mitte oder unten auf das Display drückt, ist die Schallwelle länger oder kürzer unterwegs. Das sind nur Zentimeter, zuweilen auch nur Millimeter, doch mit entsprechenden Messinstrumenten lassen sich diese Unterschiede feststellen. Und aus diesen unterschiedlichen Distanzen lässt sich eine Wahrscheinlichkeit ableiten, ob der Nutzer bei der Pin-Abfrage auf die 1 links unten im Zahlenfeld oder auf die 9 rechts oben gedrückt hat.

„Das Problem, das wir lösen, ist überhaupt nicht schwer“, erklärt Studienleiter Ilia Shumailov auf Anfrage. „Man muss herausfinden, wann der Tastendruck stattfindet, wo die relative Position der Taste ist und wie die Ausrichtung des Smartphones ist.“ Moderne Sprachassistenten verfügen über zwei bis sieben Richtstrahlmikrofone, was bedeute, dass man wie bei der Triangulation aus jedem Winkel sehr präzise Positionsdaten bekommen könne.

Mit den Daten trainierten die Informatiker schließlich einen Machine-Learning-Algorithmus, der eine Wahrscheinlichkeit von Zahlen und Buchstaben errechnete. Bei den im Porträtmodus geschalteten, in einer Hand gehaltenen Smartphones konnten die Informatiker einen fünfstelligen Code mit einer Wahrscheinlichkeit von bis zu 40 Prozent im ersten Versuch entziffern. Beim Tablet, wo die Abstände zwischen den Zeichen und damit auch die Schalldistanz größer ist, war die Genauigkeit höher. Damit haben die Forscher bewiesen, dass man nicht nur physische, sondern auch virtuelle Tastaturen ausspionieren kann.

Akustische Spionage

Die Studienergebnisse haben Implikationen für die Praxis. Cyberkriminelle könnten mithilfe von Netzwerklautsprechern Pins oder Passwörter erbeuten, die jemand in der Nähe in sein mobiles Endgerät tippt. Mag sein, dass für Cyberkriminelle sogenannte Phishing-Attacken ein probateres Mittel sind, um Passwörter abzugreifen (dabei werden ahnungslose Nutzer mit manipulierten Benutzeroberflächen meist per Mail aufgefordert, ihre Daten preiszugeben). Trotzdem sollte die Gefahr einer akustischen Spionageattacke nicht unterschätzt werden.

Die Forscher entwickeln mehrere Bedrohungsszenarien: Ein Angreifer könnte eine maliziöse App auf einem Smart Speaker installieren oder die Hardware so manipulieren, dass er auf das Mikrofon zugreifen kann. Einfallstore gibt es zuhauf: So könnten sich Hacker auch Zugang zu Audiodaten verschaffen – was ihnen allerdings nur etwas bringt, wenn sie die Tippgeräusche extrahieren und in Zahlen oder Buchstaben konvertieren können. Zwar räumen die Forscher in ihrem Paper ein, dass die Durchführung eines solchen Lauschangriffs schwierig sei. Dass es aber im Bereich des Möglichen liegt, haben sie eindrucksvoll demonstriert.