Ein Lügendetektor könnte künftig Beamten an den EU-Grenzen dabei helfen, Reisende zu kontrollieren. Der Detektor ist Teil eines größeren EU-Projektes zu automatisierten Grenzkontrollen namens iBorderCtrl. Bei ersten Versuchen außerhalb der Forschungslabors erreichte dieser Lügendetektor eine Genauigkeit von rund 75 Prozent. Diese beiden Fakten aus dem Horizons-2020-Forschungsprojekt sorgen derzeit für reißerische Schlagzeilen und für Empörung in den sozialen Medien. Doch bei genauem Hinsehen ist es nicht ganz so, wie häufig suggeriert wird. Was muss man dazu wissen?

Eine Genauigkeit von 75 Prozent bedeutet in diesem Fall nicht, dass künftig 25 Prozent aller in die EU Einreisenden als „Lügner“ klassifiziert und womöglich an einer Einreise gehindert werden. Aus zweierlei Gründen: „Es handelt sich um einen Risk-Score“, sagt Jim O’Shea von der School of Computing, Mathematics and Digital Technology der University of Manchester, „nicht um die Feststellung, dass jemand Lügner ist“.

Die Reisenden werden im Projekt, das nächstes Jahr in eine neunmonatige Probephase mit freiwilligen Probanden startet, unter anderem von einem Avatar befragt, beispielsweise zum Inhalt ihres Gepäcks, ihrer Herkunft und ob es einen Angehörigen oder Freund gibt, der ihre Identität bestätigen kann – und welches Verhältnis sie zu dieser Person haben.

Der Lügendetektor als eine Art Back-up

Das System, das auf maschinellem Lernen basiert, „hört“ dabei nicht zu: es geht nämlich nicht um den Inhalt des Gesprochenen, sondern darum, wie sich der Betroffene verhält. Ob jemand mutmaßlich lügt, interpretiert das System unter anderem aus feinsten Regungen des Gesichts oder auch der Körpersprache, erklärt O’Shea, „beispielsweise, ob sich jemand im Stuhl vor- oder zurückbewegt“.

Dieser Score fließt ein in einen Wert, der durch weitere Ergebnisse ergänzt wird, beispielsweise Daten aus der biometrischen Gesichtserkennung, Fingerabdrücke und ähnlichem. Dieser Wert wiederum wird an die Grenzbeamten gemeldet, die dann entscheiden, ob sie die Person kontrollieren wollen.

Aber wieso braucht man einen Lügendetektor, wenn doch Gesichtserkennung, Fingerabdrücke und Visa-Kontrolle schon recht zuverlässig sind? „Es ist immer besser, mehrere Faktoren zu haben“, sagt Anastasia Garbi, Koordinatorin des Projekts iBorderCtrl, „je mehr Informationen Sie über mögliche Aspekte haben, die im Prozess gefälscht werden können, desto genauer ist dieser Prozess insgesamt“. Sollten also gefälschte Pässe im Spiel sein, die nicht erkannt werden, wäre der Lügendetektor eine Art Back-up.

Manipulation durch Morphing

In der Tat sei der Test solch neuartiger Systeme sinnvoll, sagt Bernhard Strobl vom Austrian Institut of Technology, der ebenfalls an automatisch unterstützten Grenzkontrollen forscht, am aktuellen Projekt aber nicht beteiligt ist. „Die Gesichtserkennung ist zwar schon recht gut, aber sie kann umgangen werden“, sagt Strobl und nennt das sogenannte Morphing als Beispiel: Wer illegal einreisen will, kann einen gültigen Ausweis nutzen und das Foto durch eine Mischung eines eigenen Bildes und des rechtmäßigen Passinhabers austauschen: „Morphing kann wahnsinnig schwer erkannt werden“, so Strobl.

Deshalb seien Ergänzungen wie Plausibilitäts- und Biometriechecks sinnvoll, um die Zuverlässigkeit solcher Systeme zu verbessern. „Ein adaptierter Lügendetektor könnte dazuzählen, sollte die Leistungsfähigkeit in diesem speziellen Umfeld bewiesen werden können.“ Doch auch hier stelle sich freilich die Frage, ob Reisende den Detektor „hereinlegen“ könnten.

Strobl betont, dass die KI-gestützte Methode automatisierter Grenzkontrollen alle Reisenden entlastet: „Wir rechnen mit einer Verdoppelung des Passagieraufkommens in den nächsten Jahren. Deshalb ist ein Risk-Assessment als Entscheidungshilfe notwendig.“

Alarm bei jeder vierten Kontrolle?

Noch wichtiger ist allerdings, die Genauigkeit von 75 Prozent richtig zu interpretieren – und das kam in den bisherigen Veröffentlichungen dazu zu kurz. Wäre es nämlich so, dass künftig bei 25 Prozent aller Reisenden ein Alarm auf dem Bildschirm des zuständigen Grenzbeamten aufleuchten und dieser zu einer genaueren Kontrolle aufgefordert würde, wäre ein solches System hinfällig: Die Beamten hätten noch mehr Arbeit, und die Schlangen an den Grenzen würden sich noch mehr verlängern.

Die 75 Prozent beziehen sich auf den Mittelwert, mit dem das System bei den 13 Fragen richtig lag. Im Experiment wurde 32 Probanden insgesamt je 13 Fragen gestellt. Die Hälfte der Probanden wurde gebeten zu lügen, die andere sagte die Wahrheit. Das System berechnete aus verschiedenen Faktoren eine Vermutung für jede einzelne Frage: lügt der Proband oder sagt er die Wahrheit? In 75 Prozent der Fälle lag das System durchschnittlich richtig in Bezug auf eine einzelne Frage.

Aber sehen Menschen, die nur so tun, als würden sie lügen, auch aus wie „echte“ Lügner? „Wir haben uns von Psychologen beraten lassen, wie wir einen möglichst realistischen Versuchsaufbau machen können“, sagt O’Shea. Dennoch sei das ein bekanntes Problem von künstlicher Intelligenz in diesem Zusammenhang: Menschen, die nur so tun als ob, haben sicherlich teils andere Mikro-Gesten als Lügner, die unter dem Stress stehen, wirklich erwischt zu werden mit allen Konsequenzen, die daran hängen.

„Wenn wir mehr Daten haben, wird die Genauigkeit steigen“

Das System hat freilich weitere Schwächen, die unter anderem aus einer sehr geringen Probandenzahl entstehen und auch aus der allgemeinen Problematik, die moderne Systeme des maschinellen Lernens mit sich bringen: Sie brauchen große Mengen an Trainingsdaten. Da das System recht viele Faktoren identifiziert, kommt ein hoher Rechenaufwand hinzu.

Noch dazu sind die Probanden nicht besonders repräsentativ: Die „Lügen“-Gruppe bestand aus zehn Männern und sieben Frauen, von denen 13 Europäer waren, während vier asiatische oder arabische Wurzeln hatten. Die Wahrheits-Gruppe bestand aus zwölf Männern und drei Frauen, darunter sechs asiatische oder arabische Probanden und neun weiße Europäer.

Eine mögliche rassistische Verzerrung, die aus solchen Daten entstehen kann, habe man im Auge, versichert O’Shea. „Wenn wir mehr Daten haben, wird die Genauigkeit steigen“, sagt O’Shea – der allerdings mit den aktuellen 75 Prozent schon sehr zufrieden ist. „Das ist eine tolle Genauigkeit, ich würde so ein System den Behörden auf jeden Fall empfehlen!“ Schließlich liegen Menschen nur bei einer Genauigkeit von 50 Prozent – wir können also genauso gut raten.

Die sogenannte Blackbox-Problematik, nach der maschinelle Lernverfahren oft nicht nachvollziehbar verraten, was sie tun, führt möglicherweise zu einem weiteren Problem, wie Tina Krügel sagt: Die Juristin am Institut für Rechtsinformatik der Uni Hannover ist mit ihrem Team für rechtliche und ethische Fragen des Projekts zuständig. Eigentlich sehe die neue Datenschutz-Grundverordnung vor, „dass Betroffene einer automatisierten Einzelfall-Entscheidung“ Informationen über die dahinterliegende Logik erhalten müssen.

Zahlreiche Hürden vor Einsatz

Das sei, sollte ein solches System im Bereich der Grenzkontrolle tatsächlich zu Einsatz kommen, kompliziert, denn hier sei natürlich auch die öffentliche Sicherheit betroffen. Zudem stelle sich die Frage, wie weit dieser Anspruch tatsächlich reiche, wie ausführlich die Informationen sein müssten. Warum eine künstliche Intelligenz so oder so entschieden habe, sei nicht einfach nachvollziehbar. „Erklärbare KI ist gerade ein riesiger Forschungsbereich.“

Aber besteht nicht die Gefahr, dass sich die Grenzbeamten von einem solchen Score zu sehr beeinflussen lassen und dann eben davon ausgehen, dass die Person tatsächlich lügt, anstatt unvoreingenommen an sie heranzutreten? „Das müssen wir den Betroffenen natürlich genau erklären“, sagt O’Shea: „Das ist ein Risiko-Score, der bedeutet nicht, dass die Person tatsächlich unehrlich ist.“ So müsse der Beamte stets auf Basis seiner eigenen Erfahrung und seiner Einschätzung beurteilen, ob er eine Kontrolle vornehme. „Er kann ja auch Reisende kontrollieren, die einen niedrigen Score haben.“

Ob das in der Realität aber so oft vorkommt, darf bezweifelt werden. „Wenn man einen Risk-Score vorgelegt bekommt, ist man geneigt, dem nachzugehen“, sagt Krügel. Ihre Gruppe hat deshalb verschiedene Grundlagen für das System vorgeschlagen: Datenkategorien, die zu einer Diskriminierung führen können, fließen nicht in den Risikowert ein. Neben dem „Privacy by design“-Ansatz, der bereits implementiert ist, fordert Krügel für einen Echtbetrieb weitere Maßnahmen, etwa die Supervision durch eine Ethikkommission und ausführliche Schulungen der Beamten.