Können Homosexuelle per automatischer Gesichtserkennung geoutet werden? Kann die Polizei künftig an der Grenze potenzielle Terroristen identifizieren, selbst wenn sie noch nicht aktenkundig sind? Und ist uns Kriminalität ins Gesicht geschrieben? Verschiedene wissenschaftliche Studien haben in den vergangenen Monaten immer wieder scheinbar dramatisch gute Ergebnisse darin erzielt, Gesichter mittels künstlicher Intelligenz bestimmten Eigenschaften zuzuordnen.

Erst vorige Woche erregte ein Experiment von Michal Konsinski von der Stanford University Aufsehen, das angeblich Schwule und Lesben mit hoher Genauigkeit anhand ihrer Fotos erkennt. 81 Prozent aller schwulen Männer habe das System richtig erkannt, so Kosinski, und 74 Prozent aller lesbischen Frauen. Doch hier zeigt sich, dass man mit den Äußerungen von Forschern bezüglich ihrer eigenen Erfolge stets vorsichtig sein sollte.

Man kann nie wissen welche Merkmale auffallen

Die Forscher hatten 35.000 Fotos einer Dating-Plattform benutzt, und diese mitsamt der Selbstauskunft der Betroffenen zu ihrer sexuellen Orientierung einer künstlichen Intelligenz vorgelegt. Die neuen Verfahren des maschinellen Lernens sind besonders gut darin, Muster in Daten zu finden, allerdings suchen sie sich die Kriterien selbst aus, die – in diesem Fall – Menschen eher „homosexuell aussehen“ lassen.

Und das ist auch schon das erste Problem: Wissenschaftler bemängeln immer wieder, dass sie solchen Systemen nicht „in den Kopf“ blicken können – dass man also nie wissen kann, welche Merkmale die KI als relevant einschätzte. So könnte es durchaus sein, dass der Gesichtserkennungssoftware Merkmale aufgefallen sind, die jene Bilder von Schwulen ebenfalls gemeinsam haben – beispielsweise ein Ohrring, eine besondere Brille oder Ähnliches.

Erkennungsrate von mindestens 50 Prozent

Nicht zuletzt lohnt sich ein Blick in die Statistik solcher Studien: So sind Erkennungsraten von 80 Prozent schon dann nicht mehr so spektakulär, wenn man weiß, dass für das Experiment jeweils ein zufälliges Foto aus der Gruppe Homosexueller und ein zufälliges aus der Gruppe Heterosexueller ausgesucht wurde: Die Software musste also de facto nur eines erkennen, das andere ergab sich daraus.

Würde man also den Zufall entscheiden lassen, würde dieser bereits eine Erkennungsrate von 50 Prozent erzielen, betont Björn Christensen, Statistik-Professor von der Fachhochschule Kiel. „Der im Paper beschriebene maximale Wert ist also zwischen 50 Prozent (Zufall) und 100 Prozent (perfekte Zuordnung) einzuordnen und nicht – wie man denken könnte – zwischen 0 und 100 Prozent.“ Das ist schon weniger spektakulär.

Kriminalität im Gesicht erkennen

Zudem seien, wenn man die Gesamtgruppe aller Homosexuellen betrachtet, insgesamt lediglich 60 Prozent korrekt erkannt worden, von der Gesamtheit der Heterosexuellen hingegen 97 Prozent – was sich daraus erklärt, dass in der Stichprobe wie in der Bevölkerung ein sehr viel höherer Anteil heterosexuell ist. Wer also per Zufall eine Person zieht und behauptet, diese sei heterosexuell, hat meistens recht – und damit schon durch pures Raten eine relativ hohe Genauigkeit.

„Insgesamt lässt sich sagen, dass das Modell einzelne homosexuelle Probanden gut erkennt, aber längst nicht alle“, so Christensen. Und diese könnten eben auffällige Merkmale gehabt haben. Ähnlich verhält es sich mit einer Studie von chinesischen Forschern, die behaupteten, Kriminalität im Gesicht zu erkennen. Sie hatten ihre Software mit knapp 2.000 Passfotos gefüttert, die Hälfte von ihnen waren verurteilte Straftäter.

Mit Skepsis betrachtet

Ein neuronales Netz erkannte Kriminelle darin mit 89,5 Prozent Treffsicherheit. Hier sind ähnliche Fallen wie bei anderen Verfahren der Künstlichen Intelligenz möglich: Womöglich stammten die Fotos der Verurteilten von einer anderen Kamera, so dass die KI bestimmte Eigenschaften wie einen leichten Farbstich als Merkmal annahm – ein Faktor, der Menschen nicht auffällt.

Zudem verweisen Experten darauf, dass das Leben Spuren hinterlässt: Kriminelle stammen in der Regel aus ärmeren Verhältnissen, womöglich haben sie schlechter gepflegte Zähne oder Narben – auch das könnte die Software als Kriterium angenommen haben. Solche Studien sollten also mit Skepsis betrachtet werden. Und doch nutzen erste Behörden in den USA bereits solche Methoden – was angesichts der zweifelhaften Genauigkeit das größere Problem ist.