Künstliche Intelligenz (KI) kann Hautkrebs besser diagnostizieren als Dermatologen. Zumindest hat dies eine Studie ergeben, für die 157 Hautärzte aus zwölf deutschen Universitätskliniken gegen die Computer antraten. Es ging darum, hundert Bilder danach zu beurteilen, ob es sich um ein Muttermal oder um schwarzen Hautkrebs handelt. Am Ende war der programmierte Computer-Algorithmus präziser als die klinische Diagnostik, wie das Nationale Centrum für Tumorerkrankungen (NCT) Heidelberg mitteilte. Die Studie ist im Fachmagazin European Journal of Cancer erschienen.

Algorithmus kann verdächtige Hautveränderungen digital beurteilen

Den Algorithmus haben Wissenschaftler des Deutschen Krebsforschungszentrums (DKFZ), der Universitäts-Hautklinik und des NCT entwickelt. Er kann verdächtige Hautveränderungen digital beurteilen. Die Innovation werde die ärztliche Diagnose aber nicht überflüssig machen, hieß es. Es gehe um eine sinnvolle Ergänzung.

In der Studie wurden 100 Bilder von Hautauffälligkeiten verwendet. 20 zeigten schwarzen Hautkrebs, ein sogenanntes Melanom, und 80 gutartige Muttermale. Die Dermatologen von zwölf deutschen Universitäts-Hautkliniken sollten das weitere Vorgehen bestimmen: entweder eine Biopsie vornehmen oder dem Patienten von der Gewebeprobe abraten. Dieselben 100 Bilder wurden anschließend von einem zuvor mit 12.378 anderen Bildern trainierten Algorithmus automatisiert bewertet. Nur sieben der 157 Dermatologen schnitten besser ab als der Algorithmus. 14 erzielten gleich gute Ergebnisse und 136 hatten schlechtere Ergebnisse. Im Durchschnitt war der Algorithmus präziser in der Beurteilung der Hauttumore als die Hautärzte. Dabei spielte es keine Rolle, welche Position und Erfahrung der Arzt hatte.

Künstliche Intelligenz kann Mediziner unterstützen - nicht ersetzen

Dennoch: Trotz aller Präzision wird der Algorhithmus der ärztlichen Praxis nicht gerecht. Denn er kennt nur zwei Diagnosen: Muttermal oder schwarzer Hautkrebs. „Die klinische Realität ist allerdings eine völlig andere“, sagte Alexander Enk, Direktor der Universitäts-Hautklinik Heidelberg. „Ein Facharzt muss bei der körperlichen Untersuchung zwischen mehr als hundert Differentialdiagnosen unterscheiden können. Davon sind viele sehr selten, einige sind kaum allein am Bild zu erkennen, sondern brauchen weitere Informationen wie zum Beispiel Tasteindrücke.“ Der Algorithmus könnte „die klinische Beurteilung von Hauttumoren sinnvoll ergänzen“, sagte Jochen Sven Utikal, Leiter der Klinischen Kooperationseinheit des DKFZ.

Wie Künstliche Intelligenz die Mediziner unterstützen kann, war bereits Thema mehrerer Studien. Eine befasste sich etwa damit, wie sich mit KI-Methoden Röntgenbilder sortieren lassen. In Großbritannien werde geschätzt, dass zu jeder Zeit 300.000 Röntgenbilder „seit mehr als 30 Tagen auf einen Bericht warten“, sagte der Bioinformatiker und Data-Science-Forscher Giovanni Montana vom King’s College London und der University of Warwick. Ein Team um Montana machte sich daran, ein Verfahren zu entwickeln, um Röntgenbilder nach der Dringlichkeit des Befundes vorsortieren zu können.

Dazu trainierten die britischen Forscher ein neuronales Netzwerk mit mehr als 470.000 Röntgenbildern und Befunden. In einer Computersimulation ließ sich so die Zeit von der Aufnahme des Röntgenbildes bis zu Fertigstellung des Befundberichts erheblich reduzieren, berichtet die Gruppe im Fachmagazin Radiology.

Künstliche Intelligenz für die Medizin muss noch verbessert werden

Zunächst wandten sie ein KI-System zur Verarbeitung natürlicher Sprache an, um aus den Berichten zu den Trainingsröntgenbildern die medizinischen Befunde herauszulesen. Das funktionierte sehr gut, mit 98 Prozent richtigen Ergebnissen. Das System konnte also zuverlässig schriftliche Befunde nach bestimmten Kriterien – etwa Körperregion oder klinischer Befund – ordnen. Als nächstes trainierten die Forscher das System darauf, die schriftlichen Befunde mit bestimmten Bildmerkmalen zu verknüpfen.

Schließlich ließen die Wissenschaftler das trainierte neuronale Netzwerk knapp 16.000 Röntgenbilder bewerten, die nicht zu den Trainingsbildern gehörten. Die Klassen der medizinischen Befunde lauteten „normal“, „nicht dringend“, „dringend“ und „kritisch“. Hier war das System fehleranfälliger: So erkannte das Computerprogramm zum Beispiel von 385 kritischen Fällen nur 250 korrekt, 103 erhielten die Angaben „dringend“, 27 „nicht dringend“ (27) und 5 „normal“.

Auch an der Charité wird ein Programm mit Künstlicher Intelligenz entwickelt

Weitere Verbesserungen seien nötig, bevor das KI-System zuverlässig eingesetzt werden können, sagen die Forscher. Sie konnten in einer Simulation immerhin die durchschnittliche Zeit für einen Bericht bei kritischen Befunden von 11,2 Tagen auf 2,7 Tage verringern.

Auch in Deutschland arbeitet eine ganze Reihe von Forschergruppen an KI-Systemen für den Einsatz in der Medizin. An der Berliner Charité entwickelt etwa ein Team aus Ärzten und IT-Spezialisten ein Programm, das Notfallärzten helfen soll, bei Schlaganfallpatienten schnell die richtige Therapie zu finden. Am Deutschen Krebsforschungszentrum trainiert man KI-Systeme darauf, auch seltene Krebsarten zu erkennen und zu charakterisieren. (dpa/fwt)