Eine britische Studie ergab, dass sowohl eine direkt an Verbraucher:innen gerichtete App als auch eine für wissenschaftliche Zwecke verwendete App seltene Hautkrebsarten nicht erkennen konnte. Außerdem wiesen die Apps eine Falsch-Positiv-Rate von mehr als 60% für häufige gutartige Läsionen auf.
Maschinelle Lernmodelle zur Erkennung von Hautkrebs haben in kontrollierten Umgebungen eine vergleichbare oder bessere Leistung als Dermatologen gezeigt1. Verbraucher-Apps, die versprechen, Hautkrebs zu erkennen, werden immer häufiger eingesetzt. Doch sind die vorhandenen Modelle auch für die Diagnose seltener Hautkrebsarten geeignet?
Dr. Lloyd Steel (Queen Mary University of London, Vereinigtes Königreich) und seine Kollegen wollten die Fähigkeit der Apps zur Erkennung des Merkelzellkarzinoms (MZK) und des amelanotischen Melanoms bewerten und herausfinden, ob die App in der Lage ist, häufige gutartige Läsionen wie seborrhoische Keratose und Hämangiome zu erkennen. Dazu erstellten sie einen Datensatz mit 116 Bildern dieser seltenen Krebsarten und gutartigen Läsionen und bewerteten diese Bilder mit zwei Machine-Learning-Modellen.
Bei dem ersten untersuchten Modell handelte es sich um ein zertifiziertes medizinisches Gerät, das direkt an die Öffentlichkeit verkauft wurde und mit der Aussage beworben wurde, 95% der Hautkrebse diagnostizieren zu können (Modell 1). Das zweite Modell stand nur für Forschungszwecke zur Verfügung und diente als Referenz (Modell 2).
Modell 1 stufte 5 von 28 (17,8%) MZKs und 8 von 35 (22,9%) amelanotischen Melanomen fälschlicherweise als risikoarm ein. Dagegen wurden 62,2% der seborrhoischen Keratose und des Hämangioms als Hochrisiko eingestuft. Für die Erkennung von Malignität lag die Sensitivität von Modell 1 bei 79,4% [95% CI 69,3-89,4] und die Spezifität bei 37,7% [95% CI 24,7-50,8]. Die Ergebnisse für Modell 2 waren sogar noch schlechter: MZK gehörte bei keinem der 28 analysierten MZK-Bilder zu den fünf wichtigsten Diagnosen, was darauf schließen lässt, dass das Modell nicht auf die Erkennung von MZK trainiert worden war.
Die Ergebnisse werfen eine größere Frage hinsichtlich der Sicherheit anderer auf dem Markt befindlicher Modelle künstlicher Intelligenz zur Erkennung von Hautkrebs auf. Das Ignorieren oder Ausschließen seltener Hautkrebsarten ist zwar eine bequeme Strategie für In-silico-Validierungsstudien zum maschinellen Lernen, bedeutet aber, dass die maschinellen Lernalgorithmen nicht geeignet sind, wenn sie in der realen Welt eingesetzt werden.
"Um sich zu verbessern, sollten die Bewertungen von maschinellen Lernmodellen das Spektrum der in der Praxis vorkommenden Krankheiten berücksichtigen. Derzeit wird die Leistung dieser Modelle größtenteils von den verfügbaren Bildgebungsdaten bestimmt, die insbesondere bei seltenen Hautkrebsarten knapp sind", so Dr. Steele. Eine globale Zusammenarbeit zwischen Forschungsgruppen und Krankenhäusern könnte ein Schritt sein, um die Lücke bei den Bildgebungsdaten für Hautkrebs zu schließen, die ein entscheidendes Element für eine hohe Leistungsfähigkeit des maschinellen Lernens sind.
Quellen:
1. Tschandl P, et al. JAMA Dermatol 2019;155:58–65.
2. Lloyd Steele, et a.l Do AI models recognise rare, aggressive skin cancers? An assessment of a direct-to-consumer app in the diagnosis of Merkel cell carcinoma and amelanotic melanoma. P0604, EADV Congress 2021, 29 Sept–2 Oct.