Neuer Computeralgorithmus identifiziert Hautkrebs genauso zuverlässig wie Dermatologen

Computer-Befundung von jenen Hautläsionen, die die häufigsten und tödlichsten Hautkrebsarten darstellen, war der der Leistung der Dermatologen ebenbürtig.

Es ist oft schon beängstigend genug, wenn man zum Hautarzt geht, um einen verdächtigen Leberfleck auf Krebs kontrollieren zu lassen. Stellen Sie sich dann einmal jene Menschen vor, die sich in derselben Situation sehen, jedoch meilenweit entfernt vom nächstgelegenen Arzt leben, über Monate keinen Termin bekommen oder in anderen Ländern zum Teil ein solches Screening nicht bezahlen können. In einem solchen Fall könnte die Möglichkeit der Diagnosestellung über das Smartphone eine gute Alternative darstellen.

Universeller Zugang zu gesundheitlicher Versorgung war der Gedanke einer Gruppe von Informatikern in Stanford, als sie die Idee fassten einen künstlichen, intelligenten Diagnose-Algorithmus für Hautkrebs zu schaffen. Sie legten eine Datenbank an, die fast 130.000 Bilder von Hauterkrankungen umfasste und trainierten damit ihren Algorithmus auf visueller Basis potenziellen Hautkrebs zu erkennen. Vom ersten Test an erfüllte das Programm diese Aufgabe mit beeindruckender Genauigkeit.

Sebastian Thrun, Professor im Laboratorium für künstliche Intelligenz der Stanford University, erklärt, dass sie im Rahmen ihrer Arbeit relativ früh erkannten, dass es machbar war, nicht nur ein gutes Programm zu entwickeln, sondern sogar eines, das ebenso genau arbeitet wie ein menschlicher Dermatologe. Er beschreibt diese Erkenntnis als den Moment, in dem das Team begann, das ganze Projekt mit anderen Augen zu sehen. Von hier an war es nicht länger nur ein spannendes Projekt für Studenten, sondern eine echte Gelegenheit, etwas Großes für die Menschheit zu tun, so Thrun.

Das Endprodukt, welches Thema in 25. Ausgabe (Jan. 2017) von Nature ist, musste seine Zuverlässigkeit im Wettbewerb gegen 21 renommierte Dermatologen beweisen. Bei der Befundung von jenen Hautläsionen, die die häufigsten und tödlichsten Hautkrebsarten darstellen, war der Algorithmus jedenfalls der Leistung der Dermatologen ebenbürtig.

Warum Hautkrebs?

Die Diagnosestellung von Hautkrebs beginnt in der dermatologischen Praxis immer mit der visuellen Inspektion. Ein Dermatologe betrachtet die suspekten Läsionen in der Regel mit dem bloßen Auge, sowie mit Hilfe eines Dermatoskops. Wenn diese Methoden keine schlüssigen Aussagen ermöglichen oder dem Dermatologen Hinweise auf eine bestehende Malignität der Läsion geben, ist die Biopsie der nächste Schritt.

Die Integration des neuen Algorithmus in den Untersuchungsprozess folgt einem bestehenden Trend in der Computertechnik, der visuelle Verarbeitung mit sogenanntem "Deep Learning" kombiniert, einer Art künstlicher Intelligenz, die nach neuronalen Netzwerken im Gehirn modelliert ist.

Deep Learning hat bereits eine jahrzehntelange Geschichte in der Informatik, wird aber erst seit kurzem an visuellen Verarbeitungsaufgaben mit großem Erfolg angewendet. Die Essenz des maschinellen Lernens ist, dass ein Computer dazu ausgebildet wird herauszufinden, ob ein Problem besteht, anstatt es zu lösen.

Dem Algorithmus wurde jedes Bild in Form von Rohpixeln mit einem jeweils zugeordneten Krankheitsbild eingespeist. Im Vergleich zu anderen Methoden erfordert dies eine sehr geringe Verarbeitung oder Sortierung der Bilder vor der Klassifizierung. Das erlaubt es dem Algorithmus, eine besonders breitere Palette von Daten zu verarbeiten.

Von Katzen und Hunden zu Melanomen und Karzinomen

Anstatt einen Algorithmus von Grund auf neu zu erstellen, begannen die Forscher mit einem von Google entwickelten Algorithmus, der bereits dazu ausgebildet wurde, 1,28 Millionen Bilder aus 1000 verschiedenen Objektkategorien zu identifizieren. Währenddessen das Programm in seiner ursprünglichen Form darauf ausgelegt war, Katzen von Hunden zu unterscheiden, mussten die Forscher es für ihre Absichten so weit voranbringen, dass es in der Lage ist ein malignes Karzinom von einer gutartigen seborrhoischen Keratose zu unterscheiden.

Ein Hindernis auf dem Weg dahin war die Tatsache, dass es bis dahin keine riesigen Datensätze von Hautkrebsbildern gab, anhand welcher sie ihre Algorithmen hätten trainieren können. Sie waren also gezwungen, eine eigene Datenbank anzulegen.

Dafür hat die Gruppe passende Bilder aus dem Internet gesammelt und in Zusammenarbeit mit der medizinischen Fakultät, einer geeigneten Systematik zugeordnet. Ein wichtiger Schritt, da die Bilder völlig durcheinander zusammengetragen wurden und ihre Beschreibungen in allen möglichen Sprachen der Welt verfasst waren.

Nachdem sie die notwendigen Übersetzungen durchgeführt hatten, arbeiteten die Forscher zusammen mit Dermatologen von Stanford Medicine sowie mit Co-Autorin Helen M. Blau, einer Professorin für Mikrobiologie und Immunologie in Stanford. Gemeinsam arbeitete dieses interdiziplinäre Team daran das Durcheinander der Internetbilder zu klassifizieren.

Viele von den Aufnahmen variierten, im Gegensatz zu denen, die von medizinischen Fachleuten gemacht wurden, hinsichtlich ihres Aufnahmewinkels, Zooms und der Beleuchtung. Am Ende sammelten sie auf diese Weise etwa 130.000 Bilder, die über 2.000 verschiedene Krankheiten der Haut darstellten.

Während ihrer Tests verwendeten die Forscher ausschließlich qualitativ hochwertige, durch Biopsien bestätigte Bilder, die von der University of Edinburgh und dem International Skin Imaging Collaboration Project zur Verfügung gestellt wurden und die häufigsten und tödlichsten Hautkrebserkrankungen darstellten: maligne Karzinome und maligne Melanome.

Die 21 beteiligten Dermatologen wurden gefragt, ob sie, basierend auf jedem Bild, mit einer Biopsie oder Behandlung fortfahren oder den Patienten beruhigen würden. Die Forscher evaluierten dabei, wie treffsicher die Dermatologen darin waren, die gezeigten Bilder korrekt zu diagnostizieren. Dabei kamen 370 Bilder von sowohl krebsartigen, als auch nicht-kanzerösen Läsionen zum Einsatz.

Die Messung des Algorithmus erfolgt durch die Erstellung und Auswertung einer Sensitivität-Spezifität-Kurve. Darin stand die Sensitivität für seine Fähigkeit, bösartige Läsionen korrekt zu identifizieren, währenddessen die Spezifität seine Fähigkeit zur korrekten Erkennung von gutartigen Läsionen beschrieb.

Der Graph wurde anhand von drei dermatologischen Hauptdiagnosen beurteilt: der Keratinozytenkarzinom-Klassifikation, der Melanom-Klassifikation sowie der Melanom-Klassifikation, wenn die Läsion mit Hilfe der Dermatoskopie betrachtet wurde. In allen drei Aufgaben stimmte der Algorithmus mit der Leistungsfähigkeit der Dermatologen überein, wobei der Bereich unter der Sensitivitäts-Spezifitäts-Kurve mindestens 91 Prozent der Gesamtfläche des Graphen ausmachte.

Ein zusätzlicher Vorteil des Algorithmus ist es, dass er im Gegensatz zu einer Person mehr oder weniger empfindlich gemacht werden kann. Dies erlaubt es den Anwendern seine Arbeit je nachdem abzustimmen was er gerade beurteilen soll. Die Fähigkeit, die Senstivität zu verändern, weist auf die Tiefe und Komplexität des Algorithmus hin. Die zugrundeliegende Architektur von scheinbar irrelevanten Fotos - einschließlich denen von Katzen und Hunden - hilft, die Hautläsionsbilder besser zu bewerten.

Gesundheitsfürsorge über das Smartphone

Obwohl dieser Algorithmus derzeit nur auf einem Computer existiert, möchte ihn das Team in der nahen Zukunft Smartphone-kompatibel machen. Ein Schritt der zuverlässigen Hautkrebsdiagnosen direkt an unseren Fingerspitzen holt.

Das Team glaubt, dass der Übergang des Algorithmus auf unsere mobilen Geräten relativ einfach umzusetzen sein wird. Allerdings müsse er davor noch in der realen klinischen Welt weiter getestet werden.

Die potentiellen Vorteile der computergestützten Klassifizierung von gutartigen versus malignen Hautläsionen könnten Dermatologen eine verbesserte Diagnosestellung für anspruchsvolle Läsionen und Patienten bessere Management-Optionen ermöglichen. Allerdings ist dafür eine rigorose prospektive Validierung des Algorithmus notwendig, bevor er in der klinischen Praxis von Ärzten und Patienten gleichermaßen genutzt werden kann.

Doch auch in Anbetracht dieser bevorstehenden Herausforderungen sind die Forscher hoffnungsvoll, dass das Deep Learning eines Tages zur visuellen Diagnostik in verschiedenen medizinischen Disziplinen hilfreich werden kann.

Literatur:

Sebastian Thrun et al. Dermatologist-level classification of skin cancer with deep neural networks. Nature, January 2017 DOI: 10.1038/nature21056