Zeig mir deinen Röntgen-Thorax und ich sage dir dein Sterblichkeitsrisiko

In einer Kooperation der Fachhochschule Stralsund mit der Harvard Universität haben Wissenschaftler einen Algorithmus zur Mortalitätsprognose auf der Basis von Röntgen-Thorax-Aufnahmen entwickelt.

In einer Kooperation der Fachhochschule Stralsund mit der Harvard Universität haben Wissenschaftler einen Algorithmus zur Mortalitätsprognose auf der Basis von Röntgen-Thorax-Aufnahmen entwickelt.

Die heutige CME-Frage (leider ohne Punkte) stammt aus der KI-Medizin und lautet: Was ist ein konvolutionelles neuronales Netz?

Falls Sie nicht gerade als Avantgarde-Mediziner selbst mit so einem Teil arbeiten, brauchen Sie ja vielleicht einen Moment zum Überlegen. In der Zwischenzeit wenden wir uns erstmal etwas sehr Konventionellem zu: dem Röntgen-Thorax.

Der konventionelle Röntgen-Thorax: immer noch führend …

Diese Diagnosetechnik hat noch das Privileg, ihren Erfinder bzw. Entwickler im Namen zu tragen, der im vorletzten Jahrhundert, genauer gesagt am 8. November 1895, die dafür verwendete Strahlung entdeckte. Auch heute noch, zu Beginn des dritten Jahrtausends, ist die konventionelle Röntgendiagnostik die am häufigsten zur Untersuchung des menschlichen Körpers und insbesondere der Lunge angewandte Bildgebung.

Nur nebenbei, weil wir kurz beim Bundesamt für Strahlenschutz (natürlich nur online) nachgeschaut haben: Im Jahr 2015 erfolgten in Deutschland schätzungsweise etwa 135 Millionen Röntgenanwendungen. Mit etwa 40% entfiel der größte Teil auf den zahnmedizinischen Bereich, gefolgt von Skelett und Brustkorb. Die Häufigkeit von Röntgenuntersuchungen blieb zwischen 2007 und 2015 nahezu konstant bei 1,7 pro Einwohner und Jahr. Während das Volumen der konventionellen Röntgendiagnostik im betrachteten Zeitraum abgenommen hat, gab es bei den CT- Untersuchungen eine Zunahme um etwa 40% zu verzeichnen, beim strahlenfreien MRT sogar um rund 60%.

… und demnächst eine Goldmine?

Doch zurück zum Röntgen-Thorax. Wir leben in Zeiten des beschleunigten Umbruchs, erkennbar am Nebeneinander von vertrauten, konventionellen Praktiken und ultraneuen, je nach Blickwinkel bzw. Anwendung faszinierenden bis beängstigenden Fortschrittsentwicklungen. An erster Stelle ist hier, auch aus medizinischer Sicht, die Digitalisierung mit Big Data, maschinellem Lernen und künstlicher Intelligenz (KI) zu nennen. Interessanterweise wird es noch eine ganze Weile um ein Nebeneinander und nicht, wie bei anderen disruptiven Innovationen, um eine schlagartige Verdrängung zu Ungunsten des Bisherigen gehen. Zum Glück, denn wir wollen ja als Ärzte und auch als Menschen weiterhin unsere Daseinsberechtigung haben …

Für den Röntgen-Thorax bedeutet das: Er könnte gerade zu einer Art medizinischer Goldmine im beginnenden KI-Zeitalter geworden sein. Bei diesem Gold handelt es sich um den Datenschatz an prognostischer Information, der in den routinemäßig angefertigten Aufnahmen schlummert und künftig möglicherweise mit einem Algorithmus (und damit äußerst kostengünstig) gehoben werden kann.

Neuronale Netze und Deep Learning: bekannte Schlagwörter … die was bedeuten?

Jetzt kommt das konvulotionelle neuronale Netz ins Spiel. Als Antwort auf die eingangs gestellte Frage zitieren wir Wikipedia, weil wir es selbst leider nicht besser formulieren könnten:

"Ein Convolutional Neural Network (CNN oder ConvNet), zu Deutsch etwa "faltendes neuronales Netzwerk", ist ein künstliches neuronales Netz. Es handelt sich um ein von biologischen Prozessen inspiriertes Konzept im Bereich des maschinellen Lernens. Convolutional Neural Networks finden Anwendung in zahlreichen modernen Technologien der künstlichen Intelligenz, vornehmlich bei der maschinellen Verarbeitung von Bild- oder Audiodaten.

Grundsätzlich besteht die Struktur eines klassischen Convolutional Neural Networks aus einem oder mehreren Convolutional Layer, gefolgt von einem Pooling Layer. Diese Einheit kann sich prinzipiell beliebig oft wiederholen, bei ausreichend Wiederholungen spricht man dann von Deep Convolutional Neural Networks, die in den Bereich Deep Learning fallen."

Den architektonischen Vergleich mit einem mehrlagigen Perzeptron schenken wir uns jetzt und zitieren lieber noch, weil man das ja mittlerweile dauernd liest, die Definition von Deep Learning:

"Deep Learning (frei übersetzt: 'tiefgehendes Lernen') bezeichnet eine Klasse von Optimierungsmethoden künstlicher neuronaler Netze, die zahlreiche Zwischenlagen (englisch hidden layers) zwischen Eingabeschicht und Ausgabeschicht haben und dadurch eine umfangreiche innere Struktur aufweisen. In Erweiterungen der Lernalgorithmen für Netzstrukturen mit sehr wenigen oder keinen Zwischenlagen, wie beim einlagigen Perzeptron, ermöglichen die Methoden des Deep Learnings auch bei zahlreichen Zwischenlagen einen stabilen Lernerfolg."

esanum-Topnews: "Die Sterbewahrscheinlichkeit durch Künstliche Intelligenz ermitteln"

Und damit zur eigentlichen Nachricht auf esanum, die eine besondere Erwähnung verdient. Sie kommt von der Hochschule Stralsund und berichtet über eine prognostische Studie¹ in Zusammenarbeit mit der Harvard Universität. Die beteiligten Wissenschaftler haben ein künstliches neuronales Netzwerk, eben ein CNN, geschaffen, das eigenständig die Bilddaten von Röntgen-Thorax-Aufnahmen auswerten und eine Vorhersage zur Langzeit-Sterblichkeit treffen kann.

Für die Entwicklung ihres CNN namens CXR-risk zur Stratifizierung nach dem Gesamtmortalitätsrisiko verwendeten die Forscher Daten von Röntgen-Screening-Armen aus zwei großen klinischen Studien:

Prostate, Lung, Colorectal, and Ovarian Cancer Screening Trial (PLCO): Gemeindekohorte mit über 52.000 asymptomatischen Rauchern und Nichtrauchern im Alter von 55–74 Jahren, eingeschrieben an 10 US-Standorten, Nachbeobachtung bis zu 13 Jahre;
National Lung Screening Trial (NLST): Gemeindekohorte mit knapp 5.500 starken Rauchern im Alter von 55–74 Jahren, eingeschrieben an 21 US-Standorten, Nachbeobachtung bis zu 8 Jahre.

Trainiert wurde die KI mit über 85.000 Bildern (Eingangs- und erste Nachuntersuchung) und Follow-up-Material von knapp 42.000 PLCO-Teilnehmern. Für die interne Validierung (20% -Zufallsstichprobe mit über 10.000 PLCO-Teilnehmern) und für die externe Testung (NLST) wurden nur Erstaufnahmen herangezogen, um den späteren Anwendungsfall abzubilden.

Bilddaten weisen auf ein Sterberisiko von bis zu 53% über 12 Jahre

Mit dem algorithmischen Informationsgewinn ausschließlich auf Grundlage der Bilddaten einer einzelnen Röntgen-Thorax-Aufnahme kann nun eine abgestufte Risikobewertung (CXR-Risk Score) hinsichtlich des Langzeitüberlebens erfolgen. Dafür benötigt der Algorithmus weniger als eine halbe Sekunde. Bereits existierende Röntgenaufnahmen können damit „zu geringen bis gar keinen Kosten im Hinblick auf die Sterbewahrscheinlichkeit“ ausgewertet werden, heißt es in der Pressemitteilung der Hochschule Stralsund.

Die Wissenschaftler nahmen anhand des CXR Risiko-Scores eine Stratifizierung in Quintilen vor:

sehr hohes Risiko: 53% Mortalität über 12 Jahre (PLCO) bzw. 34% Mortalität über 6 Jahre (NLST);
hohes Risiko: 25% bzw. 10%;
moderates Risiko: 13% bzw. 7%;

niedriges Risiko: 8% bzw. 4%;
sehr niedriges Risiko: 4% bzw. 3%.

In der unadjustierten Analyse bedeutete das ein über 18-fach (PLCO) bzw. über 15-fach (NSLT) erhöhtes Risiko (Hazard Ratio, HR) in der höchsten gegenüber der niedrigsten Risikoklasse. Auch nach Adjustierung bezüglich radiologischer Befundungen und Risikofaktoren erwies sich der Zusammenhang als robust (HR 5 bei PLCO und HR 7 bei NLST). Neben der Gesamtsterblichkeit ergaben sich ähnliche Assoziationen für die folgenden drei Todesursachen:

Lungenkrebs (HR 11 bzw. HR 8);
kardiovaskuläre Erkrankung (HR 4 bzw. HR 48);
respiratorische Erkrankung (HR 28 bzw. HR 32).

Im PCLO-Datenmaterial war die häufigste Todesursache eine kardiovaskuläre Erkrankung, an der 4,1% der Teilnehmer verstarben, im NLST-Datenset dagegen Lungenkrebs (2,1%).

Ko-Autor Prof. Thomas Mayrhofer von der Hochschule Stralsund geht davon aus, dass das Wissen über das individualisierte Sterberisiko dazu genutzt werden kann, um informierte Entscheidungen zu treffen. Der KI-Score könnte, so hoffen die Autoren, Hochrisikopersonen zusätzlich dazu motivieren, durch Präventionsmaßnahmen, regelmäßige Screening-Teilnahme und Lebensstilinterventionen ihrem vorzeitigen Versterben entgegenzuwirken.

Was bedeutet das für den künftigen Praxisalltag?

Es ist durchaus denkbar, dass diagnostische Routineaufnahmen ziemlich einfach auf spezielle Websites zur KI-Risikoanalyse hochgeladen werden könnten, heißt es in einem Beitrag zu dieser Studie auf medscape.com. Erstautor Dr. Michael LU von der Harvard Medical School äußert sich dazu allerdings zurückhaltend: "Die Technologie ist zwar da, wir brauchen aber klinische Studien, die beweisen, dass diese Informationen tatsächlich bei der Entscheidungsfindung helfen und die Gesundheit verbessern."

Außerdem merkt er an, dass nicht klar sein, wie viele Patienten tatsächlich ihr 12-Jahres-Sterblichkeitsrisiko kennen möchten. Wohl wahr …

Kritisch äußern sich zwei zum Kommentar² der Studie eingeladene New Yorker Kollegen. Sie sehen die Verhinderung eines unerwünschten Outcomes durch KI noch nicht in naher Zukunft und hinterfragen den Wert der KI-vermittelten Information, wenn (noch) nicht klar ist, was man damit anfangen kann bzw. was eine lohnende Präventionsstrategie sein könnte. Für sie demonstriert die Studie – ungeachtet des unzweifelhaften Potenzials des Deep Learning für die klinische Beurteilung und Versorgung – "die Kluft zwischen der Entwicklung eines wissenschaftlich tadellosen Algorithmus und seiner sinnhaften Anwendung im realen Leben."

Referenzen:
1. Lu MT et al. Deep Learning to Assess Long-term Mortality From Chest Radiographs. JAMA Netw Open 2019;(7):e197416. doi:10.1001/jamanetworkopen.2019.7416
2. Tsega S, Cho HJ. Prediction and Prevention Using Deep Learning. JAMA Netw Open 2019;2(7):e197447. doi:10.1001/jamanetworkopen.2019.7447