Die Geschichte der KI in der Medizin: Von frühen Expertensystemen bis heute
Von Aristoteles' Syllogismen bis zu heutigen KI-Diagnosesystemen: Die jahrhundertealte Vision intelligenter medizinischer Unterstützung wird in unserer Zeit zur klinischen Realität – mit allen Chancen und ethischen Herausforderungen.
Können Maschinen denken?
Die Idee, dass menschliches Denken von einer Maschine nachgeahmt werden könnte, ist weit älter als das digitale Zeitalter. Bereits im antiken Griechenland entwickelte Aristoteles die syllogistische Logik – eine Methode zum systematischen Ableiten von Schlussfolgerungen aus gegebenen Prämissen. Diese frühe Form des strukturierten Denkens nahm in jene Prinzipien vorweg, die Jahrtausende später den regelbasierten Ansatz moderner Expertensysteme prägen sollten.
Im Laufe der Jahrhunderte spielten Philosophen und Erfinder mit der Idee mechanischer Intelligenz, und Schriftsteller stellten sich Automaten vor, die intelligent auf menschliche Bedürfnisse reagieren konnten. Doch erst im 20. Jahrhundert begann dieser Traum Gestalt anzunehmen und wandelte sich von einer philosophischen Idee zu einem klar definierten .
1950 stellte Alan Turing die schicksalhafte Frage „Können Maschinen denken?“ und schlug den Turing-Test als Maßstab vor. Sein wegweisender Impuls verlieh einer neuen Disziplin intellektuelle Legitimität, die bis zur Dartmouth-Konferenz 1956 einen Namen erhalten hatte: .
Es gibt verschiedene Definitionen von KI. Die kürzlich von der Europäischen Gemeinschaft verabschiedete Definition lautet wie folgt: „Künstliche Intelligenz (KI) bezieht sich auf Systeme, die intelligentes Verhalten zeigen, indem sie ihre Umgebung analysieren und mit einem gewissen Maß an Autonomie Maßnahmen ergreifen, um bestimmte Ziele zu erreichen.“
Die Anfänge der KI in der Medizin
Die ersten Versuche im Bereich der in den 1950er- und 1960er-Jahren waren noch recht primitiv, aber sie zeigten, wie spannend es war, die diagnostischen Überlegungen von Ärzten in Codezeilen zu erfassen.
An der Stanford University entwickelten Forscher eines der ersten echten Expertensysteme, allerdings nicht für die Medizin, sondern für die Chemie: DENDRAL. DENDRAL wurde ab 1965 von Edward Feigenbaum, Joshua Lederberg und Kollegen entwickelt und analysierte Massenspektren, um die Struktur organischer Moleküle zu identifizieren. Sein Erfolg war nicht nur technischer Natur, sondern zeigte auch, dass Computer in engen, aber hochspezialisierten Bereichen Menschen übertreffen können. Der Schlüssel lag nicht in einem allgemeinen Algorithmus, sondern in der Kodifizierung des Expertenwissens selbst. Diese Erkenntnis ließ sich direkt auf medizinische Anwendungen übertragen.
Inspiriert von dieser Arbeit startete die Universität Pittsburgh Anfang der 1970er Jahre das Projekt INTERNIST-I. INTERNIST-I wurde als Lehr- und Diagnosehilfe für die konzipiert und versuchte, mögliche Diagnosen durch die Analyse der Symptome und Labordaten von Patienten zu ordnen. Das Projekt war ambitioniert und umfasste Hunderte von Krankheiten, aber es zeigte schnell die Grenzen des regelbasierten Denkens auf. Das System hatte Schwierigkeiten mit komplexen Fällen, bei denen Begleiterkrankungen auftraten und die klaren Regelhierarchien die komplexe Mehrdeutigkeit realer Patienten nicht abbilden konnten. Dennoch schuf INTERNIST-I einen wichtigen Präzedenzfall und entwickelte sich zum Quick Medical Reference (QMR) weiter, das jahrelang von Medizinstudenten und Lehrkräften weit verbreitet genutzt wurde.
MYCIN: Diagnose von Infektionskrankheiten
Das bekannteste der frühen medizinischen Expertensysteme war MYCIN, das Anfang der 1970er Jahre in Stanford aus der Doktorarbeit von Edward Shortliffe hervorging. MYCIN war auf die Identifizierung bakterieller Infektionen und die Empfehlung von spezialisiert und passte sogar die Dosierung an das Gewicht des Patienten an. Seine Schlussfolgerungsmaschine basierte auf etwa 600 „Wenn-Dann“-Regeln, und eine seiner revolutionären Eigenschaften war die Fähigkeit, seine Schlussfolgerungen zu erklären: Auf Nachfrage konnte MYCIN den Gedankengang beschreiben, der zu seiner Entscheidung geführt hatte. In Bewertungen war seine Leistung mindestens genauso exakt wie die von Spezialisten für Infektionskrankheiten.
Doch trotz all seiner Brillanz wurde MYCIN nie in der klinischen Praxis eingesetzt. Bedenken hinsichtlich der rechtlichen Haftung, ethischer Implikationen und der Schwierigkeit, ein solches System in die realen Arbeitsabläufe eines Krankenhauses zu integrieren, erwiesen sich damals als unüberwindbar.
Dieser offensichtliche Misserfolg wurde zu einer Lektion für sich. Wie Shortliffe selbst später feststellte, war MYCIN weniger wegen seiner klinischen Nützlichkeit wichtig als wegen seiner Rolle als Proof of Concept.
Die Erkenntnis war bemerkenswert: Strukturiertes medizinisches Fachwissen ließ sich formalisieren, systematisch verarbeiten und durch Computersysteme gezielt abrufen. Das daraus hervorgegangene Werkzeug EMYCIN, eine Entwicklungsumgebung zur Konzeption vergleichbarer Expertensysteme, übertrug diesen Ansatz erfolgreich auf diverse Fachgebiete und wurde zum Impulsgeber für eine vollständige Forschergeneration. MYCIN machte auch auf Herausforderungen aufmerksam, die bis heute aktuell sind: Wie lässt sich integrieren, ohne die Verantwortung der Ärzte zu untergraben? Wie lassen sich Transparenz und Verantwortlichkeit gewährleisten? Und wie kann man das Vertrauen von Klinikern und Patienten gleichermaßen gewinnen?
Die Schwierigkeit, medizinisches Wissen in präzise Muster zu übersetzen
In den 1980er Jahren kam es zu einer Verbreitung von Expertensystemen in der Medizin, viele davon angeregt durch die Begeisterung für MYCIN. CADUCEUS beispielsweise versuchte, INTERNIST-I zu verbessern, indem es ausgefeiltere Schlussfolgerungen bei der Diagnose von anbot. Gleichzeitig wurden Überwachungssysteme für Intensivstationen entwickelt und Diagnosehilfen in Bereichen der Hämatologie bis zur Endokrinologie geschaffen. Diese Projekte profitierten von den übertragbaren Strukturen, die von Systemen wie EMYCIN eingeführt wurden und die Notwendigkeit reduzierten, das Rad mit jeder Anwendung neu zu erfinden. Sie zeigten jedoch auch, dass die Komplexität der Medizin nur selten in übersichtlichen Regelwerken erfasst werden konnte.
Der Wissenserwerb – der Prozess der Kodierung menschlichen Fachwissens in eine computerlesbare Form – erwies sich als enormer Engpass. Ärzte waren nicht immer bereit oder in der Lage, ihr implizites Wissen in explizite Regeln zu übersetzen, und mit der Weiterentwicklung der Medizin wurde es immer schwieriger, die Regelwerke zu pflegen.
Rückblickend markierten diese Schwierigkeiten das Ende der „heroischen“ Ära der regelbasierten medizinischen KI und den Beginn einer allmählichen Verlagerung hin zu statistischen und maschinellen Lernansätzen. In den 1990er Jahren ebneten die zunehmende Rechenkapazität und die wachsende Verfügbarkeit elektronischer Patientenakten den Weg für datenbasierte Analyseverfahren – von der logistischen Regression bis hin zu Bayes'schen Netzwerken. Die explosionsartige Zunahme in den 2000er Jahren verstärkte diesen Trend noch weiter. Dennoch bleibt das intellektuelle Erbe der frühen Expertensysteme bestehen. Die Aufmerksamkeit für Transparenz in MYCIN findet ihren Widerhall in der heutigen Betonung erklärbarer KI; die Grenzen von INTERNIST-I erinnern uns daran, dass Komorbiditäten und Unsicherheit für die reale Medizin von zentraler Bedeutung sind und der Erfolg von DENDRAL zeigt, dass sorgfältig kodiertes domänenspezifisches Fachwissen neue, leistungsstarke Erkenntnisse erschließen kann.
Alte und neue Herausforderungen
Die Geschichte der KI in der Medizin ist nicht nur eine Geschichte der Technologie. Es ist eine Chronik von Ambitionen und Hindernissen, von Pionieren, die es wagten, klinisches Denken in computergestützte Logik zu übersetzen, und von Lehren, die die Debatte über Ethik, Vertrauen und Verantwortung weiterhin prägen. Wenn sich heutige Ärzte Gedanken darüber machen, ob ein Deep-Learning-System autonome Entscheidungen treffen dürfen sollte, spiegeln sie dieselben Bedenken wider, die MYCIN vor fünfzig Jahren gestoppt haben. Die Fragen haben sich nicht so sehr geändert wie die Algorithmen.
Es ist verlockend, die Geschichte als eine gerade Linie von Aristoteles' Syllogismen bis zu den heutigen neuronalen Netzen zu betrachten, aber die Wahrheit ist differenzierter. Der Weg war gespickt mit Fehlstarts, spannenden Prototypen und der allmählichen Erkenntnis, dass es in der Medizin nicht nur um Daten und Logik geht, sondern auch um Werte, Kontext und menschliches Urteilsvermögen. KI in der Medizin ersetzt dieses Urteilsvermögen nicht, sondern steht in einem sich entwickelnden Dialog mit ihm.
Während die frühe Geschichte der medizinischen KI von Enthusiasmus, Prototypen und Erkenntnissen über die Grenzen regelbasierten Denkens geprägt ist, haben sich die heutigen Debatten auf umfassendere soziale und klinische Implikationen verlagert. Algorithmische Verzerrungen, mangelnde Transparenz und unzureichende externe Validierung bleiben zentrale Hindernisse für eine sichere . Da KI-Systeme zunehmend auf elektronische Gesundheitsakten und Bildarchive zurückgreifen, sind auch Bedenken hinsichtlich des Datenschutzes und der Einwilligung der Patienten aufgekommen.
Gleichzeitig zeigen systematische Übersichtsarbeiten den Mangel an randomisierten kontrollierten Studien und die häufige Diskrepanz zwischen beeindruckender retrospektiver Leistung und praktischer Anwendbarkeit auf. Diese Probleme spiegeln in moderner Form die gleichen Herausforderungen wider, die einst MYCIN einschränkten: Genauigkeit allein reicht nicht aus, wenn Systeme nicht zuverlässig, interpretierbar und ethisch in klinische Arbeitsabläufe integriert sind.
KI hat das Potenzial, den medizinischen Sektor zu revolutionieren und Diagnose, Behandlung und Krankheitsmanagement zu verbessern. Es ist unerlässlich, die ethischen, sozialen, datenschutzrechtlichen und Fragen im Zusammenhang mit dem Einsatz von KI in der Medizin proaktiv anzugehen, um positive und gerechte Auswirkungen für alle Patienten und das gesamte Gesundheitswesen sicherzustellen.
Quellen und weiterführende Literatur:
- Shortliffe EH. Computer-Based Medical Consultations: MYCIN. New York: Elsevier; 1976.
- Kulikowski CA. Beginnings of artificial intelligence in medicine (AIM): computational artifice assisting scientific inquiry and clinical art – with reflections on present AIM challenges. Yearb Med Inform. 2019 Aug;28(1):249-256. doi:10.1055/s-0039-1677903.
- Kaul V, Enslin S, Gross SA. History of artificial intelligence in medicine. Gastrointest Endosc. 2020 Oct;92(4):807-812. doi:10.1016/j.gie.2020.06.040.
- Buchanan BG, Feigenbaum EA, Lederberg J, Sutherland GE. Heuristic DENDRAL: a program for generating explanatory hypotheses in organic chemistry. In: Meltzer B, Michie D, editors. Machine Intelligence 4. Edinburgh: Edinburgh University Press; 1969. p. 209-254.
- Miller RA, Pople HE Jr, Myers JD. INTERNIST-I, an experimental computer-based diagnostic consultant for general internal medicine. N Engl J Med. 1982 Aug 19;307(8):468-76. doi:10.1056/NEJM198208193070803.
- Berner ES, editor. Clinical Decision Support Systems: Theory and Practice. 3rd ed. Cham: Springer; 2016.
- Liu X, Faes L, Kale AU, et al. A comparison of deep learning performance against health-care professionals in detecting diseases from medical imaging: a systematic review and meta-analysis. BMJ. 2019 Mar 25;364:l689. doi:10.1136/bmj.l689.
- Yu KH, Beam AL, Kohane IS. Artificial intelligence in healthcare. Lancet Digit Health. 2019 Oct;1(2):e83-e91. doi:10.1016/S2589-7500(19)30026-2.
- Nagendran M, Chen Y, Lovejoy CA, et al. Artificial intelligence versus clinicians: systematic review of design, reporting standards, and claims of deep learning studies. Lancet Digit Health. 2020 Oct;2(10):e489-e498. doi:10.1016/S2589-7500(20)30100-2.