In den letzten Jahren hat künstliche Intelligenz (KI) erheblich an Bedeutung gewonnen. Obwohl die Ursprünge der KI bereits im Jahr 1955 liegen [1], ist sie seit dem Auftreten von Large Language Models wie ChatGPT aktueller denn je. Im orthopädisch-traumatologischen Bereich sind bereits KI-Modelle im Einsatz, die diagnostische Funktionen übernehmen, beispielsweise in der Frakturerkennung oder bei der Vermessung bzw. Quantifizierung von radiologischen Parametern [2,3,4,5,6,7]. Trotz dieser Fortschritte werden Röntgenbilder im klinischen Alltag weiterhin manuell von Ärztinnen beurteilt, vermessen und narrativ beschrieben. Diese herkömmliche Bewertungsmethode ist jedoch subjektiv, was zu erheblichen Unterschieden in den Ergebnissen führen kann.

Interrater- und Intrarater-Variabilität

Die manuelle Bewertung und Vermessung von Röntgenbildern unterliegen verschiedenen Einflussfaktoren. Stress im klinischen Alltag, Ermüdung oder Unachtsamkeit können das Ergebnis beeinträchtigen. Die Intrarater-Variabilität beschreibt Unterschiede zwischen Bewertungen desselben Befunders, während die Interrater-Variabilität Unterschiede zwischen zwei verschiedenen Befundern angibt. Trotz der Verfügbarkeit von 5 Megabyte an Daten in einem DICOM-Röntgenbild (Digital Imaging and Communications in Medicine) werden die Bilder nach wie vor subjektiv auf einem Bildschirm bewertet, ähnlich wie vor 100 Jahren. Die Variabilität in der Genauigkeit von Messergebnissen bei rein manuellen Auswertungen konnte bereits im Zuge früherer Studien gezeigt werden [8,9,10].

Ein Algorithmus basierend auf künstliche Intelligenz (KI) ist unabhängig von Erfahrung oder Tagesverfassung eines Befunders. Zusätzlich kann die Software die volle Dateninformation verwenden und beispielsweise Kontrastunterschiede auf den Pixel genau beurteilen. Dies führt zu einem präzisen und vor allem reproduzierbaren Ergebnis.

Künstliche Intelligenz und Machine Learning

Künstliche Intelligenz (KI) ist ein Sammelbegriff für Computerprogramme, die die Fähigkeit besitzen, intelligente Aufgaben zu übernehmen und zu lösen. Die KI erlebte eine neue Blütezeit mit dem Fortschritt der Rechenleistung, ermöglicht durch moderne Graphics Processing Units (GPU) sowie der Verfügbarkeit umfangreicher (Trainings- und Validierungs‑)Datensätze. Diese Entwicklungen führten zur Entstehung von Untergruppen innerhalb der KI durch die Implementierung komplexerer Algorithmen (Abb. 1).

Abb. 1
figure 1

Das Mengendiagramm zeigt die Untergruppen der künstlichen Intelligenz (KI) auf

Machine Learning (ML) ist eine dieser Untergruppen. ML-Algorithmen können Zusammenhänge von Variablen erkennen und zuvor unbekannte Probleme lösen, ohne explizit dafür programmiert zu sein. ML-Algorithmen können eigenständig Muster und Hypothesen aus Trainingsdaten ableiten, ohne dass Menschen die zu erkennenden Features selbst vorgeben müssen. So löst ein ML-Algorithmus eine Aufgabe eigenständig und ist flexibel in der Findung des Lösungswegs. Einerseits sind diese Eigenständigkeit und Flexibilität ein Vorteil, andererseits können sie auch zum Nachteil werden. Dadurch, dass nicht jeder einzelne Schritt überwacht werden muss oder kann, können nicht alle Teilschritte nachvollzogen werden, und man spricht von einer Black-Box.

Einteilung

Machine Learning kann unterteilt werden in:

  • Überwachtes Lernen (Supervised Learning): In diesem Ansatz wird ein Algorithmus anhand von Daten trainiert, die zu einem bestimmten Input (z. B. Knie-Röntgenbilder) ein gewünschtes Ergebnis (z. B. Kellgren-Lawrence-Grade) liefern. Das Ziel besteht darin, dass der Algorithmus nach erfolgreichem Training und Validierung in der Lage ist, eigenständig neue Daten zu bewerten.

  • Unüberwachtes Lernen (Unsupervised Learning): Im unüberwachten Lernen wird der Algorithmus nicht anhand vordefinierter Ergebnisse trainiert. Hier steht die Erzeugung von Gruppierungen von Merkmalen, auch durch sog. Cluster-Verfahren, im Vordergrund. Ziel ist es, dass der Algorithmus Muster erkennt, die Menschen schwer erfassen können. Bei großen Datenmengen können so verborgene Muster identifiziert werden, was wiederum Rückschlüsse auf Ursachen von Erkrankungen ermöglichen kann.

  • Bestärkendes Lernen (Reinforcement Learning): Dieser Ansatz belohnt den Algorithmus für das Erreichen eines bestimmten Ziels. Dabei sucht der Algorithmus nach dem optimalen Weg zur Zielerreichung. Ein bekanntes Anwendungsbeispiel findet sich im Bereich von Spielen wie Schach, wo das Gewinnen als definiertes Ziel gilt und der Algorithmus den optimalen Weg dafür sucht.

Deep Learning (DL) ist eine spzielle Methode des ML. Es verwendet neuronale Netzwerke, die in ihrer Architektur dem menschlichen Gehirn ähneln, um komplexe Aufgaben wie Bilderkennung zu lösen. In der bildgebenden Diagnostik werden DL-Algorithmen verwendet, um (unter anderen) Anomalien auf Röntgenbildern zu detektieren. Eine entscheidende Voraussetzung dafür ist, dass beim Training des Algorithmus qualitativ hochwertige und vielschichtige Daten zum Einsatz kommen. Das bedeutet, dass sämtliche Merkmale einer Erkrankung auf den Röntgenbildern, die für das Training verwendet werden, möglichst umfassend vertreten sind. Die Qualität und Vielfalt der Daten spielen eine zentrale Rolle. Bei einem Datensatz mit hoher Varianz (unterschiedliche Erscheinungsbilder bei derselben Erkrankung) sind größere Datensätze erforderlich, um robuste DL-Modelle zu entwickeln. Eine umfassende Repräsentation der Erkrankungsmerkmale auf den Trainingsbildern ist entscheidend, um die Fähigkeit des Algorithmus zur zuverlässigen Erkennung verschiedener Krankheitsbilder zu gewährleisten. Damit leisten die Auswahl und Qualität der Trainingsdaten einen maßgeblichen Beitrag zur Effektivität und Genauigkeit von DL in der medizinischen Bildgebung.

Interne vs. externe Validierung

Die Entwicklung eines DL-Algorithmus erfordert sowohl Training als auch Validierung, wobei Letztere die Bewertung der Genauigkeit eines Modells darstellt. Der Validierungsprozess kann in interne und externe Validierung unterteilt werden. Bei der internen Validierung erfolgt eine Aufteilung desselben Datensatzes in Trainings- und Validierungsdaten. Die Cross-Validierung ist ein Prozess, bei dem der Datensatz mehrmals in Trainings- und Validierungsdaten unterteilt wird, bis alle Daten für das Training verwendet wurden. Der Vorteil der internen Validierung liegt in der Notwendigkeit kleinerer Datensätze und der einfacheren Durchführung. Dennoch ermöglicht selbst eine hochgenaue Cross-Validierung keine Aussage über die Reproduzierbarkeit und Anwendbarkeit auf andere Datensätze. Es besteht auch die Möglichkeit eines zusätzlichen Bias, wenn der Trainingsdatensatz die gewünschte Zielgruppe nicht angemessen repräsentiert. Ein Beispiel dafür ist die Untersuchung von Zech et al., die zeigte, dass das Wort „portable“ als entscheidender Faktor für die Diagnose einer Lungenentzündung auf Thorax-Röntgenbildern fungierte, obwohl es nur als Kennzeichnung für das tragbare Röntgengerät auf den Bildern erschien [11]. Externe Validierung hingegen verwendet einen Datensatz für Training und einen zusätzlichen (externen) Datensatz für die Validierung. Der Validierungsdatensatz soll sich grundsätzlich vom Trainingsdatensatz unterscheiden, beispielsweise geografisch durch Röntgenbilder aus verschiedenen Ländern bzw. Modalitäten. Externe Validierung ist deswegen zwar aufwendiger und Daten schwieriger zu erheben, allerdings können hierdurch oben genannte Nachteile der internen Validierung verringert werden. In der Regel wird eine externe Validierung als Grundlage für die Zulassung als Medizinprodukt verlangt.

Muskuloskeletale Erkrankungen und bildgebende Diagnostik

Muskuloskeletale (MSK) Erkrankungen sind die häufigsten arbeitsbezogenen Erkrankungen in Europa und der häufigste Grund für das Aufsuchen der Notaufnahme [12,13,14]. Mit der wachsenden Anzahl an Röntgenbildern die befundet werden müssen, stehen befundende Ärzt:innen unter erhöhtem Druck eine hohe Qualität aufrecht zu erhalten. Die geschätzte radiologische Fehlerrate liegt bei 4−30 %. Auf eine Milliarde Röntgenbilder im Jahr würden demzufolge etwa 40 Mio. radiologische Bilder fehlerhaft diagnostiziert [13, 15].

MSK-Bildgebung wird verwendet, um ein besseres Verständnis für die Anatomie zu gewinnen und mit diesem Verständnis diagnostische Verfahren für die Erkennung von MSK-Erkrankungen zu entwickeln. Im Kontext von KI kann in diesem Bereich in 2D und 3D unterteilt werden. Zur Bilderkennung werden meist DL-Modelle verwendet, um vor allem Auswertungen auf 2D-Bildern durchzuführen. Obwohl Computertomographie (CT) und Magnetresonanztomographie (MRT) als 3D-Verfahren angesehen werden, basiert die Auswertung auf einer Aneinanderreihung von 2D-Bildern. Spezielle DL-Architekturen können auch multidimensionale Daten klassifizieren anstelle von sequenziellen 2D-Daten.

Die Implementierung von KI in die MSK-Bildgebung kann aktuell so verstanden werden, dass bestimmte, klar definierte Aufgaben, die normalerweise von Radiologen oder Orthopäden durchgeführt werden, übernommen werden können. Dies beinhaltet Aufgaben wie die Erkennung und Vermessung von anatomischen Strukturen, Frakturerkennung sowie komplexere Aufgaben wie die Beurteilung des anatomischen Knochenalters oder der Klassifizierung von unterschiedlichen Stadien der Arthrose.

Klassifizierung der Gonarthrose

Die Arthrose des Kniegelenks bzw. Osteoarthrose (OA) betrifft über 200 Mio. Menschen weltweit, mit einem Lebenszeitrisiko von bis zu 45 % [16, 17]. Durch die Befundung nach dem semiquantitativen Kellgren-Lawrence(KL)-Score weist diese eine hohe Inter- und Intrarater-Variabilität auf und ist dadurch ungeeignet für standardisierte Therapieentscheidungen und Studien, welche die Wirksamkeit für Gonarthrose untersuchen [8].

In Studien konnte bereits gezeigt werden, dass mithilfe von KI eine höhere Übereinstimmung zwischen befundenden Ärzt:innen erreicht wird [18, 19]. Als erste KI-Lösung für dieses Fachgebiet wurde IB Lab KOALA (Abb. 2) umgesetzt. Dabei handelt es sich um ein DL-Modell für die automatisierte Bestimmung des KL-Grads, welches an über 35.000 Knie-Röntgenbildern trainiert wurde. Dies ist eine verhältnismäßig hohe Zahl, da es auch andere KI-Modelle gibt, für welche unter 500 Trainingsbilder verwendet wurden [20,21,22].

Abb. 2
figure 2

IB Lab KOALA Beispiel Report. Kellgren-Lawrence-Grade, OARSI-Grade und Gelenkspalthöhe sowie die standardisierte Gelenkspalthöhe werden vermessen

Automatisierte Vermessung der Hüfte

Wie bereits erwähnt, unterliegt die manuelle Vermessung von Röntgenbildern einem gewissen Bias. Für die Erstellung von Diagnosen und Indikationsstellung für Therapien ist allerdings eine möglichst standardisierte und reproduzierbare Messung ausschlaggebend. Mit dem Hüftvermessungstool IB Lab HIPPO (Abb. 3) konnte gezeigt werden, dass die KI bei der Vermessung von Caput-Caput-Diaphysen-Winkel (CCD), Lateral-Center-Edge Winkel (LCE), Tönnis-Winkel, Sharp-Winkel und Femur-Kopf-Extrusion-Index im Vergleich zu menschlichen Readern gleich gut oder besser abschneidet [2].

Abb. 3
figure 3

IB Lab HIPPO Beispiel Report. Vollautomatisierte Vermessung der Hüfte

Automatisierte Vermessung der Beinachse

Die korrekte Vermessung und Beurteilung der Beinachse ist für (beispielsweise) Umstellungsosteotomien ein wichtiger Parameter. Das American College of Radiology Data Science Institute erkannte die automatische Vermessung von Ganzbein-Röntgenbildern als „AI Use Case“ an, da gezeigt werden konnte, dass die Reproduzierbarkeit durch KI verbessert und eine hohe Genauigkeit erzielt werden kann (Abb. 4; [3, 4, 23]) .

Abb. 4
figure 4

IB Lab LAMA Beispiel Report. Vollautomatisierte Vermessung der Ganzbeinachse

Status quo in der bildgebenden Diagnostik – Potenzial der KI für den Befundablauf

Wie eingangs erwähnt, wird die Befundung von Röntgenbildern nach wie vor manuell durchgeführt. Mess- bzw. Befundergebnisse erfordern ein hohes Maß an Genauigkeit, welche für die Erkennung von Erkrankungen und der Zuweisung adäquater Therapien entscheidend sind. Aktuelle Abläufe führen bei der Befundung teilweise zu Übereinstimmungsraten von nur 30 % [24].

Durch den Einsatz von KI-basierter Software können Ärzt:innen im klinischen Alltag unterstützt werden. Dies ermöglicht nicht nur eine Reduzierung zeitaufwändiger Aufgaben, sondern trägt auch zur Verringerung der Arbeitslast bei, gleichzeitig jedoch zur Verbesserung der Qualität. Es ist jedoch wichtig zu betonen, dass die Resultate der derzeit verfügbaren KI-Tools nicht ohne menschliche Validierung angemessen angewendet werden kann.

Des Weiteren könnte die Neudefinierung von Normparametern mithilfe von KI realisiert werden. Neben der bereits hohen Inter- und Intrarater-Variabilität wurden viele Normparameter vor Jahrzehnten anhand kleiner Studienpopulationen definiert und seither nicht mehr aktualisiert, wie beispielsweise die Kellgren-Lawrence-Klassifizierung. In der Ära der Digitalisierung könnten sehr umfangreiche Datensätze unter Berücksichtigung von Faktoren wie ethnischen Unterschieden mit standardisierten und reproduzierbaren Methoden analysiert werden. Dies würde es ermöglichen, Normparameter neu zu definieren und an aktuelle Gegebenheiten anzupassen.

Fazit für die Praxis

  • Machine Learning (ML), als Teilgebiet der künstlichen Intelligenz (KI), ermöglicht durch Bilderkennungsalgorithmen die Beurteilung und Vermessung von Röntgenbildern.

  • Manuelle Messungen sind anfällig für die individuellen Einflüsse der messenden Person und äußere Umwelteinflüsse, was zu Inter- und Intrarater-Variabilität führt.

  • Mithilfe von KI kann die Inter- und Intrarater-Variabilität reduziert und die Reproduzierbarkeit erhöht werden.

  • Externe Validierung, bei der der Validierungsdatensatz grundlegend vom Trainingsdatensatz abweicht, ist entscheidend für die Bewertung der Leistungsfähigkeit und Zuverlässigkeit eines KI-Modells.

  • Als unterstützendes Werkzeug kann KI die Arbeitslast in der diagnostischen Praxis reduzieren, indem sie routineorientierte Aufgaben übernimmt, und gleichzeitig die Qualität durch Standardisierung der Beurteilung verbessern.

  • Menschliche Validierung ist nach wie vor unerlässlich, um die klinische Korrektheit und Sicherheit zu gewährleisten.