Einleitung

Die Digitalisierung im Gesundheitswesen schreitet voran. Nicht nur in Deutschland wird mit großen Initiativen, wie z. B. dem Krankenhauszukunftsgesetz, in die Digitalisierung investiert. Zugleich wird große Hoffnung in die Forschung anhand von Real-World-Daten gesteckt. Sowohl die Digitalisierung als auch die Forschung sollen letztendlich der Bevölkerung zugutekommen und die Prävention, Diagnostik und Behandlung effizienter, sicherer und besser machen. Nicht immer wird dabei daran gedacht, dass die Digitalisierung der Versorgungsprozesse direkten Einfluss auf die Forschung anhand von Real-World-Daten haben kann. In diesem Diskussionsbeitrag sollen die im Rahmen der Digitalisierung erfolgende Standardisierung der Datenerhebung und Übermittlung beleuchtet, die Ansprüche an die Auswertungen von Real-World-Daten und das Wechselspiel der beiden Bereiche national als auch international betrachtet werden. Dafür werden die Begrifflichkeiten „Primärdaten“, „Sekundärdaten“ und „Real-World-Daten“ entsprechend der Tab. 1 definiert, da insbesondere der Begriff „Real-World-Daten“ in verschiedenen Zusammenhängen unterschiedlich benutzt wird [1, 2]. In den folgenden Abschnitten werden zuerst die standardisierte Datenerfassung und der entsprechende Blick auf die europäischen Ansätze dargestellt. Danach wird auf die Möglichkeiten und Schwierigkeiten der Datenzusammenführung geschaut und das Fazit als Diskussionsbeitrag zum anhaltenden Diskurs im Rahmen der Digitalisierungsinitiativen gezogen.

Tab. 1 Definition der Begriffe „Primärdaten“, „Sekundärdaten“ und „Real-World-Daten“ im Kontext des Artikels

Datenerfassung und -übermittlung im Kontext der Digitalisierung

Im Gesundheitswesen wird eine Vielzahl von Daten für die verschiedensten Zwecke erhoben. Neben der klinischen Dokumentation spielen rechtliche Aspekte, Qualitätssicherungs- und Abrechnungserfordernisse eine wichtige Rolle, um nur einige zu nennen. In der papierbasierten Dokumentation wurden viele Daten mehrfach erhoben oder mehrfach dokumentiert, was mit der zunehmenden Digitalisierung idealerweise verbessert wird. Aber Digitalisierung heißt nicht nur, die papiergebundenen Dokumentationen in ein digitales Format zu überführen. Vielmehr sollte Digitalisierung auch mit einem gründlichen Überdenken der zu erhebenden Inhalte, des Datenflusses und der Bearbeitungsschritte einhergehen. Wird beispielsweise die Kommunikation zwischen Labor und Station in einem Krankenhaus digitalisiert, so reicht es nicht, die bisherigen papiergebundenen Daten digital zu übermitteln. Vielmehr sollte gleich mit bedacht werden, welche dieser Daten in welche weiteren Systeme übernommen werden sollen, welche in die Kommunikation mit Dritten fließen und welche vielleicht auch in einem Verlauf über mehrere Jahre mit weiteren Labordaten aus anderen Quellen zusammengeführt werden könnten. Und an diesem Punkt kommt ein entscheidender Faktor ins Spiel: die Standardisierung der Daten. Neben den Schnittstellen zwischen Systemen müssen auch die Kommunikationsformate und Inhalte standardisiert werden. Die sogenannte syntaktische und semantische Standardisierung ist ein wesentlicher Faktor für eine Maschine-zu-Maschine-Kommunikation, die eine sinnvolle Weiterverwendung in dem empfangenden System und für weitere Anwendungszwecke erlaubt. Für das Beispiel der Labordaten gibt es eine Festlegung für die syntaktische und semantische Standardisierung: das Medizinische Informationsobjekt (MIO) „Laborbefund“ [3]. Idealerweise werden an allen Stellen, an denen Labordaten kommuniziert werden, in Zukunft die Festlegungen aus diesem MIO verwendet. Das bedeutet eine erhebliche Umstellung vieler Systeme, denn bisher wurden Labordaten in den verschiedenen Laboren und den nachgelagerten Systemen unterschiedlich abgespeichert. Viele Labore hatten eigene Wertelisten für die Ergebnisse, verwendeten unterschiedliche Einheiten und bezeichneten die Untersuchungen teilweise auch unterschiedlich. In der Entwicklung des MIO wurde nach intensiver fachlicher Diskussion eine Festlegung getroffen: Für die Kommunikation über Laborwerte werden vor allem die Kodiersysteme LOINCFootnote 1, SNOMED CTFootnote 2 und UCUMFootnote 3 eine wichtige Rolle für die semantische Standardisierung spielen. Für die syntaktische Standardisierung ist die einheitliche Festlegung, den internationalen Standard HL7 FHIRFootnote 4 zu verwenden [4], der vor Kurzem auch als zukünftiger Standard für den Datenaustausch in Europa im Rahmen der grenzübergreifenden Gesundheitsversorgung festgelegt wurde [5].

Außerdem spielt der Zweck der Datenerhebung eine entscheidende Rolle. Bereits mit der Verwendung eines einheitlichen Kodiersystems geht ein gewisses Risiko der Datenverzerrung einher, wenn es für unterschiedliche Zwecke verwendet wird. So ist bspw. die deutsche Modifikation der ICD-10, die ICD-10-GM (Internationale statistische Klassifikation der Krankheiten und verwandter Gesundheitsprobleme, 10. Revision, German Modification), in verschiedenen Anwendungen im Einsatz. Für die Kodierung im stationären Bereich spielt hier vor allem der Abrechnungszweck die entscheidende Rolle. Hierfür gibt es ein eigenes Regelwerk (Deutsche Kodierrichtlinien [6]), das zusätzlich zu den Kodierregeln der ICD-10-GM bestimmte Festlegungen trifft (z. B. die Haupt- und Nebendiagnosedefinition). Im ambulanten Sektor gibt es dieses Regelwerk nicht, weil hier die Grundlage für die Vergütung der einheitliche Bewertungsmaßstab für ärztliche Leistungen (EBM) ist, sodass es zu unterschiedlicher Kodierung kommen kann und die Qualität der kodierten Daten in Untersuchungen angezweifelt wird [7]. Das kann direkten Einfluss auf die wissenschaftliche Arbeit mit Sekundärdaten und deren Ergebnisse haben und muss bei den Auswertungen beachtet werden [8].

Auch sind in der Datenerhebung vielfach unstrukturierte Freitexte ein wesentlicher Teil, der sich für eine Standardisierung deutlich komplexer darstellt und bei der Angleichung verschiedener bisheriger Papierdokumentationen an ein digitales einheitliches Format zusätzliche Herausforderungen mit sich bringt [9].

Der Zweck der Datenerhebung ist auch bei Arzneimitteldaten ein wichtiger Faktor für die sekundäre Datenzusammenführung. Schaut man sich die Zulassungsprozesse für Arzneimittel an, so gibt es hierfür Festlegungen auf Kodiersysteme, im Prozess der Verordnung wiederum wurden andere Festlegungen getroffen. So ist in Deutschland die Pharmazentralnummer ein Beispiel eines Kodiersystems, das zwar sehr spezifische Informationen zu Warenzeichen, Wirkstoffstärke, Darreichungsform, Packungsgröße und pharmazeutischem Hersteller enthält, aber nur im ambulanten Sektor im Rahmen der Verordnung zur Anwendung kommt. Ein weiteres verwendetes Kodiersystem ist die weniger detailreiche, aber dafür strukturierte Anatomisch-Therapeutisch-Chemische (ATC) Klassifikation, die für die Sekundärdatenanalysen Auswertungen auf verschiedenen Hierarchieebenen ermöglicht. Und möchte man Nebenwirkungen eines Medikamentes dokumentieren, so erfolgt dies im Versorgungsbereich im Kontext der Diagnosedokumentation mithilfe des Kodiersystems ICD-10-GM, für den Bereich der Pharmakovigilanz wiederum mit dem Kodiersystem MedDRAFootnote 5.

Schaut man sich das Beispiel von chirurgischen Eingriffen an, so werden diese in Deutschland vor allem mit dem Kodiersystem OPSFootnote 6 verschlüsselt. Dieses Kodiersystem wird seit mehr als 20 Jahren in Deutschland verwendet und spielt vor allem für die Abrechnung von Leistungen eine entscheidende Rolle. OPS-Kodes sind z. B. sowohl im deutschen DRGFootnote 7-System relevant als auch für das ambulante OperierenFootnote 8. In jährlichen Zyklen wird das Kodiersystem weiterentwickelt und angepasst. Entsprechende Daten werden z. B. nach der Datenübermittlungsvereinbarung nach § 301 Abs. 3 SGB V zwischen Krankenhäusern und Krankenkassen kommuniziert. Schaut man nun aber in die MIO, so findet man dort zwar auch OPS-Kodes, es sind aber ebenfalls SNOMED-CT-Kodes für das Abbilden von Prozeduren hinterlegt, die in der Abrechnung bisher keine Rolle spielen. Doch warum wird in den MIO diese zusätzliche Kodiermöglichkeit vorgegeben?

Der Blick nach Europa

In Europa ist das Bild sehr heterogen, wenn man sich die Kodierung von chirurgischen Eingriffen ansieht. Viele Länder haben eigene Kodiersysteme entwickelt, einige setzen auch auf das US-amerikanische System ICD-10-PCSFootnote 9 oder sogar noch auf dessen Vorgänger, die ICD-9-CMFootnote 10 (Abb. 1). In den meisten Ländern steht wie auch in Deutschland der Anwendungszweck der Abrechnung im Vordergrund. Für statistische Auswertungen zu chirurgischen Eingriffen ist es schwer, die Daten aus den verschiedenen Ländern zu vergleichen, da die verschiedenen Kodiersysteme sehr unterschiedlich aufgebaut sind. Bereits das „Hospital Data Project“, das in den Jahren 2003 und 2008 statistische Vergleiche zwischen Krankenhausdaten aus Europa durchführte, hat für Operationen nur einen Vergleich auf sehr grober Basis durchführen können [10]. Damals verwendeten noch viele Länder die ICD-9-CM und noch heute stellt EUROSTAT die entsprechenden StatistikenFootnote 11 gruppiert nach ICD-9-CM-Kodes auf sehr grober Basis bereit.

Abb. 1
figure 1

Kodierung der Appendektomie in verschiedenen Kodiersystemen (von oben links nach unten rechts: CCAM [entwickelt in Frankreich; https://www.atih.sante.fr/nomenclatures-de-recueil-de-linformation/ccam], ICD-10-PCS [entwickelt in den USA; https://www.cms.gov/medicare/coding-billing/icd-10-codes/2023-icd-10-pcs], SNOMED CT [weltweit entwickelt; https://browser.ihtsdotools.org/] und OPS [entwickelt in Deutschland; https://klassifikationen.bfarm.de/ops/kode-suche/htmlops2024/index.htm]). (Alle: Zugriff am 28.10.2023)

Was bedeutet das für den grenzübergreifenden Datenaustausch? Wenn Menschen reisen und an verschiedenen Orten eine medizinische Behandlung in Anspruch nehmen, so wäre ein Zugriff auf die versorgungsrelevanten Daten, wie z. B. Allergien, Implantate, aber auch vorangegangene Operationen oder dergleichen, hilfreich. Hierfür wurden entsprechende Strukturen auf europäischer Ebene geschaffen, die europäischen grenzübergreifenden Gesundheitsdienste MyHealth@EUFootnote 12. Zur Nutzung dieser Strukturen ist auch eine Einigung auf europäische semantische und syntaktische Standardisierungen erforderlich. Für chirurgische Eingriffe hat man sich auf das Kodiersystem SNOMED CT geeinigt, allerdings bisher noch begrenzt auf die wichtigsten Kodes, die z. B. bei einer Notfallversorgung relevant sein könnten (Abb. 2).

Abb. 2
figure 2

Ausschnitt aus dem standardisierten Datensatz der „Patient Summary Guideline“ des eHealth-Netzwerks, in dem auch die standardisierte Abbildung von Informationen zu Prozeduren für die grenzübergreifende Versorgung modelliert ist. (Aus: https://health.ec.europa.eu/document/download/e020f311-c35b-45ae-ba3d-03212b57fa65_en?filename=ehn_guidelines_patientsummary_en.pdf; Zugriff am 28.10.2023)

Unter anderem deshalb findet sich im MIO „Patientenkurzakte“, also dem MIO, das die relevantesten Daten einer Person zusammenfasst, auch nicht nur das Kodiersystem OPS für Prozeduren, sondern auch das Kodiersystem SNOMED CT.

Mit der Planung des Europäischen Gesundheitsdatenraums (EHDS) werden bereits Vorbereitungen für die semantische und syntaktische Standardisierung getroffen. Bereits jetzt gibt es Guidelines, also Richtlinien, wie bestimmte Inhalte für den grenzübergreifenden Datenaustausch verwendet werden sollen. Für Europa sind dies die Guidelines des eHealth-Netzwerks [11]. Das eHealth-Netzwerk wurde basierend auf einem Beschluss des Europäischen Parlaments eingerichtet.Footnote 13 In 6 Guidelines werden neben generellen Richtlinien die 5 Themenbereiche Patientenkurzakte, E‑Rezept, Labordaten, Bildgebung und Krankenhausentlassbrief adressiert. Aus den Ansätzen der Guideline Patientenkurzakte (Patient Summary) entstand ein internationaler Standard, der nun auch von ISO bereitgestellt und in Einklang mit den europäischen Überlegungen weiterentwickelt wird („International Patient Summary“ [IPS]Footnote 14; Abb. 2).

Auch für die anfangs erwähnten Labordaten gibt es eine Festlegung. Diese Guideline wurde bei der Entwicklung des MIO „Laborbefund“ berücksichtigt und umgekehrt wurden auch die Überlegungen aus Deutschland in die europäische Richtlinie eingebracht, sodass eine Harmonisierung weitestgehend erfolgen konnte. Doch bis zu einer kompletten Harmonisierung der verwendeten Systeme in Europa braucht es Zeit, denn eine Umstellung ist nicht leicht, vor allem, wenn das jeweilige Kodiersystem bereits in vielen Anwendungen verwendet wird. So gibt es neben den Kodiersystemen für Labordaten, die in dem deutschen MIO festgelegt werden, ein weiteres Kodiersystem in Europa, das in mehreren Ländern genutzt wird: NPUFootnote 15. In der Guideline zu Labordaten des eHealth-Netzwerks wird diese Thematik und auch die Möglichkeit eines sog. Map**s angesprochen.

Bei Arzneimitteln ist in Europa gerade eine Umstellung in Gange. Sowohl für die Zulassung als auch für die weitere Verwendung z. B. im Rahmen der ePrescription sollen in Zukunft Kodiersysteme entsprechend der Standardgruppe ISO IDMPFootnote 16 verwendet werden. Die entsprechenden Entwicklungen laufen als großes europäisches Projekt [12], das die Zulassungsbehörden aller europäischen Länder beteiligt.

Was bedeutet in diesem Zusammenhang Map**?

Map** kann automatisch, halbautomatisch und manuell erfolgen. Dabei werden die Inhalte des Kodes eines Kodiersystems auf einen entsprechenden Kode eines anderen Kodiersystems abgebildet, also quasi „übersetzt“. Wird also in Frankreich im Rahmen einer Behandlung mit der CCAMFootnote 17, der französischen Prozedurenklassifikation, ein Kode für die Appendektomie angegeben, so kann dieser durch ein Map** auf den entsprechenden Kode des OPS „übersetzt“ und die Information dann in den deutschen Systemen weiterverwendet werden, die Information zur vorangegangenen Behandlung steht den weiterbehandelnden Personen zur Verfügung. Beim automatischen Map** ist es wichtig, dass jeweils nur eine „Übersetzungsmöglichkeit“ vorgegeben wird, also in beiden Kodiersystemen jeweils ein entsprechender Kode vorhanden ist. Ist dies nicht der Fall, so muss ggf. eine Vorentscheidung vom Erstellenden des Map**s getroffen werden. Oder man verwendet das Map** halbautomatisch, bietet also bei der Umsetzung der Kodes bei einem entsprechenden Behandlungsfall dem Anwendenden die verschiedenen Auswahlmöglichkeiten an.

Schaut man sich das Beispiel der Appendektomie in Abb. 1 an, so sieht man in den verschiedenen Kodiersystemen, dass teilweise in den jeweiligen Kodes Inhalte angegeben werden, die in anderen Kodiersystemen nicht vorhanden sind, wie der Zugangsweg, die Frage, ob es sich um einen Notfalleingriff handelte, ob die Operation diagnostische Gründe hatte oder auch ob eine Peritonealspülung stattgefunden hat. Gibt das Map** trotz nicht genau passender Inhalte für diese Fälle eine Festlegung vor, so kann es sein, dass Teile der Information verloren gehen, die bei der ursprünglichen Kodierung durch die behandelnde Person noch vorhanden waren.

Um diese Problematik zu umgehen, kann man die Datenerfassung durch ein möglichst detailliertes Kodiersystem vornehmen und dann in den jeweiligen Anwendungsszenarien auf das dafür erforderliche Kodiersystem „aggregieren“. Ein Beispiel für solch ein detailliertes Kodiersystem ist das Kodiersystem SNOMED CT. In Deutschland wurde dieses Kodiersystem in Hinblick auf die Initiativen zur Digitalisierung seit 2021 bereitgestellt. Die Übersetzung in die deutsche Sprache ist gestartet und die Implementierung in den Primärsystemen der Versorgung beginnt. Wird die Datenerfassung in einem gröberen System vorgenommen, so ist ein Map** auf ein detaillierteres Kodiersystem zwingend mit Informationsverlust verbunden.

Bedeutung für die Sekundärdatenanalyse

Die Analyse von Real-World-Daten muss alle diese Faktoren mit in Betracht ziehen. In den Auswertungen muss bedacht werden, welche Einflüsse auf die Datenerhebung eingewirkt haben. Ein Map**, das im Bereich der Datenerhebung und -weitergabe zum Einsatz kommt, kann wesentlichen Einfluss auf die Sekundärdatenanalyse haben, insbesondere wenn Festlegungen im Map** getroffen wurden, die eine systematische Verzerrung in den Daten bewirken können. Auch der Einfluss von zusätzlichen Regelwerken – wie z. B. den Deutschen Kodierrichtlinien – auf einen Teil der Versorgungsdaten muss berücksichtigt werden, auch in grenzübergreifenden Auswertungen.

Die Auswertung von Daten, die im Rahmen der Versorgungsprozesse erhoben werden, können wichtige Erkenntnisse bringen, die wiederum verwendet werden können, um die Versorgungsprozesse zu verbessern (Abb. 3).

Abb. 3
figure 3

Zyklische Beeinflussung von Datenerhebung und Auswertung – Basis für eine erfolgreiche Gesamtstrategie zur Standardisierung von Daten innerhalb von Versorgungsprozessen und Versorgungsforschung. (Quelle: eigene Abbildung)

Für alle Versorgungsprozesse sollte man sich deshalb bei der Digitalisierung des Prozesses nicht nur die Fragen nach dem Datenfluss und der Datenstandardisierung für die Versorgung stellen. Vielmehr werden an diesem Punkt bereits entscheidende Weichen gestellt, die die Versorgungsforschung auf Real-World-Daten maßgeblich beeinflussen können. Im Hinblick auf die Entwicklung des Europäischen Gesundheitsdatenraums sollte bei den nationalen Überlegungen immer auch zusätzlich ein Abgleich mit europäischen Entwicklungen erfolgen. Schaut man sich das Beispiel der Labordaten an, so wird die Versorgungsforschung auf europäischer Ebene aktuell das Problem überwinden müssen, dass in Europa verschiedene Kodiersysteme verwendet werden. Möchte man Daten aus einem Land, das LOINC für die Kodierung verwendet, mit Daten aus einem anderen Land, das NPU für die Kodierung verwendet, zusammenführen, so muss ein Map** erfolgen. Dies kann in großen Datenmodellen, wie z. B. OMOPFootnote 18, hinterlegt werden. Geht aber mit dem Map** ein Informationsverlust einher, so wird dieser die gesamte Datenauswertung betreffen. Für die Analyse wird das Kodiersystem mit der niedrigsten Detailtiefe als „kleinster gemeinsamer Nenner“ gewählt werden müssen. Möchte man Daten aus verschiedenen Ländern zusammenführen, die alle in wenig detaillierten Kodiersystemen erhoben wurden, so wird selbst ein Map** der verschiedenen Kodiersysteme auf ein feiner granuläres Kodiersystem wie SNOMED CT keine detaillierten Analysen möglich machen. Durch den möglicherweise zusätzlichen und unterschiedlichen Informationsverlust des jeweiligen Map**s wird dieser im Zweifel sogar noch größer, als wenn ein direktes Map** der beiden Kodiersysteme der Länder erfolgt. Möchte man aber in Europa Daten zusammenführen, die mit einer Vielzahl an unterschiedlichen Kodiersystemen erhoben wurden, wie aus dem Beispiel der Operationen in Abb. 1 ersichtlich, so kann das Map** auf ein einheitliches Kodiersystem ggf. als einzige praktikable Lösung in Sekundärdatenauswertungen herangezogen werden.

Auch Large Language Models (LLMs) sind in diesem Kontext einsetzbar. Bei LLMs handelt es sich um Sprachmodelle, die mithilfe von künstlicher Intelligenz – trainiert auf einer sehr großen Datenmenge – helfen können Sprache zu verstehen oder zu übersetzen. Ihre primäre Stärke entfalten LLMs vor allem auf Rohdaten, also z. B. unstrukturiertem Text. Allerdings können sie auch, ggf. nach geeigneten Lerniterationen, die Erstellung oder den Einsatz eines Map**s unterstützen [13, 14]. Sind die Daten für den Versorgungsprozess bereits standardisiert worden, so werden auch durch den Einsatz der LLMs die unterschiedlichen Detailgrade der erhobenen Daten nicht überwunden werden können. Auch ist es für bestimmte Forschungsfragen essentiell, dass die verwendeten Map**s validiert und medizinisch korrekt sind. Insofern ist der alleinige Einsatz von LLMs zumindest kurz- und mittelfristig keine Option zur zufriedenstellenden Lösung des Problems der verschieden standardisierten Primärdaten, die in die Analyse der Sekundärdaten einfließen. Insofern stellt sich perspektivisch die Frage, ob die Stärke der LLMs nicht besser in der Datenerhebung genutzt werden könnte und die Datenerhebenden bei der Standardisierung der Daten unterstützt werden könnten. So können durch Einsatz von LLMs bei der Datenerhebung die Anwendenden bei der standardisierten Datenerhebung unterstützt und die Kodierung entsprechend den Gegebenheiten des jeweiligen Anwendungsfalls daraus abgeleitet werden. Der fertige standardisierte Datensatz muss dann durch den Anwendenden nur noch validiert werden.

Bei den Überlegungen zum Europäischen Gesundheitsdatenraum wird davon ausgegangen, dass viele Versorgungsdaten oder Registerdaten herangezogen werden können, um Real-World-Daten auszuwerten. In einem großen europäischen Projekt zur Vorbereitung des Europäischen Gesundheitsdatenraums, der Joint Action „Towards the European Health Data Space“ (TEHDAS), wurde die Interoperabilität von Daten untersucht [15]. Im Entwurf der Verordnung des europäischen Parlaments und des Rates über den europäischen Raum für GesundheitsdatenFootnote 19 findet sich das Kapitel IV zur Sekundärnutzung elektronischer Gesundheitsdaten. Hierin wird zwar auch auf die Notwendigkeit der Interoperabilität von Daten verwiesen, nicht jedoch in dem Umfang, in dem es in den vorherigen Abschnitten zur Primärdatenerhebung erfolgt. Nach der Verabschiedung wird in der Umsetzung der Verordnung weiter darauf hingewirkt werden müssen, dass der Ansatz des Datenzyklus auch im EHDS implementiert wird, und zwar insbesondere der Rückschluss von den Forschungsergebnissen auf Basis von Real-World-Daten zurück zu den Festlegungen für die Interoperabilität, die für die Primärdatenerhebung getroffen werden.

Fazit

Die Erhebung von Daten für Versorgungsprozesse und die Auswertung von Daten für die Forschung sollten Hand in Hand gehen. Sowohl im nationalen als auch im internationalen Kontext kann ein gemeinsamer Ansatz für Datenerhebung und -auswertung die Aussagekraft deutlich erhöhen und somit ein größerer Nutzen für die Gesundheitsversorgung erreicht werden. Auch wenn die Umstellung der Datenerhebung zur Erfüllung der Anforderungen der Digitalisierung bereits alle Beteiligten vor große Herausforderungen stellt, darf in diesem Kontext die Anforderung der Sekundärdatennutzung nicht in den Hintergrund treten, wenn man die Aussagekraft der Ergebnisse von Sekundärdatenforschung verbessern möchte. Konsequenterweise muss immer wieder der Rückschluss zwischen den einzelnen Stationen der Daten hergestellt werden. Lässt man bei der Festlegung der Standards für die Datenerhebung und -weitergabe die Ergebnisse der Analyse der Real-World-Daten und insbesondere der dabei auftretenden Schwierigkeiten und Limitationen der Daten aus den Augen, so werden langfristig Chancen für einen kontinuierlichen Verbesserungsprozess der Datenqualität verpasst. Auch wenn zum jetzigen Zeitpunkt noch die Überwindung der heterogenen Standardisierungslandschaft in Deutschland und auch in Europa die größte Hürde für eine detaillierte Datenanalyse darstellt, so besteht perspektivisch durch die Initiativen im Bereich der Standardisierung der Datenerhebung deutliches Potenzial. Durch eine gemeinsame Betrachtung der Anforderungen an die Standardisierung von Versorgungsprozessen und der Forschungsfragen, die man durch die Analyse von Real-World-Daten lösen möchte, kann schon frühzeitig ein möglichst hoher Nutzen der Digitalisierung für beide Bereiche initialisiert werden. Selbst wenn dieser Prozess zum jetzigen Zeitpunkt zusätzlichen Abstimmungsaufwand mit sich bringt, können mittel- und langfristig dadurch auch eine Reduktion von nötigen Ressourcen für Forschungsprojekte erzielt und schnellere und validere Ergebnisse erreicht werden.