PIONEER: Wegbereiter für maschinelles Lernen mit medizinischen Daten

CASUS wird eine neue zentralisierte Daten- und Analyseplattform für das Forschungsprojekt PIONEER bereitstellen, um der akademischen und industriellen Forschung den Zugriff auf medizinische Daten zu ermöglichen.

Potenziale der Big-Data-Analytik werden genutzt, um die Prostatakrebsbehandlung zu optimieren

Das Zentrum für datenintensive Systemforschung (CASUS) am Helmholtz-Zentrum Dresden-Rossendorf (HZDR) engagiert sich beim Forschungsprojekt "PIONEER" des öffentlich-privaten Gemeinschaftsunternehmen Innovative Medicines Initiative 2. Das europäische Konsortium will die Potenziale von Big Data und Big-Data-Analytik erschließen, um eine optimale Prostatakrebsbehandlung zu erreichen. Das CASUS wird eine neue zentralisierte Daten- und Analyseplattform für PIONEER bereitstellen. Sie soll der akademischen und der industriellen Forschung den Zugriff auf Daten sowie Maschinenlern-Analysen ermöglichen.

Prof. James N'Dow, wissenschaftlicher Leiter von PIONEER und Außerordentlicher Generalsekretär der European Association of Urology, begrüßt den neuen Partner HZDR im Konsortium: "Die CASUS-Expertise am HZDR im Bereich der Verarbeitung großer Datenmengen wird für eine sichere, skalierbare und nachhaltige Infrastruktur für die Big-Data-Plattform von PIONEER sorgen. Wir freuen uns, diese nächste Phase von PIONEER gemeinsam mit dem CASUS in Angriff zu nehmen." Das CASUS wird nicht nur die Cloud-Infrastruktur für diese Plattform bereitstellen, sondern auch die föderierte Datenanalyse für alle Konsortiumsmitglieder einrichten und betreuen.

Für Dr. Michael Bussmann, Gründungsbeauftragter des Görlitzer Forschungszentrums, ist dieser letzte Aspekt von zentraler Bedeutung: "Durch die Entwicklung fortschrittlicher Algorithmen des maschinellen Lernens erwarten wir, zu besseren Vorhersagemodellen von Behandlungsergebnissen und Krankheitsverläufen zu kommen. Der Fokus liegt dabei auf etablierten sowie neuen klinischen und biologischen Indikatoren, den sogenannten Biomarkern. Wir werden versuchen herauszufinden, ob und wie die Erfassung solcher Biomarker die Vorhersagen im Verlaufe der gesamten Behandlung eines Prostatakrebspatienten verbessert."

Sicherung des Datenzugriffs und des Datenschutzes

Im Gesundheitswesen sammeln zahlreiche Interessengruppen medizinische Daten. Datengestütztes maschinelles Lernen gilt als ein leistungsfähiges Werkzeug zur Analyse dieser Daten. Dazu müssen jedoch alle Daten in einem einheitlichen Format zur Verfügung stehen und der Datenschutz adäquat berücksichtigt werden.

PIONEER arbeitet mit zwei Datenzugriffsmodellen - einem zentralen und einem föderierten Modell. Im zentralen Modell wird eine Kopie der Daten an PIONEER übertragen, konvertiert und in einer zentralen Datenbank für Forschungszwecke gespeichert. Im föderierten Modell standardisieren die Dateninhaber ihre eigenen Datensätze, richten Analysewerkzeuge innerhalb ihrer eigenen Datenumgebung ein und versorgen PIONEER mit den akkumulierten Ergebnissen der angeforderten Analyseaufgaben. In diesem Datenzugriffsmodell verlassen die Daten somit nicht ihren Ursprungsort. Daten aus einer Vielzahl von Quellen werden gewissermaßen temporär "verknüpft", um spezifische Abfragen aus der Ferne zu bedienen. PIONEER bringt also die Analyse zu den Daten. Innerhalb des Projekts wird das CASUS für Koordination und Management beider Datennutzungsmodelle verantwortlich sein.

Eine Identifizierung der Person, auf die sich die medizinischen Daten beziehen, ist bei PIONEER praktisch unmöglich. Die innerhalb der Big-Data-Plattform von PIONEER gespeicherten Daten werden nicht als personenbezogene Daten eingestuft, sodass deren Verwendung mit allen auf EU-Ebene geltenden Datenschutzgesetzen vereinbar ist. Diese Daten fallen nicht in den Anwendungsbereich der EU-Datenschutzgrundverordnung, behalten aber ihre klinische Relevanz.

Offene Fragen der Prostatakrebsforschung

Grundsätzlich verfolgt PIONEER das Ziel, Wissenslücken in der Prostatakrebsforschung zu identifizieren und zu schließen. Zu den bisher ermittelten offenen Fragen hoher Dringlichkeit gehören: Durch welche relevanten tumor- und patientenspezifischen Variablen wird die Prognose jener Prostatakrebspatienten beeinflusst, die für eine engmaschige klinische Überwachung in Betracht kommen? Wie ist der normale Krankheitsverlauf jener Patienten, die sich einer konservativen Behandlung - also beobachtendem Abwarten - unterziehen, und welchen Einfluss haben Begleiterkrankungen und die Lebenserwartung auf die langfristigen Ergebnisse?

Durch Datenauswertung verschiedener Patientengruppen unterschiedlicher Krankheitsstadien und aus verschiedenen europäischen Ländern soll PIONEER evidenzbasierte Antworten auf diese Fragen vorlegen, um eine bessere gemeinsame Entscheidungsfindung von Ärzteschaft sowie zu behandelnden Personen zu ermöglichen. Das endgültige Ziel ist es, nicht nur die Behandlung von Prostatakrebs zu verbessern, sondern ebenfalls die Effizienz des Gesundheitswesens und die Qualität von sozialer als auch gesundheitlicher Versorgung zu steigern.

Derzeit besteht die PIONEER-Plattform, sowohl zentral als auch föderiert, aus einem Verbund von 29 Datensätzen von Konsortiumsmitgliedern, der Industrie und angegliederten Datenquellen. Davon wurden elf Datensätze auf das europäische Common Data Model (CDM) der Observational Medical Outcomes Partnership (OMOP) abgestimmt, für weitere acht Datensätze ist die Abstimmung bereits angelaufen oder steht kurz bevor. Nach ihrer Fertigstellung wird die Big-Data-Plattform von PIONEER Daten von insgesamt 1,8 Millionen Prostatakrebspatienten umfassen.

Durch die Verknüpfung von Forschung an komplexen Systemen mit den topaktuellen digitalen Methoden aus der Daten- und Computerwissenschaft strebt das CASUS einen Spitzenplatz in der europäischen Forschungslandschaft an. Die CASUS-Einbindung wurde von PIONEER-Mitglied Prof. Manfred Wirth initiiert, Senior-Professor an der Technischen Universität Dresden und früherer Direktor der Klinik und Poliklinik für Urologie am Universitätsklinikum Carl Gustav Carus in Dresden. Um das föderierte Datenzugriffsmodell beispielsweise auch bei der Analyse von Lungen- und Brustkrebsdaten zu etablieren, will sich das CASUS in naher Zukunft mit weiteren Forschungskonsortien zusammentun.