Praxisprojekt an der Schnittstelle zwischen Mathematik, Informatik und Medizin: Data-Science-Studierende der h_da haben in einem interdisziplinären Team Prognosemodelle für den Erfolg von Organtransplantationen erarbeitet und damit eine Grundlage für weitere Forschung zu diesem hochaktuellen Thema gelegt.
Von Christina Janssen, 30.09.2021
In Aktenordnern ausgedrückt, wäre es eine ganze Büroetage voll gewesen: Mit den digitalen Daten von 270.000 Patienten aus den USA starteten acht Data-Science-Studierende der h_da vergangenen Winter in ihr Praxisprojekt. Die Aufgabe: Aus der beeindruckenden Masse an Daten sollten sie Prognosemodelle für den Erfolg einer Nierentransplantation ableiten. Modelle also, anhand derer man die Erfolgswahrscheinlichkeit einer Transplantation berechnen kann. Ein brandaktuelles Thema in Zeiten langer Wartelisten und geringer Spendenbereitschaft, in denen es auf jedes Spenderorgan ankommt.
„Verfahren des Data Minings im Organtransplantationswesen“ lautete der Titel des Semesterprojekts. Nicht gerade das, was man erwartet, wenn man mit Data Science just den Studiengang wählt, der in den Medien derzeit als besonders „sexy“ (weil karriereförderlich) gepriesen wird. Oder doch? Julia Psenner, Franziska Schmidt und Roman Kessler waren Teil des Projekt-Teams und sind begeistert: „Wir waren eine sehr heterogene Gruppe aus Mathematikerinnen, Informatikern, einer Physikerin und einem Neurowissenschaftler. Aber die Zusammenarbeit war super. Wir haben viel voneinander gelernt.“
Im Anfang war der Datenberg
Begonnen hat alles mit dem großen Datenberg. Den haben die betreuenden Dozenten, Mathematikprofessorin Antje Jahn und Informatikprofessor Gunter Grieser, erstmal bei ihren Studierenden abgeladen – nach dem Motto: Macht was draus. „Das Chaos hat Prinzip“, schmunzelt Grieser, Spezialist für Theoretische Informatik und Künstliche Intelligenz. „Wir möchten unseren Studierenden möglichst großen Freiraum lassen und sie dazu anregen, eigene Lösungswege zu finden, statt kleinteilig Vorgaben zu machen.“
Das Team organisierte sich nach dem Scrum-Prinzip: Alle drei Wochen kam die Gruppe zusammen und wählte aus dem großen Pool an offenen Aufgaben diejenigen aus, die bis zum nächsten Treffen bearbeitet werden sollten. „Zuerst ging es natürlich darum, sich einen Überblick über die Daten zu verschaffen“, berichtet Roman Kessler. „Das war schwieriger als gedacht.“ Kein Wunder, denn jede „Patientenakte“ besteht aus einer Tabelle mit hunderten Spalten: Alter, Geschlecht, Größe, Gewicht, Blutgruppe, Raucher oder Nichtraucher, Vorerkrankungen, OP-Verlauf, Überlebensdauer, Abstoßungsreaktionen, zahllose immunologische Parameter.
„Wir mussten uns erst mal einarbeiten und herausfinden, was die vielen medizinischen Kürzel und Variablen bedeuten“, sagt Franziska Schmidt. Die Daten seien teilweise sogar widersprüchlich oder lückenhaft gewesen. „Mit Lücken können die Rechenmodelle nicht umgehen, deshalb mussten wir in diesen Fällen mit Schätzwerten arbeiten.“ Genau darin macht Franziska Schmidt aber die Stärke des Studiengangs Data Science aus: „Wir arbeiten uns für jedes Projekt in neue Bereiche ein“, erläutert sie. „Natürlich sind wir durch das Organtransplantationsthema keine Medizinerinnen geworden, aber wir haben uns eine ganze Menge ‚Domänenwissen‘ angeeignet.“ Die einen nennen das anstrengend, die anderen: spannend.
Nach dem ersten groben Aussortieren – Kinder, Über-60-Jährige und Lebendspenden fielen raus – blieben gut 70.000 Datensätze übrig, mit denen die Studierenden weiterarbeiteten. Insgesamt entwickelten sie fünf Prognosemodelle, deren Namen für den Laien absolut kryptisch klingen, den jungen Studierenden aber flüssig über die Lippen gehen. Was darf es heute sein – das „Cox-Regressionsmodell“, das „Accelerated Failure Time-Modell“ oder vielleicht doch lieber der „Random Survival Forest“? Zwei der Verfahren basierten auf klassischen statistischen Modellen, die drei anderen auf Maschinellem Lernen (engl.: Machine Learning). Die überraschende Erkenntnis beschreibt Professorin Antje Jahn so: „Im Grunde ist die Prognosegüte aller Modelle ähnlich gut.“
Glaskasten versus Black Box
Und dennoch gibt es fundamentale Unterschiede. „Die modellbasierten Verfahren brauchen weniger Rechenleistung, erzielen gute Ergebnisse und sind darüber hinaus besser ‚erklärbar‘, was uns in diesem Projekt besonders wichtig war“, betont Biostatistikerin Jahn. „Das heißt, es ist besser nachvollziehbar, auf welche Art die Ergebnisse zustande kommen. Das ist bei den ‚moderneren‘ Machine-Learning-Verfahren anders. Hier erhalten wir zwar auch für jeden Patienten eine Prognose, können aber oft nicht gut beschreiben, warum sie genau so ausgefallen ist.“ Die Machine-Learning-Prozesse seien wie ein Wald voller Bäume und Blätter, ergänzt Grieser: „Wenn sich ein Laubblatt im Wind bewegt, hat das Auswirkungen auf das benachbarte Blatt und so weiter.“ Grieser beschreibt die modellbasierten, statistischen Verfahren deshalb als Glaskästen, in die man hineinsehen könne. Machine-Learning-Modelle seien dagegen häufig eine Black Box. Ein Unterschied, der für die spätere Anwendung durchaus relevant sein kann.
Eine weitere wesentliche Erkenntnis für die Studierenden ist diese: Die Wahl des statistischen Verfahrens ist weniger entscheidend für die Genauigkeit der Vorhersage als die gründliche Aufarbeitung der Daten. „Wir haben als Faustregel gelernt: 80 Prozent der Zeit sollte man in die Vorverarbeitung der Daten stecken und 20 Prozent in die Arbeit an den Modellen“, bilanziert Franziska Schmidt. Für das Programmieren nutzten die Studierenden die Programmiersprache R. „Da haben wir viel von einem Informatiker in unserem Team gelernt, der sich darauf spezialisiert hat“, beschreibt Julia Psenner die Zusammenarbeit in der interdisziplinären Gruppe. „Er hat immer geliefert und konnte alles toll erklären. Das hat mich am Anfang zwar verunsichert. Später im Projekt habe ich dann aber festgestellt, dass ich mich dafür sehr gut mit meinem mathematischen Können einbringen kann.“ Der Traum von Interdisziplinarität: Miteinander planen, voneinander lernen und am Ende ein Projekt erfolgreich abschließen.
In Deutschland gab es bis vor kurzem kein Transplantationsregister
Jahn und Grieser sind jedenfalls zufrieden mit den Ergebnissen. Die seien zwar nicht für die praktische Anwendung gedacht, das könne man von einem Lehrprojekt nicht erwarten. Dennoch haben die angehenden Data Scientists in sechs Monaten intensiver Arbeit die Grundlage gelegt für künftige Forschungsvorhaben: Im Juni 2021 ist endlich auch in Deutschland ein Organtransplantationsregister an den Start gegangen. Lange haben Jahn und Grieser darauf gewartet. Sie möchten nun die deutschen Daten nutzen, um auch hier neue Erkenntnisse aus den Daten zu gewinnen – in Zusammenarbeit mit der Deutschen Stiftung Organspende.
Wer da in Sachen Datenschutz aufhorcht: Die anonymen Daten, die von den h_da- Studierenden bearbeitet wurden, stammen aus dem US-amerikanischem Transplantationsregister der Jahre 1980 bis heute. Sie wurden von den Patientinnen und Patienten freiwillig für Forschungszwecke zur Verfügung gestellt. Auch im Deutschen Transplantationsregister sollen Daten von Empfängern und Spendern so erfasst werden, dass keine Rückschlüsse auf Personen möglich sind. Umso gründlicher können Grieser und Jahn sie – möglicherweise als eines der ersten Forschungsteams in Deutschland – unter die Lupe nehmen: „Für uns geht es darum, ob anhand der Daten neue Zusammenhänge zwischen einzelnen Parametern und dem Erfolg einer Transplantation sichtbar werden. Zusammenhänge, die der Medizin bislang nicht bekannt sind“, stellt Grieser klar. Falls ja, könnte der nächste Schritt der Prototyp eines Prognose-Tools sein, in dem vergleichbare Modelle wie die der Studierenden zur Anwendung kommen. „Das geht aber natürlich nur in Kooperation mit Partnern aus der Medizin.“
Das Tool, das Jahn und Grieser vorschwebt, soll dazu dienen, Ärztinnen und Ärzte, Patientinnen und Patienten zu unterstützen. „Nehmen wir an, ein Patient braucht eine neue Niere und muss sich entscheiden: Nehme ich das erste Angebot an, das kommt, oder nehme ich nur das Organ eines Patienten, der keine schweren Infektionskrankheiten hatte oder der unter 20 ist.“ Anhand des Tools könnten die Beteiligten bestimmte Kriterien selektieren und sehen, wie sich die Prognosen dadurch verändern. Im Rahmen des Praxisprojekts hat einer der Studierenden Visualisierungen dazu erarbeitet, die Jahn und Grieser in den höchsten Tönen loben. „Das kann man sich wie eine App mit virtuellen Schiebereglern vorstellen, über die ich beispielsweise eintragen kann: Ich bin jetzt 50 Jahre alt, bin Nichtraucher, wiege 70 Kilo, bin seit 17 Jahren an der Dialyse und so weiter. Und so kann man verschiedene Szenarien durchspielen – auf Grundlage der Daten.“
Glänzende Jobaussichten
Noch ist das eine Vision. Doch die Studierenden haben dazu beigetragen, dass sie eines Tages Wirklichkeit werden könnte. Julia Psenner schreibt inzwischen in einem Unternehmen ihre Masterarbeit, Roman Kessler an einer Universität in Norwegen. Parallel arbeitet er außerdem an seiner Doktorarbeit in Neurowissenschaften. Franziska Schmidt bleibt an der h_da und bereitet den nächsten Schritt des Transplantationsprojekts vor: Die Erkenntnisse aus dem Praxisprojekt sollen möglichst bald auf die deutschen Daten übertragen werden. Ein Förderantrag beim Bundesministerium für Bildung und Forschung ist gestellt. Nun wartet das Team Jahn – Grieser auf den Bescheid. Der könnte allerdings noch eine Weile auf sich warten lassen – bis die neue Bundesregierung steht und die zuständigen Ministerien frisch besetzt sind. Sicher ist dagegen: Die jungen Data Scientists müssen sich um ihre spätere Jobwahl keinerlei Gedanken machen. Den Absolventinnen und Absolventen des Master-Studiengangs Data Science, den die h_da als eine der ersten Hochschulen bundesweit vor fünf Jahren gestartet hat, stehen auf dem Arbeitsmarkt alle Türen offen.
Kontakt
Christina Janssen
Wissenschaftsredakteurin
Hochschulkommunikation
Tel.: +49.6151.16-30112
E-Mail: christina.janssen@h-da.de
Mathematikerin Prof. Dr. Antje Jahn und Informatiker Prof. Dr. Gunter Grieser haben die angehenden Data Scientists herausgefordert: Möglichst eigenständig sollten die Studierenden aus den Daten US-amerikanischer Transplantationspatientinnen und -patienten Prognosemodelle entwickeln. Jahn leitet den Studiengang Data Science an der h_da gemeinsam mit einem Kollegen aus dem Fachbereich Informatik. Grieser hat am Fachbereich Informatik eine Professur für Theoretische Informatik und Künstliche Intelligenz inne.