Wissensschätze für die Ewigkeit

Forschende produzieren wertvolles Wissen. Doch wie kann man dieses Wissen so konservieren, dass wir es breit nutzen können - auch noch in einigen Jahrzehnten? Was in Zeiten vergleichsweise einfach war, in denen das Papier dominierte, ist heute eine echte Herausforderung. Prof. Dr. Stefan Schmunk vom Fachbereich Media der h_da sieht sogar ein digitales "Dark Age", wenn er aus Sicht künftiger Generationen auf die vergangenen Jahrzehnte blickt. Doch Hochschulen in ganz Deutschland gehen das Problem nun an - sie bauen eine gemeinsame Infrastruktur für Forschungsdaten auf.

Von Nico Damm, 17.12.2021

Einer der kostbarsten Schätze der Erde lagert 120 Meter tief im norwegischen Eis von Spitzbergen. Hinter dicken Betonmauern des weltweit größten Saatgut-Tresors auf Svalbard lagern die Samen der wichtigsten Lebensmittel der Menschheit, stets gekühlt auf minus 18 Grad Celsius. Wenn es um digitale Informationen geht, ist unsere Spezies noch längst nicht so weit – ein umfassender „Informations-Tresor“ als Pendant zur Anlage in Norwegen existiert nicht. Vor allem nicht für digitale Daten, sagt Prof. Dr. Stefan Schmunk, Dekan des Fachbereichs Media der h_da: „Die Zeit von Mitte der 1980er Jahre bis Mitte der 2010er Jahre wird aus Sicht zukünftiger Generationen aus wissenschaftlicher Perspektive zu einem „Dark Age“, einer dunklen Epoche werden. Wir werden gesellschaftliche und politische Entwicklungen der 1990er und 2000er Jahre oder einfach nur Quellen der menschlichen Kommunikation und Interaktion nicht mehr nachvollziehen können, weil diese Daten nicht auf Dauer öffentlich zugänglich sind. Beispielsweise durch die Veränderungen in der Kommunikation durch Smartphones.“

Während wir Steintafeln noch heute problemlos lesen können, lassen sich mit handelsüblichen Computern oftmals nicht mal mehr Text-Dateien aus den 1990ern und frühen 2000er Jahre öffnen. Dass viele Dateiformate nicht offen, sondern proprietär sind – unter anderem die weltweit genutzten Office-Produkte – erschwert die Zugänglichkeit noch mehr, da sich diese nicht quelloffenen Dateiformate nur mit der dazugehörigen Software öffnen lassen.  

Schmunk beschäftigt sich an der Schnittstelle von Informations- und Geisteswissenschaften mit vielen Fragen und Herausforderungen dieser Art und erforscht diese mit seinem Team in einer Reihe von Forschungsvorhaben. Wie können wir relevante, digitale zeitgeschichtliche Dokumente für die Nachwelt bewahren? Welche Formate werden in 10, 50 oder 100 Jahren noch nutzbar sein? Wie müssen Forschungsinfrastrukturen aufgebaut und strukturiert sein, damit Forschungsdaten nachgenutzt werden können? Gerade für die Forschung eine enorme Herausforderung. Schließlich produziert diese enorme Mengen Daten, und das nicht nur in Form klassischer Aufsätze. Dass die zugrundeliegenden Forschungsdaten begleitend zum Einreichen von Aufsätzen mitgeliefert werden, wird immer mehr zum Standard. An der h_da ist es für alle Promovierenden bereits Pflicht.

Die wachsenden Datenberge zu beherrschen, ist Teil einer nationalen Kraftanstrengung: Seit 2018 fördern Bund und Länder die „Nationale Forschungsdateninfrastruktur“, kurz NFDI. Bis zum Jahr 2028 stehen hierfür fast 750 Millionen Euro zur Verfügung. Das Ziel: Die Daten, die vorwiegend lokal an Forschungseinrichtungen und Hochschulen entstehen, so aufzubereiten, dass sie leicht zugänglich, auffindbar und vor allem nachnutzbar sind. Der wachsende Datenschatz soll dadurch künftig auch weit über Fachdisziplinen und Länder hinweg analysiert werden können und Forschung ermöglichen.

Unter dem Dach der NFDI haben sich bereits fast zwanzig Konsortien zusammengefunden, in einer finalen Ausbaustufe können es bis zu dreißig sein. Die h_da engagiert sich in vier davon: „Text+“ mit einem Fokus auf Sprache und Text, „NFDI4Culture“ für materielles und immaterielles Kulturgut, „PUNCH4NFDI“ für Physik und Astronomie sowie „NFDI4Ing“ für die ingenieurwissenschaftlichen Disziplinen. Diese bundesweiten Aktivitäten werden durch eine Reihe von Initiativen auf Ebene der Bundesländer ergänzt. In Hessen wurde bereits 2016 im Rahmen des Projekts „HeFDI“ (Hessische Forschungsdateninfrastrukturen) begonnen: Gemeinsam mit zehn Partnerhochschulen und -universitäten arbeitet die h_da an einer gemeinsamen Strategie zum Management ihrer Forschungsdaten und dem Aufbau einer gemeinsamen Forschungsdateninfrastruktur. So entstehen verteilte Forschungsdatenspeicher, sogenannte Repositorien, die hessenweit vernetzt sind. Wichtiger Bestandteil von HeFDI sind auch regelmäßige Schulungen des akademischen Personals und der Aufbau eines Informationsportals.

Auf Bundesebene geht es nun in allen Konsortien im Wesentlichen um vergleichbare Fragestellungen: Wie können Forschungsdaten technisch dauerhaft gespeichert werden? Wie kann man Daten an mehreren Standorten speichern, damit beim Ausfall etwa eines Rechenzentrums die Daten nicht verloren gehen? Und wie setzt man den Goldstandard im Umgang mit Forschungsdaten um, die sogenannten „FAIR Data Principles“ (auffindbar, zugänglich, interoperabel, wiederverwendbar)? Die Zugänglichkeit hängt etwa stark vom Dateiformat ab. Momentan arbeiten Bibliotheken und Gedächtniseinrichtungen bei der Langzeitarchivierung digitaler Dokumente überwiegend mit dem Format „PDF/A“, einem normiertem Dateiformat. Diese Objekte dürften zwar in der Zukunft noch leicht lesbar sein, da sie reine Bilddatei sind. Allerdings ist sie faktisch nicht maschinell interpretierbar. Doch genau das sollte das Ziel für alle Forschungsdaten sein, sagt Schmunk: „Sie müssen maschinenlesbar sein, damit Big-Data-Analysen und die Nutzung von Künstlicher Intelligenz möglich sind.“

Es stellen sich auch ethische Fragen – zum Beispiel, wenn Informationen Persönlichkeitsrechte in der Nachwelt verletzen können. „In hessischen Archiven findet man etwa die Namen derjenigen, die im Rahmen des nationalsozialistischen Euthanasieprogramms ermordet worden sind.“ Diese zu veröffentlichen, könnte die Nachfahren der betroffenen Familien auch heute noch stigmatisieren.

Nicht zuletzt lauert auch ein rechtliches Spannungsfeld: Während Forschung überwiegend öffentlich finanziert wird, obliegt die Veröffentlichung der Ergebnisse Wissenschaftsverlagen, was oftmals ein sehr einträgliches Geschäftsmodell ist. Allein für die Top-Zeitschrift „Nature“ zahlen deutsche Bibliotheken mehrere Millionen Euro Abonnementgebühren pro Jahr. Allerdings finde hier ein Umdenken statt, sagt Schmunk: „Erste Verlage wie Springer machen schon einen großen Teil der Aufsätze und der zugrunde liegenden Forschungsdatenöffentlich zugänglich. Hier findet endlich ein Umdenkprozess und ein Kulturwandel statt, so dass öffentlich geförderte Forschungsergebnisse auch von allen genutzt werden können.“, sagt Schmunk. Weiterer Stolperstein: Gerade an Hochschulen für Angewandte Wissenschaften arbeiten Forschende viel mit Praxispartnern zusammen. „Weil diese Forschungsvorhaben durch Unternehmen ermöglicht und finanziert werden, haben sie das berechtigte Interesse, nicht alle Ergebnisse zu teilen.“ Schließlich geben sie damit einen potenziellen Wettbewerbsvorteil auf. Da brauche es Überzeugungsarbeit, schließlich bieten die neuen Repositorien auch die Möglichkeit, Sperrfristen festzulegen, damit die Daten erst zu einem späteren Zeitpunkt der Allgemeinheit zugänglich gemacht werden – vorher profitieren dann aber die Wissenschaffenden von einem sicheren Datenspeicher und neuen Möglichkeiten der Zusammenarbeit im Digitalen.

Weitere Herausforderung: „Wir wissen, dass Daten oft in der Zukunft nur noch dann verwertet werden können, wenn auch die entsprechenden Messgeräte aufbewahrt werden.“ Beispiel: Die codierten Messdaten, die die Voyager-Sonden der NASA – mittlerweile von außerhalb unseres Planetensystems – gen Erde senden, können Schmunk zufolge nur noch von einigen wenigen Menschen auf der Erde gelesen und verstanden werden. Sollte die Botschaften irgendwann einmal gar niemand mehr interpretieren können, gibt es immerhin einen kleinen Trost: Vielleicht findet sich irgendwo dort draußen ein Wesen, das an Beethovens fünfter Symphonie Gefallen findet – die fliegt bekanntlich auf den Goldenen Schallplatten mit Voyager I und II durchs All.

Kontakt

Nico Damm
Hochschulkommunikation
Tel.: +49.6151.16-37783
E-Mail: nico.damm@h-da.de

Kontakt

Hessische Forschungsdateninfrastrukturen, kurz HeFDI: https://bib.h-da.de/services/forschungsdatenmanagement/hefdi/

Mehr zur Nationalen Forschungsdateninfrastruktur NFDI auf dem Blog des Mediencampus: https://ikum.mediencampus.h-da.de/blog/nfdi-text/