Publikation

Asynchronous tracking and description of research data changes in distributed systems with interoperable metadata

  • Asynchrone Nachverfolgung und Beschreibung von Forschungsdatenänderungen in Verteilten Systemen mit interoperablen Metadaten

Heinrichs, Benedikt Paul Anton; Müller, Matthias S. (Thesis advisor); Stäcker, Thomas (Thesis advisor)

1. Auflage. - Aachen : Apprimus Verlag (2024)
Buch, Doktorarbeit

In: Ergebnisse aus der Informatik 11
Seite(n)/Artikel-Nr.: 1 Online-Ressource : Illustrationen

Dissertation, RWTH Aachen University, 2024

Kurzfassung

Durch die Entstehung digitaler Forschungsprozesse entstanden viele Praktiken zur Speicherung, die stark voneinander abwichen. Folglich wurden Daten produziert, die ohne ein Verwaltungssystem nicht auffindbar waren. Lösungen dieses Problems sollen Empfehlungen wie die FAIR-Prinzipien sein, die beschreiben, dass Forschungsdaten auffindbar, zugänglich, interoperabel und wiederverwendbar sein sollen. Während diese Prinzipien Ziele vorgeben, gibt es keinen Leitfaden für die Umsetzung. Deswegen haben Forschungsdatenmanagement (FDM) Teams weltweit zahlreiche Implementierungen geschaffen. Einige davon sind Plattformen wie Coscine, die Forschungsdaten verwalten können und versuchen, Teile der FAIR-Prinzipien zu befolgen. Solche Plattformen stehen jedoch vor dem Problem, dass Forschende ihre Forschungsdaten bei einem erprobten und offen zugänglichen Speicheranbieter speichern wollen. Daher laufen die Forschungsdaten oft direkt über die Speicheranbieter. Die Plattformen können so nicht die Bewegung der Forschungsdaten nachvollziehen und ihnen entgehen wichtige Provenienz-Informationen. Die vorliegende Arbeit zielt darauf ab, diese Lücke zu schließen, indem sie eine Methode bereitstellt, die die fehlenden Provenienz-Informationen berechnen kann, nachdem Änderungen stattgefunden haben. Diese sogenannte asynchrone Daten-Provenienz wird durch den Vergleich von Repräsentationen von Forschungsdaten erzeugt. Wenn sich die Repräsentationen geändert haben, ist wahrscheinlich eine neue Version oder Variante der Forschungsdaten erstellt worden. Die Repräsentationen können von einem generierten Hash bis zu interoperablen Metadaten über die Forschungsdaten reichen. Diese interoperablen Metadaten werden erstellt, indem eine Pipeline ausgeführt wird, die Forschungsdaten erhält und wertvolle Informationen über deren Inhalt extrahiert. Diese Informationen werden dann als interoperable Metadaten annotiert, indem bestehende Applikationsprofile und Ontologien verwendet werden. Mithilfe interoperabler Metadaten kann mit einer Methode namens FSS Jaccard die Ähnlichkeit von Forschungsdaten bestimmt werden. Um die Anwendbarkeit der erstellten Methoden zu verifizieren, werden sie in ein standardbasiertes FDM-System (FDMS) integriert, das in dieser Arbeit definiert wird. Für dieses standardbasierte FDMS wird Coscine als Anwendungsfall verwendet. Damit stellt diese Arbeit eine Methode vor, die zusätzliche Informationen über Forschungsdaten liefern und die dargestellte Lücke für jedes standardbasierte FDMS schließen kann. Durch den Einsatz dieser Methode können FDM-Teams die Umsetzung der FAIR-Prinzipien unterstützen und die Prozesse für Forschende verbessern.

Einrichtungen

  • Fachgruppe Informatik [120000]
  • Lehrstuhl für Hochleistungsrechnen (Informatik 12) [123010]