Publikation

Evaluierung von Optimierungsstrategien zur Datensatzspeicherung für machinelles Lernen auf HPC Systemen

  • Evaluating Optimization Strategies for Dataset Storage for Machine Learning Workloads on HPC Systems

Mainka, Irmin; Müller, Matthias S. (Thesis advisor); Kunkel, Julian (Thesis advisor); Viehhauser, Dominik (Consultant)

Aachen : RWTH Aachen University (2025)
Bachelorarbeit

Bachelorarbeit, RWTH Aachen University, 2025

Kurzfassung

Traditionelle Datensätze zum Trainieren von Modellen für maschinelles Lernen lie-gen oft in Form von riesigen Mengen kleiner Dateien vor. Diese Eigenschaft dieserDatensätze ist jedoch unvorteilhaft für ihre weitverbreitete Verwendung auf HPCSystemen. Der Grund hierfür ist, dass solche Systeme oft parallele Dateisystemeverwenden welche für diese Art von Datensätzen nicht ausgelegt sind. Verschiedenealternative Strategien um diese Datensätze zu speichern, können sowohl im Bereichder Python Programmierung, wo der Großteil des maschinellen Lernens zu verord-nen ist, als auch im Bereich des Hochleistungsrechnens gefunden werden. In dieserArbeit werden Experimente zu solchen Strategien zur Speicherung und zum Ladenvon Datensätzen gemacht. Bei den in dieser Arbeit durchgeführten Experimentengeht es um das Trainieren eines Modells aus dem Bereich der Bild Klassifizierung.Die verwendeten Strategien beinhalten die Verwendung von Numpy Arrays, LMDB,HDF5 und Zarr. Die Resultate dieser Experimente werden dann verwendet, um eineEvaluierung der getesteten Strategien durchzuführen, mit dem Ziel herauszufinden,ob in dieser Arbeit eine Strategie gefunden wurde, welche performanter als die bis-her verwendete ist, oder ob die Verwendung von Datensätzen, die aus vielen Dateienbestehen durch die Ergebnisse bestätigt wird.

Einrichtungen

  • IT Center [022000]
  • Fachgruppe Informatik [120000]
  • Lehrstuhl für Hochleistungsrechnen (Informatik 12) [123010]