Das HPC-Team der RWTH Aachen feierte im September einen großen Erfolg und brachte gleich zwei Best Paper Awards mit nach Hause. Semih Burak erhielt den Rusty Lusk Award für das beste Paper auf der EuroMPI/Australia 2024 mit seiner Arbeit “SPMD IR: Unifying SPMD and Multi-value IR Showcased for Static Verification of Collectives”. Auf dem International Workshop on OpenMP (IWOMP 2024), der gemeinsam mit EuroMPI im australischen Perth ausgerichtet wurde, sicherte sich Jannis Klinkenberg mit seiner Arbeit “Towards Locality-Aware Host-to-Device Offloading in OpenMP” den ersten Platz. Sowohl EuroMPI als auch IWOMP gelten als etablierte und bedeutende Veranstaltungen für MPI und OpenMP, zwei führende parallele Programmierparadigmen, die häufig und intensiv auf Hochleistungsrechnern eingesetzt werden.
Der Beitrag von Jannis Klinkenberg et al. “Towards Locality-Aware Host-to-Device Offloading in OpenMP” beschäftigt sich mit der Optimierung von Datentransfers zwischen Host- und Gerätespeicher in OpenMP-unterstützten, heterogenen Rechnersystemen wie z.B. CPU-GPU-Architekturen. Heutige Systeme bestehen häufig aus mehreren CPU-Sockeln und mehreren GPUs pro Rechenknoten, was durch Unterschiede beim Speicherzugriff zwischen NUMA-Domänen (Non-Uniform Memory Access) zu Leistungsschwankungen führen kann. Diese komplexen Systeme zeigen oft Performanceprobleme aufgrund suboptimaler Offloading-Strategien und Geräteauswahl, die zu nicht-lokalen Speicherzugriffen führen. Bestehende Programmiermodelle wie OpenMP verfügen nicht über ausreichend robuste Funktionen, um die Lokalität zwischen CPU-Kernen, Daten und Geräten zu berücksichtigen, was die Effizienz bei der Datenverarbeitung einschränkt.
In dieser Arbeit wurde die Offloading-Leistung zwischen CPU-Kernen und GPUs untersucht und Erweiterungen der OpenMP-API vorgeschlagen, um nahegelegene GPUs für schnellere Datenübertragungen zu priorisieren. Eine Prototyp-Implementierung innerhalb der LLVM OpenMP-Laufzeitumgebung und Experimente auf zwei aktuellen heterogenen Architekturen mit Nvidia- und AMD-GPUs zeigen, dass der lokalitäts-bewusste Ansatz die Rechenleistung und Effizienz in Systemen mit mehreren GPUs erheblich verbessert.