RLP: Energie-Management auf der Grundlage eines latenzabhängigen Roofline-Modells

21.12.2023

Icons der Energieoptimierung Urheberrecht: © Freepik

Moderne High-Performance-Computing (HPC)-Cluster verbrauchen in großem Maßstab Energie. Ein solcher Energieverbrauch stellt die umgebende Infrastruktur, z. B. Kühlsysteme und Stromversorgung, vor mehrere Herausforderungen. Darüber hinaus ist eine fortschrittliche Orchestrierung der Infrastruktur für eine optimale Regulierung der Verlustleistung erforderlich. Der langfristige Betrieb von großen HPC-Clustern erfordert effiziente Energieverwaltungsstrategien, um den Stromverbrauch und damit den CO2-Fußabdruck zu reduzieren.

Die kürzlich auf dem renommierten 37th IEEE International Parallel and Distributed Processing Symposium (IPDPS) angenommene Arbeit schlug ein neues Leistungsmodell vor, das diese Herausforderung auf der Granularität der Knotenebene angeht. Das Modell erweitert ein bekanntes Roofline-Modell, indem es die Kosten für die Speicherzugriffslatenz berücksichtigt, um den Stromverbrauch effizienter zu verwalten. Die auf diesem Modell basierende Laufzeitumgebung erkennt, ob der Arbeitsablauf bandbreiten-, latenz- oder rechenabhängig ist und wendet eine entsprechende Energieoptimierungsstrategie an.

Das tragbare Energieverwaltungsmodell konstruiert dank der auf den meisten HPC-Systemen verfügbaren generischen Leistungszähler das latenzbewusste Roofline-Modell (RLP) dynamisch zur Laufzeit, was eine fliegende Analyse und Energieverwaltung ermöglicht. In der Studie wurden reale HPC-Workloads auf Server-CPUs und einem Grafikprozessor in zwei Szenarien bewertet: Optimierung mit und ohne Leistungsbegrenzung. Im Vergleich zu den Standardeinstellungen des Systems reduziert RLP die Energie zur Lösung um bis zu 22% und um bis zu 14,7% unter Energiebegrenzung. Zusätzlich übertrifft RLP den aktuellen Stand der Technik in Bezug auf Allgemeinheit und Effektivität.

Teile dieser Arbeit wurden von der Deutschen Forschungsgemeinschaft (DFG) gefördert - 446185093 (H2M-Projekt).

Die Publikation wurde auf IEEE Xplore veröffentlicht.

Weitere Informationen über das Projekt befinden sich auf der Projektwebseite.