Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Exascale - die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum?

Prof. Dr. Martin Schulz

Lehrstuhl für Rechnerarchitektur & Parallele SystemeTechnische Universität München (TUM)

undMitglied des DirektoriumsLeibniz Rechenzentrum (LRZ)

Vortrag GI RegionalgruppeMünchen, Januar 2020

Martin Schulz - Persönlicher Hintergrund

Seit Oktober 2017 an der TU-München• Seit Januar 2019 im Direktorium des LRZ• Rechnerarchitektur: Prozessor- und Systemdesign – HPC bis Embedded• Parallele Systeme: System SW für HPC• Themen: Programmierbarkeit, Werkzeuge, Energie-Effizienz, …



Davor: 2004-2017 am Lawrence Livermore National Laboratory• Forschungseinrichtung des US Departments of Energy (DOE)• Physiklabor mit großen Rechenanforderungen• Eines der größten Rechenzentren in den USA• Forschung an HPC System SW Themen



Davor: 2004-2017 am Lawrence Livermore National Laboratory• Forschungseinrichtung des US Departments of Energy (DOE)• Physiklabor mit großen Rechenanforderungen• Eines der größten Rechenzentren in den USA• Forschung an HPC System SW Themen

Der Anfang war aber schon in München• Studium und Dissertation an der TU München• Kurze Zeit an der University of Illinois at Urbana Champaign und Cornell University

HPC als Rückgrat der Modernen Wissenschaft

Modellierung und Simulation als 3. StandbeinNeben Theorie und ExperimentenErmöglicht neue wissenschaftliche Erkenntnisse

Quelle:US Department of Energy

Lenovo Channel Kick-off | 26.03.19 | Laura Schulz

Material-Wissenschaften

MOLEKULARE UND KRISTALLINE STRUKTUREN, HALBLEITER

Beispiel aus der Materialwissenschaft

Molecular Dynamics Code ddcMD: 2 Millionen Atome (2005)Informatik Erfolg: Ausführung auf Blue Gene/L (128K Rechenkerne)Wissenschaftlicher Erfolg: Neue Erkenntnisse bei Materialerstarrung

https://e-reports-ext.llnl.gov/pdf/336469.pdf

Strömungs-mechanik

AUTOMOBIL,LUFT & RAUMFAHRT


Klimaforschung

WETTER-VERHÄLTNISSE &PREDIKTIONEN

Project ClimEx – Einfluß des Klimawandels

Geophysik

PLATTENTEKTONIK,ERDBEBEN-SIMULATIONEN


Medizin undMedizintechnik

BLUTABFLUSS,ANEURYSEN



Daten-zentrischGroße DatenmengenErfassung, Speicherung, Auswertung


14

12.01.2020 | Dieter Kranzlmüller

711. WE-Heraeus-Seminar

Artist’s impression of the SKA dishes. Credit: SKA Organisationhttps://germany.skatelescope.org/ska-project/

https://germany.skatelescope.org/ska-project/

Terra_Byte: Gemeinschaftsprojekt DLR / LRZ

Speicherung und Analysevon Satellitendaten - Von allen DLR Missionen- 40-50 PB bis 2025- Nutzbar von allen Forschungs-

partnern des LRZ

Benötigt sowohl Rechen- alsauch Datenzugriffsleistung (!)

Muss hoch skalierbar seinFoto: Alessandro Podo, LRZ




Maschinelles Lernen und KI als neues GebietNeue Anwendungen


Beispiel: Optimierung von Gas Turbinen

Gas Turbinen

Rückgrat für das Stromnetz

Flexibel und schnell wechselnd

Betrieb unter Teillast wichtig

Hochauflösende Akustiksensoren

Überwachung des Brennverhaltens

Kombiniert mit Betriebsdaten

Ca. 0,3 TB pro Tag

Basis für Optimierung und Wartung




Maschinelles Lernen und KI als neues GebietNeue AnwendungenNutzung in klassischer Simulation





Maschinelles Lernen und KI als neues GebietNeue AnwendungenNutzung in klassischer Simulation

Nachfrage nach HPC Ressourcen weiterhin steigendQuelle:

US Department of Energy

Quelle: Top500, 11.2018

Deutschland:SuperMUC-NG19.5 Pflop/s Linpack

Top 500 / Nov. 2018

USA: Summit (ORNL)

China: Sunway TaihuLight(NSC Wuxi)

SuperMUC-NG

Installiert Ende 2018Nachfolger von SuperMUC-I/II

26.9 Pflop/s Top Leisting6,480 Lenovo ThinkSystem Knoten

mit 311,040 Intel Xeon Kernen719 TByte Hauptspeicher und70 PByte LangzeitspeicherDirekte Kühlung mit „Warm“wasser

#9 Top500

Nächster Schritt: Exascale

1018 Operationen pro Sekunde

Ein Milliarde Milliarde Operationen pro Sekunde

Vergleich iPhone X: 600 Milliarden Operationen pro Sekunde

Erklärtes Ziel mehrerer Nationen

Große Projekte

Förderprogramme

„New Space Race“

Neue Herausforderungen

Informatik

Rechenzentrum

Anwendungen

Quelle: IDC

HPC Top500 Entwicklung

Quelle: Top500

June 2013 20242020

Wendepunkte

Ende von „Dennard Scaling“!“Die Leistungsdichte vonTransistoren ist konstant”

Schon seit 2007Konsequenz: mehr Parallelität

Ende des „Moore‘s Law“?“Die Zahl der Transistoren verdoppelt sich alle 18 Jahre”

Trend zu Akzeleratorenund Spezialisierung

Exascale Herausforderungen

Akzeleratoren

Beispiele von AkzeleratorenGPU: Graphics Processing Units

Beispiel: NVIDIA’s Tesla V100 (Volta Generation)Single Instruction Multiple Data (SIMD)

FPGA: Field Programmable Gate Arrays “Spatial Computing”Programmierbare HardwareSpezialsprachen wie VHDL und Verilog

DatenflußansätzeAbkehr von sequentieller ProgrammierungNur Operationen und AbhängigkeitenSchwierige Integration und Programmierbarkeit

Dichte System Integration

Graphics Processing Units (GPUs)

Ursprünglich gedacht für schnelle GraphikausgabenZeichnen von Dreiecken, Shading, Texture mapping, …Am Anfang spezielle Operationen, später mehr und mehr programmierbar

Erste vollständig programmierbare GPUs um 2006Auch “General Purpuse GPUs (GPGPUs)” genanntCUDA: Entwickling von NVIDIA zur Programmierung

Heute sind die meisten GPUs programmierbarFrom AMD GPUs to integrated SoCs as on the Raspberry PiAnsatz SIMD: Eine Instruktion führt Operation auf mehreren Daten ausHohe ParallelitätAber: muss auch im Programm ausgedrückt werden

NVIDIA’s Volta

NVIDIA’s Volta

Einfache KomponentenRepliziert auf einem ChipPr ecision)

NVIDIA’s Volta

Einzelne SMsEine DispatcheinheitViele Recheneinheiten

Neu: SpezialhardwareTensorcores für

ProgrammierbareMatrixmultiplikation

Wichtig für KI/Deep Learning125 Tflop/s (reduced precision)

Einfache KomponentenRepliziert auf einem ChipPr ecision)

Potential von GPUs

Quelle: NVIDIA, CUDA C Programming Guide

Problem: Programmierbarkeit

Ansätze oft Low-level oder nur für einen HerstellerNVIDIA’s Ansatz: CUDAOpenCL als allgemeiner Ansatz

Erweiterung von bestehenden SprachenOpenMP: ursprünglich für Threading in einzelnen KnotenOpenACC: Spezial-Ansatz für GPUs, aber ähnlich zu OpenMP

Höhere AbstraktionsebenenPortabilitätsabstraktionen wie Raja, Kokkos oder SYCLDomänen-spezifische Sprachen

Kombinationen von Ansätzen

SkalierbarkeitViele Recheneinheiten liefern viele Daten- Sammeln und Speichern- Schwierige Auswertung- Interaktionen sind problematischNeue Werkzeugansätzer nötig

Beispiel: Debugging“Nadel im Heuhaufen”Ansatz: ”Was verhält sich anders?”Vergleich von Programm-Status

Nicht nur für Programmfehler

Beispiel mit > 1,000,000 Prozessen

Einzelner Prozess

Alle Anderen in der Barriere

Node List of N-1 Tasks


AkzeleratorenProgrammierung benötigt neue standardisierte AnsätzeWerkzeugunterstützung!

NetzwerkeNiedrige Latenz und hohe BandbreiteNetzwerktopologien zur Minimierung von „Contention“

Netzwerk Topologien

Quellen: Clusterdesign.org, ANL,

Fujitsu, Wikipedia

Fat-Tree: most cluster interconnects

Torus: BG/L (3D), BG/Q (4.5D), K (6D), Cray XT3 (3D)

Dragonfly: Cray XEHypercube: Intel Paragon, SGI Altix (modified)

Dragonfly Netzwerke

Quelle: Bhatele and Bremer, LLNL


AkzeleratorenProgrammierung benötigt neue standardisierte AnsätzeWerkzeugunterstützung!

NetzwerkeNiedrige Latenz und hohe BandbreiteNetzwerktopologien zur Minimierung von „Contention“

FehlertoleranzGroße Anzahl von Komponenten reduziert MTBFAnstrengungen in Hardware und Software nötig

Energie-Effizienz / Leistungslimits

Energie Effizienz

0

5.000

10.000

15.000

20.000

25.000

30.000

35.000

40.000

45.000

50.000

Ener

gy C

onsu

mpt

ion

in M

Wh

HPC System

LRZ Total

Energie Effizienz

0

5.000

10.000

15.000

20.000

25.000

30.000

35.000

40.000

45.000

50.000

Ener

gy C

onsu

mpt

ion

in M

Wh

HPC System

LRZ Total

0.063 €

0.162 €

€ / K

Wh

Energie Effizienz

Aktives EnergiemanagementBeim System-EntwurfBei der InfrastrukturplanungWährend des Betriebs

0

5.000

10.000

15.000

20.000

25.000

30.000

35.000

40.000

45.000

50.000

Ener

gy C

onsu

mpt

ion

in M

Wh

HPC System

LRZ Total

0.063 €

0.162 €

€ / K

Wh

Energie-Effizienz am LRZ

FührendeRolle bei

HeißwasserKühlung

Energie-Effizienz am LRZ

Nutzung der Hitze

(Heizen, Adsorption Kühlung)

FührendeRolle bei

HeißwasserKühlung

Adsorption Kühlung @ LRZ: CooLMUC-2Foto:Torsten Bloth, Lenovo

• Lenovo NeXtScale Water Cool Technology (WCT)• Eingangstemperatur 30˚C – 50˚C• 384 Rechenknoten (2x 14 core Intel Haswell)• 466 TFlop/s Peak Leistung, #356 auf der Top500 Liste (Juni 2016).

A Holistic Approach Towards Energy Efficiency

FührendeRolle bei

HeißwasserKühlung

Nutzung der Hitze


DetailiertesMonitoring

Was man nicht messen kann, kann man nicht optimieren!

Effic

ienc

y

Von der Infrastruktur bis zum Rechenknoten

Beispiel - Effizienz der Kühlung- Umschalten von

Sommer auf Winter- Früherkennung von

Problemen

Monitoring - Infrastruktur- Scheduler- Anwendungen- Verschiedene Granularität- Große Datenmengen

Änderung in der

Kühlungseffizenz

Wechsel zukalten Wasser

Die „Datacenter Database“

DCDB Pusher

Plugins

User/Admin Interface

REST API

Sensor Cache

Compute nodes [1,..,N] / Infrastructure Nodes

Pusher core

libdcdbDB Interface

DCDB Collect Agent

Sensor Cache

Operations Monitoring

REST API

Management and analytics nodes [1,..,M]

MQTT Server Collect Agent core

http://dcdb.it/Ott, Tafani, Netti, et al.

http://dcdb.it/


FührendeRolle bei

HeißwasserKühlung

Nutzung der Hitze



DatenAnalyse

Wintermute Analyse Framework

DCDB Pusher

Plugins


REST API

Sensor Cache WintermuteDA Engine

Compute nodes [1,..,N]

Pusher core

libdcdb

DB Interface

DCDB Collect Agent

WintermuteDA Engine

Sensor Cache


REST API



http://dcdb.it/Ott, Tafani, Netti, et al.

http://dcdb.it/

Wintermute Beispiel

Clustering von Knoten VerhaltenStromaufnahmeTemperatur„Idletime“

Durchgeführt auf dem Collect AgentÜber mehrere ZeitfensterErgebnisse in DCDB gespeichert

Entdeckung von Verhaltensgruppenund Anomalien

Ausgabe aus der „Datacenter Database“

DCDB Pusher

Plugins


REST API

Sensor Cache WinternuteDA Engine

Compute nodes [1,..,N]

Pusher core

libdcdbDB Interface

Data Visualisation

Feedback to RM

DCDB Collect Agent

WintermuteDA Engine

Sensor Cache


REST API




FührendeRolle bei

HeißwasserKühlung

Nutzung der Hitze



DatenAnalyse

Energie-bezogenesScheduling

Actives Power/Energie ManagementZentrum spezifische Policy

Power vs. FrequenzAdaptives CappingBenötigt Anreize für Benutzer

Power Management auf allen EbenenNode level Power managementJob level Power managementSystem level Power managementSystem design

Integration in den globalen Resource ManagerSetzen von job-level power limitsKontrolle von Limits

System-levelPower-Mgmt.

Job-levelPower-Mgmt.

Node-levelPower-Mgmt.

KontrolleMessung

Resource M

anager

Policy

System Level

Node Level

Job Level

RM

Policy

App/User

Die PowerStack Initiative

Ziel: hierarchisches System das einebreite Zahl von Szenarien

Neue International Initiative fürGemeinsame TerminologieKombinierbar KomponentenVergleichbare Policies

ArbitrationMonitoring

EmergencyRamping

Power-Skimming

GoalsFeedback

Use Cases

Start: Juni 2018 Seminar im

TUM Science & Study Center Raitenhaslach

Nächste Schallmauer: ExascaleHPC wächst in Bedeutung für Industrie und Wissenschaft

Simulation neben Theorie und ExperimentenNeue Anwendungsgebiete: Big Data und KI

Technische HerausforderungenProgrammierbarkeit neuer HardwareNeue NetzwerkeFehlertoleranzEnergieeffizienz

Erste Systeme in 2021 (?)A21 in ArgonneChina?

Und dann?

Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Documents