Exascale - die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz Lehrstuhl für Rechnerarchitektur & Parallele Systeme Technische Universität München (TUM) und Mitglied des Direktoriums Leibniz Rechenzentrum (LRZ) Vortrag GI Regionalgruppe München, Januar 2020
57
Embed
Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Exascale - die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum?
Prof. Dr. Martin Schulz
Lehrstuhl für Rechnerarchitektur & Parallele SystemeTechnische Universität München (TUM)
undMitglied des DirektoriumsLeibniz Rechenzentrum (LRZ)
Vortrag GI RegionalgruppeMünchen, Januar 2020
Martin Schulz - Persönlicher Hintergrund
Seit Oktober 2017 an der TU-München• Seit Januar 2019 im Direktorium des LRZ• Rechnerarchitektur: Prozessor- und Systemdesign – HPC bis Embedded• Parallele Systeme: System SW für HPC• Themen: Programmierbarkeit, Werkzeuge, Energie-Effizienz, …
Martin Schulz - Persönlicher Hintergrund
Seit Oktober 2017 an der TU-München• Seit Januar 2019 im Direktorium des LRZ• Rechnerarchitektur: Prozessor- und Systemdesign – HPC bis Embedded• Parallele Systeme: System SW für HPC• Themen: Programmierbarkeit, Werkzeuge, Energie-Effizienz, …
Davor: 2004-2017 am Lawrence Livermore National Laboratory• Forschungseinrichtung des US Departments of Energy (DOE)• Physiklabor mit großen Rechenanforderungen• Eines der größten Rechenzentren in den USA• Forschung an HPC System SW Themen
Martin Schulz - Persönlicher Hintergrund
Seit Oktober 2017 an der TU-München• Seit Januar 2019 im Direktorium des LRZ• Rechnerarchitektur: Prozessor- und Systemdesign – HPC bis Embedded• Parallele Systeme: System SW für HPC• Themen: Programmierbarkeit, Werkzeuge, Energie-Effizienz, …
Davor: 2004-2017 am Lawrence Livermore National Laboratory• Forschungseinrichtung des US Departments of Energy (DOE)• Physiklabor mit großen Rechenanforderungen• Eines der größten Rechenzentren in den USA• Forschung an HPC System SW Themen
Der Anfang war aber schon in München• Studium und Dissertation an der TU München• Kurze Zeit an der University of Illinois at Urbana Champaign und Cornell University
HPC als Rückgrat der Modernen Wissenschaft
Modellierung und Simulation als 3. StandbeinNeben Theorie und ExperimentenErmöglicht neue wissenschaftliche Erkenntnisse
Quelle:US Department of Energy
Lenovo Channel Kick-off | 26.03.19 | Laura Schulz
Material-Wissenschaften
MOLEKULARE UND KRISTALLINE STRUKTUREN, HALBLEITER
Beispiel aus der Materialwissenschaft
Molecular Dynamics Code ddcMD: 2 Millionen Atome (2005)Informatik Erfolg: Ausführung auf Blue Gene/L (128K Rechenkerne)Wissenschaftlicher Erfolg: Neue Erkenntnisse bei Materialerstarrung
https://e-reports-ext.llnl.gov/pdf/336469.pdf
Strömungs-mechanik
AUTOMOBIL,LUFT & RAUMFAHRT
Lenovo Channel Kick-off | 26.03.19 | Laura Schulz
Klimaforschung
WETTER-VERHÄLTNISSE &PREDIKTIONEN
Project ClimEx – Einfluß des Klimawandels
Geophysik
PLATTENTEKTONIK,ERDBEBEN-SIMULATIONEN
Lenovo Channel Kick-off | 26.03.19 | Laura Schulz
Medizin undMedizintechnik
BLUTABFLUSS,ANEURYSEN
HPC als Rückgrat der Modernen Wissenschaft
Modellierung und Simulation als 3. StandbeinNeben Theorie und ExperimentenErmöglicht neue wissenschaftliche Erkenntnisse
Maschinelles Lernen und KI als neues GebietNeue AnwendungenNutzung in klassischer Simulation
Nachfrage nach HPC Ressourcen weiterhin steigendQuelle:
US Department of Energy
Quelle: Top500, 11.2018
Deutschland:SuperMUC-NG19.5 Pflop/s Linpack
Top 500 / Nov. 2018
USA: Summit (ORNL)
China: Sunway TaihuLight(NSC Wuxi)
SuperMUC-NG
Installiert Ende 2018Nachfolger von SuperMUC-I/II
26.9 Pflop/s Top Leisting6,480 Lenovo ThinkSystem Knoten
mit 311,040 Intel Xeon Kernen719 TByte Hauptspeicher und70 PByte LangzeitspeicherDirekte Kühlung mit „Warm“wasser
#9 Top500
Nächster Schritt: Exascale
1018 Operationen pro Sekunde
Ein Milliarde Milliarde Operationen pro Sekunde
Vergleich iPhone X: 600 Milliarden Operationen pro Sekunde
Erklärtes Ziel mehrerer Nationen
Große Projekte
Förderprogramme
„New Space Race“
Neue Herausforderungen
Informatik
Rechenzentrum
Anwendungen
Quelle: IDC
HPC Top500 Entwicklung
Quelle: Top500
June 2013 20242020
Wendepunkte
Ende von „Dennard Scaling“!“Die Leistungsdichte vonTransistoren ist konstant”
Schon seit 2007Konsequenz: mehr Parallelität
Ende des „Moore‘s Law“?“Die Zahl der Transistoren verdoppelt sich alle 18 Jahre”
Trend zu Akzeleratorenund Spezialisierung
Exascale Herausforderungen
Akzeleratoren
Beispiele von AkzeleratorenGPU: Graphics Processing Units
Beispiel: NVIDIA’s Tesla V100 (Volta Generation)Single Instruction Multiple Data (SIMD)
FPGA: Field Programmable Gate Arrays “Spatial Computing”Programmierbare HardwareSpezialsprachen wie VHDL und Verilog
DatenflußansätzeAbkehr von sequentieller ProgrammierungNur Operationen und AbhängigkeitenSchwierige Integration und Programmierbarkeit
Dichte System Integration
Graphics Processing Units (GPUs)
Ursprünglich gedacht für schnelle GraphikausgabenZeichnen von Dreiecken, Shading, Texture mapping, …Am Anfang spezielle Operationen, später mehr und mehr programmierbar
Erste vollständig programmierbare GPUs um 2006Auch “General Purpuse GPUs (GPGPUs)” genanntCUDA: Entwickling von NVIDIA zur Programmierung
Heute sind die meisten GPUs programmierbarFrom AMD GPUs to integrated SoCs as on the Raspberry PiAnsatz SIMD: Eine Instruktion führt Operation auf mehreren Daten ausHohe ParallelitätAber: muss auch im Programm ausgedrückt werden
NVIDIA’s Volta
NVIDIA’s Volta
Einfache KomponentenRepliziert auf einem ChipPr ecision)
Wichtig für KI/Deep Learning125 Tflop/s (reduced precision)
Einfache KomponentenRepliziert auf einem ChipPr ecision)
Potential von GPUs
Quelle: NVIDIA, CUDA C Programming Guide
Problem: Programmierbarkeit
Ansätze oft Low-level oder nur für einen HerstellerNVIDIA’s Ansatz: CUDAOpenCL als allgemeiner Ansatz
Erweiterung von bestehenden SprachenOpenMP: ursprünglich für Threading in einzelnen KnotenOpenACC: Spezial-Ansatz für GPUs, aber ähnlich zu OpenMP
Höhere AbstraktionsebenenPortabilitätsabstraktionen wie Raja, Kokkos oder SYCLDomänen-spezifische Sprachen
Kombinationen von Ansätzen
SkalierbarkeitViele Recheneinheiten liefern viele Daten- Sammeln und Speichern- Schwierige Auswertung- Interaktionen sind problematischNeue Werkzeugansätzer nötig
Beispiel: Debugging“Nadel im Heuhaufen”Ansatz: ”Was verhält sich anders?”Vergleich von Programm-Status
Nicht nur für Programmfehler
Beispiel mit > 1,000,000 Prozessen
Einzelner Prozess
Alle Anderen in der Barriere
Node List of N-1 Tasks
Exascale Herausforderungen
AkzeleratorenProgrammierung benötigt neue standardisierte AnsätzeWerkzeugunterstützung!
NetzwerkeNiedrige Latenz und hohe BandbreiteNetzwerktopologien zur Minimierung von „Contention“
Netzwerk Topologien
Quellen: Clusterdesign.org, ANL,
Fujitsu, Wikipedia
Fat-Tree: most cluster interconnects
Torus: BG/L (3D), BG/Q (4.5D), K (6D), Cray XT3 (3D)