1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea Politehnica Bucuresti Facultatea de Automatica si Calculatoare cs.pub.ro curs.cs.pub.ro 2 Cuprins • Top 500 Supercomputers (http://www.top500.org) – Prezentare generala – Benchmark – LINPACK(HPL) • Top 10 – Motivatie – Info – locatie/furnizor – Arhitectura – Performante LINPACK – OS & Software – Aplicatii • Concluzii Top 500 • Cate ceva despre examen: mod de notare, etc…
43
Embed
Arhitectura Sistemelor de Calcul Curs 14 - 14 - Top500.pdf · 2021. 4. 6. · Arhitectura Sistemelor de Calcul ... • Rezolvarea sistemelor de ecuatii liniare este o problema intalnita
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
• Simulari atmosferice pentru Agentia Aerospatiala a Japoniei
• Simulari oceanice pentru Centrul Japonez de Stiinte si Tehnologii Marine
• Simulari industriale
• Simulari atomice pentru Insititutul Japonez de Cercetari Atomice
6
11
(94) – NEC Earth-Simulator
• Site: The Earth Simulator Center
• Familia de sisteme: NEC Vector
• Model: SX6 (SX9)
• Procesor: NEC 1000MHz
• OS: Super-UX
• Arhitectura: MPP
• Aplicatii: studiul mediului
• Anul instalarii: 2002
• Numar de procesoare: 5120
• Rmax(TFlops): 35.86
• Rpeak(TFlops): 40.96
• Interconectare: Multi-stage crossbar
• No 1 intre 2002-2004
12
Procesoare Vectoriale SX6
• Unitate Scalara (SU)
• Unitate Vectoriala (VU)
• Frecventa – 500 MHz
• SU – procesor super-scalar: 64Kb instr cache; 64Kb data cache; 128 registrii de uz general
• VU – 72 registrii vectoriali cu 256 elemente & 8 seturi de 6 benzi de asamblare pentru operatii logice si aritmetice
• Tehnologie de fabricaţie: LSI, 0.15µm CMOS, 60 mil. tranzistori
• Consum 140 W
7
13
Arhitectura Earth-Simulator
14
Arhitectura Fizica Earth-Simulator
• Fiecare 2 noduri sunt instalate într-un container (1x1.4x2m)
• Fiecare container consumă 20 KW 8MW
• Memoria sistemului este de 10TB
• Spatiu de stocare pe disc 700 TB
• Stocare in masa pe banda 1.6 PB
8
15
(299) – MareNostrum JS20 Cluster
• Site: Barcelona Supercomputing Center
• Familia de sisteme: IBM Cluster
• Model: BladeCenter JS20 Cluster
• Procesoare: PowerPC 970 2.3 GHz
• OS: SuSE Linux Enterprise Server 9
• Arhitectura: Cluster
• Aplicatii: Medicina
• Anul instalarii: 2006
• Numar de procesoare: 10240
• Rmax(TFlops): 62.630
• Rpeak(TFlops): 94.208
• Interconectare: Red Myrinet
16
Arhitectura MareNostrum
• Memorie totala 20TB
• Capacitate de stocare: 370TB
• Este format din 44 de rack-uri ce ocupa 120m2
9
17
Aplicatii MareNostrum
• Computational Sciences: – Computer Architecture
– Performance Tools
– Grid Computing & Clusters
• Earth Sciences – Air Quality
– Meteorological Modelling
– Mineral Dust
– Climate Change
• Life Sciences – Molecular Modelling & Bioinformatics
– Computational Genomics
– Electronic & Atomic Protein Modelling
18
(268) – Columbia – SGI Altix
• Site: NASA/Ames Research Center/NAS
• Familia de sisteme: SGI® Altix™
• Model: SGI® Altix™ 3700, Voltaire Infiniband
• Procesoare: Intel IA-64 Itanium 2 1.5 GHz
• OS: SuSE Linux Enterprise Server 9
• Arhitectura: MPP
• Aplicatii: Cercetari aerospatiale
• Anul instalarii: 2004
• Numar de procesoare: 10240
• Rmax(TFlops): 51.870
• Rpeak(TFlops): 60.960
• Interconectare: Numalink/Infiniband
10
19
Columbia – Arhitectura
• Botezat astfel în memoria echipajului de pe Columbia (1 februarie 2001)
• Utilizeaza 20 superclustere Altix™ din seria 3000
– 8 SGI Altix 3700 si 12 Altix 3700 Bx2
– 4 din Bx2-uri formeaza un 2048-PE (processor shared memory environment)
• Are 10.240 procesoare Intel Itanium 2 (1.5GHz, 6MB Cache)
• Pana la 24 TB de Global shared memory pe fiecare cluster
20
Columbia – Interconectare
• Nodurile sunt conectate prin Voltaire InfiniBand si prin Ethernet de 1 si 10 Gb/s
• Columbia este conectat la un on-line RAID printr-o conexiune Fibre Channel 440TB
• Conectarea procesoarelor prin SGI®NUMAlink™ design modular
– 2048 de procesoara folosesc NumaLink si pentru conectarea dintre noduri
– Singura tehnologie care ofera global shared memory si intre noduri, nu doar in cadrul clusterului
11
21
Columbia – Software
• OS: SGI ProPack 4 – bazat pe SUSE Linux
• Compilatoare Intel® Fortran/C/C++ & Gnu
• Fiecare nod de 512 procesoare ofera – Latenţă mică la accesul mem (<1 ms) → reduce
overheadul in comunicatie
– Global shared mem de 1TB → procesele mari rămân rezidente
• Optim pentru aplicatii cu comunicatie masiva intre procesoare – Simulari fizice in care domeniul este
discretizat CFD
– Prognoza meteo & Nanotehnologii
– N-Body simulations Astrofizica
22
Columbia – Aplicatii
• Cart3D: – O simulare utilizata pentru a prezice traiectoria unei bucati de spuma desprinse in timpul ascensiunii navetei spatiale – Culorile reprezinta presiunea pe suprafata spumei
• Debris: – Codul calculeaza traiectoriile resturilor desprinse din vehicolul orbital in timpul
ascensiunii – Ajuta la evaluarea periculozitatii acestor resturi
• Overflow: – Un cod CFD complex utilizat pentru a proiecta si evalua modificarile vehiculelor aerospatiale – Imaginea prezinta campul de presiune in jurul navetei spatiale la viteza de 2.46Mach, la o altitudine de aproximativ 22km – Culorile reprezinta presiunea si tonalitatile de gri din jurul vehiculului, densitatea aerului
• Phantom: – Este un alt cod CFD utilizat pentru a simula flow-uri 3D, nestationare in motoare cu
reactie – Iata asadar presiunea in pompa de combustibil a motorului principal al navetei
spatiale, ce functioneaza cu hodrogen lichid
12
23
(13) – Jugene BlueGene/P
• Site: Forschungszentrum Juelich (FZJ)
• Familia de sisteme: IBM BlueGene/P
• Model: eServer Blue Gene/P Solution
• Procesor: PowerPC 450 850MHz
• OS: CNK/SLES 9
• Arhitectura: MPP
• Aplicatii: Cercetare
• Anul instalarii: 2009
• Numar de core-uri: 294.912
• Rmax(TFlops): 825.500
• Rpeak(TFlops): 1.002.701
• Consum: 2.268 KW
• Interconectare: Proprietary
24
Arhitectura IBM BlueGene
• Program initiat de IBM in 1999 pentru a construi “a petaflop scale machine”
• BlueGene/L – primul pas, bazat pe procesoare PowerPC
– Spatiu de adresare mare
– Compilatoare standard
– Bazat pe middleware de “message passing” deja existent
– A necesitat adaugiri semnificative fata de sistemul PowerPC standard
• Un nod computational = computer-on-a-chip – ASIC:
– Multiple module de interconectare folosind retele de comutare de mare viteza
13
25
Arhitectura IBM BlueGene (2)
• Cache pe procesor: 32k/32k L1 cache, 2k L2 cache – comunica printr-un modul SRAM rapid cu celalalt cache – 4MB L3 cache comun pentru cele 2 procesoare – L2 si L3 sunt coerente intre cele doua procesoare
• Memorie: 512 MB DDR RAM pe card cu bandwidth de 5.5 GB/s 32768 GB – Controler de memorie externa de tip DDR integrat on-chip
• Interconectare: – Tor 3D cu un router pe nod (32 x 32 x 64) – Procesor I/O dedicat - un proces/nod, 2 thread-uri/proces
• I/O extern: – Noduri dedicate pentru I/O extern – Reteaua este de tip arborescent – Se foloseste gigabit Ethernet & un adaptor pentru reteaua JTAG
• OS – “Unix-like environment” functionalitatile OS distribuite intre nod-ul de calcul si nodul
de I/O – CNK (Compute Node Kernel) – Linux
• Software – MPI – Co-arrays – UPC
26
Arhitectura IBM BlueGene (3)
14
27
Retele de Comunicatie IBM BlueGene
• Nodurile sunt atasate la 5 retele de comunicatie: – Retea toroidala 3D pentru
comunicatii intre noduri (175MB/s)
– Retea colectiva de comunicatii (350MB/s)
– Retea globala de intreruperi si bariere
– Pentru I/O – Gigabit Ethernet
– Joint Test Access GroupGigabit Ethernet – pentru control si monitorizare
28
• Favorizeaza aplicatii care utilizeaza comunicarea cu vecinii imediati
• BlueGene e dezvoltat pentru aplicatii cu volum mare de date – Analiza proteinelor
• Interactiunea intre medicamente si proteine • Catalizarea enzimelor • Rafinarea structurilor moleculare • Identificarea parametrilor unor structuri folosite in recunoasterea
“impaturirii” unor proteine • Identificarea parametrilor in structuri din bazele de date de chimie
– Modelare si simulare – Data Mining – Fizica atomica: similar cu ASC Purple – Dinamica moleculara (inclusiv ab-initio) – Hidrodinamica steady state si turbulenta – Astrofizica
• Daca cercetarile vor avea succes se vor putea vindeca boli precum – Alzheimer – Fibroza cistica – Boala vacii nebune
• Destinat in principal simularilor de arme nucleare
• Investigarea momentelor premergatoare unei detonari nucleare
• Simularile informatice sunt realizate pe baza modelelor fizice si matematice dezvoltate de catre CEA
• Datele initiale utilizate sunt – Cele ale experimentelor din Oceanul Pacific din 1995 si 1996 – Cele obtinute cu detectorul Airix & Laser Megajoule in locatiile din
Moronvillers – Laserul Megajoule permite de asemenea crearea de date, mai ales legate de
fuziunea nucleara, utilizata in bombele cu Hidrogen
• Arhitectura Tera-100: – 4,300 de Servere Bullx S Series – Memorie Principala 300TB – Capacitate de stocare de peste 20PB – Bandwidth la sistemul global de fisiere 500GB/sec – cel mai rapid din lume la
ora actuala (utilizand LustreFS) – Dezvoltat in totalitate in Uniunea Europeana (in afara de procesoarele Intel)
20
39
8 – Hopper Cray XE6
• Site: National Energy Research Scientific Computing Center
• Familia de sisteme: Cray XE
• Model: Cray XE6
• Procesor: AMD Opteron 2.1 GHz
• OS: Linux
• Arhitectura: MPP
• Aplicatii: Cercetare
• Anul instalarii: 2010
• Numar de core-uri: 153.408
• Rmax(TFlops): 1.054.000 (NMax 4.58M)
• Rpeak(TFlops): 1.288.630
• Consum: 2910 KW
• MFlops/Watt: 362
• Interconectare: Custom
40
Hopper – Interconnect
21
41
Hopper – Diagrama Sistemului I/O
42
Hopper – Aplicatii
• Explicarea LED-Efficiency-Droop
Electron + Electron hole Electron + hole + carrier
= light = no light + vibrations
• Detectie de particule “grele”
22
43
Hopper – Aplicatii (2)
• Simularea “accelerarii” acceleratoarelor de particule (LHC)
Laser plasma wakefiled
• “Calare” pe o raza de lumina… timpul se opreste si spatiul se contracta
44
Hopper – Aplicatii (3)
• Detectarea unor galaxii satelit formate din “materie neagra”
23
45
7 – Pleiades
• Site: NASA/Ames Research Center/NAS • Familia de sisteme: SGI Altix • Model: SGI Altix ICE 8200EX/8400EX • Procesor: Xeon HT QC 3.0/Xeon 5570/5670 2.93 Ghz • OS: Linux • Arhitectura: MPP • Aplicatii: Cercetare • Anul instalarii: 2011 (2008) • Numar de core-uri: 111.104 • Rmax(PFlops): 1,088
• Examenul consta din doua parti distincte – Partea de teorie – 50min:
• Subiecte din temele prezentate la curs
• Examenul de teorie poate fi sustinut si oral
– Partea de probleme – 30min-45min: • Subiecte similare cu unele din problemele propuse ca teme de laborator
• Nota finala este calculata cu formula: – Teorie Examen*0.40 + Problema Examen*0.10 + Laborator*0.50
• Punctajul fiecarei parti este in intervalul 0..10
• Intrarea in examen si promovarea nu poate avea loc decat daca nota finala de la laborator este strict mai mare ca 2.5 – Restantierii din anii 4/5: minim o tema din 1 si 2 si una din 3 si 4 +