IA32-AMD-IA64- RISC: eine Decus Prozessorübersicht ... · PDF fileRISC: eine Prozessorübersicht ... • Xeon vs. Opteron System Architektur ... High-perform ance 32-bit and 64-bit
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Memory: ASIC basierend, hohe Latenz, 1-2 Controller/System
HP Restricted 6September 2004
AMD Opteron System Architektur(z.B. DL585)
PCI-XTunnel
PCI-XTunnel
PCI-XTunnel
I/OHub
Opteron Opteron
Opteron Opteron
SCSI
NIC
IDE, LPC, USBPCI compatibility bus
CPU/Memory Verbindungs-Architektur:Hyper Transport: effizient, mehrfach- dual-unidirektional, hohe Bandbreite
Memory: kleine Latenz durch integriertem Memory Controller zu Core Taktraten, biszu 4/System
Hyper TransportTM
Links
www.decus.de 4
IT.Symposium 2005 June 2004
HP Restricted 7September 2004
HT
HT
HT
XBar
MCT
SRQ CPU
Inside des Opteron ProzessorsInterne Komponenten:• CPU Core w/L1, L2 Cache• Memory Controller• HyperTransport Links
– 3 HT Links in allen Opteron Prozessoren• 200 Serie:
- 1 Coherent HyperTransport• 800 Serie:
- bis zu 3 Coherent HyperTransport- ProLiant DL585 nutzt 2 von ihnen
• Crossbar Switch – verbindet interne Komponenten
• CPU Core, Memory Controller und xbar Switch arbeiten unabhängig voneinander
HP Restricted 8September 2004
HyperTransport
• Separate Transmit und Receive Kanäle• Differential Signal Übertragung• Termination in den ASICs• Double-pumped data rate• unterstützt bis zu 800MHz Operation (1.6GT/sec)• skalierbar von 4- bis 32- bit Datenpfad (Opteron ist 8 oder 16)• AMD Extensions für HyperTransport unterstützt “coherent messaging”
Data[n:0]Clock[(n/8-1):0]
ControlHT
HT
HT
XBar
MCT
SRQ CPU
HT
HT
HT
XBar
MCT
SRQCPU
Data[n:0]Clock[(n/8-1):0]
Control
3.2 GB/s x 2 =
6.4GB/s
www.decus.de 5
IT.Symposium 2005 June 2004
HP Restricted 9September 2004
Memory Durchsatz
Bandbreite– Memory Controller per CPU– Memory Controller per System (2P, 4P)
S e r v e r S y s t e m C o m p a r i s o n A M D O p t e r o n ™ I n t e l X e o n * I n t e l X e o n
M P * *
I n t e l I t a n iu m 2 * * *
M o d u l a r , g lu e l e s s s c a l a b i l i t y u p t o 8 - w a y u p t o 2 - w a y u p t o 4 - w a y u p t o 4 - w a y
H i g h - p e r f o r m a n c e 3 2 - b i t a n d 6 4 - b i t c o m p u t in g Y e s N o N o N o
H y p e r T r a n s p o r t ™ t e c h n o lo g y Y e s N o N o N o
I n t e g r a t e d D D R m e m o r y c o n t r o l le r Y e s N o N o N o
F r o n t S i d e B u s f r e q u e n c y 1 . 4 - 1 . 8 G H z † 5 3 3 M H z 4 0 0 M H z 4 0 0 M H z
F r o n t S i d e B u s B a n d w i d t h 1 1 . 2 - 1 4 . 4 G B / s † 4 . 2 G B / s 3 . 2 G B / s 6 . 4 G B / s
M a x i m u m I n t e r - p r o c e s s o r b a n d w i d t h 6 . 4 G B / s 4 . 2 G B / s 3 . 2 G B / s 6 . 4 G B / s
M e m o r y s u p p o r t D D R 2 0 0 / 2 6 6 / 3 3 3 D D R 2 6 6 D D R 2 0 0 D D R 2 0 0
M e m o r y B a n d w i d t h 2 P S y s t e m 1 0 . 6 G B / s 4 . 3 G B / s 6 . 4 G B / s 6 . 4 G B / s
M e m o r y B a n d w i d t h 4 P S y s t e m 2 1 . 2 G B / s N / A 6 . 4 G B / s 6 . 4 G B / s
L 2 c a c h e s i z e 1 M B 5 1 2 K B 5 1 2 K B 2 5 6 K B
L 3 c a c h e s i z e N / A N / A 2 M B 1 . 5 M B / 3 M B
M a x i m u m I / O b a n d w i d t h 2 P S y s t e m 1 2 . 8 G B / s † † 3 . 2 G B / s 4 . 8 G B / s 6 . 4 G B / s
M a x i m u m I / O b a n d w i d t h 4 P S y s t e m 2 5 . 6 G B / s † † † N / A 4 . 8 G B / s 6 . 4 G B / s
S I M D I n s t r u c t i o n S e t S u p p o r t S S E , S S E 2 S S E , S S E 2 S S E , S S E 2 S S E , S S E 2
† W it h t h e m e m o r y c o n t r o l le r in t e g r a t e d o n t o t h e A M D O p t e r o n p r o c e s s o r , t h e f r o n t s id e b u s ( in t e r f a c e t o m e m o r y ) r u n s a t t h e s p e e d o f t h e p r o c e s s o r
† † A M D 2 P S y s t e m - A M D O p t e r o n 2 0 0 S e r ie s w it h 1 H y p e r T r a n s p o r t In t e r - p r o c e s s o r B u s a n d 2 H y p e r T r a n s p o r t I / O B u s e s w it h D D R 3 3 3 m e m o r y
HP Restricted 12September 2004
HT
HT
HT
XBar
MCT
SRQ CPU
HT
HT
HT
XBar
MCT
SRQCPU
HT
HT
HT
XBar
MCT
SRQ CPU
HT
HT
HT
XBar
MCT
SRQCPU
Opteron Memory ArchitekturPros:• Opteron Memory Latenz wird kleiner,
wenn die Taktrate sich erhöht• jedes Memory ist 2 hops oder
weniger von jedem Prozessorentfernt
• Memory Bandbreite skaliert mit derAnzahl der Prozessoren
Cons:• kein “shared” Memory Bus bedeutet
weniger zusammenhängendesMemory
• Maximale Memory Kapazitäterfordert, dass alle Prozessoreninstalliert sind
• Opteron Memory Controller unterstützt nicht “advanced memory protection”
6.4GB/s
6.4GB/s
www.decus.de 7
IT.Symposium 2005 June 2004
HP Restricted 13September 2004
Xeon Memory Architecture
Pros:• Maximale Memory Kapazität stets
erreichbar• unterstützt “advanced memory
protection” incl. spare DIMM, Memory mirroring und RAID Memory
Cons:• “Shared” Memory Bus und CPU
frontside Bus erhöhen Latenz und limitieren Bandbreite für alleProzessoren
• Viele Pfade zu ASIC, nicht zu CPU Geschwindigkeiten
Northbridge
Xeon
Xeon
Xeon
Xeon
HP Restricted 14September 2004
Leistungsbetrachtungen
wie verhält sich die Opteron Plattformgegenüber Xeon Plattformen?
• Microsoft: X64 (Microsoft’s Begriff für 64-bit X-Technologie, verschoben auf 2005)
64-bit Extensions Architekturen:
www.decus.de 11
IT.Symposium 2005 June 2004
HP Restricted 21September 2004
Vorteile von 64-bit Extensions
Standard 32bit Computing ist begrenzt auf 4GB Adressraum• gemeinsam für OS Kern, Library Routinen und Applikationen• Applikationen bekommen nur 2GB – 3GB davon
Mechanismus wie AWE und PAE erweitern den virtuellen und physikalischen Adressraum*• aber sie sind schwierig zu programmieren und zu nutzen,
Leistungen sind nur begrenzt64bit Erweiterungen features :
• 64 bits (16 exabytes) virtueller Adressraum – 48bits implementiertin der ersten Generation der Prozessoren
New features !New features ! (SMT)New features ?New features (SMT)!
Alpha EV7Itanium
tm2
X-86 Family
PA-8800
POWER4
UltraSPARCMIPS 16K rip
PA 8700
Alpha EV68
Itanium
UltraSparc is the only remaining ‘non OOO’processor.
PA-8900
Itanium2 6M
Innovative ApproachConservative Approach
POWER5
/Z -64 bit/390 31 bit
Opteron
Itanium2 9M
HP Restricted 30September 2004
on a single chip !
Wildfire QBB Backplane
CPU Module
Memory Module
Hierarchical Switch
EV7 im Vergleich zu EV68
www.decus.de 16
IT.Symposium 2005 June 2004
HP Restricted 31September 2004
PA-8800 packt zwei PA-8700+ CPUs auf einen Chip für gesteigerte Leistung.
Binäre Kompatibilität mit PA-8700+State-of-the-art 130nm IC ProzessJeder Core hat seinen eigenenL1 Cache32MB, unified L2 Cache mitverbessertem Cache ControllerHoher Durchsatz und Kompatibilitätmit Itanium 2 System BusGleicher Sockel und HP Chipsatzwie der des Itanium 2 Prozessors
HP PA-8800 Dual Core
HP Restricted 32September 2004
Itanium Design und Leistung
www.decus.de 17
IT.Symposium 2005 June 2004
HP Restricted 33September 2004
compilercompilercompiler parallelizedcode
parallelizedparallelizedcodecode
HardwareHardware
......
......
Execution Units unused Execution Units unused ––reduced efficiencyreduced efficiency
Sequential Sequential Machine Machine
CodeCode
OriginalOriginalSourceSourceCodeCode
ItaniumItanium--basedbased
compilercompiler
......
......
Multiple execution Multiple execution units units
resources used resources used more efficientlymore efficiently
Parallel Parallel Machine CodeMachine Code
Traditional Itanium™ architecture: Explicit Parallelism
Massive Resources
IA-64 Architektur: Explicit Parallelism
OriginalOriginalSourceSourceCodeCode
HP Restricted 34September 2004
Itanium: die 4 wichtigsten Eigenschaften
Was macht Itanium so stark?• Massive Ressourcen: 2* 128 64-bit+
Register. Aufteilung auf Integer Units und Floating Point Units beliebig, dazu jede MengeSpezialregister für branches, predication, loop unrolling etc.
• Explicit Parallelization: Der Compiler signalisiert dem Prozessor, welcheAnweisungen parallel ausgeführt werdenkönnen und was sequentiell ausgeführtwerden muss.
• Speculation: Der Prozessor kann Daten in den Cache laden, auch wenn der Zugriffmöglicherweise illegal ist (pre-load). DerVerwendbarkeitscheck benötigt später nurnoch einen Zyklus.
• Predication: Der Compiler kann auch zweiparallele Programmteile ausführen lassen, von denen nur eines weiterverwendet wird, z.B. beide Teile einer IF-Anweisung.
www.decus.de 18
IT.Symposium 2005 June 2004
HP Restricted 35September 2004
Itanium2 Prozessor
Größe:421mm2
50+% der Flächefür Cache und Cache Support Logik!
19.5mm
21.6
mm
HP Restricted 36September 2004
Itanium 2 Architektur
www.decus.de 19
IT.Symposium 2005 June 2004
HP Restricted 37September 2004
Itanium –SPECcpu2000 Ergebnisse
SPECint_base2000Best SPECint_base2000 for each processor
SPECfp_base2000Best SPECfp_base2000 for each processor2X
SPECcpu2000 - RISC/EPICServer Processors
Results as of February 24, 2004For more information on SPEC, see www.spec.org
702
905
1113
1322
0 500 1.000 1.500
Sun USIII Cu 1280 Mhz
Fujitsu SPARC64 1350 MHz
IBM POWER4+ 1.7 GHz
Intel Itanium 2 1.5 GHz
1054
1340
1699
2119
0 500 1.000 1.500 2.000 2.500
Sun USIII Cu 1280 Mhz
Fujitsu SPARC64 1350 MHz
IBM POWER4+ 1.7 GHz
Intel Itanium 2 1.5 GHz
HP Restricted 38September 2004
Itanium – führende SPECcpu2000 Werte
1085
1095
1242
1322
0 500 1.000 1.500
Intel Pentium 4 3.06 GHz
AMD Opteron 1.8 GHz
Intel Xeon 3.06 GHz
Intel Itanium 2 1.5 GHz
SPECint_base2000Best SPECint_base2000 for each processor
1092
1122
1173
2119
0 500 1.000 1.500 2.000 2.500
Intel Pentium 4 3.06 GHz
AMD Opteron 1.8 GHz
Intel Xeon 3.06 GHz
Intel Itanium 2 1.5 GHzSPECfp_base2000Best SPECfp_base2000 for each processor
SPECcpu2000 – Industry Standard Processors
2X
www.decus.de 20
IT.Symposium 2005 June 2004
HP Restricted 39September 2004
Itanium 2 Roadmap
20052003 2004
Itanium® 2Madison
1.3GHz 3MB L31.5GHz, 6MB L3
470.000.000 FETs
Itanium® 2Madison 9M
1.6GHz, 9MB L3
Itanium® 2MontecitoDual Core
Hyperthreading
~2GHz,24MB L31.720.000.000
FETs
L1,L2,L3 Cache on Die
0.13 µm
90 nm
HP developedmx2 dual
processor module
65 nm
Itanium® 2Montvail>2GHz
>24MB L3
65 nm
2006
Itanium® 2Deerfield
1GHz 1.5MB L3
Itanium® 2Millington
Itanium® 2LV Millington
Tukwila>= 4 Core> 4GHz
Integrated Interconnects
2007
Itanium® 2Fanwood
>1GHz 1.5MB L3
Itanium® 2LV Fanwood
>1GHz 1.5MB L3
HP Restricted 40September 2004
Itanium® Montecito: dual core
www.decus.de 21
IT.Symposium 2005 June 2004
HP Restricted 41September 2004
Chiptechnologien für Serversysteme
Agenda:
• 32-bit Welt und höher– Opteron und Xeon: 32-bit Computing– X86-64: Moving into the 64-bit World
• 64-bit Welten– Itanium Performance und Design– Risc Alternativen
Comment: Opteron’s heritage is again visible from the supported memory page sizes 4 KB and 2 MB (as in IA-32). Itanium supports variable page size from 4 `KB up to 4 GB (!) and a resulting ‘fault-less’ address space of 512 GB !!
Comment: x86-64 heritage is again visible from the supported memory page sizes 4 KB and 2 MB (as in IA-32). Itanium supports variable page size from 4 KB up to 4 GB (!) and a resulting ‘fault-less’ address space of 512 GB !!
Comment: McK and Madison doubled the number of supported loads from L3 cache (vs. Itanium 1). With paired operands 4 64bit loads and 2 64bit stores can be issued per clock. Those features can barely be leveraged in tests like SPEC!
www.decus.de 24
IT.Symposium 2005 June 2004
HP Restricted 47September 2004
die wesentlichen 64-bit Prozessoren
Instr. Per Cycle
Clock Speed
Exec. Units
Register Count
Issue Ports
PipelineStages
On-Die Cache
Memory Band-width
Memory Address-ability
Proc
61.5GHz6 Int3 BR2 FP1 SIMD2 Load AND Store
264 64 Predicate
1186MB6.4 GB/s1PBItanium 2
4*1.15GHz4 Int2 FP2 Load or Store
1524*71.75MB6.4 GB/s(12GB/s for Local Memroy)
4TBEV7
41GHz2 Int1 Br2 FP2 Load or Store
104481.5MB6.4 GB/s16TBPA-8800
52GHz2 Int1 Br2 FP2 Load or Store
1208121.92MB (SHARED)(shared between 2 cores)
>20GB/s(high to support cache snooping)
18 TBPower5
HP Restricted 48September 2004
Workgroup
File, print
MailMessaging
Directory, DNS, firewall, security
Services, caching, proxy Web
Infra-structure
Parallel computing, clustering
HPC
OLTP mid size
Apptier
ERP, biz logic, app server
Biz intelligence/ SCM planning
Biz intelligenceVery large data sets
Back-end for CRM,SCM, ERP, large data sets
Large SMP, large memory
HPC
ERPlarge
OLTPlarge
BI
Front-end Application & data-tier Large scale data tier1 - 4 processors 4 - 8 processors 8 - 64+ processors
OLTPmed
ERPmedium
BI
Integrity & NonStopProLiant & Integrity
Integrity
ProLiant
OLTP large size DBHigh transaction volumes
Back-end for CRM, SCM, ERP
Integrity & NonStop servers
ProLiant & Integrity systems
Mix of ProLiant, Integrity & NonStop
Online Data Store
ZLE
ProLiant w/x86 Extensions istspeziell fürrechenintensive und Memory-hungrige 32-bit Applikationengedacht:
• HPC Cluster• Solaris zu Linux
Migrationen• Datenbanken
HP: Integrity und ProLiant Positionierung:
www.decus.de 25
IT.Symposium 2005 June 2004
HP Restricted 49September 2004
Senkung der Itanium® Kosten
HP Restricted 50September 2004
eine operating Umgebung ist die Kombination von operating System und einer “Instruction Set Architecture” (ISA)
Beispiele: HP-UX und PA-RISC, Linux32 und IA-32, Power und AIX, Sparc und Solaris etc.
Die Frage ist also nicht nach künftigen operating Systemen (welches OS wird sich durchsetzen) –sondern nach künftigen operating Umgebungen.
Beispiele: Itanium und Windows,oder Linux, oder HP-UXoder OVMS oder NSK
hp confidentialEuropean Analysts Briefing, London. September 5, 2000
Operating Systeme vs Operating Umgebungen
www.decus.de 26
IT.Symposium 2005 June 2004
HP Restricted 51September 2004
let’s play together!
herzlichen Dank!
HP Restricted 52September 2004
I/O Subsystem
HT
HT
HT
XBar
MCT
SRQ CPU
Non-coherentHyperTransport
HT
HT
HT
XBar
MCT
SRQCPU
HT
HT
HT
XBar
MCT
SRQ CPU
HT
HT
HT
XBar
MCT
SRQCPU
4.8GB/s
2.4GB/s
PCI-XTunnel
PCI-XTunnel
PCI-XTunnel
I/OHub
www.decus.de 27
IT.Symposium 2005 June 2004
HP Restricted 53September 2004
PCI-XTunnel
PCI-XTunnel
PCI-XTunnel
I/OHub
HT
HT
HT
XBar
MCT
SRQ CPU
LPCLegacy PCI
HT
HT
HT
XBar
MCT
SRQCPU
HT
HT
HT
XBar
MCT
SRQ CPU
HT
HT
HT
XBar
MCT
SRQCPU
USBSMBus
IDE
100MHz
SCSI
NIC
100MHz
133MHz
DL585 I/O Subsystem
HP Restricted 54September 2004
Accessing the I/O Subsystem
PCI-XTunnel
PCI-XTunnel
PCI-XTunnel
I/OHub
LPCLegacy PCI
USBSMBus
IDE
SCSI
NIC
HT
HT
HT
XBar
MCT
SRQ CPU
HT
HT
HT
XBar
MCT
SRQCPU
HT
HT
HT
XBar
MCT
SRQCPU
HT
HT
HT
XBar
MCT
SRQ CPU
www.decus.de 28
IT.Symposium 2005 June 2004
HP Restricted 55September 2004
Memory Durchsatz für 2P
Northbridge
HT
HT
HT
XBar
MCT
SRQ CPU
HT
HT
HT
XBar
MCT
SRQCPU
Xeon
Xeon
x 4 channelsx 2 channels
x 8 bytesx 8 bytesx 2 Double Data Rate (DDR)x 2 Double Data Rate (DDR)200 MHz bus speed 200 MHz bus speedOpteron – 12.8 GB/s (DDR-400)Xeon – 6.4 GB/s (DDR2-400)
(c. 2H’04)
2x
HP Restricted 56September 2004
Memory Durchsatz für 4P
Northbridge
Xeon
Xeon
Xeon
Xeon
x 8 channelsx 4 channels
x 8 bytesx 8 bytesx 2 Double Data Rate (DDR)x 2 Double Data Rate (DDR)166 MHz bus speed 100 MHz bus speedOpteron – 21.2 GB/s (DDR-333)Xeon – 6.4 GB/s (DDR-200)
Huge memory address spaces60% shorter memory pipelineLatency avoidanceInstruction predication Data and control speculationMature 64-way SMP implementationsMachine Check Architecture Ring and buffer overflow protectionProtected data pathsBusiness--critical eco-system: ISVs,
storage, mature operating systems
Significantly better performance and scalability for demanding and unpredictable commercial applications: OLTP, database query (TPC-H), sorting
Optimal performance in complex technical applications: Data transforms (FFT), FEA, MCAE, voice recognition