Top Banner
CBE – Cell Broadband Engine Der Cell Prozessor
21

CBE – Cell Broadband Engine Der Cell Prozessor. 1 Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm Synchronisation der Power Kerne Komponenten.

Apr 05, 2015

Download

Documents

Arndt Giel
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: CBE – Cell Broadband Engine Der Cell Prozessor. 1 Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm Synchronisation der Power Kerne Komponenten.

CBE – Cell Broadband Engine

Der Cell Prozessor

Page 2: CBE – Cell Broadband Engine Der Cell Prozessor. 1 Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm Synchronisation der Power Kerne Komponenten.

2

Inhalt

Der Cell Prozessor Aufbau des Cells

• Platine • Block Diagramm• Synchronisation der Power Kerne

Komponenten des Cells• PPE• PPE Pipelining• SPE I + II• EIB

Speicherzugriffe Kennzahlen der Cell Leistung I+II Einsatzgebiete Einschränkungen Zusammenfassung Quellen

Page 3: CBE – Cell Broadband Engine Der Cell Prozessor. 1 Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm Synchronisation der Power Kerne Komponenten.

3

Der Cell Prozessor

Der „Cell“ entstand in einem Gemeinschaftsprojekt von

• Sony • Toshiba• IBM

Ziel war die Entwicklung eines neuen (PowerPC*) Prozessors der eine hohe arithmetische Rechenleistung und schnellen Speicherzugriff in sich vereinigen sollte. Veröffentlichte Kosten des Projekts ca. 400 Mio. $.

*Performance Optimization With Enhanced RISC Performance Chip

Page 4: CBE – Cell Broadband Engine Der Cell Prozessor. 1 Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm Synchronisation der Power Kerne Komponenten.

4

Aufbau des Cells – Platine

Page 5: CBE – Cell Broadband Engine Der Cell Prozessor. 1 Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm Synchronisation der Power Kerne Komponenten.

5

Aufbau des Cells – Block Diagramm

SPE = Synergistic Processor Element LS = Local Storage, 256KB je SPE

Page 6: CBE – Cell Broadband Engine Der Cell Prozessor. 1 Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm Synchronisation der Power Kerne Komponenten.

6

Aufbau des Cells – Block Diagramm

SPE = Synergistic Processor Element LS = Local Storage, 256KB je SPE

EIB = Element Interconnection BusMIC = Memory Interface ControllerBIC = Bus Interface Controller

Page 7: CBE – Cell Broadband Engine Der Cell Prozessor. 1 Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm Synchronisation der Power Kerne Komponenten.

7

Aufbau des Cells – Block Diagramm

SPE = Synergistic Processor Element LS = Local Storage, 256KB je SPE

EIB = Element Interconnection BusMIC = Memory Interface ControllerBIC = Bus Interface Controller

PPU = PowerPC Processor UnitL1 = 32 KByte Instruction CacheL1 = 32 KByte Data CacheL2 = 512 KByte Cache

Page 8: CBE – Cell Broadband Engine Der Cell Prozessor. 1 Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm Synchronisation der Power Kerne Komponenten.

8

Komponenten des Cells – PPE

Das Power Processing Element in ein 64-bit PowerPC-5 RISC-Prozessor der die zentrale Steuerung übernimmt.

Je ein 32KByte großer L1 Cache für Daten und Befehle

512 KByte großer L2 Cache (SRAM)

SIMD (Single Instruction Multiple Data) Design

In-Order-Execution, Multi-Threading und Round-Robin-Thread Scheduling

Pro Takt können 4 Instruktionen geladen und 2 gleichzeitig ausgeführt

VMX*-128 Erweiterung für Gleitkomma Operationen

*VMX: Eine Operation wird gleichzeitig auf mehrere Datenworte angewendet. Der Vektor wird in 8 Elemente zerlegt, wodurch eine 8-fache Leistungssteigerung erzielt werden kann.

Page 9: CBE – Cell Broadband Engine Der Cell Prozessor. 1 Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm Synchronisation der Power Kerne Komponenten.

9

Komponenten des Cells – PPE Pipelining

Page 10: CBE – Cell Broadband Engine Der Cell Prozessor. 1 Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm Synchronisation der Power Kerne Komponenten.

10

Die Synergistic Processing Elements sind eigenständige unabhängig voneinander arbeitende RISC-Prozessoren (Vektor)

SIMD (Single Instruction Multiple Data) Design

In-Order-Execution

2 Instruktionspipelines je SPE

Die Rechenleistung wurde nur für Operationen mit einfacher Genauigkeit optimiert

Bei doppelter Genauigkeit geht die Performance signifikant nach unten

Alle SPE haben 128 Register mit je 128-bit breite

Komponenten des Cells – SPE I

Page 11: CBE – Cell Broadband Engine Der Cell Prozessor. 1 Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm Synchronisation der Power Kerne Komponenten.

11

Jede SPE hat einen eigenen 256 KByte großen SRAM Speicher als LS

Der Zugriff auf das LS erfolgt mit rund 51 GByte/s

Ingesamt hat jede einzelne SPE 4 Recheneinheiten für Floating Point und 4 Recheneinheiten für Integer Operationen

Über einen DMA Controller (Memory Flow Controller) kommuniziert jede SPE unabhängig und direkt mit dem Hauptspeicher

Jede SPE ist über einen DMA Controller mit den EIB verbunden

Die Transferrate auf den EIB liegt bei 16 KByte pro Takt

Die Steuerung/Synchronisation aller SPEs erfolgt über die PPE

Komponenten des Cells – SPE II

Page 12: CBE – Cell Broadband Engine Der Cell Prozessor. 1 Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm Synchronisation der Power Kerne Komponenten.

12

Der Element Interface Bus verbindet alle Komponenten des Cell über 4 seperate Ringe miteinander

Pro Takt werden bis zu 96 Byte übertragen

Max. Bandbreite von 205 GByte/s (128 Byte*3,2 Ghz ~205 GByte/s

Komponenten des Cells – EIB

Page 13: CBE – Cell Broadband Engine Der Cell Prozessor. 1 Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm Synchronisation der Power Kerne Komponenten.

13

Speicherzugriffe

Jede SPE hat 2 Instruktions-pipelines, d.h. pro Takt können 2 SIMD Instruktionen gleichzeitig ausgeführt werden

Die „even pipeline“ enthält Gleitkomma und Integer Operationen

Die „odd pipeline“ ist für die Speicherzugriffe, z.B. auf den LS zuständig

Pro pipeline werden 32 Instruktionen auf einmal in den Buffer geladen und dann an die jeweilige Recheneinheit weitergeleitet

Page 14: CBE – Cell Broadband Engine Der Cell Prozessor. 1 Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm Synchronisation der Power Kerne Komponenten.

14

Max. Taktfrequenz (im Labor): > 4 GHz

Max. Perfomance (single precision): > 256 GFlops*

Max. Performace (double precision): >26 GFlops*

Größe des Chips: 221 mm²

Anzahl der verwendeten Transistoren: 234 Millionen

*GFlops: (109 Floating Points of Operation per Second)Die Anzahl der Gleitkommaoperationen pro Sekunde. Durch die Flops wird die gesamte Rechnerarchitektur, aber nicht die reine Prozessorgeschwindigkeit gemessen !

Kennzahlen der Cell Leistung I

Page 15: CBE – Cell Broadband Engine Der Cell Prozessor. 1 Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm Synchronisation der Power Kerne Komponenten.

15

Max. Taktfrequenz (im Labor): > 4 GHz

Max. Perfomance (single precision): > 256 GFlops*

Max. Performace (double precision): >26 GFlops*

Größe des Chips: 221 mm²

Anzahl der verwendeten Transistoren: 234 Millionen

Intels DualCore Itanium hat 1,72 Milliarden Transistoren...

*GFlops: (109 Floating Points of Operation per Second)Die Anzahl der Gleitkommaoperationen pro Sekunde. Durch die Flops wird die gesamte Rechnerarchitektur, aber nicht die reine Prozessorgeschwindigkeit gemessen !

Kennzahlen der Cell Leistung I

Page 16: CBE – Cell Broadband Engine Der Cell Prozessor. 1 Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm Synchronisation der Power Kerne Komponenten.

16

Pro Takt kann jede SPE 16 x 8-bit-integer 8 x 16-bit-integer 4 x 32-bit-integer

verarbeiten. Nach 6 Taktzyklen steht das Ergebnis in einfacher Genauigkeit fest. Bei doppelter Genauigkeit dauert es dann schon 13 Taktzyklen.

Hier ein Vergleich mit anderen Prozessoren. Benutzt wurde das Linpack Benchmark Programm bei „double precision“ Rechenoperationen:

Kennzahlen der Cell Leistung II

Page 17: CBE – Cell Broadband Engine Der Cell Prozessor. 1 Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm Synchronisation der Power Kerne Komponenten.

17

Anwendungsbereiche

Graphische 3D Anwendungen• Terrain Rendering• Digitale Satellitenbilder

Bearbeitung von großen Datenmengen in Echtzeit• Grafische Visualisierung• Dekodierung von Signalen (Video, MPEG, JPEG)

Multimedia Anwendung (HDTV)

Spielekonsole (Playstation 3)

Uni Saarland berechnet Daten für realtime Raytracing/Rendering

Page 18: CBE – Cell Broadband Engine Der Cell Prozessor. 1 Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm Synchronisation der Power Kerne Komponenten.

18

Einschränkungen

Standard Software reizt die Leistung des Cell Prozessors nicht aus

Die Software muss Multi-Threaded geschrieben sein um die Cell Kapazitäten nutzen zu können

Generell sieht das Betriebssystem den Cell nur als „einen“ Prozessor Zur Erzeugung von optimierten Code wird von IBM eine spezielle

Entwicklungsumgebung angeboten.

Für Programmierer gibt es ein eigenes „Cell Programming Handbook“

Aktuell arbeitet man an intelligenten Compilern für den Cell

Page 19: CBE – Cell Broadband Engine Der Cell Prozessor. 1 Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm Synchronisation der Power Kerne Komponenten.

19

Zusammenfassung

Der Cell ist ein integrierter Multiprozessor

Hohe Performance durch massive Parallelisierung der Aufgaben

Potential kann nur durch optimierte Software genutzt werden SPEs agieren als eigenständige Prozessoren im Prozessor

„Keep-it-simple““ als Credo für das Speichermanagement

Extrem schnelles Bus System mit dem alle Komponenten des Prozessors verbunden sind

Page 20: CBE – Cell Broadband Engine Der Cell Prozessor. 1 Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm Synchronisation der Power Kerne Komponenten.
Page 21: CBE – Cell Broadband Engine Der Cell Prozessor. 1 Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm Synchronisation der Power Kerne Komponenten.

Quellen

IBM Webpages http://www-128.ibm.com/developerworks/power/library/pa-cellperf/

http://www.research.ibm.com/cell/home.html

Wikipedia

TecChannel

IEEE Computer Society

Jörg Schätzlein