POLITECHNIKA ŁÓDZKA · POLITECHNIKA ŁÓDZKA Wydział Elektrotechniki, Elektroniki, Informatyki i Automatyki Melvin Estuardo Galicia Cota Praca doktorska Modelling of multicore

POLITECHNIKA ŁÓDZKA

Wydział Elektrotechniki, Elektroniki,

Informatyki i Automatyki

Melvin Estuardo Galicia Cota

Praca doktorska

Modelling of multicore processors for the investigation

of temperature reduction methods

Modelowanie procesorów wielordzeniowych w celu

badania metod obniżania maksymalnej temperatury

Nr albumu: 800615

Opiekun pracy:

prof. dr hab. Andrzej Napieralski

Promotor pomocniczy:

dr Cezary Maj

Łódź, 2016

2

Modelowanie procesorów wielordzeniowych w celu badania metod obniżania maksymalnej temperatury

3

STRESZCZENIE

Obniżenie temperatury maksymalnej w nowoczesnych procesorach produkowanych w

technologiach nanometrowych, nawet o kilka stopni, może potencjalnie pozwolić na

znaczące polepszenie wydajności procesora. W szczególności, dla wysokowydajnych

procesorów, niższa temperatura ma bezpośredni wpływ na obniżenie kosztów chłodzenia,

zwiększenie niezawodności, wyższą częstotliwość taktowania oraz wydłużenie czasu życia.

Z tego względu, badania nad metodami obniżenia temperatury jest bardzo ważną dziedziną

nauki. Niniejsza rozprawa rozpoczyna się analizą różnic jakie występują w obecnie

używanych modelach termicznych do przewidywania temperatury wewnątrz nowoczesnych

procesorów. Tak więc, w tej pracy, opisane i porównane są dwa podstawowe podejścia:

szczegółowa analiza wykorzystująca metodę elementów skończonych (FEM) i prostszy

strukturalnie kompaktowy model oparty na sieci RC. Wyniki pokazują, ze oba modele

dostarczają podobne wyniki podczas przewidywania maksymalnej temperatury. Jednakże,

występują istotne rozbieżności w gradiencie termicznym. Dodatkowo, wyniki ukazują pewne

różnice w analizie czasowej podczas nagrzewania procesora.

Następnie w pracy badany jest wpływ rozmieszczania poszczególnych bloków procesora na

ostateczna temperaturę w układach 2D i 3D. Do tego celu wzięty pod uwagę został procesor

wykonany w technologii 14 mm zawierający 8 lub 6 rdzeni i wykonane zostały symulacje w

celu uzyskania rozkładu temperatury dla różnych schematów rozmieszczenia. Wyniki

pokazują, że odpowiedni schemat pozwala zredukować znacząco temperaturę. Dodatkowo,

omówiona zostaje idea implementacji buforów termicznych. Pomimo, że wyniki wskazują,

że dla procesorów 2D zysk z buforów jest mało istotny to dla procesorów 3D w połączeniu z

przelotkami termicznymi można uzyskać duży spadek temperatury w gorących obszarach

procesora.

Kontynuując, praca skupia się również na idei wykonywania procesorów w technologii

wielowarstwowej, umożliwiającej zwiększenie gęstości przestrzennej tranzystorów. Znane

jest, że takie rozwiązanie wprowadza dodatkowe problemy termiczne z uwagi na znaczący

wzrost gęstości rozpraszanej energii. Dlatego też powstają pomysły, mające na celu

4

rozwiązanie tego problemu by móc wykorzystywać obiecujące zalety procesorów 3D. W

literaturze sugeruje się wykorzystanie przelotek termicznych rozmieszczony na całym

obszarze procesora, co umożliwiłoby lepszy przepływ ciepła. W tej pracy, przeanalizowany

został pomysł umieszczenia przelotek w specjalnych obszarach pomiędzy rdzeniami

procesora co jest korzystne gdyż nie wymagałoby dużej ingerencji w polaczenia pomiędzy

blokami procesora. Wyniki analizy pokazują, że bez przelotek przepływ ciepła jest niemal

pionowy. Przelotki za to umożliwiają przepływ ciepła w tych obszarach pomimo, że nie

rozpraszają ciepła.

Co więcej, w celu zweryfikowania tego pomysłu, zostały wykonane symulacje procesora 8-

rdzeniowego w układzie 2D oraz 3D z przelotkami. Wyniki potwierdziły, że przelotki

znacząco redukują temperaturę, tj. do poziomu układu 2D.

5

TABLE OF CONTENTS

1 WPROWADZENIE ....................................................................................................... 6

1.1 Tezy rozprawy ........................................................................................................ 7

2 METODY MODELOWANIA TERMICZNEGO I MOCY ............................................ 8

2.1 Struktura mikroprocesorów ..................................................................................... 8

2.1.1 Schematy procesorów wielordzeniowych 2D ................................................... 8

2.1.2 Schematy procesorów wielordzeniowych 3D ................................................. 10

2.2 Modele termiczne ................................................................................................. 12

2.2.1 Symulator z wykorzystaniem metody elementów skończonych ...................... 12

2.2.2 Symulator termiczny ...................................................................................... 13

2.2.3 Symulator logiczny procesora ........................................................................ 13

2.2.4 Symulator mocy rozpraszanej w procesorze ................................................... 13

2.3 Zaproponowana zintegrowana metodologia modelowania termicznego procesorów

14

2.3.1 Analiza porównawcza dla stanu ustalonego .................................................... 15

2.3.2 Analiza porównawcza czasowa ...................................................................... 16

3 ZBADANE METODY REDUKCJI TEMPERATURY ................................................ 19

3.1 Rozmieszczanie bloków procesora (ang. floorplanning) ........................................ 19

3.2 Lokalna implementacja przelotek termicznych w procesorach 3D ......................... 21

3.2.1 Charakteryzacja przelotek termicznych .......................................................... 22

3.2.2 Symulacja procesorów 3D z obszarami z przelotkami .................................... 26

4 WNIOSKI .................................................................................................................... 31

BIBLIOGRAFIA ................................................................................................................ 33

6

1 WPROWADZENIE

Technologia mikroprocesorowa jest istotnym składnikiem wpływającym na rozwój

ludzkości. Wiele osiągnięć w nauce, postęp w matematyce, rozwój ekonomii, przemysłu

rozrywkowego oraz prawie wszystkich innych dziedzin zostało osiągniętych dzięki mocy

obliczeniowej oferowanej przez obecne mikroprocesory. Dzisiaj są one powszechnie

używane w komputerach osobistych i smartfonach, pomagając ludziom w ich codziennych

zadaniach. Ponadto, ciągły wzrost ich mocy obliczeniowej jest właściwie uważany za rzecz

oczywistą. Te oczekiwania są zaspokajane poprzez kontynuowanie tzw. Prawa Moore’a

przez producentów. Prawo Moore’a mówi, że co każde 18 lub 14 miesiące podwaja się liczba

tranzystorów, które można umieścić w układzie scalonym [1].

Dlatego moc obliczeniowa nowych mikroprocesorów wzrasta wykładniczo. Niestety, ten

trend nie może być kontynuowany w nieskończoność, ponieważ zmniejszenie wymiarów

tranzystora poniżej 5 nm spowoduje wystąpienie poważnych problemów technologicznych

[2], zniechęcając producentów do kontynuowania tej drogi z powodu wysokich kosztów i

niskich przychodów. Problemy te to między innymi bariera fizyczna dla minimalnego

możliwego rozmiaru tranzystora oraz ilość mocy traconej w tranzystorze z powodu prądów

upływu [3]. Jednak jeden z problemów wydaje się być obecnie najistotniejszy i trudny do

rozwiązania: nadmierna ilość ciepła generowana przez procesor.

Powszechnie uważa się jednak, że wzrost mocy obliczeniowej procesorów musi być

kontynuowany. Stąd, jednym ze sposobów zwiększenia mocy obliczeniowej z utrzymaniem

temperatury maksymalnej poniżej dozwolonego limitu jest zastosowanie kilku rdzeni

wewnątrz procesora. Jest to metoda powszechnie stosowana od czasu jej pierwszego

zastosowania w procesorze Power4 firmy IBM w 2001 roku [4].

Alternatywnym sposobem pozwalającym na wyższą częstotliwość taktowania procesora, a co

za tym idzie wyższą moc obliczeniową, przy jednoczesnym utrzymaniu maksymalnej

temperatury na tym samym poziomie jest odejście od krzemu jako podstawowego materiału

półprzewodnikowego na korzyść materiałów takich jak german czy arsenek galowo-

indowy [5]. Ponadto, innym rozwiązaniem analizowanym obecnie przez naukowców jest

produkcja procesorów 3D [6-10]. Układy scalone 3D mogą posiadać kilka warstw

zawierające rdzenie procesorów, pamięci lub nawet układy do komunikacji bezprzewodowej

7

zintegrowane razem w jednym małym układzie scalonym, co jednak powoduje jeszcze

większe problemy termiczne.

Jeszcze innym alternatywnym rozwiązaniem są technologie opisane jako "More Than More"

przez ITRS [11]. Jednak dla większości z nich również występuje ten sam problem termiczny

związany z bardzo gęstym upakowaniem elementów na bardzo małej przestrzeni. Dlatego

badanie metod obniżania temperatury jest bardzo istotną dziedziną badań, którego celem jest

odblokowanie pełnych możliwości wyżej wymienionych technologii.

Podsumowując, jest rzeczą oczywistą, że głównym celem jest rozwój układów scalonych

pozwalających na ciągły postęp ludzkości.

1.1 Tezy rozprawy

Na podstawie przeprowadzonych badań, zostały sformułowane następujące tezy:

Teza 1:

Możliwe jest znaczne obniżenie maksymalnej temperatury w procesorze 3D

poprzez zastosowanie przelotek przez krzem, zaimplementowanych lokalnie w

wybranych obszarach układu, zlokalizowanych obok rdzeni procesora.

Teza 2:

Negatywnym skutkiem zastosowania obszarów z przelotkami obok rdzeni

procesora jest wprowadzenie dodatkowego gradientu termicznego do układu,

który rośnie tym bardziej, im większa uzyskana jest redukcja temperatury.

8

2 METODY MODELOWANIA TERMICZNEGO I MOCY

2.1 Struktura mikroprocesorów

W celu przeprowadzenia realistycznych symulacji, trzeba wziąć pod uwagę strukturę

mikroprocesora. Stąd, przy modelowaniu takich elementów struktury jak radiator,

rozpraszacz ciepła, układ scalony, pasta termiczne, itp. w pracy wykorzystano metodę z [12],

oczywiście odpowiednio modyfikując parametry tak aby jak najlepiej odzwierciedlić

charakterystykę analizowanego procesora. Typowe materiały i ich właściwości termiczne

zostały wybrane dla każdego elementu struktury. RYSUNEK 2.1 pokazuje symulowaną

strukturę z procesorem Intel Sandy Bridge, która została przeanalizowana w jednym z

późniejszych rozdziałów rozprawy. Warto zauważyć, że na rysunku ukryto warstwę podłoża

tak, aby było widać elementy analizowanego procesora.

2.1.1 Schematy procesorów wielordzeniowych 2D

Poniżej przedstawiono wszystkie schematy procesorów wielordzeniowych użyte w analizie

termicznej przedstawionej w kolejnych rozdziałach.

RYSUNEK 2.1 PROCESOR SANDY BRIDGE

STRUKTURA UKŁADU ZAPROJEKTOWANA W ŚRODOWISKU ANSYS (WIDOK OD SPODU).

9

1) Procesor Intel I7-2700K

Procesor został wprowadzony na rynek w roku 2011 i należ y do rodziny Sandy Bridge, jego

schemat jest przedstawiony na rysunku RYSUNEK 2.2 (góra). Jest wyprodukowany w procesie

technologicznym 32 nm, taktowany jest częstotliwością 3.5 GHz. Jego głównymi elementami

są cztery rdzenie, blok graficzny, pamięć podręczną (cache) trzeciego poziomu oraz kontroler

pamięci[13].

Dla celów analizy schemat użyty podczas symulacji został dodatkowo podzielony: każdy

rdzeń składa się w nim z trzech mniejszych bloków (RYSUNEK 2.2 dół). Przerywana linia na

rysunku oznacza przekrój procesora, wzdłuż którego przedstawiona będzie temperatura przy

prezentacji rezultatów symulacji.

2) Processor Intel I7-3770K

Procesor został wprowadzony na rynek w 2012 roku, należy do rodziny Ivy Bridge, jego

schemat jest przedstawiony na rys. Xxx. Został wyprodukowany w procesie technologicznym

22 nm, a jego nominalna częstotliwość taktowania to 3.9 GHz. Składa się z tych samych

bloków, co opisany wcześniej procesor Sandy Bridge. Na podstawie schematu tego procesora

zaprojektowano kilka schematów procesorów z sześcioma lub ośmioma rdzeniami

przeskalowanych do technologii 14 nm. Celem takiego badania była analiza w jaki sposób

RYSUNEK 2.2 ZDJĘCIE SANDY BRIDGE (GÓRA) [13].

ROZMIESZCZENIE BLOKÓW UŻYTE W SYMULACJI (DÓŁ).

10

zmienia się termiczna charakterystyka układu przy zmniejszaniu rozmiarów tranzystorów

przy jednoczesnym zastosowaniu różnego rozmieszczenia elementów procesora.

3) Processor Intel I7-5960X

Dodatkowo przeanalizowano procesor z rodziny Intel Haswell, wyprodukowany w 2014 roku.

Jego schemat przedstawia RYSUNEK 2.3 Wyprodukowany procesie 22 nm, jest taktowany

częstotliwością 3 GHz i zawiera aż osiem rdzeni, blok I/O, pamięć podręczną trzeciego

poziomu oraz kontroler pamięci [15]. Procesor ten posłużył jako podstawa dla

zaprojektowania procesora 3D, analizowanego w dalszych rozdziałach pracy. [15]

2.1.2 Schematy procesorów wielordzeniowych 3D

1) Procesor 3D bazujący na procesorze Intel I7-3770K

Zaprojektowany procesor zawiera dwie warstwy, warstwę procesora oraz warstwę pamięci

RYSUNEK 2.4 MOŻLIWY SCHEMAT PROCESORA HASWELL I7-5960X

(WARSTWY ROZDZIELONE DLA JASNOŚCI)

RYSUNEK 2.3 ZDJĘCIE PROCESORA INTEL HASWELL I7-5960X [15].

11

DRAM, jak pokazano na RYSUNEK 2.5 [16]. W celu łatwiejszego zrozumienia sposobu

konstrukcji procesora 3D, RYSUNEK 2.5 nie został wykonany w skali oraz dodatkowo

pokazano tylko jeden region z przelotkami termicznymi. Pionowe przelotki termiczne

znajdują się tylko w konkretnych miejscach układu, nazywanych buforami termicznymi. W

tym podejściu przestudiowano wpływ gęstości przelotek w buforach na temperaturę układu.

Warstwa pamięci DRAM znajduje się na dole struktury (dalej od radiatora), a moc

rozpraszana w pamięci DRAM jest dużo niższa niż w procesorze oraz rozłożona

równomiernie na całej powierzchni. RYSUNEK 2.5 w połączeniu z RYSUNEK 2.6 pozwala na

wizualizację analizowanego procesora 3D.

2) Procesor 3D bazujący na procesorze Intel I7-5960X

Prosty i intuicyjny projekt procesora 3D został przedstawiony na RYSUNEK 2.4. Założono w

nim, ze rdzenie i pamięć podręczna znajdują się w jednej warstwie, natomiast pozostałe bloki

procesora w drugiej [17] jak pokazano na RYSUNEK 2.8.

RYSUNEK 2.6 ROZMIESZCZENIE BLOKÓW W PROCESORZE Z PRELOTKAMI.

.

RYSUNEK 2.5 CZTERY WARSTWY UKŁADU 3D

12

Dodatkowo procesor przeskalowano do niższej technologii. Logicznym wydaje się więc, ze

taka konstrukcja procesora będzie prowadziła do wyższych temperatur niż oryginalny

schemat 2D, ponieważ taka sama moc będzie rozpraszana na mniejszej powierzchni. Dlatego

zaproponowano alternatywny projekt, w którym wprowadzono pewne modyfikacje,

polegające na dodaniu do schematu buforów termicznych zawierających pionowe przelotki

termiczne. Są one zlokalizowane obok rdzeni procesora (najgorętszych elementów układu),

co przedstawia RYSUNEK 2.7.

2.2 Modele termiczne

2.2.1 Symulator z wykorzystaniem metody elementów skończonych

ANSYS Workbench oraz COMSOL Multiphysics to dwa narzędzia użyte do symulacji

termicznych badanych procesorów. Narzędzia te bazują na metodzie elementów skończonych

(MES): model jest dzielony na wiele węzłów (liczba węzłów zależy od rozdzielczości siatki)

a następnie dla każdego węzła jest rozwiązywane różniczkowe równanie przepływu ciepła z

użyciem metod numerycznych. ANSYS i COMSOL jako parametry wejściowe przyjmują

RYSUNEK 2.8 SYMULOWANY UKŁAD PROCESORA 3D (NIE W SKALI).

RYSUNEK 2.7 IMPLEMENTACJA OBSZARÓW Z PRZELOTKAMI TERMICZNYMI.

13

schemat układu, rozmiary i własności fizyczne każdej warstwy i moc rozpraszaną w każdej

jednostce procesora, a pozwalają na obliczenie temperatury w każdym punkcie układu.

Symulacje z użyciem tych narzędzi są więc bardzo dokładne, ale warto podkreślić, że jest to

okupione dość długim czasem symulacji.

2.2.2 Symulator termiczny

Hotspot jest programem „open-source” przeznaczonym do szybkiej symulacji termicznych

procesorów. Wykorzystuje on analogię między prawami fizycznymi opisującymi przepływ

prądu elektrycznego i prawami opisującymi dyfuzję ciepła [18]. Pozwala to na zastąpienie

modelu fizycznego układu obwodem elektrycznym z wieloma węzłami, przy czym każdy

węzeł zawiera elementy RC. Wartości tych elementów są obliczane na podstawie rozmiarów

geometrycznych oraz materiałów z których zbudowane są poszczególne bloki procesora.

2.2.3 Symulator logiczny procesora

Gem5 jest narzędziem zaprojektowanym do symulacji systemów komputerowych, umożliwia

modelowanie wielu architektur, w tym także architektury x86. Dzięki niemu można

symulować cały system komputerowy, włączając w to procesor, peryferia, system operacyjny

oraz aplikację użytkownika. Symulacja polega w praktyce na emulowaniu wykonywania

instrukcji przez procesor w każdym cyklu zegara. Narzędzie pozwala więc na uzyskaniu

informacji statystycznych dotyczących użycia poszczególnych bloków procesora, np. liczba

wykonanych instrukcji na sekundę, ilość odczytów/zapisów do pamięci podręcznej, itp.

2.2.4 Symulator mocy rozpraszanej w procesorze

McPAT jest zintegrowanym narzędziem do obliczania mocy, powierzchni oraz opóźnień w

wielowątkowych architekturach wielordzeniowych [19]. Umożliwia symulację układów

wykonanych w technologiach od 90 nm do 22 nm dzięki wbudowanym pełnym modelom

procesorów. Podanie jako parametru wejściowego danych otrzymanych z symulatora Gem5

pozwala na obliczenie mocy w każdym bloku procesora w każdej jednostce czasu na

podstawie procesu technologicznego jego produkcji, jego częstotliwości taktowania oraz

napięcia zasilania. Dane o mocy rozpraszanej w jednostkach procesora mogą następnie

posłużyć jako dane wejściowe dla symulatorów termicznych.

14

2.3 Zaproponowana zintegrowana metodologia modelowania termicznego

procesorów

Zintegrowana metodologia modelowania termicznego z użyciem symulatorów opisanych w

poprzednich rozdziałach jest przedstawiona na RYSUNEK 2.9. Należy zwrócić uwagę, że

ostatni krok można również wykonać za pomocą symulacji MES.

W pierwszym kroku używany jest symulator Gem5 w celu symulacji wykonywania

programu przez procesor (wykorzystywane są tutaj dedykowane programy testowe, tzw.

benchmarki). Po zakończeniu symulacji, Gem5 podaje dane o dostępie do każdej jednostki

procesora we wszystkich chwilach czasowych (z dokładnością do jednego cyklu zegara)

podczas wykonywania programu. Dane te mogą zostać oczywiście później uśrednione np. w

czasie jednej milisekundy.

Następnie, dane te są używanie jako parametr wejściowy narzędzia McPAT, który pozwala

na obliczenie mocy rozpraszanej w jednostkach procesora. Niezbędne jest tutaj podanie

danych technologicznych modelowanych procesorów; zostały one skonfigurowane na

podstawie ogólnie dostępnych parametrów opisujących najnowsze procesory firmy Intel.

Należy również wspomnieć, że oprócz mocy dynamicznej McPAT umożliwia obliczenie

mocy statycznej to znaczy rozpraszanej w wyniku tzw. prądów upływu.

RYSUNEK 2.9 METODOLOGIA INTEGRACJI SYMULATORÓW

15

W ostatnim kroku dane o mocy rozpraszanej w poszczególnych chwilach czasowych są użyte

przez symulator Hotspot. Jako dodatkowe parametry symulacji należy tutaj podać parametry

materiałowe każdej warstwy procesora, jego rozmiary, schemat oraz parametry systemu

chłodzenia.

Jaku już wspomniano, ostatni krok czyli symulacje termiczne można również wykonać za

pomocą komercyjnych symulatorów ANSYS [20] lub COMSOL. Oba podejścia mają swoje

wady i zalety, które zostaną przeanalizowane w następnym rozdziale rozprawy.

2.3.1 Analiza porównawcza dla stanu ustalonego

Dla analizy porównawczej został wybrany procesor Sandy Bridge. Dane o rozpraszanej mocy

zostały obliczone dla przypadku w którym rdzenie procesora są mocno obciążone, natomiast

jednostka graficzna nie jest w znacznym stopniu używana i moc w niej rozpraszana

odpowiada typowym wartościom przedstawionym w [21, 22]. Istotne jest tutaj

przeprowadzenie symulacji dla różnych rozkładów mocy wewnątrz procesora, dlatego w

poniższej analizie wzięto pod uwagę następujące trzy przypadki:

1) Moc rozpraszana w jednostce graficznej oraz wszystkich czterech rdzeniach jest na

poziomie 100% (poziom referencyjny dla pozostałych przypadków).

2) Moc rozpraszana w jednostce graficznej jest dwukrotnie wyższa niż dla przypadku 1. Moc

rozpraszana w dwóch rdzeniach nie ulega zmianie, natomiast pozostałe dwa rdzenie nie są

wykorzystywane (rozpraszana w nich jest tylko moc statyczna).

3) Moc rozpraszana w jednostce graficznej jest dwukrotnie wyższa niż dla przypadku 1. Moc

rozpraszana we wszystkich rdzeniach wynosi 50% w stosunku do przypadku 1.

Profile temperatur dla trzech analizowanych przypadków są przedstawione na RYSUNEK 2.10.

Porównanie wyników otrzymanych dla obu symulatorów pozwala na stwierdzenie, że są one

bardzo zbliżone jeśli chodzi o maksymalną temperaturę: maksymalny błąd wynosi około 1.6

C dla przypadku 2. Również kształt profili otrzymanych z użyciem obu narzędzi jest bardzo

podobny. Jest jednak jedna znacząca różnica: wyniki symulatora Hotspot wskazują na

znacząco niższe temperatury na brzegach układu scalonego. Innymi słowy, prognozuje on

wyższy gradient temperatur w układzie, podczas gdy profil temperaturowy obliczony z

użyciem narzędzia ANSYS jest dużo bardziej równomierny.

16

TABELA 2.I TEMPERATURY DLA STANU USTALONEGO

Hotspot ANSYS

Maks. temp. [°C] Min. temp. [°C] Maks. temp. [°C] Min. temp. [°C]

Przypadek 1

85.93 66.87 86.29 67.55

Przypadek 2 76.80 58.81 77.93 56.82

Przypadek 3 68.52 60.53 68.17 62.73

2.3.2 Analiza porównawcza czasowa

Tak jak w poprzedniej analizie dla stanów ustalonych, niniejsza analiza została

przeprowadzona dla procesora Sandy Bridge. Symulacje przeprowadzono za pomocą

narzędzi ANSYS i Hotspot, ale tym razem badano zmiany temperatury w czasie przy

nagrzewaniu się procesora. Ze względu na fakt, że najwięcej zmian temperatury występuje w

początkowej fazie nagrzewania układu, symulacje zostały skonfigurowane w ten sposób, że

liczba punktów czasowych dla których temperatura jest obliczana jest największa na

początku symulacji i stopniowo zmniejszana. Dzięki temu można lepiej porównać oba

modele.

Szczegółowa analiza wykresów pokazanych na RYSUNEK 2.11 wskazuje, że maksymalna

temperatura do której dążą krzywe temperatur są zbliżone dla obu modeli. Jednak krzywe

różnią się nieznacznie swoim kształtem. Różnice są podobne we wszystkich trzech

przypadkach: narzędzie ANSYS prognozuje szybszy wzrost temperatury w początkowej

fazie nagrzewania układu (pierwsze sekundy), podczas gdy Hotspot prognozuje znacząco

wolniejszy wzrost.

17

RYSUNEK 2.10 PROFILE TEMPERATUR DLA STANU USTALONEGO DLA PRZYPADKU

1 (GÓRA), 2 (ŚRODEK) ORAZ 3 (DÓŁ)

18

RYSUNEK 2.11 PROFILE TEMPERATUR DLA ANALIZY CZASOWEJ DLA PRZYPADKU

1 (GÓRA), 2 (ŚRODEK) I 3 (DÓŁ)

19

3 ZBADANE METODY REDUKCJI TEMPERATURY

3.1 Rozmieszczanie bloków procesora (ang. floorplanning)

W tym rozdziale, zbadane zostanie jak rozmieszczenie poszczególnych jednostek procesora

wpływa na maksymalną temperaturę procesora. Do tego celu wykorzystano wyniki symulacji,

wykorzystujących wcześniej opisaną metodologię, które przedstawiają rozkład temperatury

dla kilku schematów procesora.

Wyniki dla procesora z ośmioma rdzeniami

Sześć wersji schematów o nazwach od V0 do V5 zostało przeanalizowanych. Wyniki

przedstawione na RYSUNEK 3.1 ukazują, że rozmieszczenie jednostek procesora ma znaczący

wpływ na rozkład temperatury w procesorze. Chociaż różnice wartości minimalnej

temperatury są nieznaczące, to wartości maksymalnej temperatury są istotne co zostało

przedstawione w TABELA 3.I. Najgorsze wyniki uzyskano dla przypadku V0. Dla kontrastu,

schemat V3 uzyskuje najniższą maksymalną temperaturę. Dodatkowo, analizując gradient

temperatury, dla schematów V0 i V3 również uzyskano odpowiednio najgorsze i najlepsze

wyniki. „Gorące punkty” zwykle pokrywają się z obszarem o największej rozpraszanej mocy

a temperatura poza tym obszarem szybko maleje wraz z oddalaniem się od „gorącego

punktu”.

TABELA 3.I MAKSYMALNA I MINIMALNA TEMPERATURA DLA RÓŻNYCH SCHEMATÓW 8-

RDZENIOWEGO PROCESORA

Schemat Maks. temp. [° C] Min. temp. [° C] Różnica [° C]

V0 86.05 62.25 23.8

V1 85.65 62.25 23.4

V2 81.35 62.65 18.7

V3 78.85 64.45 14.4

V4 84.35 63.75 20.6

V5 84.55 64.05 20.5

20

V0 V3

V1 V4

V2 V5

RYSUNEK 3.1 ROZKŁAD TEMPERATURY W °K DLA 8-RDZENIOWEGO PROCESORA

PRACUJĄCEGO Z CZĘSTOTLIWOŚCIĄ 3.5 GHZ.

21

Wyniki rozmieszczania dla procesora z sześcioma rdzeniami z buforami termicznymi

Do zmniejszenia maksymalnej temperatury procesora, prosta idea umieszczenia buforów

termicznych pomiędzy rdzeniami procesora została przeanalizowana. Wykorzystano procesor

6-rdzeniowy o takiej samej powierzchni jak procesor 8-rdzeniowy. W ten sposób obszar

usuniętych dwóch rdzeni został przeznaczony na bufory termiczne jak ukazano na RYSUNEK

3.2. Można zauważyć, że rdzenie, które są najgorętszymi miejscami w procesorze, są

oddalone od siebie co pozwala na uzyskanie bardziej równomierny rozkład temperatury.

3.2 Lokalna implementacja przelotek termicznych w procesorach 3D

Obiecująca idea lokalnej implementacji przelotek termicznych w procesorach 3D została

przeanalizowana. Przelotki termiczne są umieszczane w dedykowanych obszarach krzemu

lub buforach termicznych, w których nie jest rozpraszana energia. Obszary te są umieszczane

obok rdzeni procesora czym uzyskuje się dwie korzyści. Po pierwsze, obszary są

zlokalizowane tuż obok miejsc, które są najgorętszymi w procesorze a po drugie nie

wymuszają znaczących modyfikacji oryginalnego schematu. Analiza tego rozwiązania

została wykonana z użyciem szczegółowej analizy FEM (metoda elementów skończonych).

V3 V4

RYSUNEK 3.2 ROZKŁAD TEMPERATURY W °K DLA 6-RDZENIOWEGO PROCESORA Z WARSTWAMI

BUFOROWYMI, PRACUJĄCEGO Z CZESTOTLIWOŚCIĄ 4.5 GHZ

22

3.2.1 Charakteryzacja przelotek termicznych

Głównym celem jest opis ogólnego wpływu przelotek termicznych w jakimkolwiek układzie

wielowarstwowym. Dlatego też, przeanalizowana zostanie typowa struktura składająca się z

dwóch aktywnych warstw krzemu, oddzielonymi warstwą TIM oraz rozpraszacza ciepła i

radiatora. Przelotki wykonane są z miedzi i poprowadzone przez warstwy aktywne i TIM jak

pokazano na RYSUNEK 3.3. Parametry, które będą wzięte pod uwagę to: szerokość obszaru

przelotek, gęstość wypełnienia przelotek i grubość warstw. W wyniku otrzymano rozkład

temperatury i strumienia ciepła od danego parametru, którego wartość jest zmienna.

Analiza uwzględnia zmianę tylko jednego parametru, pozostałe pozostają stałe. Tak więc,

jako wartości bazowe każdego z parametrów użyto tych, które odpowiadają typowym

procesorom. Możliwa jest wtedy analiza wpływu każdego z parametru z osobna.

Szerokość obszaru przelotek

Zakres zmian szerokości obszaru przelotek zaczyna się od zera, co oznacza brak tego regionu,

a kończy na 2 mm. Jak można zauważyć na górnym lewym wykresie z RYSUNEK 3.4,

szerokość obszaru przelotek ma silny wpływ na rozkład temperatury. Szerokość rdzeni

zmienia się od 2 mm do 8 mm. Lewy dolny wykres z RYSUNEK 3.4 jednoznacznie wskazuje,

że temperaturę rośnie gdy ta sama moc jest rozpraszana w mniejszym obszarze. Prawe

wykresy z RYSUNEK 3.4 pokazują odpowiednio rozkłady strumieni ciepła, które odpowiadają

wskazanym zależnościom.

RYSUNEK 3.3 STRUKTURA UŻYTA DO CHARAKTERYZACJI PRZELOTEK TERMICZNYCH

Przewodność cieplna

Obszar przelotek jest wykonany z dwóch materiałów: krzemu, będącego bazowym

materiałem procesora oraz miedzi, które tworzą przelotki. Tak więc przewodność cieplna

zależy od parametrów obu materiałów i

[7]. Generalnie, wzrost gęstości przelotek przyczynia się do wzrostu przewodności całego

obszaru. Lewy górny wykres z

przelotek. 0% oznacza brak przelotem czyli cały obszar wykonany jest z krzemu.

strony, 100% oznacza, że cały obszar wykonany jest z miedzi, co na chwilę obecną nie jest

możliwe do uzyskania ale jest interesujący z teoretycznego punktu widzenia.

RYSUNEK 3.4 ROZKŁAD TEMPERATURY I

SZEROKOŚCI OBSZARU P

23

wykonany z dwóch materiałów: krzemu, będącego bazowym


zależy od parametrów obu materiałów i może być obliczona za pomocą metody opisanej w

wzrost gęstości przelotek przyczynia się do wzrostu przewodności całego

Lewy górny wykres z RYSUNEK 3.5 pokazuje rozkład temperatury od gęstości

% oznacza brak przelotem czyli cały obszar wykonany jest z krzemu.


możliwe do uzyskania ale jest interesujący z teoretycznego punktu widzenia.

OZKŁAD TEMPERATURY I STRUMIENIA CIEPŁA DLA RÓŻNYCH

SZEROKOŚCI OBSZARU PRZELOTEK (GÓRA) I OBU RDZENI (DÓŁ

wykonany z dwóch materiałów: krzemu, będącego bazowym


może być obliczona za pomocą metody opisanej w

wzrost gęstości przelotek przyczynia się do wzrostu przewodności całego

pokazuje rozkład temperatury od gęstości

% oznacza brak przelotem czyli cały obszar wykonany jest z krzemu. Z drugiej


A RÓŻNYCH WARTOŚCI

DÓŁ).

Zmiana konduktywności warstwy TIM widoczna na lewym dolnym wykresie z

pokazuje silny wpływ tego parametru. Spadek przewodności termicznej skutkuje znaczącym

wzrostem temperatury. Z drugiej strony, wzrost konduktywności nie redukuje temperatury

tej samej skali co udowadnia, że wpływ jest nieliniowy.

Grubość warstw

RYSUNEK 3.6 pokazuje wpływ grubości aktywnych warstw krzemu oraz warstw TIM. Od

przypadku bazowego, głównie cieńsze warstwy zostały przeanalizowane jako,

wybraną do produkcji układów 3D jest użycie metod pocieniania

temperatury obserwowany jest gdy warstwa krzemu staje się cieńsza. W pewnym punkcie

maksymalna temperatura przestaje spadać podczas gdy minimalna temperatura nadal maleje,

co jest widoczne na lewy górnym wykresie z

gradientu temperatury w warstwach krzemu, co powinno być uwzględnione podczas

projektowania nowej generacji

przedstawione na dolnym lewym wykresie z

temperaturę procesora. Wykonanie cieńszej warstwy TIM przekłada się na znaczący spadek


(GÓRA

24

Zmiana konduktywności warstwy TIM widoczna na lewym dolnym wykresie z


wzrostem temperatury. Z drugiej strony, wzrost konduktywności nie redukuje temperatury

tej samej skali co udowadnia, że wpływ jest nieliniowy.

pokazuje wpływ grubości aktywnych warstw krzemu oraz warstw TIM. Od

przypadku bazowego, głównie cieńsze warstwy zostały przeanalizowane jako,

wybraną do produkcji układów 3D jest użycie metod pocieniania [23]. Interesujący spadek



co jest widoczne na lewy górnym wykresie z RYSUNEK 3.6. Ten efekt powoduje ostry wzrost


projektowania nowej generacji układów 3D. Wyniki dla zmiennej grubości warstwy TIM

przedstawione na dolnym lewym wykresie z RYSUNEK 3.6 potwierdza istotny wpływ na

sora. Wykonanie cieńszej warstwy TIM przekłada się na znaczący spadek

OZKŁAD TEMPERATURY I STRUMIENIA CIEPŁA DLA RÓŻNYCH GESTOŚCI P

GÓRA) I KONDUKTYWNOŚCI WARSTWY TIM (DÓŁ).

Zmiana konduktywności warstwy TIM widoczna na lewym dolnym wykresie z RYSUNEK 3.5


wzrostem temperatury. Z drugiej strony, wzrost konduktywności nie redukuje temperatury w

pokazuje wpływ grubości aktywnych warstw krzemu oraz warstw TIM. Od

przypadku bazowego, głównie cieńsze warstwy zostały przeanalizowane jako, że ścieżką

. Interesujący spadek



. Ten efekt powoduje ostry wzrost


układów 3D. Wyniki dla zmiennej grubości warstwy TIM

potwierdza istotny wpływ na

sora. Wykonanie cieńszej warstwy TIM przekłada się na znaczący spadek

A RÓŻNYCH GESTOŚCI PRZELOTEK

temperatury co jest spowodowane silnym wzrostem pionowego przepływu ciepła

obszarze. Ten efekt potwierdza prawy dolny wykres z

jak większy strumień ciepła przepływa przez obszary rdzeni powodując jego bardziej

równomierny przepływ.

Wyniki charakteryzacji pokazują, że nawet kiedy rozkład

w procesorze jest inny dla każdego z parametrów, to wpływ na ostateczny rozkład

temperatury jest nieliniowy. Dodatkowo, zostało potwierdzone, że użycie przelotek

termicznych w procesorach 3D zauważanie wspomagają redukcję

Jest to wynikiem uzyskania bardziej efektywnego przepływu ciepła z dolnych warstw ku

górze.


25

temperatury co jest spowodowane silnym wzrostem pionowego przepływu ciepła

potwierdza prawy dolny wykres z RYSUNEK 3.6, na którym widoczne jest


Wyniki charakteryzacji pokazują, że nawet kiedy rozkład temperatury lub strumienia ciepła



procesorach 3D zauważanie wspomagają redukcję maksymalnej temperatury .


OZKŁAD TEMPERATURY I STRUMIENIA CIEPŁA DLA RÓŻNYCH GRUBOŚCI W

KRZEMU (GÓRA) I WARSTWY TIM (DÓŁ).

temperatury co jest spowodowane silnym wzrostem pionowego przepływu ciepła w całym

, na którym widoczne jest


temperatury lub strumienia ciepła



maksymalnej temperatury .


A RÓŻNYCH GRUBOŚCI WARSTWY

26

3.2.2 Symulacja procesorów 3D z obszarami z przelotkami

Procesor Intel I7-3770K

Bufory termiczne mogą ułatwic implementację termalnych przelotek przez warstwy krzemu

w układach 3D. Wykorzystanie sztucznych pionowych przelotek jest popierane przez wielu

naukowców [9, 10], od kiedy ich jedynym celem jest zwiększenie zdolności odprowadzania

ciepła z układu. Wśród proponowanych implementacji użycia przelotek jest ich jednolite

rozmieszczenie w całym obszarze krzemu [24, 25]. Jednakże bardziej użytecznym

rozwiązaniem jest umieszczenie przelotek w rdzeniach oraz pomiędzy nimi. Dodatkowo,

obszary z przelotkami nie powinny zakłócać wewnętrznych połączeń pomiedzy jednostkami

procesora. Podązając za tymi wymaganiami, oczywistym jest lokalizacja przelotek pomiędzy

rdzeniami w dedykowanych buforach, które zostały zaproponowane i przeanalizowane w

poprzednich rozdziałach.

W tej analizie rozważona zostanie implemenctacja 3D złożona z 6-rdzeniowego procesora

pokazanego na RYSUNEK 2.6 z lewej i z prawej strony, odpowiednio jako przypadek 1 i 2 z

uwzględnieniem schematu V4 z RYSUNEK 3.2. Symulacje zostały przeprowadzone dla

czterech gęstości przelotek, tj. 0%, 5%, 15% i 25%. Wyniki odpowiadają przekrojowi

poprzecznemu wskazanemu przez przerywana linię z Rysunek 2.6, który przechodzi

przeznajgorętsze jednostki w procesorze, tj. CoreEX znajdujący się w kazdym z rdzeni.

Wyniki dla przypadku 1 pokazują, że przelotki mają mniejszy wpływ na zmniejszanie

szczytowych wartości temperatur co obrazuje RYSUNEK 3.7 (góra). Jednakże, udoskonalenie

schematu poprzez dodanie dwóch dodatkowych buforów w przypadku 2, powoduje, ze dla

gęstości 25% szczytowe wartości temperatury zostały zmniejszone o kilka stopni w stosunku

do przypadku 1 lub gęstości 0%.

27

Procesor Intel’s I7-5960X

Wykonane analizy przedstawiają wpływ wprowadzenia obszarów z przelotami termicznymi

na ograniczenie temperatury jak w [26], ale w tej pracy przelotki są umieszczane lokalnie. W

tym paragrafie przeanalizowana zostanie struktura 3D procesora w celu porównania ze

strukturą 2D z termicznego punktu widzenia. Ten sam rozkład mocy jest użyty w trzech

różnych wersjach procesora: zwykły 2D, 3D i 3D z przelotkami, co umożliwi racjonalne

porównanie wszystkich rozwiązań.

RYSUNEK 3.7 ROZKŁAD TEMPERATURY DLA RÓŻNYCH GĘSTOŚCI PRZELOTEK

PRZYPADEK 1, 2 (GÓRA, DÓŁ). GĘSTOŚCI: 0%, 5%, 15% AND 25% (OD GÓRY DO DOŁU).

28

RYSUNEK 3.8 pokazuje rozkład temperatury dla wszystkich trzech przypadków. Szerokość

obszarów przelotek jest stały i wynosi 0.5 mm. Rozkłady temperatur jak również wymiary

struktur są przedstawione w tej samej skali więc mogą być porównane wizualnie.

Obserwując rozkład dla procesora 2D można zauważyć, że najwyższa temperatura ujawnia

się w jednostkach CoreEX jako, ze mają największą gęstość wydzielanej mocy. TABELA 3.II

przedstawia wartości minimalnej i maksymalnej temperatury dla wszystkich przypadków

oraz ich różnicę, która mówi o gradiencie temperatury wewnątrz struktury. Wyniki

potwierdzają zalety użycia przelotek termicznych w układach 3D jako, że umożliwia

uzyskanie temperatury zbliżonej do standardowego układu 2D.

TABELA 3.II MAKSYMALNA I MINIMALNA TEMPERATURA

Procesor Max Temp [ ͦ C] Min Temp [ ͦ C] Różnica [ ͦ C]

2D 71.90 53.60 18.3

3D 78.20 62.30 15.90

3D z via 72.40 57.20 15.20

29

RYSUNEK 3.8 ROZKŁAD TEMPERATURY DLA TRZECH PRZYPADKÓW:

PROCESOR 2D (GÓRA), PROCESOR 3D (ŚRODEK), 3D Z PRZELOTKAMI (DÓŁ).

30

Dodatkowo, wyznaczono zależność maksymalnej temperatury wewnątrz procesora 3D od

szerokości obszaru przelotek. RYSUNEK 3.9 przedstawia wykres temperatury dla przekroju

poprzecznego procesora 3D, identycznego jak w przypadku procesora 2D. Zgodnie z logiką,

temperatura spada wraz z poszerzaniem obszaru przelotek. Ta korzyść niesie za sobą pewne

problem. Spadek temperatury jest obarczony wzrostem gradientu temperatury czyli rozkład

temperatury jest mniej jednolity. To może skutkować pogorszoną niezawodnością,

szczególnie, że przelotki są wykonane z miedzi, materiału o innym współczynniku

rozszerzalności cieplnej niż krzem.

Na RYSUNEK 3.9 można zaobserwować nasycenie ze wzrostem szerokości obszaru. Ponownie

potwierdzając wyniki otrzymane w poprzednich paragrafach, od pewnego punktu dalsze

zwiększanie szerokości obszaru nie zmniejsza temperatury w znaczący sposób więc staje się

to nieefektywne.

RYSUNEK 3.9 ROZKŁAD TEMPERATURY DLA RÓŻNYCH SZEROKOŚCI OBSZARU PRZELOTEK DLA

PROCESORA 3D (DLA ZAZNACZONEGO PRZEKROJU)

31

4 WNIOSKI

W tej pracy, przy użyciu wysokowydajnego procesora wielordzeniowego jako referencja,

dwa główne podejścia w modelowaniu termicznym zostały porównane w celu wskazania ich

zalet i wad. Wyniki z analizy stanu ustalonego dla trzech różnych przypadków wydzielanej

mocy pokazały, że model kompaktowy, oparty na sieci RC, dostarcza wyniki podobne do

tych otrzymanych metodą FEM, biorąc pod uwagę maksymalną temperaturę w procesorze.

Dodatkowo, użycie modelu kompaktowego znacząco skraca czas analizy. Jednakże model

ten zawyża gradient temperatury o kilka stopni. Dodatkowo analiza czasowa wykazała, że

model ten niezbyt dokładnie opisuje rozpływ ciepła w procesorze. Wyniki dla nagrzewania

procesora pokazują, że model RC zaniża temperaturę w początkowej i końcowej fazie a

zawyża w środkowej. Niemniej jednak obie metody dostarczają bardzo podobne wyniki

końcowe czyli w stanie ustalonym.

Następnie, wyniki niniejszej dysertacji pokazują, że z punktu widzenia termicznego,

efektywne rozmieszczanie bloków procesora ma istotne zalety. Chociaż redukcja temperatury

zależy od wielu czynników, optymalizacja schematu dla typowego rozkładu wydzielanej

mocy może ją obniżyć o kilka stopni. Wyniki wykazały, że najgorętsze jednostki procesora

powinny być umieszczane w środku układu ale również zachowując pomiędzy nimi odstęp.

Projektowanie z wykorzystanie tych zaleceń zagwarantuje najniższą maksymalną

temperaturę dla zadanej rozpraszanej mocy jak i najmniejszy gradient temperatury w

układzie. Jednakże nie można zignorować faktu, że schematy zoptymalizowane pod kątem

termicznym mogą być niekorzystne z innych względów. Przykładowo może mieć konflikt z

wymaganiami dotyczącymi zmniejszania długości połączeń wewnętrznych. Dlatego też,

niezbędny jest pewien kompromis, który uwzględni wszystkie możliwe aspekty

prawidłowego projektowania.

Wyniki pracy dodatkowo pokazują, że bufory termiczne zlokalizowane pomiędzy rdzeniami

procesora mogą być użyte do zaimplementowania przelotek termicznych zamiast

rozmieszczania ich w całym obszarze struktury. Przelotki termiczne mogą zredukować

maksymalna temperaturę w procesorach 3D o kilka stopni poprzez zmniejszenie rezystancji

termicznej pomiędzy warstwami. Wynika to z faktu, że ciepło generowane w dolnych

warstwach jest bardziej efektywnie transportowane w kierunku otoczenia. Analiza

przedstawiona w tej pracy pokazuje również ilościowy wpływ rozmiaru i gęstości obszaru

32

przelotek na przepływ ciepła. Wyniki pokazują, że wpływ mają również grubość warstw,

szerokość obszaru przelotek i inne parametry, które zwiększają korzyści ze stosowania

przelotek. Otrzymane wyniki pozwalają lepiej zrozumieć mechanizm przepływu ciepła w

strukturach 3D, pomagając projektantom w implementacji obszarów przelotek w przyszłych

schematach.

Niniejsza praca przedstawia również szczegółową analizę wpływu implementacji przelotek

termicznych w procesorach 3D. Przelotki zostały zlokalizowane w miejscach, które nie

zakłócają obecnego optymalnego rozmieszczenia jednostek w procesorze. Wyniki pokazują,

że gdy rozpraszają jest ta sama moc, możliwe jest uzyskanie prawie tej samej temperatury co

w przypadku procesora 2D. Dodatkowo, wykazano, że szczytowe temperatury w procesorze

mają wykładniczą zależność od szerokości obszaru przelotek a więc nieefektywne jest

zwiększanie szerokości w nieskończoność. Dodatkowo wykazano również, że przelotki

termiczne mają tą wadę, że zwiększają gradient termiczny co może mieć wpływ na

niezawodność działania procesora.

Reasumując, w pracy przeprowadzono modelowanie kilku procesorów w celu oszacowania

wpływu obecnie badanych metod redukcji temperatury. Wyniki zaprezentowane w tej pracy

dotyczą jedynie termicznego punktu widzenia. Tak więc wskazana jest współpraca

naukowców z różnych dziedzin by przemóc obecnym problemom związanym z obniżaniem

temperatury, co w niedalekiej przyszłości może być głównym wyzwaniem przy

projektowaniu nowoczesnych procesorów.

33

BIBLIOGRAFIA

[1] G. E. Moore, "Cramming more components onto integrated circuits, Reprinted from Electronics, volume 38, number 8, April 19, 1965, pp. 114 ff," IEEE Solid-State Circuits Newsletter, vol. 3, pp. 33-35, 2006.

[2] T. H. Bao, et al., "Circuit and process co-design with vertical gate-all-around nanowire FET technology to extend CMOS scaling for 5nm and beyond technologies," in 2014 44th European Solid State Device Research Conference (ESSDERC), 2014, pp. 102-105.

[3] I. Hiroshi, "CMOS technology after reaching the scale limit," in Junction Technology, 2008. IWJT '08. Extended Abstracts - 2008 8th International workshop on, 2008, pp. 1-2.

[4] J. D. Warnock, et al., "The circuit and physical design of the POWER4 microprocessor," IBM Journal of Research and Development, vol. 46, pp. 27-51, 2002.

[5] P. D. Kirsch, et al., "Challenges of III-V materials in advanced CMOS logic," in Proceedings of Technical Program of 2012 VLSI Technology, System and Application, 2012, pp. 1-2.

[6] R. Sharma, Design of 3D Integrated Circuits and Systems: CRC Press, 2014.

[7] J. Meng, et al., "Optimizing energy efficiency of 3-D multicore systems with stacked DRAM under power and thermal constraints," in Design Automation Conference (DAC), 2012 49th ACM/EDAC/IEEE, 2012, pp. 648-655.

[8] C. Chia-Pin, et al., "Thermal management of packages with 3D die stacking," in Microsystems, Packaging, Assembly and Circuits Technology Conference (IMPACT), 2012 7th International, 2012, pp. 201-204.

[9] B. Goplen and S. Sapatnekar, "Thermal via placement in 3D ICs," presented at the Proceedings of the 2005 international symposium on Physical design, San Francisco, California, USA, 2005.

[10] J. Cong and Z. Yan, "Thermal via planning for 3-D ICs," in Computer-Aided Design, 2005. ICCAD-2005. IEEE/ACM International Conference on, 2005, pp. 745-752.

[11] International Technology Rodmap for Semiconductors (ITRS), 2012.

[12] X. Guoping, "Thermal Modeling of Multi-Core Processors," in Thermal and Thermomechanical Phenomena in Electronics Systems, 2006. ITHERM '06. The Tenth Intersociety Conference on, 2006, pp. 96-100.

[13] M. Yuffe, et al., "A fully integrated multi-CPU, GPU and memory controller 32nm processor," in Solid-State Circuits Conference Digest of Technical Papers (ISSCC), 2011 IEEE International, 2011, pp. 264-266.

34

[14] M. Galicia, et al., "Modelling modern processors using FEM and compact model - A comparative study," in Mixed Design of Integrated Circuits & Systems (MIXDES), 2014 Proceedings of the 21st International Conference, 2014, pp. 293-297.

[15] P. Hammarlund, et al., "Haswell: The Fourth-Generation Intel Core Processor," IEEE Micro, vol. 34, pp. 6-20, 2014.

[16] G. Loh, "3D-Stacked Memory Architectures for Multi-core Processors," in Computer Architecture, 2008. ISCA '08. 35th International Symposium on, 2008, pp. 453-464.

[17] X. Licheng, et al., "A high performance 3D interconnection network for many-core processors," in Computer Engineering and Technology (ICCET), 2010 2nd International Conference on, 2010, pp. V1-383-V1-389.

[18] A. Krum., The CRC handbook of thermal engineering. Boca Raton, FL, : CRC Press, 2000.

[19] S. Li, et al., "McPAT: An integrated power, area, and timing modeling framework for multicore and manycore architectures," in Microarchitecture, 2009. MICRO-42. 42nd Annual IEEE/ACM International Symposium on, 2009, pp. 469-480.

[20] "ANSYS® Workbench 14, available at: http://www.ansys.com," ed.

[21] B. Khailany, "GPU design in a power-limited era," in Microelectronic Systems Education (MSE), 2013 IEEE International Conference on, 2013, pp. 68-68.

[22] Y. Zhang, et al., "Performance and Power Analysis of ATI GPU: A Statistical Approach," in Networking, Architecture and Storage (NAS), 2011 6th IEEE International Conference on, 2011, pp. 149-158.

[23] Y. Xie, et al., Three-Dimensional Integrated Circuit Design: EDA, Design and Microarchitectures: Springer, 2010.

[24] J. L. Ayala, et al., "Through Silicon Via-Based Grid for Thermal Control in 3D Chips," presented at the Fourth International ICST Conference on Nano-Networks (Nano-Net 2009), Luzern, 2009.

[25] B. Goplen and S. S. Sapatnekar, "Placement of thermal vias in 3-D ICs using various thermal objectives," IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, vol. 25, pp. 692-709, 2006.

[26] W. Eric and L. Sung Kyu, "3D Floorplanning with Thermal Vias," in Proceedings of the Design Automation & Test in Europe Conference, 2006, pp. 1-6.

POLITECHNIKA ŁÓDZKA · POLITECHNIKA ŁÓDZKA Wydział Elektrotechniki, Elektroniki, Informatyki i Automatyki Melvin Estuardo Galicia Cota Praca doktorska Modelling of multicore

Documents