IBM bouwt snelheidsmonster van Power6: doelwit 4,5GHz

De laatste paar maanden beginnen er steeds meer details naar buiten te komen over de volgende generatie high-end serverprocessor van IBM, de Power6. IBM heeft de reputatie dat het de snelste processors ter wereld maakt, en niet onterecht: de Power4 brak in 2001 alle records, en de Power5 deed in 2004 hetzelfde. Het grote voordeel van IBM boven alle andere processorbakkers is dat het zijn chips eigenlijk alleen maar voor eigen gebruik ontwikkelt, waardoor het bedrijf de kosten kan uitspreiden over gehele serverafdeling (die nog steeds de grootste ter wereld is). Dit in contrast met bedrijven zoals Intel en AMD, die hun winst puur uit de verkoop van de processors zelf moeten halen.

Een ander voordeel is dat IBM altijd zijn eigen koeling, chipsets en moederborden gebruikt, waardoor er voor het opvoeren van de complexiteit van het socket en de stroombehoefte niet met tientallen verschillende klanten onderhandeld hoeft te worden. Kortom: IBM kan met de Power-serie lekker doen waar het zelf zin in heeft, en het doel is niets minder dan de snelste processors ter wereld bouwen. Ter illustratie volgt hieronder een plaatje van een project waar het bedrijf zijn hand niet voor omdraait: de Power5 MCM bestaat uit vier dualcore processors en in totaal 144MB L3-cache. Het socket van dit monster heeft maar liefst 5400 pinnen, het stroomverbruik ligt naar schatting boven de 1000 watt en de prijs van het ding loopt letterlijk in de tienduizenden dollars per stuk.

IBM 8-way Power5 MCM-chip met 144MB cache

Het is dus wel te begrijpen dat veel mensen erg nieuwsgierig zijn naar wat IBM in de planning heeft voor 2007, het jaar waarin de Power6 moet verschijnen. Recent gepubliceerde artikelen wijzen erop dat het bedrijf van plan is om tegen te stroom in te gaan roeien: in plaats van over te stappen naar vier of meer cores per processor met een beperkte kloksnelheid blijft IBM bij dualcore, en is het van plan om de route te gaan volgen die Intel juist heeft verlaten door het Pentium 4-ontwerp te dumpen en de filosofie van de Pentium M te omarmen. IBM ziet dus nog wél toekomst in een 'snelheidsmonster': het wil met een dunne en lange pipeline onovertroffen frequenties van 4,0 tot 4,5GHz neer gaan zetten op 65nm. Naast hoge snelheid wil het bedrijf ook ultieme betrouwbaarheid, want de Power6 moet niet alleen de Power5(+) opvolgen, maar ook de zArch-processors voor mainframes. Daarnaast wil IBM de beschikbare bandbreedte verdubbelen, de bestaande vector- en SIMD-instructies uitbreiden en ondersteuning voor een L4-cache toevoegen.

Hoewel er van de Power6 intern al enkele vroege samples beschikbaar zijn, zijn daar nog geen benchmarkresultaten van bekendgemaakt. Op basis van de publieke uitspraken van IBM en de details die tot nu toe over de architectuur bekend zijn gemaakt heeft Real World Tech echter wel een schatting kunnen maken van wat een Power6 zou moeten kunnen, en dat levert een indrukwekkend plaatje op, zeker wanneer je bedenkt dat SPEC CPU 2000 niet gebruikmaakt van multithreading (en dus beperkt is tot één core). Het valt nog te bezien hoe de afweging tussen een kleiner aantal snelle cores versus een groter aantal tragere cores uit zal vallen, maar alleen het feit dat iemand af durft te wijken van de consensus is al een reden om de Power6 in de gaten te gaan houden.

SPECint_base2000
Power6 (optimistisch)4,4GHz 2860
Power6 (optimistisch)4,0GHz 2600
Power6 (conservatief)4,4GHz 2420
Power6 (conservatief)4,0GHz 2200
Athlon 642,8GHz 1862
Pentium 43,8GHz 1834
Pentium M2,3GHz 1812
Itanium 2 1,6GHz 1590
Power5+1,9GHz 1470
SPECfp_base2000
Power6 (optimistisch)4,4GHz 5720
Power6 (optimistisch)4,0GHz 5200
Power6 (conservatief)4,4GHz 5060
Power6 (conservatief)4,0GHz 4600
Power5+1,9GHz 2839
Itanium 2 1,6GHz 2801
Opteron2,8GHz 2256
Pentium 4 EE3,7GHz 2112
Pentium M2,3GHz 1355

Door Wouter Tinus

20-12-2005 • 18:40

61

Bron: Real World Tech

Reacties (61)

Sorteer op:

Weergave:

Ik vind het ook maar gek dat ze niet verder gaan zoals Intel op de Pentium M. Meer power voor een lagere kloksnelheid (aangezien deze toch minder verbruiken en minder warm worden). Maar als je dat voorbeeld bekijkt (1000W!!!) kijken ze daar niet echt naar :Y)
Stroomverbruik telt natuurlijk ook in dat soort ontwerpen maar pure prestaties zijn belangrijker. Als het de keuze is tussen een super airco neerzetten om de processor te koelen die de resultaten geeft die jij zoekt of die resultaten in het geheel niet krijgen is de keuze snel gemaakt.

Daarnaast is het niet helemaal waar dat Intel de kennis die ze met Netburst vergaard hebben links laat liggen. Ook in de conroe komt een gedeelte van de Netburst techniek. Wel kiest Intel er duidelijk voor om het stroomverbruik van de desktopchips te verminderen en voor een hogere IPC. Maar in hoeverre dat ten koste gaat van de kloksnelheid staat niet vast. In het beste geval wordt de kloksnelheid van de huidige P4 beperkt door de wens het stroomverbruik "redelijk" te houden en kan intel met een ontwerp wat minder stroom verbruikt en een hogere IPC heeft toch nog dezelfde (of zelfs hogere) kloksnelheden halen. Hetzelfde geldt voor IBM. Een veel hogere kloksnelheid hoeft niet perse tot een veel lagere IPC of een hoger stroomverbruik te leiden.

Bij beide bedrijven is het dus mogelijk dat de opgedane kennis leidt tot een beter ontwerp waarbij de performance stijgt zonder dat het stroomverbruik hoeft mee te stijgen. Wat dat betreft is het dus afwachten tot de processors er zijn. Pas dan kunnen we zien welke keuzes er gemaakt zijn.
Eigenlijk vind ik die processor van IBM niet zo denderend presteren. Als we hier kijken naar onze huis-tuin-keuken processoren en de statistieken die erbij komen kijken vallen direct een aantal dingen op:

De base2000 score is 2860 bij de power5(MCM) op 4.4 ghz. Bij de Athlon 64 op 2.8 Ghz is dit 1862. Alleen draait deze athlon niet op ongeveer 1000 watt maar magtie met net iets onder de 200 bij stress genoegen nemen. Ook is de athlon niet 5400 pins, maar een stuk kleiner. En hij is ook nog eens een stuk goedkoper (vast ook in het productieproces).

Met dit formaat, verbruik en prijs verwacht ik toch eigenlijk wel een resultaat van minstens het dubbele!

[edit]
En jah .. ik weet dat deze processor geen huis-tuin-keuken processor is, maar als AMD er 1 zou maken van deze afmeting, en met dat wattage, dan zou deze volgens mij gigantisch veel meer presteren. Intel idemdito.

[edit2]
Ok , ik zie dat ik de dingen een beetje door elkaar gehaald heb. Het gaat dus om 1 core. Dan is de score dus wel enorm hoog! Wel ben ik benieuwd OF AMD en Intel hier nog op gaan reageren.
Je haalt de dingen een beetje door elkaar. Die 1000 watt en 5400 pins is een Power5 MCM met 8 cores (volgens het artikel). Dat is dus 125 watt per core en minder dan 700 pennen per core, dat is dus heel zo gek nog niet.

Over de Power 6 is niets gezegd over dissipatie en pincount.
Hou in de gaten dat die 1000 watt en 5400 pinnen is voor een Power5 MCM met vier dualcore processors (dus acht cores totaal) terwijl deze benchmark maar één core gebruikt! De voorsprong in de tabellen moet je dus per core zien, en niet als acht IBM-cores vs. één Athlon 64 :+.
Dan snap ik niet waarom ze de Power5 MCM niet tegenover Suns UltraSparc T1 (ook wel bekend onder de naam 'Niagara') hebben gezet.
Eerst en vooral: de Power5 MCM wordt hier helemaal niet getest, stelletje plaatjeskijkers :/.

Er wordt hier een schatting gegeven van de prestaties van één Power6-core, omdat er veel te weinig bekend is over de infrastructuur om uitspraken te doen over de prestaties van een volledig systeem met (meerdere) dualcores. Een vergelijking met de Niagara heeft dus ook weinig zin, want het is bekend dat een losse Niagara-core qua prestaties nauwelijks iets voorstelt. Sun durft de SPECfp/int-scores niet eens vrij te geven :P.
Totaal verschillende markt. De T1 is bedoeld voor het paralel uitvoeren van relatief simpele processen (webservers) Deze Power5 MCM is bedoeld voor het paralel uitvoeren van veel zwaardere processen. Waarschijnlijk biedt 1 Power5 core daarvoor betere prestaties dan alle cores in een T1 bij elkaar.
De Power 5 MCM gebruikt 1000 watt door zijn 8 cores en de 144 mb lv 3 cache. De Power 6 zal er een heel stuk onder zitten. Ik denk eerder 100-200 watt range.
Wel even opletten, die specs horen bij die power5MCM die daar is afgebeeld, over de Power6 is niets geschreven in dit artikel.
Voor integers is-ie misschien relatief traag t.o.v. de Intel en AMD processoren, maar voor fp is-ie ruim 2.5x zo snel als de snelste Opteron!

En okee, performance per watt is misschien niet zo hoog, maar da's onbelangrijk als je koste wat kost een hoge performance nodig hebt.
Is die tegel die hij in zijn hand houd een processor? Ik dacht dat het juist steeds kleiner zou worden.

Of is het een plaatje van een bierviltje voor de übergeek :+

Tis wel een duur bierviltje als je het gebruikt:
het stroomverbruik ligt naar schatting boven de 1000 watt
Je moet waarschijnlijk eerst de energiecentrale opbellen om een aantal van deze monsters in een server aan te mogen zetten...

Hoe moet je zoiets btw in hemelsnaam koelen? Gewone luchtkoeling zal niet afdoende zijn en met waterkoeling zul je wel een aquarium nodig hebben als koelblok ook niet echt efficient...
Dit is dan ook niet echt een processor die voor de consument bedoeld is. ;)

Als je het artikel leest kom je er trouwens ook achter de IBM lekker doet waar ze zelf zin in hebben. Die hebben niks te maken met Intel's en amd's nm strijd.
Bovendien zijn de core's niet zo verschrikkelijk groot van die cpu maar alles wat eromheen zit wel :P
Het is opvallend dat de technologie toestaat dat transistors alsmaar krimpen, maar dat de eigenlijke die amper of zelfs niet klener is geworden!
De plaastwinst is volledig opgesoupeerd aan meer stuks.

Het monster hierboven is natuurlijk ook geen gewone processor meer te noemen. Misschien is interessant experiment een betere omschrijving...
ze worden kleiner zodat er straks meer op 1 plakje silicium kunnen, neem ik aan.. en natuurlijk het verbruik omlaag te schroeven.. :Y)

IBM doet het om de media, en voor hele grote bedrijven..

Ik vind het wel gek dat die cores verschillende grotes hebben.. :+
4 plakjes zijn voor de dual-core cpu's (dus totaal 8 cores), met L1 en L2 cache, en op de andere 4 zit elk waarschijnlijk 34 mb L3 cache (144 / 4=32)
Mmmhhhh klein rekenfoutje 144/4=36 en dus niet 32 of 34 8-)
die cores zijn hetzelfde, kijk maar 4 dezelfde plakjes. Die andere vier is waarschijnlijk de 144 mb aan L2 cache..
Correct me if i'm wrong

Edit: L3 cache dus..
En een kutbierviltje ;)
Met 1000 watt is je bier te snel lauw, meer iets voor die Engelsen :+
De reden waarom de cores nog zo groot lijken zal eerder te zoeken zijn in de 144mb L3 cache die aanwezig is wat veel plaats inneemt.
De Power5 MCM bestaat uit vier dualcore processors en in totaal 144MB L3-cache.
De L3 cache zit in de buitenste chips.
Interessante post. Ik ben idd benieuwd of ze die prestatie gaan halen. Alleen moet je niet vergeten dat er dan ook een K9 zal zijn + de opvolger van de P4.

En er zullen meer multi core applicaties komen dus de vraag is dat wat sneller zal zijn dual core op 4.5 of quad core op 2.4. of mischien 8 cores ? Maar hun hebben dan altijd nog hun Power 5 MCM met 8 cores :)
Zowel de K9 als de opvolgers van de Xeon zijn geen directe concurrenten van deze chip. De Power6 moet concurreren met de Sun Ultrasparcs en de Itaniums.

Hoe de performace van die dingen tzt is zou ik niet durven zeggen.
IBM zijn CPUs zijn altijd optimaal geweest in een SMP omgeving. De meerdere dies op 1 core wat Intel ook heeft geprobeert is dus veel gemakkelijker te doen, omdat de onderlinge communicatie soepel kan verlopen.

Op die manier kan de yield dus hoog blijven, omdat de uiteindelijk chips die van de wafers afkomen, qua formaat hetzelfde zijn gebleven, en dan op een soort mini-moederbord worden samengevoegd, wat dan de uiteindelijke CPU behuizing wordt.

De 5400 pinnen geven dat ook goed aan, wat vooral communicatie met het geheugen en de bus zal zijn, maar ook voor SMP communicatie met andere systemen.

Wat ik wel interessant had gevonden is wat voor een 19" U formaat minimaal nodig is, om de 1000 Watt goed te koelen. Want ik denk niet dat het minimale formaat van 1U hoog genoeg is voor de benodigde koeling.
Maar..... kan die dan ook SLI?
SMP heet dat in de processorwereld, en ja, dat kan ie (zowel die Power5 MCM als de Power6).
Die foto komt me heel bekend voor. Volgens mij heeft dat meer dan een jaar geleden ofzo ook hier op t.net gestaan en sloeg ik er toen al stijl van achterover. Niemand anders?
Dat is dan ook een foto van een Power5. Het nieuwsbericht gaat over de Power6.
Ik moest toch effe controleren of het geen 1 April was of zo, wat een ding zeg, die CPU is groter dan een picoBTX moederbord :+
Lees goed: Het is geen huis tuin en keuken processor.... maar voor servers! Dat scheelt even een slok op een borrol :Y)
nou ik wil dit niet eens een server-processor willen noemen, -
Ik 'moet' bij een server nog altijd denken aan een 2- of 4- HE 19inc Rackmountable server met 2- of 4- Opteron processoren, een Intel Itanium, of een Sun UtraSparcII -

Dit zijn dus mainframe cpu's zoals die (zo vermoed ik), voormamelijk enkel gebruikt worden in mainframes met 1000+ (of wie weet zelfs pas 5000+) thin-clients, Kortom bijna alleen maar voor die enkele erorm vermogende klanten die bij IMB een volledig mainframe bestellen, -

ik kan al bijna niet anders meer zeggen dan dat het me zou verbazen als er een uberhaupt, op deze krachtpatsers gebaseerd, systeem, in de prijslijst zou voorkomen, (in plaats van alleen in de map van de top-vertegenwordigers)

//edit taalftouten - verbeterd:

//edit 2 - ?? @wouter
Nu er geen macs meer worden gebouwd op basis van de Power6 - wat moet ik me dan nog voorstellen bij beschikbaren OS'en??? zoveel blijft er dan toch niet over,
toch erg jammer,

ik ben dan ook nu ineens wel heel erg benieuwd of er dan bedrijven komen die, (wellicht op basis van linux) hier 'kant en klaar systemen' voor gaan verkopen,
* 786562 i-chat
De MCM is natuurlijk wel een extreem voorbeeld - en de prijzen daarvan zijn inderdaad alleen op aanvraag beschikbaar - maar de normale Power5+ (en straks dus ook Power6) is wel gewoon vrij beschikbaar in standaard IBM pSeries en iSeries machines, en daar zitten ook relatief bescheiden apparaten tussen hoor :).

i-chat: ga hier maar eens kijken: pSeries en iSeries. Dit zijn gewoon servers die draaien op Linux of AIX. Let wel op dat de Power-processors altijd al een hele andere familie zijn geweest dan de PowerPC-processors die Apple gebruikt(e) :).
@ i-chat, een IBM p5 505 is via de IBM website al te koop voor $ 3.750,00 en dit is een 1HE server met een Power5 processor. In deze instapserver (nieuwe spelling instap-server:) ) kunnen zelfs 2 P5 processoren met totaal 32 GB RAM.
Ook heeft dit systeem als LPAR ondersteuning. (een soort van VMWare, maar dan op een iets lager nivo)
Denk meer het de hand is van een Amerikaanse houthakker :+
En volgens mij is die hand ook niet bepaald van een Japanner :+
Op zich is het ook geen CPU, het zijn effectief 8 CPU's (per dualcore verpakt met L1 & L2 cache) en een hoop L3 cache (de buitenste 4 chips). Een betere omschrijving voor deze geile tegel zou "multi processor module" zijn. :P
Hahaha dat zal Apple leren :P.
het stroomverbruik ligt naar schatting boven de 1000 watt

Je moet waarschijnlijk eerst de energiecentrale opbellen om een aantal van deze monsters in een server aan te mogen zetten...
Ik denk dat je beter eerst de politie kan bellen om te vertellen dat het je pc is die zoveel stroom verbruikt en niet die wietkwekerij in je kelder.

Opzich zit er wel een beetje logica in wat IBM doet denk ik. Meerdere cores daarbij gaat meer rekenkracht verloren omdat er steeds onderling moet worden gepraat over wie wat gaat doen, en ook software schrijven voor bv 4+ cores lijkt mij moeilijker dan voor bv 1 of 2 cores. Wat dat betreft zou je dus voordeel kunnen halen uit minder cores ipv meer cores.
Meerdere cores daarbij gaat meer rekenkracht verloren omdat er steeds onderling moet worden gepraat over wie wat gaat doen,
Er gaat helemaal geen rekenkracht verloren.
Elke thread wordt op een andere core gedraaid. Bij communicatie tussen thread zal de speedup wat minder groot zijn (maar de theoretische speedup in parallele systemen wordt sowieso haast nooit gehaald).
en ook software schrijven voor bv 4+ cores lijkt mij moeilijker dan voor bv 1 of 2 cores. Wat dat betreft zou je dus voordeel kunnen halen uit minder cores ipv meer cores.
Deze uitspraak snap ik helemaal niet.

Als je je programma goed hebt geparalleliseerd (bijv met MPI), dan zou het helemaal geen probleem moeten zijn om je programma goed te laten draaien op 1, 2 of 4+ cores (uiteraard geldt dit niet voor toy-probleempjes). En je hoeft je programma dan ook helemaal niet aan te passen aan het aantal cores. Dus programma's schrijven voor 4+ is zeker niet moeilijker dan het schrijven van een programma voor 2 cores. (Ter illustratie: ik heb zonder extra inspanning software geschreven dat optimaal gebruik kon maken van 70 CPUs met elk 2 cores -- Bij meer CPUs begon het netwerk de bottleneck te vormen).

Het punt waar vanaf meer cores geen nut meer heeft (door commmunicatieoverhead, volle bussen door gedeeld geheugen) ligt meestal toch wel een heel stuk hoger dan 4 (bron: eigen onderzoek))

Op dit item kan niet meer gereageerd worden.