Intel introduceert Itanium 2 Madison 9M

Intel heeft vandaag zijn Itanium-assortiment ververst met de introductie van de Madison 9M-core. Ondanks het feit dat het inmiddels al ruim zestien maanden geleden is dat zijn voorganger Madison 6M werd geïntroduceerd, zijn er zoals de naamgeving al doet vermoeden weinig ingrijpende verbeteringen doorgevoerd aan de hardware. De kloksnelheid is iets hoger, maar omdat hij nog steeds op 0,13 micron gebakken wordt gaat het om een toename van slechts 100MHz. Eerder was de verwachting dat er nog wel 200MHz uit te persen viel, maar bij het uitstel van de chip bleek al dat dat niet haalbaar was. De 1,6GHz-versie met 9MB L3 verbruikt maximaal 122 Watt, een verhoging van 15 Watt ten opzichte van het vorige topmodel maar nog steeds minder dan het op 130 Watt vastgestelde TDP van de hele serie. Naast deze bescheiden toename in kloksnelheid is de L3-cache vergroot en is er een snellere FSB beschikbaar gemaakt voor de DP-versie.


Type	Prijspunt	Oud	Nieuw

MP	$4226	1,5GHz 6MB	1,6GHz 9MB

MP	$1980	1,4GHz 4MB	1,6GHz 6MB

MP	$910	1,3GHz 3MB	1,5GHz 4MB

DP	$1172	1,6GHz 3MB (400MHz)	1,6GHz 3MB (533MHz)

DP	$851		1,6GHz 3MB (400MHz)

LV	$530	1GHz 1,5MB	1,3GHz 3MB

Intel Itanium 2 logo (klein) Samen met een nieuwe versie van Intels compilers en een 667MHz FSB in aantocht voor de eerste helft van volgend jaar moeten deze factoren Itanium concurrerend houden tot Montecito verschijnt in de tweede helft van 2005. De 90nm dual-core Itanium met 24MB L3-cache wordt op dit moment getest door de systeembouwers en zal volgens vroege benchmarks anderhalf tot twee keer zo snel zijn als de Madison 9M.

De vandaag aangekondigde chip levert echter ook betere prestaties dan gezien de schamele toename in kloksnelheid verwacht kon worden: de base-waarde in SPECfp is voor de Madison 9M bijvoorbeeld net iets hoger dan de peak-waarde van de IBM Power5. Opvallend genoeg stoomt zelfs de versie met 3MB cache het oude en voorheen bijna vier keer zo dure topmodel voorbij. Ook in verschillende andere benchmarks waar de 6M tekortschoot weet de 9M aardig terug te krabbelen of zelfs op winst te komen, daarbij uiteraard geholpen door extra cache, compilertweaks en de snellere FSB. Uiteraard mogen de door Intel uitgekozen tests met een korrel zout genomen worden, maar het lijkt er in ieder geval op dat de missie van Madison 9M om het gat tot Montecito te overbruggen kans van slagen heeft.


SPECfp2000

Itanium 2 1,6GHz 9MB	Base	2712

Power5 1,9GHz	Peak	2702

Power5 1,9GHz	Base	2576

Itanium 2 1,6GHz 3MB	Base	2553

Itanium 2 1,5GHz 6MB	Base	2119

Inmiddels zijn er volgens Intel overigens al meer dan 2100 applicaties beschikbaar voor het Itanium-platform - volgens een recente uitspraak van HP zelfs meer dan 2700 - terwijl er aan het begin van het jaar nog slechts duizend waren.

Reacties (21)

Verwijderd 8 november 2004 23:05

Zeer interessant hoe de performantie van de Itanium zo sterk afhangt van de cachegrootte. Dit komt doordat ze de instructies in programmavolgorde uitvoeren (in-order). Als data niet in de cache gevonden wordt moet er gewacht worden tot die uit de RAM is opgehaald, en dit kan bijzonder veel klockcycli duren. Al die tijd doet de processor niets. Een Pentium zou verdere instructies die niet afhangen van de geheugenoperatie uitvoeren.

Toch denk ik dat deze in-order architecturen een grote toekomst hebben. Ze zijn structureel eenvoudiger dus kunnen ze, alvast in theorie, hoger geklokt worden en tegelijkertijd meer uitvoeringseenheden hebben.

De oplossing voor het wachten op geheugen ligt volgens mij bij Hyper-Threading. Terwijl de ene thread blijft wachten kan een andere zonder problemen, en ook in-order, z'n instructies uitvoeren in de vrijgekomen uitvoeringseenheden. Zo zie ik geen enkel probleem om een 'onbeperkt' aantal threads te laten lopen op dezelfde core. Het enige wat bijgehouden moet worden per thread is de programmateller. Bij een out-of-order architectuur is het veel ingewikkelder maar zelfs daar bedroeg voor de Pentium 4 de uiteindelijke hardwarekost slechts 5% in de core.

Multi-core is natuurlijk ook zeer effectief, maar elk afzonderlijk worden de cores dan niet efficienter gebruikt...

Luxx @Verwijderd • 8 november 2004 23:51

Zeer interessant hoe de performantie van de Itanium zo sterk afhangt van de cachegrootte

Als je naar de prestaties van de 1.6Ghz 3MB kijkt, zou je eerder zeggen dat de prestatieboost vooral door de hogere FSB komt...

Dit komt doordat ze de instructies in programmavolgorde uitvoeren (in-order). Als data niet in de cache gevonden wordt moet er gewacht worden tot die uit de RAM is opgehaald, en dit kan bijzonder veel klockcycli duren. Al die tijd doet de processor niets. Een Pentium zou verdere instructies die niet afhangen van de geheugenoperatie uitvoeren.

Dat In-order geldt toch alleen binnen een thread? Daarnaast zorgt de compiler er voor dat het zelfden een punt is...

Toch denk ik dat deze in-order architecturen een grote toekomst hebben. Ze zijn structureel eenvoudiger dus kunnen ze, alvast in theorie, hoger geklokt worden en tegelijkertijd meer uitvoeringseenheden hebben.

Doordat ze eenvoudiger zijn, zijn er vooral kortere pipelines mogelijk. Hierdoor kan je erg veel instructies per kloktik uitvoeren, en dus een goede prestatie neerzetten.
Hierdoor wordt de winst van Multithreading echer ook veel kleiner worden. Natuurlijk blijft het wel interessant.
Als je de prestatiewinst van deze architectuur in zijn geheel bekijkt, dan lijkt het er idd op dat x86 het binnenkort niet meer bij kan houden, en is er zeker toekomst voor IA-64.

De oplossing voor het wachten op geheugen ligt volgens mij bij Hyper-Threading. Terwijl de ene thread blijft wachten kan een andere zonder problemen, en ook in-order, z'n instructies uitvoeren in de vrijgekomen uitvoeringseenheden. Zo zie ik geen enkel probleem om een 'onbeperkt' aantal threads te laten lopen op dezelfde core.

Door het gebruik van Hyperthtreading deel je wel de Cache per thread. Dit zou volgens jouw eerdere redenatie een ramp zijn voor de prestatie. Het wissellen van thread zodra er een thread "vast loopt" is echter wel effectief, van daar dat Intel een variant op Hyperthreading, Coarse-grained MultiThreading (CMT), ontwikkelt, dit voert dus meerdere threads na elkaar uit. Als een thread op data staat te wachten, wordt er tijdelijk gewisseld. Het wissellen gebeurd echter in de processor zelf, waardoor dit toch een flinke snelhieds winst opleverd tov wachten.

Multi-core is natuurlijk ook zeer effectief, maar elk afzonderlijk worden de cores dan niet efficienter gebruikt...

Klopt, maar het is natuurlijk zodat het een het ander niet onmogelijk maakt. De Montecito wordt een multicore CMT processor.

Olaf van der Spek @Verwijderd • 8 november 2004 23:14

Dit komt doordat ze de instructies in programmavolgorde uitvoeren (in-order).

Elke moderne CPU is sterk afhankelijk van cache. Die cache zit er natuurlijk niet voor niks op.
En aan load delays hebben ze bij het ontwerp van de Itanium vast wel gedacht.

Het enige wat bijgehouden moet worden per thread is de programmateller.

Pff. Het is veel complexer dan dat. Alle per-thread state moet gedupliceerd worden. Dus ook registers.

Verwijderd @Olaf van der Spek • 10 november 2004 11:31

Out-of-order architecturen zijn wat minder gevoelig voor de cachegrootte. Dit is omdat wanneer data niet meteen in de cache gevonden wordt, er nog tientallen andere instructies uitgevoerd kunnen worden voor de processor helemaal lam ligt. De Itanium kan dit niet dus is het van het allergrootste belang dat bijna alle data in de cache zit.

Inderdaad moeten ook de registers bijgehouden worden, maar niet in de de core. Wat ik bedoel is dat bij een out-of-order architectuur Hyper-Threading complexer is omdat voor elke thread zeer nauwkeurig moet bijgehouden worden wat de toestand is en waar de instructies in uitvoering zich bevinden. Bij in-order architectuur is de programmateller voldoende om te weten hoe ver we zitten met het uitvoeren van de code, en is het bijgevolg veel eenvoudiger Hyper-Threading met vele threads te implementeren. Registers dupliceren is helemaal zo complex niet, omdat ze gewoon naar geheugen worden geschreven.

Verwijderd 8 november 2004 21:34

ben erg benieuwd wat die nieuwe dualcore itaniums aan power gaan vragen. Hoelang zal het duren voor de 200watt barriere beslecht wordt ?

loodgieter @Verwijderd • 8 november 2004 21:50

er word zelfs ook al Waterkoeling gebruikt in de SGI machine die bij NASA staat.

vind alleen vreemd dat er nu dannog een nieuwe Itanium uitkomt. Ik denk zelf dat deze niet veel verkocht zullen gaan worden omdat over ong 8maand de montecito gepresenteerd word. Daar wachten bedrijven denk ik meer op. specs zijn ook beter? 90nm ipv 130nm, 24MB ipv 9MB L3cache?

Niles @loodgieter • 8 november 2004 21:54

er word zelfs ook al Waterkoeling gebruikt in de SGI machine die bij NASA staat.

Als men het over meer dan 200watt gaat hebben moet je toch een serieuze waterkoeling hebben wil je dat zelfs met waterkoeling kunnen afvoeren. Ik denk dat een peltier (+waterkoeling) dan idd geen overbodige luxe is, zeker niet voor een server die je toch al graag extra koel houdt vanwege de lange uptime's.

Overigens is het natuurlijk wel logisch dat ze deze chip uitbrengen. Het toevoegen van extra cache is niet zo'n heel groot obstakel en het verhogen van kloksnelheid en FSB heeft ze de afgelopen tijd bezig gehouden. Bedenk wel dat het al 16 maanden (meer dan een jaar!) geleden is dat de vorige Itanium uitkwam. Als men deze dus niet had uitgebracht was dit gestegen naar 24 maanden wat dus 2 jaar is, dat kan Intel ook niet maken, daarbij dichten zo voorlopig hiermee het gat of maken het groter.

Metal Baron @Niles • 8 november 2004 22:02

En dan wordt het langzaamaan wel steeds relevanter de energierekening te gaan betrekken in de prijs/snelheid verhouding.

Olaf van der Spek @Niles • 8 november 2004 23:12

Als je er 21 in een rack hebt, is 100 W extra toch al weer 2 kW. Dus ook de airco moet 2 kW extra vermogen hebben.

Dreamvoid @Niles • 8 november 2004 22:18

Juist op zulke dure servers ($4226 alleen al voor 1 processor, en dan heb ik het nog niet eens over de software die erop draait en de beheerskosten) maken die 200 Watt juist vrijwel niets meer uit.

EvilWhiteDragon @Niles • 8 november 2004 22:19

Watercooling voor (semi) supercomputers is niets nieuws dat werd al bij de eerste supercomputers gedaan, alleen men is daarmee gestopt omdat het erg duur en onpractisch was.

En als je een peltier bij die setup gaat doen dan wordt de totale warmte nog veel hoger, dus ik zie dat niet zosnel gebreuren, want je krijgt zo de _dubbele_ hoeveelheid warmte.

edit:
@ dreamvoid
200 t.o.v. 100 ("gewone" cpu) is 100 watt extra wat dus het kost je bijna (andere onderdelen hebben ook stroom nodig) het dubbele van wat je anders zou gebruiken

Verwijderd @Niles • 8 november 2004 23:13

Het gaat niet om de rekening, maar om de mogelijkheden om het te koelen, dit wordt steeds lastiger.

Bovendien vraag ik me af of 4 opterons niet sneller is dan 1 Itanium...

edit: vraag het me eigenlijk niet af, maar vraag me wel af hoeveel mensen/bedrijven er bereid zijn om een paar keer >€4000 te betalen + een reteduur mobo.

Voor veel minder geld heb je een denk ik wel een gelijk presterend opteron of xeon systeem.

Verwijderd @Niles • 8 november 2004 23:17

En als je een peltier bij die setup gaat doen dan wordt de totale warmte nog veel hoger, dus ik zie dat niet zosnel gebreuren, want je krijgt zo de _dubbele_ hoeveelheid warmte.

Hij heeft hier toch echt gestaan op t.net,

De totale warmte is ook niet zo'n heel groot probleem, met flinke airco's hou je de ruimte toch wel "koel", het gaat er juist om dat je al het vermogen van zo'n klein oppervlak moet trekken.

Olaf van der Spek @loodgieter • 8 november 2004 23:10

Daar wachten bedrijven denk ik meer op. specs zijn ook beter?

Als een bedrijf nu een nieuw systeem nodig heeft, gaan ze echt geen acht maanden wachten.

boner @loodgieter • 9 november 2004 09:56

daar is toch niks vreemds aan? Niet zo heel erg lang geleden draaiden alle grote mini computers en mainframes met waterkoeling. Er was zelfs een grapje dat het enige compatibele tussen DEC en IBM de aansluiting van de koelwaterslang was.

Kijk maar eens onder de grond in een rekencentrum. wedden dat er een serie koelwaterbuizen loopt!

En aangezien de vraag naar rekenkracht meegroeit met de wet van Moore zal ook de energie opname meegroeien.

Jammer maar het is nu een keer niet anders.

Auteur

Wouter Tinus @Verwijderd • 8 november 2004 22:19

Montecito gebruikt 100 Watt, dus een verlaging in plaats van een verhoging.

Verwijderd @Wouter Tinus • 9 november 2004 09:22

Het lijkt me niet echt waarschijnlijk dat een dual core cpu met 24MB cache zuiniger is dan een single core met 3MB...

edit: tenzij de clock wat verlaagd wordt net als bij de opteron.

Auteur

Wouter Tinus @Verwijderd • 9 november 2004 10:17

Tja, en toch is het zo. Samples van Montecito zijn al maanden beschikbaar, dus het is het niet zomaar een gokje van Intel dat hij 100 Watt gebruikt. 90nm-productie en zeer aggressieve stroombesparende technieken hebben hun werk goed gedaan (en nee, de klok is niet verlaagd, maar gaat minstens 500MHz omhoog).

Verwijderd @Verwijderd • 8 november 2004 21:37

Niet zo lang denk ik, er is al een itanium koeler gespot met twee peltier elementen, om meer dan 200W fatsoenlijk te kunnen koelen.

Concrete 8 november 2004 23:14

* 786562 Concrete

Verwijderd @Concrete • 9 november 2004 01:05

Zoals altijd zijn kosten relatief. Als je door de aanschaf van 10 van dit soort processoren een spaceshutle 2% goedkoper kan maken (ik noem maar iets) dan denk ik dat je maar snel die 10 processoren aan moet schaffen.

Op dit item kan niet meer gereageerd worden.

Lees meer

Reacties (21)

Sorteer op:

Weergave: