Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 21 reacties
Bron: Intel

Intel heeft vandaag zijn Itanium-assortiment ververst met de introductie van de Madison 9M-core. Ondanks het feit dat het inmiddels al ruim zestien maanden geleden is dat zijn voorganger Madison 6M werd ge´ntroduceerd, zijn er zoals de naamgeving al doet vermoeden weinig ingrijpende verbeteringen doorgevoerd aan de hardware. De kloksnelheid is iets hoger, maar omdat hij nog steeds op 0,13 micron gebakken wordt gaat het om een toename van slechts 100MHz. Eerder was de verwachting dat er nog wel 200MHz uit te persen viel, maar bij het uitstel van de chip bleek al dat dat niet haalbaar was. De 1,6GHz-versie met 9MB L3 verbruikt maximaal 122 Watt, een verhoging van 15 Watt ten opzichte van het vorige topmodel maar nog steeds minder dan het op 130 Watt vastgestelde TDP van de hele serie. Naast deze bescheiden toename in kloksnelheid is de L3-cache vergroot en is er een snellere FSB beschikbaar gemaakt voor de DP-versie.

TypePrijspuntOudNieuw
MP$42261,5GHz 6MB1,6GHz 9MB
MP$19801,4GHz 4MB1,6GHz 6MB
MP$9101,3GHz 3MB1,5GHz 4MB
DP$11721,6GHz 3MB (400MHz)1,6GHz 3MB (533MHz)
DP$8511,6GHz 3MB (400MHz)
LV$5301GHz 1,5MB1,3GHz 3MB

Intel Itanium 2 logo (klein)Samen met een nieuwe versie van Intels compilers en een 667MHz FSB in aantocht voor de eerste helft van volgend jaar moeten deze factoren Itanium concurrerend houden tot Montecito verschijnt in de tweede helft van 2005. De 90nm dual-core Itanium met 24MB L3-cache wordt op dit moment getest door de systeembouwers en zal volgens vroege benchmarks anderhalf tot twee keer zo snel zijn als de Madison 9M.

De vandaag aangekondigde chip levert echter ook betere prestaties dan gezien de schamele toename in kloksnelheid verwacht kon worden: de base-waarde in SPECfp is voor de Madison 9M bijvoorbeeld net iets hoger dan de peak-waarde van de IBM Power5. Opvallend genoeg stoomt zelfs de versie met 3MB cache het oude en voorheen bijna vier keer zo dure topmodel voorbij. Ook in verschillende andere benchmarks waar de 6M tekortschoot weet de 9M aardig terug te krabbelen of zelfs op winst te komen, daarbij uiteraard geholpen door extra cache, compilertweaks en de snellere FSB. Uiteraard mogen de door Intel uitgekozen tests met een korrel zout genomen worden, maar het lijkt er in ieder geval op dat de missie van Madison 9M om het gat tot Montecito te overbruggen kans van slagen heeft.

SPECfp2000
Itanium 2 1,6GHz 9MBBase 2712
Power5 1,9GHzPeak 2702
Power5 1,9GHzBase 2576
Itanium 2 1,6GHz 3MBBase 2553
Itanium 2 1,5GHz 6MBBase 2119

Inmiddels zijn er volgens Intel overigens al meer dan 2100 applicaties beschikbaar voor het Itanium-platform - volgens een recente uitspraak van HP zelfs meer dan 2700 - terwijl er aan het begin van het jaar nog slechts duizend waren.

Moderatie-faq Wijzig weergave

Reacties (21)

Zeer interessant hoe de performantie van de Itanium zo sterk afhangt van de cachegrootte. Dit komt doordat ze de instructies in programmavolgorde uitvoeren (in-order). Als data niet in de cache gevonden wordt moet er gewacht worden tot die uit de RAM is opgehaald, en dit kan bijzonder veel klockcycli duren. Al die tijd doet de processor niets. Een Pentium zou verdere instructies die niet afhangen van de geheugenoperatie uitvoeren.

Toch denk ik dat deze in-order architecturen een grote toekomst hebben. Ze zijn structureel eenvoudiger dus kunnen ze, alvast in theorie, hoger geklokt worden en tegelijkertijd meer uitvoeringseenheden hebben.

De oplossing voor het wachten op geheugen ligt volgens mij bij Hyper-Threading. Terwijl de ene thread blijft wachten kan een andere zonder problemen, en ook in-order, z'n instructies uitvoeren in de vrijgekomen uitvoeringseenheden. Zo zie ik geen enkel probleem om een 'onbeperkt' aantal threads te laten lopen op dezelfde core. Het enige wat bijgehouden moet worden per thread is de programmateller. Bij een out-of-order architectuur is het veel ingewikkelder maar zelfs daar bedroeg voor de Pentium 4 de uiteindelijke hardwarekost slechts 5% in de core.

Multi-core is natuurlijk ook zeer effectief, maar elk afzonderlijk worden de cores dan niet efficienter gebruikt...
Zeer interessant hoe de performantie van de Itanium zo sterk afhangt van de cachegrootte
Als je naar de prestaties van de 1.6Ghz 3MB kijkt, zou je eerder zeggen dat de prestatieboost vooral door de hogere FSB komt...
Dit komt doordat ze de instructies in programmavolgorde uitvoeren (in-order). Als data niet in de cache gevonden wordt moet er gewacht worden tot die uit de RAM is opgehaald, en dit kan bijzonder veel klockcycli duren. Al die tijd doet de processor niets. Een Pentium zou verdere instructies die niet afhangen van de geheugenoperatie uitvoeren.
Dat In-order geldt toch alleen binnen een thread? Daarnaast zorgt de compiler er voor dat het zelfden een punt is...
Toch denk ik dat deze in-order architecturen een grote toekomst hebben. Ze zijn structureel eenvoudiger dus kunnen ze, alvast in theorie, hoger geklokt worden en tegelijkertijd meer uitvoeringseenheden hebben.
Doordat ze eenvoudiger zijn, zijn er vooral kortere pipelines mogelijk. Hierdoor kan je erg veel instructies per kloktik uitvoeren, en dus een goede prestatie neerzetten.
Hierdoor wordt de winst van Multithreading echer ook veel kleiner worden. Natuurlijk blijft het wel interessant.
Als je de prestatiewinst van deze architectuur in zijn geheel bekijkt, dan lijkt het er idd op dat x86 het binnenkort niet meer bij kan houden, en is er zeker toekomst voor IA-64.
De oplossing voor het wachten op geheugen ligt volgens mij bij Hyper-Threading. Terwijl de ene thread blijft wachten kan een andere zonder problemen, en ook in-order, z'n instructies uitvoeren in de vrijgekomen uitvoeringseenheden. Zo zie ik geen enkel probleem om een 'onbeperkt' aantal threads te laten lopen op dezelfde core.
Door het gebruik van Hyperthtreading deel je wel de Cache per thread. Dit zou volgens jouw eerdere redenatie een ramp zijn voor de prestatie. Het wissellen van thread zodra er een thread "vast loopt" is echter wel effectief, van daar dat Intel een variant op Hyperthreading, Coarse-grained MultiThreading (CMT), ontwikkelt, dit voert dus meerdere threads na elkaar uit. Als een thread op data staat te wachten, wordt er tijdelijk gewisseld. Het wissellen gebeurd echter in de processor zelf, waardoor dit toch een flinke snelhieds winst opleverd tov wachten.
Multi-core is natuurlijk ook zeer effectief, maar elk afzonderlijk worden de cores dan niet efficienter gebruikt...
Klopt, maar het is natuurlijk zodat het een het ander niet onmogelijk maakt. De Montecito wordt een multicore CMT processor.
Dit komt doordat ze de instructies in programmavolgorde uitvoeren (in-order).
Elke moderne CPU is sterk afhankelijk van cache. Die cache zit er natuurlijk niet voor niks op.
En aan load delays hebben ze bij het ontwerp van de Itanium vast wel gedacht.
Het enige wat bijgehouden moet worden per thread is de programmateller.
Pff. Het is veel complexer dan dat. Alle per-thread state moet gedupliceerd worden. Dus ook registers.
Out-of-order architecturen zijn wat minder gevoelig voor de cachegrootte. Dit is omdat wanneer data niet meteen in de cache gevonden wordt, er nog tientallen andere instructies uitgevoerd kunnen worden voor de processor helemaal lam ligt. De Itanium kan dit niet dus is het van het allergrootste belang dat bijna alle data in de cache zit.

Inderdaad moeten ook de registers bijgehouden worden, maar niet in de de core. Wat ik bedoel is dat bij een out-of-order architectuur Hyper-Threading complexer is omdat voor elke thread zeer nauwkeurig moet bijgehouden worden wat de toestand is en waar de instructies in uitvoering zich bevinden. Bij in-order architectuur is de programmateller voldoende om te weten hoe ver we zitten met het uitvoeren van de code, en is het bijgevolg veel eenvoudiger Hyper-Threading met vele threads te implementeren. Registers dupliceren is helemaal zo complex niet, omdat ze gewoon naar geheugen worden geschreven.
ben erg benieuwd wat die nieuwe dualcore itaniums aan power gaan vragen. Hoelang zal het duren voor de 200watt barriere beslecht wordt ?
er word zelfs ook al Waterkoeling gebruikt in de SGI machine die bij NASA staat.

vind alleen vreemd dat er nu dannog een nieuwe Itanium uitkomt. Ik denk zelf dat deze niet veel verkocht zullen gaan worden omdat over ong 8maand de montecito gepresenteerd word. Daar wachten bedrijven denk ik meer op. specs zijn ook beter? 90nm ipv 130nm, 24MB ipv 9MB L3cache?
er word zelfs ook al Waterkoeling gebruikt in de SGI machine die bij NASA staat.
Als men het over meer dan 200watt gaat hebben moet je toch een serieuze waterkoeling hebben wil je dat zelfs met waterkoeling kunnen afvoeren. Ik denk dat een peltier (+waterkoeling) dan idd geen overbodige luxe is, zeker niet voor een server die je toch al graag extra koel houdt vanwege de lange uptime's.

Overigens is het natuurlijk wel logisch dat ze deze chip uitbrengen. Het toevoegen van extra cache is niet zo'n heel groot obstakel en het verhogen van kloksnelheid en FSB heeft ze de afgelopen tijd bezig gehouden. Bedenk wel dat het al 16 maanden (meer dan een jaar!) geleden is dat de vorige Itanium uitkwam. Als men deze dus niet had uitgebracht was dit gestegen naar 24 maanden wat dus 2 jaar is, dat kan Intel ook niet maken, daarbij dichten zo voorlopig hiermee het gat of maken het groter.
En dan wordt het langzaamaan wel steeds relevanter de energierekening te gaan betrekken in de prijs/snelheid verhouding.
Juist op zulke dure servers ($4226 alleen al voor 1 processor, en dan heb ik het nog niet eens over de software die erop draait en de beheerskosten) maken die 200 Watt juist vrijwel niets meer uit.
Watercooling voor (semi) supercomputers is niets nieuws dat werd al bij de eerste supercomputers gedaan, alleen men is daarmee gestopt omdat het erg duur en onpractisch was.

En als je een peltier bij die setup gaat doen dan wordt de totale warmte nog veel hoger, dus ik zie dat niet zosnel gebreuren, want je krijgt zo de _dubbele_ hoeveelheid warmte.

edit:
@ dreamvoid
200 t.o.v. 100 ("gewone" cpu) is 100 watt extra wat dus het kost je bijna (andere onderdelen hebben ook stroom nodig) het dubbele van wat je anders zou gebruiken
Als je er 21 in een rack hebt, is 100 W extra toch al weer 2 kW. Dus ook de airco moet 2 kW extra vermogen hebben.
Het gaat niet om de rekening, maar om de mogelijkheden om het te koelen, dit wordt steeds lastiger.

Bovendien vraag ik me af of 4 opterons niet sneller is dan 1 Itanium...

edit: vraag het me eigenlijk niet af, maar vraag me wel af hoeveel mensen/bedrijven er bereid zijn om een paar keer >Ą4000 te betalen + een reteduur mobo.

Voor veel minder geld heb je een denk ik wel een gelijk presterend opteron of xeon systeem.
En als je een peltier bij die setup gaat doen dan wordt de totale warmte nog veel hoger, dus ik zie dat niet zosnel gebreuren, want je krijgt zo de _dubbele_ hoeveelheid warmte.
Hij heeft hier toch echt gestaan op t.net,

De totale warmte is ook niet zo'n heel groot probleem, met flinke airco's hou je de ruimte toch wel "koel", het gaat er juist om dat je al het vermogen van zo'n klein oppervlak moet trekken.
Daar wachten bedrijven denk ik meer op. specs zijn ook beter?
Als een bedrijf nu een nieuw systeem nodig heeft, gaan ze echt geen acht maanden wachten.
daar is toch niks vreemds aan? Niet zo heel erg lang geleden draaiden alle grote mini computers en mainframes met waterkoeling. Er was zelfs een grapje dat het enige compatibele tussen DEC en IBM de aansluiting van de koelwaterslang was.

Kijk maar eens onder de grond in een rekencentrum. wedden dat er een serie koelwaterbuizen loopt!

En aangezien de vraag naar rekenkracht meegroeit met de wet van Moore zal ook de energie opname meegroeien.

Jammer maar het is nu een keer niet anders.
Montecito gebruikt 100 Watt, dus een verlaging in plaats van een verhoging.
Het lijkt me niet echt waarschijnlijk dat een dual core cpu met 24MB cache zuiniger is dan een single core met 3MB...

edit: tenzij de clock wat verlaagd wordt net als bij de opteron.
Tja, en toch is het zo. Samples van Montecito zijn al maanden beschikbaar, dus het is het niet zomaar een gokje van Intel dat hij 100 Watt gebruikt. 90nm-productie en zeer aggressieve stroombesparende technieken hebben hun werk goed gedaan (en nee, de klok is niet verlaagd, maar gaat minstens 500MHz omhoog).
Niet zo lang denk ik, er is al een itanium koeler gespot met twee peltier elementen, om meer dan 200W fatsoenlijk te kunnen koelen.
* 786562 Concrete
Zoals altijd zijn kosten relatief. Als je door de aanschaf van 10 van dit soort processoren een spaceshutle 2% goedkoper kan maken (ik noem maar iets) dan denk ik dat je maar snel die 10 processoren aan moet schaffen.

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True