Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 27 reacties
Bron: Real World Technologies

Naar aanleiding van de nieuwe informatie die op het ISSCC 2002 is vrijgegeven heeft processor-guru Paul DeMone een artikel gepubliceerd op Real World Technologies over de Intel McKinley en Alpha EV8. Laatstgenoemde zal helaas nooit op de markt komen, het project is meteen na het overnemen van de Alpha technologie door Intel stopgezet. Toch is het interessant om EV8 wat nader te bestuderen; een deel van de technologie zal namelijk gebruikt worden voor volgende generatie IA-64 processors.

* Alpha EV8

Het Arana project (Spaans voor spin) was erg prestigieus. De EV8 core kan acht instructies per klokcycle verwerken, verdeeld over vier verschillende threads. Iedere thread heeft 64 registers tot zijn beschikking, en deze zijn - net als de 256 renaming registers - dubbel aanwezig, voor een totaal van maar liefst 1024 64 bit registers. Dit soort brute voorzieningen hebben echter ook nadelen, zo kost het drie cycles alleen maar om een waarde uit een register op te zoeken en is penalty voor een misgok 17 klokcycles. Dat wordt echter keurig opgevangen door de SMT technologie, die één, twee of zelfs drie andere threads tegelijk kan draaien terwijl de op de achtergrond gewacht wordt op invoer. EV8 zou 250 miljoen transistors in beslag nemen, op 0,07µ worden gebakken en draaien op 1,8GHz. Het stroomverbruik zou 150 Watt worden op 1,1 Volt.

Alpha EV8 schema

* Intel McKinley

McKinley kan net als Itanium twee IA-64 instructiebundels tegelijk verwerken, maar dat is volgens DeMone ook zo'n beetje de enige overeenkomst. De tweede generatie Itanium steekt intern veel slimmer in elkaar en kent talloze verbeteringen. Zo is de pipeline twee stappen korter en kunnen twee extra operaties per kloktik worden gedaan. Belangrijker is echter de latency, over beter gezegd het gebrek daaraan. Het L1 cache is namelijk zonder enige latency te lezen, en het L2 en L3 cache kunnen in respectievelijk vijf en twaalf stappen bereikt worden, twee keer zo snel als Itanium. Verder is de branch prediction zwaar verbeterd sinds de eerste iteratie van Itanium.

Het onboard L3 cache is ook een primeur. Nog nooit heeft een processors drie niveau's aan cache on-die gehad, laat staan drie volle megabytes. In totaal neemt het L3 cache 42% van de chip in beslag. Om dit de yields niet te laten verpesten is het waarschijnlijk dat ook versies met 1,5MB verkocht zullen worden. Verder zou de x86 performance een heel stuk verbeterd zijn en kent de processor een thermal throttle mode, waarin 40% minder stroom wordt verbruikt door slechts één bundel instructies tegelijk te verwerken.

Over de perfomance van het 130 Watt etende stuk zand is nog niet veel concreets te zeggen. Men spreekt over 1,5 keer de performance van de huidige Itanium als beide chips op dezelfde kloksnelheid draaien, en 1,7 keer de performance met software die is geoptimaliseerd. Houden we er rekening mee dat de 1GHz McKinley 200MHz hoger geklokt is dan Itanium kunnen we 1,9 tot 2,1 keer zo veel snelheid verwachten, en tot 2,6 keer van een 1,2GHz versie. Een knappe prestatie van de Intel ontwerpers, die dit alles hebben bereikt zonder over te stappen naar het 0,13 micron procédé. Als in 2003 deze stap gemaakt wordt zien we een 1,8GHz Madison met 6MB L3 cache die meer dan 55% sneller is dan McKinley. Paul DeMone concludeert dat Intel met McKinley kan beginnen met het terugverdienen van het geld dat de afgelopen acht jaar in IA-64 is gestoken:

In contrast to the EV8's cold grave, the McKinley seems to have a bright future ahead of it. Unlike the execrable Merced, the second generation IA64 processor is a well designed chip with an incredibly capable on-chip cache hierarchy. That cache hierarchy, combined with many other measures to minimize instruction execution latency as well as increase the clock rate, should help McKinley overcome the burden of an ill-conceived and misguided instruction set architecture to yield respectable integer and floating point performance levels. By offering decent high end performance at relatively low costs (from its chip merchant business model and potential economies of scale), Intel and its business partners will likely see strong customer acceptance when it officially releases McKinley later this year. Perhaps enough to turn the corner and start paying a return on the billions invested in IA64 over the past eight years.

Intel McKinley

Lees meer over

Gerelateerde content

Alle gerelateerde content (26)
Moderatie-faq Wijzig weergave

Reacties (27)

150 watt op 1,1 volt?! dat betekend dat er 136 ampere door het beestje heen gejaagd word.
Ja, verbazingwekkend.
Waarom kiest men niet voor een hoger voltage, om zo de Amperes te beperken, en daarmee de warmte-ontwikkeling (warmte=stroomsterkte^2 * weerstand * tijd) ?
En ten tweede: Een processor produceert geen "arbeid", het is feitelijk een complexe schakelaar, die stroom omzet in warmte.
Waarom heeft een processor zoveel vermogen nodig?
Sorry maar dit is echt onzin. In principe blijft de weerstand hetzelfde bij een hogere spanning dus: P=U^2 / R (of P=I^2 * R) zegt R=constant, dus hoe dan ook zal P en dus de ontwikkelde warmte omhoog gaan. Bovendien wordt CMOS trager naarmate de spanning omhoog gaat omdat de schakelaartjes (FET's) in de chip een langer tijd nog hebben om van een 0 naar een 1 en omgekeerd te schakelen. 0 is namelijk 0V maar 1 is de voedingspanning van je CPU en dus is bij 5V die tijd MINSTENS 5x zolang (kan ik wel uitleggen maar dat wordt technisch. Snappie 8-)
(of P=I^2 * R) zegt R=constant

Masterartech, je zegt het zelf volgens mij. Als P=I^2 * R en R=constant. Dan gaat P=Power toch vlink omlaag als je de stroom=I verlaagt.

Bovendien wordt CMOS trager naarmate de spanning omhoog gaat

Dit zal wel de reden zijn dat ze de voltage laag houden, maar het gaat wel ten koste van de warmteontwikkeling.

Een processor produceert geen "arbeid"

Robbb, jij bekijkt het wel erg mechanistisch. :) Natuurlijk produceert een CPU geen *fysieke* arbeid - alhoewel stroom ook alleen maar bewegende elektronen zijn - maar het 'produceert' wel informatie. Omdat dit entropie verhogend is wordt er ook warmte geproduceerd (energie met de laagste informatie gehalte) om dit te compenseren, zodat de netto entropie omlaag gaat (tweede wet van de thermodynamica).
Omdat dit entropie verhogend is wordt er ook warmte geproduceerd (energie met de laagste informatie gehalte) om dit te compenseren, zodat de netto entropie omlaag gaat (tweede wet van de thermodynamica).
Ik denk dat je in de war bent: Entropie (= mate van ordelijkheid) kan nooit minder worden! De tweede wet van de thermodynamica zegt dat entropie juist altijd zal toenemen. Daarom moet je dus jouw redenering omdraaien: De geproduceerde informatiestroom bevat meer 'orde' (dus entropie is lager). Om toch te zorgen dat de entropie van het systeem hoger zal zijn dan dat het was komt er warmte vrij (zodat je netto een hogere entropie hebt)

<Off-topic>
Dankzij dit fenomeen heeft men ook kunnen bewijzen dat een zwart gat niet alleen maar alles opslokt. Hij moet iets uitzenden op het moment dat er iets in het zwarte gat 'valt'. Metingen hebben aangetoond dat een zwart gat inderdaad straling uitzend, en daarmee bewezen dat het mechanisme van entropie zelfs dan nog werkt!
</Off-topic>
ehm .. ze ondertitelen tweakers niet hoor :+
Dat is inderdaad een erg hoog stroomverbruik, ik vraag me af hoe dat gekoeld moet worden. De koeler die erop ziet moet dus wel 150 watt aan warmte afvoeren. Wat verbruikte een athlon ook alweer, 70 watt ofzo? Ik denk dat er phase change koeling aan te pas moet komen.
Gelukkig heeft hij zo te zien gelukkig wel een groot oppervlak (zal ook wel met zoveel cache, ookal is het op 0,07µ gemaakt). Door dat grote oppervlak zal het aantal watt per vierkante cm nog best wel mee kunnen vallen. Niettemin is het niet leuk om een 150watt kacheltje in je kast te hebben... en er zal dus ook wel wat verbeterd moeten worden aan kastkoeling als je deze op full speed wilt laten draaien. Maar ik denk wel dat het nog te doen is met luchtkoeling door dat grote contactoppervlak.
Lezen!: De Alpha zou op 0,07µ worden gebakken, deze zit nog op 0,18µ
"Houden we er rekening mee dat de 1GHz McKinley 200MHz hoger geklokt is dan Itanium kunnen we 1,9 tot 2,1 keer zo veel snelheid verwachten, en tot 2,6 keer van een 1,2GHz versie."

Ik dacht dat die Itanium niet zo geweldig snel was:
http://www.tweakers.net/reviews/191/8

Dus wat ik nouw van de McKinley moet verwachten. Twee keer niks is nog steeds vrij weinig. Of heb ik weer wat ontwikkelingen gemist :P.
Die benchmarks zijn x86 software op een IA-64 processor, daar moet je geen conclusies uit trekken, want het gaat natuurlijk om de prestaties van IA-64 software op IA-64 hardware :).
Quote: Het onboard L3 cache is ook een primeur. Nog nooit heeft een processors drie niveau's aan cache on-die gehad.

Nu kan ik fout zitten hoor.. Maar er zijn toch al lang cpu's met l1, l2 en l3 cache :?

De k6-3 heeft toch ook L3 cache ? Tis dan wel nie zo veel, maar toch....
Da's niet on-die (niet in de cpu zelf dus) maar extern (op b.v. het moederbord)
Verder is de branch prediction zwaar verbeterd sinds de eerste iteratie van Itanium.
Erm... kan aan mij liggen hoor, maar was het niet zo dat de itanium GEEN brancheprediction had, omdat de ECMA instructieset dat oploste? En ook geen pipeline, omdat VLIW instructies meteen uitvoerbaar zijn?
Nee, beide niet.

Itanium heeft geen OOO (out of order) instrucion execution meer, wat normaal een hoop hardware kost, omdat de compiler de instructies al herordend om zoveel mogelijk parallellisme uit de code te halen. De EPIC architectuur maakt het mogelijk om in bepaalde gevallen beide targets van een branch parallel te gaan evalueren en zodra de branch conditie bekend is een van beide resultaten te negeren, maar dat geldt lang niet voor alle branches en dan heb je die prediction hard nodig om niet teveel te moeten stallen. Een pipeline staat al helemaal los van EPIC, die dient er gewoon voor om instruction throughput te verhogen.
Met de komst van steeds meer multimedia on demand diensten en de komst van multimedia databases in de kleine toekomst (databases waarin op videobeelden/images/patronen/geluiden gezocht kan worden) zullen de snelle processoren hard nodig zijn om deze stroom te verwerken. Aangezien het zoeken van patronen en beelden zeer intensief is. (ik heb het niet over het zoeken in de eventueel bijgevoegde metadata).
Tevens zal de verschuiving van 32 bit naar 64 bit een feit zijn en zal intel een goede concurrent nodig hebben voor de producten van andere bedrijven.
Wauw.. Zo op het eerste gezicht wel spectaculair, alleen vraag ik me af wat zoiets zal gaan kosten }>
Jammer alleen dat de ontwikkeling van de Alpha EV8 is stopgezet!
wat het gaat kosten... tsja eerst duizenden guldens (alleen de CPU, dan moet je nog een bordje etc.) en over X jaar is het goedkoop genoeg voor thuisgebruik :)
Tja, alleen heeft de thuisgebruiker er weinig aan, aangezien deze voor totaal andere instructies is geoptimaliseerd!
Maar het zal zonder minder een indirecte invloed hebben op de ontwinkeling van de thuis-CPU's, want denk dat ze een aantal technieken wel zullen verwerken in het ontwerp van de Pentium 6 of 7 (of hoe creatief Intel dit keer weer is ;)
Het is erg onwaarschijnlijk dat Intel nog een nieuwe x86 core ontwerpt. De Pentium 4 kan mee tot zo'n 10GHz en tegen die tijd dat dat is bereikt zal de prijs van IA-64 al zodanig gezakt zijn dat wij thuisgebruikers er ook naar kunnen overstappen. Of ze de desktopversies van Itanium ook Pentium gaan noemen weet ik nog zo net niet...
Laten we hopen dat tegen die tijd meneer Gates ook zo vriendelijk is geweest om zijn programma's 64-bit's te maken..
Ik vrees namelijk dat Intel moeilijk 64-bit processoren kan gaan produceren als er geen software voor beschikbaar is die dit ondersteund!
Een 1GHz McKinley met 3MB L3 cache kost 4220 dollar voor groothandels :). Voor een versie met de helft van het cache betaal je 2000 dollar minder.
klinkt wel leuk als je het doortrekt. 1 GHZ McKinley met 0MB L3 cache =200 dollar
"...should help McKinley overcome the burden of an ill-conceived and misguided instruction set architecture "

Altijd lekker nog ff natrappen :Y)

Troll??? Triest zeg. Ben ik dan de enige die dat zinnetje gezien heeft ofzo? Of misschien de enige die het heeft begrepen?

Die zin liet niets aan duidelijkheid omtrend zijn mening over EPIC te wensen over hoor, ik heb dat niet zelf verzonnen.
Xalista, je hebt groot gelijk. Paul de Mone is een groot fan van de Alpha architechtuur en rekent het gros van de oorspronkelijke engineers tot zijn nauwe vrienden. Het is dus groots dat hij uberhaupt een lofzang op McKinley afsteekt, maar hij kan het inderdaad niet laten om nog wat na te trappen. Zijn Intel haat is groot en zijn liefde voor McKinley kan hij zelf alleen maar rechtvaardigen door a) keer op keer het oorspronkelijke EPIC concept te kritiseren en b) te benadrukken dat McKinley vooral dankzij HP engineers al met al toch wel een slimme processor geworden is.
Jij kent de man persoonlijk? Over Willamette was hij destijds ook erg positief, zelfs nadat was gebleken dat de prestaties van de eerste P4's niet geweldig waren.
jammer dat ik me daar nogsteeds niet in heb verdiept...
anders zou ik vast zeggen dat het een mooi dingetje was :P

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True