Warmteproblemen van Intel Prescott-core verklaard

Paul DeMone van Real World Techologies heeft een verklaring gevonden voor het feit dat de Prescott-core een relatief heetgebakerde chip is die moeite heeft met opschalen. Hoewel in eerste instantie vooral het procédé en de 31 stappen tellende pipeline de schuld kregen van reviewers, bleek de 90nm-technologie voor andere producten wél goed te werken, en is nooit echt duidelijk geworden wat de achterliggende gedachte van de 50% langere pipeline was. De verklaring die DeMone nu heeft opgegraven in technische publicaties over de chip is dat Prescott een zwaar uitgebreide versie van de zogenaamde "Rapid Execution Engine" aan boord heeft. Toen Intel voor het eerst over de Pentium 4-architectuur sprak werd al verteld dat een deel van de chip op dubbele kloksnelheid zou gaan draaien. Het ging in Willamette en Northwood echter om nog geen miljoen transistors: alleen twee beperkte ALU's en de load AGU werkten met deze turbostand.

Voor de derde iteratie van de Netburst-architectuur is het werkgebied van de Rapid Execution Engine echter flink uitgebreid. Onder andere alle ALU's, alle AGU's, het L1 datacache en de registerbanken draaien tegenwoordig op dubbele snelheid. In totaal zijn er nu maar liefst 6,8 miljoen transistors die binnen een 3,8GHz-chip hun werk op 7,6GHz moeten doen - en bij een overklok als deze dus al dik boven de 12GHz zitten. Om dit voor elkaar te krijgen wordt gebruikgemaakt van "low voltage swing", oftwel een kleiner dan normaal spanningsverschil tussen de aan- en uitstand van de schakelaars. Het kleine verschil tussen aan en uit betekent dat er snel geschakeld kan worden, maar niet dat de basisspanning niet hoog hoeft te zijn, integendeel zelfs. Om de Rapid Execution Engine van voldoende spanning te voorzien krijgen ook de andere 120 miljoen transistors het zwaarder te verduren, waardoor de chip zijn welbekende hoge stroomverbruik krijgt. Ironisch genoeg behoort de Rapid Execution Engine zelf juist niet tot de heetste delen van de chip.

Reacties (48)

Niles 10 december 2004 17:16

Conclusie die ik dus kan trekken is dat 90nm voorlopig geen enkel probleem is, voor geen elke fabrikant. Want ook bij Prescott lijkt het niet aan 90nm te liggen (overigens vraag ik me dan af wat IBM weer voor problemen heeft met 90nm, dat was laatst ook op tweakers, hebben hun ook een REE?)

Wat ik dus ook begrijp, is dat door die paar miljoen transistors de gehele core (120 miljoen transistors!) het zwaar te verduren krijgt, gooi er dan die REE uit, dan was Prescott waarschijnlijk een lekker koele chip geweest (vanwege 90nm).

Wat ik niet begrijp is waarom een klein verschil in schakelspanning betekend dat de basisspanning groot moet zijn. Stel je hebt bv een spanning van 1V, en de transistor is niet geschakeld, doordat het spanningsverschil van het schakelen kleiner is geworden, hoeft de spanning dus minder te stijgen dan normaal gesproken (vanwege het kleiner schakel-spannings 'interval') om de transistor wél te laten schakelen. Toch blijkt dit niet het geval?

Ook blijkt hiermee de hele mythe "megaherz mythe" van de baan, want als intel dit probleem niet had, hadden ze gewoon door kunnen stampen naar 4ghz en verder. Alle ideen over een Pentium-M gebaseerde chip zouden hiermee ook verworpen kunnen zijn, simpel omdat toekomstige core's géén REE hebben en dus wél weer goed opschalen. Het cancelen van Tejas valt wel in dat straatje, aangezien die waarschijnlijk al te ver ontwikkeld was om die REE eruit te gooien, en alles aan te passen. Maar misschien viel het bij de opvolger (? Smithfield (dual-core?)) wel te doen, en dat ze dus gewoon door gaan met Netburst. Dat zou dan ook de reden zijn waarom er nog geen enkel nieuws is over toekomstige pentium-M gebaseerde chips, de geruchten zijn er wel, maar niets of niemand heeft bij Intel iets bevestigd. Ze hebben wel laten weten dat men gaat beginnen aan zuinigere en koelere chips, maar als hun denken dat ook met Netburst te kunnen doen (zonder de REE) dan is er voor hun (behalve nu met prescott) dus niets aan de hand.

Verwijderd @Niles • 10 december 2004 17:28

Ze zullen echt wel die dubbele kloksnelheid moeten gebruiken om de AMD64 met het huidige design te verslaan.

Dit verklaart voor mij ook meteen het raadsel waarom DivX encodering nog steeds beter gaat op een Intel CPU dan op een AMD. Dit is namelijk veel rekenwerk, wat voornamelijk door de dubbel geklokte ALU's gedaan wordt.

Maar misschien viel het bij de opvolger (? Smithfield (dual-core?)) wel te doen

De Smithfield zal voor het meerendeel op de Jonah (Pentium-M) core gebaseerd zijn, en dus inderdaad niet dit probleem hebben.

Intel zal wel druk bezig zijn met de ontwikkeling hiervan (ze hebben de 4Ghz netburst ontwikkeling namelijk stopgezet) en er hopelijk ook veel eerder mee op de markt kunnen komen dat de nu geplande 2006.

Niles @Verwijderd • 10 december 2004 17:35

Ze zullen echt wel die dubbele kloksnelheid moeten gebruiken om de AMD64 met het huidige design te verslaan.

Optimaliseren bestaat ook nog, ze zouden mss net zo kunnen optimaliseren (en dus een deel van hun architectuur overhoop gooien) zodat deze ook op lagere kloksnelheid resultaten geeft.

De Smithfield zal voor het meerendeel op de Jonah (Pentium-M) core gebaseerd zijn, en dus inderdaad niet dit probleem hebben.

Zoals ik al zei, zijn dit soort dingen allemaal aannemelijke geruchte, maar nooit bevestigd door Intel. Daarbij is Smithfield geloof ik een dual-core met 2 laag geklokte prescott core's.

Intel zal wel druk bezig zijn met de ontwikkeling hiervan (ze hebben de 4Ghz netburst ontwikkeling namelijk stopgezet)

Nee, ze hebben de 4ghz Prescott stopgezet, Netburst hebben ze nog steeds niet opgegeven, en wellicht plant Intel gewoon een 4Ghz opvolger die dat wél aankan.

Se7enth_son @Niles • 10 december 2004 23:14

Wat ik niet begrijp is waarom een klein verschil in schakelspanning betekend dat de basisspanning groot moet zijn. Stel je hebt bv een spanning van 1V, en de transistor is niet geschakeld, doordat het spanningsverschil van het schakelen kleiner is geworden, hoeft de spanning dus minder te stijgen dan normaal gesproken (vanwege het kleiner schakel-spannings 'interval') om de transistor wél te laten schakelen. Toch blijkt dit niet het geval?

Dit is heel simpel te verklaren:
Een transistor heeft altijd een drempelspanning: de spanning die minimaal nodig is om hem te laten schakelen. Dit ligt bij silicium rond de 0.6V. Pas boven deze spanning begint de transistor echt te geleiden. Even boven de 1V wordt meestal gezien als 'volledig' open (afhankelijk van procede en doeleinde). De swing die de transistorspanning nu maakt (van 0 naar 1V) kost een bepaalde tijd. Door de 'rustspanning' niet op 0V te zetten maar iets hoger, is de swing korter en dus de benodigde tijd ook! Hierdoor is een transistor dus eerder geschakeld... Echter heeft het verhogen van de rustspanning een zéér groot nadeel: de lekstromen nemen toe (er staat tenslotte al een kleine spanning over de transistor). DIT is de reden waarom de REE de rest van de processor zo erg kan verwarmen: elke transistor lekt nu dus een beetje meer stroom, terwijl slechts 6,8 miljoen transistoren baat hebben bij de verkorting van de 'swing'.

TheekAzzaBreek @Se7enth_son • 10 december 2004 23:55

Zo begrijp ik het toch niet uit het artikel. De lekstromen van de REE zelf zijn niet het probleem, het ding blijft tenslotte koel. Maar om de truuk te laten werken moet de voedingsspanning worden verhoogd, en daarom krijgt de rest het voor z'n kiezen. Werk dan met twee voedingsspanningen, zeg ik dan met m'n boerenverstand.

Verwijderd @Niles • 13 december 2004 23:04

(overigens vraag ik me dan af wat IBM weer voor problemen heeft met 90nm, dat was laatst ook op tweakers, hebben hun ook een REE?)

Wat het probleem *precies* is weet ik ook niet, maar een 25% clock increase (2 > 2,5Ghz volgens mij) leverde 150% hoger vermogen op.

En het ding wil dus niet harder dan 2,5 terwijl IBM 3ghz had 'beloofd'.

Dus dat is het probleem.

ytsmabeer 10 december 2004 17:22

ik kan mij herinneren dat er toen ook werd gesproken dat als 64 bit aangezet werd de REE dan terugschakeld naar een lager nivo en door de 64 bit toch evenveel werk kon verzetten

Ralph Smeets 10 december 2004 18:56

Uit de reacties blijkt dat er een aantal mensen zich afvragen waarom een gedeelte van de Prescott op dubbele snelheid loopt. De reden hiervoor is simpel: de diepe pipeline.

De Prescot heeft voor elke bewerking maar liefst 31 stappen nodig. Het voordeel hiervan is dat er minder werk verricht wordt in elke stap, waardoor de klok omhoog kan. Het nadeel is echter dat bij een sprong-instructie of een andere instructie die een pipeline-flush als gevolg heeft, alles wat er op dat moment de pipeline in is gegaan verloren is. Instructies die echter voor de sprong- of controlle-instructie de pipeline zijn ingegaan, moeten echter eerst worden afgewerkt. Hier zal dus op moeten worden gewacht en dat kost 31 kloktikken. Door de instructies die veel gebruikt worden, op dubbele snelheid te laten lopen kan dit in het gunstigste geval worden teruggebracht naar 16 kloktikken. Dit was dus de reden voor Intel om de Rapid Execution Engine te introduceren en zelfs uit te breiden met andere instructies die veel gebruikt worden.

Het nadeel is dus dat de rest van de core hier onder lijdt, vanwege de randeffecten die Paul DeMone beschrijft. AMD heeft deze problemen dus niet, omdat ze een kortere pipeline gebruiken. Hetzelfde geld voor de Pentium M.

Xiander @Ralph Smeets • 10 december 2004 20:37

Er moeten geen 31 klokcycli gewacht worden.
Stel dat er een sprong is en de vijf volgende instructies zijn al ingelezen, dan moeten die natuurlijk geflusht worden, want anders krijg je fouten in het programma. Maar er kunnen wel meteen nieuwe instructies ingelezen worden van de positie die de sprong aangeeft, behalve als er nog een resultaat nodig is dat nog niet is berekend.
Er zijn trouwens predictors om te voorspellen of een sprong al dan niet wordt genomen, waardoor de kans op een flush verkleind.

Ralph Smeets @Xiander • 10 december 2004 21:23

Okay, het kost maximaal 31 kloktikken.

Verwijderd 10 december 2004 17:12

Ironically raising Vdd to make the LVS logic run faster
leaves it running cool at 7+ GHz but makes everything
else in Prescott run quadratically hotter.

Dit is wel erg veel!
Met de vorige sets had Intel een goed punt, ze produceerden weinig warmte en hadden dan ook weinig koeling nodig. Heel handig op kantoren waar het met AMD's anders de pan uit swingt met de boxed coolers.

Maar de prescott core is echter niet alles op dit vlak. En de boxed cooler laat een beetje tegenvallen.

TheekAzzaBreek @Verwijderd • 10 december 2004 23:31

Ik snap die quote dus niet. Waarom kan je niet alleen die Rapid Execution Engine op een wat hoger voltage laten draaien en de rest laten waar het was? Kan iemand me dat uitleggen?

Auteur

Wouter Tinus @TheekAzzaBreek • 11 december 2004 00:02

Er zijn wel manieren te bedenken om het voltage plaatselijk te verlagen. Zo'n gebied moet dan echter wel geisoleerd kunnen worden van de rest, en dat is het probleem van iets als een REE. Het is heel moeilijk om het hart van de processor, met misschien wel duizenden invoer- en uitvoersignalen, als een apart eilandje te behandelen. Natuurlijk moeten Intels technici niet onderschat worden (wie weet of ze het met de 65nm-versies van Prescott toch lukt), maar voor het origineel was gewoon niet voorzien dat het zo hard nodig zou zijn, en zo'n aanpassing is waarschijnlijk te ingrijpend om achteraf in te bouwen

TheekAzzaBreek @Wouter Tinus • 11 december 2004 00:28

Nee, natuurlijk niet. Dat moet je buiten de chip oplossen.

Maar wat me blijft verbazen is dat het probleem dus relatief voorspelbaar was: als je de hele chip op hogere spanning laat lopen wordt hij x keer heter. Goh.
Dan kan je toch aan zien komen dat je dat niet lang met een spanning (Vdd) uithoudt? En dat je dus op de volgende socketwissel moet wachten?

Edit: Hmm, heel ander verhaal ineens hierboven.
Doen ze dat niet al in de mobiele chips, verschillende gebieden dynamisch op ander spanningen en snelheden laten lopen?

Verwijderd @Verwijderd • 10 december 2004 17:20

Daarom is Intel ook blij met het nieuwe ontwerp wat gebaseerd is op de Pentium-M en veel minder warmte genereerd.

Het is nu ook meer begrijpelijk waarom Intel de 4Ghz editie van de Prescott heeft laten vervallen, dan zouden ze namelijk al op 8Ghz zitten voor de dubbel geklokte onderdelen wat nog meer stroom/warmte veroorzaakt.

http://www.tweakers.net/nieuws/33955 heeft een makkelijk overzicht. De smithfield zal gedeeltelijk op de Jonah core gebaseerd zijn.

Verwijderd @Verwijderd • 11 december 2004 00:06

dan zouden ze namelijk al op 8Ghz zitten voor de dubbel geklokte onderdelen wat nog meer stroom/warmte veroorzaakt.

Maar juist DIE delen zijn het koelste in de prescott... Juist om deze delen zo hard te laten draaien krijgt de rest ook een flinke spanning waardoor het vermogen zo hoog is.

edit: aan de andere kant is de Pentium-M natuurlijk wel een betere chip omdat deze ook aardig schaalt en een veel lager vermogen nodig heeft/afgeeft dan een gelijkwaardige P4.

De P4 is volgens mij ook de enige cpu waarbij de overgang naar 90nm een hoger vermogen opleverde.
De Athlon64, Opteron, Pentium-M, en andere chips zijn allemaal een stuk koeler gaan draaien op 90nm.

Verwijderd 10 december 2004 17:26

Jammer dat hij ook vergeet mee te rekenen dat de Prescot gebakken is uit Germanium ipv Silicium.

Germanium geleid beter dan Silicium waar processoren voorheen op gebakken werden.

Het doel hiervan is dat Intel dan hogere clocksnelheden kan behalen.

Echter het nadeel van Germanium is weer dat het meer last heeft van Lekstroom.

Want zoals jullie weten is warmte verloren energie.

Niles @Verwijderd • 10 december 2004 17:41

Das dus gewoon onzin. Op het moment wordt door niemand Germanium gebruikt, omdat het ook een hoop nadelen heeft. Prescott is ook gewoon met silicium gebakken.

A new 90nm process using strained silicon technology that enables faster gate length scaling as well as faster electron flow through the gates.

van de Intel website

netman @Niles • 10 december 2004 18:03

Da's toch niet zo'n onzin als je denkt. "Strained silicium" houdt in dat silicium sporen opgedampt worden op een onderlaag van germanium en silicium . Er wordt dus wel degelijk germanium gebruikt.

ytsmabeer @netman • 10 december 2004 23:22

precies er word germanium gebruikt maar omdat dat niet tegen hele hoge tempraturen kan word dat gemengt met silicium.

Se7enth_son @netman • 10 december 2004 23:22

Strained silicium is niets anders dan gewoon silicium waarbji de atomen iets verder uit elkaar liggen. Ze zijn dus eigenlijk een beetje uit hun rooster getrokken waardoor ze allemaal iets verder bij elkaar vandaan liggen. Hierdoor dat de krachten tussen de atomen onderling iets kleiner zijn, en bovendien passen er nu minder atomen in een oppervlakte-eenheid. Deze twee punten zorgen ervoor dat elektronen zich gemakkelijker door het silicium kunnen bewegen (het silicium geleidt dan dus beter

)

germanium wordt overigens nog niet gebruikt omdat het een belangrijk nadeel heeft: Germanium 'vervormt' namelijk bij relatief lage temperaturen. Boven de 70°C vernietig je de structuren (en dus je processor). Silicium heeft dit probleem ook, maar pas ergens boven de 100°C. Die 70°C van germanium is gewoon te laag, omdat in de core van zo'n beetje elke CPU die temperatuur wel gehaald wordt. Bij germanium zou dat dus het einde van je processor betekenen... Vandaar dat men voorlopig nog bij silicium blijft, hoewel ze bezig zijn met combinaties van silicium met germanium... Dit zal over enkele jaren geintroduceerd worden

Edit: * 786562 Se7enth_son

Auteur

Wouter Tinus @netman • 11 december 2004 00:00

Intels strained silicon is inderdaad gebaseerd op een legering van silicium en germanium. Zie onder andere deze pagina. Naast Intel zijn ook andere bedrijven - waaronder in ieder geval IBM en Infineon - geruime tijd in actieve productie met SiGe-technologie, dus dat het pas over een aantal jaren ingezet zal worden klopt niet

loodgieter 10 december 2004 17:03

wat ik hier dus uit begrijp is dat Intel de Rapid Execution Engine nodig heeft anders word de chip te langzaam? Kunnen ze dat dan niet terug klokken naar een lagere snelheid (ALU en AGU)?

AMD heeft dit er blijkbaar dus niet in zitten en doen het daarom een stuk beter met de warmte

microchip @loodgieter • 10 december 2004 17:15

De hele bedoeling van de Rapid Execution Engine is het verbeteren van de prestaties. Als ze dan de kloksnelheid terugschroeven, gaat de Prescott nog minder presteren dan de Northwood.

Verwijderd @microchip • 11 december 2004 00:03

Als ze gewoon de Northwood op 90nm hadden gebakken met eventueel SSE3 en een grotere cache was er helemaal geen probleem geweest.

Maar het verbaast me niet echt dat ze de 10Ghz niet zullen halen, dan zouden bepaalde delen op 20Ghz moeten werken en dat doen ze met de huidige technologie natuurlijk nooit.

Ik vraag me eigenlijk af wat er sneller zou zijn: een hele core op 6ghz (dat draait de REE al bij een 3ghz cpu dus dat is geen probleem) of een core met een klein beetje 7,6 Ghz en de rest 3,8....

Verwijderd @Verwijderd • 11 december 2004 14:10

De prescott is een northwood op 90 nanometer, alleen zitten er wat extra instructies en andere functionaliteiten extra bij.

@ loodgieter

De IPC (instructies per clock) van een AMD is veel beter daarom scoren zij op een lage kloksnelheid beter, de intrinsieke waarde per clock is gewoon hoger. Intel kan dus niet simpel de kloksnelheid terugschroeven want dan gaat gewoon de performance omlaag.

Xiander 10 december 2004 18:01

Dus eigenlijk hadden ze er beter aan gedaan de northwood op 90nm te bakken. Dan was hij koeler en kon hij waarschijnlijk gemakkelijk verder worden geschaald dan 4 GHz.

Reactie op bartje2:
Ik denk dat de versie van REE in de prescott het effect van de langere pipelines moet opheffen.
De pipelines van de northwood bestaan uit 20 stappen, die van de prescott uit 31 (ze hebben gewoon een aantal stappen uit de northwood opgedeeld in meerder stappen, waardoor elke stap sneller zou kunnen gebeuren en de kloksnelheid dus omhoog kan). Per klokcycli kan een instructie naar een volgende stap (er kunnen stappen overgeslaan worden). De prescott is daarom veel trager omdat een instructie gemiddeld meer klokcycli nodig heeft om verwerkt te worden. Snellere ALU's ed. kunnen dit effect tegengaan.

Verwijderd @Xiander • 10 december 2004 18:34

ja of gewoon die REE op het zelfde niveau houden als die van de northwood aangezien de prescott toch geen reet sneller is dan de northwood

nAFutro 10 december 2004 19:00

Hee, hoe zit het dan bij de Celeron D?
Die warmte produktie is niet net zo veel omhoog gegaan als bij de Pentium.
Betekent dat dus dat de Rapid Execution Engine nog van de pre-Prescot Pentium 4 gebruik gemaakt word?

Luxx @nAFutro • 10 december 2004 20:15

De Celeron heeft de zelfde Core, met wat kleine aanpassingen. Op zich geeft deze dus de zelfde problemen, alleen klokt deze vooralsnog niet zo hoog als de 'echte' Pentium. Hierdoor wordt de dubbele snelheid dus ook dubbel zo snel lager. Ook zitten er uitgeschalede delen in (het deel dat hyperthreading doet, en veel cache) hierdoor is de processor ook relatief koeler.

Verwijderd 10 december 2004 21:03

Ineens begrijp ik hoe Intel wil(-de?) doen voorkomen, dat de 10GHz-limiet binnen het bereik ligt/lag..

En ook begrijp ik de overload op de rest van de CPU: zij moeten harder werken, om die dubbel-draaiende delen te voorzien van informatie.

Dat is een beetje hetzelfde als 2 mensen aannemen op de afdeling informatieverwerking, in plaats van 1: er is 2x zo veel informatie nodig om hen beiden te voorzien van voedsel. Wanneer we die 2 dan beschouwen als 'hongerige jonge vogels', dan blijven ze informatie vragen, actief. En raakt de rest oververhit..

Zit ik er nu compleet naast, of is die analogie redelijkerwijs te volgen?

TheekAzzaBreek @Verwijderd • 11 december 2004 00:38

Het is meer dat alle vogeltjes net zo veel te eten krijgen als die 'jonkies', en daar vreselijk van moeten poepen ...

Triqster 10 december 2004 17:05

Mja.. het nadeel daarvan is dat ze vaak weer meer geluid produceren (air cooled). Daarbij kost het meer... (Gezonde nederlands zuinigheid

)

Op dit item kan niet meer gereageerd worden.

Lees meer

Reacties (48)

Sorteer op:

Weergave: