Klein maar fijn
Intel heeft vandaag meer details bekendgemaakt over zijn 65nm-procédé, de technologie die de basis zal vormen voor een volgende generatie processors, en waarvan de ontwikkeling al in een vergevorded statium is. De nog steeds in vrijwel constant tempo lopende vooruitgang in de uiterst complexe wereld van chipfabricagetechnologie wordt traditioneel gezien gemeten aan de hand van de grootte van de transistors die ermee gemaakt kunnen worden. Met P1264 - de interne naam voor het 65nm-procédé - kunnen schakelaars met een lengte van 35 nanometer gebouwd worden. Dat is ruim twee keer zo klein als die van 90nm-chips zoals Prescott en Dothan, en zo miniscuul dat er maar liefst tien miljoen stuks van op de punt van een balpen geplaatst kunnen worden. Deze cyclus wordt opvallend genoeg al jaren volgehouden, en men voorspelt het zelfs na deze stap nog minstens drie keer te kunnen herhalen in hetzelfde tempo:
 |
 | Naam | P854 | P856 | P858 | P1260 | P1262 | P1264 | P1266 | P1268 | P1270 |  |
 |
 | Litho (nm) |  | 350 |  | 250 |  | 180 |  | 130 |  | 90 |  | 65 |  | 45 |  | 32 |  | 22 |  |
 |
 | Gates (nm) |  | 350 |  | 200 |  | 130 |  | 70 |  | 50 |  | 35 |  | 25 |  | 18 |  | 12 |  |
 |
 | Wafers |  | 200 |  | 200 |  | 200 |  | 300 |  | 300 |  | 300 |  | 300 |  | 300 |  | 300 |  |
 |
 | Jaar |  | 1995 |  | 1997 |  | 1999 |  | 2001 |  | 2003 |  | 2005 |  | 2007 |  | 2009 |  | 2011 |  |
 |
Om het tempo van ontwikkelingen vol te blijven houden moet echter steeds verder afgeweken worden van het oude vertrouwde pad. Jarenlang kon men eigenlijk exact hetzelfde blijven doen, maar dan steeds op een kleinere schaal. Dat is de laatste jaren al steeds moeilijker geworden, maar het staat nu echt op de rand van onhaalbaarheid. De komende vijf jaar zullen er daarom een aantal fundamentele wijzigingen doorgevoerd worden in de manier waarop chips gebouwd worden. Voor het 45nm-procédé wordt bijvoorbeeld een heel nieuw soort transistor ontwikkeld gebaseerd op drie in plaats van twee gates, en één generatie later zal men aan de slag gaan met Extreme Ultra-Violet (EUV) wafersteppers. Vergeleken met deze toekomstige generaties is de overstap van 90nm naar 65nm niet zo gek groot. Intel schat dat ongeveer zeventig procent van de apparatuur in de fabrieken opnieuw gebruikt kan worden. Dat wil echter niet zeggen dat er geen grote voordelen zijn.

Een 65nm-chip kan meer transistors aan boord hebben, minder vermogen opnemen, hoger geklokt worden en kleiner geproduceerd worden dan een 90nm-chip. Uiteraard zal er door de ontwerpers die met een specifieke processor bezig zijn altijd een afweging gemaakt moeten worden tussen één of meerdere van deze voordelen, want ze kunnen in geen geval allemaal tegelijk voluit benut worden. Het Itanium-team zal bijvoorbeeld gretig gebruik maken van elke transistor die ze kunnen krijgen om meer cache en cores te implementeren. De Pentium M-jongens in Israël daarentegen zullen eerder geneigd zijn om de levensduur van de laptopaccu verder op te krikken, terwijl Intel voor de Pentium 4 graag meer performance ziet in de vorm van kloksnelheid, om de core van hun meest verkochte product zo goedkoop mogelijk te houden.

500 miljoen transistors tussen twee vingertoppen
Stroombesparende technieken
Een van de meest gehoorde commentaren op de in februari geïntroduceerde Prescott-core is dat hij te veel stroom slurpt. In eerste instantie kreeg het 90nm-procédé hiervoor de zwartepiet toegespeeld, omdat bekend werd dat er meer stroom uit de transistors weglekte dan bij de 130nm-chips het geval was. Het verhaal dat Intel ernstige problemen had met het schalen naar 90nm en kleiner werd echter ontkracht door het succes van de Dothan. Deze gebruikt namelijk minder stroom dan zijn voorganger, ondanks het feit dat de chip twee keer zoveel transistors aan boord heeft en hoger geklokt is.
Het tweede 90nm-succesverhaal is Montecito, een dual-core Itanium-processor met in totaal zo'n 26MB cache aan boord, goed voor bijna 1,7 miljard transistors. De die van Montecito zal naar schatting vier tot vijf keer zo groot zal zijn als die van Prescott. Ondanks deze duizelingwekkende specificaties zal de processor evenveel en mogelijk zelfs iets minder warmte genereren dan de huidige versies van Itanium, die niet alleen lager geklokt zijn, maar ook slechts één core en veel minder cache hebben.
Toch kan niet ontkend worden dat het procédé een belangrijke rol speelt in het uiteindelijke verbruik van een processor. Het kan namelijk gezien worden als de gereedschapskist waar de circuitontwerpers en dus uiteindelijk ook de verschillende architecten mee te werk gaan. Bij het ontwerpen van een nieuwe of het verkleinen van een bestaande processor moeten duizenden compromissen gesloten worden tussen prestaties, kosten en stroomverbruik. Hoe beter het beschikbare gereedschap, hoe makkelijker het is om de gestelde doelen te halen. Waarschijnlijk was het Prescott-ontwerp dus te hoog gegrepen voor het 90nm-procédé, en in die zin heeft het misschien niet gebracht wat Intel ervan had gehoopt. Een verkeerde inschatting betekent echter niet dat de hele technologie afgeschreven moet worden als een mislukking. Verdere verkleining is wel degelijk zinvol en hoeft niet noodzakelijk een herhaling van de geschiedenis te betekenen.
Het 65nm-procédé maakt het leven van de architecten niet alleen makkelijker door kleinere, snellere en goedkopere transistors te bieden, maar ook door een aantal stroombesparende features te implementeren en verbeteren, die zowel voor high-performance als low-power ontwerpen ingezet kunnen worden. De details voor zover die op dit moment openbaar zijn gemaakt zullen op deze en de volgende pagina worden toegelicht.
Eén van de belangrijkste is de tweede generatie strained sillicon. Wat men precies veranderd heeft wordt op dit moment nog geheim gehouden, maar de verbetering die het oplevert wordt wel duidelijk gemaakt in de onderstaande grafiek. Op het plaatje worden twee hoeveelheden stroom getoond voor twee verschillende soorten transistors. I-ON op de horizontale as is de hoeveelheid stroom die doorgelaten wordt als de transistor aan staat. I-OFF, getoond op de verticale as, is de beruchte lekstroom die doorgelaten wordt ondanks het feit dat de transistor uit hoort te staan. Samengevat: hoe verder de grafiek naar rechts staat, hoe beter. Op het plaatje is niet alleen te zien hoe het 90nm-procédé in twee jaar tijd is verbeterd, maar ook dat het 65nm-procédé weer een heel stuk gunstiger eigenschappen heeft. I-OFF is tot vier keer zo laag bij gelijke I-ON, en I-ON is 10 tot 15% hoger bij gelijke I-OFF.

Naast het feit dat de verbeterde strained sillicon-techniek lekkage vermindert tussen source en drain bij een gelijke hoeveelheid stroom, zal er überhaupt minder stroom nodig zijn om de transistor te laten schakelen. De kleinere gates van het 65nm-procédé (35nm lang) kunnen namelijk veel minder elektronen vasthouden dan hun grotere broers (50nm voor het 90nm-procédé), waardoor de stroom zich eerder een weg door het gate oxide heen gaat banen. Het gate oxide is een laagje dat de gate gescheiden houdt van de silicium onderlaag (substrate). Wanneer de elektronen zich door het gate oxide heenwurmen en het silicium bereiken gaat dat ineens vele malen beter geleiden, en als gevolg daarvan zal er stroom gaan lopen tussen de source en de drain. De transistor is op dat moment "aan".
In vorige procédées werd de gate oxide steeds weer dunner gemaakt, maar dat heeft men in deze generatie niet gedaan. De reden hiervoor is dat een nog dunnere laag (hij is nog maar 1,2 nanometer dik) ten eerste technisch gezien erg moeilijk te realiseren is, maar vooral omdat de electronen er simpelweg te snel doorheen zouden breken, waardoor de transistor veel zou lekken en als gevolg daarvan zelfs onbedoeld aan zou kunnen springen. De constante dikte (en dus relatieve vergroting) van de gate oxide beperkt de winst van de kleinere gates tot ongeveer 20%, maar daar staat tegenover dat de lekkage niet verder toeneemt. Men heeft inmiddels wel een nieuw high-k materiaal gevonden dat beter geschikt is om te dienen als gate oxide dan het op dit moment gebruikte siliciumdioxide, maar dat wordt pas voor het 45nm-procédé ingezet.
Nog meer stroombesparing
Naast de transistors zelf heeft Intel ook de lagen metaal die deze kleine schakelaartjes met elkaar verbinden verbeterd. De meest in het oog springende wijziging is het toevoegen van een extra laag van deze zogenaamde interconnects, voor een totaal van acht verdiepingen. Het 90nm-procédé heeft zeven lagen en het originele 130nm-procédé had er zes. Eerder dit jaar heeft het bedrijf echter speciaal voor zijn allergrootste chips (zoals de Xeon MP met 2 of 4MB L3-cache en de binnenkort aan te kondigen Itanium 2 met 9MB L3-cache) een nieuwe versie van het 130nm-procédé in gereedheid gebracht, dat net als het 65nm-procédé acht lagen interconnects heeft. Met meer lagen metaal kunnen gemiddeld en relatief gezien kortere verbindingen gelegd worden tussen de transistors, wat zowel de kloksnelheid als de haalbare dichtheid ten goede komt.
Ook de interconnects spelen een rol in het zuinig maken van chips gebakken middels het 65nm-procédé. Omdat de verbindingen net als de transistors zelf kleiner en korter worden blijft er sowieso minder stroom in hangen waardoor er ook minder ingepompt hoeft te worden. Om dat effect nog eens extra te vergroten is ook de methode en het materiaal waarmee het metaal gevormd wordt verbeterd. Hoeveel winst dit precies oplevert is niet duidelijk, maar een deel van het effect wordt waarschijnlijk sowieso teniet gedaan door het feit dat dunnere draden een hogere weerstand hebben. Het volgende plaatje is een dwarsdoorsnede van een 65nm-chip, met helemaal onderin de transistor en daarboven van M1 tot M8 de lagen metaal:

Een andere nieuwe feature van P1264 is de sleeptransistor, een speciale constructie die de spanning op een circuit tijdelijk omlaag kan halen. Hoewel het op processorniveau natuurlijk al veel langer mogelijk is om de core-spanning aan te passen, heeft de sleeptransistor twee voordelen. Ten eerste is het een lokale optimalisatie, waardoor een processor dus specifieke onderdelen kan laten rusten terwijl de rest op volle snelheid doorwerkt. Ten tweede komt er geen enkele merkbare vertraging kijken bij het verhogen en verlagen van het voltage, terwijl het overstappen naar een globale slaapstand eeuwen duurt op de picosecondenschaal van de processorklok. Het toevoegen van sleeptransistors hoeft overigens maar 1% extra grootte te betekenen voor een complete chip.
Sleep transistors zijn voor het eerst geïmplementeerd in de 70Mbit SRAM-cel die Intel al sinds eind 2003 aan het bakken is met behulp van het experimentele 65nm-procédé. SRAM is het belangrijkste onderdeel van cache, en altijd al Intels favoriete testvehicel geweest voor nieuwe productietechnologie. Ook dit keer heeft men alle nieuwe snufjes uitgeprobeerd in de 500 miljoen transistors tellende chip. Met behulp van sleeptransistors worden alle blokken cache standaard in ruststand gezet. Ze kunnen dan nog wel hun data vasthouden, maar lekken minder dan een derde van de hoeveelheid stroom die normaalgespoken verloren gaat. Alleen op het moment dat er daadwerkelijk gelezen of geschreven moet worden in een specifiek blok zal de spanning plaatselijk omhoog gaan.

Hoewel cache nooit het heetste deel van een processor is geweest, neemt het wel een steeds groter percentage van de chip in beslag. Hierdoor kunnen de sleep transistors uiteindelijk toch een duidelijke reductie in stroomverbruik opleveren. Op de vraag of sleep transistors net zo effectief toegepast kunnen worden op logische circuits als op blokken cache kon Intel op dit moment nog geen antwoord geven, maar het is zeker iets waar nog onderzoek naar gedaan wordt.
SOI nog steeds niet interessant genoeg
De oplettende lezer heeft de term SOI (een afkorting die staat voor Sillicon-on-Insulator) waarschijnlijk gemist in de voorgaande pagina's over stroombesparende technieken. Ondanks de positieve ervaringen van concurrenten waaronder IBM en AMD met deze techniek in hun 130nm- en 90nm-procédées, heeft Intel ervoor gekozen om het zelfs voor hun 65nm-procédé links te laten liggen. Tweakers.net vroeg Mark Bohr, mede-eigenaar van Intel en directeur van Process Technology & Integration, waarom.
In zijn antwoord wilde Bohr ten eerste duidelijk maken dat er meerdere vormen van SOI bestaan, waarvan het soort dat op dit moment gebruikt wordt dient om zogenaamde de "junction capacitance" te verminderen. Kort samengevat wil dat zeggen dat de transistors sneller laden en ontladen, omdat lekken naar de bodem wordt tegengehouden. De chip zal hierdoor uiteindelijk wel zuiniger gaan werken, maar de techniek is in principe niet geschikt om het soort lekstroom tegen te gaan dat bij Intels 90nm-procédé een belangrijke rol is gaan spelen.
Zoals hieronder zichtbaar is gemaakt vervangt SOI het grootste deel van de substrate door een isolator. Hierdoor kan er geen stroom meer onder de normale route (het zogenaamde channel) doorsijpelen, waardoor er minder energie verloren gaat. SOI verandert echter niets aan het channel zelf, terwijl daar juist een heel groot deel van de lekkage plaatsvindt. Stroom die door de gate heen lekt of gewoon rechtstreeks uit de source komt kan dus nog steeds ongestoord zijn gang gaan binnen een SOI-processor:

Ondanks dit theoretische bezwaar heeft Intel onderzoek gedaan naar de bovenstaande vorm van SOI, die onder andere AMD en IBM gebruiken. Hieruit bleek dat er een "bescheiden" winst gehaald zou kunnen worden door dezelfde techniek te implementeren. Hoewel iedere kleine verbetering uiteraard mooi meegenomen is, heeft de bijbehorende kostenanalyse het management echter doen besluiten om het toch achterwege te laten. Ondertussen wordt er overigens nog wel gewerkt aan een andere vorm van SOI, die we als het goed is tegen zullen komen in het 45nm-procédé.
Waar en wanneer
Zoals vermeld is Intel op dit moment al in staat om 65nm-chips te produceren. Dat gebeurt in Fab D1D, gelegen in Hillsboro, Oregon. Dit gebouw is officieel ingedeeld als proeftuin voor de nieuwe technologie, maar kan daarnaast ingezet worden als volwaardige fabriek, zoals ook met eerdere experimentele fabs gebeurd is. Binnen D1D bevindt zich Intels allergrootste cleanroom, met een oppervlak van ruim 16.000 vierkante meter. Naast D1D worden in ieder geval Fab 12 in Arizona en Fab 24 in Ierland geschikt gemaakt voor het nieuwe procédé. Tegen het einde van 2005 zal er dus al een vrij grote capaciteit beschikbaar zijn. De druk is hoog om daar ook zo snel mogelijk gebruik van te gaan maken, want de fabrieken inrichten kost miljarden dollars die binnen een beperkt tijdsbestek terugverdiend moeten worden.
Volgens een recent verhaal van The Inquirer is deze druk zelfs de echte reden dat de Tejas-core geschrapt is van de roadmap. Door de vertraging van Prescott is ook het Tejas-team achter op schema komen te liggen, zoals destijds ook zichtbaar was op de roadmaps. Op zich niet zo'n ramp, maar het uitstel van de eerste (op 90nm gebakken) Tejas betekende ook dat er niet op tijd begonnen kon worden met de 65nm-versie ervan. Dat was wél een serieus probleem, want miljarden dollars aan 65nm-fabrieken een paar maanden tot een half jaar helemaal niets laten doen was simpelweg geen optie. Daarom werd op dat moment door de technici besloten om een 65nm-variant van Prescott te bouwen en die te gebruiken als fabriekvulling tot de 65nm-versie van Tejas klaar zou zijn.
Toen de marketingafdeling lucht kreeg van de nieuwe strategie kwamen er echter ernstige bezwaren op tafel. Men zag het niet bepaald zitten om eerst een 90nm Tejas te introduceren als zijnde het nieuwe topmodel, nog geen jaar later de qua features minder bedeelde Prescott-core de performancekroon weer terug te laten pakken, en die de super-Prescott dan nog een half jaar later weer terug te moeten bombarderen naar een budgetchip omdat de 65nm Tejas klaar is. Op dat moment schijnt men dus besloten te hebben om Tejas volledig te schrappen en voor dual-core- en 65nm-Prescott-varianten te gaan.

De processors zullen zoals het nu naar uit ziet werken met een spanning tussen de 0,7 en 1,1 Volt, waarbij afhankelijk van het aantal ampères dat een ontwerper in een bepaald circuit wil pompen de schakelsnelheid van de transistors tot 40% hoger kan liggen dan op dit moment mogelijk is. Merk overigens op dat dit weinig tot niets zegt over de uiteindelijke winst in kloksnelheid van de processors; die is namelijk van veel meer factoren afhankelijk dan alleen de snelheid waarop individuele transistors kunnen schakelen.
Naast de Pentium 4 als 65nm-pioneer zal Intel ook de Pentium M en Itanium overschakelen naar zijn nieuwe procédé. De planning ziet er volgens de geruchten als volgt uit:
 |
 | Productserie | Datum | Codenaam |  |
 |
 | Pentium 4 |  | H2 2005 |  | Cedar Mill (opvolger Prescott) |  |
 |
 | Pentium M |  | Q4 2005 / Q1 2006 |  | Jonah (opvolger Dothan) |  |
 |
 | Itanium |  | H2 2006 |  | Montvale (opvolger Montecito) |  |
 |
Alle processors gebaseerd op de nieuwe 65nm-technologie zullen geschikt zijn voor dual- of zelfs multi-core configuraties. In de meeste gevallen als standaard feature, en anders als optie voor de high-end. De kleinere transistors en nieuwe stroombesparende technieken van het 65nm-procédé zullen Intel dus enorm moeten gaan helpen bij het goedkoop en koel houden van deze nieuwe generatie producten. Er moet in ieder geval voldoende speelruimte onstaan om weer twee jaar lang vooruit te kunnen, want eerder kan het 45nm-procédé het stokje niet overnemen
.