Introductie
Al begin 2008 doken de eerste geruchten over Sandy Bridge op. Deze codenaam voor Intels nieuwste processorarchitectuur moest eind 2010 of begin 2011 op de markt verschijnen, en het werd dat laatste. In dit eerste deel van meerdere reviews van deze nieuwste stap in processorontwikkeling, wordt het platform zelf onder de loep genomen. Welke veranderingen en verbeteringen heeft Intel in Sandy Bridge, ook wel bekend als de tweede Core-generatie, doorgevoerd?
Begin 2008 sprak Intel voor het eerst publiekelijk over de Westmere-opvolger Sandy Bridge. Ruim een jaar later begonnen details rondom de processors naar buiten te komen en medio 2010 werden de moederborden, benodigd voor Sandy Bridge-systemen, al volop tijdens beurzen als Computex getoond. Kort daarna volgden de eerste benchmark-resultaten van test-chips, maar pas tijdens de 2010-editie van IDF werden de processors officieel getoond aan de aanwezige journalisten.
Intel zal het nieuwe platform tijdens de CES formeel introduceren waardoor het tijd is voor de testresultaten en vergelijkingen met voorgaande processors en platformen te maken. Voor het zover is, dient echter het platform uitgeplozen te worden: Sandy Bridge heeft tal van veranderingen en vernieuwingen ten opzichte van Westmere, die in dit artikel uitvoerig besproken zullen worden. De prestatieresultaten van Sandy Bridge en hoe die testresultaten zich verhouden tot voorgaande processors, wordt in een apart artikel belicht.
Sandy Bridge
Intel volgt al jaren het bekende Tick Tock-model. Met elke Tock wordt een nieuwe processorarchitectuur geïntroduceerd, terwijl de daaropvolgende Tick een nieuw productieproces met zich meebrengt. In voorgaande generaties was de Nehalem-architectuur de Tock en de overstap van een 45nm- naar het 32nm-productieprocedé van Westmere de Tick. De volgende Tock wordt door Sandy Bridge gevormd: een nieuwe processorarchitectuur op 32nm die met de komende Tick in 2011, Ivy Bridge, verkleind zal worden tot 22nm.

Sandy Bridge, met de bijbehorende chipsets voor mobiel en desktop, bestaat uit vijftien mobiele processors en veertien desktop-processors. Daar komen tien chipsets bij kijken, hoewel de vijf desktopchipsets zich voor de eindgebruiker vooral op twee varianten zullen richten. Voor mobiele apparaten zijn tevens vier draadloze netwerkopties beschikbaar.
De mobiele processors bestaan uit één Extreme Edition-quadcore, negen Core i7-processors, vier Core i5- en één Core i3-processor. Deze mobiele cpu's zijn weer onderverdeeld in tien processors met normale werkspanningen en vijf in het lv- en ulv-bereik. Alle zuinige varianten zijn dualcores met ondersteuning voor hyperthreading; de normale varianten bestaan uit vijf quadcores en vijf dualcores, ieder met hyperthreading. De prijzen variëren van 225 tot 1096 dollar voor de sv-processors en 250 tot 346 dollar voor de energiezuinige varianten.
Processor | Snelheid | Max Turbo | Cores/threads | Tdp | L3 cache | HD Graphics 3000
|
i7-2920XM |
2,5GHz |
3,5GHz
|
4/8 |
55W |
8MB |
650-1300MHz |
i7-2820QM |
2,3GHz |
3,4GHz
|
4/8 |
45W |
8MB |
650-1300MHz
|
i7-2720QM |
2,2GHz |
3,3GHz
|
4/8 |
45W |
6MB |
650-1300MHz |
i7-2635QM |
2GHz |
2,9GHz
|
4/8 |
45W |
6MB |
650-1200MHz
|
i7-2630QM |
2GHz |
2,9GHz
|
4/8 |
45W |
6MB |
650-1100MHz |
i7-2620M |
2,7GHz |
3,4GHz
|
2/4 |
35W |
4MB |
650-1300MHz
|
i5-2540M |
2,6GHz
|
3,3GHz |
2/4 |
35W |
3MB |
650-1300MHz
|
i5-2520M |
2,5GHz |
3,2GHz
|
2/4 |
35W |
3MB |
650-1300MHz
|
i5-2410M |
2,3GHz |
2,9GHz
|
2/4 |
35W |
3MB |
650-1200MHz |
i3-2310M |
2,1GHz |
n/a
|
2/4 |
35W |
3MB |
650-1100MHz
|
LV/ULV |
i7-2649 |
2,3GHz |
3,2GHz
|
2/4
|
25W |
4MB |
500-1100MHz |
i7-2629 |
2,1GHz |
3GHz
|
2/4 |
25W |
4MB |
500-1100MHz
|
i7-2657 |
1,6GHz |
2,7GHz
|
2/4 |
17W |
4MB |
350-1000MHz |
i7-2617 |
1,5GHz |
2,6GHz
|
2/4 |
17W |
4MB |
350-950MHz |
i5-2537 |
1,4GHz |
2,3GHz
|
2/4 |
17W |
3MB |
350-950MHz |
Desktop
De desktopprocessors bestaan uit drie Core i7-processors met vier cores en hyperthreading-ondersteuning. De zeven Core i5-producten zijn quadcores, maar bieden geen ondersteuning voor hyperthreading, terwijl de vier Core i3-processors met hyperthreading uitgeruste dualcores zijn. Zes processors zijn alleen voor oem's en odm's beschikbaar en hebben geen prijzen. Dat zijn vier Core i5's, een Core i3 en een Core i7. De voor consumenten beschikbare cpu's omvatten verder twee zogeheten K-versies: dit zijn processors met een vrij instelbare multiplier, zodat de processors overgeklokt kunnen worden. Voor deze functionaliteit wordt een lagere meerprijs betaald dan voorheen bij unlocked multiplier-cpu's gebruikelijk was.
Processor | Snelheid | Max Turbo | Cores/threads | Tdp | L3 cache | HD Graphics
|
i7-2600K |
3,4GHz |
3,8GHz
|
4/8 |
95W |
8MB |
3000, 1350MHz |
i7-2600 |
3,4GHz |
3,8GHz
|
4/8 |
95W |
8MB |
2000, 1350MHz |
i5-2500K |
3,3GHz |
3,7GHz
|
4/4 |
95W |
6MB |
3000, 1100MHz |
i5-2500 |
3,3GHz |
3,7GHz
|
4/4 |
95W |
6MB |
2000: 1100MHz |
i5-2400 |
3,1GHz |
3,4GHz
|
4/4 |
95W |
6MB |
2000: 1100MHz |
i5-2300 |
2,8GHz |
3,1GHz
|
4/4 |
95W |
6MB |
2000: 1100MHz |
i3-2120 |
3,3GHz
|
n/a |
2/4 |
65W |
3MB |
2000: 1100MHz |
i3-2100 |
3,1GHz |
n/a
|
2/4 |
65W |
3MB |
2000: 1100MHz
|
Zuinige en oem-processors |
i7-2600S |
2,8GHz |
3,8GHz
|
4/8
|
65W |
8MB |
2000: 1100MHz |
i5-2500S |
2,7GHz |
3,7GHz
|
4/4 |
65W |
6MB |
2000: 1100MHz |
i5-2500T |
2,3GHz |
3,3GHz
|
4/4 |
45W |
6MB |
2000: 1100MHz |
i5-2400S |
2,5GHz |
3,3GHz
|
4/4 |
65W |
6MB |
2000: 1100MHz |
i5-2390T |
2,7GHz |
3,5GHz
|
2/4 |
35W |
3MB |
2000: 1100MHz |
i3-2100T |
2,5GHz |
n/a
|
2/4 |
35W |
3MB |
2000: 1100MHz |
De quadcore-desktopprocessors zullen meteen bij introductie beschikbaar zijn: op de dualcores moet nog even gewacht worden. Het aanbod aan mobiele processors zal uiteraard door de fabrikanten van laptops bepaald worden.
Nader bekeken
Een nieuwe architectuur brengt uiteraard een aantal vernieuwingen met zich mee. Op de volgende pagina's nemen we de nieuwe architectuur onder de loep.
Verder op de ingeslagen weg
Sandy Bridge borduurt voort op het idee dat Intel met Clarkdale en Arrandale is ingeslagen. Een steeds verdere integratie van de verschillende componenten is uit het oogpunt van energiebeheer en snelheid wenselijk, en Sandy Bridge gaat verder waar de vorige generatie ophield. Dat is vooral zichtbaar in de integratie van de gpu: waar de oudere Series 5-processors nog een losse gpu in dezelfde package onderbrachten, heeft Sandy Bridge een zogeheten monolithische die.
/i/1293618575.png?f=imagenormal)
De integratie van de gpu in hetzelfde silicium als de processor heeft niet alleen voordelen voor de eenvoudiger productie. De pci-express-verbinding tussen igp en processor kon in de vorige generatie al drastisch worden ingekort en was daarom effectiever, maar door de integratie met Sandy Bridge is dat niet langer nodig. De gpu is, net als de processorcores, voortaan een onderdeel van de processor en kan derhalve over een aantal features beschikken die voorheen aan de cpu-cores waren voorbehouden.
De gpu
De Westmere-processors hadden weliswaar enige mate van integratie van de gpu in de processor, maar cpu en gpu waren toch twee plakjes silicium. De gpu werd op 45nm gebakken en de cpu op 32nm, en samen zaten ze als multi-chip package in de 'processor'. De cores met de cache van de Arrandales communiceerden via de qpi met de gpu en de 'uncore'. In Sandy Bridge delen de cpu-cores en de gpu dezelfde cache en communiceren middels dezelfde paden met de cache en de overige onderdelen.
/i/1293618578.png?f=imagenormal)
Dat moet vooral grafisch voordelen opleveren: de 'processor graphics' van Sandy Bridge zouden een forse verbetering moeten zijn ten opzichte van voorgaande generaties Intel HD Video. Zo moet de throughput van de executer units twee keer die van Arrandale zijn. Hoewel het aantal eu's gelijk is aan die van Arrandale, namelijk twaalf voor de 3000-serie en zes voor de 2000-serie, werden de eu's aanzienlijk verbeterd. Ze kregen grotere registers, een nieuwe instructieset die meer datadoorvoer bij gelijke kloksnelheden mogelijk maakt en verbeterde branch prediction.
De 3000-serie met twaalf eu's wordt in verschillende mobiele processors ingezet en tikt op 650 tot 1300MHz. Bij desktop-processors is de 3000-gpu vooralsnog alleen in de 2500K- en 2600K-processors te vinden en tikt dan maximaal op 1350MHz. De zes eu's tellende 2000-gpu is in zowel mobiele als desktopprocessors te vinden en tikt op 350 tot 1100MHz. Ook alle mobiele Celeron- en Pentium-processors krijgen deze gpu aan boord. Overigens is de ingebouwde gpu alleen mobiel te combineren met een losse videokaart, waarbij on-the-fly geschakeld kan worden tussen de twee gpu's. Voor desktopsystemen bestaat deze mogelijkheid voorlopig niet.
Cpu-veranderingen
De front-end
De processorcores zijn stevig onder handen genomen. Allereerst kijken we naar de front-end, waar rekentaken in instructies worden opgedeeld en aan de back-end worden gevoerd. Hierbij worden onder meer relaties tussen individuele instructies gecontroleerd en klaargezet om de pipeline in te gaan. Door de pipeline zo optimaal mogelijk te vullen, gaan geen klokcycli verloren.
Daar speelt branch prediction een grote rol bij: de relevante instructies kunnen dan voor de berekening klaar is al uit de instructiecache gehaald worden. De processor heeft daartoe een zogeheten decoded uop-cache gekregen wat de doorvoer van instructies moet verbeteren en voor efficientere pipelines en lager energieverbruik moet zorgen. Deze L0-cache kan 1,5K uops bevatten en wordt gecombineerd met een verbeterde branch prediction, wat de executietijden moet verkorten. Wordt een instructie niet in de uop-cache aangetroffen, dan dient deze te worden opgezocht in het traditionele L1-cache.
Het geheugencluster werd eveneens aangepakt. De drie geheugen-eenheden die bij de Nehalem-architectuur ieder een component vormden - 'load', 'store address' en 'store data' - zijn aangepast. Twee van de drie eenheden kunnen in Sandy Bridge zowel voor load als voor store address ingezet worden, wat ze symmetrisch maakt. De derde wordt nog steeds alleen voor store data gebruikt. Op die manier kunnen gelijkertijd twee 16 byte leesacties en een derde 16 byte grote schrijfactie worden uitgevoerd.
De back-end
Instructies die onafhankelijk van elkaar kunnen worden uitgevoerd, kunnen in de out-of-order back-end worden uitgevoerd. Elke instructie werd voorheen samen met zijn operand de pipeline ingestuurd, wat vanzelfsprekend geheugenruimte inneemt. De toevoeging van een physical register file, of pfr, maakt het meesturen van operands met elke uop overbodig: die worden in het register opgeslagen en kunnen worden opgeroepen. Daarmee is meer ruimte voor instructies beschikbaar, en kunnen dus meer instructies per klokcyclus worden uitgevoerd.
Er zijn twee pfr's: de ene kan 144 vector operands opslaan die gebruikt kunnen worden voor zowel integer als floating point-berekeningen. De tweede is puur voor integer-berekeningen bedoeld en slaat 160 operands op. Dat maakt een groter aantal buffers mogelijk, wat de nieuwe instructieset AVX mogelijk maakt.
Avx, of advanced vector graphics, is een uitbreiding van de sse-instructieset en wordt niet alleen in Sandy Bridge, maar ook in AMD's aankomende Bulldozer-processors ondersteund. Avx vergroot de ondersteuning naar 256bit voor vectorberekeningen: de registers en fp-instructies worden 256bit groot. Ook worden 128bit-simd-instructies die onder meer voor aes-encryptie gebruikt worden, toegevoegd. De avx-instructies moeten onder meer hogere flops tegen een laag energieverbruik mogelijk maken.
Meer veranderingen
De ring
De feature die alle cpu-veranderingen mogelijk maakt, is 'de ring'. Deze structuur in de processor verbindt de cores onderling met het L3-cache en met elkaar en fungeert derhalve als interconnect. De gehalveerde bidirectionele lus verbindt ook de gpu met datzelfde 'last level cache' en met de System Agent. Aangezien deze, ietwat op de oude interconnect-architectuur van de Beckton-generatie gebaseerde ring vrijwel vanaf de grond opnieuw ontworpen werd, konden de systeemarchitecten aanzienlijke winsten boeken voor de snelheid van de ring.
In consumentenversies is de ring semi-unidirectioneel: er wordt altijd de kortste route naar de bestemming gezocht, maar dat kan maar één kant op. In toekomstige servers en octacores zal de ring wel volledig unidirectioneel zijn. Overigens is het aantal processorcores dat met ring te bedienen is zonder significante toename in de latencies volgens Intel zonder problemen schaalbaar naar acht of zestien cores. Die latency zou gemiddeld lager zijn dan de qpi van Nehalem.

De ring bestaat uit vier ringen: een data-ring, die met 512 draden die fysiek over het L3-cache liggen het grootst is, verzorgt het data-transport met 32 bytes tegelijk. De overige drie ringen, voor requests, ack-antwoorden en snoops, verdelen de overige 512 draden van de ring. De vier caches, die weliswaar in vier cacheboxes gescheiden zijn, zijn architectonisch wel als één cache ingezet. Daarbij kunnen niet alleen de cores het geheugen via een eigen pipeline benaderen, maar ook de gpu-core kan het cache benaderen. Bij Nehalem beschikte een processor over slechts één cache-pipeline, maar de individuele pipelines van elke core geven een quadcore-Sandy Bridge-processor vier keer de bandbreedte van een Nehalem. Een quadcore heeft daarmee 384GB/s bandbreedte, terwijl een dualcore nog altijd over 192GB/s kan beschikken.
De System Agent
De verdere integratie van de processor, van multi-chip package naar monolitisch silicium, maakt ook de zogeheten system agent complexer. Die omvat onder meer de pci-express-controller, de geheugencontroller, de dmi en de display-interface. Daarnaast omvat de system agent ook het energiebeheer voor de processor. Deze is in drie stukken onderverdeeld: de cores met het cache-geheugen hebben variabele klokfrequenties en spanningen, net als de gpu. De spanning van de system agent zelf is niet variabel.
Naast de spanningen wordt ook de turbo door de system agent gereguleerd. Die houdt de maximale turbo-stand over alle cores aan, zolang de tdp niet overschreden wordt. De extra stroom die hiervoor nodig is, is een van de factoren waarom Sandy Bridge niet in een 1156-voetje past.
De turbo-modi
De turbo van de verschillende processors verschilt aanzienlijk per generatie. De Nehalems of Bloomfields, of de eerste Core-i7's op de lga1366-socket, waren de pioniers van de turbo-modus. Als eerste generatie is deze echter niet bijzonder snel, zeker niet in vergelijking met latere processors. Onder een singlethreaded werklast kan de Turbo Boost worden ingeschakeld met twee zogeheten 'bins', ofwel stappen. Normaal zijn dat stappen van 133MHz, de baseclock. In de praktijk blijft de Turbo Boost echter vaak beperkt tot slechts één 'bin', dus 133MHz hoger dan de stocksnelheid. Dat is mogelijk over alle vier de cores, mits de cpu niet te warm wordt.
In de 'opvolger' van de Nehalem, de Lynnfield-processors, werd de turbo-modus opgeschroefd. Singlethreaded applicaties konden rekenen op vier (voor de i5-750) of zelfs vijf extra (voor de i7-870) 'bins', terwijl dualcore-toepassingen nog altijd vier extra bins kregen. Pas bij drie of vier actieve cores daalt de turbosnelheid naar één (bij de i5-750) of twee (bij de i7-870) extra bins.
De nieuwste generatie Intel-processors, de Sandy Bridge-cpu's, hebben nog steeds enkele 'bins' Turbo Boost, maar dit gaat wegens de afwijkende architectuur van de processors met bins van 100MHz. De turbo, die gebruik maakt van de ruimte in de tdp, wordt hier echter verdeeld over de cpu en gpu. Wanneer cpu-intensieve taken worden uitgevoerd, zulen vooral de cores een hogere kloksnelheid krijgen, mits het systeem niet te warm wordt. Bij gpu-intensieve activiteiten krijgt de gpu een tandje erbij, en bij een gemengde werklast wordt de beschikbare ruimte in tdp vertaald in hogere kloksnelheden voor zowel de cpu als de gpu.
/i/1293633856.png?f=imagenormal)
De gpu kan daarbij, afhankelijk van het model, kloksnelheden tot 1100 of 1350MHz krijgen, terwijl de cpu er maximaal 4 'bins' ofwel 400MHz bij krijgt. Voor een processor als de Core i7-2600K betekent dat een maximale kloksnelheid van 3,8GHz voor de cpu-cores onafhankelijk hoeveel cores belast worden: de turbo is puur afhankelijk van de ruimte tot de maximale tdp bereikt wordt. Dat is een flinke afwijking ten opzichte van voorgaande processorgeneraties.
De turbo van AMD heeft het bedrijf Turbo Core genoemd en wordt op de Thuban-cores toegepast. De techniek laat de uncore met rust en verdeelt de zes processorcores in twee blokken. Wanneer drie of minder cores belast worden, krijgen zij een turbo-boost, terwijl de andere drie cores teruggeklokt worden tot 800MHz en bijbehorende lage spanning. De drie Turbo Cores krijgen, afhankelijk van het model, een extra 400 of 500MHz. De tdp wordt op die manier niet overschreden.
De chipsets
Intel heeft net als bij de 1156-processors in grote lijnen twee smaken desktop-chipsets voor Sandy Bridge uitgebracht: de P67 en H67. De P67 is bedoeld voor systemen met een losse videokaart, terwijl de H67 poorten voor video-uitvoer van de gpu van de processor aan boord heeft. De chipsets hebben enkele features, zoals twee sata-600-poorten en een geïntegreerde geluidskaart gemeen. Intel koos nog niet voor integratie van usb 3.0-poorten en ook de pci-express-standaard volgt versie 2.0.
/i/1293792139.png?f=imagenormal)
Mobiel
Voor de mobiele markt zijn vijf moederbordchipsets beschikbaar. De tdp's van de chipsets variëert tussen de 3,4 en 3,9W en de chips meten 25 bij 25 millimeter, hoewel ook een 22 bij 22 millimeter-variant voor ultraportables beschikbaar is. Naast de kleine chipset voor ultraportables omvat de Series 6 ook chipsets voor zakelijke laptops. Voor consumenten zijn drie versies gereserveerd. De HM65 is voor instaplaptops bedoeld, terwijl de HM67 voor meer prestatiegerichte laptops is. De UM67 heeft, net als de QS67 voor ultraportables een halve watt lager energieverbruik en is voor zuinige systemen bedoeld.
Alle mobiele chipsets kunnen het videosignaal van de Sandy Bridge-processors uitsturen. Daarbij kunnen twee displays worden aangestuurd. Tevens zijn zes reguliere sata-300-interfaces beschikbaar en hebben de chipsets de beschikking over nog eens twee sata-600-poorten. In alle versies zijn veertien usb 2.0-poorten beschikbaar, behalve in de HM65: die moet het met 12 poorten doen. Tevens mist deze chipset, net als de ultrazuinige chipset, ondersteuning voor Intels Extreme Tuning Utility, waarmee de systemen kunnen worden getweaked.
Desktop
De desktop zal met vier chipsets worden bediend, waarvan twee voor de consumentenmarkt beschikbaar zijn. Zakelijke gebruikers kunnen uitzien naar de Q67-chipset en de B65-chipset. Laatstgenoemde heeft twaalf usb 2.0-poorten, terwijl de overige chipsets over 14 poorten beschikken. Tevens mist de B65 zijn tweede sata-600-poort: de overige chipsets hebben zes sata-300- en twee sata-600-interfaces.
Voor de consumentenmarkt zijn de H67- en P67-chipsets beschikbaar, die beiden de lga1155-socket combineren met twee tweekanaals geheugencontrollers. Veertien usb 2.0-kanalen, acht pci-express 2.0-kanalen en acht sata-poorten vormen de gemene deler van de chipsets. Voor videokaarten zijn zestien pci-express-lanes vanuit de processor beschikbaar. De P67 is echter niet in staat tot de uitvoer van video van de processorgraphics, terwijl de H67 dat wel ondersteunt. De P67-chipset dient dus altijd met aparte grafische kaart gecombineerd te worden.
Prestaties
Intel belooft, zoals uit dit deel van de Sandy Bridge-reviews blijkt, uitstekende prestaties van Sandy Bridge. De vraag is natuurlijk of dit alleen een papieren belofte is, of dat deze ook daadwerkelijk kan worden ingelost.
Om dat te testen hebben we nieuwe processors aan een reeks testen onderworpen. Om een vergelijking van de prestaties mogelijk te maken, hebben we bovendien ongeveer gelijkgeprijsde processors van Intel én AMD aan dezelfde reeks testen onderworpen als de nieuwe Core i5- en i7-processors.
De resultaten van deze uitgebreide benchmarks zijn te lezen in het artikel 'Sandy Bridge: de benchmarks '.