Intel onthult details over Larrabee-processor/gpu

Intel blijkt al meer informatie te hebben vrijgegeven over het Larrabee-project dan het zelf in de gaten heeft. Het officiële verhaal blijft zelfs na aandringen behoorlijk vaag, maar de slides van een vorig jaar gehouden lezing op Michingan State University zijn weinig verhullend.

Larrabee wordt een kruising tussen een videokaart en een x86-processor. Het doel is om 16 tot 24 simpele cores met 4MB tot 6MB cache op een 45nm-chip te plakken, deze ergens tussen de 1,7GHz en 2,5GHz te klokken (hopelijk zonder te ver boven de 150W te komen), en daarmee zowel gamers als supercomputers te plezieren. De cores zijn relatief klein en simpel, maar kunnen wel aan vier threads tegelijk werken. Bovendien hebben ze 512-bits vectoreenheden, vier keer zo breed als die van Core 2. De gecombineerde kracht zou groot genoeg moeten zijn om een teraflop per processor te halen. Het beestje zou gevoed moeten worden door 1GB of 2GB geheugen met een bandbreedte van 128GB/s.

Larrabee architectuur

Vergeleken met het huidige aanbod van ATi en nVidia zijn deze specs vrij indrukwekkend, maar die twee zitten natuurlijk ook niet stil. Nvidia heeft al aangekondigd dat zijn G92 ook 'bijna een teraflop' gaat halen. Belangrijk verschil is echter dat makers van videokaarten het over zogenaamde SP (single precision) flops hebben van 32-bits getallen, terwijl Intel het over DP (double precision) heeft, oftewel 64-bits. Larrabee wordt echter pas begin 2009 verwacht, dus er is genoeg tijd voor de GeForce en Radeon om in te halen. Wel denkt Intel door het gebruik van de x86-instructieset meer leuke trucs te kunnen doen, bijvoorbeeld op het gebied van physics, raytracing en kunstmatige intelligentie. Er zijn wel allerlei projecten gaande om gpu's te programmeren door pixelshaders te misbruiken, maar gewoon x86-code draaien zal waarschijnlijk toch altijd makkelijker blijven voor ontwikkelaars.

Een ander concept dat men overweegt is om Larrabee niet alleen als kaart uit te brengen, maar ook als processor in een normaal socket. Via CSI - de opvolger van de FSB - zouden twee, vier of meer Larrabees aan elkaar geknoopt kunnen worden in één systeem. Van daar uit is het nog maar een kleine stap om tot een hybride architectuur te komen waarin een gewone x86-processor zij aan zij werkt met een Larrabee.

Larrabee systeem

Samengevat is Larrabee een product met een identiteitscrisis, of misschien beter gezegd, iets wat in een volledig nieuwe categorie valt. Deels geïnspireerd door processors als IBM Cell en Sun Niagara, en deels door videochips als de GeForce en Radeon. Het is natuurlijk de bedoeling dat het het beste van twee werelden wordt, maar het zou ook net tussen wal en schip in kunnen vallen. Intel heeft in ieder geval nog dik anderhalf jaar om zijn strategie uit te stippelen.

Door Wouter Tinus

01-06-2007 • 23:25

49

Bron: Intel

Lees meer

Intel schrapt Project Offset
Intel schrapt Project Offset Nieuws van 2 juli 2010

Reacties (49)

49
49
9
1
0
31
Wijzig sortering
Wat wordt er bedoeld met simpele cores? Simpele instructieset, dus geen SSE3/4? Ik ben nog niet overtuigd van de larabee , AMD heeft gewoon veel meer ervaring op het gebied van GPU's
Wat wordt er bedoeld met simpele cores? Simpele instructieset, dus geen SSE3/4?
Nee, de instructieset is hetzelfde (uitgebreider zelfs voor de 512-bit eenheden). Maar hij mist bijvoorbeeld out-of-order execution en kan ook geen vier instructies per kloktik uitvoeren zoals Core 2. Zo zijn er waarschijnlijk nog een hoop meer dingen die er uit gesloopt zijn om transistors te besparen.
Ik ben nog niet overtuigd van de larabee , AMD heeft gewoon veel meer ervaring op het gebied van GPU's
Ik denk persoonlijk ook niet dat het als GPU direct een succes zal worden, het zal volgens mij meer in de niche van Niagara/Cell/GPGPU dienen en wellicht tegelijk een leuke (maar dure/hete) midrange videokaart worden. Op langere termijn (Larrabee2, 3, enz.) zou het wel kans kunnen hebben, o.a. dankzij Intels voorsprong met productietechniek.
Anoniem: 133470 @d4r4h4n1 juni 2007 23:53
Vergis je daar niet in.
Intel heeft ook gewoon SM3.0-hardware in hun onboard chipsets.
Die zijn weliswaar niet zo snel als de ATi-GPUs, maar daar zijn ze ook niet voor ontworpen. Ze zijn ontworpen om goedkoop te zijn, en efficient om te springen met geheugen en energie.
En dat doen ze heel behoorlijk, het is toch echt wel cutting-edge technologie...
Verder is Intel zo slim om het op hun x86-technologie te baseren, en daarin hebben ze natuurlijk meer ervaring dan AMD.
Efficient en zuinig is de nieuwe X3100 ook niet te noemen... Scheen aardig wat te verbruiken en zou nog meer rekenkracht hebben als mijn Go 7600 (450MHz x8 pipelines 7600 vs 500MHz x8 pipeleines voor de X3100...). Nee goedkoop en helemaal nodig voor zo'n chip..
Anoniem: 47200 @d4r4h4n2 juni 2007 00:03
simpel als in geen x86, ze kunnen dus wel veel maar het moet eenvoudig zijn, als het moeilijk wordt zullen deze gpu's het niet aankunnen omdat ze de instructies niet kunnen decoderen.

AMD heeft die technologie gewoon gekocht, dat is ook een manier :)
Hmmm erg interesant als deze nou inderdaad het werk van zowel de cpu als de gpu over kan nemen word dit een krachtig middel voor een laptop? of heb ik het verhaal helemaal verkeerd begrepen |:(
De singlethread prestaties van Larrabee zijn waarschijnlijk te slecht om hem als énige cpu te willen gebruiken. Hij kan in principe wel alles draaien, maar wordt in eerste instantie toch bedoeld als co-processor. Op langere termijn zou ik me wel kunnen voorstellen dat Intel chips uit gaat brengen met bijvoorbeeld 2 gewone cores en 8 Larrabee-cores, die tegelijk als GPU kunnen dienen.
Half waar denk ik :).

Ik denk namelijk dat in situaties waarvoor nu de Sun Niagara interessant is, deze chip ook interessant kan zijn. En dan heeft deze chip waarschijnlijk ook nog de floating point rekenkracht om interessant te zijn voor multithreaded rekenwerk. Dus ook als specialistische webserver/rekenbak kan dit best interessant worden.
Niagara chip is gebouwd om integers te verstouwen, deze larrabee is een floating point chip. 2 totaal verschillende vormen van chips dus.

Niagara is een goedkope chip in nodes. Een niagara node kost een paar duizend dollar per node.

De vraag is maar zeer hoe prijzig zo'n larrabee chip is met 4 memory controllers en 4 chips.

Ik gok zo'n node kost een duizendje of 40?

Sun lost overigens zijn memory bandbreedte op een andere manier op, namelijk 1 niagara chip heeft 4 memory controllers.

Ook voor Sun gaat het chicken principe op van Seymour Cray:

"If you were plowing a field, which would you rather use? Two strong oxen or 1024 chickens?"
150 op een laptop, nee bedankt. Denk idd dat jij het verkeerd vat...
Zou dit nu die "videokaart" zijn waar Intel volgens geruchten aan zou werken?

Het klinkt in ieder geval wel interessant :Y)
Ja, dit is de videokaart waar ze aan werken, dat is al bevestigd :).
Ok wat we zien is een paar verwarrende 'details' en 2 nieuwe details.

Nieuw:
a) een csi bus tussen de cpu's
b) een on die memory controller (die csi bus is nodig om dat probleem op te lossen)

verwarrend is dat larrabee tegelijk met terascale genoemd wordt.

Probleem van terascale chip is 2 zijdig:
a) er bestaat (nu in 2007) een prototype van die al gedemonstreerd is elders, maar die is extreem laag geklokt en 't heeft wel erg weinig transistors nog.
b) terascale chip heeft 256KB sram per core en de "L1" cache zogenaamd is maar 1 of 2 kilobyte. Dat is vreselijk onhandig voor serieuze software. Daar past letterlijk bijna geen enkel programma goed in.
c) al die chips, zo ook Intels terascale chip kan eigenlijk alleen snel single precision floating point hanteren, terwijl alle supercomputer berekeningen in double precision floating point werken.

Ter vergelijking 3.1415 is een single precision float
en 3.14159265358979 is double precision. 5 versus 15 digits precisie kortom.

Dan verder gaan ze uit van geniaal snel DDR3 ram.

De vraag is of zo'n chip nog wel interessant is tegen de tijd dat al die componenten bestaan.

AMD heeft dan wellicht al zijn 8 core 4.2Ghz 4 instructions per cycle K10 chip gelanceerd, die nog veel meer kan dan deze sheet laat zien.

Wie heeft er nu nog 2Ghz chips x 16 cores die niks kunnen nodig als alternatief is een intel of AMD geniale 8 core chip @ 4.2Ghz met een 2x hogere IPC (instructions per cycle).

Zo'n 16 core chip @ 2Ghz is handig als we hem in 2007 geleverd kunnen krijgen. Niet in 2009.

Het is nu 2007 en we hebben niks gehoord over al deze projecten behalve dan een presentatie van een prototype terascale die vreselijk laag geclockt is en alleen 32 bits floats intern kan verplaatsen.

Er zijn vast 1 of 2 toepassingen waar dit vreselijk handig voor is, maar ze schieten me zo even snel niet te binnen.

De overige 99% van alle software die rekensnelheid nodig heeft, kan dat op dit moment niet gebruiken.

Dat betekent dus dat ze maar een paar van die cpu's zouden kunnen slijten. Het gevolg is dan of een extreem hoge prijs, of logischerwijze dat de chip nooit gebouwd gaat worden. Bovendien bij kleine oplages, zie itanium, loopt zo'n chip altijd procesgeneraties achter op de realiteit. Alleen chips waar Intel er een kwart miljard van plant te gaan drukken, die worden op de duurste en meest recent gebouwde fabriek gedrukt, dat is binnenkort dus 45 nm.

Natuurlijk is dat CSI & on die memory controller verhaal wel heel interessant. Dat gaat vast gebouwd worden :)
b) terascale chip heeft 256KB sram per core en de "L1" cache zogenaamd is maar 1 of 2 kilobyte. Dat is vreselijk onhandig voor serieuze software. Daar past letterlijk bijna geen enkel programma goed in.
We hebben het hier wel over een GPU/stream processor.
Die draaien kleine programmaatjes die een stream verwerken, dus de input en output zijn zeer voorspelbaar te cachen. Alles is lineair.
Grote caches zijn dus helemaal niet nodig.
De 'applicatie' draait op de hoofd-processor, en installeert de stream-programmaatjes op de stream-processor.
Zo werkt bv Cell ook. Behalve dan dat de hoofd-processor daar geintegreerd is.
x86 is net als het QWERTY-toetsenbord.

Heel onhandig, maar zo ingeburgerd dat we er beter mee kunnen werken.
Ja, daarom gebruik ik ook dvorak.

Als de wil er eens zou zijn en mensen eens op lange termijn kijken, dan waren we zo van beide problemen af...
Ja; en converteren naar een ander platform over de hele wereld is ook zo gebeurt!

'Slechts' bijna elke software leverancier zal z'n code base overhoop moeten halen.

|:(

Begrijp me niet verkeerd, ik snap je punt en ik zou er ook open voor staan om x86 platform te lozen, maar dit is gewoon haast niet te doen.
Makkelijk, kijk naar Itanium bijvoorbeeld, kan gewoon x86 code uitvoeren (geemuleerd, dat wel). Jammer dat dat nooit wat voor desktop gebruik is geworden.
Het x86 platform 'lozen' kan wel. Meteen een goed moment om over te stappen op open source. Tenzij je een 'oude' binary wilt uitvoeren dan heb je een emulator nodig. En die is juist voor het proprietare Windows niet helemaal perfect compatible te krijgen, het blijft een emulator en niet the-real-thing. En ik verwacht niet dat Microsoft daar aan mee gaat werken.
De enige barierre voor het vrijelijk switchen tussen platforms is het niet beschikbaar zijn van de source. Gek dat de ene software fabrikant zo de andere hardwarefabrikant in het zadel houd.
Hey!
Ig kebruig oog eem DVORAG geyboars!
:*)
Ho, Ho Qwerty is de toetsenbord layout die bij typemachines het minst storingsgevoelig is. Dus "vroeger" was het wel degelijk heel handig. En tegenwoordig is het nog steeds een vrij aardige indeling als je met 10 vingers kunt typen (en je notebook niet zo heet wordt dat je je polsen brand)
Nee een vrij aaridige is dus dvorak ;) Qwerty lijkt aardig omdat we allemaal niet beter weten. Ik gebruik het zelf niet maar het klinkt inderdaad veel logischer dan qwerty.
Hier een plaatje van 3 verschillende dvorak indelingen (2 handig, alleen links of rechtshandig).

Je hoeft iig minder je vingers te bewegen dan bij qwerty.

Nog een lijstje met verschillen hiervandaan.

Finger travel distance is 8 to 20 times greater for QWERTY typing than for Dvorak.
In typical English, 70% of letters occur in the home row in Dvorak, compared to 31% in QWERTY.
Reaches across rows occur five times less frequently in Dvorak than in QWERTY.
The error rate for QWERTY typists is about twice that of Dvorak typists.
A study carried out by the US Navy indicated that they could recover the costs of retraining their typists in Dvorak in 10 days, because of their increased productivity.
The average beginner typists would require 56 hours of training to attain a 40 word-per-minute speed in QWERTY; in Dvorak, the time is reduced to 18 hours.
Leuk, zo'n studie voor engelse woorden, maar hoe zit het met de nederlandse taal? Is daar net zo'n verbetering zichtbaar of hebben wij dusdanig andere woorden dat een betere indeling denkbaar is?

En hoe zit het als je programmeur bent en nogal veel {} &*@ moet tikken? Wat als je veel met XML of HTML doet en dus steeds </> nodig hebt? Het is nogal kortzichtig om zomaar te roepen dat Dvorak beter is...
Als programmeur copy paste ik zo veel mogelijk en gebruik ik bijna altijd ctrl + spatie (de autocomplete).
Anders zou het niet te houden zijn van de rsi vrees ik.
;(
Whieee Moderator Apple Talk @Pozo4 juni 2007 00:55
Mijn ervaring is dat mijn linkerhand het doorgaans drukker heeft dan mijn rechterhand wanneer ik nederlandse tekst typ met een QWERTY indeling.
Ho, Ho Qwerty is de toetsenbord layout die bij typemachines het minst storingsgevoelig is.
Dat geldt alleen voor mechanische schrijfmachines met letterstangen.

Zie ook:
http://nl.wikipedia.org/wiki/QWERTY
sinds wanneer is het ingeburgerd dan?

hier in belgië in ieder geval niet dacht ik :?
Het zou veel leuker zijn als je zo'n "processor" gebruikt samen met een videokaart van nVidia of AMD. Als intel niet te bitchy doet kunnen die twee prima samen werken voor uber prestaties!
Mooi samenwerken met nVidia zal nog wel kunnen maar met een ATI(AMD) zie ik dat toch veel minder snel gebeuren,...
Als Intel deze cpu/gpu incompatibel maakt met AMD gpu's snijden ze zichzelf alleen maar in de vingers. Geld is geld, of het nu afkomstig is van een intel-freak of een amd-fanboy dat maakt natuurlijk niets uit. Als ze dit project van de grond willen krijgen moeten ze het hebben van de early adopters. Als dan blijkt dat het een goed concept is volgen grote systeembouwers en de mainstream markt.
Je zal denken van 150Watt dat is geen kattepis.

Echter als je na gaat dat het 16 tot 24 chips zijn met nog eens een X aantal L2 cache en nog eens op een aanzienlijke snelheid valt dit reuze mee.

Alleen vat ik het gebruik van het geheugen niet helemaal. Er word gepraat over 1 a 2Gb op een bandbreedte van 128GB/s word hier GDDR3/4 bedoeld of het gebruik van FB-DIMM of DDR3?
Alleen vat ik het gebruik van het geheugen niet helemaal. Er word gepraat over 1 a 2Gb op een bandbreedte van 128GB/s word hier GDDR3/4 bedoeld of het gebruik van FB-DIMM of DDR3?
Die 128GB/s is met GDDR. Voor een eventuele socketversie zullen ze wel FBD of DDR moeten gebruiken, dus dan is de bandbreedte niet zo hoog.
Anoniem: 22738 2 juni 2007 00:06
Normaal is of je videokaart of je CPU de bottleneck bij het spelen van spellen. Dat nadeel is hiermee volledig verdwenen. Het lijkt mij juist ideaal dat hardware gezamelijk aan een actieve taak werkt en niet zoals nu dat je bij het encoden van een video een krachtige videokaart hebt die zit te niksen.
Dan kan upgraden echter weer duurder worden. Ze kunnen wel alles op 1 chip proppen alleen als er dan iets kapot gaat of je wilt upgraden ben je een enorme berg geld kwijt omdat je meteen alles moet vervangen.
Ik betwijfel of deze Larrabee en een gp-cpu gezamenlijk aan iets kunnen werken. Ze hebben namelijk een ander toepassingsgebied:
een cpu is gespecialiseerd in integer berekeningen
een gpu/larrabee maakt floating point berekeningen

Het toewijzen van bepaalde instructies aan 1 van de 2 is de taak van ofwel de programmeur (die het werk grof kan verdelen maar dan wel het meest intelligent) ofwel de taak van de compiler, maar dat is bepaald niet gemakkelijk (en er bestaat ook nog geen versie die het beter kan dan de programmeur).

En dan hebben we het nog niet gehad over verschillende configuraties (A heeft 1 cpu, 2 gpu van 12 threads, B heeft een 4 core CPU en 1 gu van 48 threads )
Anoniem: 221389 2 juni 2007 00:36
Slide 31 is ook interessant. Daar staat een vergelijking tussen Larrabee en Gesher (opvolger van de Nehalem) welke gepland staat voor 2009. Specs (overgetypt van de slide):

Gesher
Clock frequency: 4 GHz
Cores: 4-8
DP flop/cycle/core: non-SSE: 2
w/ SSE: 7
Cache/core: L1: 32KB, 3 clocks
L2: 512Kb, 9 clocks
L3: 2-3MB, 33 clocks
Cache line width: 64B
Ring bandwidth: 256B/cycle
Fast DRAM: 64GB/s
Memory bw, latency: 16GB/s/link, 50 ns (CSI)
Peak DP flops: 28 Gflops/core
0.1 - 0.2 Tflops/processor

Een paar voorzichtige conclusies:
3 full? SSE units + x87
2048 bit ring buffer (of 1024 bit dubbel geklokt)
4 CSI links
Lijkt me 4 full SSE units, anders kom je nooit op een theoretische performance van 7 double precisions per cycle, maar de vraag is dan hoeveel van die units kunnen vermenigvuldigen.

Het is natuurlijk op het lachwekkende af dat de highend schreeuwt om snellere matrixvermenigvuldigingen en afgaat op het theoretische gflop geschreeuw, terwijl maar 1 unit vermenigvuldigen kan op zo'n chip (en dan een throughput heeft van 1/3 maar, kortom je unit is dan 3 cycles druk bezig).

Interessant is dat ze kennelijk ook parallel willen gaan schrijven naar de RAM. Dat zou een enorme bottleneck oplossen en meer dan 4 cores per cpu mogelijk maken.

Een goede programmeur kan dan werkelijk veel uit al die cores halen, terwijl nu de grote bottleneck die memory is.

Verrassend om te zien is dat ze er 512MB 'fast ram' tussen willen gaan poten als "level 4 cache" ?

Een 32KB L1 cache met 3 cycle latency zuigt overigens enorm, maar dat is wel wat je nodig hebt om op 4 Ghz te komen. Met zo'n knullige L1 cache haal je nooit de 7 DP per cycle natuurlijk, want hoe ga je dan ooit genoeg data afhalen uit die L1 om je execution units bezig te houden?

2Ghz @ 1 cycle latency voor larrabee, mag ik even hard lachen? Klinkt als een nieuwe itanic.

Maar voor al die chips geldt: waarom in vredesnaam intel maar blijft vasthouden aan zo'n lachwekkende L1 cache.
Larrabee wordt echter pas begin 2009 verwacht, dus er is genoeg tijd voor de GeForce en Radeon om in te halen. Wel denkt Intel door het gebruik van de x86-instructieset
Tegen die tijd zal Windows alleen al enkel in 64x uitkomen, laat staan dat de echte tweaker nog op x86 geoptimaliseerde processors zit te wachten.
"x64" (niet 64x) is gewoon een leuk naampje dat Microsoft heeft verzonnen voor de AMD64/EM64T extensies, oftewel x86-64. Puur omdat het 64-bit is wil niet zeggen dat het geen x86 meer is.
Die term x86 wordt al heel lang compleet verkeerd gebruikt.

De 8088 was een 8bit CPU en de 8086 een 16bit CPU.

Daar is dan met der tijd x86 van gemaakt wat sinds de 32bit uitbredingen en dergelijke eigenlijk een compleet foutieve naam is voor het produkt in kwestie.
150 watt is eigenlijk niet zoveel.
dit omdat het een processor is (is normaal alleen al 65-90 watt) en een videokaart want ook het middensegment
vreet enorm veel stroom.
echter als je de onchip graka niet gebruikt en misbruikt voor bijv AI
en er een "echte" grafische kaart in doet daan gaat het wel veel stroomvreten ja. maar daar is dit niet voor bedoeld.
dit is gewoon een alles in 1 chip die nog best eens goed zou kunnen performen.

edit
trouwens hoe zit dat met de bandbreedte?
nu alle data va cpu direct kan doorstromen naar gpu zonder moederbord of bridges ertussen.
Scheelt dat lag, of kost het juist performance omdat je alle data weer moet exporteren naar je dvi (of andere) output
weet iemand dat?
Ach joh, een grafische kaart die in een slot ingeprikt staat als cpu gebruiken is ueberhaupt grote nonsense, want je pci-e heeft niet genoeg bandbreedte simpelweg.

Zie dit alles in het licht van brainstormen van wat intel engineers.

Je kunt die redenatiestappen van die lui zo volgen.

Eerste waar ze aan denken is: "goh, we willen wel meer cores dan we volgend jaar in normale cpu's hebben nietwaar? James, hoeveel heeft onze core2 er over 2 jaar? james: 8. Ok folks, let's take 16 for our new chip".

Kortom 16 cores pak je dan

Je ziet hun hersens denken:
"heh AMD took over ATI and might integrate GPU with cpu, can't we do that also?"

antwoord: dat kost dus transistors van je normale cpu, dus dat gaat dan op een veto stuiten van een manager ergens, dat snappen ze donders goed.

het grote brein daar dan bedenkt: "goh maar als we de gpu transistors nu ook nog eens kunnen gebruiken als normale GPR's? (general programming registers)

ROFL.

Dat teken je dan op papier en dan heb je al die larrabee chip, want die CSI bridge is dan bedacht als tegenhanger van AMD's hypertransport en natuurlijk is on die memory controller nodig om genoeg bandbreedte in de richting van die chip te krijgen.

Dan zet intel een paar engineers aan 't werk om zo'n chippie in superproefvorm te designen (dat is letterlijk maar een paar man, want al die chips worden door kleine teams gebouwd en pas na 't bouwen dan worden er een paar honderd lui op gezet om dat ding te optimizen met de hand teneinde het design hoger te klokken).

Veel verder dan dit gaat 't echt niet.

Op dit item kan niet meer gereageerd worden.