Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 49 reacties
Bron: Intel

Intel blijkt al meer informatie te hebben vrijgegeven over het Larrabee-project dan het zelf in de gaten heeft. Het officiële verhaal blijft zelfs na aandringen behoorlijk vaag, maar de slides van een vorig jaar gehouden lezing op Michingan State University zijn weinig verhullend.

Larrabee wordt een kruising tussen een videokaart en een x86-processor. Het doel is om 16 tot 24 simpele cores met 4MB tot 6MB cache op een 45nm-chip te plakken, deze ergens tussen de 1,7GHz en 2,5GHz te klokken (hopelijk zonder te ver boven de 150W te komen), en daarmee zowel gamers als supercomputers te plezieren. De cores zijn relatief klein en simpel, maar kunnen wel aan vier threads tegelijk werken. Bovendien hebben ze 512-bits vectoreenheden, vier keer zo breed als die van Core 2. De gecombineerde kracht zou groot genoeg moeten zijn om een teraflop per processor te halen. Het beestje zou gevoed moeten worden door 1GB of 2GB geheugen met een bandbreedte van 128GB/s.

Larrabee architectuur

Vergeleken met het huidige aanbod van ATi en nVidia zijn deze specs vrij indrukwekkend, maar die twee zitten natuurlijk ook niet stil. Nvidia heeft al aangekondigd dat zijn G92 ook 'bijna een teraflop' gaat halen. Belangrijk verschil is echter dat makers van videokaarten het over zogenaamde SP (single precision) flops hebben van 32-bits getallen, terwijl Intel het over DP (double precision) heeft, oftewel 64-bits. Larrabee wordt echter pas begin 2009 verwacht, dus er is genoeg tijd voor de GeForce en Radeon om in te halen. Wel denkt Intel door het gebruik van de x86-instructieset meer leuke trucs te kunnen doen, bijvoorbeeld op het gebied van physics, raytracing en kunstmatige intelligentie. Er zijn wel allerlei projecten gaande om gpu's te programmeren door pixelshaders te misbruiken, maar gewoon x86-code draaien zal waarschijnlijk toch altijd makkelijker blijven voor ontwikkelaars.

Een ander concept dat men overweegt is om Larrabee niet alleen als kaart uit te brengen, maar ook als processor in een normaal socket. Via CSI - de opvolger van de FSB - zouden twee, vier of meer Larrabees aan elkaar geknoopt kunnen worden in één systeem. Van daar uit is het nog maar een kleine stap om tot een hybride architectuur te komen waarin een gewone x86-processor zij aan zij werkt met een Larrabee.

Larrabee systeem

Samengevat is Larrabee een product met een identiteitscrisis, of misschien beter gezegd, iets wat in een volledig nieuwe categorie valt. Deels geïnspireerd door processors als IBM Cell en Sun Niagara, en deels door videochips als de GeForce en Radeon. Het is natuurlijk de bedoeling dat het het beste van twee werelden wordt, maar het zou ook net tussen wal en schip in kunnen vallen. Intel heeft in ieder geval nog dik anderhalf jaar om zijn strategie uit te stippelen.

Moderatie-faq Wijzig weergave

Reacties (49)

Wat wordt er bedoeld met simpele cores? Simpele instructieset, dus geen SSE3/4? Ik ben nog niet overtuigd van de larabee , AMD heeft gewoon veel meer ervaring op het gebied van GPU's
Wat wordt er bedoeld met simpele cores? Simpele instructieset, dus geen SSE3/4?
Nee, de instructieset is hetzelfde (uitgebreider zelfs voor de 512-bit eenheden). Maar hij mist bijvoorbeeld out-of-order execution en kan ook geen vier instructies per kloktik uitvoeren zoals Core 2. Zo zijn er waarschijnlijk nog een hoop meer dingen die er uit gesloopt zijn om transistors te besparen.
Ik ben nog niet overtuigd van de larabee , AMD heeft gewoon veel meer ervaring op het gebied van GPU's
Ik denk persoonlijk ook niet dat het als GPU direct een succes zal worden, het zal volgens mij meer in de niche van Niagara/Cell/GPGPU dienen en wellicht tegelijk een leuke (maar dure/hete) midrange videokaart worden. Op langere termijn (Larrabee2, 3, enz.) zou het wel kans kunnen hebben, o.a. dankzij Intels voorsprong met productietechniek.
Vergis je daar niet in.
Intel heeft ook gewoon SM3.0-hardware in hun onboard chipsets.
Die zijn weliswaar niet zo snel als de ATi-GPUs, maar daar zijn ze ook niet voor ontworpen. Ze zijn ontworpen om goedkoop te zijn, en efficient om te springen met geheugen en energie.
En dat doen ze heel behoorlijk, het is toch echt wel cutting-edge technologie...
Verder is Intel zo slim om het op hun x86-technologie te baseren, en daarin hebben ze natuurlijk meer ervaring dan AMD.
Efficient en zuinig is de nieuwe X3100 ook niet te noemen... Scheen aardig wat te verbruiken en zou nog meer rekenkracht hebben als mijn Go 7600 (450MHz x8 pipelines 7600 vs 500MHz x8 pipeleines voor de X3100...). Nee goedkoop en helemaal nodig voor zo'n chip..
simpel als in geen x86, ze kunnen dus wel veel maar het moet eenvoudig zijn, als het moeilijk wordt zullen deze gpu's het niet aankunnen omdat ze de instructies niet kunnen decoderen.

AMD heeft die technologie gewoon gekocht, dat is ook een manier :)
Hmmm erg interesant als deze nou inderdaad het werk van zowel de cpu als de gpu over kan nemen word dit een krachtig middel voor een laptop? of heb ik het verhaal helemaal verkeerd begrepen |:(
De singlethread prestaties van Larrabee zijn waarschijnlijk te slecht om hem als énige cpu te willen gebruiken. Hij kan in principe wel alles draaien, maar wordt in eerste instantie toch bedoeld als co-processor. Op langere termijn zou ik me wel kunnen voorstellen dat Intel chips uit gaat brengen met bijvoorbeeld 2 gewone cores en 8 Larrabee-cores, die tegelijk als GPU kunnen dienen.
Half waar denk ik :).

Ik denk namelijk dat in situaties waarvoor nu de Sun Niagara interessant is, deze chip ook interessant kan zijn. En dan heeft deze chip waarschijnlijk ook nog de floating point rekenkracht om interessant te zijn voor multithreaded rekenwerk. Dus ook als specialistische webserver/rekenbak kan dit best interessant worden.
Niagara chip is gebouwd om integers te verstouwen, deze larrabee is een floating point chip. 2 totaal verschillende vormen van chips dus.

Niagara is een goedkope chip in nodes. Een niagara node kost een paar duizend dollar per node.

De vraag is maar zeer hoe prijzig zo'n larrabee chip is met 4 memory controllers en 4 chips.

Ik gok zo'n node kost een duizendje of 40?

Sun lost overigens zijn memory bandbreedte op een andere manier op, namelijk 1 niagara chip heeft 4 memory controllers.

Ook voor Sun gaat het chicken principe op van Seymour Cray:

"If you were plowing a field, which would you rather use? Two strong oxen or 1024 chickens?"
150 op een laptop, nee bedankt. Denk idd dat jij het verkeerd vat...
Zou dit nu die "videokaart" zijn waar Intel volgens geruchten aan zou werken?

Het klinkt in ieder geval wel interessant :Y)
Ok wat we zien is een paar verwarrende 'details' en 2 nieuwe details.

Nieuw:
a) een csi bus tussen de cpu's
b) een on die memory controller (die csi bus is nodig om dat probleem op te lossen)

verwarrend is dat larrabee tegelijk met terascale genoemd wordt.

Probleem van terascale chip is 2 zijdig:
a) er bestaat (nu in 2007) een prototype van die al gedemonstreerd is elders, maar die is extreem laag geklokt en 't heeft wel erg weinig transistors nog.
b) terascale chip heeft 256KB sram per core en de "L1" cache zogenaamd is maar 1 of 2 kilobyte. Dat is vreselijk onhandig voor serieuze software. Daar past letterlijk bijna geen enkel programma goed in.
c) al die chips, zo ook Intels terascale chip kan eigenlijk alleen snel single precision floating point hanteren, terwijl alle supercomputer berekeningen in double precision floating point werken.

Ter vergelijking 3.1415 is een single precision float
en 3.14159265358979 is double precision. 5 versus 15 digits precisie kortom.

Dan verder gaan ze uit van geniaal snel DDR3 ram.

De vraag is of zo'n chip nog wel interessant is tegen de tijd dat al die componenten bestaan.

AMD heeft dan wellicht al zijn 8 core 4.2Ghz 4 instructions per cycle K10 chip gelanceerd, die nog veel meer kan dan deze sheet laat zien.

Wie heeft er nu nog 2Ghz chips x 16 cores die niks kunnen nodig als alternatief is een intel of AMD geniale 8 core chip @ 4.2Ghz met een 2x hogere IPC (instructions per cycle).

Zo'n 16 core chip @ 2Ghz is handig als we hem in 2007 geleverd kunnen krijgen. Niet in 2009.

Het is nu 2007 en we hebben niks gehoord over al deze projecten behalve dan een presentatie van een prototype terascale die vreselijk laag geclockt is en alleen 32 bits floats intern kan verplaatsen.

Er zijn vast 1 of 2 toepassingen waar dit vreselijk handig voor is, maar ze schieten me zo even snel niet te binnen.

De overige 99% van alle software die rekensnelheid nodig heeft, kan dat op dit moment niet gebruiken.

Dat betekent dus dat ze maar een paar van die cpu's zouden kunnen slijten. Het gevolg is dan of een extreem hoge prijs, of logischerwijze dat de chip nooit gebouwd gaat worden. Bovendien bij kleine oplages, zie itanium, loopt zo'n chip altijd procesgeneraties achter op de realiteit. Alleen chips waar Intel er een kwart miljard van plant te gaan drukken, die worden op de duurste en meest recent gebouwde fabriek gedrukt, dat is binnenkort dus 45 nm.

Natuurlijk is dat CSI & on die memory controller verhaal wel heel interessant. Dat gaat vast gebouwd worden :)
b) terascale chip heeft 256KB sram per core en de "L1" cache zogenaamd is maar 1 of 2 kilobyte. Dat is vreselijk onhandig voor serieuze software. Daar past letterlijk bijna geen enkel programma goed in.
We hebben het hier wel over een GPU/stream processor.
Die draaien kleine programmaatjes die een stream verwerken, dus de input en output zijn zeer voorspelbaar te cachen. Alles is lineair.
Grote caches zijn dus helemaal niet nodig.
De 'applicatie' draait op de hoofd-processor, en installeert de stream-programmaatjes op de stream-processor.
Zo werkt bv Cell ook. Behalve dan dat de hoofd-processor daar geintegreerd is.
Ja, dit is de videokaart waar ze aan werken, dat is al bevestigd :).
Normaal is of je videokaart of je CPU de bottleneck bij het spelen van spellen. Dat nadeel is hiermee volledig verdwenen. Het lijkt mij juist ideaal dat hardware gezamelijk aan een actieve taak werkt en niet zoals nu dat je bij het encoden van een video een krachtige videokaart hebt die zit te niksen.
Dan kan upgraden echter weer duurder worden. Ze kunnen wel alles op 1 chip proppen alleen als er dan iets kapot gaat of je wilt upgraden ben je een enorme berg geld kwijt omdat je meteen alles moet vervangen.
Ik betwijfel of deze Larrabee en een gp-cpu gezamenlijk aan iets kunnen werken. Ze hebben namelijk een ander toepassingsgebied:
een cpu is gespecialiseerd in integer berekeningen
een gpu/larrabee maakt floating point berekeningen

Het toewijzen van bepaalde instructies aan 1 van de 2 is de taak van ofwel de programmeur (die het werk grof kan verdelen maar dan wel het meest intelligent) ofwel de taak van de compiler, maar dat is bepaald niet gemakkelijk (en er bestaat ook nog geen versie die het beter kan dan de programmeur).

En dan hebben we het nog niet gehad over verschillende configuraties (A heeft 1 cpu, 2 gpu van 12 threads, B heeft een 4 core CPU en 1 gu van 48 threads )
Het zou veel leuker zijn als je zo'n "processor" gebruikt samen met een videokaart van nVidia of AMD. Als intel niet te bitchy doet kunnen die twee prima samen werken voor uber prestaties!
Mooi samenwerken met nVidia zal nog wel kunnen maar met een ATI(AMD) zie ik dat toch veel minder snel gebeuren,...
Als Intel deze cpu/gpu incompatibel maakt met AMD gpu's snijden ze zichzelf alleen maar in de vingers. Geld is geld, of het nu afkomstig is van een intel-freak of een amd-fanboy dat maakt natuurlijk niets uit. Als ze dit project van de grond willen krijgen moeten ze het hebben van de early adopters. Als dan blijkt dat het een goed concept is volgen grote systeembouwers en de mainstream markt.
Larrabee wordt echter pas begin 2009 verwacht, dus er is genoeg tijd voor de GeForce en Radeon om in te halen. Wel denkt Intel door het gebruik van de x86-instructieset
Tegen die tijd zal Windows alleen al enkel in 64x uitkomen, laat staan dat de echte tweaker nog op x86 geoptimaliseerde processors zit te wachten.
"x64" (niet 64x) is gewoon een leuk naampje dat Microsoft heeft verzonnen voor de AMD64/EM64T extensies, oftewel x86-64. Puur omdat het 64-bit is wil niet zeggen dat het geen x86 meer is.
Die term x86 wordt al heel lang compleet verkeerd gebruikt.

De 8088 was een 8bit CPU en de 8086 een 16bit CPU.

Daar is dan met der tijd x86 van gemaakt wat sinds de 32bit uitbredingen en dergelijke eigenlijk een compleet foutieve naam is voor het produkt in kwestie.
Je zal denken van 150Watt dat is geen kattepis.

Echter als je na gaat dat het 16 tot 24 chips zijn met nog eens een X aantal L2 cache en nog eens op een aanzienlijke snelheid valt dit reuze mee.

Alleen vat ik het gebruik van het geheugen niet helemaal. Er word gepraat over 1 a 2Gb op een bandbreedte van 128GB/s word hier GDDR3/4 bedoeld of het gebruik van FB-DIMM of DDR3?
Alleen vat ik het gebruik van het geheugen niet helemaal. Er word gepraat over 1 a 2Gb op een bandbreedte van 128GB/s word hier GDDR3/4 bedoeld of het gebruik van FB-DIMM of DDR3?
Die 128GB/s is met GDDR. Voor een eventuele socketversie zullen ze wel FBD of DDR moeten gebruiken, dus dan is de bandbreedte niet zo hoog.
Slide 31 is ook interessant. Daar staat een vergelijking tussen Larrabee en Gesher (opvolger van de Nehalem) welke gepland staat voor 2009. Specs (overgetypt van de slide):

Gesher
Clock frequency: 4 GHz
Cores: 4-8
DP flop/cycle/core: non-SSE: 2
w/ SSE: 7
Cache/core: L1: 32KB, 3 clocks
L2: 512Kb, 9 clocks
L3: 2-3MB, 33 clocks
Cache line width: 64B
Ring bandwidth: 256B/cycle
Fast DRAM: 64GB/s
Memory bw, latency: 16GB/s/link, 50 ns (CSI)
Peak DP flops: 28 Gflops/core
0.1 - 0.2 Tflops/processor

Een paar voorzichtige conclusies:
3 full? SSE units + x87
2048 bit ring buffer (of 1024 bit dubbel geklokt)
4 CSI links
Lijkt me 4 full SSE units, anders kom je nooit op een theoretische performance van 7 double precisions per cycle, maar de vraag is dan hoeveel van die units kunnen vermenigvuldigen.

Het is natuurlijk op het lachwekkende af dat de highend schreeuwt om snellere matrixvermenigvuldigingen en afgaat op het theoretische gflop geschreeuw, terwijl maar 1 unit vermenigvuldigen kan op zo'n chip (en dan een throughput heeft van 1/3 maar, kortom je unit is dan 3 cycles druk bezig).

Interessant is dat ze kennelijk ook parallel willen gaan schrijven naar de RAM. Dat zou een enorme bottleneck oplossen en meer dan 4 cores per cpu mogelijk maken.

Een goede programmeur kan dan werkelijk veel uit al die cores halen, terwijl nu de grote bottleneck die memory is.

Verrassend om te zien is dat ze er 512MB 'fast ram' tussen willen gaan poten als "level 4 cache" ?

Een 32KB L1 cache met 3 cycle latency zuigt overigens enorm, maar dat is wel wat je nodig hebt om op 4 Ghz te komen. Met zo'n knullige L1 cache haal je nooit de 7 DP per cycle natuurlijk, want hoe ga je dan ooit genoeg data afhalen uit die L1 om je execution units bezig te houden?

2Ghz @ 1 cycle latency voor larrabee, mag ik even hard lachen? Klinkt als een nieuwe itanic.

Maar voor al die chips geldt: waarom in vredesnaam intel maar blijft vasthouden aan zo'n lachwekkende L1 cache.
150 watt is eigenlijk niet zoveel.
dit omdat het een processor is (is normaal alleen al 65-90 watt) en een videokaart want ook het middensegment
vreet enorm veel stroom.
echter als je de onchip graka niet gebruikt en misbruikt voor bijv AI
en er een "echte" grafische kaart in doet daan gaat het wel veel stroomvreten ja. maar daar is dit niet voor bedoeld.
dit is gewoon een alles in 1 chip die nog best eens goed zou kunnen performen.

edit
trouwens hoe zit dat met de bandbreedte?
nu alle data va cpu direct kan doorstromen naar gpu zonder moederbord of bridges ertussen.
Scheelt dat lag, of kost het juist performance omdat je alle data weer moet exporteren naar je dvi (of andere) output
weet iemand dat?
Ach joh, een grafische kaart die in een slot ingeprikt staat als cpu gebruiken is ueberhaupt grote nonsense, want je pci-e heeft niet genoeg bandbreedte simpelweg.

Zie dit alles in het licht van brainstormen van wat intel engineers.

Je kunt die redenatiestappen van die lui zo volgen.

Eerste waar ze aan denken is: "goh, we willen wel meer cores dan we volgend jaar in normale cpu's hebben nietwaar? James, hoeveel heeft onze core2 er over 2 jaar? james: 8. Ok folks, let's take 16 for our new chip".

Kortom 16 cores pak je dan

Je ziet hun hersens denken:
"heh AMD took over ATI and might integrate GPU with cpu, can't we do that also?"

antwoord: dat kost dus transistors van je normale cpu, dus dat gaat dan op een veto stuiten van een manager ergens, dat snappen ze donders goed.

het grote brein daar dan bedenkt: "goh maar als we de gpu transistors nu ook nog eens kunnen gebruiken als normale GPR's? (general programming registers)

ROFL.

Dat teken je dan op papier en dan heb je al die larrabee chip, want die CSI bridge is dan bedacht als tegenhanger van AMD's hypertransport en natuurlijk is on die memory controller nodig om genoeg bandbreedte in de richting van die chip te krijgen.

Dan zet intel een paar engineers aan 't werk om zo'n chippie in superproefvorm te designen (dat is letterlijk maar een paar man, want al die chips worden door kleine teams gebouwd en pas na 't bouwen dan worden er een paar honderd lui op gezet om dat ding te optimizen met de hand teneinde het design hoger te klokken).

Veel verder dan dit gaat 't echt niet.
Eigenlijk komt dit dichter bij de Cell dan bij de GPUs van NVIDIA/ ATI/AMD.
Is het echt de bedoeling om met hun te concurreren? Of is deze eigenlijk bedoeld voor in een spel console zoals XBOX? Daarmee zo Microsoft in een klap weer gelijk met Sony's PS3 komen!
xbox gebruikt net als ps3 dezelfde type chip.
xbox gebruikt een soort van gestripte cell processor met 3 cores. cell heeft 1 core en 8 hulp processors (Processing Elements).

Welke chip die fabrikanten in toekomst gaan gebruiken is nog koffiedik kijken.

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True