Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 44 reacties, 17.684 views •

Het gpu-project Larrabee, waarmee Intel de concurrentie met fabrikanten van videokaarten wilde aangaan, maar dat eind 2009 moest worden gestaakt, maakt een doorstart. De gpu's kunnen worden ingezet als coprocessor voor supercomputers.

Intel kondigde Larrabee enkele jaren geleden aan als een gpgpu, die het midden zou houden tussen gpu en cpu. Eind 2009 werd echter duidelijk dat de Larrabee-architectuur niet als gpu voor consumenten zou verschijnen en in mei 2010 berichtte Intel dat Larrabee voor supercomputers zou worden ingezet. De op de x86-instructieset gebaseerde architectuur zou worden ingezet voor hpc- of high-performance computing-toepassingen.

Inmiddels heeft Intel bekendgemaakt de Larrabee-architectuur op commerciële basis uit te brengen, in de vorm van een coprocessor met vijftig cores. Deze eerste Larrabee-spin-off, door Intel Knights Corner genoemd, is een zogeheten mic, of many integrated core-architectuur. Knights Corner moet vanaf volgend jaar verkrijgbaar zijn. De 50-core mic zal volgens een 22nm-procedé, met Intels '3d-transistors', worden geproduceerd.

De Knight-mic moet in hpc-systemen worden ingezet om parallelle werklasten voor zijn rekening te nemen, zoals Nvidia's Tesla-architectuur doet. Anders dan Nvidia's Tesla-gpgpu's maakt Intels architectuur echter geen gebruik van cuda, maar van de x86-instructieset. Dat zou het eenvoudig moeten maken om voor de veelkoppige processor te programmeren. Het programmeren moet worden mogelijk gemaakt met een sdk, Knights Ferry. Enkele onderzoeksinstituten hebben die sdk, in combinatie met een gelijknamig hardwareplatform, al gebruikt.

Aubrey Isle die

Reacties (44)

Reactiefilter:-144043+130+210+30
Moderatie-faq Wijzig weergave
Zijn die 50 cores dan 50 volledige x86 cores, of zijn het cores met een beperkte subset, of gedeelde registers enz.?

GPU's hebben een SIMD (Single Instruction, Multiple Data) architectuur: je hebt een heleboel cores die allemaal tegelijkertijd dezelfde instructie uitvoeren op verschillende data. Zo kun je heel efficiënt parallel rekenen, maar alleen als je een hele reeks data hebt waarop je dezelfde bewerking wilt uitvoeren. Als er branches in je code zitten waarbij een deel van de threads het ene pad kiest en de rest het andere pad, dan worden de twee paden sequentieel uitgevoerd (waarbij eerst het ene deel van de threads niets doet, en dan het andere deel). Dit maakt branches in GPU-code erg duur (want je hebt dan immers een deel van de threads die een deel van de tijd niets staan te doen).

Als dit 50 onafhankelijke x86 cores zijn (dus een MIMD - Multiple Instruction, Multiple Data) architectuur dan zal deze chip de nadelen van SIMD niet hebben.
Larrabee is a traditional cache-coherent SMP, programmed as a shared-memory MIMD system. Each independent processor does have its own vector unit (SSE stuff), but all 8, 16, 24, 32, or however many cores it has are independent executors of programs. As are each of the threads in those cores. You program it like MIMD, working in each program to batch together operations for each program’s vector (SIMD) unit.

http://perilsofparallel.b...-nvidia-mimd-vs-simd.html
Mja, bla, mooi geblaat met veel moeilijk klinkende woorden maar uiteindelijk onzin. LRB en Fermi delen een zelfde structuur met als grote verschil dat de cores van LRB direct programmeerbaar zijn en dat is niet het geval bij Fermi. Dus ja, je kunt LRB programmeren als een MIMD processor, maar de resulterende performance zal zo waardeloos zijn dat je beter een 10 core Westmere kan gebruiken, die wel fatsoenlijke cache, moderne OoOE en branch prediction logica heeft. Een LRB chip gebruiken als MIMD processor is ongeveer even nuttig als een Ferrari rijden en hem altijd in de 1ste versnelling laten staan. Elke core kan 16 berekeningen per clock uitvoeren, maar je laat er maar 1 uitvoeren.

Het nut van LRB zit in die mooie SIMD unit die er op zit en het programmeermodel van LRB en Fermi is dus precies hetzelfde, namelijk heel veel data parallel laten berekenen door de SIMD units op de cores. Ja, LRB is iets flexibeller vanwege de programmeerbare x86 core, maar daar staan weer een boel andere voordelen voor Fermi tegenover, zoals de fors betere latency hiding door meer threads per core.

[Reactie gewijzigd door Snoitkever op 21 juni 2011 17:14]

50 x86 cores, maar die cores zijn niet zo interessant (want niet echt krachtig vergeleken met een moderne CPU core). Wat interessant is is dat elke core een 16-brede SIMD unit heeft. LRB is dus bijna hetzelfde als Fermi en AMD's GCN in de zin dat het een collectie simpele cores met een brede SIMD unit er op is. Het verschil is dat waar bij Fermi en GCN de cores niet direct programmeerbaar zijn dit in het geval van LRB dit een simpele maar programmeerbare x86 core is
Als dit 50 onafhankelijke x86 cores zijn (dus een MIMD - Multiple Instruction, Multiple Data) architectuur dan zal deze chip de nadelen van SIMD niet hebben.
Elke moderne GPU is in die zin MIMD, en elke moderne GPU is tegelijk totaal niet MIMD, in dezelfde zin dat een multicore CPU tegelijk wel en niet MIMD is. Ja, het zijn meerdere cores die meerdere onafhankelijke instructiestromen afwerken, maar imho moeten we dat niet MIMD maar gewoon multi-core noemen.

[Reactie gewijzigd door Snoitkever op 21 juni 2011 15:58]

Als dit 50 onafhankelijke x86 cores zijn (dus een MIMD - Multiple Instruction, Multiple Data) architectuur dan zal deze chip de nadelen van SIMD niet hebben.
Mijn idee van SIMD en MIMD is dat het wel ovet een enkele stroom instructies moet gaan (anders zijn twee computers naast elkaar ook MIMD).
Deze termen zijn, mijns inziens, vooral bedoeld om verschillende klassen architecturen aan te geven. Als je mij vertelt dat iets een MIMD-architectuur heeft dan verwacht ik bijvoorbeeld al dat ie lange instructies (VLIW) zal hebben. En bij een SIMD-architectuur weet je meteen dat ie het nadeel heeft dat jij ook al beschreef; om efficiënt te zijn moet je wel meerdere stukken data hebben waarop je dezelfde operaties uit wilt voeren.
Bijvoorbeeld de Itanium-architectuur is een twijfelgeval; je zou kunnen zeggen dat die MIMD is (als je "instructie" definieert als een instructie groep als dat je niks zegt, instructie groepen zijn een specifieke Itanium feature), maar voor de rest heeft ie allerlei typische MIMD-eigenschappen helemaal niet. Daarom zou ik er voor kiezen om die naam niet te gebruiken, ook al is het technisch redelijk te verantwoorden.
Zelfde met Larrabee; als de enige MIMD-eigenschap is dat je het mogelijk zo zou kunnen gebruiken, maar alle andere eigenschappen zijn typisch multi-core, noem het dan alsjeblieft multi-core, dat voorkomt verwarring en verkeerde verwachtingen.
Veel groter nieuws is de aankondiging van de AVX2 specificatie voor de Haswell CPU-architectuur. Die leunt heel dicht aan bij de instructieset van Larrabee (inclusief gather en fused multiply-add)!

De CPU krijgt hiermee de rekenkracht vergelijkbaar met een GPU, maar met een veel flexibeler programmeermodel. AVX kan ook verder uitbereid worden naar 1024-bit vectoren, en door die te verwerken op 256-bit rekeneenheden kan het stroomverbruik sterk omlaag...

Intel gaat dus voor homogeneous computing op de CPU. Larrabee in je socket, zonder aan single-threaded prestaties in te boeten.
Nou dat Intel met hard telkens falende Larabee voorloopt lijkt me wat te hoopvol, voorlopig heeft men dus nog weinig van alle presentatie-praatjes waargemaakt.

En naar verwachting kunnen mid 2012 CUDA enabled applicaties gewoon op x86 geprogrammeerd worden, dus Intel zal het volgend jaar moeten opnemen tegen de rekenkrach van de Nvidia GPU's.

The Portland Group Updates Compilers to Deliver NVIDIA CUDA Architecture for x86 Platforms
Nou dat Intel met hard telkens falende Larabee voorloopt lijkt me wat te hoopvol, voorlopig heeft men dus nog weinig van alle presentatie-praatjes waargemaakt.
Larrabee 1.0 faalde als GPU, maar niet als HPC coprocessor. Lees maar eens de resultaten hier: http://newsroom.intel.com/docs/DOC-2152 De 22 nm Larrabee 3.0 versie wordt enkele malen krachtiger en veel zuiniger.
En naar verwachting kunnen mid 2012 CUDA enabled applicaties gewoon op x86 geprogrammeerd worden, dus Intel zal het volgend jaar moeten opnemen tegen de rekenkrach van de Nvidia GPU's.

The Portland Group Updates Compilers to Deliver NVIDIA CUDA Architecture for x86 Platforms
Dit is enkel in het voordeel van Intel, dat er nog maar weer eens een computing taal bijkrijgt om gebruik te maken van SSE en AVX. Je zal in veel gevallen geen NVIDIA kaart moeten aanschaffen.

Een CPU heb je sowieso nodig, en een quad-core is al erg betaalbaar. Haswell brengt 500 GFLOPS naar de mainstream-markt, en meer dan 1 TFLOP voor enthousiast en HPC. En onderschat het voordeel van het flexibele programmeermodel niet. Functie-recursie is NVIDIA's Fermi architectuur nog steeds een verre droom. Het is in theorie ondersteund, maar met een call stack van 1 kB geraak je nergens. En als je registers te kort komt (door de veelheid aan threads) dan dalen de prestaties zienderogen.

Neen, een GPU is goed in graphics, maar kan niet tippen aan Larrabee en binnenkort ook doorsnee CPUs voor complexe rekentaken.
Heb het altijd jammer gevonden dat Intel is gestopt met Larabee voor GPU doeleinden. Beetje meer concurentie voor nVidia en AMD zou geen kwaad kunnen.

[Reactie gewijzigd door ColinZ op 21 juni 2011 14:34]

De extra concurrentie zou inderdaad niet gek zijn, al moet ik zeggen dat de GPU performance van Intel toch altijd magertjes is geweest.

De i740 klonk heel aardig, maar kon toen ter tijd al niet concurreren met 3Dfx Voodoo/Rush, toen niet veel na de i740 de Voodoo 2/Banshee en andere kaarten als de nVidia Riva TNT uitkwamen was de i740 niet alleen traag in vergelijking met de concurrentie, maar ook duur.
Waarom betalen voor een i740 als een Riva 128 goedkoper en net zo snel is? Waarom settelen voor een i740 als een Banshee of TNT amper duurder is maar op alle vlakken heel veel sneller?

De IGP in de G33 chipset op mijn moederbord is best een aardig paar pipelines, maar je merkt aan alle kanten dat het ding eigenlijk niet eens sterk genoeg is om een 1080p video af te spelen.
Dus opnieuw waarom zou je genoegen nemen met de Intel GPU als je voor 20 euro een Radeon of GeForce koopt die vele malen krachtiger is?

Hoewel de IGP op de i3 chips best voldoet voor bureau en HTPC werk, is ook dat echt geen krachtpatser. Ondanks dat het ding sterk genoeg is om vloeiend 1080p video te kunnen streamen stelt het nog steeds niets voor als je het vergelijke met een nVidia GT 210.

Intel zal echt met een ongekende sprong vooruit moeten komen wil het zijn GPUs concurrerend kunnen maken buiten de IGP markt.
Misschien zie ik het wat pessimistisch, maar ik heb nog nooit een Intel GPU gezien die kon concurreren met GPUs van andere chipmakers. Er was altijd wel een optie die qua prestaties gelijk was aan de Intel optie, maar goedkoper was. Of een optie die even duur was als de Intel optie maar significant krachtiger.
Er was altijd wel een S3, Cirrus Logic, Kyro, PowerVR, Hercules, ATi, nVidia, 3Dfx of noem maar op wat voor andere chipbakker dan ook die meer bood dan de Intel GPU.
Euhm misschien eens goed nadenken want de Voodoo en Voodoo 2 waren addon kaart en juist daarom waren ze interresant. Ze waren niet duur en boden hele aardige prestaties en ze waren in die tijd heel stabiel aangezien Nvidia net het Riva 128 debacel had.

Punt 2 over vandaag de dag. de IGP op de cpu is bedoelt voor al die mensen die internetten en eens een word documentje schrijven. En laat dat nou zelfs vandaag de dag nog ruim 50% van de markt zijn.

Larrabee was een hele interresante aanpak van Intel alleen heel moeilijk uitvoerbaar aangezien game designers van een hele andere strategie uit moesten gaan. Het feit dat je real time kon raytracen gaf aan hoe krachtig het was als er goed gebruik van zou worden gemaakt. Helaas gaat Direct X niet uit van zulke parralle afhandeling van taken dat Larabee moeite had om de 2009 kaarten bij te houden.
De i740 verkocht niet slecht en presteerde gewoon goed voor de prijs. Maar het is waar dat na de i740 intel weer uit de highend stapte en daar nooit meer in is teruggekomen. Tegelijkertijd verkoopt intel meer gpus dan AMD of nVidia.

Aan de onderkant van de markt heeft Intel al jaren tevreden klanten. De huidige igp van intel is krachtig genoeg voor full HD, Aero en games op medium settings. Dus voor vrijwel alles wat een doorsnee gebruiker nodig heeft. Goedkoper is ook al een tijdje erg lastig. Sinds de introductie van het merk centrino is de intel igp eigenlijk standaard voor laptops en sinds de intel gpu naar de cpu socket verplaatst is neemt het gebruik alleen maar toe. AMD is nu eindelijk dezelfde weg aan het volgen en hoewel de gpu in de AMD APU krachtiger is, moeten we maar zien of AMD echt kan concurreren. Ondertussen heeft intel de markt voor lowend GPUs doen instorten. Een markt waar AMD en nVidia meer verdienden dan op de highend markt.
De i740 verkocht niet slecht en presteerde gewoon goed voor de prijs. Maar het is waar dat na de i740 intel weer uit de highend stapte en daar nooit meer in is teruggekomen.
Dat valt vies tegen. Zie het i740 artikel.
Tegelijkertijd verkoopt intel meer gpus dan AMD of nVidia.
Puur omdat de IGP al heel vaak in de chipset zit of in de CPU. Waardoor deze meegeteld wordt zelfs als deze niet gebruikt wordt omdat er een dedicated GPU in zit.

Vaak gaan mensen voor deze oplossing puur om de reden van de GHzen en cores. Hoe meer GHzen en cores hoe sneller het systeem, ze begrijpen niet dat de hele combinatie telt.

[Reactie gewijzigd door worldcitizen op 21 juni 2011 20:08]

Ligt het nou aan mij of is zoiets ook interessant voor in servers? Elke thin client/gevirtualiseerd OS 2 of 3 cores(waarvan 1 dan een 2D omgeving kan renderen. Gezien het een co-processor is heb je dus nog een xeon ernaast om alles te handlen. Dat op een bordje waar 48GB ram op kan en je hebt een mooi systeempje lijkt me.
De belasting van een server is compleet verschillend van de belasting op een high-perf cluster.

Server: massa's integer operaties met veel branching, elke bewerking is op zichzelf staand.
High-perf science stuff: massa's floating point, waarbij een bewerking typisch op veel data elementen wordt toegepast => vectorizatie
En daar boven op denk ik dat deze core's per stuk een stuk minder krachtig zal zijn dan 1 core van een normale cpu. Anders zouden er nooit zomaar 50 van in 1 chip kunnen.
Dat is niet helemaal waar. Veel cores van normale CPU's hebben een hoop dingen die weg zouden kunnen als je de taken van de cores specifieker maakt.
Die core's in Larrabee zijn gebaseerd op de Pentium 1 architectuur ;)
Dit soort techniek is naar mijn mening te fout-gevoelig en omslachtig voor een server.
Meer concurentie betekend vaak lagere prijzen. Ik ben benieuwd naar de prestaties!
Ja die prestaties van dit ding zijn niet om over naar huis te schrijven. Het is nogal lastig het ding te programmeren.

Hij heeft vectors van 8 doubles. Nu bij GPU's kun je dus indirect snel adresseren maar hier werkt dat niet. Het moet echt gestroomd worden.

Fermi en de 5000/6000 series van AMD zijn echt goed in de programmeur in de gelegenheid te stellen de maximum prestatie eruit te halen.

Waar de GPU's zuigen is double precision. Daar zou op papier deze kaart van intel wel iets goed moeten kunnen maken, ALS HIJ SNEL GEPRODUCEERD WORDT EN IN DE WINKEL LIGT.

Dus voor HPC organisaties is deze extra concurrentie voor AMD-GPU's en Nvidia-GPU's een heel mooi gebaar.

Vraag is of het meer is dan een gebaar. Mogelijk wel.

De prijs, tja, ik gok tussen de 2500 dollar en de 5000 dollar per stuk.
Dat is voor HPC organisaties geen probleem.

Het ding levert iets van 1.2Ghz * 50 cores * 8 doubles per vector = 480 Gflop (multiply-add niet meegeteld).

Ter vergelijking een HD6990 levert 637Gflops op deze manier.

Maar de support voor die gpu's zuigt en vooral Nvidia worstelt met de stabiliteit van die GPU's voor HPC calculaties (waar ze 24 uur per dag gedurende weken lang dezelfde prestatie moeten leveren zonder bitflips; in graphics merk je die bitflips niet).

Intel's support is natuurlijk grandioos, dus als hij eerder released dan de 22 nm GPU's dan zal dit een interessante kaart zijn voor HPC centers.

Overigens zal intel dan wel garanties omtrent leverdatum moeten geven, want daarmee hebben ze al veel vernaggeld bij de HPC organisaties (SARA huh?).

Ik gok overigens dat hij een watt of 500 vreet, maar dat is een blinde gok, ik heb geen informatie hierover. De HD6990 zit ook zo tegen die 500 watt en alle nvidia's ook voor gpgpu, want die gebruiken die cores heel erg goed (of PE's).

Maar ja programmeren ervoor is ellende. We zullen zien wat en hoe en wanneer.
Als je al 3 jaar lang op de trommel slaat voor Larrabee en als hij dan eindelijk in 2012 ofzo released op 22 nm, terwijl de GPU's nu al die performance halen en van de GPU's weten we dat je die gflops er ook echt uithalen kunt, dan is het koffiedik kijken wie dat ding kopen wil.

Het is niet zo eenvoudig om software te schrijven met vectors van 8 doubles. Zeker in OpenCL niet en ik neem aan dat hij dat gaat ondersteunen. Neemt niet weg dat in vergelijking met de huidige GPU's op papier in elk geval deze larrabee, die erg lijkt op een videokaart (zelfde verpakking), zie

http://www.bit-tech.net/n...e-maths-co-processor-ca/1

Het zou een goede performer kunnen worden. In elk geval concurrentie op gpgpu vlak.

De vraag is of je moet gaan voor deze intel technologie, daar hij cache coherent is en dat betekent dat een opvolger natuurlijk nog steeds 50 cores heeft, terwijl de videokaarten dan op het duizendvoudige zouden kunnen zitten.

Cache coherency is natuurlijk heel mooi voor bepaalde applicaties, maar voor de HPC is het enorm nadeel.

Dus lijkt met dat dit wel een kaart is die 1x uitkomt en daarna verpletterd wordt op een manier waarop intel dat wellicht niet graag ziet.

Dus op lange termijn hierin investeren lijkt me onzinnig voor HPC centers.

Neemt niet weg dat intel dan kan uitkomen met een kaart die niet cache-coherent is en wel goed schaalt in aantallen cores.

Je kunt natuurlijk die cache coherency ook anders implementeren, namelijk cache coherency alleen afdwingen met functiecalls. Dus manual cache coherency.

Dan schaalt het mogelijk beter. Intel had al een keer een chip met een core of 80 die dat zo deed.

Want performance telt wel in de HPC.

Zelf heb ik overigens 2500-5000 dollar niet over voor zo'n kaartje.
Veel sneller zijn die AMD's natuurlijk. Die beuken alles weg op gpgpu.
Hij heeft vectors van 8 doubles. Nu bij GPU's kun je dus indirect snel adresseren maar hier werkt dat niet. Het moet echt gestroomd worden.
Hoezo? Larrabee heeft ook gather/scatter ondersteuning.
Fermi en de 5000/6000 series van AMD zijn echt goed in de programmeur in de gelegenheid te stellen de maximum prestatie eruit te halen.
Nonsense. GPGPU applicaties halen vaak slechts een tiende van de theoretische piekprestaties.
Waar de GPU's zuigen is double precision.
Waar haal je dat vandaan? NVIDIA's Tesla chips halen half zo veel DP FLOPS als SP FLOPS, net zoals CPUs en Larrabee.
Het ding levert iets van 1.2Ghz * 50 cores * 8 doubles per vector = 480 Gflop (multiply-add niet meegeteld).
Multiply-add wordt altijd meegeteld. En Knight's Corner zal beslist hoger klokken dan 1.2 GHz. We spreken dus over meer dan 1 DP TFLOPS! Een Tesla C2050 piekt bij 515 DP GFLOPS.
Het is niet zo eenvoudig om software te schrijven met vectors van 8 doubles. Zeker in OpenCL niet...
Dat is je reinste bullshit. OpenCL wordt bij Larrabee op exact dezelfde wijze uitgevoerd als op een NVIDIA GPU: elke SIMD-lane voert een onafhankelijke scalaire bewerking uit. Ook AMD stapt over naar een SIMD architectuur.
Cache coherency is natuurlijk heel mooi voor bepaalde applicaties, maar voor de HPC is het enorm nadeel.
Doe me een lol. Ik heel erg benieuwd naar je uitleg hiervoor.
Ben erg benieuwd wat dit gaat worden. In ieder geval is 22 nm een hoop kleiner dan de huidige videokaarten (GTX 580 zit nog op 40 nm dacht ik). Ik heb nog de hoop dat als Larabee een succes wordt, intel eindelijk redelijke GPU's gaat leveren.
Je kunt ook stellen dat je alle ervaring die Intel nu opdoet met Larabee terug gaat zien toekomstige igp's. Het leuke is dat Intel wel voorligt op het gebied van productie procedé. Zowel nVidia als AMD moeten de stap naar 28nm nog maken.
We hebben het over "ergens" volgend jaar he, dan zitten AMD en NVIDIA al op 28nm
Je kunt ook stellen dat je alle ervaring die Intel nu opdoet met Larabee terug gaat zien toekomstige igp's.
De problemen met Intel en IGP's liggen eerder bij de slechte drivers dan bij de slecht-ontworpen hardware.
Je kunt ook stellen dat je alle ervaring die Intel nu opdoet met Larabee terug gaat zien in toekomstige igp's.
Onwaarschijnlijk. Dit gezien de Larrabee een "echt" Intel project is en de IGP's een ingekocht/gelicenseerd PowerVR ontwerp zijn.
De IGP's zijn net zo goed 'echte' Intel designs. De enige PowerVR igp zat in een bepaalde versie van de Atom, de Z-versie. Normale IGP's zoals de GMA's, evenals de IGP in mijn i3 zijn door Intel zelf ontwikkeld. Allemaal net zo 'echt' als Larrabee dus...
Experimental Cloud-based Ray Tracing Using Intel® MIC Architecture for Highly Parallel Visual Processing
March 22, 2011
http://software.intel.com.../cloud-based-ray-tracing/

Larrabee is zelfs als GPU niet dood, alleen anders dan oorsponkelijk gepland.

Een tijd geleden stond er een goed stuk in de C!T waar al werd aangegeven dat Intel de strijd tegen nV en AMD nooit kon winnen maar dat Larrabee zijn weg zou vinden voor andere toepassingen.
Voor degenen die nog oude C!T's op de plank heeft liggen en het interesseert.
http://www.fnl.nl/index.p...=556&cHash=92c0df4e02

[Reactie gewijzigd door Zanac-ex op 21 juni 2011 16:06]

3 maal is scheeps recht? :)
Ze gaan het nu tenminste wel inzetten. Niet helemaal waarvoor het in de eerste instantie bedoelt is maar dit is in ieder geval wel een betere keuze dan gewoon in de ijskast zetten.

Ik denk dat het wel een toegevoegde waarde zal hebben in supercomputers. En op 22nm is hij ook niet te groot. Dat was in 2009 vooral het probleem 45nm was gewoon niet klein genoeg voor zo'n grote chip.
Ik ben wel klaar met het gissen naar de uiteindelijk toepassing(en) van LRB. Ik wacht wel rustig af tot we naar een concreet plan zijn toegewerkt. Wel hoop ik dat het uiteindelijke product vooruitgang op het gebied van consumenten pc's gaat bieden. Ik ben benieuwd!
Wel hoop ik dat het uiteindelijke product vooruitgang op het gebied van consumenten pc's gaat bieden.
AVX2 is sterk geïnspireerd op LRBni. Die instructies worden ondersteund door de Haswell architectuur, in 2013.

Dus reeds in anderhalf jaar zal je een grote vooruitgang in de prestaties van CPUs zien, dankzij hun ervaring met Larrabee.
Die AVX2 troep direct doortrekken joh.

Laat de crunching over aan gpu's, met maar een paar cores ga je nooit die duizenden cores die de gpu's leveren ook maar in de verste verte benaderen qua prestatie.

Ik zou zeggen weg met alle SSE/SSE2 en hogere troep. Alleen x64 supporten op de cpu's en dan 32 core cpu's uitbrengen.

Alles wat nu SSE* gebruikt kan dan op gpgpu draaien.

Deze kaart is dus iets wat je meer in die richting van die gpgpu moet zien. Het is niet helemaal gpgpu, want het heeft namelijk cache coherency en dat doet erg zeer als je goed wilt schalen.

Dure productieprijzen heb je dan met 50 cores hier. Dus hij zal wel niet ver boven de 1.2Ghz komen. Misschien 2Ghz als we nog eventjes wachten.

In geval van 2Ghz dan zou het ding snel zijn hoor.

Let's sit and wait.

Maar voor de megacrunching wil je gewoon geen cpu's gebruiken, want die lijdden onder de cache coherency en het feit dat ze out of order zijn, dus dan passen er niet zoveel cores op je chippie als op een gpu.

Uniek gedrocht dit.
Maar er gaan vast wat HPC managers voor vallen.

Sommige bedrijven zijn nu eenmaal goed in het paaien/omkopen van die gasten (niet gezegd dat intel dat is, ik beschuldig ze niet van omkoping, maar het is wel wat continue in dit soort wereldjes gebeurt om opdrachten binnen te halen).
Laat de crunching over aan gpu's, met maar een paar cores ga je nooit die duizenden cores die de gpu's leveren ook maar in de verste verte benaderen qua prestatie.
Zucht. GPU shader cores staan allesbehalve gelijk aan CPU cores!

NVIDIA telt elke SIMD-lane als een afzonderlijke shader core. Op die wijze telt een quad-core CPU met AVX 4 x 2 x 8 = 64 'shader cores'.

Zo zal een quad-core Haswell CPU een rekenkracht van 500 GFLOPS behalen. Ter vergelijking, de IGP van Sandy Bridge haalt amper 130 GFLOPS. Llano's IGP haalt 355 GFLOPS.

De prestaties/transistor van CPUs hoeft dus niet onder te doen voor GPUs! Het enige probleem is hoger stroomverbruik door out-of-order executie. Dat kan echter opgelost worden door AVX-1024 op 256-bit rekeneenheden uit te voeren.
Ik zou zeggen weg met alle SSE/SSE2 en hogere troep. Alleen x64 supporten op de cpu's en dan 32 core cpu's uitbrengen.

Alles wat nu SSE* gebruikt kan dan op gpgpu draaien.
Onzin. GPUs zijn enorm slecht in het verwerken van complexe taken. Dat komt omdat ze minstens 10 keer trager hun instructies verwerken (latency). Dat halen ze op door honderden threads te draaien, maar buiten grafische berekeningen is er niet zo gek veel dat goed opschaalt naar zoveel threads. Bovendien gaat een GPU op z'n gat als het aantal registers per thread te laag is, wat nogmaals frequent gebeurd voor niet-grafische toepassingen.

De toekomst is homogene architecturen. Daar zijn we nog niet, maar AVX2 vormt een kenterpunt waarbij veel van de instructies die we in de GPU aantreffen nu ook op de CPU beschikbaar zullen krijgen.
Maar voor de megacrunching wil je gewoon geen cpu's gebruiken, want die lijdden onder de cache coherency...
Newsflash: AMD maakt z'n GPUs cache coherent. Da's allesbehalve een nadeel.
Ja ik was daar ook klaar mee. Voor het technologie cultuur historisch museum is het wel een leuke aankoop om 1 zo'n kaartje te kopen.

Een gedrocht dat tussen cpu en gpu inzit.

Maar het is fijn dat er wat concurrentie nu komt voor Nvidia en AMD.

AMd en Nvidia gaven veel te weinig informatie prijs over hun gpgpu architecturen, intel doet het hier vast een stuk beter.

Edoch als de 22 nm gpu's uitkomen is iedereen dit gedrocht vergeten natuurlijk, want die gaan 4x sneller zijn dan deze 50 core chip.

overigens x86 applicaties draaien van geen meter hierop.
ik heb even vergeleken.

Want je kunt die vectors niet effectief gebruiken als je snel port.

Je zit dan ongeveer op de snelheid van een 24 core AMD machine @ 2.2Ghz qua prestatie en dat is ook al oude junk.

Dus voor x64 of x86 gaat dit nutteloos zijn.

Ik vraag me dus sterk af wat er wel snel op gaat draaien, want de organisaties hebben niks laten lekken informeel hierover; dat belooft dus weinig goed nieuws. Ze zijn zo lek als een mandje, als het wel snel is. Om die reden laat intel ze ook NDA's tekenen altijd, want slecht nieuws mag nooit uitlekken.
Hete adem van Llano en Trinity....? ;)
Als je het artikel nou even had gelezen ;)

Het moet de concurrentie aangaan met nVidia's Tesla, en AMD's Firestream, de performance en prijs van die insteekkaarten ligt een flink stuk hoger als dat van Llano en Trinity.


Het vershil is echter dat Larabee naar alle waarschijnlijkheid gewoon als Socket 2011 processor uit komt en direct op een moederbord geplaatst kan worden naast een i7/i9 processor.

Volgens mij zou er met een cluster van LGA2011 mulisocket borden (één Xeon met drie Larabee's) een serieus snelle supercomputer gebouwd kunnen worden.

[Reactie gewijzigd door knirfie244 op 21 juni 2011 15:28]

Larrabee hoef je niet te kopen als het een socket processor wordt.
Het wordt natuurlijk een videocaard vorm.

Simpele reden: kan het meer wattjes gebruiken.

Als het ding niet net als de videokaarten ook 500 watt zou kunnen gebruiken,
dan ben je kansloos qua performance.

Dus het gaat er net als een videokaart uitzien met dezelfde problemen ook, namelijk lastig om te programmeren.

Waarom het dan wel cache coherency heeft is me een raadsel.

Soort van gedrocht tussen een cpu en een gpu in zullen we maar zeggen.
dus niet de performance van een gpu, maar wel de ellende van de cache coherency van een cpu.

Dus dat gaat nooit op een socket passen. Het moet zijn eigen DDR5 ram hebben.

Als dit geen DDR5 ram heeft dan hoef je larrabee niet eens te overwegen natuurlijk, want zonder die 200GB/s bijna die de videokaarten leveren is het nutteloos natuurlijk.

http://www.bit-tech.net/n...e-maths-co-processor-ca/1

Op dit item kan niet meer gereageerd worden.



LG G4 Battlefield Hardline Samsung Galaxy S6 Edge Microsoft Windows 10 Samsung Galaxy S6 HTC One (M9) Grand Theft Auto V Apple iPad Air 2

© 1998 - 2015 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True