Intel levert vanaf deze zomer processors met 48 cores

Intel zal aan het einde van het tweede kwartaal systemen met 48-core-processors aan onderzoeksinstellingen gaan leveren. De hoeveelheid systemen is beperkt en Intel heeft geen plannen om de chip te verkopen.

"Gelimiteerde hoeveelheden van de processor zullen voornamelijk naar academische instituten gestuurd worden", vertelde Sean Koehl, techno evangelist bij Intel Labs, tijdens een evenement in New York. De Single-chip Cloud Computing-processor is onderdeel van Intels Terascale Computing-onderzoeksprogramma en moet het onderzoek naar many-core-toepassingen stimuleren. De prestatieboost die de chip kan geven, moet voornamelijk van parallelle verwerking komen. Volgens Christopher Anderson, ontwikkelaar bij Intel Labs, draaien de 48-cores op snelheden die vergelijkbaar zijn met die van de Atom. De snelste Atom van dit moment heeft een kloksnelheid van 1,83GHz.

Intel introduceerde zijn 48-core-processor begin december 2009. Toen liet de fabrikant weten dat het plan was om slechts honderd exemplaren te produceren. De processor werkt als netwerk van 4x6 eenheden, ieder met twee kernen. Iedere core kan over 384kB L2-cache beschikken en er zijn vier geïntegreerde geheugencontrollers die in totaal 32GB ddr3 kunnen aanspreken. De totale bandbreedte van de chip is 256GB/s. Intel heeft geen plannen om de processor commercieel uit te brengen, maar onderdelen ervan worden mogelijk toegepast in toekomstige consumenten- en zakelijke cpu's van het bedrijf.

Helaas!
De video die je probeert te bekijken is niet langer beschikbaar op Tweakers.net.

Reacties (36)

Avdo 8 april 2010 16:06

Toch vind ik het niet een geweldig project: het samensmelten van meerdere hexacores tot een 48-core m.b.v. message passing geeft je geen "echte" 48-core;

Hoewel het sneller zal zijn dan een moederbord met meerdere slots (de stroomsnelheid van elektronen is beperkt: des te groter de afstand, des te groter de vertraging), blijf je een signigicante vertraging hebben van het message passing t.o.v. het kunnen lezen vanuit elkaars cache.

Als je een multicore bakt, doe het dan goed imo.

[Reactie gewijzigd door Avdo op 29 juli 2024 11:52]

Squee @Avdo • 8 april 2010 21:05

Het is ook helemaal geen multicore zoals we die nu hebben. Het is dus ook niet te vergelijken met AMD's Magny-cours waar werkelijk vier dodeca-core processoren een 48-core machine maken.

Het Intel SCC platform bestaat uit 48x "P54C" cores, die zijn gebaseerd op de Pentium 1 (uit de 75-100 MHz periode, nog voordat er MMX was, maar in de SCC draaien ze tot +/- 1 GHz). Deze hebben een kleine lokale L2 cache, en via een (2 GHz) on-chip netwerk toegang tot geheugen. Hierbij is een gedeelte van de address-space geshared tussen alle cores, en een gedeelte is private voor elke core op zichzelf. En dan komt nu het grote verschil; er is GEEN cache-coherency geimplementeerd. Cores kunnen dus wel data met elkaar delen, maar alleen door helemaal via het geheugen te gaan. Daarom is er een message passing netwerk gebouwd, waarmee de cores direct messages van L2 cache naar L2 cache kunnen sturen. Het is dus wel mogelijk om een coherency protocol in software te implementeren (wat ook gedaan is als ik me niet vergis). Verder zijn er nog andere leuke features, zoals dynamic voltage/frequency scaling, maar dan niet voor de gehele chip maar voor bepaalde gebieden en cores.

Dit is dus behoorlijk anders dan je 'alledaagse' multicore; waar je wel cache coherency zal hebben en elke core dus 'het zelfde' ziet. Omdat het bij de SCC zo anders is kan elke core gewoon zijn eigen ding doen; in de demonstraties die ze hebben gegeven draaiden ze bijvoorbeeld een Linux kernel op elke core afzonderlijk. Die dan weer met elkaar konden communiceren via het message passing netwerk.

Het nut wat ik zie in deze architectuur, is dat het de onderzoekswereld de kans geeft om meer hands-on ervaring te krijgen met dit soort gedistribueerde systemen. - Niet dat dit er nog niet was, als je kijkt naar alle cluster ontwikkelingen in de afgelopen 15 jaar -, maar met alles op een enkele chip hebben we het toch wel over een heel andere schaal qua communicatie overhead en latencies. Het is nuttig om meer naar dit soort architecturen te gaan kijken, omdat cache coherency gewoon uiteindelijk niet meer schaalbaar zal zijn. Als jij een chip hebt met 1000 cores er op, en een verandert een geheugenlocatie, hoe denk je dat binnen afzienbare tijd over de gehele chip te communiceren? Dat gaat niet, dus er zijn meer gedistribueerde oplossingen nodig, en Intel geeft nu de onderzoekswereld een goed platform om hier aan te werken.

Wij hopen er ook een te krijgen bij onze onderzoeksgroep, we hebben in ieder geval te horen gekregen dat Intel geinteresseerd is. Ik kan niet wachten.

Luuk1983

@Avdo • 8 april 2010 16:12

Maar de vraag blijft altijd of de complexiteit die daarbij optreed opweegt tegen de kosten en de snelheid. Ja natuurlijk is een native 48-core sneller, maar hoeveel sneller is dat? En is dat de extra research, de extra ontwikkelkosten, de extra complexiteit, de waarschijnlijk lagere yields etc waard?

En bij echte multicore toepassingen heb je waarschijnlijk meer aan een 48-core die aan elkaar geplakt is dan helemaal geen 48-core processor

awulms @Luuk1983 • 8 april 2010 21:22

Het hele idee van deze processor aan onderzoeksinstituten zoals universiteiten te geven is precies om dit soort vragen beantwoord te krijgen. De vragen stellen is eenvoudig, maar om ze te beantwoorden zul je toch moeten experimenteren en onderzoeken. Als ik nog zou studeren zou ik in ieder geval graag op een universiteit zitten die een van deze processors krijgt om er een of ander studie projectje mee te doen.

Bob @Avdo • 8 april 2010 16:12

Het staat er toch, het is een research 'cpu', geen multicore die hocus pocus op dezelfde manier schaalt als een multicore zoals we die nu kennen. Communicatie (oa via message passing) wordt sowieso een bottleneck, en daar moeten mouwen aan gepast worden. Dat kan onder andere door te gaan testen op dingen als deze cpu, wat leuker is dan op simulatie platformen werken.

Zavantas @Avdo • 8 april 2010 19:01

Ik zou zeggen, ga even solliciteren bij Intel of AMD en toon hen hoe het echt moet... Er staat je daar een mooie toekomst te wachten.

Verwijderd 8 april 2010 16:10

48 core processor, met 32GB max geheugen???

Wat voor toepassingen moet ik me hier bij voorstellen dan? Applicaties die persé op een aparte core moeten draaien maar bijna geen geheugen nodig hebben?

Of is dit echt puur voor test doeleinden?

/me heeft liever een 32 core server met 48GB intern

Dingen @Verwijderd • 8 april 2010 16:29

48 core processor, met 32GB max geheugen???

Wat voor toepassingen moet ik me hier bij voorstellen dan?

Webservers? Databaseservers?

djunicron @Dingen • 8 april 2010 16:51

Jup, vooral database servers lijkt mij.

Of die arme machines die pdfjes scannen van vragnelijsten, deze in tekst input veranderen, daarna in de juiste cellen zetten, data bewerken en deze vervolgens in een centrale file moeten opslaan.

Woy Moderator PRG/SEA @Verwijderd • 8 april 2010 16:15

Alle applicaties die goed geparallelliseerd hun taken kunnen uitvoeren kunnen hier baat bij hebben.

Uiteindelijk is dit gewoon de toekomst voor alle processoren. Men loopt nogal tegen de limieten van een enkele core op, en dus de trend is nu dat de cores weer simpeler worden, maar gewoon in veelvoud uitgevoerd worden.

Dit heeft echter nogal wat consequenties voor de applicaties, want niet alle taken zijn even goed te parallelliseren. En de meeste bestaande software doet dat sowieso niet, omdat het voorheen niet nodig/nuttig was.

Dingen als video-decoding zijn perfect op te delen in meerdere sub-taken, en dat is dus goed parallel uit te voeren, en die kunnen dus veel baat hebben bij meerdere cores.

[Reactie gewijzigd door Woy op 29 juli 2024 11:52]

watercoolertje @Verwijderd • 8 april 2010 16:18

Uhm je kan 32 apps draaien die allemaal per stuk 1Gb kunnen verbruiken, ik vind 32Gb zeker niet weinig, en is meer dan voldoende blijkbaar want deze chip is dus voor testdoeleinde, waarom allerlij extra ondersteuning in een test-chip bouwen voor niks?

joopykoopy 8 april 2010 16:07

Ik vraag me af, hoeveel bedrijven er nu echt profijt van gaan hebben. 48 cores is gewoon veel

De grote wereldbedrijven zullen er wss belang bij hebben, en de game bedrijven die MMO's e.d. hebben.

Dingen @joopykoopy • 8 april 2010 16:13

Ik vraag me af, hoeveel bedrijven er nu echt profijt van gaan hebben. 48 cores is gewoon veel

Elke server die meerdere requests tegelijk moet afhandelen heeft hier iets aan. Daarom noemen ze het ook Single-Chip Cloud Computing: je kunt met dit soort processors de rekenkracht van een heel serverpark in een enkele machine stoppen. Dat elke individuele core niet supersnel is, maakt voor de meeste servertoepassingen niet zoveel uit, het gaat erom dat 'ie veel tegelijk moet kunnen.

djunicron @joopykoopy • 8 april 2010 16:49

In veel gezondheidsonderzoeksinstituten, zonder namen te noemen, worden ook diverse PC's als cloud aangestuurd.

De cloud die ik wel eens gezien heb en zelf zo nu en dan ook thuis aan mee werk, gebruikt vaak in het weekend zo'n 32 uur achter elkaar:
- 66x Intel E6550 (mijn kantoor pc)
- 12x Intel Q8200
- 4x Intel Q8400
- 3x Intel i7 920 (waaronder de mijne thuis)
- 3x Intel i7 940
- 21x Intel E6430
- 8x Intel D830

En dan nog de 4 blade servers, die allemaal 2x een setje nehalems heeft, ik weet niet welke eigenlijk...

En in zo'n weekend word dan zo'n max 100GB aan data in verscheidende database bewerkt / gebruikt. Vervelend genoeg, gaat dat over 100mbit lijntjes voor het grootste gedeelte. Er komen dan vaak 9MB blokjes terug, die later op enkel de sterkste systemen in de cloud worden herbouwd.

Ik zou me best kunnen voorstellen dat dergelijke SCCC (rare afkorting eigenlijk) handig kunnen zijn b.v. het routen van deze data. Ik denk dat je die honderden kleine files beter terug kan voegen en kan her-aggregeren met een grote verzameling atoms als dan dat die blades het met z'n allen moeten gaan samenvoegen door ook nog eens weer over hun gigabit lijntjes te sturen. Lezen uit geheugen is immers sneller dan via de netwerkpoort, ondanks dat ze intern waarschijnlijk sneller zijn.

Joep 8 april 2010 15:53

In het geheim is Intel's Larrabee dan ook gewoon een cluster atom cpu's op één die. Dat was tenminste m'n eerste gedachte toen Intel Larrabee maar bleef uitstellen.

Qwerty-273 @Joep • 8 april 2010 16:06

Het hele Larrabee ontwerp richt zich dan ook voornamelijk op een "simple" core die zonder problemen met een hele volkstam op een die gezet kan worden. Het gedeelte "zonder problemen" richt zich dan ook voornamelijk hoe laat je al die cores samenwerken, hoe stuur je ze aan en hoe kan je daar efficient data tussen wisselen. De harde prestatie eis is voor een enkele core is dan ook niet echt van toepassing - juist het mogelijk maken om x taken makkelijk parralel uit te kunnen voeren is het doel.

dtecta @Qwerty-273 • 8 april 2010 16:25

De "simpele" core op een Larrabee heeft wel 4 hardware threads (hyperthreading) en kan SIMD bewerkingen met 512-bit registers (16 floats). Noem mij een andere Intel architectuur die dat kan; de Atom kan dat zeker niet. Larrabee is veel meer dan een cluster cores, en dat moet ook wel als je wilt concurreren met huidige GPUs.

Joep @dtecta • 8 april 2010 16:48

Het lijkt me echter sterk dat Larrabee een invoegkaart wordt zoals veel mensen verwachten. Het is gewoon een codenaam voor een architectuur die ze in 2012 uitbrengen. Tegen die tijd zullen ze toch moeite hebben met het 22nm proces en de oplossing is 48 zeer kleine cores op één die plakken. Toen Intel met Netburst niet meer verder kon wegens TDP-problemen kwamen ze met een revolutionaire architectuur, namelijk Conroe. Over een aantal jaren zullen ze problemen krijgen met het productie-proces, omdat het steeds duurder wordt om fabs op te zetten voor steeds kleinere productieprocessen, naast de quantum-effecten die op een gegeven moment niet meer te verwaarlozen zijn. Dat vraagt om een nieuwe revolutionaire architectuur, codenamed Larrabee/Haswell?

[/speculeermode]

TGEN @Joep • 8 april 2010 17:37

Kleine kanttekening: Conroe was niet revolutionair, maar evolutionair; Conroe was gebaseerd op Yonah, welke weer gebaseerd was op Dothan/Banias, welke uiteindelijk weer gebaseerd was op de P6 core van de Pentium Pro. Natuurlijk zaten er wel een flink aantal veranderingen in ten opzichte van Yonah, maar hij was niet zo revolutionair als Netburst dat was ten opzichte van P6, ook al heeft Netburst gefaald.

Ook zal een nieuwe architectuur in principe niet problemen met procestechnologie oplossen; hoogstens maskeren, maar wel tegen een prijs die op een gegeven moment niet meer acceptabel wordt (hitteontwikkeling, stroomverbruik in het algemeen).

robvanwijk @dtecta • 8 april 2010 17:05

Niemand zegt dat Larrabee cores op alle punten simpel zijn, maar op sommige eigenschappen doen ze zeker een stapje terug:

quote: http://en.wikipedia.org/wiki/Intel_Larrabee
The P54C-derived core is superscalar but does not include out-of-order execution

Hierin is Larrabee gelijk aan de Atom en ligt (in de "mainstream" sectie van Intel processoren) op hetzelfde niveau als de eerste Pentium processoren (P5 microarchitectuur). Zelfs de Pentium Pro (P6 microarchitectuur) had al wel out-of-order execution.
Over support voor speculative execution en register renaming kon ik voor Larrabee niks vinden. Atom heeft dat niet en oorspronkelijk zijn die ook pas in de P6 (dus ná de P54C) architectuur toegevoegd (wat natuurlijk niet persé betekent dat het voor Larrabee niet toegevoegd kan worden, het is immers een "P54C-derived core").

Dat ze hier en daar een stapje terug doen is natuurlijk ook logisch, de cores moeten klein genoeg worden om met zijn "velen" op een enkele die gepropt te kunnen worden. Maar ik denk dat het wel gewoon gezegd mag worden dat ze, op sommige punten, vereenvoudigd zijn. Klok-voor-klok-per-core zal een Larrabee enorm in het stof happen (tenzij 4-way hyperthreading e.d. de boel kan redden...!?), zelfs al vergelijk je hem met een Pentium Pro; met deze achtergrondinformatie is dat niet meer dan logisch.

knirfie244

Intel

@Joep • 9 april 2010 09:24

1 - Hoe komt Larrabee hierbij kijken? Dit ontwerp heeft niets met Larrabee te maken.
2 - De enige manier hoe Larrabee en de Atom op elkaar lijken is dat ze beide lichtjes gebaseerd zijn op de pentium core, het ontwerp van de Atom en een enkele Larrabee core is echter drastisch anders.

Verwijderd 8 april 2010 16:04

Is dat niet heeel erg weinig L2 cache?
Ik kan me voorstellen dat bijvoorbeeld Boinc dit soort machines best wil testen. Of Mozilla voor hun Weave server?

Verwijderd @Verwijderd • 8 april 2010 16:35

Boinc zou ik nog wel kunnen begrijpen, alhoewel het dan niet zal gaan om de reken taken zoals die te vinden zijn op de huidge desktops. Het zou dan eventueel kunnen gaan om de uitslagen te combineren (hoe dan ook)...

maar ik begrijp niet dat Weave dat nodig zou hebben of zou willen testen, kun je dat uitleggen? We hebben het over deze, toch? https://services.mozilla.com/

Verwijderd @Verwijderd • 8 april 2010 17:02

De vele requests die ze krijgen. Die zijn ook versleuteld, dus die server heeft neem ik aan ook rekenkracht nodig. Per request niet veel natuurlijk, maar maal miljoenen gebruikers..

Verwijderd 8 april 2010 16:16

De twee standaard academische applicaties voor HPC's op dit moment zijn farmacie en stromingsleer.
Mijn (klimaat)simulaties zouden hier danook prima op draaien. In een ideale wereld zou ik er een stuk of 4 aan elkaar knopen, en hop: Eigen rekenserver.

voodooless @Verwijderd • 8 april 2010 16:49

Voor die toepassingen zie je tegenwoordig dat GPU's steeds meer gebruikt gaan worden. Die hebben rekenunits die voor dat soort taken nog vele malen krachtiger zijn dan een general purpose CPU.

Pykow 8 april 2010 16:42

dit is interresant voor de server beheerder etc.
Als consument heb je echt nog niks aan zoveel cores.

Games die vragen nu maximaal Quad Core processor. Dat staat gelijk aan 2x 2 cores.
De i7 is een actief 2x4 core processor

dus als consument heb je hier nog niks aan.

BTW GTA4 gebruikt met de goedkoopste i7 processor 25/30% van je processor.
Dus meer cores hebben we nog niet nodig

Niosus @Pykow • 8 april 2010 18:20

"BTW GTA4 gebruikt met de goedkoopste i7 processor 25/30% van je processor.
Dus meer cores hebben we nog niet nodig"

hangt af van je resolutie, instellingen en je grafische kaart. Als je graka een serieuze bottleneck is dan is het logisch dat hij maar 30% gebruikt. Steek eens een 5970 in je systeem en je gaat zien dat je CPU load naar boven gaat

Gammort 8 april 2010 16:21

Als hier vraag naar is, dan is dit een prima ontwikkeling

btw, de snelste Atom is de Z540 en draait op 1.86Ghz

ipv 1.83Ghz wat in 't bericht staat.

Intel(R) Atom(TM) Processor Z540 1.86 GHz

Dekker3D 8 april 2010 20:50

hmm.. systemen met dubbele cpu's, waarvan een een 16-core atomachtig ding en de andere een i5, zouden best efficient met verscheidene taken om kunnen gaan. met goede support door de OS (waarschijnlijk door linux, mac en dan pas windows) zou dat best interessant worden. ik zou het heerlijk vinden om voor zoiets te proberen te programmeren, dan is het geen vraag meer hoeveel threads je maakt... gewoon zoveel mogelijk

radioth 8 april 2010 16:21

nu nog de software hebben om dat alles aan te spreken

watercoolertje @radioth • 8 april 2010 16:26

Bestaat toch al, windows (server) kan gewoon met meerdere cores over weg en programma's die het ook nodig hebben om op meerdere cores uitgesmeerd te moeten worden zijn uiteraard ook multicore gemaakt

En de meeste Linux OSen kunnen ook met zo veel cores over weg

Verwijderd @watercoolertje • 8 april 2010 16:46

Dat wil nog niet zeggen hoe goed dit draait, het probleem met threads and processen is niet zo simpel als 'ik draai het even op een andere core'. Je moet ook nog andere HW aanspreken en elke keer dat je een context swao heb kost dat tijd.
Soms kan het best zo zijn dat je beter iets in je eigen process kunt draaien dan een thread ervoor maken. Deze intell processor is er voor bedoeld om goed onderzoek te doen naar verschillende methode van het parallel uitvoeren van software. Waarschijnlijk worden er ook wel een nieuw taal of extentie voor ontwikkeld en getest op deeze CPU's. De huidige talen (op een paar nagelaten) hebben weinig mogelijkheden voor deze nieuwe technieken, tenminste... als je wilt optimaliseren.... Zoals laatst las ik (ook optweakers) nieuwe technieken om op de huidge cores multi-threads sneller te laten lopen dmv een treads for geheugen management...

Als voorbeeld, Samba (voor zo ver ik weet) is nog steeds single threaded, simpel weg omdat dat sneler is dan een multi-thread for deze toepassing.

Tweede voorbeeld, dat iTunes traag draait op een Windows systeem heeft bijna alles te maken met het verschillen hoe OSX threads afhandeld tov Windows. Bij OSX gaat dit veel efficienter, bij Windows niet zo... Voor een windows app zou je dus veel minder threads willen inzetten. Kan helaas dat artiekel even niet meer vinden....

[Reactie gewijzigd door Verwijderd op 29 juli 2024 11:52]

Op dit item kan niet meer gereageerd worden.

Lees meer

Reacties (36)

Sorteer op:

Weergave: