Intel laat Teraflops Research Chip met 80 cores zien

Tijdens de ISSCC in San Fransisco heeft Intel een paper gepresenteerd waarin de Teraflops Research Chip (TRC) wordt gepresenteerd. Op 3,16GHz kan deze testchip meer dan één biljoen drijvendekommabewerkingen per seconde uitvoeren (oftewel teraflops) bij slechts 62W.

De TRC maakt onderdeel uit van Intels Tera-scale Computing Research Program, een poging om de huidige dual- en multicoreprocessors op te schalen naar ontwerpen met tien tot honderden cores die zuinig met energie omspringen. Het project moet een processor mogelijk maken die de teraflopgrens doorbreekt, zonder meer energie te verbruiken dan huidige processors.

De TRC bestaat uit 100 miljoen transistors die met behulp van een 65nm-proces in een 275mm² grote chip werden 'gegoten'. Op een frequentie van 3,16GHz heeft de testchip een spanning nodig van 0,95V. Na productie bleken hogere frequenties ook mogelijk, tenminste als de voedingsspanning werd verhoogd. Het maximale wat erin zat was 5,7GHz bij een voedingsspanning van 1,35V, goed voor tachtig procent betere prestaties (1,81 teraflops). Hier stond echter tegenover dat het verbruikte vermogen meer dan verviervoudigde naar 265W. Volgens het onderzoek is het dan ook veel interessanter om het aantal cores op de chip uit te breiden, dan de frequenties (en spanning) te verhogen.

Teraflops Research Chip processoreenheid

De TRC bestaat uit tachtig identieke tegels. Elke tegel heeft een processoreenheid (pe) en een router waarmee met de omliggende tegels kan worden gecommuniceerd. Elke pe bestaat uit twee onafhankelijke FPMAC's die elk twee floatingpointgetallen met elkaar kan vermenigvuldigen en optellen in een bewerking die negen kloktikken duurt. Verder heeft elke pe 3KB instructiegeheugen, 2KB datageheugen en 32 registers. De pe kan één 96-bit VLIW-instructies per kloktik decoderen, die tot acht verschillende bewerkingen kan beschrijven. Hierdoor kunner er elke kloktik twee FPMAC-bewerkingen, één load-, store-, sprong-, slaap-, packet-send- en packet-receive-bewerking worden uitgevoerd.

De router bestaat uit vijf poorten die 40bits breed zijn. Eén poort is met de pe verbonden en de overige vier poorten zijn met de omliggende tegels verbonden. Als de chip op een nominale frequentie van 4GHz werkt, zou elke router maar liefst 80GB per seconde aan gegevens kunnen verplaatsen. Deze communicatie gebeurt mesynchroon. Dat wil zeggen dat de klok van de onderdelen die met elkaar communiceren dezelfde frequentie hebben, maar niet dezelfde fase. Het voordeel hiervan is, dat er geen klokbuffers op de chip gebruikt hoeven te worden om ervoor te zorgen dat het kloksignaal aan de ene kant van de chip in fase is met het kloksignaal aan de andere kant van de chip. Hierdoor kan er energie bespaard worden.

Om nog meer energie te besparen is elke tegel opgesplitst in 21 verschillende zones die elk hun eigen kloksignaal hebben. Afhankelijk van of het onderdeel wel of niet gebruikt wordt, wordt dit kloksignaal automatisch aan- of uitgezet, een fenomeen dat 'fine grained clock gating' genoemd wordt. Als de klok van meerdere onderdelen in meerdere tegels tegelijkertijd wordt aangezet kan er echter stroompiek optreden die de goede werking van de chip kan beïnvloeden. Om dit te voorkomen hebben de ontwerpers een mechanisme ingebouwd waarmee elke FPMAC op de chip in zes stappen ontwaakt wordt.

Hoewel de grens van één teraflop met de TRC is doorbroken, betekent dit niet dat het project ten einde is. Zo willen de onderzoekers de TRC in de toekomst op een geheugenchip plakken, wat een razendsnelle communicatie met het geheugen mogelijk zou moeten maken. Daarnaast willen ze de TRC voorzien van cores die meer kunnen dan alleen het optellen en vermenigvuldigen van drijvendekommagetallen. De chips die in het kader van het project worden gemaakt zijn niet voor de verkoop bedoeld. De technieken en oplossingen daarentegen, die deze onderzoekschips mogelijk maken, zullen in de toekomst als basis dienen voor echte producten.

Reacties (52)

bokkow 12 februari 2007 23:21

MIPS is Meaningless Indication of Processor Speed betekent FLOP niet ongeveer hetzelfde?

martijnvanegdom @bokkow • 12 februari 2007 23:28

Nee niet bepaald.. FLOP staat voor FLOating Point operation. Of te wel een elementaire bewerking op 2 drijvende komma getallen.

knirfie244 @martijnvanegdom • 13 februari 2007 08:36

Ja, en MIPS staat officieel voor Million Instructions Per Second... Maar het zijn allebij redelijk nutteloze waardes!

bokkow @martijnvanegdom • 13 februari 2007 15:29

Alsof ik meende wat ik zei het was als grap bedoelt vandaar dit"

" teken snap je. Ik begrijp ook wel dat MIPS voor Million Instructions Per Second staat en FLOP voor FLOating point OPerations.. tsss

DexterBelgium @bokkow • 13 februari 2007 08:24

Ja, ik dacht Fast-Looking Obfuscation of Processorspeed of zoiets

_Thanatos_ 13 februari 2007 03:10

Waarom hebben zij een 80-core van 65 watt, en wij een dualcore van 65 watt?!!

Eldee @_Thanatos_ • 13 februari 2007 03:23

Omdat die 2 cores heel complex zijn en dus heel veel mogelijkheden bieden, en die 80 cores heel eenvoudig zijn, en dus maar (relatief) heel weinig kunnen.

_Thanatos_ @Eldee • 14 februari 2007 11:01

Dus? Als het als geheel sneller is, dan moeten we het toch hebben?

NomadTitan 12 februari 2007 23:07

Wow, dit ziet er indrukwekkend uit !
Maarja alsnog zijn dit geen echte concrete cijfers.. puur theorie.

Helaas valt het in de praktijk vaak héél erg tegen.

Little Penguin @NomadTitan • 12 februari 2007 23:13

Naast het feit dat dit theoretische getallen zijn -die overigens best te halen zijn in de praktijk IMHO, denk ik dat het vooral de non x86-compatibiliteit zal zijn die deze chip ongeschikt maakt voor desktop werk.

Overigens zal er ongetwijfeld een spin-off naar de x86 bussiness plaatsvinden, intel moet tenslotte ook geld verdienen.

Verwijderd @Little Penguin • 12 februari 2007 23:20

Ik zie dit een beetje als Intel's antwoord op de Cell. Cool en interessant binnen een bepaalde markt. Voor de PC echt veel te veel toekomstmuziek echter.

ATS @Verwijderd • 12 februari 2007 23:45

Grootste verschil is dat de Cell ook daadwerkelijk bestaat, werkt en gebruikt wordt natuurlijk.

kidde @Verwijderd • 13 februari 2007 01:24

Voor de PC echt veel te veel toekomstmuziek

Voor de PC wel, maar blade servers met Cell processor zijn al verkrijgbaar, en er draait sinds 2.6.11 Linux op.
(QS20 bladeserver)
Overigens heb ik het nagezocht, en een Cell proc levert ongeveer 0,2Tflop per seconde 'single precision', en 0,02 TFlop double precision, en dat dan met ongeveer 8 cores.

knirfie244 @Verwijderd • 13 februari 2007 08:31

Deze chip bestaat ook "echt" hoor, en voor zover mij bekend werkt ie ook. Hij wordt alleen nog niet verkocht...
(omdat het op dit moment nog meer een proof of concept is)

Daarnaast is dit ontwerp natuurlijk totaal anders dan hoe de cell opgebouwd is. Het stuk op Anandtech is een stuk duidelijker op dat gebied.

Darkprince1234 @Little Penguin • 12 februari 2007 23:22

We kunnen natuurlijk ook gewoon overstappen van x86 naar iets anders, als de software er voor gemaakt wordt dan kan dat prima. Itanium is daar een goed voorbeeld van.

iKiddo @Darkprince1234 • 13 februari 2007 00:19

Waarschijnlijk is het doel van het gebruiken van erg versimpelde cores om het nut van allerlei multicore technieken te onderzoeken. In dit geval was waarschijnlijk het onderzoeken van de prestaties van zaken als mesynchrone klok, fine grained clock gating en intercore routering in het licht van MHz-en, flops en stroomverbruik het hoofddoel van dit project. De cores van processoren zijn redelijk uitontwikkeld, hierdoor wordt het belangrijker om efficient meerdere (lees: zo veel mogelijk) cores te kunnen combineren om in de toekomst een goede marktpositie te kunnen behouden.

Countess @Darkprince1234 • 12 februari 2007 23:45

"goed" voorbeeld in de zin van waarom het meestal niet werkt bedoel je?

er is gewoon niet genoeg software voor, en dat zal je met elke nieuwe techniek precies zo hebben.
en bij deze helemaal, want deze is zelfs niet echt compatible te maken met x86 (waar de itanium dat wel redelijk kan)
x86 software of dit soort chips (zelfs met een geheel nieuw ontwerp) zal gewoon niet vooruit te branden zijn. zelfs muticore software zal nog geen 10% van de hoeveelheid beschikbare cores kunnen gebruiken waarschijnlijk, en aangezien de cores zelfs op zijn minst simple te noemen zijn zal alles wat ook maar enigszins van sequentiële aard is niet vooruit te branden zijn.

leuk idee, maar buiten supercomputers en andere gespecialiseerde applicaties zie ik dit soort chips nog niet in mijn desktop verschijnen.

klaasvaag @Darkprince1234 • 13 februari 2007 08:52

En als je dan gisteren het nieuwsberichtje ziet dat de volgende versie van Windows virtualisatie als kernfeature gaat hebben, dan zie je dat dat steeds minder uit gaat maken.

DukeBox @Little Penguin • 12 februari 2007 23:21

Hij kan evt. als co-processor of via een extra instructieset worden toegevoegd aan de wel x86 compattible cpu.

Verwijderd @DukeBox • 13 februari 2007 09:21

drijvendekommabewerkingen per seconde

Zo'n term moet je dus niet proberen te 'verNederlandiseren'

Squee @NomadTitan • 12 februari 2007 23:30

Maarja alsnog zijn dit geen echte concrete cijfers.. puur theorie.

Hoezo puur theorie? Ik maak toch echt op uit het stukje dat ze hem werkelijk al op een chip hebben gebakken! En ik zie dit ook heel erg als de toekomst, alleen de vraag is hoe gaat Intel zorgen dat alle 'legacy' code automatisch geparallelliseerd kan worden zodat het op dit soort architecturen zou kunnen draaien en werkelijk baat zou hebben bij zo'n grote hoeveelheid cores.

Countess @Squee • 12 februari 2007 23:53

iets maken dat zo hard kan rekenen en vervolgens ook die performance krijgen in een echt nuttige applicatie zit nog een heel verschil tussen.
dus ja puur theorie.

en porten van legacy code kan je wel vergeten voor het overgrote deel. te ingewikkeld en in veel gevallen gewoon niet mogelijk. x86 code bevat veel te veel code die sequentieel moet worden uitgevoerd, omdat het programma ontworpen is met dat in het achterhoofd.

als intel dit echt ziet als de vervangen van desktop chips (en dat lijkt me sterk voorlopig) zouden ze weer de zelfde fout maken die ze maakte met de pentium4.
daar gingen ze compleet overboard voor maximale mhz, waarbij ze de IPC's lieten versloffen, en dan zouden ze nu compleet overboard gaan voor het maximum aantal cores waarbij ze singel threaded performance laten versloffen.

met wat aanpassingen zou je hier wel een hele dikke videokaart van kunnen maken volgensmij.

edit @ kidde : je hebt wel gelijk voor een deel maar de gemiddelde thuis gebruiker wil niet dat zijn nieuwe computer ineens niet meer vooruit te branden is met zijn oude software. dat gaat hij gewoon echt niet pikken.
voor server en workstations kunnen we dit nog wel gaan zien op de relatief korte termijn maar desktops lijkt me erg sterk.
voor desktops geef mij AMDs aanpak maar van multicore in moderation.
wel multicore maar voorlopig ook nog steeds werken om single threaded ook sneller te laten worden.
zo heb je een veel betere overgang en heeft de software wereld tijd om zich aan te passen.

kidde @Countess • 13 februari 2007 01:32

x86 code bevat veel te veel code die sequentieel moet worden uitgevoerd

Kijk, en exact daar zit hem het probleem heb ik het idee.
De huidige programma's zijn simpelweg niet geschreven voor meerdere core's, en zijn met name sequentieel geschreven. Men kan dus het slome opereren van deze 80-core processor voor de huidige nuttige alledaagse applicaties net zo goed wijden aan de programmeer paradigma's die gebruikt zijn door de programmeur, in plaats van aan een falende processor-architectuur.
Met bijv. de gcc-cell (Gnu C-compiler voor Cell) is het al mogelijk software door de compiler zoveel mogelijk multi-threaded te maken, en naarmate programmeurs in de toekomst meer rekening hiermee gaan houden, zullen programma's hiermee vanzelf niet meer alleen van single threaded performance afhankelijk zijn. Tegen die tijd zie ik dit zeker als een reële vervanger van de huidige chips.

Zeggen dat dit niks wordt omdat de single threaded performance te laag is, lijkt mij vastgeroest denken vanuit het huidige x86-referentiekader, en ik denk zeer zeker wel dat deze technologie in mijn desktop terugkomt binnen enkele jaren. Maargoed, de toekomst zal het leren; en ik zie er erg naar uit.

Ed: FF nagezocht, x86 arch. wordt al 30 jaar gebruikt. Het is dus een gigantisch succesvolle architectuur die niet snel zal verdwijnen, maar omdat het al 30 jaar gebruikt wordt, is het logisch dat het moeilijk is niet 'met de de vertrouwde x86 technologie als uitgangspunt te denken.'

bbr @NomadTitan • 13 februari 2007 09:37

80 cores. word dan dus +- 70-75.
bij het bakken hanteren ze toch een 10% fout marge per wafer?
Word erg lastig om een 100% goed werkende CPU te bakken dan als potentieel 10% van je cores het niet doen... hoop wel dat ze dan dus de hele cpu testen.

M2M 13 februari 2007 10:19

was het niet zo dat er te weinig multicore software was om echt goed gebruik te maken van zo'n soort processor?

Verwijderd @M2M • 13 februari 2007 11:58

Niet voor supercomputers. Weersvoorspellingen en dergelijke zijn van nature zeer parallel. Het onderzoek van deze processor richt zich dan ook niet op de desktopmarkt.

Black Piet 12 februari 2007 23:19

Zeker een indrukwekkende prestatie!

Wat ik met name van belang vindt, is dat Intel zijn rol als grootste cpu leverancier serieus neemt en ook een maatschappelijke verantwoording als milieu en energiegebruik onderzoekt!

Verwijderd @Black Piet • 13 februari 2007 11:53

Zeker een indrukwekkende prestatie!

Niet echt. NVIDIA of ATI hadden gerust al een TFLOP kunnen halen met een GPU. De echte uitdaging is om die pieksnelheid ook effectief te halen. In dat opzicht zijn GPUs veel indrukwekkender dan dit beperkte experiment. Uiteindelijk heeft Intel één klein floating-point tegeltje ontwikkeld en er 80 op een chip gegooid. Bij een GPU komt héél wat meer kijken, en het haalt effectief zeer hoge prestaties.

Praetor @Verwijderd • 13 februari 2007 16:33

Je hebt er alleen een hele dikke voeding voor nodig...

TheCapK 13 februari 2007 08:17

Ziet er wel uit als een goede overclocker! Daar kan je nog eens benches mee draaien!

_Thanatos_ @TheCapK • 15 februari 2007 21:10

Nee, daar kun je 80 benches mee draaien

wenmaar 13 februari 2007 12:07

Neurale netwerken zouden zo wel weer een stap dichterbij komen.
Als elke cel zijn eigen geheugen en router heeft kan deze zelfstandig werken en een netwerk met andere cel's maken.

et36s 13 februari 2007 10:06

Maar is dit voor thuisgebruik of is dit onbetaalbaar of niet eens relevant omdat dit chip niet voor desktop software geschikt is? En wanneer komt deze techniek beschikbaar

Verwijderd @et36s • 13 februari 2007 18:23

Nee dit is niet voor thuisgebruik. Behalve als het enige wat je thuis doet komma getallen optellen of vermenigvuldigen is. Dit ding kan serieus nog minder dan een 8086.

Even voor de vergelijking:
Een pentium heeft ongeveer 800 verschillende instructies. (geen bron, maar las ik laatst ergens, kan het niet meer vinden. )

The 801 was a simple design, and an overcorrection to its simplicity resulted in the POWER design being more complex than most RISC CPUs. For instance, the POWER (and PowerPC) instruction set includes over 100 op-codes of variable length, many of which are variations on others. This compares (for instance) with the ARM which has only 34 instructions.

Dat was een Reduced Instruction Set Computer.

En nu krijgen we dit ding:

De pe kan één 96-bit VLIW-instructies per kloktik decoderen, die tot acht verschillende bewerkingen kan beschrijven.

Dit ding is eindeloos nutteloos..

diederik77 @Verwijderd • 14 februari 2007 10:31

Maar heeft iemand een idee waarom die instructie in vredesnaam 96 bits moet wezen om er 8 instructies mee te beschrijven??? Dat kan ook met 3 bits.

Munters @diederik77 • 15 februari 2007 15:49

Een VLIW instructie van 96 bits beschrijft 8 bewerkingen tegelijkertijd.
En per bewerking moet er ook bekend zijn wat de source en target is.

Er zijn dus 80 tegels met ieder 2 rekeneenheden, die ieder weer een multiply en een add instricutie per kloktik kunnen uitvoeren.
Dat levert op 3,16 Ghz dus 3,16 * 320 flops op.

Punkie @et36s • 13 februari 2007 15:27

Dit is niet bedoelt om een general purpose cpu te worden. Geen x86, geen vaste instructieset, geen sequentiele programmas.

Het ligt veel dichter tegen een gpu aan. en dan nog, een typische gpu in een desktop heeft een veel complexere architectuur. Vergelijk dit eerder met de D processor (als in een 486dx) die slecht enkele berekeningen aankan.

Dit zijn enkel 160 vette MAC's. een MAC van ongeveer 0.5mm op 0.5mm is best wel groot eigenlijk...

jaapstobbe 13 februari 2007 08:58

80GB/sec best weinig vergeleken met een recente GPU...

of zie ik iets over het hoofd?

erwinb @jaapstobbe • 13 februari 2007 09:23

80GB/sec is best wel snel voor een router.
Voor systemen met minder core's kan je een switch gebruiken (Kijk naar de Core duo). Voor systemen als deze heeft iedere router contact met de 4 cellen om hem heen, er zal dan ook wel transport plaatsvinden van core1 naar core 4 via core 2 en 3.
Als je dit in zo zit dan is 80GB/sec wel snel.
Een cisco 6513 doet ongeveer 400gbit/sec.

polthemol Moderator General Chat 12 februari 2007 23:40

slecht nieuws

Nu krijg ik straks nog meer wiskundeopgaven

("ja, je pc rekent nu toch al tig keren sneller").

Boeiende ontwikkelingen

Ik denk dat ik maar eens luidkeels ga eisen voor meer aandacht voor dergelijke onderwerpen op school

*edit: pc's rekenen niet sneler >.<

Op dit item kan niet meer gereageerd worden.

Lees meer

Reacties (52)

Sorteer op:

Weergave: