Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Je kunt ook een cookievrije versie van de website bezoeken met minder functionaliteit. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , reacties: 36, views: 15.032 •

ARM's nieuwste technologie om cores in een system on a chip met elkaar te verbinden kan op termijn gebruikt worden om tot tweeŽndertig cores met elkaar te verbinden. De techniek wordt door chipfabrikant LSI in gebruik genomen.

De interconnecttechnologie van ARM wordt CoreLink CCN-504 genoemd en moet vooralsnog maximaal zestien cores met elkaar verbinden. De interconnect ondersteunt zowel Cortex A15-cores als ARM's nieuwe 64bit-AMRv8-cores. Die cores worden in vier clusters van ieder vier cores aangestuurd. De CoreLink CCN-504 kan bovendien 8 tot 16MB L3-cache aansturen en bevat i/o-interfaces als Gigabit-ethernet, pci-express-, usb- en sata-interfaces. De snelheid van de CoreLink-interconnect bedraagt 1Tbps. Een nieuwe geheugencontroller, de CoreLink DMC-520, is geoptimaliseerd om met de CCN-504 samen te werken.

De eerste implementatie van de nieuwe CoreLink moet rond februari 2013 zijn opwachting maken in chips van LSI. Die chipfabrikant zou CNN-504 in zijn Axxia-communicatieprocessors toepassen. Een producent van energiezuinige servers, Calxeda, gaat de CoreLink-techniek voor zijn volgende generatie processors voor servers inzetten. Op termijn zou de techniek ook voor ARM-processors met tweeëndertig cores ingezet kunnen worden.

ARM CoreLink CCN-504

Reacties (36)

3e (grote) PC speler?
Niet echt, geen software beschikbaarheid -> geen PC speler. En ja, je hebt straks Windows 8, maar dan zal je het volledig van nieuwe Apps moeten hebben, al je oude software zal niet draaien op een Windows RT gebaseerde PC.

Daarnaast zijn 16 "langzame" cores, nooit even snel als 2-4 snelle cores voor de taken die de gemiddelde PC gebruiker doet.

[Reactie gewijzigd door knirfie244 op 11 oktober 2012 15:34]

Mwa, compilers kunnen makkelijk van de ene instructieset naar de andere vertalen hoor.
Ja, maar:
1) Dan moet je wel de source hebben (bij closed source ben je volledig afhankelijk van de originele uitgever).
2) Sommige programmeurs hebben de (slechte?) gewoonte om aannames te maken over het platform waar ze op werken (of, in het ergste geval, inline assembly te gebruiken). Dat maakt het onmogelijk om simpelweg voor een andere architectuur te compilen.
3) Voor een heleboel dingen is single-threaded performance nog steeds belangrijk. Op dat punt kan een ARM core op geen stukken na tegen een x86 core op.
1 -> is niet waar (je kunt ook direkt van machinecode naar machinecode compileren)

2 -> is ook niet waar: je compiler moet gewoon slim zijn; een goed geimplementeerde emulator is een voorbeeld van zo'n compiler.

3 -> daar heb je vooralsnog een punt
Voor zover ik het weer produceerd ARM minimale hoeveelheden aan chips en het grootste gedeelte wordt geproduceerd in licentie, waarbij fabrikanten de nodige aanpassingen mogen doen.

Onderling zitten er grote verschillen, kijk maar vb maar de goedkope tablets uit china en de duurdere modellen.
De markt is te verdeeld om te gaan promoten dat je gebruik maakt van een ARM-processor en dat is de grootste zwakte van de processoren. Dat ze uiteindelijk (weer) hun weg zullen vinden in 'gewone' pc's zal ongetwijfeld gebeuren, maar die zullen maar alle waarschijnlijkheid met een bepaald concept in de markt worden gebracht.
ARM produceert helemaal niks, het is puur een ontwerp bedrijf.

Bedrijven die dan vervolgens een core ontwerp in licentie nemen bij ARM mogen er niets aan veranderen. Ze mogen er naar hartenlust mee schuiven over de die, variŽren in opties die ARM vast stelt en allerlei randapparatuur en interfaces omheen bouwen. Maar de core is in elke generatie, of die nu van Nvidia, Samsung, TI of NXP is, hetzelfde.

Uitzondering is wanneer een bedrijf niet het core ontwerp in licentie neemt maar alleen de instructieset, en daarbij een eigen core ontwerpt. Dit is wat Qualcomm gedaan heeft met Snapdragon en Krait.
Vergeet Apple niet met de A6. De A4 en A5 zijn nog met (Cortex A9, met de A7 instructieset) cores direct uit de library van ARM, maar de A6 heeft een core gebaseerd op de A9 core met wat features uit de A15 werkend met de A7s instructieset. Overigens mogen de developers die eigen cores mogen maken dus blijkbaar ook wel de cores van ARM als basis gebruiken -- Krait is datzelfde truukje van een Cortex A9/A15 hybride. Dat is op zich ook logisch, want de licentie op de instructieset is duurder en daarmee een superset van de simpele licentie op core ontwerpen.

[Reactie gewijzigd door Jasper Janssen op 11 oktober 2012 18:10]

Als Macbooks onder PC's vallen: Ja, want het schijnt "volgens geruchten" dat Apple gaat overstappen. Het is immers logisch dat Apple meer winst kan maken en zich onderscheiden met een Apple-CPU dan met een Intel / AMD.

Volgens sommige Apple-kenners beginnen Macbooks steeds meer te lijken op iPad's / iPhones, dus het zou logisch zijn als die hele meuk zou convergeren.

Wie weet - als Apple SoC's hun weg vinden in Macbooks - dat later de Apple PC's ook zullen volgen, als die dan nog gemaakt worden.

Echter, vermoedelijk gaat Apple wel een ARMv8 64 bits SoC maken (daar zullen ze dan nu al aan bezig zijn), dus het kan gerust nog even duren.

Overigens heeft deze interconnect-technologie daar denk ik weinig mee te maken, die is niet gericht op PC's / mobiele apparatuur.

[Reactie gewijzigd door kidde op 11 oktober 2012 18:07]

Ik denk persoonlijk niet dat Apple zulke langzame cores in zn laptops zou stoppen. Apple SoC's zijn niet compatible met het huidige OSX en ook al zal het compatible worden, dan zou het waarschijnlijk nog veel te langzaam zijn. Ik heb zelf een macbookje met een core2duo, deze heeft al erg veel moeite om OSX lion te draaien, laat dus staan dat Apple SoC's het zouden kunnen draaien.

Het is overigens wel waar dat de nieuwe OSX's steeds meer op iOS gaan lijken (met app store, launchpad, etc).

Op lange termijn zou het kunnen dat apple het compatible gaat maken met ARM, maar volgens mij kan dit nog erg lang duren, ARM cpu's zijn namelijk nog lang niet krachtig genoeg.
Houdt dit dan in dat je een 32 core SOC kan maken of begrijp ik t verkeerd?
Eerst 16, en eventueel later naar 32.
Nee, je begrijpt het goed, al zullen de eerste implementaties tot 'slechts' 16 cores gaan.
Er staat dat er 32 cores met elkaar verbonden kunnen worden, nog niet dat ze daadwerkelijk op 1 SOC past. Dat is denk ik hun volgende stap..
Moet niet zo moeilijk zijn denk ik. Wat zal de grootte zijn van zo'n Cortex-A15 op 32 nm? Ik schat rond de 5 mm≤. Dat is dus 160 mm≤ voor 32 cores, doe dat maar maal 2 voor de rest van de chip en je hebt een 32 core chip in zeg maar zo'n 300 tot 350 mm≤ ofzo. Da's maar mijn ruwe schatting hoor. Ik kan er best naast zitten.
Ik denk dat je met 5mm aan de hele krappe kant zit. Ik zou de Cortex A15 eerder op een >10mm≤ verwachten op 32nm. Apple's A6 CPU core zit ook tegen de 10mm≤ aan.

Je maal 2 is misschien ook aan de krappe kant, het is ruim voldoende voor de interconnect, geheugencontroller, PCIe, USB, etc. Maar 8-16MB L3 cache gaat daar niet in passen. Bij Sandy Bridge (32nm) is de 8MB L3 cache goed voor ongeveer 50mm≤.

16*10 = 160mm≤
+160mm≤ interconnect, 16x PCIe, USB(3), SATA, etc
+ 100mm≤ 16MB L3
=420mm≤ voor een 16 core / 16MB L3 Cortex A15 SoC.

En dan zit er nog geen GPU in.

Als je echter de overstap naar 28nm maakt dan resulteert 32 cores alsnog in een grote chip, maar die is zeker te produceren.

[Reactie gewijzigd door knirfie244 op 11 oktober 2012 16:18]

Apple's A6 core is ook handmatig gelayout voor zo veel mogelijk performance zonder daarbij hem speciaal klein te houden. 5-6 mm^2 is op zich heel gebruikelijk voor mobile cores. Zelfs intel cores zitten eigenlijk altijd onder de 10, tegenwoordig.

Een Cortex A9 op 40 nm is 4.6 mm^2 op 800 MHz en onder de 7 voor een high-power high-perf 2GHz implementatie.

http://www.cs.virginia.ed...cs8535_s11/ARM_Cortex.pdf

Edit:

Op Wikipedia vind ik: "ARM states that the TSMC 40G hard macro implementation typically operating at 2 GHz; a single core (excluding caches) occupies less than 1.5 mm2 when designed in a TSMC 65 nanometer (nm) generic process[3] and can be clocked at speeds over 1 GHz, consuming less than 250 mW per core.[4]".

Dat betekent dus dat van een core van 5 mm^2 op 40 nm nog steeds 80% bestaat uit sram caches.

Edit2: De volledige implementatie van 32 cores en 16MB L3 die zit voorlopig nog niet op een mobiele SoC, zeker niet met 32nm. Daarmee kan je gerust wachten op de 10-14nm procesnode.

[Reactie gewijzigd door Jasper Janssen op 11 oktober 2012 18:27]

Een Tegra 2 SoCwas 49mm2 op 40nm. 10% daarvan was de Cortex A9, 4,9mm2 dus.
Op 28 nm zou je hem moeten kunnen maken op het halve oppervlak.

Een Cortex A7 maken ze tegenwoordig op 0,5mm2.
Echt.. deze techniek gaat zoveel sneller dan de normale technologie voor bijv de PC (x86/64). Sterker nog.. in de afgelopen 5 jaar is de mobiele technologie exponentieel gestegen en houd zich totaal niet aan de wet van Moore. En het lijkt maar gewoon als een gek door te gaan. Mijn "vlaggenschip" mobiel van HTC van 2 jaar geleden is zo "oud" vergeleken met de huidige dat het bijna om te janken is. 2 jaar... :+
Ik geloof dat de ARM processoren al de Intel Core 2 Duo/Quad generatie voorbij zijn qua prestaties dus het zou zomaar kunnen dat we over 10 jaar met alleen nog maar ARM processoren werken :)
Ik geloof dat jij relatief slecht geÔnformeerd bent.
Qua efficiŽntie zeker, qua rauwe rekenkracht nog lang niet. ARM processoren zijn door hun ontwerp gewoon enorm energiezuinig :)
De wet van Moore dicteert het aantal transistors per mm2 en feature sizes hier zitten gewoon op de lijn van Moore (32/22/16 nm etc). Dwz dus dichtheid van fysieke features op een chip. Slimme architectuur staat een niveautje hoger als je het mij vraagt.
Het gaat vrijwel even snel, alleen op de mobiele markt merk je er meer van, omdat daar nog echt winst (in snelheid) te halen valt :)

[Reactie gewijzigd door watercoolertje op 11 oktober 2012 15:01]

quote: Lightmanone1984
Echt.. deze techniek gaat zoveel sneller dan de normale technologie voor bijv de PC (x86/64).
Uhm.. ze beginnen technieken die onder andere al bekend zijn in de door jouw genoemde pc technologie gewoon toe te passen in de mobiele sector. Een interconnect om meerdere cores aan elkaar te knopen is niet zo revolutionair als jij wilt denken, in de pc wereld is dit al lang ontwikkeld. Of denk eens aan gpu's met hun vele core hoe die gekoppeld zijn.
Ik denk dat hij het gewoon over de toename van de rekenkracht heeft en niet specifiek over interconnects.
Sandy Bridge heeft niet 1 ring, maar 4 ringen. Dus zo revolutionair is deze ene ring echt niet.
De wet van Moore is exponentieel. De prestaties van mobiele chips is wel enorm gestegen, maar het energieverbruik helaas ook.
Ik sta er ook van te kijken dat de RISC processor architecturen nog zoveel 'uitbreidingen en verbeteringen' binnen korte tijd hebben gekregen.

Maar ja, vůůr de smartphone waren ze meer ingezet in embedded omgevingen en hadden de voornaamste afnemers van de ARM en MIPS processors niet de wensen dat het multicore moet zijn, om moeten gaan met HD content, etc.

Ik vind het wel mooi om te zien hoe het processorlandschap door de jaren heen is veranderd :)

Edit: Dit was eigenlijk een reply op Lightmanone1984

[Reactie gewijzigd door RoestVrijStaal op 11 oktober 2012 14:45]

Hoe moet ik de toepasbaarheid zien? Is dit iets voor een raid controller?
Waar haal je het in hemelsnaam vandaan te suggereren dat het langzaam is :s
Niet direct.
Het is een hoge bandbreedte inter-connect met AMBA poorten.
De reden er achter is dat een bus architectuur zoals die nu gebruikt wordt nogal wat problemen met zich meebrengt wat bandbreedte betreft, wanneer er veel cores op aangesloten worden.
Een bus is iets wat relatief eenvoudig te implementeren is en in gebruik maar zodra je daar meer cores op aan gaat sluiten problemen oplevert omdat elke core een deel van de bus blokkeert zodra er data getransporteerd wordt.
Een netwerk achtige architectuur is lastiger in gebruik maar levert veel meer bandbreedte op.
Nu adverteren ze hier met een interconnect die "makkelijk" ingebruik is (cache coherent) en hoge bandbreedte oplevert. Die eenvoud in gebruik (cache coherent) maakt het ook dat het niet zomaar te schalen valt naar 32, 64 of meer cores en zal je daar nog even op moeten wachten.
De hoge bandbreedte maakt het weer eenvoudiger voor systeem ontwikkelaars om er DSPs / GPUs op aan te sluiten zonder dat ze zich erg veel zorgen hoeven te maken over de tijd die ze in beslag nemen op de bus tijdens data verkeer.
Met andere woorden het is meer iets voor bedrijven die een SoC willen bouwen waar doorvoersnelheid een grote rol speelt en waar je veel cores op zou willen aansluiten, en voornamelijk voor cores met een ARM / AMBA gerelateerde interface.

[Reactie gewijzigd door KareltjeW op 11 oktober 2012 15:16]

Er staat in het artikel dat een bedrijf er zuinige servers mee wil maken.
Als je dan de RAID softwarematig afhandelt, dus over deze CPU, dan heb je inderdaad een RAID-controller.
Maar voor een losse RAID-controller lijkt het me nu nog een beetje overkill tenzij je met snelle SSD's werkt.
Is er hier iemand die weet hoe die interconnect eruitziet; is het een ring, een torus, een tree, ...? Daar ben ik wel benieuwd naar.

Volgens mij is dit trouwens ook de eerste keer dat ik een concrete verwijzing naar DDR4 langs zie komen.

Op dit item kan niet meer gereageerd worden.