Door Willem de Moor

Redacteur

Arm's next-gen cpu- en gpu-cores

Bouwstenen voor de socs van morgen

Tot slot: toepassingen

Cortex-toepassingen

Met drie cores heeft Arm, of hebben eigenlijk de klanten van Arm, een arsenaal aan hardware die kan worden toegespitst op specifieke workloads en scenario's. Door de Cortex-cores met elkaar te combineren, kunnen verschillende markten en toepassingsgebieden bediend worden, van laptops tot zuinige wearables.

De gedachte achter de Cortex-X2 is dan ook dat de meeste restricties wat energiegebruik wat zijn losgelaten; de core is geoptimaliseerd voor prestaties. Let wel: Arm streeft er wel naar de power-performancecurve in de buurt van een een-op-eenverhouding te houden, om het verbruik niet uit de hand te laten lopen. Het werkgebied van de Cortex-X2 is vooral singlethreaded, kortdurende piekbelasting. De A710 biedt juist een goede balans tussen langdurige workloads en energiezuinigheid, en is meer gericht op multithreaded workloads. De kleine A510-cores zijn ontwikkeld met zuinigheid als voornaamste eigenschap, waarbij ze lichte workloads en achtergrondtaken voor hun rekening nemen. Bovendien zijn de Little-cores in tegenstelling tot de big-cores en X2-cores uitgerust met een in-order architectuur, waar de A710 en X2 een out-of-order pipeline hebben.

Arm Tech Day 2021: core-configuraties

Configuraties met vier X2-en 4 A710-cores zouden bijvoorbeeld in laptops toegepast kunnen worden, terwijl heterogenere clusters met één X2-core, drie A710-cores en vier kleine A510-cores in smartphones gebruikt kunnen worden. Verder richting minder prestatiegerichte apparaten of midrangetelefoons kunnen klassieke combinaties van vier grote en vier kleine cores gebruikt worden, en verder naar 'beneden' kunnen twee A710-cores en bijvoorbeeld de A510-cores ingezet worden. Voor zuinige toepassingen als wearables zouden alleen de kleine A510-cores ingezet moeten worden.

Tot slot

Arm heeft met de Armv9-architectuur de basis gelegd voor het komende decennium en met de eerste bouwstenen voor de consumentenmarkt die we hier besproken hebben, is alles in stelling gebracht om fabrikanten in staat te stellen om snellere en veiligere producten te leveren. Vanaf dat jaar biedt Arm alleen nog 64bit-big-cores aan en een jaar later, in 2023, moeten alle cores, groot en klein, de overstap naar 64bit gemaakt hebben. Al die Arm-cores moeten niet alleen hun weg vinden naar smartphones, Chromebooks en wearables, maar ook naar infotainmentsystemen in auto's, AR- en VR-apparaten. En als het aan Arm ligt, zullen alle toekomstige compute-devices met Arm-hardware aan boord worden gemaakt. Het bedrijf verwacht in ieder geval dat er in de komende tien jaar zo'n driehonderd miljard Arm-apparaten worden gemaakt.

Wat vind je van dit artikel?

Geef je mening in het Geachte Redactie-forum.

Reacties (26)

Wijzig sortering
De A510 clusters doen me denken aan de Clustered Multi-Threading (CMT) van AMD Bulldozer en aanverwanten. Niet dat dat per se slecht is, maar grappig om de gelijkenissen te zien.
Zelf ben ik totaal niet bekend met CPU architecturen, maar schaalt het ARM platform beter/makkelijker met verschillende typen cores bij elkaar dan dan x86 processors?
Op het gebeid van decoder schaalt ARM beter. Dit is een lang en interessant stuk wat veel uitlegt:

https://debugger.medium.c...chip-so-fast-3262b158cba2

Bijna aan het eind gaat het over de 'instruction decoders'. De M1 chip van Apple heeft bijvoorbeeld 8 decoders waar Intel en AMD er (max) vier hebben).

Why can’t Intel and AMD add more instruction decoders?
This is where we finally see the revenge of RISC, and where the fact that the M1 Firestorm core has an ARM RISC architecture begins to matter.
You see, an x86 instruction can be anywhere from 1–15 bytes long. RISC instructions have fixed length. Every ARM instruction is 4 bytes long. Why is that relevant in this case?
Because splitting up a stream of bytes into instructions to feed into eight different decoders in parallel becomes trivial if every instruction has the same length.
However, on an x86 CPU, the decoders have no clue where the next instruction starts. It has to actually analyze each instruction in order to see how long it is.
The brute force way Intel and AMD deal with this is by simply attempting to decode instructions at every possible starting point. That means x86 chips have to deal with lots of wrong guesses and mistakes which has to be discarded. This creates such a convoluted and complicated decoder stage that it is really hard to add more decoders. But for Apple, it is trivial in comparison to keep adding more.
In fact, adding more causes so many other problems that four decoders according to AMD itself is basically an upper limit for them.

[Reactie gewijzigd door shredder op 25 mei 2021 17:48]

He bedankt! Voor mij lijken al die architecturen iets wat andere mensen overkomt: M1 geweldig: OK, AMD's zuiniger, leuk. Dit is de eerste keer dat ik eens hoor wat de consequenties van dat Intel vs. RISC nu eigenlijk in de praktijk betekenen en dn uitgelegd op een manier waarop ik ook meteen inzie dat dat voor Intel & Co een belangrijk nadeel is t.o.v. RISC.
x86 is CISC.
Dus zeg maar gerust CSIC vs RISC.
Maar CISC heeft ook z'n voordelen hoor tegenover RISC.
Tot nu toe lijkt het wel zo... 48 cores van Fujitsu is voor mij het hoogste wat ik tot nu toe heb gezien en het opschalen lijkt nog id kinderschoenen te staan.

Mja als ik naar de eisen v/d hoge core aantal workloads kijk kan ik nog niet echt inschatten in hoeveel situaties ARM opschaling daadwerkelijk een optie is. Een optie in de zin van energie verbruik vs. warmte afgifte vs. performance.... websites hosten kan je overall wel maar X86 bevat zoveel optimalisaties (zoals SSE) dat ik een vergelijking lastig vind
Er is ook een Altra Ampère 80 Core ARM server CPU..

Anandtech heeft in een uitgebreide benchmark deze cpu vergeleken met een Epyc en Xeon cpu. Blijkt dat de CPU heel aardig schaalt en dat het een voordeel voor ARM is dat deze 80 echte cores heeft ipv hyperthreading. Verder valt op dat deze ARM cpu de clockfrequemtie constant houdt onder verschillende workloads en dat het stroomverbruik variabel is. Bij AMD en Intel wordt de clock teruggeschroefd als de TDP wordt overschreden. Je zou zeggen dat er dus nog meer piek performance uit de ARM cpu te persen valt.

Cavium heeft ook een 32 core ARM server CPU met 4 threads per core.

[Reactie gewijzigd door fastedje op 25 mei 2021 21:10]

Sterker nog: De volgende Altra Ampère heeft 128 cores en is -nog steeds- gebaseerd op ARM. RISC is juist veel gemakkelijker te schalen dan CISC, volgens mij. Grotendeels omdat RISC parallelisatie in de hand werkt.
Ik las laatst op Anandtech dat de branch predictor bij RISC/ARM veel effectiever instructies kan bekijken omdat ze allemaal dezelfde lengte hebben. Bij x86/x64 zijn er instructies van de verse lengtes wat het decoderen en voorspellen veel lastiger maakt.
Het gaat mij niet zozeer om ruwe benchmark testen. X86 bevat bijv SSE. Je kan bijv zeggen doe X + Y. Je kan ook zeggen X + Y SSE stylo.

Oke dit is natuurlijk geen reallife voorbeeld (die zijn iets complexer) maar leveren een flinke performance optimalisatie op
Ampere Computing heeft een Altra serverprocessor met 80 Neoverse N1 cores en met de dit jaar uit te komen Altra Max worden dat er 128. Voor volgend jaar heeft Ampere al een serverprocessor op de planning staan met 128 of meer eigen ontworpen ARM-compatibele cores. Deze processoren zijn wel volledig op hyperscalers en cloud computing gericht, hoewel de servers uiteindelijk ook in bedrijven gebruikt zouden kunnen gaan worden.

[Reactie gewijzigd door psychicist op 26 mei 2021 00:20]

Thunder X3 zou dit jaar al op 384 threads moeten zitten:

https://www.nextplatform....arvells-triton-thunderx3/

Product wordt alleen niet onder de Marvell-vlag uitgegeven, maar het ontwerp wordt gelicenseerd aan klanten als Huawei, Google et all.
Lijkt erop dat Apple een goede keus heeft gemaakt met de ARM architectuur?
Apple heeft met ARM samengewerkt aan de ontwikkeling van de ARMv8 architectuur om het te laten voldoen aan de eigen wensen. ARMv9 is een nieuwe baseline waarin de verschillende 8.x extensies die (voornamelijk) Apple gebruikt, standaard opgenomen zijn. Dus Apple heeft inderdaad een goede keus gemaakt met de ARM architectuur en de ARMv8 instructieset, omdat het ARM opdracht heeft gegeven om deze ontwikkelingen door te voeren.

Dat is ook de reden waarom Apple als eerste met een 64-bit ARM SoC kwam, ruim 2 jaar voor de eerste ARM Cortex A53 core beschikbaar kwam.
Wat maakt de m1 van apple dan anders dan andere arm ontwerpen. apple haalt schijnbaar extreem veel meer snelheid uit hun arm ontwerp dan anders.
Komt versie 9 van dit arm ontwerp dan qua snelheid in de buurt van apple ?
Het artikel van Erik Engheim is al vaak aangehaald en ik kan eigenlijk alleen maar aanraden om ze allemaal te lezen, omdat er toch vaak leuke dingen in staan.

Het komt er simpelweg op neer dat ARM zelf bij het ontwerpen van zijn cores niet al te agressief kan zijn qua transistoren en stroomverbruik, omdat deze in vele uiteenlopende chips terechtkomen. Als ze dan te duur worden om in licentie te nemen, zou de klant (in dit geval een chipbedrijf) ervoor kunnen kiezen om cores van een ander bedrijf te gaan gebruiken (zoals SiFive, als de precieze instructieset weinig uitmaakt).

ARM heeft nu met de Cortex X serie van cores een aantal restricties laten varen, waardoor er hogere prestaties behaald kunnen worden en meer verbruikt mag worden. Daarnaast is het ook agressief op het gebied van servercores zoals Neoverse V1 en N2.

Desondanks kunnen gespecialiseerde cores zoals die van Apple, Fujitsu, Ampere (Siryn) en Qualcomm (Nuvia) hogere prestaties behalen, doordat er teams van gerenommeerde chipontwikkelaars aan werken.

Dat is alleen voor de allerbesten weggelegd en de rest moet het doen met verder prima, maar minder presterende ARM cores. ARMv9 is vooral als nieuwe standaard belangrijk vanwege de toegenomen veiligheid en SVE2 instructies, waardoor er een serieuze tegenhanger van AVX is ontstaan.

De implementaties en de prestaties hiervan zullen nog steeds in grote mate kunnen verschillen, maar als nieuwe baseline is het geweldig, omdat iedere chip van je telefoon tot de grootste supercomputer al deze instructies ondersteunt.

Dat is niet bij alle x86 processoren het geval. Sterker nog, nu is voor het eerst AVX-512 beschikbaar op Intel clientprocessoren. De aanpak van ARM is geheel anders.

Apple zal ook in de toekomst voornamelijk gaan concurreren met Qualcomm, tenzij AMD en Intel het licht zien en ook deze markt in duiken. Ik ben op het moment slechts een laptop verwijderd van 100% alles op ARM draaien, maar ik vind het huidige aanbod nog net niet krachtig genoeg qua prestaties en uitbreidingsmogelijkheden.

[Reactie gewijzigd door psychicist op 26 mei 2021 10:32]

Ik zou de review van Anandtech aanraden over de M1 en dan ook eerdere reviews van de processors van Apple.
Waar het in het kort op neer komt is dat Apple grote cores heeft die best wel wat ruimte innemen op een chip en hoe groter de chip hoe duurder hij wordt. Waarom? Je krijgt minder chips uit een wafer waardoor je hogere kosten hebt. Een bedrijf als Apple kan zich dat permitteren om een duurdere chip af te nemen vanwege de gigantische aantallen die ze afnemen, maar ook doordat ze die chip alleen zelf gebruiken en ook nog in verschillende producten.
Neem nu een concurrent zoals Qualcomm of Mediatek - zij verkopen hun chips aan klanten en hebben daar met concurrentie te maken. Stel, Qualcomm ontwikkeld net zo’n grote chip als Apple en de kosten zijn 15 dollar per chip meer (fictieve prijs) dan Mediatek dan kan dat fabrikanten mogelijk overhalen om bij de concurrent te gaan shoppen.
Een ander voordeel voor Apple is dat ze zowel de hard- en de software kant bedienen en dus naadloos op elkaar kunnen afstemmen. Ze weten bij Apple ruim van tevoren welke kant ze op willen en zorgen dan dat de chips gaandeweg de kracht hebben om het ook daadwerkelijk uit te voeren.
Zie de AR mogelijkheden en de berekeningen die lokaal worden uitgevoerd in een AI-netwerk en het gerucht van een AR bril over 2-3 jaar… ze hebben echt een flink optimalisatie voordeel wat niet onderschat kan worden en dus niet puur en alleen aan de chip kan worden toegeschreven.
Jazeker wel. De M1 loopt rondjes om zijn intel broers. Die zijn ook geoptimaliseerd. Apple krijgt het voor elkaar om de M1 zonder koeling net zo snel te laten draaien als de duurste 16” Macbook Pro.
Sowieso ook omdat Apple altijd als eerste een nieuw TSMC-proces gebruikt (behalve bij N7+), en TSMC optimaliseert ook nog eens de processen speciaal voor Apple.

Dus Apple koopt niet alleen bij TSMC het nieuwste proces dat Qualcomm en anderen pas maanden later krijgen, maar TSMC maakt ook nog eens een speciale Apple-variant van het proces dat later niet aan Qualcomm / AMD verkocht wordt.
Of de ARM9 architectuur wel of niet veel afgenomen gaat worden zal toch vooral afhangen van de overname door nVidia. Veel van de huidige afnemers hebben niet heel vertrouwen in het beschikbaar blijven van betaalbare licenties na een dergelijke overname.
Laatste nieuws (April 2021) is dat het in China een juridisch mijnenveld is wat een flinke hindernis voor NVidia is:

https://www.eenewseurope....ina-put-nvidia-deal-doubt
Het bedrijf verwacht in ieder geval dat er in de komende tien jaar zo'n driehonderd miljard Arm-apparaten worden gemaakt.
Wow! Op bijna 8 miljard mensen is dat dus per jaar 37,5 ARM-apparaten (niet cores?) per inwoner? Klopt dat?

Voor mijn gevoel bezit ik zelf nu rond de tien ARM-apparaten, maar wellicht mis ik bepaalde zaken zoals keukenapparatuur (allemaal niet 'smart', dus geen idee of daar zo'n chip in zit), omvormer, cv-ketel? Mogelijk dat er ook ARM-chips zitten in Windows laptops? Hoe dan ook, dat zijn apparaten die wel al jaren meegaan. Plus, het merendeel van die apparaten worden gebruikt door het hele huishouden, niet per persoon.

(Ik lees dat de internationale quote is: 'next 300 billion Arm-based chips', dat is dus nog steeds niet cores, maar in een device kunnen meerdere ARM chips zitten, neem ik dan aan. Nog steeds een enorm aantal).

[Reactie gewijzigd door Ultimus XI op 26 mei 2021 11:27]

Zelfs SSD/HDD controllers, en dat bankieren apparaat, een mechanisch toetsenbord, en de monitor chip zal vast ook wel een ARM core hebben.
Weet u wat het is, er is ook semi-collectief eigendom.

We gebruiken bijvoorbeeld ook stoplichten, misschien hebben de dijken sensoren die communiceren, sattelieten, wijkkastjes voor internet, je gaat naar een theater en er zullen wel wat controllers zijn voor belichting, een informatie-paneel tijdens konings-dag waar het druk is, de bushokjes die vertellen wanneer de bus komt enz.

Vervolgens is er ook nog Amazon dat duizenden ARM-chips in datacentra stopt, en supercomputers zoals Fugaku.
Het gaat hier en daar echt over mijn pet heen haha maar ik vind het wel een ongelofelijk interessant tijdperk. Ik herinner me nog dat ik een 486 DX2 100 bezitte met 8mb werkgeheugen. Ik was voor een tijdje het mannetje tot de "Pentiums" daar ineens waren. Het was zo een moment in de computerwereld dat alles leek te veranderen. Pentium was het antwoord op vooruitgang in de processor wereld.

Met de lancering van de M1 heeft Apple laten zien dat er ongelofelijk veel prestaties te behalen zijn met een ARM gebaseerd systeem. Met een handje vol stroom loopt het zonder koeling rondjes om menig AMD of Intel ingerichte computer. En dan is dat pas hun eerste versie. Wat ik ook slim vind van Apple is dat ze deze chip gewoon overal doorvoeren. Van de iPad, laptop tot desktop computer. Ze hoeven zich dus niet druk te maken om 10 varianten. Keep it simple.

En dan moet de M2 of een snellere versie van de M1 voor hun 'pro' lijn nog komen. Als ik als leek kan zien dat met ARM dergelijke prestaties worden behaald tegen een fractie van de energie, mag ik aannamen dat dit ook gezien en genoteerd is bij Intel en AMD.

Misschien zien we over een paar jaar meer spelers op de CPU markt voor de doorsnee gebruiker dan alleen Intel of AMD.

Een jaar of 4 geleden ben ik van Apple naar PC verhuisd omdat de prestaties / hardware op dat moment in het Apple honk niet naar mijn zin waren. Mijn huidige computer, een 6 core intel cpu met 32gb geheugen en een leuke videokaart heeft het steeds moeilijker in de grafische programma's waarin ik werk. Misschien is het de hardware dat langzaam minder presteerd en tegelijk de software dat steeds meer kan en de computer belast.

Hoe dan ook, met de nieuwe gereedschappen die Apple aanbied heb ik best wel oor naar een stille zuinige ARM monster. Zou zou wel een contrast zijn. Mijn grote PC kast vervangen oor een Mac mini, zo groot als een boek en mijn huidige PC omver loopt qua prestaties.

Voor mijn perceptie zijn we dus op zo een "Pentium" punt aangekomen, en dat het landschap in computerland weer flink gaat veranderen! :D

[Reactie gewijzigd door RoyK op 26 mei 2021 09:29]

Als je, zoals ik een Acorn Archimedes heb gehad, met de allereerste ARM erin op 8MHz met 1MB RAM, dan is een Apple M1 een wonder. Hij is overigens zo snel omdat de RAM op SOC zit.

Op dit item kan niet meer gereageerd worden.


Nintendo Switch (OLED model) Apple iPhone SE (2022) LG G1 Google Pixel 6 Call of Duty: Vanguard Samsung Galaxy S22 Garmin fēnix 7 Nintendo Switch Lite

Tweakers vormt samen met Hardware Info, AutoTrack, Gaspedaal.nl, Nationale Vacaturebank, Intermediair en Independer DPG Online Services B.V.
Alle rechten voorbehouden © 1998 - 2022 Hosting door True

Tweakers maakt gebruik van cookies

Tweakers plaatst functionele en analytische cookies voor het functioneren van de website en het verbeteren van de website-ervaring. Deze cookies zijn noodzakelijk. Om op Tweakers relevantere advertenties te tonen en om ingesloten content van derden te tonen (bijvoorbeeld video's), vragen we je toestemming. Via ingesloten content kunnen derde partijen diensten leveren en verbeteren, bezoekersstatistieken bijhouden, gepersonaliseerde content tonen, gerichte advertenties tonen en gebruikersprofielen opbouwen. Hiervoor worden apparaatgegevens, IP-adres, geolocatie en surfgedrag vastgelegd.

Meer informatie vind je in ons cookiebeleid.

Sluiten

Toestemming beheren

Hieronder kun je per doeleinde of partij toestemming geven of intrekken. Meer informatie vind je in ons cookiebeleid.

Functioneel en analytisch

Deze cookies zijn noodzakelijk voor het functioneren van de website en het verbeteren van de website-ervaring. Klik op het informatie-icoon voor meer informatie. Meer details

janee

    Relevantere advertenties

    Dit beperkt het aantal keer dat dezelfde advertentie getoond wordt (frequency capping) en maakt het mogelijk om binnen Tweakers contextuele advertenties te tonen op basis van pagina's die je hebt bezocht. Meer details

    Tweakers genereert een willekeurige unieke code als identifier. Deze data wordt niet gedeeld met adverteerders of andere derde partijen en je kunt niet buiten Tweakers gevolgd worden. Indien je bent ingelogd, wordt deze identifier gekoppeld aan je account. Indien je niet bent ingelogd, wordt deze identifier gekoppeld aan je sessie die maximaal 4 maanden actief blijft. Je kunt deze toestemming te allen tijde intrekken.

    Ingesloten content van derden

    Deze cookies kunnen door derde partijen geplaatst worden via ingesloten content. Klik op het informatie-icoon voor meer informatie over de verwerkingsdoeleinden. Meer details

    janee