Amazon toont Graviton4-soc met 96 Arm Neoverse V2-cores en Trainium2-AI-chips

Amazon Web Services komt met twee nieuwe datacenterchips. Het bedrijf introduceert onder meer zijn Graviton4-processor, die beschikt over 96 Arm Neoverse V2-cores. Amazon toont ook Trainium2, een chip die bedoeld is voor het trainen van AI-modellen.

Graviton4 presteert volgens Amazon tot dertig procent beter dan zijn huidige generatie Graviton3-socs. De chips hebben vijftig procent meer cores dan hun voorgangers, waarmee het totaal op 96 uitkomt. De fabrikant maakt weer gebruik van de Arm-architectuur, ditmaal met Neoverse V2-kernen. Ook de geheugenbandbreedte is toegenomen, met zeventig procent, stelt de fabrikant. De chips hebben twaalf DDR5-kanalen met ondersteuning voor snelheden tot 5600 megatransfers per seconde. Amazon zegt niet op welk procedé de chips worden gemaakt. De voorgaande Graviton3-chips werden geproduceerd op TSMC's 5nm-node.

Graviton4-socs komen beschikbaar op AWS in EC2 R8g-instances, die geoptimaliseerd zijn voor hoge geheugenbandbreedtes. De techgigant zegt dat gebruikers de chips onder meer kunnen gebruiken voor databases en 'grote analyticsworkloads'. De instances komen per direct beschikbaar als preview. Algemene beschikbaarheid volgt 'in de komende maanden'. Amazon noemt geen concrete releasedatum.

Verder toont AWS zijn Trainium2-chips, die zijn bedoeld voor het trainen van AI-modellen, zoals foundationmodellen en grote taalmodellen. Volgens de fabrikant is Trainium2 tot vier keer zo snel als zijn voorganger. Ze zouden ook tweemaal zo energie-efficiënt zijn. De chips moeten ontwikkelaars in staat stellen om AI-modellen sneller en goedkoper te trainen. AI-bedrijf Anthropic heeft aangekondigd modellen te gaan maken met Trainium2-chips.

Amazon kondigt daarnaast aan dat het, naast het aanbieden van zijn nieuwe AI- en datacenterchips, verder gaat samenwerken met Nvidia. Het bedrijf gaat enterpriseklanten onder meer instances aanbieden met Nvidia's H200-gpu's. Het bedrijf gaat ook Nvidia's GH200 Grace Hopper-superchips bieden. Dat zijn chips die Nvidia's eigen Grace-cpu's op basis van Arm combineren met een H200-gpu op een enkele module. Amazon gaat ook een AI-supercomputer met GH200-chips hosten voor Nvidia's eigen r&d-team. Microsoft kondigde eerder ook een diepere samenwerking met Nvidia aan nadat het zijn eerste eigen Maia100-AI-chips introduceerde voor Azure.

Amazon Graviton4 en Trainium2
Amazon Graviton4- (links) en Trainium2-chips. Bron: BusinessWire

Door Daan van Monsjou

Nieuwsredacteur

29-11-2023 • 08:09

34

Submitter: Squee

Lees meer

Reacties (34)

34
34
15
2
0
15
Wijzig sortering
Erg indrukwekkende aankondiging, zeker ook de vergelijking met de performance van de vorige generaties Graviton. Ik ben apetrots, want dit is een van de eerste CPUs waar wat in zit dankzij werk waar ik 4.5 jaar geleden aan begonnen ben bij Arm. Ik ben ook erg nieuwsgierig hoe deze zich zal verhouden met Grace, omdat het allebei designs met Neoverse-V2 cores zijn, maar wel binnen twee compleet anders ontworpen chips.
Ik dacht juist andersom... 50% meer cores en maar 30% meer prestaties... dat lijkt me toch juist niet goed.
Je moet dat zien vanuit het oogpunt van instances met een bepaald aantal vCPUs denk ik. Dat je met het zelfde aantal vCPUs tussen Graviton3 en Graviton4 er 30% performance op vooruit gaat.
'T enige wat uitmaakt is prijs. Dus €/mm² en energie-efficiëntie (want geld+koeling). De cores zijn per stuk 13.3% minder krachtig, en als ze ook minimaal 33.3% kleiner zijn, ga je er toch 30% op vooruit. Dan hebben we het nog niet eens over het feit dat ze op een ander punt op de v/f curve geklokt kunnen zijn, waardoor meer, kleinere cores efficiënter kunnen zijn dat 1, grote core.

[Reactie gewijzigd door DvanRaai89 op 27 juli 2024 01:26]

Maar de cores zijn niet 13.3% minder krachtig. De Neoverse-V2 cores zijn een stuk krachtiger (tot 30-40% afhankelijk van de workload) dan Neoverse-V1 (gebruikt in Graviton 3) en zeer veel krachtiger dan Neoverse-N1 (Graviton 2).
Aah, dan is het 1.5 * 1.3, dacht dat het net zoiets als Intel E-cores zou zijn.
De Neoverse-N and Neoverse-E series zijn meer op efficiency gericht, dus meer vergelijkbaar met de Intel E-cores, waar de V serie meer puur performance is en waarschijnlijk ergens tussen de Intel E en P cores in zal liggen. (vergelijkbaar met de Cortex-X serie in de mobiele markt). Een V core zal nog steeds een stuk kleiner zijn dan een Intel P core, waar het feit dat de Arm instructieset een stuk simpeler is dan x86 ook een belangrijke rol speelt. Ook de keuze van aantal/lengte van vector units maakt een aanzienlijk verschil.

Neoverse-N en E zijn ook weer heel erg verschillend, waar N echt ook voor server taken is en E meer de embedded kant op gaat, met een meer "little" core design. Eigenlijk is V/N/E te vergelijken met de big/mid/little cores voor de Mobile SoCs. (Cortex X, Cortex-A7xx en Cortex-A5xx)

[Reactie gewijzigd door Squee op 27 juli 2024 01:26]

Dit is waar ik op doelde.
Dit is waar ik op doelde.
Ik las mijn reactie nog eens vanochtend en begreep dat het punt wat ik wilde maken niet echt goed over kwam, dus ik heb hem even wat aangepast/verduidelijkt.
"Trainium2-chips, die zijn bedoeld voor het trainen van AI-modellen" Kan iemand uitleggen hoe je hardware kan maken die bedoeld is voor AI-modellen? Wat is er dan fundamenteel anders aan m.b.t. een reguliere processor?
Ik vermoed dat ze gebouwd zijn met hoge geheugenbandbreedte en wellicht de toevoeging of uitbereiding van SIMD instructies voor half precision floating points (FP16) getallen.

Meeste AI taken zijn te herleiden maar een reeks wiskundige bewerkingen die gewichten aan bepaalde waardes hangen, en daarbij wordt vaak FP16 gebruikt om een hogere densiteit te krijgen (meer waardes per geheugeneenheid).

FP16 had voorheen niet veel toepassingen die baat hadden aan die hogere dichtheid, en tegelijk ook de lagere precisie konden accepteren, dus veel videokaarten en processors hebben geen echte FP16 ondersteuning en voeren die bewerkingen in hardware als FP32 uit. Hardware die wel "native" FP16 ondersteunen, kunnen met dezelfde rekenkracht en geheugenbandbreedte dan dubbel zo veel werk verrichten, ten koste van een beetje nauwkeurigheid. Voor AI is dit een zeer geschikte trade-off.

Videokaarten ondersteunen sinds ongeveer 2015-2016 deze "half precision" in hardware en software, hoewel die ondersteuning in consumentenhardware initieel vaak uitgeschakeld werd (net zoals ze dat ook doen met double precision ondersteuning om meer dure workstation kaarten te verkopen). Intel heeft sinds dit jaar ook SIMD FP16 ondersteuning in hun Xeon productlijn, bijvoorbeeld.

[Reactie gewijzigd door sspiff op 27 juli 2024 01:26]

Je hebt ook nog de overweging: als je een 16-bits float hebt, is dat een IEEE FP16, een bfloat16, of doe je iets wat er op lijkt maar net iets anders (NVidia's TensorFloat19 bijvoorbeeld).

bfloat floating points zijn geoptimaliseerd voor AI toepassingen, en hebben meer data voor de exponent (dus kunnen hogere en lagere getallen bevatten) maar minder data voor de fraction (dus zijn minder precies) dan IEEE FP16 getallen, die voorheen meer gebruikt werden. Bij geoptimaliseerde moderne chips hoop je dus op SIMD met bfloat16.
Ik vermoed dat ze gebouwd zijn met hoge geheugenbandbreedte en wellicht de toevoeging of uitbereiding van SIMD instructies voor half precision floating points (FP16) getallen.
Dat niet alleen, een conventionele CPU is een compromis van alle data type encodings en instructies en probeert blokken instructies te schedulen en optimaliseren (b.v. conditional branching).

Een AI core biedt een subset van geoptimaliseerde instructies zonder veel te focussen op analyse van de instructies zelf omdat het ervan uit gaat dat de berekening direct en zonder voorwaarden moet worden uitgevoerd.
Processoren die voor AI geoptimaliseerd zijn, zijn simpel gezegd vooral gemaakt om heel veel kleine wiskundige operaties tegelijk uit te voeren. Omdat er in AI modellen veel rekening gehouden moet worden met (grote) getallen die meerdere malen gebruikt worden zijn AI processoren goed in het snel cachen en ophalen van die gegevens. GPUs zijn er ook goed in omdat het berekenen van graphics lijkt op het berekenen vam AI operaties, en CPUs zijn er minder goed in omdat die meer gemaakt zijn om grotere 'general purpose' operaties uit te voeren.
de uitgebreide uitleg is wat langer en kun je vrij makkelijk online vinden.
Processors bestaan eigelijk uit verschillende bouwblokken. Denk aan ALUs, FPUs enz. De structuren in het silicium zijn geoptimaliseerd voor AI-taken. Volgens mij is precisie niet zo heel belangrijk maar gaat het meer om brute kracht. Ook zijn de cache configuraties geoptimaliseerd, denk hierbij aan de hoeveelheid L1 en L2, maar ook de verhouding daarvan. Dat soort dingen.

[Reactie gewijzigd door DvanRaai89 op 27 juli 2024 01:26]

Een reguliere processor doet heel snel een taak achter elkaar. Of 8 taken als je 8 cores hebt. Ook kan de normale processor heel veel verschillende taken doen.

AI kernen zijn per stuk vele malen langzamer en ze zijn kleiner, maar het zijn er veel meer dan 8. En ze doen eigenlijk alleen matrix multiplicatie, bijna alle andere instructies gaan er niet doorheen.

Omdat er wel miljoenen AI taken zijn die allemaal tegelijk uitgevoerd kunnen worden, hebben ze veel meer kleinere werk units, net als een lange goederen trein die heel veel tegelijk kan vervoeren maar per individuele kleine taak is het niet bepaald sneller. En ook is het zeer inflexibel en kan het veel dagelijks gebruik taken niet uitvoeren
Dat is gewoon parallel computing, word natuurlijk ij meer toegepast dan alleen AI. Een high end gaming GPU (4090) kan zo 100 cores hebben.
'T ging er meer om wat een AI-core een AI-core maakt.
Een AI core kan nog veel simpeler dan die in een GPU. Deze hoeft eigenlijk maar 2 dingen te kunnen: optellen en vermenigvuldigen.
Dat ontken ik zeker niet.
Een GPU is nog veel meer general-purpose dan een pure AI accelerator.
GPU's kunnen alle AI instructies uitvoeren (tenminste die van Nvidia).
Een AI core kan echter veel GPU instructies niet uitvoeren. AI cores doen eigenlijk alleen matrix-multiplicatie.

Hier een voorbeeld video van wat een matrix multiplicatie inhoud:
https://www.youtube.com/watch?v=woa34ugDSwY
Zijn dit dan weer gewoon RISC-processoren?
Het is ARM en dat is een RISC architecture
Eerder te vergelijken met gpus.

Waarom denk je dat ze met nvidea willen samenweeken
Nee, meer massive parallel processoren (zoals GPU's).
Zoiets kun je dus gewoon vragen aan ChatGPT:
Waarom heb je voor het trainen van AI modellen een speciale processor nodig, waarom doet een normale processor dat minder goed?
Antwoord van ChatGPT:
Voor het trainen van AI-modellen is een speciale processor nodig omdat deze processors speciaal zijn ontworpen om de complexe berekeningen uit te voeren die nodig zijn voor het trainen van deze modellen. Deze processors worden ook wel AI-processors genoemd en zijn geoptimaliseerd voor het uitvoeren van matrixvermenigvuldigingen en andere wiskundige bewerkingen die nodig zijn voor het trainen van AI-modellen. Een normale processor kan deze berekeningen ook uitvoeren, maar doet dit minder efficiënt dan een speciale AI-processor. Dit komt omdat een normale processor niet is geoptimaliseerd voor deze specifieke taken en daarom minder snel en minder efficiënt is
En het antwoord van ChatGPT is: omdat het efficiënter is
Zo kan ik ook een vraag beantwoorden
Mis je niet het erg belangrijk deel... matrixberekeningen?
Dat zijn, zeker in hogere dimensies, zware berekeningen. Indien er hardware acceleratie voor bestaat kan dat zeker het verschil maken.. maar eke, omdat het efficiënter is. Zoveel tekst van mij om je woorden te herhalen ;')
Ja tuurlijk maar als je niet weet wat het is dan zegt het nog niks, dus dan is het antwoord: omdat AI chips efficiënter zijn in matrixberekeningen.
Ik ben nu overogens pas wakker genoeg om de ironie te waarderen van een uitleg van een LLM over AI
ChatGPT: Waarom iets in één zin beantwoorden als je ook een volledige paragraaf kan genereren.
Gelukkig kun je met aangepaste prompt dat fixen (1x instellen).

Zo heb ik korte antwoorden zonder de irritante disclaimers "er zijn ook andere interpretaties, vraag een deskundige, doe verder onderzoek, blabla".
Het antwoord staat in de tweede zin van de eerste en enige paragraaf imo. De rest er omheen is opvulling, kort en bondig is het inderdaad niet.
Ja en da. Kunnen we een ai weer een opsomming van die paragraaf laten genereren |:(
"Waarom heb je voor het trainen van AI modellen een speciale processor nodig, waarom doet een normale processor dat minder goed?"
Vuistregel, wat je met software op een generieke processor doet is altijd veel en veel langzamer dan wat je in hardware op een specifieke processor kan doen. Of dat nu glijdende komma berekeningen zijn, converteren van videocodecs of AI modellen.

Op dit item kan niet meer gereageerd worden.