Nvidia geeft inkijk in Eos-supercomputer die op 9e plek in TOP500-lijst staat

Nvidia heeft nieuwe beelden van zijn Eos-supercomputer vrijgegeven. Het systeem bevat 576 Nvidia DGX H100-systemen en 4608 H100-gpu’s. De onderdelen worden verbonden via Nvidia Quantum-2 InfiniBand met een bandbreedte van 400Gbit/s.

De Eos maakt gebruik van de modulaire DGX SuperPOD-architectuur en wordt ook door het bedrijf zelf gebruikt om AI-toepassingen te ontwikkelen. De nieuwe supercomputer is volgens Nvidia geschikt om grote AI-workloads voor zijn rekening te nemen, zoals bijvoorbeeld het trainen van large language models of het berekenen van quantumsimulaties.

De supercomputer beschikt over 18,4 exaflops aan fp8-AI-rekenkracht en staat hierdoor op de negende plaats in de recentste TOP500-lijst van supercomputers. Uit die lijst blijkt dat de Eos een score van 121,4 petaflops haalt in de Linpack-benchmark. Dat is een benchmark waarmee de TOP500-lijst is opgesteld. De Frontier, momenteel de snelste supercomputer op die lijst, scoort in deze vergelijkingstest 1194 petaflops, ofwel 1,19 exaflops. Deze supercomputer is in 2022 geïntroduceerd.

Door Jay Stout

Redacteur

17-02-2024 • 10:38

44

Reacties (44)

44
43
13
0
0
11
Wijzig sortering

Sorteer op:

Weergave:

veel inkijk kan je dit niet noemen, eerder een PR-filmpje voor het grote publiek waar je quasi elke supercomputer/datacenter voor zou kunnen gebruiken.
Sterker nog, deze hele video lijkt door AI gemaakt te zijn. De computer ruimte zelf is overduidelijk nep, maar de persoon op 0:43 lijkt ook geen echt persoon te zijn.
Dat klopt, ik ben laatst op een Kubernetes event geweest daar was ook iemand van Nvidia die liet toen ook een filmpje zien wat helemaal met AI gemaakt was zij die achteraf (ook muziek en de tekst etc.).

Dit is het filmpje https://www.youtube.com/watch?v=sxHFDKwJGGo, ik zie zelfs sommige stukjes terug in het fimpje van dit artikel haha, dus dit filmpje zal inderdaad ook wel 100% met AI gemaakt zijn.
Straf filmpje.

Zou 'I am AI' ook bedacht zijn door AI?
Ik weet dat die Sora demo indrukwekkend was, maar zó ver zijn we nog niet hoor ;)
Nou dat betwijfel ik, de Sora pagina toont een aantal video's die een stuk complexer zijn dan dit. Ik zie een overduidelijke computer render van een server ruimte en een persoon op 4:30 dat 100% geen beelden van een echt mens zijn. De video is echt niet heel boeiend wat dat betreft.

Ik doelde overigens niet zo zeer op dat de gehele video met een Sora achtige text prompt gemaakt zou zijn. Meer een combinatie van menselijke regie, aangeleverd material en een AI die het visuele aspect uitpoept.
Ze zouden ook zeker AI 'ouderwetse' CGI elementen kunnen laten genereren, en dan de boel gewoon traditioneel offline renderen. Veel opties inderdaad.
de computer heeft dit zelf gemaakt en de wereld in geholpen.
De computer heeft eerst zichzelf gemaakt 😬
De video van het datacenter is overigens echt.
Ja tegenwoordig kan je met AI al veel doen en verwezenlijken. Zou mij verbazen moesten ze alles nog filmen deze dagen om op Youtube te zetten. Gewoon via AI. Ik hoop alleen dat ze niet gaan claimen dat de beelden, die wij hier zien en waar wij zeggen dat het gemaakt is via AI, echt zijn of ze zullen nog veel klachten krijgen.
@JayStout Op deze pagina van Amazon Web Services (AWS Cloud) staat een voorbeeld van hoe dit op AWS gebruikt kan worden voor rond de €40,- per uur per zo'n Nvidia DGX H100 doosje in het rek (bij hen heet die P4d):
https://aws.amazon.com/ec2/instance-types/p4/

Je kunt meer dan 4.000 GPU's met elk 80GB geheugen aan elkaar knopen voor je berekening (als je het geld en de noodzaak hebt).

Voor de gewone lezer:
Dt is ongeveer 4.608 keer de rekenkracht van een RTX 4090 en ruim 15.000 keer zoveel geheugen. De RTX 4090 met 24GB geheugen is de snelste grafische kaart die op dit moment te koop is voor in je computer.

Dat is dus 368TB aan geheugen. Ter vergelijking, de Common Crawl dataset die gebruikt is om ChatGPT te trainen; dat zijn alle web pagina's en PDF bestanden op het publieke internet, is bij elkaar 454 TB.

Dit is werkgeheugen (V)RAM , niet eens opslag!

[Reactie gewijzigd door djwice op 24 juli 2024 03:45]

Of niet bij Amazon maar bij een NL bedrijf voor een stuk minder geld:
https://nebius.ai/prices

Overigens hebben wij ook meegedaan met deze competitie en zijn 16e geworden: https://nebius.ai/supercomputer

4e in Europa
Wat bedoelt Nimbus met "up-to 8" is de prijs dan per GPU per uur? Of zelfde prijs per uur of je er nu 1, 2 of 8 gebruiken wil?

Om eerlijk te zijn is de prijstabel, bij gebrek aan het vermelden van eenheden, voor mij niet heel helder.

Ik ben dan niet snel geneigd contact te zoeken om duidelijkheid te krijgen over de prijs. Typisch haak ik dan gewoon af en neem het niet mee in de overweging in het selectieproces omdat we al een contract met AWS, Azure en GPC hebben. Dus meer werk voor een onduidelijk potentiële opbrengst.

Als die informatie duidelijker wordt kan het beter overwogen worden.
De prijsverschillen met reserved instances zijn in verhouding tot wat we bij AWS krijgen een stuk kleiner. Waardoor de kosten van idle tijd (gepland of ongepland) eigenlijk vrij snel niet opweegt tegen de korting.

Heeft Nimbus ook een spot-market? Bij AWS is de prijs dan een stuk lager. Op momenten dat hun cluster niet vol genoeg belast wordt, je krijgt dan tot 90% korting op de listprijs onder de voorwaarde dat de instance op dat moment afneemt en over een uur eventueel je berekening kunt stoppen/onderbreken of switched naar de spotprijs van dat moment of switched naar de listprijs.
4600 GPU’s aan $1 per uur = $8766 potentieel per jaar per GPU * 4600 = 40miljoen opbrengst per jaar.

Stel elke kaart kost nvidia €1000 om te bouwen = 4,6 miljoen + kosten server ruimte pakweg 6 miljoen investering en max 40miljoen inkomsten ;)

Btw, Gpt4 zou aan $1 per H100 uur 63 miljoen euro gekost hebben.

[Reactie gewijzigd door Coolstart op 24 juli 2024 03:45]

Jouw business case is niet goed uitgewerkt, zelfs voor een bierviltje.
GPU kost eerder a €4000 (productie kosten), maar ik denk dat je niet ver komt met 4600 GPUs die los in een DC liggen. Je moet er nig veel meer voor regelen dan DC kosten alleen.

Ander gezegd, voor €1/uur krijg je vast een hoop klanten,
https://nebius.ai/cloud-gpu-h100
Ik rekende met ruwe waarde. $1 profit na aftrek kosten en $1000 productiekost. Ruwweg klopt dat wel, zeker in verhouding . Ongeveer.

Trouwens die $4000 waar je het over hebt is incl R&D kost en lopende kosten voor een bepaalde productie. Niet de productiekost, die zal lager zijn.

Een 5nm wafer kost bij TSMC $25k. Ongeveer 70.000 mmm. De H100 heeft 800mm. 87 stuks. Waarvan pakweg 60 bruikbaar = €416 voor de ruwe chip. €1000 productiekost is idd te laag maar €4000 is dan weer veel. R&D en running costs natuurlijk niet meegerekend.

Dus pakweg €2000 kosten om de volledige kaart te bouwen, €1000 voor het 400gigabit netwerk. Het is immers ‘gewoon’ en grote RTX3090ti chip met meer en sneller geheugen en een uitgebreide SLI interface naar buiten.

4600*3000= $14miljoen. Dan nog een paar miljoen voor de server ruimte. Dan kom je op 20miljoen. Als je dan gemiddeld €3 h zou vragen (4 euro pay as you go, 2€ volumekorting verdienen ze bij 100% bezetting $120miljoen per jaar. Als de elektriciteit en onderhoud en stalling $1 per uur kost dan heb je ongeveer $2/uur over of $80 miljoen bij volle bezetting.

Het is in ieder geval een super lucratieve zaak, ruwweg een ROI van factor 4, per jaar! 400% YOY is erg veel.
Die duizend per gpu voor netwerk gaat het alleen in de verste verte niet worden op 400gbps. Moederbord en cpu's, certificeringen rondom om tot hele rack oplossingen te komen met cpu, mobo, uefi en alle storage, netwerkdrivers en meer. Datacenter spul verkoop je misschien in de honderden, daar moet alle R&D al in zitten. Tienduizenden stuks van tientallen miljoenen euro per stuk kun je vergeten, die markt is domweg te klein en er zijn ook andere aanbieders voor andere workloads beter geoptimaliseerd. En dat datacenter scale vanaf losse gpu's voor allerlei software stacks is echt wat werk...

[Reactie gewijzigd door OruBLMsFrl op 24 juli 2024 03:45]

Och, binnen 10j loopt mijn AR-bril rondjes rond dat ding op gebied van rekenkracht.
Je misrekent u met factor 10. Rekenkracht neemt per € of per watt wel toe maar niet zo snel om binnen 10jaar de kracht van 6400 GPU’s in een mobiel apparaat te hebben.

Aan de huidige ontwikkelingssnelheid zal je eerder 100jaar moeten wachten.

Een H100 is nu ruwweg 10x krachtiger dan een de snelste mobiele GPU (gokje) en je hebt er 6500… dat wil zeggen 65.000x sneller.
Uitgaand van 65k sneller moet je dus ongeveer 16 keer een verdubbeling van de mobiele gpu rekenkracht hebben. Als dat elke 2 jaar is dan zit je op 32 jaar. Elke 4 jaar een verdubbeling geeft 64 jaar. Dus 100 jaar lijkt me overdreven, maar zal wel een tiental jaren zijn lijkt me
But Can It Run Crysis?
Ik weet niet waarom iemand je -1 gaf, maar ik geef je +1 want die vraag was nog niet gesteld en behoord bij dit topic :) :)
En dan zit ik hier met mijn (ver)brandende 3060 Ti plaatjes te bakken :9
Allemaal hartstikke leuk, maar waar staat dit geweldige apparaat? Waarom moet ik dit zelf gaan uitzoeken?
Dat, moet n verdomt leuk stukje Quake IIIV kunnen draaien. :+
Ben benieuwd hoeveel vermogen ze er per uur doorheen jagen....
Ik vindt het maar raar, waar de wereld bezig is energie verbruik te verminderen, wordt dit nu allemaal te niet gedaan met AI. (het trainen en gebruik ervan)
Ik vraag me af of AI een netto positief of negatief CO2 uitstoot bereikt. Je zou kunnen beargumenteren dat je door het gebruik van AI CO2 uitstoot ook kan reduceren, wat uiteindelijk een positief effect kan hebben. Het lijkt me in ieder geval niet evident om te zeggen dat het alleen maar slecht is.
ik ben dat klimaatgezever wel een beetje beu.
ik geloof best in de klimaatverandering en de zeer nare gevolgen, van voedsel productie tot water, infrastructuur enzovoort.
ik will geen pareto analyse doen. maar het is gewoon hypocriet en achterbaks
Na de superbowl gingen zijn minstens 500 privejets naar vetrokken. dit scenario herhaald zich na iedere grote vergadering, over het klimaat, of davos, of VN, of G8.
een privejet koop je natuurlijk niet voor eenmalig gebruik. rusland is ondertussen moedwillig nog erger aan het maken. naast de huidige menselijke tragedie, hoeveel vervuild deze oorlog wel niet?
ondertussen laten we Oekraïne over aan rusland.

wat moet de gewone mens ondertussen doen? een elektrische auto, of nog beter een fiets of een step, het openbaar vervoer.
een warmtepomp, zonnepanelen, isoleren. geen wegwerp plastic, geen vlees, geen kachel, geen bbq.
ik kan recht de spiegel in kijken, omdat ik een netto negatief verbruik heb, maar ik weet heus dat de klimaatramp er komt, hoe dan ook.

[Reactie gewijzigd door g4wx3 op 24 juli 2024 03:45]

Mee eens, vorige maand naar Peru geweest. Daar dumpen het afval nog gewoon over de bergrand en de rivier. Alleen de plekken waar veel touristen komen is redelijk schoon. Maar loopt je 500 meter verder dan zie je de mensen gewoon afval dumpen vanuit de achterbak van de auto.

En wij zitten daardoor me de papieren rietjes :-(
Nou ja overschakelen op hernieuwbare energie heeft voor NL tenminste nog het bijkomende voordeel dat je niet meer afhankelijk bent van nare landen zoals Rusland, Saudi Arabie etc.
Iedereen is piet hypocriet dat is het probleem ook niet. Jouw uitspraken helpen iig niet, inperfecte burgers die het goede willen doen hebben we nodig. "Doing good louder" is dus wat de gewone mens moet blijven doen, niet "doing nothing or evil louder". (zie o.a. Rusland waar dat laatste toe leidt)

Zie de EHBU podcast voor meer.

Op dit item kan niet meer gereageerd worden.