TU/e verwacht in eerste helft 2025 supercomputer van Nvidia in gebruik te nemen

De Technische Universiteit Eindhoven verwacht in de eerste helft van 2025 toegang te krijgen tot een supercomputer van Nvidia. Het gaat om vier eenheden van de Nvidia DGX B200, een systeem bedoeld voor AI-toepassingen.

Nvidia DGX B200De TU/e is naar eigen zeggen een van de eerste klanten in Europa die toegang tot het betreffende systeem gaat krijgen. De vier Nvidia DGX B200's worden in een 'duurzaam datacenter' in Finland geïnstalleerd. De systemen beschikken ieder over acht gpu's van de Blackwell-generatie, in totaal ruim 1,4TB aan videogeheugen en een geheugenbandbreedte van 64TB/s dankzij het HBM3E-geheugen. Ieder systeem heeft twee Intel Platinum 8570-processors.

De datacentersystemen worden volgens de universiteit voornamelijk gebruikt door het Eindhoven AI Systems Institute en de faculteit Mathematics & Computer Science. Onderzoekers en studenten kunnen de supercomputers gebruiken voor AI-onderzoek. De vicevoorzitter van de universiteit, Patrick Groothuis, noemt kankeronderzoek als voorbeeld van een toepassing van de DGX B200-AI-supercomputers.

Door Yannick Spinner

Redacteur

04-11-2024 • 14:55

52

Lees meer

Reacties (52)

Sorteer op:

Weergave:

In hoeverre is daadwerkelijk aangetoond dat meer compute resulteert in betere modellen en simulatie? Als modellen complexer worden lijken ze beter, maar dat garandeert niet zomaar een betere uitkomst. Klimaatmodellen b.v. zijn enorm complex. Er zitten ongetwijfeld duizenden parameters in die allemaal hun bandbreedte hebben. We neigen dan al snel naar meer complexiteit, maar heeft dat ook echt zin? Techneuten zijn al snel voorstander van complexiteit. We zeggen niet snel nee tegen meer ultraflops en draaiknoppen. Ik vraag me wel eens af hoe zinvol het is bij sommige 'supercomputer toepassingen'.
Dat wordt de 'Compute Efficient Frontier' genoemd door OpenAI. Meer parameters leidt tot hogere betrouwbaarheid en mogelijkheden van de modellen. Voor grotere modellen heb je meer compute nodig.
Vergeet niet dat de onderzoekers deze machines ook gebruiken om juist de volgende generatie technologieën te ontwikkelen. Het gaat dus niet alleen maar om toepassingen (dhr. Groothuis noemt kankeronderzoek, maar hij heeft zelf nog nooit een dag van zijn leven onderzoek gedaan), maar ook om het ontwikkelen van nieuwe rekenmethodes, specifiek voor dit soort hardware.

Daarbij zijn dergelijke machines ook essentieel voor onderwijsdoeleinden. Als ingenieurs opgeleid moeten worden die kunnen rekenen op dit soort hardware, moeten zij wel toegang hebben tot dit soort hardware. Natuurkundigen, scheikundigen en biologen maken vaak de fout te denken dat informatici geen laboratoria nodig hebben, want zij hebben toch laptops. Dit is dus een voorbeeld van een laboratorium voor informatici. Ja, het staat dan wel in Finland, maar toch.

De universiteit zit vol met toponderzoekers die niet kunnen wachten om de nieuwste ideeën te toetsen op dit soort hardware. Hardware waar tot nu toe in Nederland niemand toegang to had.

[Reactie gewijzigd door Blihi op 4 november 2024 15:53]

Dit is een heel brede vraag. Kijk je bijvoorbeeld naar het oplossen van natuurkundige differentiaalvergelijkingen, dan is het vaak goed bekend hoe de nauwkeurigheid van een bepaald discretisatieschema schaalt met de fijnmazigheid van je computationele grid. Ieder enigszins "redelijk" discretisatieschema zal bij meer roosterpunten een lagere fout geven. Hoe sterk die schaling is, hang van de eigenschappen van je probleem en van het exacte discretisatieschema af. In sommige gevallen wordt de fout 2x zo klein bij 2x zo veel roosterpunten, in andere gevallen schaalt het beter of juist slechter.

Er is vaak een soort "acceptabele tijd" waarin je bereid bent op een oplossing te wachten. Zeg bijvoorbeeld maximaal 1 uur voor een weersvoorspelling. Hoe meer rekenkracht je tot je beschikking hebt, hoe fijner je het grid kan maken om binnen dat uur tot een oplossing te komen, en hoe nauwkeuriger die oplossing doorgaans zal zijn. Snellere hardware leidt in mijn beleving dan ook vaak niet zozeer tot snellere simulaties, maar eerder nauwkeurigere simulaties: Gustafson's law.

De gevoeligheid van de uitkomst van je model op input parameters kan worden vastgesteld door middel van "sensitivity analysis". Dat is niet altijd eenvoudig, en je hebt gelijk dat hoe meer vergelijkingen je met elkaar koppelt, en hoe meer input paramters er zijn, hoe lastiger en ondoorzichtiger het proces wordt. Als blijkt dat je model heel gevoelig is voor een bepaalde parameter, dan is het natuurlijk van groot belang om daar een zo nauwkeurig mogelijke meting (of model..) van te maken. Belangrijker soms dan het toevoegen van meer roosterpunten of rekenkracht.
Dat lijkt me dan juist iets dat de TU/e kan uitzoeken. Het is een andere vraag of het een efficiënte investering is voor de TU/e, die vraag kan ik niet beantwoorden, maar dit zou best eens een goede investering kunnen zijn.
In mijn testen met AI zie je inderdaad dat grotere modellen preciezer worden.
32 GPU's in totaal dus. Ik heb het thuis niet, maar om dat nou een supercomputer te noemen??
Als je het ongeveer uitrekend komt je op: Hardware 1,2 miljoen dollar, installatie 150,000 dollar, software en onderhoud 180,000 dollar/per jaar

Niet een super-super computer, maar toch wel een redelijke investering.
Vergeet de afschrijving niet. Dit soort apparaten gaan geen 10 jaar mee, die moet je in 3 a 4 jaar afschrijven. Daarna zijn ze nog steeds inzetbaar als secundaire faciliteit, maar wel ingehaald door de realiteit.
Surf heeft niet voor niets ook supercomputers en gaat investeren in een heel nieuwe quantumversie, maar universiteiten hebben nu eenmaal tools nodig om onderzoek te doen. De heel dure dingen kan je apart niet betalen en doe je in een pool, maar voor "allerhande" apparatuur als een gewone supercomputer is het helemaal niet wenselijk als alle universiteiten in de rij staan voor hun beetje tijd op de nationale computer. In Delft hebben ze daarom ook de supercomputer Delfts Blue om simulaties op te runnen of ander onderzoek te doen. Dat die dingen duur zijn klopt wel, maar een nauwkeurige meetinstallatie om een trekproef van een materiaallegering mee te doen kost ook bakken met geld. Daarom staan die dingen ook maar op een paar plekken in Nederland, bij de 4 TU's en gespecialiseerde bedrijven. Je kan er dus vanuit gaan dat al die zaken eigenlijk al behoorlijk efficiënt geconcentreerd zijn op praktisch 4 plekken in Nederland.
Precies! En Snellius zit aan zijn max. Studenten en collega's gebruiken Snellius waar ze kunnen. Het is een ideaal apparaat voor bepaalde taken, maar steeds vaker kregen wij te horen dat wat wij wilden niet kon op Snellius. Onze eigen clusters waren inmiddels zeer zwaar verouderd.

De capaciteit van deze machine zal, waar mogelijk, ook ten dienste staan van onderzoekers elders.
Je weet dat er zoiets bestaat als Snellius? Bovendien worden deze ook erg vaak gebruikt voor het lesgeven.
Kan je mij uitleggen waarom dit precies geldverspilling is? Dit klinkt voor mij als een best normale uitgave. Je moet niet vergeten dat dit soort uitgaves ongeveer de enige infrastructuur uitgaves zijn die nodig zijn voor de informatica en wiskunde faculteiten, terwijl dat wel belangrijke vakgebieden zijn (die ook veel geld binnen brengen voor de samenleving).

Je moet dit soort uitgaves vergelijken met bijvoorbeeld de labs die nodig zijn voor scheikunde en natuurkunde, of de snijzalen die nodig zijn voor geneeskunde. Voor informatica studies heb je dat soort faciliteiten allemaal niet nodig, en kan je verder volledig uit de voeten met normale collegezalen.
Voor mij klinkt dit ook als prima uitgave. Vergeleken de verbouwing van het Binnenhof is dit een lachertje. Ook nog nuttiger in mijn ogen. Als ze daarmee uitvindingen kunnen doen, vele malen efficiënter werken. Nuttige simulaties zoals vaccins en zwaktes zoeken van ziektes. Is het maar een klein prijsje om technische Universiteit te voorzien voor paar jaar aan goede computer kracht. Wel ben ik voor zo min mogelijk uit te besteden aan het buitenland. Dus supercomputers liever hier en de werknemers. Dan blijft het belasting geld ook grote deels hier in rotatie en stroomt het gewoon weer terug in kas merendeels. Dat is het voordeel van de belasting zijn na verloop van tijd zie je alles wat je uitgeeft gewoon weer terug stromen zolang het binnenlands blijft. Ondernemer wordt belast / werknemers / goederen / etc etc. 70% is weer terug in paar maanden. Ging het maar zo met geld wat ik uit geef :+
Er wordt bijzonder veel geld verspild aan universiteiten, maar dit is geen goed voorbeeld. De verspilling zit in "onderwijsinnovatie" en allerlei activiteiten die helemaal niets te maken hebben met de primaire taak van de universiteit: door middel van onderwijs en onderzoek kennis ontwikkelen ten dienste van de mensheid.

Zonder dergelijke investeringen in onderzoeksinfrastructuur (die overigens slechts deels met belastinggeld gefinancierd zijn en deels met financiering vanuit het bedrijfsleven) zijn essentieel om een voorsprong te houden als kennissamenleving. Vergis je niet dat Nederland eigenlijk helemaal niets meer maakt. Wij besteden vrijwel alles uit aan landen buiten Nederland. Wij zijn volledig afhankelijk geworden van derden om onze samenleving in stand te houden en de enige reden dat onze samenleving blijft bestaan is omdat wij op het wereldtoneel in staat zijn om kennis te creëren, sneller dan de meeste andere landen.

Wat mij zorgen baart zijn partijen als ASML. Zij staan te roepen naar de politiek, naar de universiteiten dat ze meer moeten doen, meer moeten opleiden, meer moeten investeren, maar zelf houden ze de hand stevig op de knip. Op je een idee te geven: de kosten van dit apparaat zijn ongeveer twee dagen winst van ASML.
Hoezo over de balk smijten? Weet je wat ze ermee gaan doen dan?. De meeste van dit soort apparaten worden 100% van de tijd gebruikt door eerst de eigen universiteit en anders wel bevriende universiteiten. Voor onderzoek naar AI is dit soort apparaten broodnodig.
Je hebt wel een punt, via surf kan je gewoon op het LISA of Snellius cluster werken.
Dit zijn geen GPUs zoals die voor consumenten verkrijgbaar zijn

Je hebt het over dedicated GPU systemen die vele malen krachtiger zijn.

Er hangt ook een prijskaartje van enkele tonnen aan. Per paar dus.

Dit kan je wel degelijk een supercomputer noemen, als je dit bij elkaar optelt qua performance.
Rekenkracht van een tensor-core niet dezelfde als van een gewone CUDA-core. Rekenkracht van een GPU-kern is niet dezelfde als die van een CPU-kern. 4-bit floating point is natuurlijk totale kolder, in een supercomputer rekenen we normaal met 64-bit getallen.

Er zijn dus nogal wat kanttekeningen bij te plaatsen. In het persbericht bekt het best lekker, maar de supercomputer wordt er allesbehalve overbodig door.
Ik draai op snellius gewoon modellen met 16 bit diepte, dat is sneller en maakt niet echt heel veel uit.
Dus het is niet zo heel normaal om met 64 bit te werken.
De enige toepassing waar ik van weet dat met 16-bit gewerkt wordt is kunstmatige intelligentie en ja, daar heeft 16 zeker wat te bieden, al is de waarheid dat ook in de KI veel met 32-bit gerekend wordt. Voor supercomputers in het algemeen is 64-bit evenwel de norm. De benchmark voor supercomputers is HPL, die is 64-bit, dus als je rekenkracht wil vergelijken, kun je amper meedoen.

Nu kan een B200 op zich in 64-bit rekenen, alleen is hij daarin niet sneller dan een H100, wel heel veel duurder, dus voor een supercomputer is de B200 een onding. Als supercomputer hoef ik daarom 0 seconden na te denken welke ik zou willen: Ik zou deze 4 GPU-bakjes onmiddelijk inruilen voor de Snellius.

[Reactie gewijzigd door dmantione op 5 november 2024 12:18]

Ik zie zelfs 4 bit LLM modellen voorbij komen die goed zijn. Best bizar eigenlijk.

En jij mag dat denken, blijkbaar denken ze bij de TUe daar anders over. Ik weet daar zelf niet genoeg over, zolang het maar draait is voor mij al genoeg. Zal eens kijken of ik met iemand die bij de TUe werkt kan vinden om het te vragen (wij werken met sommige projecten samen met de TUe).
Ik heb een lijntje met de mensen waar het om gaat, en wens ze er veel plezier mee, maar dat laat onverlet dat dit geen serieuze supercomputer is.
Als ik dat artikeltje lees, is het geschreven door een persvoorlichter. Ik denk idd dat die de term supercomputer wat losjes gebruikt. Ik weer ook niet precies wanneer je iets een supercomputer kan noemen om eerlijk te zijn.
Als we 4 machines al een supercomputer gaan noemen...
Doet mij denken aan de mini Supercomputer die Leiden aantal jaar geleden had neergezet. https://tweakers.net/nieu...-0-komma-2-petaflops.html
Een systeem zoals Snellius is ontworpen om voor meeste onderzoeksgebieden nuttig te zijn. Het systeem van het nieuwsbericht zal leuk scoren met Linpack, maar niet echt geweldig zijn om bijvoorbeeld HTC rekenwerk op te kunnen doen.
Op basis van de petaflop/s zou deze makkelijk door kunnen voor een supercomputer en zelf in de top 10 supercomputers worldwide terecht komen.

[Reactie gewijzigd door stx op 4 november 2024 15:08]

in de top 10 supercomputers worldwide terecht komen.
Nee hoor, daar komt het niet in de buurt.
Top500 #10 is Eos, die bestaat uit 576 DGXH100 systemen met elk 8 H100 GPUs.
B200 is wel wat sneller dan H100, maar slechts 32 GPUs kunnen aboluut geen 4608 GPUs van 1 generatie ouder bijbenen.

En supercomputers worden normaal vergeleken op basis van FP64, wat net een zwak punt is van Blackwell --- daarin is het trager dan Hopper: 40 TFLOPS B200 vs. 67 TFLOPS H100.

[Reactie gewijzigd door register op 4 november 2024 16:07]

Als je ziet dat een H100 gpu een FP8 performance heeft van 3 petaFLOPS en een zo'n B200 unit 72 petaFLOPs dan geeft dat al aan wat een schaalverschil het is. Je hebt dus vier van die B200's met elk 72 petaFLOPs, totaal 72*4=288 petaFLOPs. Als je dat deelt door de 3 petaFLOPS van een H100 gpu kom je uit op; 96 GPU's. 32 stuks presteren dus evenveel als 96 losse gpu's. Waarbij we voor het gemak nog even vergeten dat al die andere gpu's fysiek verder van elkaar afstaan waardoor je natuurlijk weer verliezen krijgt, meer cpu's/mobo's moet hebben om die kaarten in te stallen. Dit zijn echt beestachtige machines.
Dit cluster(tje) zou waarschijnlijk sneller zijn dat de supercomputer CWI Snellius.
Appels met peren in het algemeen maar, voor de grap een RTX5090 opgezocht waar 109Tflops staan voor fp16. Volgens mij in een andere bron zag ik voor de B200(=8GPUs) 72 training of 144 (gebruik?) PETAFlops (fp4?). Nou is dat dus niet 1 op 1 te vergelijken maar feit blijft doe die B200 nog eens keer 4 en je hebt toch een aardig verschilletje. Nou heeft al niet iedereen een 5090 maar eerder vierde generatie en dan misschien wat meer bang for buck kom je in de midrange (heb even geen zin om hier nog een bron voor te zoeken). Maar dit zorgt dus voor een mooie mogelijkheid voor heel veel mensen om bepaalde belangrijke modellen of simulaties stukken sneller of überhaupt te kunnen runnen. En dan denk ik nog niet eens aan het geheugen of andere dingen die ervoor zorgen dat je bepaalde berekeningen uit kunt voeren.
De lijn naar supercomputer is natuurlijk sowieso een beetje vaag is dat 10x een 'gemiddelde' 'comouter'? Of veel meer of anders?
Zoals ik met algemene getallen laat zien is het echt wel een significant verschil wat je niet zomaar lokaal neer gaat zetten of bij kan.
Daarnaast is het volgens mij ook een grote upgrade van de huidige 'supercomputer' die ze gebruiken (geen bron, eigen ervaring inclusief vrienden)

[Reactie gewijzigd door PaulHelper op 4 november 2024 17:35]

Zolang het geen 32 racks vol zijn, zou ik het ook geen supercomputer noemen,
Prive heb ik 4 racks vol met oude systemen, is dat dan ook een supercomputer ?
Prijs maakt ook het verschil niet, heb oude systemen Sparc architectuur, die nieuw meer kosten
In AI/deeplearning termen mogelijk wel. Nvidia linkt de GPU’s zo dat ze een cluster vormen met 1.4terra byte ram per rack van 8. Tientallen petaflops aan AI kracht en 64Tb/sec brandbreedte. En ze hebben er zo vier die op hun beurt ook verbonden zijn.

Totale verbruik GPU’s is dan 55kW. Dat kan je moeilijk een mini computer noemen. Per watt zijn ze efficiënter dan vorige generatie.
Geweldig dat studenten toegang krijgen tot dit soort systemen. Benieuwd of dit helpt in het creëren/inspireren van nieuwe ai startups in Delft. Eindhoven

Edit: oeps, dat krijg je al je altijd langs TU delft rijd

[Reactie gewijzigd door Westpjotr op 4 november 2024 17:41]

Delft? Misschien bedoel je Eindhoven?
De studenten hebben al toegang tot Snellius / lisa, want Eindhoven is lid van surf.
Ik zie ook de TU/e staan als inlog SSO als ik naar de Snellius site ga.
but, can it play Crysis?
Daar is het te traag voor. Maar Doom moet lukken.
Kan dit GTA IV in 8K met Raytracing @120fps draaien?
Wat betekent hier "toegang tot"? Is dat 4 units 100% van de tijd of is dat shared bijvoorbeeld een dag in de week? Het klinkt namelijk als heel veel maar ik vermoed dat er een in de PR verborgen addertje onder het gras zit.

Aanvulling: De (engelstalige) bron nog eens goed gelezen "Acquire" betekent naar mijn idee kopen, eigenaar worden. Alleen wordt ie dus niet in NL opgesteld maar in Finland, zal wel met koeling te maken hebben.

[Reactie gewijzigd door DjoeC op 4 november 2024 16:30]

Weet niet of je de vraag nou nog hebt maar zoals je zegt, ze kopen de resources. Zelf installeren kost ruimte energie etc. dus met dit soort dusdanige systemen komt het vaker voor dat je een stukje ervan 'koopt'. Je hebt dan niet per se fysieke gpus of system. Maar toegang tot de hoeveelheid op de momenten dat jij dat wil. Koeling weet ik niet of het probleem is, altijd handig in koudere locatie maar voegt voor bepaalde mensen natuurlijk latency toe. Al hoeft dat niet altijd een probleem te zijn met volledig extern/remote uitgevoerde taken waar niet snelle interactie nodig is vaak.
Staat dit systeem in Finland vanwege dat de stroom op is in Eindhoven?
Of zijn er andere redenen om een relatief fysiek klein systeem zoals deze niet in huis te hebben (willen) staan?
Per systeem een verbruik van max 14.3 kW volgens de specificaties. Tenzij ze op de TU een datacenter hebben kan je dat beter ergens anders onderbrengen lijkt me. En dan doel ik voornamelijk op koeling, want stroom zal er wel genoeg zijn.

[Reactie gewijzigd door Snippo op 4 november 2024 20:34]

Zou beetje gek zijn als een TU geen eigen datacenter(ruimte) heeft, met daarbij voldoende stroom en koeling om ±60kW te kunnen faciliteren. Want er zijn meer faculteiten bij de TUe met eigen rekenclusters.
Indien het toch niet past, er zijn voldoende datacentra in/rondom Eindhoven al aanwezig. Dus waarom het niet daar onderbrengen? Je geeft geen antwoord waarom het helemaal in Finland moet staan...
De enige reden dat dit in Finland komt te staan is vanwege geld. Er waren partijen in de regio die dit graag hadden willen en kunnen invullen.
Dank je. Je antwoord beantwoord mijn vraag. Weet je toevallig of het een groot verschil in kosten is? Of heeft iemand met oogkleppen staan kijken?
Er zijn meerdere grote DC-partijen in NL betrokken geweest bij deze uitvraag. Ik denk niet dat ze oogkleppen op hadden, mijn werkgever is een van die partijen. Wat mogelijk kan spelen is dat DC's in NL nog beperkt stroom hebben. Die overgebleven kWh's moeten duur worden verkocht, want in sommige gebieden duurt het nog +/- 5 jaar totdat de stroomaansluiting van het DC groter kan worden gemaakt.

Ik denk dat DC's in de komende tijd steeds minder zullen discounten omdat groeien lastig zal worden binnen bepaalde regio's. Ik ervaar dit nu overigens al, ik ben verantwoordelijk voor het contracteren van nieuwe klanten bij een van deze partijen.

In Finland zal dit issue wel niet gelden. Maar TU-Eindhoven had mijn inziens moeten beperken dat deze omgeving buiten Nederland kan komen te staan, zeker wetende dat dit met belastinggeld zal worden gefinancierd.
Het gaat toch alleen om toegang? Toen ik jong en onbedorven was hadden we een cluster Intel i960 staan van ca. 50 stuks. Die dingen heb ik ook toen nooit gezien, alles vanaf terminals. Met de huidige datasnelheden en remote execution mogelijkheden maakt het echt geen bal uit waar dit ding staat, al is het wel slim om het binnen Europa te houden natuurlijk.
Het gaat mij om te snappen waarom men helemaal in Finland terecht is gekomen. Daarnaast helpt het als de studenten de apparatuur ieder geval een keer kunnen bekijken. En als TUe er wel voor had gekozen om het dichtbij neer te zetten, kan je er een mooie samenwerking met lokale partijen van maken.
Yes! Goed werk, TU/E! Eindelijk worden de Europeanen een beetje wakker.
" Super computer" van Nvidia 8)7 zijn ze nu echt gek geworden daar ? Alleen AMD maakt super computers ! Welke dumb@ss heeft voor Nvidia gekozen ? Daar gaan ze nog HEEL veel spijt van krijgen !

[Reactie gewijzigd door UnknownTweaker op 11 november 2024 14:58]

Op dit item kan niet meer gereageerd worden.