Snellius-supercomputer krijgt met Nvidia H100-uitbreiding 38 petaflops snelheid

SURF heeft de Nederlandse supercomputer Snellius uitgebreid. Er zijn honderden nieuwe gpu's aan de computer toegevoegd, waardoor het maximaal aantal petaflops dat Snellius aan berekeningen kan doen, meer dan verdubbelt.

SURF, de beheerder van de supercomputer, zegt dat Snellius een grote uitbreiding krijgt. Snellius heeft nu nog een theoretische pieksnelheid van 15 petaflops, maar dat wordt verhoogd naar 38 petaflops, meldt SURF.

De computer wordt daarvoor uitgebreid met H100-gpu's van Nvidia. Snellius krijgt 352 van die gpu's, die worden verdeeld over 88 nodes. SURF gaat daarnaast toegang bieden tot LUMI, een Europese supercomputer op basis van AMD-gpu's die maximaal 380 petaflops aan rekenkracht heeft. Die toegang is voor onderzoekers die aan Snellius niet genoeg hebben.

Snellius is Nederlands krachtigste supercomputer. Onderzoekers en wetenschappers kunnen via de Nederlandse Organisatie voor Wetenschappelijk Onderzoek tijd aanvragen om berekeningen uit te voeren met de supercomputer. Snellius werd in 2021 geïntroduceerd als vervanger van de Cartesius-supercomputer. Het model ging van start met 144 Nvidia A100-gpu's. De aanvankelijke planning was om de computer daarna uit te breiden om halverwege 2023 een maximumsnelheid van 21,5 petaflops te bereiken. Tweakers publiceerde in 2021 een achtergrondartikel over de werking van de supercomputer.

Snellius

Door Tijs Hofmans

Nieuwscoördinator

11-07-2024 • 10:50

37

Submitter: tomhoven

Reacties (37)

37
37
28
2
0
0
Wijzig sortering
"Snellius is Nederlands krachtigste supercomputer"
Niet volgens de Top 500:
https://top500.org/lists/top500/list/2024/06/
#19 https://top500.org/system/180234
#66 https://top500.org/system/179968
staan boven Snellius ( #165 en #240 )
Voor degenen die de site niet kennen; op https://top500.org/statistics/sublist/ kun je bij "Country/Region" ons landje selecteren en zien wat we hier voor moois hebben draaien.
Wat ik mij afvraag, is zo'n supercomputer nu 100% bezig of staat het maar te wachten op aanvragen? Met deze uitbreiding zou je zeggen dat ze capaciteit te kort kwamen, maar met de uitbreiding zou die ook weer meer dan de helft van zijn normale tijd aan het idlen zijn. Is er een wachtrij voor aanvragen?
Ze verkopen een aantal 'uren' per jaar. Volgens mij kun je ook maar een keer per jaar een aanvraag doen voor toegang, ze plannen dus eigenlijk het jaar vol zodat mensen hun projecten erop kunnen draaien. Met de uitbreiding denk ik dat er sneller complexere modellen kunnen draaien / meer uren verkocht kunnen worden.
Maar eerst zeg je een aantal uren per jaar en daarna dat ze het hele jaar vol plannen. Als ik er op los mag fantaseren dan denk ik dat hij continue aan staat. Maar dan ben ik ook wel eens benieuwd wat de kosten zijn voor de klant, maar bijv. ook voor SURF zelf. En zou een particuliertje met een megavet idee/formule ook aanspraak mogen maken op die uurtjes?
Is volledig geautomatiseerd met schedulers: https://hpc-wiki.info/hpc/Scheduling_Basics

Voor DelftBlue gebruiken we Slurm maar er zijn vele varianten.

Als ze merken dat de boel een paar weken uitloopt doen ze hier minder projecten in de volgende reeks. En anders iets meer.

De queue staat continue vol.
Ja naar wat ik begrijp verhuren ze CPU / GPU kracht etc per uur. Dus als er 10.000 cpu-cores beschikbaar zijn heb je 240.000 cpu uren per dag om te verhuren (kleine rekensom). Reken dat om naar het aantal uren per jaar en je weet wat je aan capaciteit hebt om te verhuren.

Of vervolgens die machine continue op 100% staat de blazen, ik heb geen idee. Misschien dat SURF daar cijfers over heeft op hun website.

Het lijkt erop dat het niet zo makkelijk toegankelijk is voor een particulier om capaciteit af te nemen.
Hierbij zie je veelal 2 modellen. Het ene model laat onderzoekers betalen voor capaciteit. Het andere model niet.

In beide situaties zie je dat de que (wachtrij) altijd wel vol zit.

Als het eenmaal draait zie je een verschil in aanpak. Stel je voor dat iemand 10 nodes aanvraagt. Het is een bout rekenmodel wat niet goed schaalt. In het eerste model heeft een project betaald en is het jammer (volgens mij doet SURF dit). Bij het tweede model wordt je erop aangesproken of word de overgebleven capaciteit weg gegeven. Beetje afhankelijk vd implementatie wat hier technisch mogelijk is
In principe verkopen ze geen uren. NWO en de universiteiten betalen voor deze nationale voorzieningen. Onderzoekers kunnen via NWO een budget toegewezen krijgen, of voor kleine aanvragen rechtstreeks bij SURF, of via de universiteiten zelf.

Bedrijven kunnen voor onderzoeksdoeleinden ook toegang krijgen. En dat kunnen ook eenpitters zijn, er zijn ZZPers die soms heel veel rekenkracht nodig hebben.
100% haal je nooit, denk ook eens aan onderhoud, storingen.

HPC systemen worden meestal berekend op circa 85-90% bezettingsgraad, met soms misschien pieken naar 95 of meer.

Er is sowieso ook loze tijd tussen jobs, waarin je bijvoorbeeld caches wilt clearen enzo.
Klant is een onderzoeker, onderzoeker krijgt budget incl reken minuten. Is het Europese onderzoek? Mag je ook shoppen bij vergelijkbare organisaties ala surf
met een aatal uren per jaar bedoelt hij de eenheid,

ze verkopen 365 dagen per jaar in buckets van een aatal uren per aanvraag
dat ligt er aan. Wij draaien ook jobs op Snellius. Soms is het rustig, soms is het druk. Ik heb wel eens twee dagen moeten wachten op een GPU job die twee uur duurde. Vaak runt het binnen enkele minuten.
Daarnaast: sommige jobs runnen wel een maand (5x herstarten), anderen een uurtje. Heel divers.
Gewoon nieuwsgierig maar voor wat voor zaken gebruik je Snellius precies? of is dat bedrijfsgeheim?
Niks geheims aan, veel genomics werk, heel divers. Een hot item is nu vergelijken van eiwitstructuren op basis van alleen de aminozuur volgorde. Voorheen kon dat niet, daar gebruiken we nu de kracht van de A100's en nu dus ook de H100s voor. Die dingen worden ook gebruikt voor het bepalen van de nucleotide volgorde in DNA sequencing.
In mijn geval niet Snellius maar DelftBlue: Ik doe aan deep uncertainty analysis met o.a. de EMAworkbench. Dat komt in de praktijk neer dat ik voor een (bestaand) model vele verschillende beleidsopties onder heel veel mogelijke toekomst scenario's test. Ook al is een enkele model run maar 5 minuten, als ik een miljoen combinaties wil testen is dat toch fijn dat dat op een groot cluster kan!
Het zijn universiteiten en kennisinstellingen dus het is sowieso niet geheim. Zoek in het nieuws naar iets wat een universiteit heeft onderzocht. Grote kans dat het uittekenen in het eigen datacenter of bij SURF is uitgevoerd.

Dit gaat van het draaien van simpele python scripts tot aan number crunchen met C++ of Fortran en alles wat daartussen zit :p
Die supercomputers zijn continue bezig. Er staan vrijwel altijd jobs in de queue. In DelftBlue, de supercomputer van de Tu Delft, sta je soms rustig twee weken te wachten tot je aan de beurt bent.

In het queueing systeem zit doorgaans wel load balancing zodat er altijd wel een paar nodes vrij zijn voor korte tusendoor-jobjes, maar het staat nooit grotendeels te idlen. Deze toegenome rekenkracht zal vooral gericht zijn op machine learning, omdat dat nu hip is. Met de dikkere GPU kunnen klanten van SURF-SARA grotere neurale netwerken sneller doorrekenen. En reken maar dat daar happig gebruikt van gemaakt gaat worden.
Mijn faculteit gebruikt zijn share nauwelijks dus ik ben altijd binnen minuten aan de beurt O-).

Scheelt ook dat ik over het algemeen enkel CPU-jobs heb. De veertig (jaja!) A100’s wordt keihard om gestreden.

[Reactie gewijzigd door Balance op 22 juli 2024 15:33]

Wij hebben veertig GTX1080 Ti's. Die beginnen gestaag toch wel wat gedateerd te raken. Ik heb ze wel eens alle veertig voor mij aan het werk gehad om PDEs door te rekenen. Kon heerlijk mass parallel.
Deze Supercomputer word door alle universiteiten in Nederland en ook HBO onderzoeksgroepen gebruikt. Mijn ervaring is dat hierdoor eigenlijk altijd wel rekentijd word gebruikt.
Of het ook altijd om AI of Machine Learning gaat, dat is een ander verhaal.
In het verleden werd ook grote wiskundige modellen op deze computer gedraaid, omdat een model van het heelal of een molecuul anders te lang zou gaan duren.

AI is natuurlijk een "relatief" recente toevoeging aan de redenen waarom je zo'n computer zou willen gebruiken.

Je hebt wel mogelijk dat er downtime is om bijvoorbeeld het stroomnet te ontlasten. In Nijmegen bij de RU is een magnetenlab, welke vaak alleen in de nacht mag draaien, omdat anders te veel stroom gevraagd zou worden op ons overbelaste stroomnet.
Allebei. Hij verwerkt jobs. Tijdens zo'n job, mits goed geprogrammeerd / geparalleliseerd, draait hij richting 100%. Dan komt de volgende job. Tussendoor beetje data wisselen en weer door richting de 100%. De jobs worden door de verschillende klanten (zie hieronder) in de queue gezet. Buiten onderhoud draait hij dus redelijk fulltime het hele jaar door.
Na een uitbreiding is de bezettingsgraad inderdaad eerst nog wat laag. Maar de vraag neemt exponentieel toe, dus het systeem heeft na enige tijd een continue bezettingsgraad van >80%.

Er is dus soms een wachtrij. Niet zozeer voor aanvragen, maar voor batch jobs die in de cue staan.
Volgens mij wel maar ik denk dat als je een berekening laat doen dat je ook fors moet betale.
Het licht er natuurlijk ook aan hoe precies jouw berekening moet zijn.hoe langer dat je hem nodig hebt hoe meer je moet betalen volgens mij.
Snellius _/-\o_ wat een geweldige naam! +10 van mij. Verder natuurlijk mooi dat Nederland niet stil blijft zitten en blijft investeren / upgraden.
Vind ik ook super,

altijd tof als de geeks/nerds ook iets mogen beslissen :) :)


EDIT : heb even zitten lezen, is eigenlijk nog cooler, komt van een nerd van de 16de-17de eeuw :)
De naam Snellius komt van Willebrord Snel van Royen, een vooraanstaand wiskundige die leefde van 1580 tot 1626. Zoals veel wetenschappers uit die tijd was hij ook thuis in andere onderzoeksgebieden, waaronder landmeetkunde, navigatie, hydrografie en astronomie. Zijn grootste bekendheid kreeg hij op het gebied van optica, met de naar zijn Latijnse naam genoemde wet van Snellius, die aangeeft hoe lichtstralen worden gebroken op de overgang van het ene naar het andere medium. In Frankrijk spreken ze overigens van de wet van Descartes, die de brekingswet onafhankelijk van Snellius beschreef. De Latijnse naam van Descartes is dan weer Cartesius, de naam van de voorgaande nationale supercomputer. Dat alles staat los van de keuze van de naam Snellius; die is mede gekozen vanwege de associatie met 'snel'.

[Reactie gewijzigd door Hansie9999 op 22 juli 2024 15:33]

SURF-SARA noemt al haar computers naar wetenschappers. Ze hebben ook Cartesius, en als ik me goed herinner hadden ze vroeger ook een Lorentz.
Kunnen voorspellingen/verwachtingen v.w.b. weer een stuk accurater worden met meer rekenkracht of heeft dat vooral met aantal sensoren te maken?
In het algemeen (niet weer-specifiek) is voor modellen (helemaal grote AI modellen die hiermee getraind kunnen worden) het vrijwel altijd beter om hogere kwaliteit data te hebben (dus meer sensoren in jouw vraag) dan om meer rekenkracht te hebben.

Data > model.
Je bedoelt kwantiteit? Hoe meer trainingsdata hoe beter.
Zeker niet! Kwaliteit > kwantiteit van data.
Dankje Oli :D
Wellicht nog wel eens een leuk achtergrondartikel voor Tweakers
@TijsZonderH In de inleiding heb je het over "tientallen nieuwe gpu's". En dan vervolgens schrijf je "Snellius krijgt 352 van die gpu's"

Welke is het nu precies?
Ik begreep het ook niet helemaal, dacht eerst dat er enkele 10tallen toegevoegd werden zodat het totaal op 352 uitkwam, maar de bron spreekt echt over de toevoeging van 352 van die kaarten:
De uitbreiding omvat de toevoeging van 352 NVIDIA H100 (Hopper) GPU's (Graphic Procession Units) verdeeld over 88 nodes, en verhoogt het theoretische prestatievermogen van Snellius van 15 PFLOP naar bijna 38 PFLOP per seconde.
Goede ontwikkeling dit.
Overigens is "petaflops per seconde" een pleonasme.
Of de versnelling in het aantal petaflops :+
En dat zal wel exponentieel stijgen, en die stijgen kun je uitdrukken in petaflops per seconde per seconde. :+
De uitbreiding wordt waarschijnlijk in één keer bijgesgeschakeld, dan krijg je een stap (geen exponentiële groei), is het dan niet /s^3 (ik heb de klok weleens horen luiden...) ?

Op dit item kan niet meer gereageerd worden.