Astron koppelt gpu-cluster met 26 Nvidia Tesla V100's aan Lofar-radiotelescoop

Het Nederlands instituut voor radioastronomie Astron heeft Cobalt 2.0 in gebruik genomen, een rekencluster dat data van zijn omvangrijke Lofar-telescoop in real time moet verwerken. Onderdeel van het cluster zijn 26 Nvidia Tesla V100-accelerators.

Na vijf maanden testen is Cobalt 2.0 gereed voor gebruik en kan het systeem Cobalt 1.0 opvolgen, meldt Astron. Cobalt 1.0 is end-of-life. Cobalt 2.0 maakt een nieuwe eigenschap van Lofar mogelijk: Lofar Mega Mode of LMM. Deze modus maakt dat de radiotelescoop simultaan verschillende observaties kan verrichten. Wetenschappers kunnen Lofar zo tegelijk inzetten voor onderzoek naar de begintijd van het heelal, het in kaart brengen van magneetvelden en het monitoren van zonneactiviteit.

Deze functionaliteit levert een aanzienlijk grotere hoeveelheid data op dan de telescoop tot nu toe verzamelde. Cobalt 2.0 kan daarom 1Tbits/s afhandelen, wat zich vertaalt in 30 miljard samples. Daarnaast is de rekenkracht flink toegenomen om alle data te kunnen verwerken. Het cluster is aanzienlijk krachtiger dan nodig zou zijn voor LMM, maar Astron wil de extra rekenkracht gebruiken om de kwaliteit van het binnenkomende signaal te verbeteren. Daarnaast moet Cobalt 2.0 gereed zijn voor de komende Dupplo-upgrade en Lofar 2.0.

Dupplo verhoogt het aantal lowbandantennes voor het opvangen van lage frequenties van 48 naar 144 per observatie. Deze geplande upgrade moet de gevoeligheid met een factor vijf verbeteren en de ontvangst van frequenties lager dan 50MHz verbeteren. Lofar 2.0 gaat parallelle observaties van de low- en highbandantennes mogelijk maken.

Cobalt staat voor Correlator and beamforming application platform for the Lofar telescope. Het systeem is het hart van de radiotelescoop en via glasvezelverbindingen komen de signalen van alle antennes van de radiotelescoop samen. In het Drentse Exloo staan bijvoorbeeld 25.000 antennes, verdeeld over zes stations, en naast dertien andere stations in Nederland zijn er locaties in Ierland, het Verenigd Koninkrijk, Zweden, Duitsland, Frankrijk, Polen en Italië.

Cobalt 1.0 was gebaseerd op Dell T620-workstations met Nvidia K10-accelerators, maar het nieuwe cluster heeft Tesla V100-kaarten. De Tensor Cores van die kaarten versnellen half-precisionberekeningen, wat volgens Astron nieuwe astronomische observatiemodi binnen handbereik brengt. Naast het verhogen van de rekencapaciteit was energie-efficiëntie een belangrijke overweging bij het zoeken naar de juiste hardware, volgens het instituut.

Astron Cobalt (2013)	Rekenkracht	Astron Cobalt 2.0 (2019)	Rekenkracht
16 Intel Dual Xeon E5 16 Nvidia Tesla K10 10GbE-netwerkkaarten 56Gbit/s fdr InfiniBand	Onbekend	26 Intel Xeon Gold Skylake-SP 6140 96 GByte ram per cpu 26 Nvidia Tesla V100 100Gbit/s edr InfiniBand	Cpu: 63Tflops Gpu: 360Tflops

IT-banen

Reacties (29)

RogerWilco2 16 juli 2019 15:15

Er is ook een station in Ventspils in Letland.

Het totale aantal antennes (dipolen) is meer dan 100.000.
Deze worden gesampled op 5 nanoseconden resolutie.
De ruwe datarate is ongeveer 20 Tbit/s, dat slaan we continue op in een ringbuffer voor 5 seconden, en doen er verdere processing op zodat 225 Gbit/s naar Cobalt gestuurd wordt vanaf de stations.

Die ruwe data van 5 seconden kan ook "bevroren" worden en uitgelezen, maar niet in "real time". Dit gebruiken we onder andere om onderzoek te doen naar bliksem en deeltjes die de atmosfeer van de aarde raken, maar ook gravitatie golven en "Fast Radio Bursts".

Op het moment kunnen we niet alle antennes tegelijk gebruiken, DUPLLO gaat dat veranderen. Dan wordt de datarate van de stations naar Cobalt ook 1 Tbit/s, daarvoor zal het eerder zo'n 300 Gbit/s zijn geloof ik. (we kunnen ongeveer 1/3e tegelijk gebruiken).

(het is DUPLLO, niet Dupplo)

Zes stations hebben ook geen 25.000 antennes, maar ongeveer 10300 (zo uit het hoofd). We hebben bij Exloo dan ook veel meer dan 6 stations.
Zie https://goo.gl/maps/8BHT3EVNgaQcmvzt8

Sorry, maar onze Cobalt expert is net met vakantie gegaan toen alles het deed, dus ik heb niet alle antwoorden. Ik werk wel bij Astron.

[Reactie gewijzigd door RogerWilco2 op 23 juli 2024 06:22]

monesj @RogerWilco2 • 16 juli 2019 18:46

Op dit moment wordt er dicht bij LOFAR de eerste van 40 windturbines geplaatst.
Naar alle waarschijnlijkheid zal dit LOFAR enorm gaan storen.

RogerWilco2 16 juli 2019 16:14

Ik weet niet waarom geen Epycs gekozen zijn, en de collega die de aankoop heeft gedaan is net met vakantie gegaan. Ik kan vertellen wat ik wel weet.

GFlop/W was een belangrijke overweging.
Het gaat vooral om de processing op de GPU's en de snelheid waarmee de CPU's de data kunnen aanleveren aan de GPUs, en weer wegsluizen. Ik geloof dat de snelheid van de CPUs niet heel kritisch is.

Het gaat ook vooral om de half precision performance. In FP16 haalt Cobalt 2 2.9 ExaFlops. (2912 TFlops)

Deze link heeft links naar meer detail, voor geinteresseerden:
https://www.astron.nl/new...-fully-multitasking-lofar

[Reactie gewijzigd door RogerWilco2 op 23 juli 2024 06:22]

broekema @RogerWilco2 • 16 juli 2019 16:17

PetaFlop komt eerst, dan pas ExaFlop

dmantione @RogerWilco2 • 17 juli 2019 12:51

Als je daadwerkelijk op de CPU gaat rekenen moet je de Intels hebben: Met dubbele 512-bit FPU zijn de Xeon Skylakes beter in SIMD-taken dan welke andere processor. Je Gflop/W komt dan ook gunstig uit. Vaak is het echter zo dat als GPU's ingezet worden, de bewerkingen op data die voor SIMD geschikt zijn sowieso al naar de GPU geöffload worden en de CPU in het geheel geen SIMD doet. Dit soort processoren zijn in dat geval geldverspilling.

Als het om snel data aan de GPU's leveren gaat, moet je Epycs hebben. De processoren in een GPU-cluster zijn vaak vooral bezig met het up- en downloaden van data van/naar de GPU en al die flops in de processorkernen worden dan geld- en energieverspilling. De infinity fabric laat bij AMD op dit punt zijn kracht zien en met 128 PCI-E lanes per systeem kun je meer GPU's in een systeem aansturen. Vaak blijkt dat 1 processor dan al ruimschoots genoeg (je kunt er 32 kernen bij Epyc op krijgen) is om de maximale rekenkracht uit een GPU te halen. Dan gaat de energierekening echt omlaag i.p.v. puur theoretische en nietszeggende "Gflops/W"-berekeningen.

fentoment 16 juli 2019 14:09

Naast het verhogen van de rekencapaciteit was energie-efficiëntie een belangrijke overweging bij het zoeken naar de juiste hardware, volgens het instituut.

Epyc geen optie dan?
32 cores/64 threads voor 40 Watt TDP extra?

Pikkemans @fentoment • 16 juli 2019 15:11

Waarschijnlijk is de aanbestingsfase van dit project al gestart voordat de EPYC geïntroduceerd waren. De cpu's in deze COBALT 2.0 servers stammen uit Q3 2017. EPYC is in juni 2017 geïntroduceerd (lees: geen volwassen platform op dat moment).

Hardware boeren, maar ook de afnemers van dit soort hardware verschuiven niet snel naar een totaal nieuw platform. Daar gaat mogelijk jaren overheen.

De eerste serie EPYC CPU's zijn bijvoorbeeld pas in november 2018 beperkt in gebruik genomen bij AWS. Puur om ervaring te krijgen met dit soort hardware.

BramVroy @Pikkemans • 16 juli 2019 15:57

Zelfs bij onze universiteit gaat dit erg traag. Zeker als het om een custom systeem gaat. Aanbeveling technische dienst, discussie met onderzoekers, discussie met afdelingshoofden, voorlegging bij een raad (faculteitsniveau en/of universiteitsniveau) ter goedkeuring (kan wat heen en weer zijn voor ze akkoord zijn met budget). Wanneer het budget goedgekeurd is, heen en weer verkeer met verschillende hardwareboeren (voornamelijk Dell, Nvidia). Wanneer er beslist wordt wat de hardware wordt, begint de IT-afdeling uit en zoeken hoe alles zou werken en hoe ze het moeten installeren, ook m.b.t. software. Dus ook uitzoeken welke softwarevereisten er zijn voor alle onderzoekers. Tegelijkertijd wordt de bestelling hopelijk geplaatst. Wanneer de onderdelen (onbeschadigd) aankomen, wordt alles gemonteerd en de software geïnstalleerd waarna alles ook nog uitbundig getest moet worden.

Merk op dat ALLE werknemers in dit proces meer te doen hebben op hun dag dan zich focussen op deze ene server die ze willen aankopen. Af en toe kunnen ze er dus aan werken, en als je niet elke dag eens gaat kijken hoe het proces verloopt, kan het érg lang duren from start to finish. Al bij al hebben wij nog geluk met onze systemen, maar het is vaak zo dat je achterhaalde hardware krijgt te gebruiken vanwege het slome administratieve/bureaucratische verloop.

fentoment @Pikkemans • 16 juli 2019 15:43

Juist, vergeten dat zo'n project niet op 1 2 3 klaar is.

dmantione @Pikkemans • 17 juli 2019 12:53

Nada, ik heb de aanbesteding gezien en ze hadden de technische specificaties opgesteld dat je simpelweg geen Epyc kon bieden.

Pikkemans @dmantione • 17 juli 2019 13:14

Ah cool om te weten.

LOTG @fentoment • 16 juli 2019 14:32

Niet alleen 40 watt extra, ook 1000 dollar volgens Wikipedia.

Nu zijn er niet zo heel veel head to head benchmarks maar de enige die ik kon vinden (CPU Monkey) geeft de Epyc een ~23% betere multicore performance.

TDP ligt ~28% hoger.
Prijs ligt ~42% hoger.

Dat zijn natuurlijk allemaal factoren die mee wegen, niet alleen meer cores/threads.

En als Single core performance (lijkt mij irrelevant voor deze toepassing, maar wie weet) belangrijk is dan is de Epyc al helemaal niet interessant meer.

[Reactie gewijzigd door LOTG op 23 juli 2024 06:22]

broekema @LOTG • 16 juli 2019 16:38

Single core performance is juist erg belangrijk, niet zozeer vanwege de rekenkracht, maar meer omdat het ontvangen van tientallen gigabits per seconde per node erg veel vergt van de CPUs. De processoren moeten niet alleen de interrupts van de NICs verwerken, voor ieder UDP/IP pakket moet bovendien de volledige Linux IP stack worden doorlopen voordat de payload kan worden gekopieerd naar userspace.

Interrupts plus context switches en memcpys maken vooral single core performance belangrijk.

fentoment @LOTG • 16 juli 2019 15:37

15 cpu's nodig ipv 26 voor zelfde aantal cores.
Tdp x aantal:
Epyc 2700
Intel 3640

Dus...
Prijzen nog niet vergeleken maar zal dan ook niet veel verschil maken?

Intel 62400 dollar
Epyc 67500 dollar

Verbruik haal je er door de jaren dus wel uit tegenover de extra investering denk ik.

[Reactie gewijzigd door fentoment op 23 juli 2024 06:22]

LOTG @fentoment • 16 juli 2019 15:53

Dus hangt het er vanaf wat het belangrijkste is. Als je echt perse meer threads nodig hebt zou dat interessant zijn, is dat niet het geval dan presteren die 15 cpu's op papier veel slechter dan die 26.

Het zijn allemaal theoretische cijfertjes maar voor iedere 5 Xeons heb je een betere TDP en betere syntetische performance dan 4 Epycs.

Dus 15 Epycs staan ongeveer gelijk aan 18 Xeons, die dan iets beter op TDP scoren en iets beter op performance. Plus je bespaard ongeveer 7800 dollar op de MSRP.
Dus voor 26 Xeons heb je iets meer dan 20 Epycs nodig om dezelfde multicore performance te halen.

Maar het is allemaal theoretisch, en hangt af van de workload, wat waarschijnlijk geen Cinebench en Passmark zal zijn. Er zal vast goed nagedacht zijn bij de aankoop en @Pikkemans zijn argument klinkt behoorlijk plausibel.

broekema @LOTG • 16 juli 2019 16:00

Het is niet alleen een kwestie van prestaties en energie verbruik, maar ook analyze van risico. De Cobalt corrlator is een integraal deel van de telescoop, als deze niet (goed) werkt heeft dat direct gevolgen voor de hele telescoop. We hebben inderdaad nagedacht over EPYC, maar op dat moment was er nog geen betrouwbare informatie over prestaties, en hadden we zeker nog niet een model zelf aan de tand kunnen voelen.

MSalters

Wetenschap

@fentoment • 16 juli 2019 15:56

Hoe kom je aan 15 CPU's? Want LOTG noemt een 23% betere performance, dus (26/1.23)=21 CPU's. TDP is 1.28/1.23=4% hoger, prijs is 1.42 * (21/26) = 14% hoger.

fentoment @MSalters • 16 juli 2019 16:01

26x18=468 /32=14.6xx
gewoon gelijke performance/cores genomen uit makkelijkheid

svenk91 16 juli 2019 14:11

Stiekem vind ik dit nog erg weinig. Als je ziet hoe complex het Lofar project is met het bundelen van zoveel verschillende signalen verspreid over zoveel locaties, had ik eigenlijk wel een van de sterkste supercomputers van NL er achter verwacht. MAar misschien krijg je dan wel zoveel data dat je een gigantisch tekort aan mensen krijgt die het kunnen lezen

RogerWilco2 @svenk91 • 16 juli 2019 15:14

Toen we begonnen in 2005 hadden we de snelste computer van Europa en #6 in de wereld.

nieuws: Supercomputer Stella officieel in gebruik genomen
https://www.top500.org/lists/2005/06/

Cobalt 2 is ongeveer 10x zo snel, veel meer is niet nodig, omdat het aantal antennes/stations maar een klein beetje is toegenomen sinds 2005, en we dus met 10x de rekenkracht alles kunnen doen wat we willen.

Maar 10x so snel sinds 2005 levert je nu niet eens meer een plek op in de top500.

Rudie_V @svenk91 • 16 juli 2019 15:46

Als ik mij goed herinner zitten er nog een heel scala fpga's (of asic's?) voor die alle data filteren wat daarna dan op dit cluster terecht komt.

RogerWilco2 @Rudie_V • 16 juli 2019 16:25

Ja. FPGA's. De huidige zijn oud en worden in DUPLLO vervangen door Uniboard2.

Zie deze link voor details over Uniboard2.
https://www.worldscientif...10.1142/S225117171950003X

Ieder LOFAR station kan straks meer data verwerken dan de Amsterdam Internet Exchange.
( ±6 Tbit/s, tegen 4.3 TBit/s) Zie https://www.ams-ix.net/ams

6 Uniboards die 1 Tbit/s doen per LOFAR station.

Supermuskusrat 16 juli 2019 15:45

Hopeloos off-topic, maar ik heb stage gelopen bij de ICT-afdeling van ASTRON, je kunt wel meerdere in-depth articles schrijven over de vooruitstrevende projecten die ze daar allemaal ondernemen. Niet alleen het huidige materiaal is gaaf, maar ook de dingen die ze kunnen met de (relatief oude) WSRT-telescoop zijn heel interessant! Mocht je in de buurt zijn tijdens de een open dag is het zeker een aanrader om daar eens te gaan kijken!

broekema 16 juli 2019 16:10

Voor de liefhebber een link naar het artikel waarin het ontwerp, bouw en ingebruikname van de vorige generatie correlator en beamformer in detail wordt beschreven:

https://arxiv.org/abs/1801.04834

erkap 17 juli 2019 13:55

Het systeem is juli vorig jaar Europees aanbesteed, dus de eisen zijn in de maanden daarvoor opgesteld. Het gaat om het centrale hart van de LOFAR radiotelescoop. Dus degelijkheid en betrouwbaarheid zijn belangrijke parameters (zoals server grade en bewezen hardware). Daarnaast was de hoeveelheid software ontwikkeltijd beperkt. Daarom hebben we voor een systeem gekozen wat veel op het oude lijkt.

Bram_H67 16 juli 2019 14:07

Als ik zulke rekenkracht tot mijn beschikking zou hebben, zou ik niet weten wat ik er mee zou moeten doen. Gelukkig weten ze het bij Astron zo te lezen wel.

Op dit item kan niet meer gereageerd worden.

Astron koppelt gpu-cluster met 26 Nvidia Tesla V100's aan Lofar-radiotelescoop

Lees meer

Astron verbetert radiotelescopen

IT-banen

Reacties (29)

Lees meer

Astron verbetert radiotelescopen

IT-banen

Reacties (29)

Sorteer op:

Weergave: