Cookies op Tweakers

Tweakers is onderdeel van DPG Media en maakt gebruik van cookies, JavaScript en vergelijkbare technologie om je onder andere een optimale gebruikerservaring te bieden. Ook kan Tweakers hierdoor het gedrag van bezoekers vastleggen en analyseren. Door gebruik te maken van deze website, of door op 'Cookies accepteren' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt? Bekijk dan ons cookiebeleid.

Meer informatie

Japanse Fugaku-supercomputer met ARM-cpu's staat op eerste plek in Top500-lijst

De Fugaku-supercomputer met A64FX-processors van Fujitsu is in gebruik genomen in Japan. Het systeem beschikt over in totaal 7,3 miljoen ARM-cores en staat op de eerste plek in de Top500-lijst. Het is voor het eerst dat een ARM-systeem die positie claimt.

De Japanse supercomputer stoot de Amerikaanse Summit van de troon. Summit is sinds 2018 in gebruik en is voorzien van IBM Power9-cpu's in combinatie met Nvidia GV100-accelerators en kwam tot piekprestaties van maximaal 200 petaflops. De Japanse Fugaku-supercomputer haalt een piek van 513 petaflops, ofwel ongeveer een halve exaflops.

Het Japanse systeem is krachtiger, maar bestaat ook uit meer nodes en verbruikt meer. De Fugaku is opgebouwd uit 158.976 nodes die ieder voorzien zijn van een A64FX-processor van Fujitsu. Die ARM-processor heeft 48 cores die draaien op 2GHz, met een boost naar 2,2GHz. De processors worden gecombineerd met 32GB hbm2.

Het Japanse Riken-instituut zou de Fugaku-supercomputer pas in 2021 in gebruik nemen, maar door de coronapandemie is dat versneld. Het systeem wordt ingezet voor onderzoeksrekenwerk, waaronder projecten om covid-19 te bestrijden.

Fugaku verbruikt 28MW, bijna drie keer zoveel als Summit, die genoeg heeft aan zo'n 10MW. Daarmee is de Japanse supercomputer iets minder efficiënt dan de voormalige nummer 1. In de Green500-lijst, die gaat om de prestaties per watt, staat Fugaku op de negende plek en Summit op 8.

Fugaku-supercomputer in Japan

De Top500-lijst van supercomputers wordt twee keer bij jaar bijgewerkt. Het gaat om prestaties op basis van de Linpack-benchmark. Hoewel er nu een ARM-systeem op de eerste plek staat, zijn er al een aantal x86-supercomputers in ontwikkeling met meer rekenkracht.

Het Amerikaanse ministerie van Energie heeft voor 2021 supercomputer Aurora op de planning staan, met Intel Xeon-cpu's en Xe-gpu's. Dit systeem moet minimaal een exaflops halen. Het ministerie krijgt in datzelfde jaar de beschikking over de Frontier-supercomputer, met AMD-hardware die 1,5 exaflops moet leveren.

Voor het Amerikaanse Lawrence Livermore National Laboratory, het instituut dat onder andere simulaties van bestaande en nieuwe nucleaire wapens uitvoert, wordt er gewerkt aan een supercomputer op basis van AMD Zen 4-cores. Dat systeem, genaamd El Capitan, krijgt 2,2 exaflops rekenkracht en wordt naar verwachting begin 2023 opgeleverd.

Top500-supercomputers Juni 2020

Wat vind je van dit artikel?

Geef je mening in het Geachte Redactie-forum.

Door Julian Huijbregts

Nieuwsredacteur

22-06-2020 • 17:57

64 Linkedin

Submitter: Balance

Lees meer

Reacties (64)

Wijzig sortering
Waarom hebben ze hier voor ARM gekozen ipv x86? Dat mistte ik een beetje.
Een supercomputer draait sowieso ook alleen extreem geparalleliseerde taken (dus die gebruik maken van heel veel cores).

Dat maakt ARM heel geschikt. We hebben ook al tijden octacores in smartphones op ARM, terwijl ze in laptops nog een echte zeldzaamheid hebben en vaak grote koelers behoeven.

Voor heel veel heel simpele parallele taken heb je de keuze uit ARM, of een GPU/accelerator, omdat je makkelijk een hele hoop cores/CUs voor een laag aantal watt krijgt. Je hebt ook speciale instructiesets (zoals AVX512) die dit ook sneller op een x86 processor laten draaien door per klok meerdere bewerkingen tegelijk te doen, maar die zie je minder terug, ook omdat software daarvoor extra aangepast moet worden.

Als je in de lijst van supercomputers kijkt, zie je ook dat degenen die wel x86 gebruiken dit vaak doen i.c.m. een GPU/Accelerator.

Echter, wil je even wat webbrowsen of gamen, dan zit het er dik in dat je huidige x86 desktop sneller is dan deze supercomputer, omdat dit om singlethreaded taken gaat, en het niet speciaal aangepast is om snel in parallel te kunnen draaien (want voor veel taken kan dat niet).
Als in verhouding de prestatie/watt lager ligt, dan vind ik ARM toch niet zo heel geschikt. Blijkbaar zijn er toch zaken voorhanden die geschikter zijn.
Als de combo x86-accelerator een betere prestatie/watt levert, dan lijkt de eerste me toch meer geschikt. En dat is dan nog vergeleken met de vorige nummer 1, die ondertussen toch al twee jaar oud is.

Maar dat is waarschijnlijk veel te simpel gedacht

[Reactie gewijzigd door Kenhas op 22 juni 2020 18:33]

De vorige nummer 1 was ook niet gebaseerd op x86 processoren, maar op POWER9 met accelerators verbonden via NVLink. In dit systeem met A64FX zitten, voor zover ik weet, geen discrete accelerators, maar alles zit in de processor zelf en er wordt gebruik van gemaakt via SVE (Scalable Vector Extensions).
Die keuze heeft inderdaad wat meer gevolgen, welke architectuur heeft namelijk heel veel gevolgen voor wat voor programma's je erop kan draaien.

Kies je x86 + NVidia accelerator, dan zal je programma's moeten draaien die met CUDA werken, of alles naar CUDA moeten herschrijven, wat je flexibiliteit kost. Veel machine-learning frameworks kunnen al met CUDA werken. Kleine taken (data importeren en exporteren e.d.) kan gewoon in x86 dus dat geeft je veel flexibiliteit daarin.

Bij x86 + Intel accelerator draait zowel je hoofdprocessor als je accelerator x86 code, dus moet je zorgen dat je (automatisch of handmatig) kiest of je een bewerking op de accelerator of de hoofdprocessor doet. Maak je hier verkeerde keuzes in, dan vertraagt de boel.

Sowieso moet je rekening houden dat accelerators hun eigen geheugen hebben, en dus de data waarmee gewerkt moet worden van het systeemgeheugen naar het accelerator-geheugen verplaatst moet worden.

Draai je enkel ARM, dan heb je niet zowel geheugen op de accelerator als op het systeem en je hoeft niet je applicaties zo te schrijven dat ze een deel van de berekeningen naar de accelerator sturen. Je kan dan natuurlijk geen gebruik maken van software dat voor x86 geschreven is (en hebt geen baat bij de vele optimalisaties van bepaalde pakketten voor x86). Zo heeft het z'n voor- en nadelen.

Dit houdt in dat het dus erg van je taak afhangt. Efficiency in een simpel getal als TFlops/W uitdrukken geeft maar een deel van het plaatje. Er zitten zeker voordelen aan niet doen aan accelerators, zowel als wetenschapper die hier uiteindelijk berekeningen mee moet doen, als qua snelheid omdat je mogelijk minder data moet heen en weren tussen systeemgeheugen en accelerator-geheugen, als qua grootte van de dataset in het geheugen tegelijk.
De nieuwe intel gpu accelerators draaien geen native x86 meer
Als in verhouding de prestatie/watt lager ligt, dan vind ik ARM toch niet zo heel geschikt.
Dat is een goede opmerking. En inderdaad, het aantal Watt is vrij simpel te meten. Maar wat precies is "prestatie"? Analoog aan "Welke auto presteert het beste"? De vraag rijst dan natuurlijk: "Wat is het gebruiksdoel"? Het flauwe voorbeeld is welbekend: Max Verstappen komt met zijn Red Bull F1-wagen aan op de bouwplaats, alwaar de opzichter vraagt "Kan je even 10 kuub beton ophalen in de betonfabriek voor me?". Dus stapt Max maar in de betonkiepwagen, die presteert toch beter...

Waar deze Fugaku-supercomputer minder goed op scoort dan no. 2, is "LINPACK / Watt". Maar ja, LINPACK is een benchmark. Waarschijnlijk gaat je supercomputer die niet heel de dag draaien.

Neem de TIANHE supercomputers uit China: Deze waren, enkele "halfjaren" geleden, de "snelste" computers op de wereld. Qua LINPACK-score dan; het schijnt dat ze voor het doeleinde waarvoor ze bedacht waren helemaal niet zo goed waren.

Ed: Berekeningen willen we zien @kidde !!!

OK dan, voor de diehards:
-Summit heeft 285GB/s ¨geheugenbandbreedte" per CPU; en 9216 CPU's (zie p5).
-Fugaku heeft 1024GB/s "geheugenbandbreedte" per CPU; en 317 952 CPU's.

De geheugenbandbreedte is dan:
-Summit: 2.6PB / s / 10kW = 0,26 ( TB / s ) / W .
-Fukagu: 325PB / s / 28.3kW = 11.5 ( TB / s ) / W.

Compleet andere weinigzeggende benchmark gefabriekt, waarbij Fukagu 40x beter scoort op geheugenbandbreedte / Watt. Maar zegt dat iets?

Wie naar de schema's van de Summit kijkt, ziet dat 150GB/s per Power9-PC naar HBM2 verloopt over NVLink, en dat ditzelfde HBM2 geheugen ook kan worden aangesproken door de GPU's. Terwijl Fukagu die GPU's helemaal niet heeft.

Appels en peren; het is allebei fruit.
Maar druiven presteren het beste, al het op wijn maken aankomt. :Y)

[Reactie gewijzigd door kidde op 22 juni 2020 20:46]

We hebben ook al tijden octacores in smartphones op ARM, terwijl ze in laptops nog een echte zeldzaamheid hebben en vaak grote koelers behoeven.
2x4 cores van het big.LITTLE principe maken het nog geen octocore. Er zijn er altijd maar 4 actief.
Dat is niet juist. big.LITTLE kan van zowel de big als de LITTLE cores tegelijk gebruik maken in Heterogeneous multiprocessing mode.

Check o.a. Wikipedia.
Ze hebben niet voor Fujitsu's ARM processoren gekozen in plaats van x86, maar als opvolger van Fujitsu's eigen SPARC processoren.
Inderdaad; wat ik zo kan vinden en or nog van weet:

SPARC is een RISC instructie-set, de architectuur kwam van Fujitsu en Sun. Ze maken SPARC al sinds 1986! Het is uit een tijdperk dat x86 concurrereerde met o.a. SPARC, MIPS, Alpha, Itanium, Power en ARM.

Sun werd uiteindelijk overgenomen door Oracle, volgens mij vooral voor Java.

Oracle stootte vervolgens alle 'bij-projecten' van Sun af of verkwanselde ze; bijv. OpenOffice, Solaris en MySQL. Oracle concentreerde zich vervolgens op de Java rechtzaak tegen Google.

Inmiddels was er veel consolidatie geweest; x86_64 (AMD extensie op Intel x86) en ARMv8 wonnen.

Dus Oracle zag ook geen heil meer in SPARC, en Fujitsu stond er alleen voor.

Omdat het voor Fujitsu niet mogelijk was een x86-licentie te krijgen, was de keuze voor SPARC of een andere RISC-instructieset.

Op ARMv8 kan je een architectuur-licentie nemen, dan mag je zelf je complete CPU ontwerpen met de ARMv8 instructieset.

Dus daar koos Fujitsu voor: x86 was nooit een keuze, want ze konden er geen licentie op nemen, en SPARC bloedt langzaam dood.

Ed: En ARM is natuurlijk tegenwoordig Japans net als Fujitsu zelf, dus ze zijn minder afhankelijk van het buitenland en eventuele handels-perikelen.

[Reactie gewijzigd door kidde op 22 juni 2020 19:12]

Je noemt het twee keer, maar het ontbreekt even aan motivatie. Waarom was een x86 licentie onmogelijk?
Aan de x86 en de x64 licenties zitten zeer strikte export normen. Deze mogen niet zo verhandeld worden.
En je heb beide nodig. x86 is van Intel en de x64 uitbreiding van AMD.
Dat wat er door AMD als tussenoplossing gebruikt wordt richting China is maar een beperkte code set.
Right. AMD heeft een licentie gegeven aan THATIC in China. Dat is niet alleen de instructieset, maar een compleet Zen1 ontwerp voor die instructieset. In vergelijking met China is Japan de trouwste Amerikaanse bondgenoot, en Fujitsu heeft echt geen kant-en-klaar ontwerp nodig. Die maken al lang zelf server CPU's voor de snelste supercomputers. Een licentie was echt voldoende geweest.
Je noemt het twee keer, maar het ontbreekt even aan motivatie. Waarom was een x86 licentie onmogelijk?
Intel verstrekt geen x86 licenties. Dat AMD die wel heeft is voor zover ik weet op de een of andere manier historisch zo gegroeid. AMD heeft met zijn chinese partner een bijzondere constructie moeten toepassen zodat die partner toch x86 chips (Zen) kon gaan maken zonder zelf licenties te hebben, en zonder de licentievoorwaarden die voor AMD gelden te schenden.
In het Wikipedia artikel voor x86 staat het volgende:
Open: Partly. For some advanced features, x86 may require license from Intel; x86-64 may require an additional license from AMD. The 80486 processor has been on the market for more than 20 years and so cannot be subject to patent claims. The pre-586 subset of the x86 architecture is therefore fully open.
Het is dus moeilijk of zelfs onmogelijk om een moderne x86-64 compatibele processor te maken zonder een licentie te verkrijgen van Intel en/of AMD. In de praktijk geeft geen van beide bedrijven een licentie uit, dus moet er wel gebruik gemaakt worden van een andere instructieset zoals ARM, RISC-V, POWER, SPARC of MIPS.
Ben niet 100% van mijn zaak maar wat ik met een beetje Googlen vind is voornamelijk energiegebruik.
Volgens mij is een ARM per MHz goedkoper te runnen. Als je 7,3 miljoen CPU-cores hebt tikt dat wel hard aan.
Volgens het artikel is het tegenover de vorige nummer één: 2,8x hoger verbruik, 2,5x hogere performance. Da's minder efficiënt dus. ook nagenoeg 3x meer cores, dus je hebt meer synchronisatiewerk tussen de nodes.
Aan de andere kant zal een groot deel van de flops van die 2e uit de gpus komen. Deze lijkt alleen maar cpu-cores te hebben. Dat is over het algemeen veel flexibeler inzetbaar. Bij zo'n gpu wordt doorgaans heel veel rekenkracht niet inzetbaar als hij niet heel veel blokken van data heeft waarop hij dezelfde opdracht uit kan voeren. (SIMD)
In vergelijking met summit. Maar die draait geen x86.

Arm kan wel zuiniger zijn overigen, maar dat is meer in het low power segment. En dat is dit bepaald niet.

[Reactie gewijzigd door Countess op 22 juni 2020 18:38]

Dat is dus niet de reden. Zoals in het artikel staat is de performance per wat net iets lager dan de vorige nummer 1 die geen arm gebruikt.
Wordt performance niet exponentieel duurder in wat?
In hetzelfde systeem alleen ;)
Bedoel je datt?
Ik bedoel is de laatste 10% performance die erbij komt niet duurder dan dr eerste 10% performance in energieverbruik?
Dat is praktisch altijd zo natuurlijk, maar het hangt af van waarmee je het vergelijkt.
Het ene systeem kan efficiënter zijn dan een ander systeem.
Waarom hebben ze hier voor ARM gekozen ipv x86? Dat mistte ik een beetje.
ARM KAN efficiënter zijn dan x86. De rek is er bij ARM nog lang niet uit en de winsten zijn tot nu toe veel groter dan op het x86 platform.

Het zal mij niet verbazen als ARM een belangrijke positie in de toekomst gaat krijgen als er met x86 CPU's niet snel meer prestatiewinst geboekt gaat worden.
Er is een reden dat de nieuwe in aanbouw super computers op zen4 draaien en niet op intel or arm.
rond 2010: ARM is terug te vinden in je smartphone.
2020: De meest krachtige supercomputer heeft ARM processors
2030: ARM in alle computers.
Tijd gaat snel... Ik ben benieuwd hoe het gaat verlopen.
Als je het artikel leest in plaats van alleen de kop dan zie je dat het zo'n vaart nog niet loopt.
Die nummer 2 en 3 schalen best goed mee, ik ben benieuwd als de nummer 2 het zelfde aantal cores heeft wat dat scheelt qua performance. het lijkt om een ongeveer factor 3 te gaan ongeveer.
Snap de weerstand tegen deze opmerkingen niet. Apple gaat schijnbaar binnenkort over met de eerste machines.
nee het is geen weerstand, ik doelde op het feit dat de performance bijna hetzelfde is (met factor 3 ongeveer)
Factor 3 hetzelfde?
ongeveer 3x zoveel cores,ongeveer 3x zoveel vermogen, ongeveer 3x zoveel TFlop/s
Mijn schrijven is niet altijd duidelijk. Is dit helderder?
Inderdaad een klein foutje
28.000 Watt of
28.000.000 Watt 😬😬😬
7.3 miljoen cores. Dat geeft een leuke resolutie in de Windows Task Manager!

https://www.reddit.com/r/...rect_way_to_use_a_64core/
2 jaar nieuwer en toch hoger verbruik per tflop, dat is niet een hele overduidelijk goede business case. Is er een specifieke reden om te kiezen voor ARM of is dit gesponsord door ARM of een ARM chipfabrikant?
2 jaar nieuwer en toch hoger verbruik per tflop, dat is niet een hele overduidelijk goede business case. Is er een specifieke reden om te kiezen voor ARM of is dit gesponsord door ARM of een ARM chipfabrikant?
Met meer generieke (niet speciaal voor hoge FLOPS ontworpen) hardware is wel te verwachten dat het verbruik per TFLOP hoger is. Maar het zal eenvoudiger en goedkoper zijn om aan de componenten te komen en meer kans op eenvoudig upgraden wanneer snellere CPU's beschikbaar komen.
Can it run Crysis?
Can it run Crysis?
Nee.
1993
Intel Paragon XP/S 140 Supercomputer
DoE-Sandia National Laboratories, New Mexico, USA
143.40 GFLOPS

2019
Apple A13 Bionic
(iPhone 11 en iPhone 11 Pro en 11 Pro Max)
154,9 GFLOPS

Conclusie: over 26 jaar de Fugaku in onze zak :)
Is dit dan niet wat sneller met Moore in je gedachten? :)
Moore's law gaat al een paar jaar niet op jammergenoeg...
Sinds wanneer niet Moore dan?
Zou Apple hier aan refereren tijdens de Keynote van vanavond waar ze, als de geruchten kloppen, een ARM-based MBP gaan aankondigen? :+
Misschien dat de prijs hetzelfde is? :+
Niet onmogelijk, het zet het argument kracht bij potentieel. Zeker omdat ze voor Mac’s niet de enorme overhead hebben als een supercomputer, dus kan de performance per watt wel eens positief uitvallen.

En aangezien Apple aan de wieg van ARM stond ooit, is dat een leuke bonus. (Qua marketing waarde)
Wist niet dat Apple aan de wieg stond van ARM. Grappig stukje Apple-historie. Dank voor de toelichting.
But, can it run crysis? :+

Ik vind het heel indrukwekkend dat de ARM architectuur zo'n vooruitgang geboekt heeft. Maar zitten er dan nog nadelen aan, ten opzichte van de 'normale' x86 architectuur?

Ik denk dat je namelijk altijd wel software moet herschrijven om gebruik te maken van dergelijke supercomputers.
Wat is er "normaal" aan een x86? Als ik naar de lijst in het artikel kijk zie ik ook een aantal Power9's en, waarschijnlijk, een specifiek voor deze computer ontworpen processor (Sunway).
Normaal, als in de zin van: veel mensen hier zijn opgegroeid met x86 computers....maar ik had het tussen haakjes gezet, om dezelfde reden die jij noemt.
Als jij crysis gecompileerd krijgt op ARM? Maybe :)
Via een emulator, crysis kan op x86 cpu cores draaien, weet alleen niet goed of dat wel goed draait op distributed cores :D
Emulatoren die een andere architectuur moeten doen performen doorgaans uitzonderlijk slecht. Zeker als het om performance vretende toepassingen gaat :)
Ik denk als je een emulator kunt bouwen die overweg kan met 7,299 miljoen cores verdeeld in een cluster dat je altijd lag zult hebben :D maar word wel kleiner.
Met dynamische of statische hercompilatie kan dat prima. Maar dat kan wel een lastig proces zijn, waar ik zelf ook goed naar moet kijken.
Ik zie nu pas de opmerking. Ik dacht dat ik grappig was net _/-\o_ _/-\o_
Fun fact: 100% van deze top-500 lijst draait Linux, ook deze nieuwe super computer. Dezelfde Linux als op je Raspberry Pi of in de boordcomputer van je auto (met een andere configuratie weliswaar).

Op dit item kan niet meer gereageerd worden.


Nintendo Switch (OLED model) Apple iPhone 13 LG G1 Google Pixel 6 Call of Duty: Vanguard Samsung Galaxy S21 5G Apple iPad Pro (2021) 11" Wi-Fi, 8GB ram Nintendo Switch Lite

Tweakers vormt samen met Hardware Info, AutoTrack, Gaspedaal.nl, Nationale Vacaturebank, Intermediair en Independer DPG Online Services B.V.
Alle rechten voorbehouden © 1998 - 2021 Hosting door True