Je kunt wel een supercomputer bouwen bestaande uit GPU's en nog relatief goedkoop ook als je het handig doet, maar dan moet je software er ook op lopen.
Dat betekent simpelweg nieuwe code schrijven. Daar investeren ze in NL gewoon niet in.
Ook internationaal heeft het wat tijd gekost. Daardoor stond China op nummer 1 positie gedurende een jaartje, omdat het westen nog niet massaal over was naar die GPU.
In principe zou de NL overheid 2 supercomputers willen bouwen. Eentje die alleen floating point kan doen en dingen als matrixcalculaties. Dat is dan zo'n gpu ding. En een aparte machines met nodes met enorm veel RAM, zeg een TB of 2 per node minimaal en behoorlijk wat integer crunching power.
Idealiter doe je 3 machines.
1 voor de GPU crunching double precision
1 klein clustertje met maximale RAM per node,
zeg maar aantal stand alone machines met 2TB ram per stuk.
1 groot cluster, net zo groot als gpu cluster dat focused op alleen integer prestatie en niet theoretisch gedoe doet met AVX of een ander dom vector formaat. Gewoon puur integers.
Denk aan een netwerkje met FDR infiniband + 48 core AMD machines 6180 SE die je nu voor prikkie koopt. Dat is wel 120 Ghz aan integer crunching power voor 3k dollar per stuk.
Gewoon desnoods 2e handjes kopen. Nog goed voorbeeld. L5420 machines. Dat is een core2 processor en low power. Bouw je voor 200 dollar per node nu. Vreet onder full load dus maar 170 watt hier.
Een 2 socket intel machine met 16 cores is sneller dan dat maar 10x duurder en maar factor 2.5 sneller dan 1 zo'n L5420 machine.
Je floating point machine komt dan nooit meer hoog op zo'n lijst maar je faciliteert dan 3 velden van rekenkracht.
Voor die 2 TB machines kun je bijvoorbeeld iets ouder model inslaan met 8 sockets x64 cpu's. Gewoon RAM maximaliseren. Dat zullen de duurste nodes zijn. Daar hebben ze er nu stuk of 5 van momenteel (512GB ram power6 nodes).
Probleem is altijd hetzelfde bij de NL overheid. Ze plannen zo'n computer 2 jaar tevoren ipv paar maanden tevoren.
Dat is begrijpelijk maar zo koop je niet goedkoop in. Bovendien moet alles nieuw.
Dat is ook niet handig, behalve voor de floating point.
Je kunt heel goedkoop integer cores inslaan op dit moment, dus NIET gevectoriseerde integers, maar dan wil je niet nieuwste E5 kopen, want die is VEEL TE DUUR.
Zo raak je snel door je geld heen als je dure processors koopt.
Je maakt gewoon ruimte vrij, stroom is zo geregeld tenslotte (paar megawatt is op DIT moment geen enkel probleem ze hebben toch al overcapaciteit).
Gewoon als nieuwe GPU uit is dan probeer je die goedkoop in te slaan en bouw je een floating point machine. Dus elk van de 3 machines apart oplossen.
Ze komen bij de NCF ook wel tot die conclusie naar ik aanneem, al kost het weer heel veel jaartjes, ze hobbelen wat in het kielzog van de NCSA altijd
De NCSA heeft het ondertussen al gedaan in USA. Die hebben gesplitst naar 2 machines, precies zoals ik hierboven schrijf.
Voor NL laat ik 1 rekenvoorbeeld geven. Meestal hebben ze 20 miljoen budget.
We gebruiken 8 miljoen euro voor floating point. Daarbij doe je gewoon een open bid voor. Niks geen domme randvoorwaardes alleen een paar floagint point matrix achtige programma's van je wil je gedemonstreerd zo snel mogelijk voor een bedrag van 8 miljoen euro.
4 miljoen euro sla je Harddisk storage voor in. Doe je ook met open bid. laagste prijs per gigabyte is altijd nieuwste harddisk meestal dus valt ook alleen met open bid te doen. Het moet natuurlijk connecten naar de beide machines voor een gedeelte. Dat valt vast op te lossen.
We gebruiken dan 2 miljoen euro voor de aanschaf van machines met maximaal aantal RAM. De prijs per node valt altijd enorm tegen. Ik vermoed dat je rond de 20 machines ervoor krijgt.
De prijs per gigabyte bij de grote dimms is enorm prijzig. Met wat geluk richting 40 machines.
Dan heb je dus al minimaal 14 miljoen uitgegeven en ga je kijken wat je goedkoop kunt inslaan aan integer power.
Dat zijn meestal '2e handjes' op ebay ,weliswaar meestal nieuwe componenten die nu goedkoop massa geproduceerd worden maar die iets lower power zijn.
Voorbeeld is op dit moment in aanbieding nog net 48 core AMD machines. Die bouw je voor 3000 euro per stuk. Fiks wat RAM erin ook zeker 64 GB.
Dan nog netwerk. Onderscaht nodeprijs niet. Dat is zeker 500 euro per port als je massaal inslaat. Desnoods ga je terug naar QDR infiniband als het te prijzig wordt met FDR.
6 miljoen euro / 3500 euro per machine = 1714 nodes
Al die manufacturers hebben altijd enorme voorraden aan oude cpu's. Als een machine van dat netwerk (integers) kapot gaat, dan gooi je die machine 'weg' gewoon.
Niks vereisen van manufacturer dat hij voorraad aanhoudt. Je wilt juist die oude junk opkopen.
1714 nodes * 48 cores = 82272 cores overigens. Voor goede orde dat is 328 Tflop floating point ook, overigens door multiply-add te tellen als 2 flops, wat die gasten altijd doen,
dan kun je net doen alsof het 656 Tflop is virtueel.
Dus de 'integer machine' is alleen al op floating point gebied dan al factor 5-10 keer sneller dan de huidige supercomputer, door gewoon slim in te kopen voor maar 6 miljoen euro.
Hoeveel je krijgt overigens voor die 8 miljoen euro is onduidelijk. Ik gok op rond de 2+ Petaflop dat je er nu voor krijgt.
Je wilt zo iets snel bouwen dan. Probleem is dat dit soort commissies eens per zoveel maanden vergaderen. Ze zijn niet snel genoeg hiervoor.
Als je nu een offerte laat opstellen en over 4 maanden pas gaat kijken wat er is binnengekomen, dan heeft de hardware werkelijkheid je allang weer ingehaald.
Je wilt je eisen pakket zo veel mogelijk minimaliseren om zoveel mogelijk crunching geweld in te slaan, terwijl je geen theoretische getallen wilt maar praktische performance van je software.
Belangrijkste is wel haast maken met inslaan op het moment dat er een paar fabrikanten net uit zijn met iets nieuws of als iets 'preisguenstig' is 2e hands (en met name dumping van vereiste voorraden). De floating point machine sla je in zijn geheel nieuw in, wegens bandbreedte vereisten en het feit dat die hardware toch nieuw moet zijn. De overige 2 machines die kun je veel handiger inslaan hoor, maar dan moet je ook wel wat zelf gaan bouwen. Dat zijn toch standaard componenten - dus dat lukt wel. De i/o is ook altijd nieuw dus die sla je ook regelmatig nieuw in. Verder is het handig om i/o niet maar eens per 6 jaar in te slaan ofzo.
Handiger is om gewoon een vast budget per jaar te hebben en gewoon steeds wat nieuwe partities te bouwen, soms al vooruitlopend op een supercomputer die nog gebouwd moet worden. Zodat je op een constante manier de harddiskruimte goedkoop inslaat en dan niet over 5 jaar hopeloos tekort komt.
Wat je typisch ziet is dat als commissies een integer machine gaan bouwen dat ze dan de duurste e5 weer nemen @ 16 cores per node, wat dan natuurlijk weer 6000 euro per machine gaat kosten voor maar 16 cores.
Wat dan maar rond de 2.8Ghz * 16 = 44.8 Ghz aan integer power levert, versus
dus bovenstaande Magny Cours die levert 120 Ghz en voor 3500 euro maximaal. De meeste integer software is maar paar procent sneller op de Sandy Bridge E5's cores en de meeste software profiteert ook niet zoveel van hyperthreading, terwijl op de 'benchmarks' intel daar zijn slag slaat. Verder turboboost staat altijd uit op grote clusters, dus wat je thuis voor elkaar daar krijgt aan boost lukt niet voor clusters, gewoon omdat dat niet stabiel test.
Dus allerlei truuks waarmee de nieuwe processors 'snel' lijken, die vallen weg op clusters. De commissieleden houden daar nooit rekening mee.Er wordt door de fabrikanten handig gelobbiet simpelweg.
We zullen zien hoe slim ze zijn dit keer!
Er is wel sprake van langzame vooruitgang - maar het blijft natuurlijk een traag vergaderclubje dat altijd achter de feiten blijft aanlopen.
1 hard feit kan niemand onderuit en dat is dat ze gewoon niet zo goedkoop KUNNEN inslaan als bepaalde Amerikaanse organisaties, simpelweg omdat die veel bragging rights altijd met zo'n gigantische nieuwe machine weten te vergaren en als je kleinere machine bouwt met minder bragging rights - dan betaal je meestal de hoofdprijs.
[Reactie gewijzigd door hardwareaddict op 22 juli 2024 15:42]