T4 is zo knullig in performance dat we het er maar niet over zullen hebben.
Power7 : 6 kilowatt per machine ofzo?
Oh ja en wat is het een prijs van rond de $200k per machine?
Power7 zet in op iets van 4 threads per core, waarmee je dus ook een GPU in de strijd kunt werpen. Een enkele power7 node doet dan ook tegen de teraflop.
Een enkele GPU kaart met 2gpu's erop is ook een teraflop double precision, maar een honderste van de prijs van die power7.
Anyway ik zie de gemiddelde gebruiker die nog een cpu in zijn laptop heeft zitten niet ineens zeulen met een power7 die 6 kilowatt vreet.
Dus deze cpu's kun je echt afschrijven. Ook als je kijkt naar de nieuwste Blue Gene incarnatie van IBM dan is dat behoorlijk capabel als je het vergelijkt met hun oude producten, maar het legt het ook enorm af tegen het GPU geweld.
Feit is dat dit alleen kan concurreren op HPC vlak en afgezien van SARA Amsterdam verkopen ze bijna nergens die power's in Nederland (power6 bij SARA). An sich wordt de HPC markt alleen groter in aantal gebruikers, maar het is volledig intel wat nu de klok slaat.
Met goede redenen. Power7 vreet gewoon te veel stroom voor wat ze leveren en met een prijs van $100k ken ik wel wat alternatieven.
Als integer werk belangrijk wordt ipv floating point, dan is het interessant te vergelijken met cpu's.
Op ebay kun je voor $200 een node kopen van L5420's, 8 cores. die vreten hier 170 watt stroom alles meegerekend (dus ook harde schijf en gerekend vanaf stopcontact).
Als we dan uitrekenen hoeveel van die nodes we kunnen neerzetten voor 6 kilowatt en hoeveel dat kost.
Dat is om precies te zijn 6 kilowatt / 0.170 = 35 nodes.
Dan heb je dus in totaal 280 cores voor $7000
De Mellanox infiniband switch hier heeft overigens precies 36 ports. Hoe toevallig en de $60 moederbordjes op ebay voor deze L5420's die ik ingekocht heb zijn PCI-e 2.0.
Dus bandbreedte 8 GB/s bidirectioneel. Keer 35 nodes.
Voor die $200 heb je dus ook al 8GB RAM per node, maar als je wilt kan er nog vet meer in, tegen een veel lagere prijs dan RAM in de power7 node.
Die 280 cores kunnen uitvoeren aan instructies (dus niet SIMD meerekenen, want matrixcalculaties doen we al met gpu's).
280 * 2.5Ghz * 4 instructies per cycle = 2.8T instructies per cycle inclusief vet betere branch mispredictie dan IBM *ooit* zal of KAN bouwen. power7 kan een heleboel instructies per cycle uitvoeren maar daar runt die software niet sneller van hoor. Je mag blij zijn als je aan de iPC = 1.0 komt voor die 4 threads. Dat haalt praktisch gesproken niet 1 van die threads.
Dus we praten dan over 256 * 1.0 * 4.25 = 1T instrucies per cycle, maar dat haal je dus nooit. Sterker nog je komt niet eens 25% in de buurt.
Maar je dokt wel factoren meer, namelijk factor 14 meer in prijs voor zo'n power7 node dan voor iets wat praktisch factor 8 sneller is zoals in dit voorbeeld.
Als we matrice willen vermenigvuldigen stop je in elke node een GPU. Met FFT hoeven we natuurlijk maar O ( log n ) aan bandbreedte te hebben t.o.v. wat we vermenigvuldigen moeten op de GPU cores.
Vandaar dat dit nu zo in zwang raakt. Maar ze hebben wel allemaal intel cpu's die machines.
AMD bestaat nu nog in de statistieken en op dit moment kun je nog goedkoop 24 core machines bouwen met AMD proccesoren (kijk naar de 8439 op ebay, minder dan $200). Maar zal over paar jaar ook helemaal weg daar zijn, want bulldozer is een gedrocht dat te veel stroom vreet en compleet underperformed.
IBM krijgt dus een hele zware dobber aan intel en Nvidia.
De vraag die ik me al tijden stel is waarom intel niet nvidia overgenomen heeft...
Het probleem van de meeste HPC instellingen is dat ze continue 1 generieke machine willen bouewn. Dat kan gewoon niet meer GPU's zijn TE SNEL voor matrixcalculaties en alles wat gevectoriseerd kan worden. Dus je moet het in 2en splitsen.
Verder willen alle HPC organisaties het nieuwste van het nieuwste.
Waarom niet een keertje gewoon eens een lekker groot cluster bouwen met een goed netwerk en dat heel goedkoop inslaan?
In een kwart van de nodes zet je dan GPU's neer voor de matrixcalculaties. Die hebben dan ook beter netwerk nodig. Maar je wilt wel minimaal infiniband hebben natuurlijk voor de integer nodes.
En laat niemand draaien op die nodes als ze niet hun software goed geparallelliseerd hebben, want DAT is altijd de kern van het probleem.
Overigens NCSA lijkt bovenstaande strategie te gaan volgen. Hun nieuwe machine wordt een mix van gpu's met veel cpu cores.
Lijkt me logisch dat NL dat voorbeeld ook dient te volgen.
Power7 of bluegene is echt out of the picture dan. Gewoon te DUUR per gflop en te ZWAK voor integers.
Een hybride die dus 2 bazen tegelijk kan dienen is niet alleen sneller in floating point maar ook in integers EN kan meerdere onderzoekers tegelijk bedienen. Zo simpel is het. Die staat dan mogelijk wel iets lager op een top 500 sporthall dan een enkelvoudig systeem dat ALLEEN maar gflops levert. Edoch wat is belangrijker, meer van je onderzoekers dienen of minder?
Hoeveel gaan er nog die power7's kopen?
Oh vast nog wel wat. Tot ze met pensioen gaan gok ik.
Oh als we het toch hebben over 2e hands. Volgens mij is het voor integer performance nu een KOOPJE om infiniband in te slaan op ebay - ddr is meer dan zat. Is zelfde latency op pci-e 2.0 als QDR, wel kleinere bandbreedte maar genoeg.
En verder $200 per node inslaan. ECC geheugen ook spotgoedkoop. Hop 8GB ram in elke node. Voor $300 per node ben je klaar.
Daar kun je een MEGA supercomputer van bouwen enkel en alleen voor integer werk met branches, wat nog best veel software nodig heeft. Moeten ze wel omschrijven naar MPI in sommige gevallen, maar dat moest toch al...
De floating point doe je dan simpelweg op gpu's. Is voor aantal enorme omschakeling maar kijk realistisch. SARA is wat is het nu. 60 Tflop ofzo?
Dat zijn 60 gpu's. Zelfs dure Nvidia Tesla's kosten dan minder dan 100k (als je er zoveel inslaat).
Dus Nederland loopt enorm achter omdat ze de omschakeling naar hybride systeem niet gemaakt hebben.
Voor 1 petaflop die haal je simpeltjes met 2000 oude GPU's (de huidige tesla - net als power7 natuurlijk al oud ondertussen). Als je er zoveel inslaat krijg je die simpel voor 800 dollar per stuk ingeslagen.
Dat is 1.6 miljoen aan kosten. Een systeem factor 16 sneller dan de 105 nodes power6 die SARA nu heeft.
Nu zou ik er niet zoveel inslaan. Maar ook heel veel nodes bouwen met snel netwerk.
Probleem is altijd dat weer het nieuwste van het nieuwste ingeslagen wordt, wat het weer extreem duur per node maakt.
Koop toch wat oude doch enorm betrouwbare junk in en blaas iedereen daarmee weg!
Er zijn ook zat alternatieven. Neem nu de al verouderde 6174 cpu van AMD. Heeft toch 12 cores. $500 nu op ebay. Dus prijs van 1 node ligt dan op rond de $4k met veel RAM en QDR netwerk.
Heb je wel 48 cores keer 2.2Ghz en enorm veel RAM op 1 machine.
Wel stroomvreter. ruim 400 watt....
Dat blaast natuurlijk altijd alles weg behalve voor floating point, voor floating point hadden we al een gpu clustertje tenslotte...
Ik zie SARA zo'n 48 core AMD bak niet snel inslaan edoch.
Je kunt grote clusters nu spotgoedkoop bouwen als je weet hoe het te doen. IBM komt echt niet in het verhaal voor als je op de prijs let.
[Reactie gewijzigd door hardwareaddict op 24 juli 2024 13:30]