Nvidia toont Tesla-systemen op basis van Fermi-architectuur

Nvidia claimt dat zijn nieuwe Tesla-systemen, met gpu's, dezelfde parallelle prestaties bieden als computers op basis van cpu's, voor een tiende van de prijs. De systemen zouden ook tot 20 keer zuiniger zijn dan computers die cpu's inzetten.

Nvidia heeft zijn nieuwe Tesla 20-serie van gpu's aangekondigd, die gebruik maken van de Fermi-architectuur. De architectuur is met name toegespitst op paralelle dataverwerking en kan volgens Nvidia onder andere ingezet worden voor rekenintensieve taken als raytracing, video-encoding of virusscannen. Systemen met een dergelijke gpu aan boord zouden dezelfde prestaties neerzetten als clusters op basis van cpu's, terwijl ze tot tien keer zo goedkoop zijn. Tevens zouden de prestaties per watt tot 20 maal hoger liggen. De gpu's ondersteunen de IEEE 754-2008-standaard voor double precision floating point operations en zijn voorzien van ecc. Met name belangrijk is de ondersteuning voor de programmeertaal C++.

De Tesla C2050 en C2070 GPU Computing Processors, zoals Nvidia ze noemt, beschikken over respectievelijk 3GB of 6GB gddr5-geheugen. Per stuk bieden de gpu's een rekenkracht van tussen de 520 en de 630 double precision Gflops. De C2050 en de C2070 kosten respectievelijk 2499 en 3999 dollar. De systemen, de S2050 en de S2070, nemen 1U aan ruimte in beslag en kunnen maximaal vier videokaarten huisvesten. De S2050 en de S2070 kosten respectievelijk 12.995 en 18.995 dollar. De videokaarten en de systemen zullen vanaf het tweede kwartaal van 2010 beschikbaar zijn. Verder geeft Nvidia aan dat de consumentenversies van de videokaarten in het eerste kwartaal van 2010 te koop zijn.

Reacties (38)

Left 17 november 2009 13:21

Ik blijf toch wel met een heleboel vragen zitten:
Als ik het goed begrijp dan hebben deze systemen geen cpu maar in plaats daarvan 1 of meerdere gpu's?
Welk OS draait hier dan op?
En wat voor software is er eventueel al beschikbaar?

Verder natuurlijk een mooie ontwikkeling als je veel rekenintensieve simulaties draait e.d.

jj71 @Left • 17 november 2009 14:31

Volgens mij is zo'n systeem min of meer gewoon een PC (met een gewone x86 processor) en bijvoorbeeld vier van die Tesla-kaarten. Een Tesla-kaart is net als een andere nVidia-videokaart met een GPU erop, maar dan zonder de elektronica om er een beeld van te maken voor een monitor.

Je kunt door middel van CUDA of OpenCL (niet te verwarren met OpenGL) de GPU programmeren.

Toepassingen zijn dingen waarvoor ook supercomputers gebruikt worden, bijvoorbeeld het doorrekenen van wetenschappelijke modellen, ray tracing, of andere toepassingen die veel rekenkracht nodig hebben.

Je kunt niet zomaar bestaande software draaien op een GPU, de software moet daar speciaal voor geschreven zijn. Dus je kunt er bijvoorbeeld bestaande spellen voor de PC niet ineens met 1.000 FPS ofzo op spelen...

Op de website van nVidia kun je veel informatie vinden over hoe zo'n systeem in elkaar zit, kijk daar eens als 't je interesseert.

[Reactie gewijzigd door jj71 op 28 juli 2024 10:09]

ReCreator @Left • 17 november 2009 13:28

Het zal hier gaan om meerdere GPU's in een enkel systeem. Welk OS hiermee omgaat is mij ook niet duidelijk, maar het zal ongetwijfeld CUDA moeten ondersteunen.

CUDA wordt al redelijk ondersteund in de sector en er zijn al software en devkits voor beschikbaar.

http://www.nvidia.com/object/cuda_what_is.html

Left @ReCreator • 17 november 2009 13:39

Er zijn idd al devkits voor Cuda. Maar die draaien voor zover ik weet alleen op een Windows of Linux OS ...
Het is mij niet duidelijk waarmee je nou eigenlijk aan de slag kan op deze nieuwe Tesla systemen

Verwijderd 17 november 2009 12:50

Hierbij heb ik toch een opmerking, zelf ben ik geen kenner m.b.t. servers maar dit vroeg ik me af:

Is het niet beter meerdere, minder krachtige servers te gebruiken i.p.v. één zo'n server van 13k ? Of is het onmogelijk om gelijkaardige performance te halen voor deze prijs?

toevoeging: ik bedoel dan wel met veel goedkopere GPU's erin waar je nu reeds dergelijke handelingen mee kan maken.

grtz

[Reactie gewijzigd door Verwijderd op 28 juli 2024 10:09]

Lourini @Verwijderd • 17 november 2009 12:53

Als ik me niet vergis is dit puur voor renderen en dergelijke...
Voor een beetje power heb je wel zoiets nodig

knirfie244 @Lourini • 17 november 2009 12:56

Hoezo puur voor renderen? GPGPU (General Purpose computation on Graphical Processing Units) is bedoeld om allerlei taken uit te kunnen voeren. Een mooi voorbeeld hiervan is SETI@home wat tegenwoordig ook op GPU's kan draaien, en daarop een vele malen hogere score haalt dan op CPU's.

Vooral taken met veel parallele processen en floating points doen het heel erg goed op GPU's. Een voorbeeld van zo'n soort taak is inderdaad rendering, maar er zijn zoveel meer mogelijkheden. Zie bijvoorbeeld het eerder genoemde SETI@home, en vele andere zware natuurkunde, medische, etc simulatie/computatie software.

[Reactie gewijzigd door knirfie244 op 28 juli 2024 10:09]

Verwijderd @knirfie244 • 17 november 2009 15:57

Rekenen is natuurlijk maar een deel van het verhaal. Uiteindelijk moet er ook I/O plaatsvinden omdat de berekeningen natuurlijk op data moeten plaatsvinden.
In ons geval zou het niet zoveel brengen omdat we en zowel veel CPU cycles nodig hebben maar ook nog eens veel I/O. In dat geval worden dedicated clusters weer een optie.

In feite wordt I/O altijd de bottleneck als je naar x cores/nodes/gpu's gaat.
De overhead van het verdelen gaat een steeds grotere rol spelen todat je
op het break even punt komt dat meer resources de boel alleen maar langzamer
maken.

Btw onze applicatie fractured chip designs.

StackMySwitchUp @knirfie244 • 17 november 2009 13:20

Renderen wordt normaliter ook alleen op CPU's gedaan.
Ik zou best 1 zo'n tesla bak willen.. zou mijn rendertijden reduceren tot een fractie van een fractie

_Thanatos_ @StackMySwitchUp • 17 november 2009 16:43

Ligt eraan wat er gerenderd moet worden. Animatiefilms hebben features nodig die GPU's niet ondersteunen of niet in voldoende detail/precisie kunnen bieden. Daardoor (neem ik aan) wijkt men uit naar CPU's. Maar dingen waarbij het visuele minder belangrijk is, en het juist erom gaat dat een scene snel gerenderd kan worden op bijv extreme resoluties, zijn GPU's best bruikbaar. Natuurkundige of medische visualisaties bijvoorbeeld.

ReCreator @Verwijderd • 17 november 2009 12:53

Het is onmogelijk om met dat budget meerdere servers in te zetten (voor hetzelfde doel) wat dan ook nog sneller is dan deze oplossing, en natuurlijk ook een stuk minder zuinig dan dit systeem.

Neus @ReCreator • 17 november 2009 12:57

Zonder benchmarks kan je daar helaas geen uitspraak over doen. Met 13k kan ik prima 14 Mac Mini Servers kopen (met C2D 2.53Ghz en 4GB geheugen per stuk) en deze in een XGrid plaatsen. Dat kàn sneller zijn dan wat Nvidia aanbiedt.

Edit: helaas doet mijn MMS maar 3.46Gflops.

[Reactie gewijzigd door Neus op 28 juli 2024 10:09]

knirfie244 @Neus • 17 november 2009 13:00

"Het is onmogelijk om met dat budget meerdere servers in te zetten (voor hetzelfde doel) wat dan ook nog sneller is dan deze oplossing, en natuurlijk ook een stuk minder zuinig dan dit systeem."

Voor het doel waar GPGPU's voor bedoeld zijn, is een CPU nooit sneller.

dion_b Moderator Harde Waren @Neus • 17 november 2009 13:02

Voor CPU-intesive apps wel, maar de hele bestaansrecht van deze systemen is juist GPU-intensive vector berekeningen. En dan is de Mac mini met slappe IGPtje volstrekt niet opgewassen tegen iets als dit, ook niet als je er 14 van neerzet

appel437 @ReCreator • 17 november 2009 14:08

je kan voor dat geld over een maadje minstens 2 computers in elkaar zetten met 4*HD5970's en een dikke CPU. deze zullen wel minder betrouwbaar zijn in GPGPU berekeningen, maar met de power van deze beesten kan je de berekeningen 4 keer opnieuw doen in de tijd dat de nvidea 1 berekening af heeft. en met berekeningen waar de GPU onggeschikt voor is ben je dan alsnog een stuk sneller.
voor berekeningen op de GPU waarvoor precisie niet belangrijk is ben je dan gewoon 4 keer zo snel.

[Reactie gewijzigd door appel437 op 28 juli 2024 10:09]

Antipater @appel437 • 17 november 2009 16:48

Voor veel toepassingen is verlies van precision geen optie, bovendien volgen de meeste GPU's niet helemaal de gangbare floating point standaarden. De grootste hindernis zijn echter de tools, api's en het programmeermodel. Dit is de reden waarom de grote animatie studios nog steeds op cpu's draaien terwijl dit bij uitstek een toepassing is voor de gpu.

Voor data-parralelle taken verslaat Tesla als GPGPU met gemak 20 keer een cpu cluster (de cell even daargelaten), dit is niet zo verwonderlijk. Het gaat erom dat Tesla als high-performance computing platform mee kan komen wat betreft tools, api's, etc.

Deadsy @appel437 • 17 november 2009 17:06

Je vergelijking gaat niet helemaal op.

De GPUs die op de professionele kaarten zitten worden vaak ook gebruikt in de normale gaming kaarten. Het verschil is vaak dat op de professionele kaarten ondersteuning gegeven word door de maker die wij op onze Geforce en Radeons niet zullen krijgen.
Tevens zit op de professionele kaarten ook veel meer geheugen iets wat welkom is. Op deze modellen zit bv 3 of 6GB aan geheugen.

Voor server hardware word altijd meer betaald dan voor normale desktop hardware.
Kijk maar eens wat een desktop Intel of AMD CPU kost en wat dan de server versie ervan kost.

Verwijderd @Verwijderd • 17 november 2009 13:02

Er bestaat nog geen enkele GPU met ondersteuning voor IEEE 754-2008 en generieke pointers. Dus de Fermi-architectuur is redelijk revolutionair wat dat betreft.

Dat gezegd zijnde, het blijft nog steeds een GPU-architectuur, die lastig te programmeren valt. Zelfs de best geoptimaliseerde GPGPU-applicaties halen amper ooit een tiende van de theoretische snelheid.

Een CPU is nog steeds veel flexibeler, en met een quad- of hexa-core heb je heel wat power terwijl dat nog redelijk betaalbaar is.

Domokoen

@Verwijderd • 17 november 2009 13:09

Ik nodig je uit om met een CPU matrix vermenigvuldigingen sneller te doen dan met een GPU... voor dat soort operaties is een GPU zeer geschikt en kan je op 70-80% van de theoretische performance komen.

Zoijar @Verwijderd • 17 november 2009 13:29

Fermi heeft een nieuwe cache, iets dat een zwak punt is op huidige GPUs. Daarmee valt het nog te bezien of een CPU echt wel zo veel flexibeler is. Volgens nvidia levert deze cache alleen al zo'n 5x de performance op voor belangrijke algoritmes als sorting en gathering.

brainball @Verwijderd • 17 november 2009 12:54

misschien is de performance gelijk, maar wat zijn je onderhouds kosten qua energie, ruimte en koeling met meerdere machines? Aanschaf is pas het begin van het kosten verhaal.

Verwijderd @Verwijderd • 17 november 2009 13:12

Clusters zijn overrated.

Nah.. je moet de fragmentatie van je cluster binnen de perken houden.
D'r is een bepaald break-even point, gezien het feit dat clustering een bepaalde overhead met zich meebrengt.

Dus ipv een heleboel kleine nodes te gebruiken is het vaak verstandiger om wat minder nodes met meer rekenkracht te gebruiken, helemaal nu architecturen steeds paraleller worden.

(Ik beheer zelf een cluster.)

Verwijderd 17 november 2009 14:03

520 en de 630 double precision Gflops. De C2050 en de C2070 kosten respectievelijk 2499 en 3999 dollar.

ATI HD5970 = 4640 GFlops voor 599 dollar. (http://en.wikipedia.org/w...graphics_processing_units)

Lijkt me toch niet zo makkelijk om voor NVidia te kiezen, zeker nu beiden openCL ondersteunen.

Certain statements in this press release including, but not limited to, statements as to: the benefits, features, impact, performance and capabilities of NVIDIA Tesla 20-series GPUs, Fermi architecture and CUDA architecture; are forward-looking statements that are subject to risks and uncertainties that could cause results to be materially different than expectations

En het is dus weer een papieren launch. Q2 2010.

Domokoen

@Verwijderd • 17 november 2009 14:10

De HD5970 is een consumentenproduct, en ondersteund geen ECC geheugen. Fermi ondersteund wel ECC, wat cruciaal is voor gebruik in clusters. De 4.6TFlops die jij aanhaalt is single precision flops, en die vergelijk je met de double precision flops... de single precision flops is 1.2TFlops voor Fermi. Bovendien kijk jij naar een dubbele kaart (2 GPU's), waardoor je het niet zomaar x2 mag doen (want je moet je software aanpassen daarvoor, wat erg complex is).

Oftewel: Vergelijk een HD5870 (533GFlops double) met deze Tesla (520 tot 630 GFlops double). Juist, ze zijn vergelijkbaar, maar de Tesla ondersteund ECC geheugen en virtual function pointers

mjtdevries @Domokoen • 17 november 2009 16:22

Wat heeft ECC geheugen in hemelsnaam met clusters te maken???????

TGEN @mjtdevries • 17 november 2009 19:21

Betrouwbaarheid van je berekeningen. Als bits gaan flippen in waardes die je tussentijds berekend hebt, kan dat afhankelijk van het gebruikte algoritme het eindresultaat significant verschillen van het resultaat zonder die bit error. Je weegt daarom ook de numerieke stabiliteit van verschillende algoritmes tegen elkaar af, de performance in ogenschouw nemend; als je ECC hebt, kan je een potentieel minder numeriek stabiel algoritme kiezen met betere performance.

Verwijderd @Domokoen • 17 november 2009 14:19

Je mag mij uit leggen hoe je je software moet aanpassen, als in zon fermi server ook meerdere kaarten gaan? Dat is precies het zelfde. Waar je gelijk in hebt is dat je individuele cores met elkaar moet vergelijken en daarna pas hoeveel je er in zon behuizing kwijt kan. Stel in beide kunnen 4 kaarten. Dan is ATI in het voordeel omdat die daar dan 8 GPU cores in kwijt kan.

Daarbij doet GDDR5 ook error correcting. Misschien niet zo ver als fermi gaat, maar daarom doet het nog steeds error correcting.

Luxx @Verwijderd • 17 november 2009 14:21

Omdat deze GPGPU systemen vaak, zoals eerder genoemd, in de praktijk niet in de buurt van hun theoretisch maximum komen, is het aantal GFlops vergelijken zeker geen betrouwbare manier om de reallife prestaties te voorspellen. nVidia heeft met z'n nieuwe fermi concept juist heel hard ingezet op GPGPU ideen en een betere programmeerbaarheid van't geheel. Het beide ondersteunen van openCL is natuurlijk op papier wel waar maar nergens wordt iets gezegd over efficientie en prestaties in openCL.
Met bovenstaande prijzen zullen deze systemen wel vooral gekocht worden door mensen die zich iets dieper verdiepen in de materie dan enkel het bekijken van een aantal Gflops.

gbh @Verwijderd • 17 november 2009 14:25

de stream processors van ati liggen in clusters van 5, die halen alleen hun maximum als ze alle 5 met hetzelfde bezig zijn, als dat niet zo is kan je het aantal GFlops delen door 5

BitchCrew 17 november 2009 13:02

Wat bedoelen ze met consumenten versies?

de geforce dan?

Mag ik hopen van wel

DarkJack @BitchCrew • 17 november 2009 15:49

GeForce 300 series. Fermi is CUDA 3.0 trouwens, die idd direct ondersteuning biedt voor C++, meer bepaald directe integratie met Visual Studio.

omeaart 17 november 2009 13:48

Wij hebben hiermee mogen spelen op de universiteit tijdens een vak parallel computing. De server draait gewoon een Linux OS. Je schrijft je code in (een aangepaste soort) C en runt dat op de server. Daarbij worden delen van de code parallel op de GPU uitgevoerd.
We haalden enorme prestatiewinst tov een 16-core machine.

Verwijderd 17 november 2009 14:25

Omdat deze GPGPU systemen vaak, zoals eerder genoemd, in de praktijk niet in de buurt van hun theoretisch maximum komen, is het aantal GFlops vergelijken zeker geen betrouwbare manier om de reallife prestaties te voorspellen.

Een GPU waarvan beweerd wordt dat hij over minstens een half jaar uitgebracht wordt, met virtuele specificaties, wordt vergleken met een product dat morgen te koop is. Beiden hebben theoretische waarden. Als Nvidia kaarten-eigenaar ben ik toch meer geneigd naar ATI te gaan als ik ga shoppen voor GPC-GPU kaarten.

nVidia heeft met z'n nieuwe fermi concept juist heel hard ingezet op GPGPU ideen en een betere programmeerbaarheid van't geheel.

Dat is waar en daar zijn we het over eens.

Het beide ondersteunen van openCL is natuurlijk op papier wel waar maar nergens wordt iets gezegd over efficientie en prestaties in openCL.

Dat kan zo zijn, ATI heeft daarbij veel te winnen als ze het goed doen.

Met bovenstaande prijzen zullen deze systemen wel vooral gekocht worden door mensen die zich iets dieper verdiepen in de materie dan enkel het bekijken van een aantal Gflops.

Dat zal NVidia dan over ruim een half jaar mogen ervaren.

[Reactie gewijzigd door Verwijderd op 28 juli 2024 10:09]

Deadsy @Verwijderd • 17 november 2009 17:19

Dat jij liever voor een product kiest dat morgen te koop is dan een product dat pas over een maand of 3 4 te koop is kan ik begrijpen. Maar de Radeon kaart die morgen komt is natuurlijk niet te vergelijken met dit systeem. Tenzij AMD/Ati morgen ook met de professionele versie komt.

De bedrijven die zulke systemen kopen die maken geen overhaaste beslissingen (is toch flink wat geld).
Die zullen alle opties overwegen en de voor en nadelen en de prijs tegen elkaar afwegen.
Tevens zullen zei echt niet alleen naar de beloofde specs kijken op een site zoals tweakers maar zullen contact nemen met de leverancier en dingen bespreken en willen natuurlijk benches zien om te zien wat de werkelijk prestaties zijn bij datgene waarvoor hun het systeem willen.

Verwijderd @Deadsy • 17 november 2009 17:42

Deadsy, het gaat er uiteindelijk om of ik de vapourware moet geloven van NVidia of de fysiek aanwezige realiteit van ATI. Na het recente 'This here is Fermi' debacle waarbij een slechte mockup na exposure een 'engineering sample' wordt genoemd is mijn vertrouwen in NVidia serieus beschadigd. Papier is geduldig, zelf mijn benchmark draaien op een beschikbare GPU is wat ik wil voordat ik tot aanschaf overga.

(geen flame)

Sjohnnie83 17 november 2009 21:06

Ha, de Cray XT5 Jaguar heeft 150152 Opteron cores nodig = 150152/6 = 25025 processors (hexa core Opterons). Met 3968 C2070 's behaal je hetzelfde aantal GFlops ~1.5 Penta Flops

Database freak 17 november 2009 22:42

Benieuwd wanneer ïn Q1 de consumentenversies van de videokaarten beschikbaar komen: eind januari of eind maart? Zoa daar 1.5gb of meer geheugen op zitten? 1gb schijnt echt een bottle neck te zijn op 2560x1600 2x of 4x AA. Voor de resoluties daaronder (1920x1200 en lager) vraag ik me af of je zo'n monster nodig hebt of met een GTX285 uit de voeten kan.

abot13 @Database freak • 19 november 2009 10:32

Ik ga er geen geld op zetten dat q1 2010 gehaald gaat worden. aantal en snelheid van de chips die beschikbaar komen schijnen erg tegen te vallen.

Op dit item kan niet meer gereageerd worden.

Nvidia toont Tesla-systemen op basis van Fermi-architectuur

Lees meer

Razendsnel rekenen op je grafische kaart

Reacties (38)

Lees meer

Razendsnel rekenen op je grafische kaart

Reacties (38)

Sorteer op:

Weergave: