Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 33 reacties

Nvidia wil met werkstations die zijn uitgerust met een Tesla-gpgpu, de rekenkracht van supercomputers naar de desktop halen. De parallelle rekenkracht van de Cuda-processors moet bovendien betaalbaar worden.

Nvidia noemt zijn nieuwe platform de Tesla Personal Supercomputer. Volgens Nvidia realiseert het platform een veelvoud van de prestaties van een regulier werkstation tegen een fractie van de prijs van een supercomputer. De Tesla C1060-gpgpu, gebouwd rond Nvidia's Cuda-architectuur, vormt de basis van de desktop-supercomputers, die samen met multicore-processors tot enkele Tflops rekenkracht kunnen bieden. Volgens Nvidia zouden de Tesla-desktops daarmee de performance evenaren van een honderd maal duurder systeem. De Tesla C1060-gpgpu is uitgerust met 240 streamprocessors en 4GB gddr3 met een geheugenklok van 800MHz. De kaarten worden in pci-e-x16-slots gestoken.

De systemen met de C1060-gpgpu zijn per direct verkrijgbaar via grote systeembouwers als Dell, Lenovo en Asus. Zo heeft Dell twee systemen met de Tesla aan boord: de Precision R5400 en de T7400. Een systeem met vier Tesla-kaarten zou een kleine zevenduizend euro kosten. De Amerikaanse oem Tycrid noemt zijn versie de Slipstream S4 en prikt daartoe een AMD Phenom X4 9950 in een Nvidia 780a SLI-moederbord. Met 8GB ddr2-geheugen, een terabyte aan opslag en 16GB gddr3-geheugen, verdeeld over de vier grafische kaarten, levert deze pc 3,7Tflops rekenkracht.

Nvidia Tesla C1060
Moderatie-faq Wijzig weergave

Reacties (33)

LOL
derice dat is een goeie ja. RA
Maar je kan dus software draaien die eerst alleen op clusters/supercomps. kon draaien.
en je kan direct in c programmeren.
zie ook dit filmpje voor meer uitleg.http://www.youtube.com/watch?v=l8FUmS1h-5U
is er eigenlijk wel software die gebruik kan maken van de Tesla?

@Derice: zijn deze dingen bedoeld voor games? ik dacht maar aan auto-cad, photoshop, videobewerking, ect....

@Admiral Freebee, ahhh. zie je direct dat ik niets van games afweet. stomme }:O dat ik ook ben... iemand legt een vlaai neem en ik trap er direct in.

[Reactie gewijzigd door dvogel op 19 november 2008 12:27]

Het hele idee achter cuda is om programmeur van een standaard set c (of c++) libraries te voorzien waarbij men niet meer de rechtstreekse en bewereklijke communicatie met de hardware via OpenGL of OpenGL 2.0 hoeft te verzorgen.
Andere software die dit bijv verzorgt is rapidmind.

Als voorbeeld zijn de mathematische BLAS routine (lineare algebra routine die allerhande vector , matrix bewerkingen voor handen nemen) in CUDA geimplementeerd, zodat men bij berekening van grote stelsel lineare vgln direct gebruik kan maken van die voorgekookte routines (grote stelsel vgln. doen zich bijv. voor wanneer men een set PDE's (partiele differentiaal vgln) op een zeer fijn grid wil oplossen)

De daadwerkelijke programmatuur (bijv. voor universiteiten) wordt soms heel specifiek geschreven voor een enkel probleem wat men wil oplossen, waarbij de voorgekookte CUDA routines slechts als tool fungeren.

In de kleine toekomst komen er geheid grote pakketten PDE solvers waarbij men "alleen nog maar" de set van vergelijkingen hoeft op te geven. Aangezien veel mathematische software (bijv matlab) nu al geparralleliseerd is voor multithreading CPU's, denk ik dat de omschakling naar GPU's niet al te veel voeten in de aarde zal hebben.

Uitdagingen die er bijv. nog zijn, zijn het geschikt maken van willekeruige sparse matrix systemen (A*x=b met A vnl bestaande uit nullen, maar met een willekeurige structuur) . A dient dan zo herschreven te worden tot A' zodat efficient gebruik gemaakt kan worden van de parrallel kracht van GPU's

bronnen:
www.rapidmind.net/
www.gpgpu.org
www.nvidia.com/object/cuda_home.html#
www.nvidia.com/object/cuda_what_is.html

edit 1250)
ik lees op gpgpu.org dat wolfram een mathematica versie gaat uitbrengen die std. nvidia gpu's middel cuda ondersteund. Da's heel mooi nieuws
Nu moet ATI implementatie van steam technology ook snel volgen, daar de ATI kaarten in principe meer computing power hebben

[Reactie gewijzigd door vladimirP op 19 november 2008 12:54]

Derice verwijst naar games waarin er wapens zitten die naar Tesla vernoemt zijn ;)
Nee de Tesla heeft geen enkele functie anders dan dat het mooi staat in je pc. De kaart begint bij het insteken automagisch willekeurige complexe berekeningen uit te voeren.
Command & Conquer : Red Alert 1, 2, & 3? ;) :+
Tesla Tanks, Troopers, Coils, etc :P

[Reactie gewijzigd door Derice op 19 november 2008 12:18]

Dus als ik een pc bouw met 2 hd4870x2 ben ik ťn veels goedkoper uit en heb ik 4,8 teraflop aan rekenkracht, wat meer is als deze workstations.

...mis ik ergens iets? :?
Dus als ik een pc bouw met 2 hd4870x2 ben ik ťn veels goedkoper uit...
veel goedkoper af
...heb ik 4,8 teraflop aan rekenkracht...
Je moet deze rekenkracht ook nog nuttig kunnen aanwenden. De rekeneenheden van ATI bestaan uit een vectoreenheid van vier elementen en een scalaire eenheid. Als je software dus enkel met scalaire variabelen werk gebruik je maar 1/5 van de rekenkracht effectief. NVIDIA's rekeneenheden zijn acht elementen breed maar elk werkt op een afzonderlijke scalair. Als er nergens anders een bottleneck zit is de efficiŽntie dus 100 %.
...wat meer is als deze workstations.
dan
Je moet deze rekenkracht ook nog nuttig kunnen aanwenden. De rekeneenheden van ATI bestaan uit een vectoreenheid van vier elementen en een scalaire eenheid. Als je software dus enkel met scalaire variabelen werk gebruik je maar 1/5 van de rekenkracht effectief. NVIDIA's rekeneenheden zijn acht elementen breed maar elk werkt op een afzonderlijke scalair. Als er nergens anders een bottleneck zit is de efficiŽntie dus 100 %.
Het spijt me, maar daar zit je toch echt helemaal fout. R600 heeft inderdaad blokken van 4+1 ALUs, maar deze ALUs zijn allemaal "gewone" scalars, net als bij NVIDIA het geval is. Daarbij zijn 4 ALUs redelijk simpel en is er 1 complexere die ingewikkelder berekeningen kan uitvoeren, maar voor bijna al het normale werk kunnen alle 5 ALUs benut worden.

Het probleem van R600 (en afgeleiden) zit in de opzet van deze blokken, die met VLIW (very long instruction word) opzet hebben. Elk blok kan elke clockcycle 5 instructies uitvoeren, maar dit moet parralel gedaan worden. Als er bijvoorbeeld een sinus van een variabele moet worden berekend en twee vec4's moeten worden opgeteld is dit geen probleem, elke ALU kan benut worden. Het probleem treed op bij afhankelijkheden tussen instructies. Neem deze code
a = b + c
d = e + f
g = a + d
De eerste twee regels geven geen problemen. Geen van de variabelen is afhankelijk van elkaar, dus kunnen ze tegelijk uitgevoerd worden. Om de derde regel uit te voeren moeten echter eerst regel een en twee uitgevoerd worden. Stel nu dat je dit in je shadercode hebt staan, en de rest van je code is afhankelijk van g. Dat betekent dat je voor het uitrekenen van g eerst a en d moet uitrekenen. Dit kan parallel, dus hier kunnen twee ALUs een cycle mee bezig zijn. Bij g is echter een ALU de hele clockcycle bezig met een enkele berekening. Een ALU is bezig, vier ALUs kunnen niets doen.

R600 is dus nogal afhankelijk van de shadercode die wordt voorgeschoteld. In het absoluut ergste geval is maar 1 van de vijf ALUs elk frame benut. In plaats van 800SPs in de HD4870 houdt je er dan maar 160 over.
NVIDIA's architectuur is daarentegen een stuk efficienter, want elke ALU kan elk frame gebruikt worden.
Gelukkig voor ATI is er echter meer in een GPU dan ALU gebruik alleen. GPUs zijn zo complex dat een keuze als deze maar een klein onderdeel is in de algehele performance van een kaart.

[Reactie gewijzigd door Snoitkever op 19 november 2008 13:14]

Het spijt me, maar daar zit je toch echt helemaal fout.
Niet zo snel. Ik bedoel exact hetzelfde als jij, alleen zonder in detail te treden.
In het absoluut ergste geval is maar 1 van de vijf ALUs elk frame benut.
Exact. Uiteraard besef ik ook dat in het gemiddelde geval de efficiŽntie veel hoger is, maar ik wou in de eerste plaats duidelijk maken waarom R6xx ondanks hogere theoretische GFLOPS toch niet altijd wint.
Gelukkig voor ATI is er echter meer in een GPU dan ALU gebruik alleen. GPUs zijn zo complex dat een keuze als deze maar een klein onderdeel is in de algehele performance van een kaart.
Voor de niet-grafische toepassingen van Tesla denk ik dat het toch wel een doorslaggevende keuze kan zijn. Met NVIDIA's chips kan je zonder je zorgen te hoeven maken over scheduling C code overzetten naar CUDA. Met ATI kan een ongelukkige sequentie afhankelijkheden de snelheid meer dan halveren. Ik denk hierbij aan het evalueren van polynomen, numeriek integreren, etc.
Mierenneuker,, hairsplitter,,

maar verder heb je wel gelijk.
maar ik las laatst dat ATI ook met een concurrent komt van cuda.
dus al zouden hun software schrijven wat de rekenkracht wel goed kan aanwenden, hebben ze eigenlijk een goedkopere en snellere oplossing
Ja, de software. Met CUDA kun je C(++) programmas draaien, dat lukt je voorlopig nog niet op de ATI-edities.
Daarnaast zijn deze dingen gegarandeerd foutvrij, en gecontroleerd op de exact juiste uitkomst. Oh, en ze hebben een tikje meer geheugen, dat scheelt ook natuurlijk.
Oke dan neem je dus een paar snelle Nvidia kaarten, heb je ook CUDA. En waar haal jij vandaan dat deze kaarten beter getest zijn? Alsof standaard videokaarten wel fouten kunnen maken..:s Volgens mij is dat gewoon een vermoeden van de de consument omdat anders de prijs niet te rechtvaardigen valt.. zelfde heb ej emt een coreduo/xeon.
Gegarandeerd foutvrij, exact juiste uitkomst en floating points ;)

Floating points zijn ideaal als het eindresultaat 'goed genoeg' mag zijn, maar wanneer je (2^64-1) + 0.1 - (2^64-1) doet, komt daar gewoon 0 uit. Waar is de exact juiste uitkomst dan? :)

(afhankelijk van hoeveel bits floating point je hebt natuurlijk!)

[Reactie gewijzigd door blackangel op 19 november 2008 12:50]

Wat bedoel je, welke workstations. nVidia brengt insteekkaartjes uit die geplugged in een "normaal" moederboard, het systeem een supercomputer kan laten benaderen. Een beetje supercomputer kost toch snel meer dan een paar ton. Dus een systeem met een paar van deze insteekkaartjes zal stukken goedkoper zijn (zie artikel 7.000 eurotjes slechts...).
Waarschijnlijk deels wel.

Een bottleneck bij GPU voor berekningen is de communicatie tussen het geheugen en de processor(en). Het tesla systeem heeft waarschijnlijk een snellere en efficientere communicatie met het geheugen, daarnaast heeft het ook gedeeld geheugen

(zie www.nvidia.com/docs/IO/43...US_Jun08_FINAL_LowRes.pdf )

Dat is waarschijnlijk ook de reden waarom er in het systeem gekozen is voor AMD Phenom en niet voor een "oude' Intell. De Nehalems zullen zich eerst moeten bewijzen (nog een maandje? ;o)
Op Enterprise gebied staan er ook wat dingen op stapel. Ten eerste natuurlijk de AMD Firestream 9270, de snelste Stream GPU die AMD heeft met een veel hogere double precision Gflop-rate dan NV (240 vs 90), iets wat in de GPGPU scene enorm belangrijk is. Daarnaast brengt AMD in samenwerking met Aprius speciale 4RU racks uit met 16GB aan geheugen en 8x Firestream 9270 kaarten voor een totaal van 9.6 single precision Tflops of 1.9 dual precision Tflop
http://gathering.tweakers...message/31068499#31068499

Nvidia is niet de enige die hier mee bezig is hoor. AMD is al zo goed als klaar met openCL. Binnen kort met de nieuwe catalyst zullen we daar de eerste dingen van zien.

[Reactie gewijzigd door Reinman op 19 november 2008 13:05]

Dit is natuurlijk heel interessant voor Universiteiten / Onderzoekscentra / Etc. die vrij ingewikkelde modellen etc. doorrekenen maar toch geen bugdet hebben voor een 'echte supercomputer' Ik zie mooie mogelijkheden hiermee, en een vrij grote doelgroep in een toch wel niche-markt.....
Antwerpen universiteit heeft zelf al eens zo een superpc gebouwd en die moesten daar zelf wel heel wat software voor ontwikkelen. Mooi project met duidelijke resultaten zie hier
Als ik kijk naar de nr 500 van de top 500 supercomputers
(deze)
dan heeft die 10,66 TFlops en daar zijn dan 1584 Xeons en 3168GB geheugen voor nodig.
Dan heb je dus nu 1/3 van die kracht voor $7000 !?! :o Vind het een bizarre ontwikkeling eerlijk gezegd. Of mis ik hier iets en is die supercomputer veel breder inzetbaar ofzo?

/edit: zie net dat het laatst genoemde systeem $8500 kost, maar dan nog...
/edit2: 10.66 of 12.6 TFlops idd, maar ja gaat om het idee, verders duidelijk boys!

[Reactie gewijzigd door Tank80 op 19 november 2008 16:23]

Die supercomputer die in de Top 500 staat is veel breder inzetbaar. Het is waar dat GPU's ontzagwekkende hoeveelheden rekenkracht kunnen leveren, maar die zijn slechts vrij specifiek inzetbaar.
Daar zit je wel fout, die haalt 10.66 GFlops per cpu, met een totaal van 12.6TFlops.

Je hebt gelijk wat betreft het verschil in performance verder, ware het niet dat het aantal Flops niet altijd waardevol is. Er zijn genoeg punten te bedenken waarbij je niet met floating points wil rekenen, maar gewoon met integers (en daarmee geen afrondingsfouten). En daarin is deze Tesla gewoon waardeloos.

[Reactie gewijzigd door blackangel op 19 november 2008 12:46]

je bedoeld 10.66 GFlops per Core
super handig voor het renderen! :D

Dan hoef je niet meer de 3d bestanden naar speciale renderfarms te sturen!

Goede ontwikkeling, Nvidia _/-\o_
Er staat een hoop te lezen over Nikolai Tesla op wikipedia.

De computer ziet er best handig uit. Bij zulke opzichtige releases vraag ik me altijd af hoelang het zal duren eer laptops dat ook zullen kunnen.
Idd....Tesla is de grondlegger voor een heleboel elektrische ideeŽn. Ik heb zelf ooit een Tesla-coil gebouwd, en hopelijk hebben die gpugpu's niet hetzelfde effect :P

Vondt het ook eigenlijk een vreemde naam voor een videokaarten bakker...
Zou je dit kunnen gebruiken om te renderen met bijvoorbeeld metal ray in maya?
Denk het niet toch? Dat ondersteunen deze renderers niet geloof ik. Dat is super jammer want dit zou heel veel schelen in die sector.
Als maya het ondersteunt, ja. Dit is de goede hardware maar de software moet er wel gebruik van maken.
Mooi spulletje.
Op deze manier is veel snelheidswinst te halen in wetenschappelijke berekeningen zoals bijvoorbeeld "Protein folding". Check Folding@home website.

Een videokaart is nu eenmaal gemaakt om meerdere bewerkingen tegelijk uit te voeren. Mijne rekend bijvoorbeeld 85x per seconde de kleur van 2*1600*1200=3.84Mln pixels uit...
Mijn vermoeden is dat het geen slecht idee is eens wat "CUDA" programmeer cursussen te gaan volgen...
Soort embedded programming maar dan in je computer :-).

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True