Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Je kunt ook een cookievrije versie van de website bezoeken met minder functionaliteit. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , reacties: 24, views: 11.882 •

Nvidia heeft nieuwe kaarten met gpgpu's geÔntroduceerd die gebaseerd zijn op de Kepler-architectuur. Deze Tesla K20-kaarten moeten meer dan twee keer zo snel zijn als de vorige generatie en onder andere de krachtigste supercomputer ter wereld gebruikt ze.

De nieuwste 'accelerator', zoals de gpgpu-kaart van Nvidia genoemd wordt, wordt op 28nm geproduceerd. Nvidia brengt twee versies uit van de Tesla K20, die beide rond de GK110-gpu worden opgebouwd. De GK110 bestaat uit 2880 cuda-cores, die in vijftien smx-units onderverdeeld zijn. Elke core heeft een floating point- en integer-unit en naast de 192 cuda-cores bevat een smx-unit 64 double precision-units, 32 sfu's en 32 load/store-units. Een smx-unit heeft verder 64KB gedeeld geheugen en 48KB data-cache; daarnaast is 1536KB L2-cache beschikbaar.

Nvidia Tesla K20

In de meest krachtige Tesla K20-variant, de K20X, zijn veertien smx-units actief en de kaart beschikt derhalve over 2688 cuda-cores. De K20-variant heeft dertien geactiveerde smx-units en dus 2496 cores. Ook de hoeveelheid werkgeheugen is bij de K20X groter: 6GB tegenover 5GB voor de K20. Volgens Nvidia moet de double precision-performance van de K20X op 1,31Tflops uitkomen, met een single precision-top van 3,95Tflops. Voor de K20-variant bedraagt dat respectievelijk 1,17Tflops en 3,52Tflops.

De architectuur van de Tesla K20-gpu's werd geoptimaliseerd voor parallelle rekentaken met onder meer vier zogeheten warp schedulers per smx-unit, waarmee twee instructies uitgegeven kunnen worden. Volgens Nvidia moeten de kaarten daarmee ingezet worden in supercomputers die voor onder meer seismisch onderzoek, natuur- en scheikundige berekeningen en klimaatmodellen worden ingezet. De kaarten zouden met een tdp 235W relatief energiezuinig zijn. Een consumentenversie van de GK110-gpu is er vooralsnog niet.

De nieuwste aanvoerder van de Top500-lijst snelste supercomputers, Titan, maakt gebruik van 18.688 K20X-kaarten en 18688 Interlagos-Opterons met zestien cores , waarmee 17,59pflops worden gehaald. Steeds meer systemen in die lijst hebben naast een groot aantal cpu-cores ook accelerator-kaarten van AMD, Intel of Nvidia in de vorm van respectievelijk FirePro- Xeon Phi- en Tesla-kaarten aan boord.

Cray Titan

Reacties (24)

Gaaf hoor, vraag me wel af of we ooit een punt gaan bereiken dat dit voor de consumentenmarkt zin heeft, NVIDIA zet hun Tesla kaarten namelijk wel in de markt voor consumenten, maar vraag me erg af wat je er als doorsnee pc gebruiker mee kan.

Tuurlijk kun je opeens dik ingewikkelde cuda modellen renderen/berekenen, maar wie heeft daar thuis nou iets aan, lijkt me toch echt meer voor labratoria etc. En idd zoals hier als een enorme array aan ondersteunende processorkracht in een supercomputer.
Waar haal je het dat Nvidia Tesla positioneert in de consumentenmarkt? De specs, en waarschijnlijk ook de kostprijs, schreeuwen immers eerder workstation/supercomputer en dat is toch meer gericht naar professionals ipv consumenten.

Verder vind ik het opvallend dat ze geen versie uitbrengen met alle 15 smx-units geactiveerd. Ik vraag mij af wat hier de reden voor is. Is de yield van "perfecte" GK110's te laag? Kan een volledig geactiveerde GK110 niet overweg met de geproduceerde warmte?
Ik denk dat er twee redenen zijn waarom niet alle 15 smx-units zijn geactiveerd.
Ten eerste zijn de yields erg laag dat word in dit artikel uitgelegd:
http://semiaccurate.com/2...-hints-about-28nm-yields/
En ten tweede zo blijft het energieverbruik binnen de perken want veel serverracks kunnnen maar een maxium aan 225 wat aan hitte afvoeren.
deze dingen zijn wel gegroeid uit consumentenspullen...

je hand namelijk de physx kaarten; dit is een voortborduursel hierop... (nvidia heeft physx ingelijfd, de technologie zit nu in al hun gpu's dmv CUDA)
nou als designer zou dit wel fijn zijn aangezien 3D software parallelle berekeningen uitvoert.
Prijstechnisch gezien is dat uiteraard het overwegen niet waard uiteraard :P

Edit: typo

[Reactie gewijzigd door Blazing-Studios op 13 november 2012 16:24]

Daarvoor heeft nVidia de Quadro reeks. De Tesla kaarten zijn puur bedoeld voor supercomputers en hebben dus ook geen prijskaartje aangezien je ze bij Nvidia besteld voor een supercomputer en dus een megacontract sluit.
Je kan nochtans "gewoon" workstations bestellen bij HP, Dell e.d. met de Tesla kaart.

De Maximus technologie van Nvidia combineert de quadro kaarten met de tesla kaart
Thuis heb je er idd nog niet aan maar over 10 jaar heb je hem wel thuis staan.

Trouwens iets klopt er niet in de berekening van nvidia:

Volgens Nvidia moet de double precision-performance van de K20X op 1,31Tflops uitkomen, met een single precision-top van 3,95Tflops. Voor de K20-variant bedraagt dat respectievelijk 1,17Tflops en 3,52Tflops.

Dan lees ik echter:

De nieuwste aanvoerder van de Top500-lijst snelste supercomputers, Titan, maakt gebruik van 18.688 K20X-kaarten en 18688 Interlagos-Opterons met zestien cores , waarmee 17,59pflops worden gehaald.

ff rekenen.

17,59 pflops is 17590 tflops dellen door 18688 kaarten = 0,94 tflops per combinatie 16cores cpu met 1 K20X kaart.

Er staat echter dat 1 kaart ruim boven de 1 tflops zit maar als je het teruggerekend klopt het dus niet. Heeft iemand hier een verklaring voor ?
Er is een verschil tussen theoretical peak performance en de realistische performance. de 17,59 Pflops van de titan is gebaseerd op een benchmark test, die dus realistische performance nabootst (voornamelijk lineaire algebra)
''Theoretische prestatie piek''

Nederlands blijft moeilijk.

Maar je redenatie klopt inderdaad. Door de in theorie moeilijk te berekenen en vaak ook te kleine natuurkundige natuurlijke weerstanden om rekening mee te houden, zorgen ervoor dat de prestaties in de praktijk ietwat lager liggen.
ietswat toch niet de 16 core amd zou rond de 0,3 tflops leveren. blijft dus nog 0,64 over voor de kaart.

Toch lees ik tussen de 1,17 en over de 3 tflops voor de kaart en de praktijk is dus een heel stuk lager. Leuke marketing dus.
het is voornamelijk de schaling, meer processoren betekent mindere schalin, het kan best dat je uit 1 kaart zo'n 90% van de theoretische performance kan halen, maar als je er duizenden hebt dan krijg je scheduling problemen GPU's die tijdelijk idlen, communicatie wat tijd kost etc etc.

het feit dat ze boven de 60% van de theoretische maximale efficientie zittne is al erg indrukwekkend.
Weet je waarom,ze hebben het over de gk 110 chipset! zakelijke markt tesla/quadra en de consumenten uitvoering een geforce kaart ,volgens de geruchten zou deze dan als geforce 685gtx of geforce 780gtx op de markt worden gebracht!
voor de mensen die zeggen oeh lekkere game kaart, uhmm nou nee spaar ze maar lekker :)
Deze chipset word waarschijnlijk de toekomstige top kaart van nvidia! En ik zou deze kaart(tesla k20)niet gaan kopen voor gameh want daar is die niet voor gemaakt!
Of gewoon voor de heb. Wat moet ie kosten? :*)
tussen de 2 en 3 duizend euro gok ik zo?.. (da's wat dat ding van intel (of amd?) kost)

Die prijzen zullen overigens wel erg varieren, da's altijd met dit soort enterprise producten.
Koop je er 1 of een paar, dan betaal je je scheel... sla je er 1000 of 10.000 in dan krijg je flinke korting.

Moet wel toegeven dat als ik het geld had ik dolgraag een rackmount thuis neer zou zetten waar ik best wat ruimte bereid ben op te offeren voor een paar cases met dit soort kaarten erin..

Standaard rackmount kabinet heb je ook niet snel vol voor thuisgebruik.. firewall (1u), mailserver (1-2u), switch (1u), storage server (3-6u), webserver (2-4u)... ga je virtualizeren dan bespaar je nog meer ruimte!
Ik zou graag een rackmount thuis neerzetten maar zou het zonde vinden om dat ding dan niet helemaal vol te proppen en dit vind ik dan dus ook cool nieuws.. kun je je eigen mini supercomputer bouwen!

Indien je zelf geen applicaties ervoor kan bedenken kun je altijd een paar instanties van folding@home of seti@home draaien en lekker e-peenen met je ranking :+

[Reactie gewijzigd door Ayporos op 14 november 2012 01:26]

Eindelijk beginnen Finite Element solvers nu langzaamaan ook Cuda/OpenCL te ondersteunen. De snelheidswinst is namelijk gigantisch met dergelijke kaarten.

Wat helaas nog mist, is een vrije implementatie van een high-level language voor numerieke berekeningen (bijv. Python Numpy) welke gebruik maakt van Cuda/OpenCL. Huidige implementaties, Matlab en ArrayFire, zijn helaas commercieel.
Ik ben een van de gelukkigen die het ding al in een workstation heeft zitten (de K20). Het is een beest van een kaart, en zonder extra optimalisatie speciaal voor deze architectuur loopt mijn Fermi-Tesla code al 2x sneller dan het op de C2075 doet. (meer dan 300Gflops op een eenvoudige home-made matrix-matrix implementatie)
Allemaal leuk en wel, die berichten krijgen wel al 10jaar of langer en nog steeds zitten we te wachten op 3D renders en gaat er NIETS realtime. Zelfs adobe aftereffects blijft traag en niet realtime. Waarom zijn de toepassingen voor de consument en zo'n kaarten nog niet bruikbaar? Ik wil graag een kaart van 4000euro kopen als het 90% van mijn werk realtime zou maken. Cuda in cs6 neemt wat rekenkracht over maar dan vooral in Premiere. Graag wil ik programma's als c4d, maya, 3dsmax zien die standaard een render engine hebben die (bijna) realtime op deze kaarten werken.
Je vergeet alleen dat je een hogere resolutie hebt, en je eisen ťn verwachtingen elk jaar hoger liggen qua realisme en haalbaarheid.
Ja tweakers is beetje traag met brengenvan nieuws over de K20, want deze Titan supercomputer daar is al eventjes de media mee bezig en met de K20 ook.

Nvidia heeft beetje gegokt op een nieuw soort manier van de zaak doen. Beetje in tussen wat AMD doet en Nvidia deed.

Meer cores en verschillende cores combineren om tot double precision te komen.

Het blijkt gewoon niet zo'n efficiente technologie als we objectief kijken.

De vorige Tesla haalde 665 Gflop met 512 cores op fermi.
Deze K20 in een nieuwe procestechnologie gebakken die 4x meer transistors kan leveren theoretisch dan de vorige technologie.

Dus je zou verwachten dat deze Tesla toch wel de 2 Tflop zou halen. Dat doet hij niet. Wel is het de snelste manycore ter wereld die je voor deze prijs van rond de 3600 dollar kunt kopen.

Nvidia heeft dus de publieke kroon behouden met deze GPU, maar laten we eerlijk zijn, de verwachting voor de K20 lag tegen de 2 Tflop en het is dus 1.17 Tflop geworden met een versie die we vast niet in al te grote aantallen op de markt zullen zien waarbij niet 1 van de SIMD units uitgeschakeld wordt, die heet dan K20X. Die haalt dan 1.31 Tflop.

Transistor vergelijking: 7.1 miljard transistors naar verwachting voor de K20 en haalt 1.17 Tflop in productiemodel en 1.31 voor K20X.

Fermi M2090 heeft 512 cuda cores en haalt 665 Gflop met 3.0 miljard transistors.

Dus in theorie ideale schaling zou zijn geweest: 665 gflop * 7.1 / 3.0 = 1.574 Tflop

De vraag is of de technology keuze voor de HPC wel de handigste is; dat deze voor de gamers het prima doet, dat staat buiten kijf.

Hij zal vast goedkoop geproduceerd worden.

[Reactie gewijzigd door hardwareaddict op 13 november 2012 20:22]

Sowieso heb ik de indruk dat Nvidia zich bij ontwerpkeuzes niet volledig op HPC gebruik gericht heeft. Zo is de SP-DP divider 1/3 (t.o.v. 1/2 voor Fermi) en is het maximale geheugen niet toegenomen (ook 6GB voor de Tesla M2090).

Afgaande van de recente berichten denk ik dat de Xeon Phi populairder zal worden, want
  • goedkoper;
  • meer geheugen;
  • in de praktijk hoogstwaarschijnlijk net zo snel;
  • makkelijker om code te porten naar het platform.
De toekomst zal het leren.

[Reactie gewijzigd door narotic op 14 november 2012 01:30]

Als je de 3 nieuwe kaarten van AMD, Intel en nVidia bekijkt zitten ze qua prijs, rauwe performance en stroomverbruik niet heel ver van elkaar (goed, de AMD is wat minder zuinig), ik denk dat ze alledrie populair kunnen worden. De keus voor OpenCL, CUDA of x86 voor je code is een tweede, maar verschillende instructiesets heb je met cpu's ook.

[Reactie gewijzigd door Dreamvoid op 14 november 2012 10:09]

Op dit item kan niet meer gereageerd worden.



Populair:Apple iPhone 6Samsung Galaxy Note 4Apple iPad Air 2FIFA 15Motorola Nexus 6Call of Duty: Advanced WarfareApple WatchWorld of Warcraft: Warlords of Draenor, PC (Windows)Microsoft Xbox One 500GBSamsung

© 1998 - 2014 Tweakers.net B.V. Tweakers is onderdeel van De Persgroep en partner van Computable, Autotrack en Carsom.nl Hosting door True

Beste nieuwssite en prijsvergelijker van het jaar 2013