Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Nvidia kondigt Tesla V100-accelerator met Volta-gpu aan

Door , 58 reacties, submitter: ColinZ

Nvidia heeft de Tesla V100 aangekondigd. De accelerator voor gpgpu-toepassingen zoals deep learning is uitgerust met een gpu op basis van de nieuwe Volta-architectuur. De chip heeft speciale Tensor Cores voor het trainen van neurale netwerken.

De GV100-gpu van de Tesla V100 is 815mm2 groot, heeft 21,1 miljard transistoren en wordt gemaakt op het 12nm-finfet-procede van TSMC. De chip is nog een stuk groter dan de GP100 op basis van Pascal, die had een oppervlak van 610mm2. De nieuwe Volta-gpu beschikt over 5120-cudacores voor fp32-taken en wordt gecombineerd met 16GB hbm2-geheugen van Samsung, dat een bandbreedte heeft van 900GB/s.

Nvida heeft de architectuur van de streaming multiprocessors aangepast en naar eigen zeggen geoptimaliseerd voor deep learning. Dat heeft de gpu-maker gedaan door nieuwe Tensor Cores toe te voegen aan het ontwerp, die gespecialiseerd zijn in het trainen van neurale netwerken. In totaal heeft de GV100-gpu 640 van deze Tensor Cores: acht per sm. Nvidia claimt enorme prestatiewinsten bij toepassingen die hier gebruik van kunnen maken. Bij reguliere fp32- en fp64-berekeningen is de GV100 ongeveer 1,5 keer zo snel als de GP100.

Die snelheidswinst lijkt vooral te maken te hebben met de grootte van de GV100-gpu. De Volta-variant heeft meer cores en 2MB meer l2-cache. Ook heeft de kaart 20MB sm rf, dat met een snelheid van 80TB/s met de chip kan communiceren. Bij de GP100 is dat 14MB. Het verbruik is volgens Nvidia met een tdp van 300 watt niet veranderd.

Nvidia-ceo Jen-Hsun Huang heeft de Tesla V100 aangekondigd op de Gpu Technology Conference van het bedrijf en op het devblog van Nvidia is uitgebreide informatie verschenen over de Volta-gpu. Het is de eerste keer dat Nvidia details geeft over de Volta-gpu, die de huidige Pascal-gpu zal opvolgen. In eerste instantie wordt Volta toegepast in de Tesla V100-accelerator, die in het derde kwartaal op de markt zal komen. Diezelfde weg volgde Nvidia met de Pascal-gpu, die eerst in de Tesla P100 terecht kwam.

Nvidia gaat ook serversystemen uitbrengen die meerdere van de kaarten bevatten, net als het eerder deed met de Tesla P100 op basis van de Pascal-gpu. De DGX-1V komt in het vierde kwartaal beschikbaar voor 149.000 dollar en is uitgerust met acht Tesla V100-kaarten. Ook komt Nvidia met een kleinere versie, die als 'persoonlijke supercomputer' kan worden ingezet: de 69.000 dollar kostende DGX Station. De computer beschikt over vier Tesla V100-kaarten, is uitgerust met waterkoeling en beschikt over een 1500W-voeding.

Over GeForce-videokaarten voor gamers met een Volta-gpu heeft Nvidia nog niets bekendgemaakt. Waarschijnlijk komen er volgend jaar consumentenvideokaarten met de nieuwe gpu, maar dan met aangepaste configuraties die minder zijn gericht op taken als deep learning.

Tesla-accelerators Tesla V100
Tesla P100
GPU GV100 (Volta) GP100 (Pascal)
Sm's 80 56
Tpc's 40 28
FP32 cudacores / sm 64 64
FP32 cudacores / gpu 5120 3584
FP64 cudacores / sm 32 32
FP64 cudacores / gpu 2560 1792
Tensor Cores / sm 8 -
Tensor Cores / gpu 640 -
Baseclock onbekend 1328MHz
Gpu-boostclock 1455MHz 1480MHz
Singleprecision 15tflops 10,6tflops
Doubleprecision 7,5tflops 5,3tflops
Tensor Core-prestaties 120tflops -
Texture Units 320 224
Geheugeninterface 4096bit hbm2 4096bit hbm2
Geheugengrootte 16GB 16GB
L2-cache
6144KB 4096KB
Register file size / sm 256KB 256KB
Register file size / gpu 20480KB 14336KB
Tdp 300 watt 300 watt
Transistors 21,1 miljard 15,3 miljard
Gpu die-formaat 815mm² 610mm²
Ontwerpproces 12nm FFN (tsmc) 16nm finfet+ (tsmc)

Moderatie-faq Wijzig weergave

Reacties (58)

Reactiefilter:-158058+133+23+30Ongemodereerd13
Is die 15tflops fp32 goed voor gaming? In dat geval verwacht ik richting 16tflops van gaming varianten, oftewel meer dan vega, maar volta komt wel later naar enthusiasts.

dacht dat fp64 voor games was, maar dat is uiteraard fp32. 7.5tflops zou wel erg weinig zijn voor een nieuwe architectuur.

[Reactie gewijzigd door barbadruif op 10 mei 2017 20:38]

7.5tflop FP64
15tflop FP32
30tflop FP16

Oftewel 15tflop als je wilt vergelijking met huidige GPUs

[Reactie gewijzigd door DoubleYouPee op 10 mei 2017 20:36]

Dat is double precision ofwel FP64. Single precision / FP32 is het aantal FLOPS waar je als gamer normaal gesproken naar kijkt ;)
zag het net ook. Bedankt!

Ik ga in ieder geval voor vega, want op een gegeven moment wordt die extra power overkill voor 3440x1440. 4k is een ander verhaal uiteraard.

[Reactie gewijzigd door barbadruif op 10 mei 2017 20:40]

Welke 3440x1440 monitor heb je trouwens? Veel 1440p ultrawides hebben Freesync dus dan is dat ook mooi meegenomen.
Maar ja denk dat of de middelste of de top-of-the-line Vega kaart heel fijn zal zijn voor 1440p ultrawide.
Ik ga die ene freesync philips monitor kopen, want die is niet heel duur, past goed bij mijn kamersetup en heeft 40-100hz freesync. Deze: pricewatch: Philips Curved UltraWide LCD-scherm 349X7FJEW/00 Wit

[Reactie gewijzigd door barbadruif op 10 mei 2017 21:04]

Die en de pricewatch: Asus Designo Curve MX34VQ Zilver, Zwart zijn allebij idd erg goede keuzes, veel plezier ermee!
Volgens pricewatch heeft die monitor een refresh rate van 60Hz. Meer FPS in games op die monitor is dan zinloos.
Pricewatch is fout. Freesync is 40-100hz volgens meerdere winkels, en je kan het zien aan de vertical scanfrequentie van 40-100hz. Veel 144hz monitoren hebben trouwens vertical scan van x-146hz om wat voor reden dan ook.

[Reactie gewijzigd door barbadruif op 11 mei 2017 07:05]

verticale scan frequentie != refresh rate.

Hoewel ze wel invloed hebben op de refresh rate zijn ze niet hetzelfde! De door jou aangegeven monitor heeft volgens philips specsheet: "Optimale resolutie 3440 x 1440 bij 60Hz"

Dit zal dan ook de hoogst instelbare resolutie/frequentie zijn! (tenzij je handmatige resoluties toevoegt/pixel overclocking toepast, wat niet tot gegarandeerde prestaties leid).

Kleine edit: volgens reviews, de resolutie kan oplopen tot 100Hz echter moet je hiervoor een FreeSync ondersteunende grafische kaart hebben. Heb je dit niet, ben je gebonden aan 60Hz.

Ontopic:
Overigens ben ik zeer benieuwd naar de opkomende Volta desktop GPU's, ik hoop dat ze dat niet te lang uitstellen, want ik zoek nog een nieuwe laptop en zou graag zo'n nieuw monstertje erin willen hebben. Zeker nu de desktop en mobile lijnen dichter bij elkaar komen te liggen!

[Reactie gewijzigd door un1ty op 11 mei 2017 02:37]

Zei alleen dat je kan zien aan de verticale scan frequentie dat die 60 hz nooit juist kan zijn tenzij er een oude dp of hdmi aansluiting op zit of zo. 40-100hz vertical scan maakt het onlogisch om slechts max. 60hz freesync te hebben, dus dat vond ik wat verdacht.

[Reactie gewijzigd door barbadruif op 11 mei 2017 07:08]

Welke Vega? Eerst zien dan geloven. nVidia heeft vast passend antwoord op Vega.
Deze gpu is totaal niet te vergelijken met gaming GPU's. Verwacht niet dat bv de 2070 prestaties heeft van de TitanXp, het zou rond de 20 a 25% meer performance zijn. Van de 980 naar de 1080 was 30% als het goed is.

Dus bv de GTX 2070 AF zou dan dezelfde prestaties hebben als de 1080FE nu.

[Reactie gewijzigd door 771355 op 10 mei 2017 20:51]

De 980 naar 1080 was ongeveer 80%. Hoe komt je op die 30?
2070? Dat is nog 10 generaties ver weg :P
of 1170., naamgeving is nog onbekend dus gebruikt men 20xx en 11xx door elkaar.
Ik geloof dat de Volta lijn 20xx gaat heten. Bindt me er niet op vast hoor, kan de bron er niet van vinden 8)7 .
Sterker nog, het kunnen weergeven van 3D beeld is zelfs achtergesteld op dit ding.. Deze GPU is echt ALLEEN bedoeld voor gebruik voor CUDA-powered deep learning algo's.

Dit ding is echt een BEEST.. ben echt benieuwd wat voor 'n magische neural network performance ze hier uit kunnen halen

[Reactie gewijzigd door cappie op 11 mei 2017 16:19]

vergeet niet dat het dan wel over double precision operaties gaat, als je tflops hoort gaat het meestal over fp32 oftewel single precision. Je kan in de tabel zien dat hij single precision 15tflops haalt, dat lijkt er meer op.

ik had zelf ook wel kunnen bedenken dat anderen me voor zouden zijn 8)7

[Reactie gewijzigd door bartios op 10 mei 2017 20:46]

Want de GP102 had ook meer FP32 shaders dan de volledige gp100 core ?

Nee dus :p

Daarom verwacht of hetzelfde aantal Tflops of juist wat minder om de diesize in te perken en winstmarges te verhogen dus 13/14 tflops verwacht ik.
Dit soort kaarten zijn niet gemaakt voor gamen en zijn gericht op AI

[Reactie gewijzigd door DamirB op 11 mei 2017 01:02]

Wie heeft wat meer informatie over dat "sm rf" geheugen? Klinkt erg interessant. Als ik het op Google intyp zie ik geen informatie over dit geheugen.
reference file static memory vermoed ik. Static memory gebruikt meer transistoren maar is ook vele malen sneller dan "normaal" cache geheugen en belangrijker nog: het hoeft niet gerefreshed to worden, waardoor de data continue gelezen/geschreven kan worden zonder last te hebben van de onderbrekingen die normaal nodig zijn voor de CAS/RAS refresh. Vergelijk het met burst mode transfer rates maar dan continu.

[Reactie gewijzigd door Pmf1971 op 10 mei 2017 23:55]

Cache geheugen is altijd SRAM oftewel static en hoeft dus nooit gerefresht te worden. De refresh die jij beschrijf is nodig voor DRAM, maar DRAM kan je niet maken in een high performance process waardoor altijd al het cache geheugen met SRAM cellen wordt gebouwd.

Zover ik heb begrepen is sm rf memory geheugen wat lokaal voor elke sm unit wordt gebruikt. Iedere sm unit krijgt een stukje van dit geheugen wat niet gedeeld wordt met andere sm units. Cache geheugen wordt gedeeld voor de hele chip (mbv cache coherency protocollen) en dit geheugen juist niet.
20MB SM RF lijkt mij te verwijzen naar "Register file size / gpu 20480KB"

Hier is trouwens meer over de liveblog keynote terug te vinden (van afgelopen nacht)!
https://www.gizmodo.com.a...-2017-technology-keynote/

En als ik deze doorlees verwacht ik dat het dus Shared Memory Register File betekend.

[Reactie gewijzigd door Antarloka op 11 mei 2017 08:11]

I stand corrected.
Wat een monster! Met 815mm2 is dit. Volgens mij de grootste gpu ooit gebakken. Zal een kostbare chip worden. Want je gaat er niet veel uit een Waver halen. De overstap naar 12nm is ook al snel. Ben benieuwd of desktop gaming kaarten ook op 12nm gemaakt worden.
waarschijnlijk wel maar het is geen echte 12nm, het is de 4de generatie 16nm die ze omgelabeld hebben naar 12nm
Had begrepen dat 16nm gmvan tsmc meer leek op 14nm van samsung qua gate grote. Wellicht dat ze de de transistors toch hebben weten te verkleinen met wat proces tweaks?
Dacht dat die van Samsung/Global foundries net iets kleiner was
https://ic.tweakimg.net/c...images%2F6deformation.jpg

Maar zal wel vergelijkbaar zijn bij de nieuwere versies

Als je kijkt naar transitor/mm2 ratio is het niet heel erg vooruitgegaan

16nm: 15.3BT/ 610mm2 = 25MT/ mm2
12nm: 21BT/ 815mm2 = 25.7MT/ mm2

[Reactie gewijzigd door laurens91 op 10 mei 2017 23:16]

IBM heeft grotere dies gebakken volgens mij. De grootste power5 CPU's 10 jaar geleden waren colossaal. Of heb ik het nou mis...heb niks nagezocht, dit is uit mijn hoofd.
Ik zeg ook specifiek gpu's en niet Die's in het algemeen. Tot voor kort waren grootste rond de 600mm2.
Die tensor cores nemen een groot deel van de ruimte in, gaan de consumentenversies deze tensor cores ook krijgen? Heb je er wat aan in games of voor andere dagelijkse desktop toepassingen(mits daarvoor geprogrammeerd wordt natuurlijk)? Of is dit een eerste stap richting AI mogelijkheden op de desktop?
Gezien het nu voor deep learning gepromoot wordt lijkt het mij nog nutteloos voor de consumentenversies, maar het neem wel veel ruimte op de die in.


Hier een link met veeeel meer informatie over de Volta GPU:
https://devblogs.nvidia.com/parallelforall/inside-volta/
Deep Learning is hoe je een AI traint, maar voor eindgebruikers is Inference belangrijker. Dan is het dus belangrijker dat Khronos vorige week de OpenVX 1.2 standarad heetf gereleased, met Neural Network Extensions. Hier zit Intel achter, die kunnen dit met hun geÔntegreerde GPU'tjes. Ook AMD zal het wel gaan supporten.

Overigens zal die Tensor unit het ook uitstekend doen in Inference mode, 't is alleen wat overkill. In games zullen de meeste SM's nodig blijven voor graphics, en gebruik je misschien 1 of 2 SM's voor de game AI.
Ok, de AI in games gebruiken dus niet zoveel rekenkracht als ze maar 1 of 2 sm's gebruiken. Maar met deze tensor cores kunnen deze sm's voor de AI in games dan toch wel weer vrijkomen en gebruikt worden voor graphics als games de AI op de tensor cores gaan draaien? Zal het uiteindelijk niet gaan leiden tot intelligentere bots in games, puur omdat er zoveel rekenkracht beschikbaar is? Kan dit de onvoorspelbaarheid van bots niet gaan vergroten als ze meer rekenkracht te berschikking hebben om in games patronen van spelers te gaan herkennen en hier intelligenter op reageren?
Of bijvoorbeeld fotoherkenning voor thuis. "zoek de foto waarop ik met persoon x bij de gracht staat'... ik noem maar wat.

Op de plaatjes nemen de tensor cores veel ruimte in, het zou zonde zijn als iedereen zo'n rekenkracht thuis heeft, maar nergens voor gebruikt. Dus ik neem aan dat er toch alledaagse toepassingen gaan komen de komende jaren. Of misschien GPU's met veel minder tensor cores in een sm voor consumentenversies?

Ik vind het een interessante ontwikkeling en nVidia lijkt hier toch weer een goede stap gezet te hebben en goed ingezien te hebben dat deep learning heel belangrijk ging worden door speciale cores hiervoor in hun GPU te bouwen. AMD heeft de Vega GPU die rond nu toch eens uit moet komen, maar zo'n performance voor tensors heb ik niet terug gezien in de Vega specificaties. AMD lijkt hiermee toch een stap achter te liggen op de concurrentie en zomaar zulke cores in je ontwerp plakken doe je ook niet, dus misschien duurt het nog 1-2 generaties voordat AMD met iets vergelijkbaar komt? Ook omdat de volgende generatie natuurlijk al ontworpen is.
Wat ik begrepen heb is dat de fp16 performance van huidige videokaart belangrijk is voor deep learning en met zomaar het huidige aantal fp16 cores van de Vega inzetten als tensor cores haal je volgens mij lang niet zo veel performance als de Volta GPU met haar 120 TFLOPS tensor performance(volgens mij is dit voor hedendaags begrippen van 1 chip erg veel?). De Vega heeft 'maar' iets van 24 TFLOPS fp16 performance.

Misschien klopt het niet wat ik hier allemaal type, maar zoveel kennis heb ik er ook niet. :)
Elke SM heeft 1 tensor core, ze zijn niet los te gebruiken. Maar inderdaad, de grootte van elk van die tensor cores maakt pattern matching efficienter, en AI's potentieel beter,.
Elke sm heeft 8 tensor cores en de gpu heeft er 640 :) , zie het grafiekje in het artikel(al is het grafiekje hier op tweakers verkeert gezien de tensor cores per sm en per gpu nog onder de pascal gpu staan, zie anders mijn linkje naar nvidia in mijn initiele comment).
nVidia geeft gelijk al te kennen dat ze geen volledige GV100 chip voor de Tesla V100 gaan gebruiken. Als je kijkt naar het schema van de opbouw van de GPU tel je 42 TPC's en dus 84 SM's. Het laatste getal maal 64 en je komt op 5376 CUDA core's uit. De trend van afgelopen jaren zet zich nog even door, het wachten is weer op een volledig ingeschakelde chip.
heeft dat niet gewoon te maken met de yields, dus een bepaalde foutmarge waar ze niet om heen kunnen.
Dat klopt. Op zich ook wel logisch, want chips zijn afgelopen jaren steeds complexer geworden waardoor de kans op fouten alsmaar toe neemt. En er moet toch wat verdient worden om het bedrijf draaiende te houden. Dus inderdaad krik je de yields (bruikbare chips) op door onvolledig ingeschakelde chips uit te brengen.
Ik wist niet dat samsung ook al HBM2 geheugen maakt. Ik dacht dat dit exclusief door SK Hynix in samenwerking met AMD ontwikkeld werd en een patent werd op genomen. Dan moet Samsung Sk Hynix toch betalen om HBM2 te mogen produceren?
Ik dacht even dat NVidia iets met auto's ging doen...
Ziet er uit als weer een goede nieuwe generatie voor Nvidia met volta, 12nm zorgt er in dit geval dan ook voor dat er veel meer werkkracht is op hetzelfde wattage.
Ik zie nu trouwens ook hoe groot de die size increase is, dan zal de V100 ook wel meer gaan kosten dan de P100.
Is de GDDR5 in de speclist trouwens een foutje? Want in het artikel staat nog gewoon HBM2.

[Reactie gewijzigd door Finntasy op 10 mei 2017 20:31]

Foutje in de tabel, gefikst :)
Goede nieuwe generatie? Zo op het oog is het gewoon dezelfde generatie, echter een kleiner procede zodat ze meer cores op de die kunnen proppen.

Ongeveer 50% meer cores, ongeveer 50% meer flops. Niks spannends aan, alleen relatief wat zuiniger maar dat zit in het pakket van de procede verkleining..
De tensorregels staan in de verkeerde kolom. tensorcores/flops staan onterecht bij de P100 en moeten bij de V100 staan..
Whoops. Gefikst :)
Nog 1 - 2 jaar en dan de 1180 of de 2080!!!!! Eindelijk eens normaal 4k en 144hz.
Tot die tijd is een enkele kaart te traag om minimaal 4k te draaien met 60+fps. Pak em beet 750gbps heb je wel nodig.

Wat dat betreft wachten tot ze eens de 4K 144hz schermen gaan uitrollen..... duurt allemaal wel erg lang met de schermen! Daarna nog een lange poos wachten voordat ze fatsoenlijk geprijsd worden...

[Reactie gewijzigd door A87 op 12 mei 2017 02:26]

Op dit item kan niet meer gereageerd worden.


Nintendo Switch Google Pixel XL 2 LG W7 Samsung Galaxy S8 Google Pixel 2 Sony Bravia A1 OLED Microsoft Xbox One X Apple iPhone 8

© 1998 - 2017 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Hardware.Info de Persgroep Online Services B.V. Hosting door True

*