Nvidia kondigt Tesla V100-accelerator met Volta-gpu aan

Nvidia heeft de Tesla V100 aangekondigd. De accelerator voor gpgpu-toepassingen zoals deep learning is uitgerust met een gpu op basis van de nieuwe Volta-architectuur. De chip heeft speciale Tensor Cores voor het trainen van neurale netwerken.

De GV100-gpu van de Tesla V100 is 815mm² groot, heeft 21,1 miljard transistoren en wordt gemaakt op het 12nm-finfet-procede van TSMC. De chip is nog een stuk groter dan de GP100 op basis van Pascal, die had een oppervlak van 610mm². De nieuwe Volta-gpu beschikt over 5120-cudacores voor fp32-taken en wordt gecombineerd met 16GB hbm2-geheugen van Samsung, dat een bandbreedte heeft van 900GB/s.

Nvida heeft de architectuur van de streaming multiprocessors aangepast en naar eigen zeggen geoptimaliseerd voor deep learning. Dat heeft de gpu-maker gedaan door nieuwe Tensor Cores toe te voegen aan het ontwerp, die gespecialiseerd zijn in het trainen van neurale netwerken. In totaal heeft de GV100-gpu 640 van deze Tensor Cores: acht per sm. Nvidia claimt enorme prestatiewinsten bij toepassingen die hier gebruik van kunnen maken. Bij reguliere fp32- en fp64-berekeningen is de GV100 ongeveer 1,5 keer zo snel als de GP100.

Die snelheidswinst lijkt vooral te maken te hebben met de grootte van de GV100-gpu. De Volta-variant heeft meer cores en 2MB meer l2-cache. Ook heeft de kaart 20MB sm rf, dat met een snelheid van 80TB/s met de chip kan communiceren. Bij de GP100 is dat 14MB. Het verbruik is volgens Nvidia met een tdp van 300 watt niet veranderd.

Nvidia-ceo Jen-Hsun Huang heeft de Tesla V100 aangekondigd op de Gpu Technology Conference van het bedrijf en op het devblog van Nvidia is uitgebreide informatie verschenen over de Volta-gpu. Het is de eerste keer dat Nvidia details geeft over de Volta-gpu, die de huidige Pascal-gpu zal opvolgen. In eerste instantie wordt Volta toegepast in de Tesla V100-accelerator, die in het derde kwartaal op de markt zal komen. Diezelfde weg volgde Nvidia met de Pascal-gpu, die eerst in de Tesla P100 terecht kwam.

Nvidia gaat ook serversystemen uitbrengen die meerdere van de kaarten bevatten, net als het eerder deed met de Tesla P100 op basis van de Pascal-gpu. De DGX-1V komt in het vierde kwartaal beschikbaar voor 149.000 dollar en is uitgerust met acht Tesla V100-kaarten. Ook komt Nvidia met een kleinere versie, die als 'persoonlijke supercomputer' kan worden ingezet: de 69.000 dollar kostende DGX Station. De computer beschikt over vier Tesla V100-kaarten, is uitgerust met waterkoeling en beschikt over een 1500W-voeding.

Over GeForce-videokaarten voor gamers met een Volta-gpu heeft Nvidia nog niets bekendgemaakt. Waarschijnlijk komen er volgend jaar consumentenvideokaarten met de nieuwe gpu, maar dan met aangepaste configuraties die minder zijn gericht op taken als deep learning.

Tesla-accelerators	Tesla V100	Tesla P100
GPU	GV100 (Volta)	GP100 (Pascal)
Sm's	80	56
Tpc's	40	28
FP32 cudacores / sm	64	64
FP32 cudacores / gpu	5120	3584
FP64 cudacores / sm	32	32
FP64 cudacores / gpu	2560	1792
Tensor Cores / sm	8	-
Tensor Cores / gpu	640	-
Baseclock	onbekend	1328MHz
Gpu-boostclock	1455MHz	1480MHz
Singleprecision	15tflops	10,6tflops
Doubleprecision	7,5tflops	5,3tflops
Tensor Core-prestaties	120tflops	-
Texture Units	320	224
Geheugeninterface	4096bit hbm2	4096bit hbm2
Geheugengrootte	16GB	16GB
L2-cache	6144KB	4096KB
Register file size / sm	256KB	256KB
Register file size / gpu	20480KB	14336KB
Tdp	300 watt	300 watt
Transistors	21,1 miljard	15,3 miljard
*Gpu die-formaat*	815mm²	610mm²
Ontwerpproces	12nm FFN (tsmc)	16nm finfet+ (tsmc)

Reacties (58)

Verwijderd 10 mei 2017 20:30

Is die 15tflops fp32 goed voor gaming? In dat geval verwacht ik richting 16tflops van gaming varianten, oftewel meer dan vega, maar volta komt wel later naar enthusiasts.

dacht dat fp64 voor games was, maar dat is uiteraard fp32. 7.5tflops zou wel erg weinig zijn voor een nieuwe architectuur.

[Reactie gewijzigd door Verwijderd op 23 juli 2024 09:08]

DoubleYouPee @Verwijderd • 10 mei 2017 20:35

7.5tflop FP64
15tflop FP32
30tflop FP16

Oftewel 15tflop als je wilt vergelijking met huidige GPUs

[Reactie gewijzigd door DoubleYouPee op 23 juli 2024 09:08]

Werelds

Nvidia
Videokaarten

@Verwijderd • 10 mei 2017 20:34

Dat is double precision ofwel FP64. Single precision / FP32 is het aantal FLOPS waar je als gamer normaal gesproken naar kijkt

Verwijderd @Werelds • 10 mei 2017 20:38

zag het net ook. Bedankt!

Ik ga in ieder geval voor vega, want op een gegeven moment wordt die extra power overkill voor 3440x1440. 4k is een ander verhaal uiteraard.

[Reactie gewijzigd door Verwijderd op 23 juli 2024 09:08]

Finntasy @Verwijderd • 10 mei 2017 20:42

Welke 3440x1440 monitor heb je trouwens? Veel 1440p ultrawides hebben Freesync dus dan is dat ook mooi meegenomen.
Maar ja denk dat of de middelste of de top-of-the-line Vega kaart heel fijn zal zijn voor 1440p ultrawide.

Verwijderd @Finntasy • 10 mei 2017 20:58

Ik ga die ene freesync philips monitor kopen, want die is niet heel duur, past goed bij mijn kamersetup en heeft 40-100hz freesync. Deze: pricewatch: Philips Curved UltraWide LCD-scherm 349X7FJEW/00 Wit

[Reactie gewijzigd door Verwijderd op 23 juli 2024 09:08]

Finntasy @Verwijderd • 10 mei 2017 21:28

Die en de pricewatch: Asus Designo Curve MX34VQ Zilver, Zwart zijn allebij idd erg goede keuzes, veel plezier ermee!

Roel911 @Verwijderd • 10 mei 2017 23:05

Volgens pricewatch heeft die monitor een refresh rate van 60Hz. Meer FPS in games op die monitor is dan zinloos.

Verwijderd @Roel911 • 10 mei 2017 23:32

Pricewatch is fout. Freesync is 40-100hz volgens meerdere winkels, en je kan het zien aan de vertical scanfrequentie van 40-100hz. Veel 144hz monitoren hebben trouwens vertical scan van x-146hz om wat voor reden dan ook.

[Reactie gewijzigd door Verwijderd op 23 juli 2024 09:08]

un1ty @Verwijderd • 11 mei 2017 02:33

verticale scan frequentie != refresh rate.

Hoewel ze wel invloed hebben op de refresh rate zijn ze niet hetzelfde! De door jou aangegeven monitor heeft volgens philips specsheet: "Optimale resolutie 3440 x 1440 bij 60Hz"

Dit zal dan ook de hoogst instelbare resolutie/frequentie zijn! (tenzij je handmatige resoluties toevoegt/pixel overclocking toepast, wat niet tot gegarandeerde prestaties leid).

Kleine edit: volgens reviews, de resolutie kan oplopen tot 100Hz echter moet je hiervoor een FreeSync ondersteunende grafische kaart hebben. Heb je dit niet, ben je gebonden aan 60Hz.

Ontopic:
Overigens ben ik zeer benieuwd naar de opkomende Volta desktop GPU's, ik hoop dat ze dat niet te lang uitstellen, want ik zoek nog een nieuwe laptop en zou graag zo'n nieuw monstertje erin willen hebben. Zeker nu de desktop en mobile lijnen dichter bij elkaar komen te liggen!

[Reactie gewijzigd door un1ty op 22 juli 2024 16:22]

Verwijderd @un1ty • 11 mei 2017 07:05

Zei alleen dat je kan zien aan de verticale scan frequentie dat die 60 hz nooit juist kan zijn tenzij er een oude dp of hdmi aansluiting op zit of zo. 40-100hz vertical scan maakt het onlogisch om slechts max. 60hz freesync te hebben, dus dat vond ik wat verdacht.

[Reactie gewijzigd door Verwijderd op 23 juli 2024 09:08]

Aerophobia1 @Verwijderd • 11 mei 2017 10:59

Welke Vega? Eerst zien dan geloven. nVidia heeft vast passend antwoord op Vega.

Enchantress @Verwijderd • 10 mei 2017 20:50

Deze gpu is totaal niet te vergelijken met gaming GPU's. Verwacht niet dat bv de 2070 prestaties heeft van de TitanXp, het zou rond de 20 a 25% meer performance zijn. Van de 980 naar de 1080 was 30% als het goed is.

Dus bv de GTX 2070 AF zou dan dezelfde prestaties hebben als de 1080FE nu.

[Reactie gewijzigd door Enchantress op 23 juli 2024 09:08]

OriginalFlyingdutchman @Enchantress • 11 mei 2017 01:30

De 980 naar 1080 was ongeveer 80%. Hoe komt je op die 30?

WCA

@Enchantress • 10 mei 2017 20:55

2070? Dat is nog 10 generaties ver weg

Verwijderd @WCA • 10 mei 2017 20:57

of 1170., naamgeving is nog onbekend dus gebruikt men 20xx en 11xx door elkaar.

Mighty_Mediocre @WCA • 11 mei 2017 12:25

Ik geloof dat de Volta lijn 20xx gaat heten. Bindt me er niet op vast hoor, kan de bron er niet van vinden

cappie @Enchantress • 11 mei 2017 16:19

Sterker nog, het kunnen weergeven van 3D beeld is zelfs achtergesteld op dit ding.. Deze GPU is echt ALLEEN bedoeld voor gebruik voor CUDA-powered deep learning algo's.

Dit ding is echt een BEEST.. ben echt benieuwd wat voor 'n magische neural network performance ze hier uit kunnen halen

[Reactie gewijzigd door cappie op 23 juli 2024 09:08]

bartios @Verwijderd • 10 mei 2017 20:45

vergeet niet dat het dan wel over double precision operaties gaat, als je tflops hoort gaat het meestal over fp32 oftewel single precision. Je kan in de tabel zien dat hij single precision 15tflops haalt, dat lijkt er meer op.

ik had zelf ook wel kunnen bedenken dat anderen me voor zouden zijn

[Reactie gewijzigd door bartios op 23 juli 2024 09:08]

Verwijderd @Verwijderd • 10 mei 2017 22:01

Want de GP102 had ook meer FP32 shaders dan de volledige gp100 core ?

Nee dus

Daarom verwacht of hetzelfde aantal Tflops of juist wat minder om de diesize in te perken en winstmarges te verhogen dus 13/14 tflops verwacht ik.

DamirB @Verwijderd • 11 mei 2017 01:00

Dit soort kaarten zijn niet gemaakt voor gamen en zijn gericht op AI

[Reactie gewijzigd door DamirB op 23 juli 2024 09:08]

dehardstyler 10 mei 2017 20:46

Wie heeft wat meer informatie over dat "sm rf" geheugen? Klinkt erg interessant. Als ik het op Google intyp zie ik geen informatie over dit geheugen.

Pmf1971 @dehardstyler • 10 mei 2017 23:52

reference file static memory vermoed ik. Static memory gebruikt meer transistoren maar is ook vele malen sneller dan "normaal" cache geheugen en belangrijker nog: het hoeft niet gerefreshed to worden, waardoor de data continue gelezen/geschreven kan worden zonder last te hebben van de onderbrekingen die normaal nodig zijn voor de CAS/RAS refresh. Vergelijk het met burst mode transfer rates maar dan continu.

[Reactie gewijzigd door Pmf1971 op 23 juli 2024 09:08]

Lethalshot @Pmf1971 • 11 mei 2017 07:22

Cache geheugen is altijd SRAM oftewel static en hoeft dus nooit gerefresht te worden. De refresh die jij beschrijf is nodig voor DRAM, maar DRAM kan je niet maken in een high performance process waardoor altijd al het cache geheugen met SRAM cellen wordt gebouwd.

Zover ik heb begrepen is sm rf memory geheugen wat lokaal voor elke sm unit wordt gebruikt. Iedere sm unit krijgt een stukje van dit geheugen wat niet gedeeld wordt met andere sm units. Cache geheugen wordt gedeeld voor de hele chip (mbv cache coherency protocollen) en dit geheugen juist niet.

Verwijderd @Pmf1971 • 11 mei 2017 08:01

20MB SM RF lijkt mij te verwijzen naar "Register file size / gpu 20480KB"

Hier is trouwens meer over de liveblog keynote terug te vinden (van afgelopen nacht)!
https://www.gizmodo.com.a...-2017-technology-keynote/

En als ik deze doorlees verwacht ik dat het dus Shared Memory Register File betekend.

[Reactie gewijzigd door Verwijderd op 23 juli 2024 09:08]

Pmf1971 @Pmf1971 • 13 mei 2017 02:15

I stand corrected.

Astennu

Videokaarten
Nvidia

10 mei 2017 23:00

Wat een monster! Met 815mm2 is dit. Volgens mij de grootste gpu ooit gebakken. Zal een kostbare chip worden. Want je gaat er niet veel uit een Waver halen. De overstap naar 12nm is ook al snel. Ben benieuwd of desktop gaming kaarten ook op 12nm gemaakt worden.

Verwijderd @Astennu • 10 mei 2017 23:04

waarschijnlijk wel maar het is geen echte 12nm, het is de 4de generatie 16nm die ze omgelabeld hebben naar 12nm

Astennu

Videokaarten
Nvidia

@Verwijderd • 10 mei 2017 23:08

Had begrepen dat 16nm gmvan tsmc meer leek op 14nm van samsung qua gate grote. Wellicht dat ze de de transistors toch hebben weten te verkleinen met wat proces tweaks?

Verwijderd @Astennu • 10 mei 2017 23:12

Dacht dat die van Samsung/Global foundries net iets kleiner was
https://ic.tweakimg.net/c...images%2F6deformation.jpg

Maar zal wel vergelijkbaar zijn bij de nieuwere versies

Als je kijkt naar transitor/mm2 ratio is het niet heel erg vooruitgegaan

16nm: 15.3BT/ 610mm2 = 25MT/ mm2
12nm: 21BT/ 815mm2 = 25.7MT/ mm2

[Reactie gewijzigd door Verwijderd op 23 juli 2024 09:08]

Pmf1971 @Astennu • 10 mei 2017 23:59

IBM heeft grotere dies gebakken volgens mij. De grootste power5 CPU's 10 jaar geleden waren colossaal. Of heb ik het nou mis...heb niks nagezocht, dit is uit mijn hoofd.

Astennu

Videokaarten
Nvidia

@Pmf1971 • 11 mei 2017 06:10

Ik zeg ook specifiek gpu's en niet Die's in het algemeen. Tot voor kort waren grootste rond de 600mm2.

Rudie_V 11 mei 2017 10:31

Die tensor cores nemen een groot deel van de ruimte in, gaan de consumentenversies deze tensor cores ook krijgen? Heb je er wat aan in games of voor andere dagelijkse desktop toepassingen(mits daarvoor geprogrammeerd wordt natuurlijk)? Of is dit een eerste stap richting AI mogelijkheden op de desktop?
Gezien het nu voor deep learning gepromoot wordt lijkt het mij nog nutteloos voor de consumentenversies, maar het neem wel veel ruimte op de die in.

Hier een link met veeeel meer informatie over de Volta GPU:
https://devblogs.nvidia.com/parallelforall/inside-volta/

MSalters

Kunstmatige intelligentie

@Rudie_V • 11 mei 2017 13:19

Deep Learning is hoe je een AI traint, maar voor eindgebruikers is Inference belangrijker. Dan is het dus belangrijker dat Khronos vorige week de OpenVX 1.2 standarad heetf gereleased, met Neural Network Extensions. Hier zit Intel achter, die kunnen dit met hun geïntegreerde GPU'tjes. Ook AMD zal het wel gaan supporten.

Overigens zal die Tensor unit het ook uitstekend doen in Inference mode, 't is alleen wat overkill. In games zullen de meeste SM's nodig blijven voor graphics, en gebruik je misschien 1 of 2 SM's voor de game AI.

Rudie_V @MSalters • 11 mei 2017 14:13

Ok, de AI in games gebruiken dus niet zoveel rekenkracht als ze maar 1 of 2 sm's gebruiken. Maar met deze tensor cores kunnen deze sm's voor de AI in games dan toch wel weer vrijkomen en gebruikt worden voor graphics als games de AI op de tensor cores gaan draaien? Zal het uiteindelijk niet gaan leiden tot intelligentere bots in games, puur omdat er zoveel rekenkracht beschikbaar is? Kan dit de onvoorspelbaarheid van bots niet gaan vergroten als ze meer rekenkracht te berschikking hebben om in games patronen van spelers te gaan herkennen en hier intelligenter op reageren?
Of bijvoorbeeld fotoherkenning voor thuis. "zoek de foto waarop ik met persoon x bij de gracht staat'... ik noem maar wat.

Op de plaatjes nemen de tensor cores veel ruimte in, het zou zonde zijn als iedereen zo'n rekenkracht thuis heeft, maar nergens voor gebruikt. Dus ik neem aan dat er toch alledaagse toepassingen gaan komen de komende jaren. Of misschien GPU's met veel minder tensor cores in een sm voor consumentenversies?

Ik vind het een interessante ontwikkeling en nVidia lijkt hier toch weer een goede stap gezet te hebben en goed ingezien te hebben dat deep learning heel belangrijk ging worden door speciale cores hiervoor in hun GPU te bouwen. AMD heeft de Vega GPU die rond nu toch eens uit moet komen, maar zo'n performance voor tensors heb ik niet terug gezien in de Vega specificaties. AMD lijkt hiermee toch een stap achter te liggen op de concurrentie en zomaar zulke cores in je ontwerp plakken doe je ook niet, dus misschien duurt het nog 1-2 generaties voordat AMD met iets vergelijkbaar komt? Ook omdat de volgende generatie natuurlijk al ontworpen is.
Wat ik begrepen heb is dat de fp16 performance van huidige videokaart belangrijk is voor deep learning en met zomaar het huidige aantal fp16 cores van de Vega inzetten als tensor cores haal je volgens mij lang niet zo veel performance als de Volta GPU met haar 120 TFLOPS tensor performance(volgens mij is dit voor hedendaags begrippen van 1 chip erg veel?). De Vega heeft 'maar' iets van 24 TFLOPS fp16 performance.

Misschien klopt het niet wat ik hier allemaal type, maar zoveel kennis heb ik er ook niet.

MSalters

Kunstmatige intelligentie

@Rudie_V • 11 mei 2017 16:48

Elke SM heeft 1 tensor core, ze zijn niet los te gebruiken. Maar inderdaad, de grootte van elk van die tensor cores maakt pattern matching efficienter, en AI's potentieel beter,.

Rudie_V @MSalters • 11 mei 2017 17:08

Elke sm heeft 8 tensor cores en de gpu heeft er 640

, zie het grafiekje in het artikel(al is het grafiekje hier op tweakers verkeert gezien de tensor cores per sm en per gpu nog onder de pascal gpu staan, zie anders mijn linkje naar nvidia in mijn initiele comment).

DataCracker 11 mei 2017 00:58

nVidia geeft gelijk al te kennen dat ze geen volledige GV100 chip voor de Tesla V100 gaan gebruiken. Als je kijkt naar het schema van de opbouw van de GPU tel je 42 TPC's en dus 84 SM's. Het laatste getal maal 64 en je komt op 5376 CUDA core's uit. De trend van afgelopen jaren zet zich nog even door, het wachten is weer op een volledig ingeschakelde chip.

Verwijderd @DataCracker • 11 mei 2017 01:01

heeft dat niet gewoon te maken met de yields, dus een bepaalde foutmarge waar ze niet om heen kunnen.

DataCracker @Verwijderd • 11 mei 2017 01:10

Dat klopt. Op zich ook wel logisch, want chips zijn afgelopen jaren steeds complexer geworden waardoor de kans op fouten alsmaar toe neemt. En er moet toch wat verdient worden om het bedrijf draaiende te houden. Dus inderdaad krik je de yields (bruikbare chips) op door onvolledig ingeschakelde chips uit te brengen.

Fredi 10 mei 2017 21:28

Ik wist niet dat samsung ook al HBM2 geheugen maakt. Ik dacht dat dit exclusief door SK Hynix in samenwerking met AMD ontwikkeld werd en een patent werd op genomen. Dan moet Samsung Sk Hynix toch betalen om HBM2 te mogen produceren?

Paprika

Nvidia
Videokaarten

@Fredi • 10 mei 2017 22:46

Nee hoor...
http://www.kitguru.net/co...do-not-collect-royalties/

Fredi @Paprika • 11 mei 2017 22:30

Thanks. Maakt een hoop duidelijk.

Lordfox73 11 mei 2017 13:15

Ik dacht even dat NVidia iets met auto's ging doen...

goarilla @Lordfox73 • 11 mei 2017 23:15

Ze zitten al in de automotive sector (http://www.nvidia.com/obj...e-partner-innovation.html)

Finntasy 10 mei 2017 20:24

Ziet er uit als weer een goede nieuwe generatie voor Nvidia met volta, 12nm zorgt er in dit geval dan ook voor dat er veel meer werkkracht is op hetzelfde wattage.
Ik zie nu trouwens ook hoe groot de die size increase is, dan zal de V100 ook wel meer gaan kosten dan de P100.
Is de GDDR5 in de speclist trouwens een foutje? Want in het artikel staat nog gewoon HBM2.

[Reactie gewijzigd door Finntasy op 23 juli 2024 09:08]

Auteur

Xtuv @Finntasy • 10 mei 2017 20:26

Foutje in de tabel, gefikst

jaquesparblue @Finntasy • 10 mei 2017 21:30

Goede nieuwe generatie? Zo op het oog is het gewoon dezelfde generatie, echter een kleiner procede zodat ze meer cores op de die kunnen proppen.

Ongeveer 50% meer cores, ongeveer 50% meer flops. Niks spannends aan, alleen relatief wat zuiniger maar dat zit in het pakket van de procede verkleining..

YGDRASSIL

10 mei 2017 20:30

De tensorregels staan in de verkeerde kolom. tensorcores/flops staan onterecht bij de P100 en moeten bij de V100 staan..

Auteur

Xtuv @YGDRASSIL • 10 mei 2017 20:34

Whoops. Gefikst

A87 12 mei 2017 02:18

Nog 1 - 2 jaar en dan de 1180 of de 2080!!!!! Eindelijk eens normaal 4k en 144hz.
Tot die tijd is een enkele kaart te traag om minimaal 4k te draaien met 60+fps. Pak em beet 750gbps heb je wel nodig.

Wat dat betreft wachten tot ze eens de 4K 144hz schermen gaan uitrollen..... duurt allemaal wel erg lang met de schermen! Daarna nog een lange poos wachten voordat ze fatsoenlijk geprijsd worden...

[Reactie gewijzigd door A87 op 23 juli 2024 09:08]

Op dit item kan niet meer gereageerd worden.

Lees meer

Reacties (58)

Sorteer op:

Weergave: