Nvidia heeft de pci-e-variant van de Tesla V100-accelerator aangekondigd. Er verschijnt n uitvoering, die van 16GB hbm2-geheugen is voorzien. De insteekkaart maakt gebruik van de volledige Volta-gpu met 5120 cudacores, maar is iets lager geklokt dan de versie met Nvidia's eigen interconnect.

De pci-e-variant van de Tesla V100 kan door computerfabrikanten in reguliere systemen en servers gestopt worden. Dat kan niet met de hpc-kaart van Nvidia zelf, die over een zelf ontwikkelde Mezzanine-connector beschikt en gebruikmaakt van de nvlink-interconnect. Nvidia kondigde die sxm2-versie van de Tesla V100 in mei aan en heeft nu ook de pci-e-variant getoond.

Net als bij de pci-e-versie van voorganger P100 het geval was, is de pci-e-versie van de Tesla V100 iets langzamer dan de sxm2-uitvoering. Ook is de tdp met 250 watt iets lager. Dat komt door de lagere kloksnelheid van de gpu. Niet langer maakt Nvidia twee varianten, er is alleen een uitvoering met de volledige gpu. Van de Tesla P100 was er nog een goedkopere versie met minder ram.

Volgens Nvidia komen de Tesla V100-kaarten in pci-e-uitvoering 'later dit jaar' beschikbaar in systemen van partners, waaronder HPE. AnandTech schrijft dat Nvidia ook een aantal nieuwe details heeft vrijgegeven over de Volta-gpu en heeft die in een tabel samengevoegd met de reeds beschikbare informatie.

Een van de grootste vernieuwingen van de V100 ten opzichte van de P100 is de toevoeging van nieuwe Tensor Cores, die gespecialiseerd zijn in het trainen van neurale netwerken. In totaal heeft de GV100-gpu 640 van deze Tensor Cores: acht per sm. Nvidia claimt enorme prestatiewinsten bij toepassingen die hier gebruik van kunnen maken. Bij reguliere fp32- en fp64-berekeningen is de GV100 ongeveer 1,5 keer zo snel als de GP100.

Tesla V100

(SXM2) Tesla V100

(PCIe) Tesla P100

(SXM2) Tesla P100

(PCIe) Cudacores 5120 5120 3584 3584 Tensor cores 640 640 N/A N/A Coresnelheid ? ? 1328MHz ? Boostclock 1455MHz ~1370MHz 1480MHz 1300MHz Geheugensnelheid 1.75Gbps HBM2 1.75Gbps HBM2 1.4Gbps HBM2 1.4Gbps HBM2 Geheugenbus 4096-bit 4096-bit 4096-bit 4096-bit Geheugenbandbreedte 900GB/sec 900GB/sec 720GB/sec 720GB/sec Vram 16GB 16GB 16GB 16GB L2-cache 6MB 6MB 4MB 4MB Half Precision 30 tflops 28 tflops 21.2 tflops 18.7 tflops Single Precision 15 tflops 14 tflops 10.6 tflops 9.3 tflops Double Precision 7.5 tflops

(1/2 rate) 7 tflops

(1/2 rate) 5.3 tflops

(1/2 rate) 4.7 tflops

(1/32 rate) Tensor Performance

(Deep Learning) 120 TFLOPS 112 TFLOPS N/A N/A Gpu GV100 (815mm2) GV100 (815mm2) GP100 (610mm2) GP100 (610mm2) Transistors 21 miljard 21 miljard 15.3 miljard 15.3 miljard TDP 300W 250W 300W 250W Form Factor Mezzanine (SXM2) PCIe Mezzanine (SXM2) PCIe Procedé TSMC 12nm FFN TSMC 12nm FFN TSMC 16nm FinFET TSMC 16nm FinFET Architectuur Volta Volta Pascal Pascal

Tesla V100 vs P100 - Tabel afkomstig van AnandTech.