Nvidia heeft de pci-e-variant van de Tesla V100-accelerator aangekondigd. Er verschijnt één uitvoering, die van 16GB hbm2-geheugen is voorzien. De insteekkaart maakt gebruik van de volledige Volta-gpu met 5120 cudacores, maar is iets lager geklokt dan de versie met Nvidia's eigen interconnect.
De pci-e-variant van de Tesla V100 kan door computerfabrikanten in reguliere systemen en servers gestopt worden. Dat kan niet met de hpc-kaart van Nvidia zelf, die over een zelf ontwikkelde Mezzanine-connector beschikt en gebruikmaakt van de nvlink-interconnect. Nvidia kondigde die sxm2-versie van de Tesla V100 in mei aan en heeft nu ook de pci-e-variant getoond.
Net als bij de pci-e-versie van voorganger P100 het geval was, is de pci-e-versie van de Tesla V100 iets langzamer dan de sxm2-uitvoering. Ook is de tdp met 250 watt iets lager. Dat komt door de lagere kloksnelheid van de gpu. Niet langer maakt Nvidia twee varianten, er is alleen een uitvoering met de volledige gpu. Van de Tesla P100 was er nog een goedkopere versie met minder ram.
Volgens Nvidia komen de Tesla V100-kaarten in pci-e-uitvoering 'later dit jaar' beschikbaar in systemen van partners, waaronder HPE. AnandTech schrijft dat Nvidia ook een aantal nieuwe details heeft vrijgegeven over de Volta-gpu en heeft die in een tabel samengevoegd met de reeds beschikbare informatie.
Een van de grootste vernieuwingen van de V100 ten opzichte van de P100 is de toevoeging van nieuwe Tensor Cores, die gespecialiseerd zijn in het trainen van neurale netwerken. In totaal heeft de GV100-gpu 640 van deze Tensor Cores: acht per sm. Nvidia claimt enorme prestatiewinsten bij toepassingen die hier gebruik van kunnen maken. Bij reguliere fp32- en fp64-berekeningen is de GV100 ongeveer 1,5 keer zo snel als de GP100.
Tesla V100 (SXM2) |
Tesla V100 (PCIe) |
Tesla P100 (SXM2) |
Tesla P100 (PCIe) |
|
Cudacores | 5120 | 5120 | 3584 | 3584 |
Tensor cores | 640 | 640 | N/A | N/A |
Coresnelheid | ? | ? | 1328MHz | ? |
Boostclock | 1455MHz | ~1370MHz | 1480MHz | 1300MHz |
Geheugensnelheid | 1.75Gbps HBM2 | 1.75Gbps HBM2 | 1.4Gbps HBM2 | 1.4Gbps HBM2 |
Geheugenbus | 4096-bit | 4096-bit | 4096-bit | 4096-bit |
Geheugenbandbreedte | 900GB/sec | 900GB/sec | 720GB/sec | 720GB/sec |
Vram | 16GB | 16GB | 16GB | 16GB |
L2-cache | 6MB | 6MB | 4MB | 4MB |
Half Precision | 30 Tflops | 28 Tflops | 21,2 Tflops | 18,7 Tflops |
Single Precision | 15 Tflops | 14 Tflops | 10,6 Tflops | 9,3 Tflops |
Double Precision | 7,5 Tflops (1/2 rate) |
7 Tflops (1/2 rate) |
5,3 Tflops (1/2 rate) |
4,7 Tflops (1/2 rate) |
Tensor Performance (Deep Learning) |
120 Tflops | 112 Tflops | N/A | N/A |
Gpu | GV100 (815mm2) | GV100 (815mm2) | GP100 (610mm2) | GP100 (610mm2) |
Transistors | 21 miljard | 21 miljard | 15.3 miljard | 15.3 miljard |
TDP | 300W | 250W | 300W | 250W |
Form Factor | Mezzanine (SXM2) | PCIe | Mezzanine (SXM2) | PCIe |
Procedé | TSMC 12nm FFN | TSMC 12nm FFN | TSMC 16nm FinFET | TSMC 16nm FinFET |
Architectuur | Volta | Volta | Pascal | Pascal |
Tesla V100 vs P100 - Tabel afkomstig van AnandTech.