Nvidia introduceert pci-e 4.0-insteekkaart met A100-accelerator

Nvidia heeft een pci-e-insteekkaart van zijn A100-accelerator met GA100-gpu op basis van de Ampère-architectuur aangekondigd. Diverse fabrikanten hebben serverhardware aangekondigd waar de kaarten in gebruikt worden.

De GA100-gpu op de Nvidia A100-pci-e-insteekkaart heeft dezelfde specificaties als de sxm4-variant die Nvidia eerder aankondigde, maar vanwege de aangepaste formfactor is de tdp verlaagd van 400W naar 250W. Dat is nodig omdat systemen met insteekkaarten minder efficiënt gekoeld kunnen worden dan systemen die de sxm4-modules gebruiken.

Volgens Nvidia zijn de piekprestaties van de pci-e-kaart gelijk aan die van de module, maar kan de insteekkaart de maximale prestaties minder lang volhouden. De fabrikant geeft aan dat de nieuwe insteekkaart 90 procent van de prestaties biedt ten opzichte van de sxm4-module. Het verbruik is echter ook een stuk lager, door de lagere tdp.

Nvidia A100-pci-e-insteekkaart

Bij de aankondiging noemt Nvidia een flinke lijst van fabrikanten die de A100-accelerator zullen aanbieden in rackservers. Het gaat om Asus, Atos, Cisco, Dell, Fujitsu, Gigabyte, HPE, Inspur, Lenovo, One Stop Systems, Quanta/QCT en Supermicro. Fabrikanten kunnen meerdere van de kaarten combineren, Gibabyte maakt bijvoorbeeld een server met tien A100-kaarten. Vermoedelijk gebruiken de fabrikanten de A100-pci-e-kaarten in combinatie met AMD Epyc-processors. Dat zijn momenteel de enige serverprocessors met pci-e 4.0-ondersteuning.

Halverwege mei kondigde Nvidia zijn Ampère-architectuur voor gpu's aan. De GA100 is de grootste chip en die is bedoeld voor gebruik in datacenters. De volledige GA100 wordt gebruikt op de A100-accelerator, die Nvidia zelf uitbrengt in sxm4-formfactor en toepast in zijn DGX-systemen. De chip wordt gemaakt op 7nm en heeft een oppervlak van 826mm². De GA100-gpu heeft 6912 cudacores en is gecombineerd met 40GB hbm2. Nvidia gaat de Ampère-gpu later ook in andere configuraties gebruiken voor GeForce-videokaarten.

Nvidia A100
Nvidia A100-accelerator als sxm4-module

Door Julian Huijbregts

Nieuwsredacteur

22-06-2020 • 17:00

30

Lees meer

Reacties (30)

30
30
14
5
0
14
Wijzig sortering
"Zelfde specificaties als de sxm4-variant die Nvidia eerder aankondigde, maar door de aangepaste formfactor is de tdp verlaagt van 400W naar 250W.
+
De fabrikant geeft aan dat de nieuwe insteekkaart 90 procent van de prestaties biedt ten opzichte van de sxm4-module."

Kan me haast niet voorstellen dat die laatste 10% prestaties 150W kost.
Bij het opschroeven van de klokfrequentie van een chip stijgt het stroomverbruik vaak niet lineair, maar exponentieel, terwijl de prestaties wél lineair toenemen. Als ze bij de PCI-e variant dus iets lagere klokfrequenties gebruiken, kan dat enorm schelen in stroomverbruik, terwijl de prestaties slechts een beetje minder worden.
Een beetje pedant, maar schaalt het niet ongeveer kwadratisch i.p.v. exponentieel?
Correct. Om de spanningsveranderingen snel genoeg te houden, moeten de spanningen omhoog, en dat gaat (binnen grenzen) redelijk lineair met de snelheid. De stroom gaat lineair mee omhoog met de spanning (alweer binnen grenzen) en het vermogen gaat daarom dus kwadratisch (P=V*I).

Dit veronderstelt wel dat je't hele zwikje kunt blijven koelen, dus er zijn grenzen aan.
TDP <> verbruik. TDP = Thermal Design Power. Ofwel, hoeveel hitte komt er maximaal vrij bij 100% utilisatie. Dat is dus niet gelijk aan het stroomverbruik. Het verschil zou dus kunnen komen door een aangepast, efficiënter, ontwerp.
Je heb ansich gelijk, maar dat is tegenwoordig niet meer bij 1100% gebruik, maar juist hoeveel het maximaal mag hebben over de lange duur. Vandaar dat de 250W versie slechts tijdelijk naar 90% max snelheid kan schalen, terwijl de 400W voor langere tijd op 1000% kan draaien. Dit omdat de temperatuur bij 150W niet direct van 0 tot 100 gaat, maar dat stijgt en is afhankelijk van hoeveel warmte er afgevoerd kan worden. Zoals de fabrikant aangeeft kan dit bij het 250W model een heel stuk lastiger dan bij het 400W model. Dus zit het 250W model veel sneller aan de max werkbare temperatuur dan het 400W model.
Als het niet vrijkomt als hitte, als wat komt het dan wel vrij?
Patriot heeft gelijk.

Uiteindelijk komt álle energie die een PC in gaat eruit alszijnde hitte, geluid of licht.. en je kan in principe stellen dat geluid en licht 'indirecte' vormen van hitte zijn want die worden ook omgezet in hitte door hetgeen het tegenaan kaatst.
Er zijn geen uitzonderingen.

Als jou CPU 250 watt verbruikt dan produceert hij dus, zonder uitzondering, ook 250 watt aan warmte.


(p.s. de enige uitzondering is wellicht de energie die door je netwerkkabel loopt naar buiten toe.. maar dat vereist dus dat je méér upload dan download.. anders is het alsnog netto meer watt aan warmte dat je huis binnen komt dan dat er watt aan 'potentiële warmte' je huis verlaat.. maar of het nou via fiber, coax of adsl is, dat is allemaal niet super energierijk)

[Reactie gewijzigd door Ayporos op 23 juli 2024 20:20]

Het kan het ook verlaten met beweging. Dus het daadwerkelijk draaien van de fans.
Je snapt dat 'warmte' een ander woord voor beweging is hè?
Hoewel de kinetische energie van 'wind' niet per se 'warmte' is, zal dit in principe altijd resulteren in warmte.. tenzij jij toevallig een windmolen achter je pc fan hebt staan welke die kinetische energie weer omzet in elektriciteit :+ .

Maar ja, entropie dicteert natuurlijk dat uiteindelijk álles 'verloren' gaat als warmtestraling.. :+

[Reactie gewijzigd door Ayporos op 23 juli 2024 20:20]

In de huidige era van computer technologie staat dit bijvoorbeeld met CPU technologie vrijwel gelijk. Ik verwacht niet veel anders voor GPU's.
Dat is vrij normaal. Performance loopt niet linear gelijk aan stroomverbruik.
Klopt ja lijkt mij. M'n rx 570 op stock vs overclock zit er misschien 5% verschil tussen en heb ik een extra 20 watt nodig. Tov 130
Mogelijk door de nieuw formfactor lijkt mij.
Wow 6912 cores op 250W met 40GB geheugen, dat is andere koek. Een 2070 Super heeft 2560 cores met 8GB op 215W.

5x meer mem en mee dan 2.5x zo veel cores.

Dat mem is zeer welkom. De cores zijn wellicht trager? Om zo'n wattage te halen of is dat puur 12nm VS 7nm procedé.

Dat 40GB mem is wel lekker, anders swapt de kaart zo maar naar je ddr4 als ie te kort heeft en dat is toch een stuk trager.

[Reactie gewijzigd door djwice op 23 juli 2024 20:20]

De vergelijking die je maakt is nogal vreemd, je vergelijkt nu 2 kaarten die en andere architectures hebben, in een andere makrt segment bevind en compleet andere doeleinden heeft. Ik zal alvast zeggen dat deze kaart ook aanzienlijk duurder is, met trager of vergelijkbare performance in games.
Ik verwees niet naar gamen als toepassing. Ik merk dat mijn gebruik welvaart bij meer geheugen voor de GPU en lees dat de Ampère architectuur efficiënter is, waardoor er bij zelfde stroom verbruik en klok meer cores het werk kunnen doen.

Ik kan me indenken dat bijvoorbeeld AWS deze GPU's zal aanbieden naast de huidige set-up met 40.960 Cuda cores en 5.120 Tensor cores.

Ik kan me ook indenken dat als je dit veel gebruikt het soms slimmer kan zijn ze zelf aan te schaffen.
Ik schat in dat de kaart ongeveer 5 tot 6 keer een 2070 super kost.

[Reactie gewijzigd door djwice op 23 juli 2024 20:20]

Ik dacht echt dat deze reactie over "verlaagd" vs "verlaagt" ging gaan...
Ik wel toevallig vandweek mijn 1070 een 50% power cap gegeven en de prestaties ging bijna niets terug. En een overclock kostte nog veel meer watt. Die laatste paar % kost bakken meet stroom.
Zelfde als mijn 9909k. Standaard bij cinebench is 145 watt. De die hard ln2 overclockers laten die cpu 600 watt uit de muur trekken voor een paar procent hogere prestaties.
Vermoedelijk gebruiken de fabrikanten de A100-pci-e-kaarten in combinatie met AMD Epyc-processors. Dat zijn momenteel de enige serverprocessors met pci-e 4.0-ondersteuning.
Dat hij PCIe 4.0 ondersteund betekent niet dat hij er wat aan heeft natuurlijk.

Nu ben ik absoluut geen expert op dit gebied, dus misschien kan iemand die meer ervaring ermee heeft vertellen of het direct wat toevoegt. Maar bijvoorbeeld als ik het met de consumentenmarkt vergelijk: Een 5700XT heeft ook PCIe 4.0, echter tov PCIe 2.0 is het verschil verwaarloosbaar (nee dat is geen typo waar ik 3.0 bedoelde: https://www.techpowerup.c...radeon-rx-5700-xt/23.html )

Ik kan me voorstellen dat een voordeel van 4.0 is dat je met minder lanes af kan, en je dus meer accelerators op één CPU kan gooien. Dat zal soms een voordeel zijn (omdat je dus meer kan gebruiken per node), soms zal het niks uitmaken (omdat je toch niet van plan was er zoveel per CPU te gebruiken).
PCIe 4.0 heeft dan wel meer bandbreedte en is nodig meestal 'voor de toekomst' maar ook omdat de huidige PCIe 3 al redelijk vol zit als je zo'n 16 van deze GPU kaartjes moet inproppen.

Het feit dat een gamer-CPU zoals een Ryzen PCIe 4.0 niet met genoeg data kan voeren, wil niet zeggen dat andere (eg. de Xeon) of de volgende CPU(s) op hetzelfde formaat/bordje dat niet kunnen. Dat is meer een probleem met de Ryzen en Epyc architectuur dat ze inderdaad veel kunnen rekenen zolang je niet naar het geheugen of de insteekkaarten moet lezen/schrijven, dan zijn ze ~50% trager dan hun Intel-tegenhangers. Misschien geen probleem bij gamers maar bij workstations met een Quadro/Tesla wil je dan wel het extra paar kanalen aan geheugen dat een Xeon CPU geeft.

[Reactie gewijzigd door Guru Evi op 23 juli 2024 20:20]

Tja deze nvidia kaart heeft wel 40GB aan geheugen. Om dat geheugen vol te schrijven of vol uit te lezen heb je dan al ruim een seconde nodig (als er geen enkele andere bottleneck is). Met PCI-E 4.0 halveer je deze tijd.

Het lijkt me ook niet uitzonderlijk dat meerdere van deze kaarten giga hoeveelheden data naar elkaar moeten verplaatsen of onderling moeten delen. Dan is alle bandbreedte welkom.

[Reactie gewijzigd door Gamebuster op 23 juli 2024 20:20]

Maar voor de onderlinge communicatie gebruik je NVLink met 600 GB/s en liever niet de PCIe interface.
Wat als je meer dan 2 kaarten hebt? Also, zie jij een nvlink poort op de foto?

[Reactie gewijzigd door Gamebuster op 23 juli 2024 20:20]

Bij de buren van HWI staat een plaatje met specificaties, daarop staat dat de PCIe versie ook NVLink heeft. Zodoende.
https://nl.hardware.info/...e-ampere-a100-accelerator

Ik weet niet wat de eventuele beperkingen met NVLink zijn bij het PCIe systeem, maar bij het HGX systeem met de SXM versie zijn er NVLink switches.
Is puur hoe snel je de transfers van cpu mem naar gpu mem (en vise-versa) kan uitvoeren.

Als je denk bijvoorbeeld aan "AI":
Training sets kunnen enorm groot zijn. Aangezien de rekenkracht van GPUs hoger is, je bent sneller door je data heen. Dus in dit geval als je cmem en gmem transfer bandbreedte verhoogt, kan t je veel tijd schelen. Neem aan dat data tranfers worden async uitgevoerd.
PCI-E 4.0 heb je wel degelijk wat aan.

Dat 280 euro B550 board (het kleine broertje van het vele duurdere X570 variant 700 a 800 euro) heeft namelijk een wat vreemde lanes op stelling. Je kan daar namelijk 3 PCI-E 4.0 NVME drives in gooien wat zorgt dat de PCI-E X16 slot owrd verlaagt naar 8X nu klinkt dat laag, maar een PCI-E 4.0 X8 slot heeft de zelfde bandbreedte als een X16 PCI-e 3.0 slot.

Als je veel memory speed gevoelige taken doet is dit best een goede configuratie. Om maar even iets te noemen
En een 5700XT draait zo goed als exact even snel op een x8 als een x16 PCIe 3.0 slot, zoals blijkt uit die benchmarks die ik liet zien (x16 PCIe 2.0 == x8 PCIe 3.0).

Als je niet gelimiteerd wordt door PCIe bandbreedte dan maakt het simpelweg niks uit. En of voor datacenter toepassingen die kaarten gelimiteerd worden door PCIe bandbreedte weet ik simpelweg niet :).
Dan maakt het niks uit nee.

Maar dat wilt niet zeggen dat "je er niks aan hebt" want "je" is niet iedereen.

Jij kan niet zeggen wat iemand aan bandbreedte nodig heb. Iemand die veel baat heeft bij memoryspeeds heeft wel degelijk wat aan PCI-E 4.0. Denk aan PC's van kleine animatie studio's. Die kunnen PCI-E 4.0 SSD's prima als scratchdrives gebruiken. Ik denk dat je je blik eens moet verbreden. Dit soort technieken worden niet alleen door gamers gebruikt. PCI-E 4. is wel meer dan alleen de bandbreedte.

Als er meer band breedte is kan je meer PCI-E devices gebruiken. Caputurecards, 10Gbit nics, meer IO, of net wat je nodig kan hebben voor het doel van je PC. Het scenario dat jij uitbeeld heeft niks van doen met de topic in het bericht. In gaming heb je indd weinig aan PCI-E 4.0.

Maar in producties? Wel degelijk. En precies dat van @Vlad86 heeft aangekaart. Dat wij gamers geen PCi-E 4.0 nodig hebben wil niet zeggne dat niemand het nodig heeft. En de doel einden van zo'n kaart, Puur dingen als het geen wat folding at home op stuurt crunchen, dan is PCI-E 4.0 een ENORME uit komst wat zo veel tijd kan schelen waardoor er meer gedaan kan worden in de zelfde tijd.

Die kaart is niet voor gamers, maar renderfarms. Deze kaart gaat ook wat meer kosten dan de PC die jij heb staan.
ben benieuwd of iemand hem te pakken kan krijgen en er benchmarks op gaat draaien

Op dit item kan niet meer gereageerd worden.