Nvidia RTX 2000E ADA-workstationkaart heeft 16GB geheugen en singleslotontwerp

Nvidia introduceert een RTX 2000E ADA-videokaart voor workstations. Het betreft een singleslotvariant van de bestaande RTX 2000 ADA met een lagere tdp. De overige specificaties zijn grotendeels hetzelfde.

De RTX 2000E ADA verscheen onlangs bij videokaartmaker PNY, zo merkte Wccftech op. De videokaart is in veel opzichten gelijk aan de RTX 2000 ADA die eerder al op de markt verscheen. De workstationkaart heeft een AD107-gpu met 2816 CUDA-cores, die is gebaseerd op de Ada Lovelace-architectuur die ook in de RTX 40-serie wordt gebruikt. De nieuwe videokaart krijgt daarnaast opnieuw 16GB aan GDDR6-vram met ecc-ondersteuning op een 128bit-geheugenbus.

Anders dan de bestaande RTX 2000 ADA, heeft de nieuwe E-variant wel een dunner singleslotontwerp. Daarmee wordt de tdp ook verlaagd van 70 naar 50W. Volgens de specificaties presteert de gpu daardoor ook minder goed. Nvidia adverteert met een fp32-rekenkracht van 8,9Tflops, waar dat op 12,0Tflops ligt bij de 'gewone' RTX 2000 ADA.

De videokaart beschikt verder over vier mini-DisplayPort-aansluitingen en beschikt over een PCIe 4.0 x8-interface. Nvidia heeft de videokaart niet formeel aangekondigd, maar bij een Amerikaanse webwinkel wordt een adviesprijs van 849 dollar vermeld, schrijft Wccftech. Omgerekend en met btw komt dat neer op ongeveer 935 euro. Het is echter niet bekend of dit de officiële prijs is. De gewone RTX 2000 heeft een adviesprijs van 625 dollar.

Nvidia RTX 2000E ADANvidia RTX 2000E ADANvidia RTX 2000E ADA

Bron: PNY

Nvidia's RTX 2000E ADA naast de RTX 2000 ADA
Videokaart RTX 2000E ADA RTX 2000 ADA
CUDA-cores 2816 2816
Rekenkracht
(single precision)
8,9Tflops 12,0Tflops
Geheugen 16GB GDDR6 (ecc) 16GB GDDR6 (ecc)
Geheugeninterface 128bit 128bit
Geheugenbandbreedte 224GB/s 224GB/s
Gpu-interface PCIe 4.0 x8 PCIe 4.0 x8
Aansluitingen 4x Mini DisplayPort 1.4a 4x Mini DisplayPort 1.4a
Koeler Singleslot Dualslot
Tdp 50W 70W

Door Daan van Monsjou

Nieuwsredacteur

15-08-2024 • 19:19

66

Reacties (66)

66
65
22
2
0
39
Wijzig sortering
Wat maakt het verschil tussen een game gpu en een workstation gpu? Aansluitingen, drivers?
Er zijn ook bepaalde features zoals VGPU (het kunnen virtualiseren van GPU's) wat op moderne generaties alleen werkt op workstation kaarten. Volgens mij werkt dat op deze kaart dan net weer niet. Het is een feature waar weinig gamers op zitten te wachten in hun PC, maar kan voor sommige professionele usecases wel handig zijn.
Voor vGPU is een brede geheugenbus ook fijn, aangezien je bij een vGPU relatief vaak geheugen wisselt / wist.
En deze heeft slechts een 128bits bus.

vGPU kaarten van NVIDIA:
https://www.nvidia.com/en...cards-for-virtualization/

Hele lijst:
https://docs.nvidia.com/vgpu/gpus-supported-by-vgpu.html

[Reactie gewijzigd door djwice op 15 augustus 2024 23:18]

Dit soort kaarten worden gebruikt als display adapter naast krachtigere GPUs. Dan kun je de krachtigere GPU in TCC mode zetten zodat hij alleen voor compute gebruikt wordt en Windows geen WDMI calls naar de kaart stuurt.

Dat geeft cores op de TCC kaart volledig over aan compute, wat executietijden van CUDA code ten goede komt.

Aangezien de kleine kaart alleen als display adapter opereert hoeft deze ook niet de meest fantastische specificaties te hebben, gewoon de Windows desktop kunnen laten zien met een fatsoenlijke performance is meer dan genoeg.

Ik heb bijvoorbeeld een NVIDIA T1000 (de workstation variant van de GTX 1650, die iets lager geklokt is) als display adapter hier naast mijn TCC geconfigureerde RTX A4000 zitten.

Maar aangezien de GTX 16xx serie nu obsolete is, heeft NVIDIA een replacement voor die nodig.
Deze kaart is toch overkill om enkel desktop weer te geven?
4 schermen in 4k elk?
Haha, dat kan inderdaad. Serieuze desktop omgeving dan. ;)
Dank je voor deze context!
Bedoel je niet geheugen bandbreedte, want wat maakt de breedte van een bus uit zonder kloksnelheid er naast te plaatsen?

De Tesla M6 is de traagste gpu uit jou lijstjes die vGPU ondersteund.

Tesla M6: 256bit geheugenbus, 160,4GB/s bandbreedte
RTX 2000 ADA: 128bit geheugenbus, 224GB/s bandbreedte.

Lijkt mij dat een rtx 2000 snel genoeg is voor vGPU en dat de latency tussen vram en gpu een stuk lager is dan bij een tesla m6 aangezien ie meer data over een half zo brede bus pompt. Of zie ik iets over het hoofd?

(Ik heb de 2000 gebruikt in men vergelijking, niet de 2000e.)

[Reactie gewijzigd door BlaDeKke op 16 augustus 2024 01:14]

Ik vermoed dat de 224GB/s in het artikel niet klopt omdat andere kaarten met het zelfde type geheugen 14Gbps of 18Gbps hebben voor geheugensnelheid.
Die 224GB/s klopt. Ik weet niet waar je die 14 a 18Gbps vandaan hebt. Om een idee te geven. Die 18Gbps die jij noemt is 2,25GB/s. Dat is minder dan een Geforce 2 MX 400 die 2,7GB/s doet en is gereleased in 2001.

Om dan het andere uiterste op te zoeken. Een 4090 heeft 1008GB/s memory bandwidth. Insane numbers.

[Reactie gewijzigd door BlaDeKke op 16 augustus 2024 11:53]

Verschil tussen geheugenbandbreedte en geheugensnelheid.

In pricewatch stond gister en vanochtend een verkeerde waarde voor geheugensnelheid. Daardoor las ik beide woorden als dezelfde.
Ahja, een enkele geheugenchip op die gpu kan 14Gbps doen. Dat in de specs opgeven is best nutteloos zonder hoeveelheid chips, busbreedte, aantal kanalen, kloksnelheid… die bandbreedte is alles bij elkaar uitgerekend. Veel nuttigere spec imo.
En ondersteuning.
Drivers voornamelijk, en ook de gegarandeerde ondersteuning voor/in bepaalde software. In dit geval ook het gebruik van ECC geheugen, dat zie je meestal ook niet terug in consumentenproducten omdat een fout bitje hier en daar niet zo erg is.
Wel 16GB video geheugen :+ .

Wat je zegt, de drivers en ondersteuning. Vaak zijn ze ook niet zo dik en hebben ze radial fans zodat de lucht uit de kast wordt geblazen, dat zie je tegenwoordig eigenlijk niet meer bij de op game gerichte gpus.
@AverageNL komt ongeveer overeen met een uitvoering: MSI GeForce RTX 2070 Super Gaming X Trio qua flops dus?
Maar dan minder stroom en meer geheugen.
Je kan ze niet een op een vergelijken want het is een andere architectuur. Sinds de 3000 en 4000 series is het aantal TFlops verdubbelt zonder dat je dat ook daadwerkelijk terugziet in echte winst omdat het moeilijk is om alle shader cores constant bezig te houden; dit is wel makkelijker met echte compute workloads, maar bijvoorbeeld niet met games.
Gezien de architectuur Ada is en dus dezelfde architectuur heeft als de 4000 series...
Deze zijn toch bedoeld voor lokaal AI modellen of CAD programma's e.d. draaien?
Daar doelde ik op met vergelijken voor de TFlops.

Ik snap dat ADA niet bedoeld is om mee te gamen.

De 2070S heeft:
9.1 TFLOPS INT32/FP32
72 Tensor TFLOPS.
en gebruikt 215W en heeft 8GB.

De RTX 2000E ADA
8.9 TFLOPS INT32/FP32
71 Tensor TFLOPS (INT8/FP8)
en gebruikt 50W en heeft 16GB.

[Reactie gewijzigd door djwice op 15 augustus 2024 20:50]

Duidelijk, ik denk persoonlijk dat het heel erg per workload kan verschillen gewoon omdat de architectuur anders is. Nu kan ik dat niet hard maken omdat er nauwelijks reviews van zijn, wat jammer is omdat het wel zeker interessant is.
Ada is ook de architectuur voor de gaming lijn van videokaarten. Het betekent dus niet dat ze niet voor gamen zijn bedoelt.

Maar om een voorbeeld te geven van mijn vorige verhaal:
https://www.techpowerup.c...geforce-rtx-2080-ti.c3305
https://www.techpowerup.com/gpu-specs/geforce-rtx-3070.c3674
https://www.techpowerup.c...ce-rtx-4060-ti-8-gb.c3890

De RTX 3070 heeft 51% meer TFlops FP32 dan een 2080Ti en is maar 5% sneller. De RTX 4060 Ti heeft 64% meer TFlops FP32 en is net iets trager dan een 2080Ti.
Voor mij is die website niet duidelijk (mobiel).
Hoe zie ik die snelheidsverschillen?
En bij welk type workload is dat?
Based on TechPowetUp review data: "Performance Summary" at 4K for 2080 Ti and faster.
https://tweakers.net/pric.../1933234;1603564;1236053/

De 2080 Ti heeft 11GB geheugen, de andere twee 8GB. En de geheugenbus is 368bit versus 256 en zelfs 128bits bij de 4060 Ti.

Dat zijn dus wellicht bottlenecks.
De 2000E heeft ook slechts een 128bits geheugenbus, maar is wel 224Gbps i.p.v. 14Gbps/18Gbps qua doorvoer snelheid.

Dus het kan inderdaad zijn dat die 128bits bus de bottleneck vormt t.o.v. de 368bit van de 2080Ti of 256bits van de 2070 Super.
Hangt er ook vanaf wellicht hoevaak het ding dat je doet nieuwe data moet laden of verplaatsen in het geheugen tussen operaties door. Hoe meer berekeningen op de uitkomst van de data die al lokaal is voor de core, hoe meer voordeel je hebt van snellere cores en snel geheugen.
Hoe vaker je data moet verplaatsen of moet inladen hoe sneller je de 128bits bottleneck zult voelen t.o.v. je 2080Ti. Inladen is immers een dure operatie voor GPU's gemeten in cycli en als de bandbreedte dan ook nog beperkt is helpt dat niet.

[Reactie gewijzigd door djwice op 15 augustus 2024 23:09]

En bij welk type workload is dat?
Deze zijn gericht op zakelijke markt,
betreft gaming, kan k zonder de benchmarks te bekijken gokken dat t vanaf nn 2080ti geen noemswaardige upgrade zou zijn, tenzij je met n power budget zit
Het zijn valide punten die je maakt, maar er is sinds de 3000 series gewoon een verdubbeling van de shader units per SM. Ze hebben natuurlijk ook weer een verbetering in bijv. delta color compression en de cache zal op de nieuwe generatie ook weer groter zijn.
Kijk anders eens naar de RTX 3080, enorm veel meer compute met FP32 (29TFlops vs 13TFlops) en maar 30% sneller. Het type workload is in dit geval gaming en met name FP32 (wat bij gaming belangrijk is), in compute is het verschil beter.
Daarnaast zijn er reviews te vinden waarin ze kijken hoeveel winst je kan halen met het overclocken van het geheugen op een gpu, en vaak zijn gpus zo getuned dat een veel hogere geheugen snelheid vrij weinig uitmaakt (schaling is niet meer linear).

Als je serieus meer over de architectuur wilt weten dan raad ik je aan posts te lezen van Werelds of Daniel in het Nvidia nieuwsdiscussie topic. Die kunnen het weer een stuk beter uitleggen en volgen het meer dan ik.
En inderdaad bekijk het niet via je mobiel ;).
De 2000E heeft ook slechts een 128bits geheugenbus, maar is wel 224Gbps i.p.v. 14Gbps/18Gbps qua doorvoer snelheid.
Je haalt hier dingen door elkaar. De 14Gbp/s en 18Gb/s is de snelheid van het geheugen, dat in combinatie met de bus breedte en dan kom je op getallen zoals 224GB/s (wat juist erg traag is).
Stel je geheugen is 14Gb/s en je hebt een bus van 128bits dan is de formule:
128 * 14 / 8 = 224GB/s

[Reactie gewijzigd door Sp3ci3s8472 op 16 augustus 2024 08:27]

Hier hetzelfde, GB/s, geen Gbps of Gbs wat dat ook mag zijn.
Oh crap, Gb/s is bits. We doen al / 8 dus het zijn bytes. Ik ga het aanpassen ;).

Eigen schuld als ik nog een post zo laat maak.

[Reactie gewijzigd door Sp3ci3s8472 op 16 augustus 2024 08:29]

Is het dan verkeerd ingevoerd op
uitvoering: PNY NVIDIA RTX 2000E Ada Generation

Want daar staat geheugen snelheid 224Gbps en bij de anderen staat 14Gbps / 18 Gbps.
https://tweakers.net/pric...;1933234;1603564;1236053/
Tweakers pricewatch heeft vaker niet volledige informatie. TPU is een betere bron.
Dit moet dus GB/s zijn geen Gbps. Groot verschil.
Er staat in de specs op tweakers:
https://tweakers.net/pric...;1933234;1603564;1236053/
Gbps als eenheid bij geheugensnelheid.

Is de spec van de 2000E niet correct ingevoerd?

[Reactie gewijzigd door djwice op 16 augustus 2024 06:56]

Dat zal dan wel zo zijn. Geheugen bandbreedte bij GPU’s wordt meestal in GB/s weergegeven. 28GB/s is wel heel karig voor een moderne gpu :)
Hoe hebben ze de lagere TDP-waarde (vermoedelijk) bereikt? Een lagere clocksnelheid? of zijn er nog meer technieken waarmee dit kan?
Als je een 4070 zou downclocken tot deze even snel is als een 4060, dan zou de 4070 zuiniger zijn voor dezelfde performance. Dit is het principe van de quadro kaarten.

De Quadro kaarten hebben dezelfde GPU-die als gaming varianten, maar laten deze op lagere kloksnelheid draaien waardoor ze efficienter kunnen zijn op dezelfde performance. (en ze hebben meer vram)

[Reactie gewijzigd door Osiummaster op 16 augustus 2024 12:43]

TSMC weet meestal na een paar maanden nog wat extra uit een bestaand proces te wringen. Dan heb je net zoveel nanometer maar een paar Watt minder.
Dit soort spul is leuk voor in een Minisforum MS-01.

1 slot variant van de RTX A2000 kon trouwens al met een mod:
https://n3rdware.com/acce...gle-slot-rtx-a2000-cooler
(mits het niet alweer uitverkocht is)

[Reactie gewijzigd door Xiranhi op 15 augustus 2024 22:32]

Jammer alleen dat je er niet 2 in kan hangen.
Want? CUDA doet niet moeilijk.
maakt niet uit, n moederbord dat gemaakt is om meerdere gpu's te draaien heeft vaak extra stroom voorziening daar, om die reden :)

Op consumer markt is sli dood, en daar (consumer) is dit ook niet voor gemaakt
En dus? De PCIe limiet is per slot.
Je hebt gelijk maar als je geen bord hebt waar je extra power connectors naast het PCIe slot hebt dan zit je alsnog aan de power limit. Je moet ook niet willen dat je meer dan 75W vanaf je main EPS aansluiting moet doorsluizen naar je PCIe power delivery want dat is een hoop verwarmd koper.
Niet elke computer is een desktop PC met ATX voeding. Dit is een kaart voor workstations.
Niet iedere workstation heeft extra power delivery op PCIe :+
Potato, tomato, punt is dat jullie allebei gelijk hebben, "it depends" is het antwoord.
Eerlijk gezegt dit soort kaart lijkt me well leuk, zeker voor in servers want dan hoef je geen externe power te brengen. Ik heb op dit moment een P2000, maar ik zat te kijken om een A380 te halen voor de AV1 support, maar dit ziet er ook leuk uit(over een paar jaar waneer hij goed op de tweedehands komt).
Goed punt, hij moet low power kunnen transcoden
Transcoding neemt normaliter maar een fractie van de TDP.
Als de codes hw transcoding hebben op de kaart toch? Av1 kan best wel populair worden
Ideaal kaartje voor in m'n QNAP NAS, als ze de drivers ooit eens bijwerken want die stammen nog uit 2022.
De logica om deze kaart in een QNAP NAS te stoppen ontgaat mij compleet, kan je die uitleggen? klinkt een beetje als overkill
Virtualisatie, QuMagie, AI Core, video transcoding voor o.a. Plex, etc.
Wat is "ffs"?
Gebruikers benchmark data over veel gebruikers kan relevant zijn, zoals bij https://opendata.blender.org/
=> https://opendata.blender.....1.0&group_by=device_name

Kijken we naar Tom's stable diffusion test
https://cdn.mos.cms.futur...aVJNYgA4LbBhuJ-970-80.png
dan komt dat redelijk overeen met de user test die je verwerpt.

En dacht dat "slim" (eerste link) voor smal profiel staat.
En de tweede die ik linkte refereerde aan de kortere (half length) kaart waar @ari2asem het over had.

[Reactie gewijzigd door djwice op 16 augustus 2024 00:51]

4 🦊 ache. Lees dat maar eens hardop.
Zelfs deze krijgt dus wel 'gewoon' 16gb vram 😅
Perfecte Stable Diffusion GPU.

Op dit item kan niet meer gereageerd worden.