RTX 5090 met 128GB aan vram verschijnt in screenshots

Fabrieken in China zouden werken aan RTX 5090-gpu's met daarin 128GB aan vram. Leaker I_Leak_VN stelt dat die kaarten op de markt komen voor iets meer dan 13.000 dollar, waardoor ze voornamelijk geschikt voor zakelijke toepassingen zoals in AI-datacenters.

Leaker I_Leak_VN post op X over prototypes van de RTX 5090-videokaart die momenteel in China worden gemaakt. Daarin zit niet de standaard 32GB-geheugenchip die in de commerciële kaart zit, maar 128GB aan vram.

I_Leak_VN toont geen beelden van de kaart, maar wel screenshots van een interne tool die aangeeft dat de kaart inderdaad 128GB aan geheugen heeft. Specificaties daarvan ontbreken, zoals welke geheugenmodules de kaart bevat. Het gaat in ieder geval om GDDR7-geheugen, waarvan modules 24Gbit groot zijn en dus maximaal 48GB aan vram kunnen hebben. Kaarten met meer dan dat aan vram kunnen een tweezijdig pcb bevatten, maar dan zou de maximale vram-capaciteit op 96GB liggen. Mogelijk hebben de makers van de nieuwe chips dus eigen pcb's gebouwd met verschillende geheugenmodules erop.

Op het screenshot van I_Leak_VN is te zien dat de volledige 128GB aan geheugen wordt herkend, wat erop duidt dat het om meer gaat dan alleen een prototype. Volgens de leaker kost de kaart 13.200 dollar, omgerekend zo'n 11.200 euro, maar het is niet waarschijnlijk dat die gpu's in de winkel komen te liggen.

RTX 5090 128GB

Door Tijs Hofmans

Nieuwscoördinator

08-09-2025 • 21:06

76

Submitter: TheProst

Reacties (76)

Sorteer op:

Weergave:

Volgens TPU is dit gewoon een mod, hoor.

https://www.techpowerup.com/340771/nvidia-geforce-rtx-5090-gets-128-gb-vram-capacity-mod

Er komt geen SKU met 128 GB

[Reactie gewijzigd door Faifz op 9 september 2025 00:11]

Toch wel leuk om te zien dat er altijd een weg wordt gevonden, benieuwd hoeveel wattage dat gaat trekken en hoe ze dat op gaan lossen want neem aan dat er niet zomaar een standaard AIB koelertje op wordt gezet.
Veruit merendeel van het vermogen van een RTX5090 wordt door de GPU die verbruikt. Geheugen is niet niks hoor, maar een oude TPU post meldt 25W voor de geheugen modules. Doe dat x4 en het is 100W. Praktisch gezien vermoed ik dat het geheugen wat langzamer zal draaien, dus dan is het nog minder ook mogelijk. Anyway, elke AIB koeler kan dat probleemloos erbij hebben, zeker gezien stilte waarschijnlijk niet noodzakelijk is voor deze toepassingen. Uiteraard heb je wel het praktische probleem dat je simpelweg een ander PCB nodig hebt, en dat de koeler daar niet op past.
In het screenshot staat de standaard 575W TDP vermeld, dus extra geheugen lijkt daar geen invloed op te hebben.
Dat klopt maar dat zit waarschijnlijk gewoon hardcoded in de gebruikte chip.
575W max. als je de screenshot mag geloven :)
Ik weet uit ervaring met de 3090 en 4090 dat je voor AI toepassing echt op 40-60% van de maximale tdp kan gaan zitten voor exact dezelfde performance in inference workloads. Het is uiteindelijk zo een memory bus limited workload dat clock speed van de chip niet zoveel uit maakt. Ik heb ook zo een 48gb 4090 zo getest en dan werkt hij perfect, op max tdp is het een beetje te veel op het thermal randje voor me en gaat de turbo fan op max. Ik vermoed dat ze zelfs ontworpen worden op "max-q" achtige tdp's.
Gamers Nexus lichtte dit in hun reportage ook toe: in China is een flinke markt voor de modificatie van high-end RTX kaarten. Uitbreiden van geheugen wordt veel gedaan, maar bijvoorbeeld ook het ballen van individuele GPU's op boards die het land binnen komen.
Precies waar ik ook aan moest denken. Ben dan ook niet verrast door dit nieuws. Zou graag de hele docu eens kijken maar druk druk druk...
Docu is offline gehaald vanwege Bloomberg die er niet tegen konden dat GamersNexus een beter verhaal had (en veel veel verder kwam) dan een multimiljardair persburo. Zou deze week weer online moeten komen

[Reactie gewijzigd door StackMySwitchUp op 8 september 2025 22:04]

staat inmiddels weer online.
De Gamers Nexus video: "The NVIDIA GP BLACK MARKET" staat, nadat deze offline werd gehaald door een klacht van Bloomberg, nu weer online op Youtube.

Vanaf dit moment in de video wordt er een 48GB RTX4090 gemaakt van losse onderdelen en een speciale printplaat:

YouTube: THE NVIDIA AI GPU BLACK MARKET | Investigating Smuggling, Corruption, & Governments

[Reactie gewijzigd door krauser op 8 september 2025 22:30]

De Chinese mensen die zich daarmee bezig hielden die zeiden er zelf ook over dat Nvidia moedwillig de grafische kaarten castreert via VRAM, want met meer VRAM komen de kaarten pas goed tot hun recht. Als ik het tenminste goed begrepen heb.

Wat ik niet gek vind aangezien ik zelf nog een RTX2080 heb, maar deze gewoon tegen een VRAM limiet aan loopt en zeer zeker nog geen limiet wat de snelheid van het verwerken van data aan gaat door de GPU op zich.
Voor llm is vram grote het grootste probleem. Met 16GB kaart is zeer snel voor kleine LLM. En 32GB verleg je die grens wat. Maar als je grote LLM redelijk wilt draaien heb je veel vram nodig. Of veel UMA geheugen.

Ik heb 64GB Mac studio om beetje hobby zooi te doen met LLM met LM studio en MLX versies.

Voor wat ik ermee wil doen is AI abbos te duur. En mac studio heeft meer pro taken dan AI te doen.

Zo gebruik ik logic pro en komt er finalcut bij. Naast Mac game capabilities daarom de full M4-max met meer gpu cores en 546GB/s ipv 410GB/s

Iig gebruik ik 42GB LLM lokaal.
Niet alleen LLMs draaien. Ook het trainen van modellen vereist heel veel VRAM. Hoe groter de VRAM hoe groter het model of het aantal batches dat tegelijk gedaan kan worden.

Juist voor het trainen zijn Nvidia GPU's nu nog de voorstaand in software support.

[Reactie gewijzigd door Osiummaster op 9 september 2025 09:28]

Dit met name. Het draaien van een AI hoeft niet zwaar te zijn, afhankelijk van je model en wat het moet doen. Het trainen is vooral fors werk. Waar ik 5 jaar geleden werkte werden veel Nvidia Jetson Nano's gebruikt. Die dingen hebben een keer 4GB gedeeld geheugen als ik me niet vergis. Maar ze hadden daar ook een serverkast met destijds zeer forse GPU's voor het trainen.
Mja het lijkt me wel logisch dat iemand die daar zijn business van maakt dat ook zo zal zeggen.

We zijn nu duidelijk omgeschakeld naar 16GB maar met je 2080 als voorbeeld weet ik niet welke games en settings je dan als voorbeeld hebt? Dat is een kaart van ondertussen toch al 7 jaar oud, als je daar in het laatste jaar of half jaar problemen hebt met games die gewoon structureel meer nodig hebben weet ik toch niet of een hypothetische 2080 16GB het daarin vandaag zo fantastisch zou doen én of je dan bereidt zou zijn geweest om 7 jaar geleden x-€ meer te betalen om die prestatie dan 6 jaar later nog te hebben...
Dat zegt iedereen met kennis van zaken eigenlijk al sinds de 3000 serie en vooral sinds de 4000 serie (3000 serie was all-around ok maar de terugloop van geheugen naar verhouding tot de 2000 en ook 1000 serie was al volop te merken)

Vroegah was de manier bij een nvidia kaart om je coreklok op te schoppen, dat gebeurt nu niet alleen zo goed als automagisch via turbo, maar vanaf de 3000 generatie merkte ik al een trend dat vooral het doorklokken van geheugen flinke winsten opleverde.

De 1000 en 2000 serie noem ik nog steeds de laatste van Nvidia's daadwerkelijk "gebalanceerde" generatie kaarten. de 3000 vielen nog enigszins mee maar daar was de afgleidende schaal duidelijk ingezet.
RTX Pro 6000 met 96GB is ook iets van 9000 euro, dus 13000 dollar/11000 euro is te verwachten voor een soortgelijke kaart.

Fijne met een RTX 5090 128GB is dat een consument nu gewoon een groot AI model kan inladen met rappe response tijd. Concurreert meteen met de stack aan Mac Mini's voor 10k of de Ryzen AI Max systemen voor 2-3k, welke stukken trager zijn qua TOPS.

Over een aantal jaar misschien leuk om aan te schaffen via eBay, wat nu al mogelijk is met de RTX 4090 48GB.
Weet niet of het te verwachten is die prijs als de kaart zelfde blijft behalve geheugen of dat ze ook nog eigen geheugen controller etc erop moeten zetten.
Gpu geheugen is niet zo extreem kostbaar.
Ze kunnen ook kaarten van 8gb in 16gb aanbieden voor 50 euro meer dus laten we effe 50 euro per 8 gb rekenen 96GB extra hebben we nodig is 12x50 euro is 600 euro aan geheugen kosten. Chinezen zijn meestal ook niet duur met werkzaamheden, hoewel ze langzaam ook overgaan naar kapitalisme.
Waarschijnlijk om die geheugen dichtheid te krijgen gebruiken ze wel wellicht nog wat duurdere chiplets. Maar verwacht nog steets dat de kost prijs 1000 euro is max. Dus eigenlijk de daadwerelijke waarde van de kaart is 3500 euro of de 5090 2300 waard is is ook maar de vraag het zijn comsumenten prijzen met al de marge eraan die nvidia flink heeft opgeschroeft anders waren ze nu niet triljoenen waard. Maar op de data center gpu's maaken ze al helemaal belachlijke winst.
Deze chinezen willen eerder datacenters aanspreken ivm consument met zo'n (fantastisch) prijs kaartje.
consument

groot AI model
Ok, maar... Waarom? Is dat 13K waard?
Als het verkoopt dan zal het zeker waard zijn, idem met de RTX Pro 6000.

Alle VRAM op 1 kaart heeft grotere voordelen dan meerdere kaarten aan elkaar rijgen met bijv. NVlink.

Zelfs DFL heeft enorme baat aan veel VRAM op een enkele videokaart. RTX 5090 128GB zou hier perfect voor zijn en beter dan 2x RTX Pro 6000.
NVlink is verwijdert uit de workstation GPUs na de Ampere series. NVLink zit nog alleen op de data center GPUs.
Daar kun je prima GPU time mee verhuren. Vooral als je een AI hebt die bepaalde dingen beter kan doen dan de concurrentie.

Bijvoorbeeld: OpenAI heeft zijn model vrijgegeven voor GPT-OSS. Neem hier de abliterated versie van, die dus zonder beperkingen van OpenAI werkt. Genoeg mensen die daar voor willen betalen maar de hardware niet van hebben.

Voor ChatGPT pro betaal je 200 per maand en voor plus betaal je 23 euro per maand. Laten we zeggen dat je 15 euro per maand vraagt voor jouw dienst voor een ongecensureerde versie van ChatGPT. 180 euro per gebruiker. Die kaart kan vast 100 gebruikers netjes verspreid helpen. Dan heb je die kaart in 10 maanden terug verdiend.

En meer gebruikers dan dat zijn ook prima te behalen op zo'n kaart.

Je kunt er ongetwijfeld een usecase voor vinden die mensen interessant vinden.
In China is geen Blackwell enz. verkrijgbaar dus is men afhankelijk van enerzijds illegale import wat men afgelopen jaar op slechts 1 miljard schat en anderzijds dit soort modificaties. Men heeft weinig keus vandaar dat dit soort ontwikkelingen hier gebeuren.

Uiteindelijk is dit een behoorlijke beperking op AI ontwikkelingen. Ze kunnen net zoals CPU's brute forcen door veel meer CPU/GPU's in te zetten maar tegelijkertijd zitten daar beperkingen aan en ligt de effecientie beduidend lager.

Ik denk dat we hier eerder uit kunnen afleiden dat de import beperkingen effectief zijn, immers waarom zou men anders tot dit soort ontwikkelingen toeleggen.
Grappig dat ze in China betere kaarten bouwen dan dat ze in het westen hebben, terwijl ze daar officieel juist slechtere kaarten mogen hebben. Die "AI-datacenters" zullen dan ook enkel in landen staan waar USA niet wil dat de échte krachtige datacenter-kaarten verkocht worden
Uiteindelijk kan er zelfs zoiets bestaan als teveel geheugen. Maar het hangt uiteraard van de toepassing af.

Als gamer zou je misschien zelfs een nadeel ondervinden van zoveel VRAM omdat hierdoor de toegangstijden van het vram toenemen (meer plekken om te zoeken naar dat wat jij nodig hebt)
Uiteraard is teveel beter dan te weinig, maar met een gelijkwaardige GPU zou een game die maximaal 8GB aan vram nodig heeft, beter lopen op een 12GB kaart dan een 48GB kaart. (Uiteraard is dit lastig te testen, omdat high-end GPU’s vaak gecombineerd worden met meer en sneller vram. Ik heb het dan ook puur over een theoretisch feit)
RAM staat voor "Random Access Memory"...
Hoe bedoel jij "meer plekken om te zoeken naar dat wat jij nodig hebt"?

Dat games met meer VRAM moeite krijgen, is wellicht omdat de bandbreedte vol zit (omdat ze meer/grotere textures per frame gebruiken). Dat zal voor AI minder een probleem zijn, die hebben ook een voordeel met bandbreedte maar een groter voordeel met capaciteit.

Meer RAM betekend niet "meer zoeken". Het gaat puur om de bandbreedte (die vaak hoger is bij meer RAM, want chips kunnen tegelijk aangesproken worden (meer kanalen, of bits) - mits de GPU daar bedrading voor heeft.
High-end heeft bredere bus dus meer mem controllers.
access latency is echt zo belachelijk laag dat je dat verschil pas gaat merken op datacenter-niveau met zulke grote workloads dat het meetbaar wordt en daar speelt de vraag naar meer geheugen veel meer dan dat dit. Bovendien gaat die niet lineair toenemen met de hoeveelheid, aangezien de grootte van memory registers meestal vast staat als je over dezelfde architectuur spreekt. Een laag 64-bit adres voor een locatie in 8GB (bvb 6GB = 0x0000000180000000) is even snel gecommuniceerd/toegankelijk als een hoog 64-bit adres (bvb 96GB = 0x0000001800000000).
'Meer zoeken in geheugen' is niet van toepassing. Geheugen is random adresseerbaar. Dus blijft even snel. Zolang je nog data hebt dat erin past is meer geheugen de snelste manier om performance te winnen. Als al je data in het geheugen past ben je weer een bottleneck verder.
waardoor ze voornamelijk geschikt voor zakelijke toepassingen zoals in AI-datacenters.
Voor workstations zal dit ook leuk zijn. Op één kaart kan je dan degelijke modellen draaien zonder beperkt te zijn door de pci-e doorvoersnelheid.
Zag op YouTube een video van een Chinese repair store met custom PCB’s voor 4090 en hij verdubbelde het geheugen ook. Moest wel eerst een bioshack overheen.

dus wellicht komen die voor de 5090 ook beschikbaar.
En wat betaal je dan voor een Chinese lasser die je garantie voor een 90' uit het raam gooit?

Vind het maar link hoor voor die extra bandwidth.
Waarschijnlijk niets aangezien de gpu en memory chips klaarblijkelijk gestolen worden van retail borden voor ze China verlaten.

Wel op een aantal nieuws sites en reddit gezien dat mensen een 5090 kregen waar die GPU en memory miste, en het aan de doos niet te zien was dat die geopend was.

Als je dan ziet dat er een markt is waar men custom PCB's aanbied, dan vermoed ik ook dat ze via die weg ook GPU's en de (extra) geheugen chips aanbieden.
lijkt mij dat de bandwidth hetzelfde zal zijn anders moet er veel meer vervangen dan enkel de geheugenchips zelf ;)
Duidelijk een product voor de 'prosumer', je hebt namelijk niets aan 128gb vram voor wat betreft gaming. Ik krijg de 24gb van mijn RTX 4090 niet eens gevuld.

[Reactie gewijzigd door DLSS op 8 september 2025 22:46]

Kan ook goed zijn dat het gaat om een Chinese mod. Steve van Gamers Nexus heeft onlangs nog de handel in GPU's in China blootgelegd.

De chinese aftermarkt shop schaamt zich er niet voor om voor hun camera's een 4090 van 24 naar 48GB te modden.
YouTube: THE NVIDIA AI GPU BLACK MARKET | Investigating Smuggling, Corruption...

Tenzij het iets met import restricties heeft te maken zie ik nVidia niet zomaar een 5090 met 128GB maken. Waarom zouden ze ineens uit het niets 4x zoveel geheugen erin doen en een absurde prijs erop plakken? Ze hebben toch de quadro lineup die gericht is op workstation toepassing. Je zou toch verwachten dat ze een kaart in de quadro lijn uit zouden brengen.
De Gamers Nexus video over illegale import van videokaarten naar China laat zien dat het 'vrij normaal' is daar om videokaarten op deze manier te modden voor klanten, soms met custom pcb. Ze bleken soms exorbitante verzoeken te krijgen. Bij de vraag of Nvidia zich hiervan bewust is, werd ook verteld dat dat niet anders kan, aangezien de kaarten op benchmark lijsten terecht komen.

Dus ik vermoed dat het om zo'n kaart gaat en niet om een nieuwe sku ofzo.


Om te kunnen reageren moet je ingelogd zijn