TrendForce: geheugentekorten beperken beschikbaarheid Nvidia's nieuwe Rubin-gpu

Nvidia zou tegen problemen voor zijn nieuwe Rubin-gpu's aanlopen door de aanhoudende tekorten aan geheugenchips. Dit stelt TrendForce. De next-gen AI-chips van Nvidia komen volgens de marktonderzoeker later en in lagere aantallen uit.

De Rubin-gpu's die Nvidia in januari onthulde, zouden door toeleveringsproblemen en technische hobbels wat later op de markt komen dan verwacht. Daarbij komen de geavanceerde AI-chips volgens TrendForce ook in kleinere aantallen uit. De marktanalist verwacht nu dat de Rubin-gpu's dit jaar 22 procent vormen van de high-end gpu's die Nvidia uitbrengt. Eerder voorzag TrendForce nog dat dit 29 procent zou zijn.

De huidige Blackwell-generatie van Nvidia's AI-chips, zoals de GB300 en de B300, vult naar verwachting het gat van de Rubin-gpu's. Nvidia loopt bij de productie van die nieuwe chips aan tegen veranderingen in de toeleveringsketen. Het zou daarbij gaan om leveringen van geheugenchips en om technische problemen, schrijft The Register.

Krachtig, complex, tijdrovend

Het valideren van HBM4-chips voor Rubin kost relatief veel tijd. Daarnaast heeft Nvidia te maken met uitdagingen in de overgang naar snellere gpu-verbindingen (van CX8 naar CX9) en met een aanzienlijk hoger energieverbruik van de nieuwe AI-chips. Ook zou het veel inspanning kosten om het prestatieniveau te optimaliseren met de geavanceerde vloeistofkoelingssystemen die Rubin nodig heeft.

Nvidia Rubin-gpu. Bron: Nvidia
Nvidia Rubin-gpu. Bron: Nvidia

Door Jasper Bakker

Nieuwsredacteur

09-04-2026 • 15:49

50

Reacties (50)

Sorteer op:

Weergave:

Dus eens zien of ik het goed snap: De hele markt voor persoonlijke computers, evenals de markten voor consoles en andere electronica liggen te snakken naar adem omdat geheugenmodulemakers hun kar massaal gekeerd hebben naar HBM geheugen voor AI kaarten, met prijzen die tot wel 4X hoger zijn dan voor deze ommezwaai, maar nu blijkt dat er zelfs voor die AI kaarten niet genoeg geheugen is? Wat een rotzooi is dit...

[Reactie gewijzigd door nzall op 9 april 2026 16:03]

Wat een *zeepbel* is dit...
Het is niet echt een zeepbel. Ja sommige AI bedrijven hebben een twijfelachtig verdienmodel en er zullen onder die bedrijven verliezers zijn, maar de verwachting is dat als een AI bedrijf dat veel compute (en dus ook RAM) in bezit heeft omvalt dat andere partijen die assets graag zullen overhemen. Consolidatieslag van AI bedrijven, maar dat is niet hetzelfde als een zeepbel van hardware.
Het is niet echt een zeepbel. (...) Consolidatieslag van AI bedrijven, maar dat is niet hetzelfde als een zeepbel van hardware.
Dat laatste claimde ik ook niet. Ergens hieronder is er al op mij gereageerd dat "The House always wins!". Zeker wanneer deze wereld een casino is geworden, en het huis de hardware fabrikanten zijn. De rest gokt erop dat zij de flessenhals strop kunnen overleven.

De zeepbel waar ik naar verwees is de hype rondom AI, met bombastische hyperscales tot gevolg...

[Reactie gewijzigd door 86ul op 10 april 2026 10:38]

Waarom zou daar wel genoeg geheugen voor zijn? HBM4 is een nieuw product en de vraag naar snel geheugen is de afgelopen 5 jaar gigantisch gegroeid. Niet voor niets dat er een extreem hoge marge op zit. Ik zie niet wat hier raar aan is.
Gelukkig is er TurboQuant die de KV cache verkleint. Als je het wil toepassen is hier een voorbeeld implementatie op Mac mini: YouTube: After This, 16GB Feels Different
... ja, dat klopt wel zo'n beetje.

Die fabrieken moeten natuurlijk omschakelen naar HBM en gedurende die tijd kun je niet produceren.

HBM zelf is veel moeilijker te produceren, de yield (chips die het doen) ligt veel lager dan voor normaal ram: 70% versus 90+. En de ram groottes zijn groter: Met 32GB kun je twee PCs bouwen, of één zo'n dure AI chip.
Het Rubin-platform gaat sowieso de toekomst van de PC zijn. Het is geen losse chip, maar een volledig AI-compute platform: GPU + CPU + interconnect + software als één systeem. HBM memory dicht bij de chip, hoge piek-brandbreedtes, ultra-snelle GPU ↔ GPU communicatie.

Nu wordt dat vooral gebruikt voor inference en training maar je voelt dat de prestatievoordelen zo significant zijn dat PC's monolitischer zullen worden. Het is nu al straf dat ze daar petaFLOPS-level AI inference uit halen. Het verbruik is natuurlijk veel te hoog voor consumenten maar zelfs 10x minder (verbruik/performance) zou nog altijd significant zijn.

Heel de industrie zal naar dit model overschakelen. Gameconsoles, AI systemen, autonoom rijden. Dus het zou me verbazen dat consumenten pc's nog modulair blijven. Het kan natuurlijk maar een Losse GPU via de traditionele PCIe gaat al decenia mee maar zal het volgende decenia niet meer halen vrees is.
Dat weet ik zo net nog niet. Er blijft altijd de vraag naar maatwerksystemen.

Kijk naar de macbook neo waar zo ongeveer alles onchip is. Wat dan als je een applicatie hebt die meer ram vereist? Dan zit je vast. Dan heb je een maatwerk machine nodig iets waar je net zoveel in kan pluggen als wenselijk is. Dat zal ook in de servermarkt wel zo blijven. 3 of 4 vaste configuraties gaat dat niet trekken.

Wellicht dat de doorsnee consument happy is met beperkte keuze. Maar de high end user? En dat zijn niet alleen gamers. Die zullen wel meer willen. Misschien wel 4 rubins naast elkaar in SLI. Net als je nu met blackwell kan. Dit ding heeft ook weer nvlink. Genoeg labbo's en 3d render figuren en wat al niet die graag een superbak hebben. Of juist de mensen die voor ultrazuinige combo's gaan. Er is van alles wat de "13 in dozijn" markt niet kan afdekken.

Om maar niet te spreken dat de tal van componenten fabrieken hun werk niet kwijt willen.
Vroeger kocht ik SD memory kaartjes voor telefoons. De meeste telefoons hebben ondertussen al zoveel opslag dat dat niet meer nodig is voor mij. Denk dat het goedkoper is zo'n nieuwe PC een enkel overkill model te maken met heel veel klanten dan veel verschillende modellen. Maar we gaan zien waar het heengaat. Voorlopig via tekorten naar extreme prijzen...
En dan verplicht vasthangen aan één specifieke CPU van één bepaald merk, ook al had je liever een andere CPU gewenst met je high-end GPU omdat je geen nood hebt aan iets met 24 cores zoals Intel tegenwoordig maakt?
Oh, ik heb recent juist 256GB bijgeprikt in m'n telefoon en bij m'n PC is opslag ook niet aan te slepen. Was video geheugen maar bijprikbaar.
Zoek eens naar een plaatje van een S3 Virge.
Waarom? Die kaart zit in m'n PC in de schuur, wat wil je daarmee zeggen? In die tijd had ik nog niet een mobile telefoon, dat was 5 jaar later zoek eens een plaatje van de Siemens M35i.

[Reactie gewijzigd door djwice op 10 april 2026 19:50]

Misschien omdat die sockets heeft voor ram? Had je geweten als je het had opgezocht.
Daar past geen GDDR7 of LPDDR5X in, dat had je geweten als je het had opgezocht.

De snelheid van 273 GB/s of zelfs 1,792 TB/s is een stuk sneller gewoon RAM - zeker als RAM uit die tijd - en is daardoor best gevoelig voor storing als dat via een onbeschermde connector zou lopen. Er komt ook behoorlijk wat warmte ontwikkeling bij kijken.

Vandaar dat dit direct op het board zit bij moderne GPU's. Kabels van de een naar een andere GPU zijn een stuk beter geïsoleerd dan CAT 7a zeg maar.

Zoek naar op QSFP56 voor de instapkabel van slechts 200Gbit per seconde ~ 25GB/s. Dat is dus slechts een fractie van de snelheid van het GPU geheugen en deze maatregelen zijn al nodig bij een kabel van 50cm.

Het geheugen van een RTX 5090 verwerkt achtien 4k BlueRay films (100 GB per stuk) per seconde of alle data van een 4TB hardeschijf ruim binnen 3 seconden.

[Reactie gewijzigd door djwice op 12 april 2026 22:08]

Duh. No shit Sherlock. Alsof ik dat niet weet. Je mist alleen het punt volledig.

[Reactie gewijzigd door xorpd op 12 april 2026 22:48]

Ja, dat gaf ik ook aan in m'n reactie, maar het lijkt niet of je duidelijkheid wilde beiden. Want ik snap nog steeds niet wat je bedoelde. EDO geheugen was ongeveer 400 MB/s wat 4480x trager dan het geheugen van een RTX 5090. Of bedoel je dat m'n microSD-kaartje (permanente opslag) net zo snel kan lezen en schrijven als het RAM geheugen van die videokaart?

[Reactie gewijzigd door djwice op 12 april 2026 23:14]

Juist, voor jou niet meer nodig. Maar genoeg mensen zouden nog steeds graag opslag inpluggen. Gelukkig heb je voor hen usb OTG.

Voor de meeste is standaard goed genoeg, maar er is altijd een groep waarvoor dat niet zo is.
Wellicht dat de doorsnee consument happy is met beperkte keuze. Maar de high end user?
Je mist mijn punt denk ik. Door monolitische opbouw kan je sneller gaan. Dus als je via pcie gaat verlies je snelheid. High-end users willen net snelheid en ruwe power zonder bottle necks.

PCIe is in dat opzicht compleet achterhaald. Er zit geen toekomst in. Wie weet komen ze met PCI-ultra waar je uw GPU rechtstreels in uw GPU klikt. Ofwel uw CPU in uw GPU klikt.

Als je GPU’s van vandaag ziet zijn dat eigenlijk al bijna hele PC’s. Dus wat houd ze tegen om daar een CPU bij te pluggen? Het is niet dat we ooit in de mogelijkheid waren om het GPU geheugen te upgraden.
De onderdelen van een cpu zoals de gpu zitten rustig gewoon met een interne variant van pci express aan elkaar.

En dat ze noodzakelijk dan sneller kunnen is ook niet waar. Je hebt misschien lage latency, maar een dedicated kaart kan veel meer power door de chip heen jagen, kan in veel meer verschillende configuraties komen qua uitgangen. En hoe wil je nvlink/sli doen met een geïntegreerde chip?

Nee, er zit iets van waarheid in je opmerking maar grotendeels rammelt die redenatie denk ik aan alle kanten en gaat voorbij aan van alles.
Dus jij denkt dat we rustig onze PCIe verder gaan gebruiken? Als je het een beetje volgt dan zie je toch dat de industrie monolitisch wordt? CPU en GPU vlak bij elkaar met gedeeld geheugen. Daar komt geen PCIe meer bij kijken.

Een GPU is eigenlijk al monolitisch van aard. Dus de cirkel is al bijna rond. Net nog een CPU erbij. Stroom ging toch al via aparte kabels.

Het enige wat het moederbord (zusterbord) dan nog moet doen is de io koppelen. Mss not wel een SSD.

Afspraak over een paar jaar en je zal zien dat de huidige PCIe niets meer te betekenen heeft. Het concept is te oud op next gen PC’s te bedienen.

[Reactie gewijzigd door Coolstart op 10 april 2026 09:50]

Monolitsche blokken moet ook met elkaar kunnen verbinden. Dat is wat clusters doen. Interconnects van een of andere vorm blijven altijd nodig.

En of het dan pcie is of een andere standaard. Ooit zaten we op ISA, things change maar we hebben nog steeds interconnects.
Lees aub gewoon wat ik zeg. Ik heb het heeel de tijd over PCIe. —> Die sleuven in uw moederbord om een GPU bij te prikken. —> Dat idee gaat decenia mee maar heeft nu zijn beste tijd gehad.
Ja ik snap wat je zegt. Ik ben het er alleen niet mee eens. Lees aub gewoon wat ik zeg. En besef dat ik het er gewoon niet mee eens ben. Dat jij iets opschrijft maakt het geen waarheid of denk jij van wel??
Ram geheugen wordt steeds vaker vastgesoldeerd omdat ze dan hogere snelheden kunnen halen.
Bovendien zitten slotjes vaak al vol (32 = 2x16 tenslotte) dus kost een upgrade je al een oude geheugenmodule die weg moet.
Plus als je nu 32G hebt... kun je een hele tijd vooruit zonder upgrades.

Voor HBM is het voordeel nog groter: omdat het geheugen op de chip wordt geplaatst heb je kortere lijntjes en lagere voltages. Het gaat dus én sneller én zuiniger.

Dat zijn behoorlijke voordelen en als je in één keer voldoende HBM meelevert, gaan die wel opwegen tegen het niet meer kunnen bijprikken van ram (dat in de praktijk niet altijd gebeurt).
Jij kan met 32gb vooruit. Genoeg toepassingen die veel meer nodig hebben.

En je hebt misschien lagere latency, maar in sommige gevallen is dat niet relevant en is het meer hoe veel je hebt dan hoe snel het is.

Er zijn zeker voordelen aan geïntegreerd. Maar ik verwacht dan eerder gpu en cpu apart met beiden geïntegreerd geheugen.

Of denk je dat ik straks meerdere gpu cpu memory combinaties met iets als nvlink aan elkaar kan hangen? Dan heb je toch weer componenten.
Misschien bedoel je iets anders maar volgens mij staan deze chips echt mijlenver van wat het 'toekomstig PC platform' gaat zijn. HBM geheugen is veel te duur en gebruikt veel te veel stroom voor consumenten toepassingen, en is totale overkill voor inference. Dit zijn data center chips die worden gemaakt zodat jij mooi voor compute kunt betalen die je never nooit niet thuis gaat hebben staan.

Wat ik voorzie als toekomst van PC platforms voor productivity is Strix Halo / Apple Silicon achtige systemen met unified RAM maar wel 'gewoon' quad-channel DDR, en integrated graphics + neural accelerators voor local inference. We zijn nu al op het punt dat modellen als Gemma 4 redelijk op commodity hardware kunnen draaien, en van daar naar de echt grote modellen is zo'n ontiegelijk grote stap kwa RAM/compute en alles wat er bij komt dat je dat echt nooit in PC hardware gaat zien.
En waarom denk jij dat wij nooit HBM achtige technieken en snelheden zullen krijgen op PC? HBM-light. Ik zeg maar wat. Uiteindelijk zal DDR ook weer doorgroeien en 3D stacking toepassen.

technologie stopt niet plots omdat het vandaag te duur is voor consumenten. Te snel voor inference? Sorry dat is echt helemaal een raar argument. Lokale inference komt niet vannde grond omdat onze chips veeel te traag zijn voor goede lokale AI.

Ik draai zelf lokaal kleine modellen op een linux server. Dus ik zeg niet dat lokaal niet kan maar ik weet exact waar de limieten liggen en ik extra API calls moet inkopen omdat inference te laag is
Nooit is natuurlijk heel erg lang en ik kan de toekomst ook niet voorspellen maar het is gewoon niet logisch. Dit soort hardware komt gewoon het best tot zijn recht in racks met extreme power supplies, koeling, sloten storage, netwerk etc. Niet voor desktop systemen of laptops, en dat is vrijwel de hele ‘PC markt’. Voor NVidia is het veel interessanter om zich volledig op de data centers te richten dan om gedownscalede versies hiervan te maken voor een handjevol klanten die per se lokale AI toepassingen willen draaien. En ik verwacht dat we daar dus in de komende jaren al hardware voor gaan zien die goed bruikbaar zou kunnen zijn in een handzamere form factor (denk aan laten we zeggen M7 Ultra over een jaar of wat, of de opvolger van Strix Halo)

[Reactie gewijzigd door johnbetonschaar op 9 april 2026 22:22]

Om dezelfde reden dat we geen GDDR6 gebruiken voor CPUs. Bandbreedte versus latency en granularity.
Raar. GDDR6 is een energieslurper. Natuurlijk gebruiken ze dat breed gebruiken. Het ligt meer voor de hand dan met HBM-tech gebruikt in laptop, smartphones etc. Dat is veel zuiniger en past beter bij lokale AI.

https://wccftech.com/apple-to-use-hbm-advanced-ai-memory-technology-for-better-ai-experience/amp/
Dat het de toekomst van PC gaat zijn durf ik zomaar niet aannemen... We zitten nu toch ook niet met Xeons en multi-cpu moederborden in onze PC's ...

Op server niveau is dit voorlopig ook nog een niche markt, heb je de voorstelling van Nvidia gezien rond hun nieuwe platformen een tijdje geleden, ze richten zich heel duidelijk op high performance clustered servers met deze nieuwe systemen/chips.
Rubin is een architectuur voor dense modellen, terwijl de software al over is op sparse (MoE als voorbeeld). Niet de toekomst, maar het verleden. Nog steeds het snelst, maar dat is meer een kwestie van gebrek aan goede concurrentie.

De toekomst is nog meer geheugen bandbreedte dan wat mogelijk is met HBM en interposer. SRAM heeft de bandbreedte, maar kost teveel per bit. Daarom is de volgende stap hybrid bonded DRAM stacks bovenop de compute, indien mogelijk met goedkopere 3D DRAM (maar zelfs zo niet, dan maar meerdere 2D DRAMs bonden). De compute word moeilijker te koelen, maar geheugen is belangrijker dan compute.
We zijn die sparce ruimte juist weer aan het vullen, is in plaats van te laat wellicht juist optijd: https://unsloth.ai/docs/basics/faster-moe

(Voor training is dit voorbeeld Vera is natuurlijk voor inference)

[Reactie gewijzigd door djwice op 9 april 2026 18:27]

Je komt er niet onderuit dat voor dezelfde batch size het hergebruik van gewichten onderuit gaat met MoE, het is fundamenteel.

Kan de batch size natuurlijk omhoog gooien, maar dan krijg je ook weer meer KV cache en gradients en de gradient word een slechter signaal om mee te trainen.

[Reactie gewijzigd door Pinkys Brain op 9 april 2026 18:47]

Voor je KV Change gebruik je dan asymmetrische TurboQuant van Google.

In de eerste link stond packing niet heel expliciet vermeld: https://unsloth.ai/docs/blog/3x-faster-training-packing

De padding met nullen (sparse) worden dan vervangen / gevuld met nuttige data (dense).

[Reactie gewijzigd door djwice op 9 april 2026 19:05]

De Blackwell chips in je lokale PC hebben ook al petaflops (ongeveer 1 bij de RTX 5070).

Er zullen ook andere partijen komen die gaan concurreren met NVIDIA. Maar ja, lokale krachtige AI is nu beschikbaar en ik verwacht steeds groter wordende adoptie en toepassing.

[Reactie gewijzigd door djwice op 10 april 2026 19:59]

'lichaam kale PC', u bedoelt 'bare body PC'? De AI mag nog wel wat verbeterd worden ;)
Nee, ik had "lokale PC" geschreven, de auto correct van het keyboard heeft daar blijkbaar iets anders van gemaakt.

Een barebone heeft typisch geen RTX 5070 videokaart.

[Reactie gewijzigd door djwice op 10 april 2026 20:00]

  • Geen uitbreiding mogeljik
  • 300GB RAM voor autonome auto's.
  • Al die hype over een laptop met 8GB RAM
Wat is deze klap?

niet mijn toekomst
Zijn er inmiddels bedrijven op de achtergrond bezig productiecapaciteit te verhogen? Dit loopt echt de spuigaten uit…
Koop gewoon chinees ram. Die zijn bezig het gat op te vullen en zo begint de cyclus weer overnieuw.
Waar koop je dat? En is het betrouwbaar? Merk?
Misschien heb je hier iets aan.
Dank je. Kan je het al ergens kopen?
Chips van CXMT zitten op modules van Gloway, Asgard, Kingbank en Predator. Overal in het Westen uitverkocht wegens insignificante volumes. Je zult naar AliExpress o.i.d. moeten.
Idd, wanneer houdt deze gekte op, een DDR5 reep, 32GB, 400 a 500 euro????
Dan koop je maar iets tweedehands, iets van de vorige generatie of iets minder. Ter vergelijking: 8 MB EDO geheugen kostte in 1992 800 gulden.
Het is gewoon geen goed moment te upgraden of een nieuw pc te bouwen. Dan doe je maar wat langer over van wat je hebt of anders een budget pc of 2e hands halen dat je nog 3 jaar langer mee kan doen. We moeten gewoon met zijn allen zo gaan handelen. Laat de gehele pc markt maar in elkaar storten.

Om te kunnen reageren moet je ingelogd zijn