TrendForce: geheugentekorten beperken beschikbaarheid Nvidia's nieuwe Rubin-gpu

Nvidia zou tegen problemen voor zijn nieuwe Rubin-gpu's aanlopen door de aanhoudende tekorten aan geheugenchips. Dit stelt TrendForce. De next-gen AI-chips van Nvidia komen volgens de marktonderzoeker later en in lagere aantallen uit.

De Rubin-gpu's die Nvidia in januari onthulde, zouden door toeleveringsproblemen en technische hobbels wat later op de markt komen dan verwacht. Daarbij komen de geavanceerde AI-chips volgens TrendForce ook in kleinere aantallen uit. De marktanalist verwacht nu dat de Rubin-gpu's dit jaar 22 procent vormen van de high-end gpu's die Nvidia uitbrengt. Eerder voorzag TrendForce nog dat dit 29 procent zou zijn.

De huidige Blackwell-generatie van Nvidia's AI-chips, zoals de GB300 en de B300, vult naar verwachting het gat van de Rubin-gpu's. Nvidia loopt bij de productie van die nieuwe chips aan tegen veranderingen in de toeleveringsketen. Het zou daarbij gaan om leveringen van geheugenchips en om technische problemen, schrijft The Register.

Krachtig, complex, tijdrovend

Het valideren van HBM4-chips voor Rubin kost relatief veel tijd. Daarnaast heeft Nvidia te maken met uitdagingen in de overgang naar snellere gpu-verbindingen (van CX8 naar CX9) en met een aanzienlijk hoger energieverbruik van de nieuwe AI-chips. Ook zou het veel inspanning kosten om het prestatieniveau te optimaliseren met de geavanceerde vloeistofkoelingssystemen die Rubin nodig heeft.

Nvidia Rubin-gpu. Bron: Nvidia
Nvidia Rubin-gpu. Bron: Nvidia

Door Jasper Bakker

Nieuwsredacteur

09-04-2026 • 15:49

19

Reacties (19)

Sorteer op:

Weergave:

Dus eens zien of ik het goed snap: De hele markt voor persoonlijke computers, evenals de markten voor consoles en andere electronica liggen te snakken naar adem omdat geheugenmodulemakers hun kar massaal gekeerd hebben naar HBM geheugen voor AI kaarten, met prijzen die tot wel 4X hoger zijn dan voor deze ommezwaai, maar nu blijkt dat er zelfs voor die AI kaarten niet genoeg geheugen is? Wat een rotzooi is dit...

[Reactie gewijzigd door nzall op 9 april 2026 16:03]

Wat een *zeepbel* is dit...
Waarom zou daar wel genoeg geheugen voor zijn? HBM4 is een nieuw product en de vraag naar snel geheugen is de afgelopen 5 jaar gigantisch gegroeid. Niet voor niets dat er een extreem hoge marge op zit. Ik zie niet wat hier raar aan is.
Gelukkig is er TurboQuant die de KV cache verkleint. Als je het wil toepassen is hier een voorbeeld implementatie op Mac mini: YouTube: After This, 16GB Feels Different
Het Rubin-platform gaat sowieso de toekomst van de PC zijn. Het is geen losse chip, maar een volledig AI-compute platform: GPU + CPU + interconnect + software als één systeem. HBM memory dicht bij de chip, hoge piek-brandbreedtes, ultra-snelle GPU ↔ GPU communicatie.

Nu wordt dat vooral gebruikt voor inference en training maar je voelt dat de prestatievoordelen zo significant zijn dat PC's monolitischer zullen worden. Het is nu al straf dat ze daar petaFLOPS-level AI inference uit halen. Het verbruik is natuurlijk veel te hoog voor consumenten maar zelfs 10x minder (verbruik/performance) zou nog altijd significant zijn.

Heel de industrie zal naar dit model overschakelen. Gameconsoles, AI systemen, autonoom rijden. Dus het zou me verbazen dat consumenten pc's nog modulair blijven. Het kan natuurlijk maar een Losse GPU via de traditionele PCIe gaat al decenia mee maar zal het volgende decenia niet meer halen vrees is.
Dat weet ik zo net nog niet. Er blijft altijd de vraag naar maatwerksystemen.

Kijk naar de macbook neo waar zo ongeveer alles onchip is. Wat dan als je een applicatie hebt die meer ram vereist? Dan zit je vast. Dan heb je een maatwerk machine nodig iets waar je net zoveel in kan pluggen als wenselijk is. Dat zal ook in de servermarkt wel zo blijven. 3 of 4 vaste configuraties gaat dat niet trekken.

Wellicht dat de doorsnee consument happy is met beperkte keuze. Maar de high end user? En dat zijn niet alleen gamers. Die zullen wel meer willen. Misschien wel 4 rubins naast elkaar in SLI. Net als je nu met blackwell kan. Dit ding heeft ook weer nvlink. Genoeg labbo's en 3d render figuren en wat al niet die graag een superbak hebben. Of juist de mensen die voor ultrazuinige combo's gaan. Er is van alles wat de "13 in dozijn" markt niet kan afdekken.

Om maar niet te spreken dat de tal van componenten fabrieken hun werk niet kwijt willen.
Vroeger kocht ik SD memory kaartjes voor telefoons. De meeste telefoons hebben ondertussen al zoveel opslag dat dat niet meer nodig is voor mij. Denk dat het goedkoper is zo'n nieuwe PC een enkel overkill model te maken met heel veel klanten dan veel verschillende modellen. Maar we gaan zien waar het heengaat. Voorlopig via tekorten naar extreme prijzen...
En dan verplicht vasthangen aan één specifieke CPU van één bepaald merk, ook al had je liever een andere CPU gewenst met je high-end GPU omdat je geen nood hebt aan iets met 24 cores zoals Intel tegenwoordig maakt?
Oh, ik heb recent juist 256GB bijgeprikt in m'n telefoon en bij m'n PC is opslag ook niet aan te slepen. Was video geheugen maar bijprikbaar.
Wellicht dat de doorsnee consument happy is met beperkte keuze. Maar de high end user?
Je mist mijn punt denk ik. Door monolitische opbouw kan je sneller gaan. Dus als je via pcie gaat verlies je snelheid. High-end users willen net snelheid en ruwe power zonder bottle necks.

PCIe is in dat opzicht compleet achterhaald. Er zit geen toekomst in. Wie weet komen ze met PCI-ultra waar je uw GPU rechtstreels in uw GPU klikt. Ofwel uw CPU in uw GPU klikt.

Als je GPU’s van vandaag ziet zijn dat eigenlijk al bijna hele PC’s. Dus wat houd ze tegen om daar een CPU bij te pluggen? Het is niet dat we ooit in de mogelijkheid waren om het GPU geheugen te upgraden.
Misschien bedoel je iets anders maar volgens mij staan deze chips echt mijlenver van wat het 'toekomstig PC platform' gaat zijn. HBM geheugen is veel te duur en gebruikt veel te veel stroom voor consumenten toepassingen, en is totale overkill voor inference. Dit zijn data center chips die worden gemaakt zodat jij mooi voor compute kunt betalen die je never nooit niet thuis gaat hebben staan.

Wat ik voorzie als toekomst van PC platforms voor productivity is Strix Halo / Apple Silicon achtige systemen met unified RAM maar wel 'gewoon' quad-channel DDR, en integrated graphics + neural accelerators voor local inference. We zijn nu al op het punt dat modellen als Gemma 4 redelijk op commodity hardware kunnen draaien, en van daar naar de echt grote modellen is zo'n ontiegelijk grote stap kwa RAM/compute en alles wat er bij komt dat je dat echt nooit in PC hardware gaat zien.
En waarom denk jij dat wij nooit HBM achtige technieken en snelheden zullen krijgen op PC? HBM-light. Ik zeg maar wat. Uiteindelijk zal DDR ook weer doorgroeien en 3D stacking toepassen.

technologie stopt niet plots omdat het vandaag te duur is voor consumenten. Te snel voor inference? Sorry dat is echt helemaal een raar argument. Lokale inference komt niet vannde grond omdat onze chips veeel te traag zijn voor goede lokale AI.

Ik draai zelf lokaal kleine modellen op een linux server. Dus ik zeg niet dat lokaal niet kan maar ik weet exact waar de limieten liggen en ik extra API calls moet inkopen omdat inference te laag is
Dat het de toekomst van PC gaat zijn durf ik zomaar niet aannemen... We zitten nu toch ook niet met Xeons en multi-cpu moederborden in onze PC's ...

Op server niveau is dit voorlopig ook nog een niche markt, heb je de voorstelling van Nvidia gezien rond hun nieuwe platformen een tijdje geleden, ze richten zich heel duidelijk op high performance clustered servers met deze nieuwe systemen/chips.
Rubin is een architectuur voor dense modellen, terwijl de software al over is op sparse (MoE als voorbeeld). Niet de toekomst, maar het verleden. Nog steeds het snelst, maar dat is meer een kwestie van gebrek aan goede concurrentie.

De toekomst is nog meer geheugen bandbreedte dan wat mogelijk is met HBM en interposer. SRAM heeft de bandbreedte, maar kost teveel per bit. Daarom is de volgende stap hybrid bonded DRAM stacks bovenop de compute, indien mogelijk met goedkopere 3D DRAM (maar zelfs zo niet, dan maar meerdere 2D DRAMs bonden). De compute word moeilijker te koelen, maar geheugen is belangrijker dan compute.
We zijn die sparce ruimte juist weer aan het vullen, is in plaats van te laat wellicht juist optijd: https://unsloth.ai/docs/basics/faster-moe

(Voor training is dit voorbeeld Vera is natuurlijk voor inference)

[Reactie gewijzigd door djwice op 9 april 2026 18:27]

Je komt er niet onderuit dat voor dezelfde batch size het hergebruik van gewichten onderuit gaat met MoE, het is fundamenteel.

Kan de batch size natuurlijk omhoog gooien, maar dan krijg je ook weer meer KV cache en gradients en de gradient word een slechter signaal om mee te trainen.

[Reactie gewijzigd door Pinkys Brain op 9 april 2026 18:47]

Voor je KV Change gebruik je dan asymmetrische TurboQuant van Google.

In de eerste link stond packing niet heel expliciet vermeld: https://unsloth.ai/docs/blog/3x-faster-training-packing

De padding met nullen (sparse) worden dan vervangen / gevuld met nuttige data (dense).

[Reactie gewijzigd door djwice op 9 april 2026 19:05]

De Blackwell chips in je lichaam kale PC hebben ook al petaflops (ongeveer 1 bij 5070).

Er zullen ook andere partijen komen die gaan concurreren met NVIDIA. Maar ja, lokale krachtige AI is nu beschikbaar en ik verwacht steeds groter wordende adoptie en toepassing.
  • Geen uitbreiding mogeljik
  • 300GB RAM voor autonome auto's.
  • Al die hype over een laptop met 8GB RAM
Wat is deze klap?

niet mijn toekomst

Om te kunnen reageren moet je ingelogd zijn