SanDisk ontwikkelt 'HBF'-geheugen, moet 4TB vram op een AI-gpu mogelijk maken

SanDisk heeft een nieuw type geheugen aangekondigd. High-Bandwidth Flash, ook wel HBF, moet gaan werken als een soort alternatief voor het bestaande HBM. SanDisk claimt dat HBF hoge bandbreedtes biedt met tegelijk een zeer hoge opslagcapaciteit.

SanDisk claimt dat de eerste HBF-generatie het mogelijk maakt om datacenter-gpu's te voorzien van 4TB aan vram. Dat is mogelijk door acht losse HBF-stapels met de gpu te verbinden. Daarmee ligt de capaciteit 'acht tot zestien keer hoger' dan bij HBM, het geheugentype dat nu vaak gebruikt wordt in datacenter-gpu's. De nadruk ligt bij HBF dus op hogere capaciteiten, hoewel de bandbreedte ook 'vergelijkbaar' moet zijn met die van HBM.

HBF bereikt die hogere capaciteit door gebruik te maken van nandgeheugen, dat ook wel wordt gebruikt in ssd's. Met HBF worden verschillende nandchips op elkaar gestapeld en met elkaar verbonden. Vervolgens kunnen die verschillende geheugenchips parallel aan elkaar benaderd worden, wat zorgt voor een hogere bandbreedte. Het concept is daarmee vergelijkbaar met HBM: bij die geheugenstandaard worden ook meerdere geheugenchips boven op elkaar gestapeld, hoewel dat dram-chips betreft in plaats van nandgeheugen.

HBF zal niet in alle gevallen een volwaardig alternatief zijn voor HBM. Zo zal de per-bit latency een stuk hoger liggen dan bij dram, merkt ook Tom's Hardware op. Daardoor is High-Bandwidth Flash vooral geschikt voor leesintensieve toepassingen met een hoge throughput. Een voorbeeld daarvan is het trainen van AI-modellen, waarbij veel data wordt gebruikt, maar een lage latency niet van belang is. Tegelijk is het volgens SanDisk ook mogelijk om HBF-stacks te combineren met HBM op een gpu. Verder rept de fabrikant niet over het uithoudingsvermogen van HBF. Nandgeheugen is gevoeliger voor slijtage dan dram.

SanDisk zegt dat de eerste HBF-generatie gebruikmaakt van stapels met zestien nandchips. De fabrikant heeft daarnaast een roadmap gepubliceerd waarop ook een tweede en derde generatie worden vermeld. De tweede generatie moet een 50 procent hogere capaciteit en een 45 procent hogere leesbandbreedte leveren, terwijl het energiegebruik met 20 procent moet dalen. De derde generatie moet twee keer meer opslagruimte en leesbandbreedte leveren dan de eerste.

Voorlopig heeft het bedrijf overigens nog niet bekendgemaakt wanneer de eerste HBF-chips op de markt komen. SanDisk kon geen releasedatum delen. Het bedrijf zegt wel dat het van HBF een open standaard wil maken die ook voor andere geheugenfabrikanten toegankelijk wordt.

Door Daan van Monsjou

Nieuwsredacteur

14-02-2025 • 12:33

33

Lees meer

Reacties (33)

33
33
14
1
0
16
Wijzig sortering

Sorteer op:

Weergave:

Voor de liefhebber: HBM gebruikt DRAM en dus een condensator om een waarde op te slaan. Omdat een condensator zijn spanning over tijd verliest moet je deze blijven verversen.
NAND gebruikt een (floating-gate) transistor om de waarde te bewaren en dat gaat (jaren) lang goed zonder spanning te leveren.

[Reactie gewijzigd door tedades op 14 februari 2025 12:48]

Wat niet wil zeggen dat dram minder zuinig (energie efficiënt) is dan nand op moment dat een server aan staat. Ik lees enkel het nadeel dat dram zijn gegevens verliest als de spanning uitvalt.

Ik weet btw dat er ook dram geheugenmodules zijn met backup condensatoren om data vast te houden bij bv een stroomstoring.
Het nadeel van standaard DRAM is dat de dichtheid veel lager is.

Zijn wel wat proefballonnetjes voor condensatorloze 1T DRAM, maar niks met grote namen.
Het slijtage issue wordt natuurlijk een heel stuk minder ernstig doordat het model slechts één keer geladen hoeft te worden en de verwerking niet opgeslagen hoeft te worden.

- Model laden
- Inference draait op de GPU op basis van het model
- Output rechtstreeks naar CPU/console

Het gevolg is dat er alleen schrijf acties op de flash zijn wanneer het model vernieuwd wordt; iets wat doorgaans een lange periode heeft.

Ofwel: Dit spul zal zeker aardig werken voor ML toepassingen terwijl het nagenoeg nutteloos is voor andere dingen die je op de GPU zou willen doen. Krijgen we eindelijk weer een fatsoenlijke fysieke splitsing tussen gaming kaarten en ML kaarten.
Zou dit theoretisch betekenen dat we een afsplitsing kunnen creëren in GPU's? Een soort van hybride RAM configuratie waarbij HBM en HBF beide aanwezig zijn om verschillende taken uit te voeren.

Misschien dat iemand mij de belemmeringen van de architectuur kan uitleggen zodat ik beter kan begrijpen waarom dit wel/niet mogelijk en of slim zou kunnen zijn.
Zeker! Dat heeft SanDisk bevestigd en staat ook (een beetje verstopt) in het artikel :)
Tegelijk is het volgens SanDisk ook mogelijk om HBF-stacks te combineren met HBM op een gpu.
In de derde slide staat een voorbeeld daarvan: een plaatje van een gpu met zes HBF-stacks en twee HBM-stapels. Die heeft dan 3120GB aan vram, in plaats van de volle 4TB
Wow ja! Cool. Ik dacht dat ik niet goed op "volgende" had gedrukt bij de plaatjes en twee keer dezelfde zag. Bedankt voor het aanduiden.
De belemmering is, zoals ik het begrijp, de reactie snelheid en niet perse de doorvoer snelheid. Een beetje zwaar computer spelletje is continue bezig met data in het geheugen te zetten en updaten om het daarna elke frame te lezen en te tonen.

Deze architectuur werkt beter bij schrijf en lees acties die niet zo afhankelijk zijn vd reactie snelheid.
HBF heeft inderdaad die belemmering. Maar, zijn er taken die de GPU afhandelt waar reactie snelheid niet belangrijk is? Waardoor juist een deel van de berekening in de HBM kan afgestoten worden naar de HBF. Daar ben ik benieuwd naar en hoe dit afgehandelt wordt door de software.

Hypothetisch: schaduwen moeten snel reactie geven, terwijl textures vooraf ingeladen kunnen worden en langer vastgehouden worden in de HBF. Natuurlijk is het in de praktijk een stuk ingewikkelder dan dat, vandaar ook dat ik de stelling hypothetisch noem.
De software gaat ermee om zoals jij zegt dat het ermee om moet gaan :p Denk niet dat je stelling zo hypothetisch is. Ik heb geen ervaring met 3D spelletjes maar in het 2D spelletje wat ik voor de lol aan het maken ben zijn dr zat dingen waar dit prima kan werken. Kan me voorstellen dat dit voor 3D games ook zal zijn idd
Grappig dat de energie-efficiëntie met de generaties minder wordt, als ik het plaatje mag geloven :P

Maar klinkt wel interessant voor datacenter/AI toepassingen, als de levensduur een beetje in orde is.
Haha maar echt. Volgens mij is er iets mis gegaan met het maken van deze presentatie. Efficiency wordt random eraan geplakt. Ergens anders staat ook performance / power efficiency ofzo. Daar hoort volgens mij ook power te staan. In efficiency zou hij inderdaad juist de andere kant op moeten gaan 1/power zeg maar.
Nvidia lees je mee, :)

4 TB geheugen op je RTX6070TI :)
Wel gamen met slechte latency, ik weet niet hoe lang je dat volhoudt, voordat je alle haren uit je hoofd trekt en een schop geeft richting die 4TB geheugen.
Laat staan dat je je VRAM verslijt door iets te vaak shaders te compilen van verschillende games die je 'even' wil uitproberen - Ik zit nou niet echt te wachten op "bad sector" errors op m'n gpu :+
Zouden het wel kunnen gebruiken als apart geheugen voor het inladen van alle textures.
Die zou niet moeten veranderen, bij het opstarten van de game kan je die inladen, genoeg tijd tijdens de opstart logo's en andere splash screens, menu, ...
Dan kunnen die snel ingelezen worden wanneer nodig en in ander geheugen verwerkt worden.

Dat is dan wel enkel nuttig als get een stuk goedkoper is dan HBM, alhoewel we over spreken Nvidea 500€ meer liggen ze niet van wakker.
Je kunt gewoon elke frame A.I. genereren met 4tb VRAM
Jep, that's how out of the box thinking works.

Het hele concept van hoe een game een interface maakt veranderd hiermee.
Beter 16gb snel / duur VRAM voor het meest volatile deel / games en dan nog 1 of 2 DDR5 slots erop voor AI.
Dit zou als zoete broodjes verkopen.
Ja kan best prima werken. Je verliest best wat bandbreedte, maar alsnog vele malen sneller tov draaien op een cpu
Jij denkt aan DRAM geheugen, dit gaat om NAND geheugen.

DRAM is (over het algemeen) vele malen sneller en o.a. daardoor veel geschikter voor consumenten grafische kaarten omdat daar veel vluchtige data wordt "opgeslagen"

NAND, zoals HBF, is goed voor het "langer" (tussen quote's omdat het niet je SSD vervangt) opslaan van veel data. Dit wordt in datacenters veel gebruikt.

Je zou kunnen stellen dat DRAM echt werkgeheugen is en NAND korte-opslag geheugen is.

[Reactie gewijzigd door lodu op 14 februari 2025 12:52]

Dat zou de kaart extreem duur maken en dan is het nog nutteloos ook. Speel je Cyberpunk 2077 op 4K en gebruik je 10GB van de 4TB. Meer RAM of VRAM is nutteloos als je het niet gebruikt. 100GB is exact 0% beter dan 16GB als je 10GB gebruikt.
Helaas klopt dit technisch gezien simpelweg niet. Windows (als voorbeeld) gebruikt weldegelijk 'leeg' geheugen voor data die mogelijk later weer gebruikt kan worden. Het OS doet dit passief (Bv disk read caching, maar ook actief (Sysmain, vroeger superfetch)

Waarom zou je 'leeg' geheugen onbenut laten? Denk aan een groot spel, waar na een uur spelen een eerder geladen asset (of map/level) weer opnieuw ingeladen moet worden. Dit gaat veel sneller door opnieuw het geheugen aan te spreken, dan het weer van opslag te moeten laden.

En bij slechte engines kan dit zelfs stuttering e.d. voorkomen. Dus nee, wat je zegt klopt echt niet.

[Reactie gewijzigd door Marctraider op 14 februari 2025 13:03]

Doet Windows dat ook bij vram?
Nee, VRAM zit in het domein van applicaties, in deze zal Windows hooguit de toegang faciliteren door middel van een abstractie laag.
Dat dacht ik al. Bedankt!
Als je het geheugen dus wel gebruikt heeft het nut. Precies wat ik zeg dus.
Dat gebeurd toch automatisch? Je kan je beter even verdiepen in memory management van een modern OS :P

[Reactie gewijzigd door Marctraider op 14 februari 2025 13:11]

Ik heb het over het niet gebruiken. Vervolgens heb jij het over wel gebruiken en dat het nut heeft als het wel gebruikt wordt. Helemaal bij VRAM moet het spel wel delen in het VRAM zetten, gebeurt dat niet is het nutteloos om meer te hebben. Tuurlijk is het handig om het hele spel in VRAM te kunnen zetten als het mogelijk is, maar anders is ongebruikt VRAM nutteloos en kost het alleen maar een hoop extra geld bij aanschaf van de kaart.
RTX15090, misschien... hoewel in dit tempo is 512 GB realistischer over 9 generaties. Just because they can (squeeze the market).
Zat er aan te komen. Als Intel/Micron het net iets langer hadden uitgehouden, zou 3D Xpoint hier nog beter geschikt voor wezen.
"Acht tot zestien maal zoveel capaciteit".. dat zijn nog eens verbeteringen, niet zoals de 30% verbetering van het topmodel van Nvidia, de 5090 met een adviesprijs van €2360..

Op dit item kan niet meer gereageerd worden.