SK hynix stelt HBM3 met bandbreedte van 665GB/s in het vooruitzicht

Geheugenfabrikant SK hynix heeft HBM3-geheugen in ontwikkeling dat een bandbreedte van meer dan 665GB/s per chip biedt. Dat is een flinke verbetering tegenover HBM2E, dat een bandbreedte van maximaal 460GB/s heeft.

Naast de bandbreedte van meer dan 665GB/s maakt HBM3 een i/o-snelheid van meer dan 5,2Gbit/s mogelijk, meldt SK hynix op een pagina over HBM2E. Die snelheid ligt bij HBM2E op 3,6Gbit/s. De Koreaanse geheugenfabrikant meldt niet wanneer HBM3 moet verschijnen, alleen dat het deze momenteel in ontwikkeling heeft.

Het gaat bij de cijfers om de bandbreedte per chip en zoals Tom's Hardware aantekent, kunnen gpu's en fpga momenteel over zo'n vier tot zes geheugenstacks op basis van HBM2E beschikken, voor een bandbreedte van 1,84 tot 2,76TB/s. Bij HBM3 zou dat bij vergelijkbare stacks oplopen tot 2,66 tot 3,99TB/s.

Standaardisatieorganisatie Jedec heeft nog niets bekendgemaakt over HBM3. Eind 2018 gaf die organisatie de HBM2-specificatie een update, die fabrikanten HBM2E zijn gaan noemen. Micron liet vorig jaar doorschemeren aan HBMnext te werken, wat op HBM3 zou kunnen duiden. Dat zou eind 2022 moeten verschijnen.

SK hynix HBM3

Door Olaf van Miltenburg

Nieuwscoördinator

10-06-2021 • 15:21

22

Reacties (22)

Sorteer op:

Weergave:

Indrukwekkende snelheden maar ik denk dat de toepasbaarheid echt minimaal is. Zeker in tijden waar silicon voor de hoofdprijs verkocht word en dat gaat de komende jaren niet veranderen.

Vraag me ook af of voor gaming kaarten dit nog wel nut heeft. Architectuur lijkt momenteel belangrijker dan geheugen bandbreedte. Misschien zuiniger maar voor de prijs die het kost denk ik niet dat het breed geïmplementeerd gaat worden.
Ik denk eerder dat dit wel degelijk zinvol is. Je ziet bij fabrikanten van cpu's dat men bezig is met de ontwikkeling om een grote hoeveelheid level 3 cache tegen de cores aan te plaatsen. Dat heeft een grote positieve invloed op de prestaties. Als de latencie van dit geheugen klein is (of laag) dan zou dit voor de high end cpu's van 2022 \2023 maar zo een waardevolle toevoeging kunnen zijn
Het draait de komende jaren enkel nog om dataoverdracht optimalisatie. Van nvme/sdd op pcie5 en ddr5, tot cache dichtbij de cores. Het lijkt toch alsof sony dit begonnen is met de ps5 super snelle ssd. Ik vind het een goede zaak en wil zelf een rivisie van de moederboarden. Ik zou willen dat ik ddr direct onder de chip kan insteken, aan de onderkant van het moederbord zeg maar. Kortere banen is lower latency. Misschien de gpu direct aan de zijkant van het mobo waar nu de cpu stroomvoorziening zit, ook weer kortere banen. Wellicht een soort revolutionaire pc kubus gericht op latency reduction... nee ik droom teveel...
Volgens mij haal je veel termen door elkaar.. Data throughput is iets anders dan latency.

PCIe en DDR5 lijken niet echt meer op elkaar. PCI-e is een serial bus protocol met lanes, DDR geheugen is nog parallel met grote data bussen.

De reden dat we voor insteekkaarten over zijn gestapt op PCI-e, is omdat het routen van grote parallel bussen op PCBs met steeds hogere frequenties te lastig werd vanwege vele stubs en timing skew tussen de data pinnen. Met PCI-e lanes kan elke lane individueel ge(re)timed worden en maakt het weinig uit dat de ene lane ietsjes langer is dan de andere. In termen van latency op bit niveau maakt dat een cruciaal verschil omdat de klok frequentie flink omhoog kan, maar in termen van latency op systeem niveau is een 5cm korter of langere PCI-e bus bijna verwaarloosbaar. Dan kijken ze toch eerder hoeveel clock cycles het kost om een bepaalde actie te doen. Vaak zijn dat kosten-baten keuzes en heeft het vaak weinig zin om altijd maar 1 klok cycle latency na te streven.

Dat de PS5 dus een snelle SSD bevat is leuk voor ze, maar niet echt relevant..
Leuk om van te dromen, maar ik denk dat de latency veroorzaakt wordt door de schakelingen van een controller en niet door de afstand van het draadje. Daarnaast heeft het dichterbij elkaar plaatsen van componenten andere negatieve effecten, zoals minder goede warmteafvoer. Jammer als je geheugen een fractie sneller is, maar alles de hele tijd throttled. :P
Waarom dan 3d stacken? Als afstand niet uit maakt?
Omdat lagers inmiddels goedkoper zijn dan oppervlakte op een wafer? ;)
Hier verdient sony totaal geen credits aan. Er waren al vergelijkbare producten voordat de ps5 uit was. Sony heeft er alleen as eerste een groot marketing verhaaltje aangehangen.
Geen idee of dit geheugen daadwerkelijk als directe implementatie als cache gebruikt kan worden of dat er een IO/controller aan te pas moet komen die de latency dermate hoog zou maken dat het onbruikbaar is in tegenstelling tot L3.

De geheugen dichtheid van deze chips is wel veel groter als die L3 cache en dus kan je wel stellen dat het ergens niet helemaal hetzelfde zal werken. Maar voor een gpu word het denk ik voorlopig geen mainstream totdat we een silicon overcapaciteit hebben.
ik denk dat je voorbij gaat aan de datacenter markt die zelfs voor AMD en NVIDIA snel aan belang aan het winnen zijn, als die al niet belangrijker is dan de gaming-markt. Zelfs automotive lijkt de laatste tijd meer belang te winnen en zijn we qua omzetaandeel snel aan het terugvallen, misschien omdat de software in de andere sectoren veel hogere eisen stellen aan de hardware dan wat er in die markten traditioneel gebruikt werd
Dit is puur voor het datacenter/AI, je zal dit waarschijnlijk wel gaan zien misschien op gewone grafische kaarten maar dat betwijfel ik ten zeerste vermits we HBM2e amper zien :)
Dit soort chips worden gebruikt in professionele en data center georienteerde GPU's Daar is een hogere bandbreedte zeker welkom.

Ook voor consumer GPU's is het zeker interessant om een hogere bandbreedte beschikbaar te hebben. De bandbreedte tussen geheugen en Streaming Multiprocessors is net zoals bij CPU's tussen RAM en Core de grootste bottleneck voor performance. Caching helpt natuurlijk wel, maar het blijft een workaround die met sneller geheugen minder belangrijk wordt.

Het is natuurlijk ook belangrijk dat de latency goed is van het geheugen anders verplaats je de bottleneck van bandwidth naar latency en daar schiet je niet zoveel mee op.
Kan iemand uitleggen hoe ik bandwidth vs io moet zien?
Aangezien die 5.2Gbit I/O heel veel minder is dan die 665GB(yte) bandwidth. Moet ik dat zien als op de chip zelf data van de ene naar de andere plek versturen is bandwidth en data naar de chip sturen (van bijvoorbeeld het systeem geheugen/cpu/ssd/whatever is I/O op een max van 5.2Gbit/s?
1024×5,2÷8 = 665,6
Waar komt die 1024 vandaan? Iets meer info?
Staat hier niet, staat niet op de SK hynix pagina..
Ik mis iets ergens geloof ik.

Normaal is Gbit / 1024 = (groot getal) in bytes..

[Reactie gewijzigd door markg85 op 4 augustus 2024 12:36]

mijn excuses, was misschien wat kortaf en verkeerdom.

De berekening ging als volgt:
665 * 8 / 5.2 = 1023.08 (GByte * 8 om er Gbit van te maken, vervolgens delen door de i/o snelheid in Gbit)

Mijn vermoeden is dan dat het geheugen aangesloten is op een bus van 1024 bits breed, wat betekent dat je een bandbreedte kunt halen van 1024 keer de i/o snelheid. En 1024 omdat een bus meestal een breedte heeft van een macht van 2, in dit geval 2^10. De getalletjes in het artikel zijn niet zo precies dus misschien zit ik er compleet naast maar dit lijkt me het meest logisch.

Dat de 1024 voorop stond kwam doordat ik het zo had ingevoerd in de calculator, knip/plak, enz.
Top, dat is wat ik zocht :) is gelijk een stuk helderder nu!
Thanx!
Ze missen 1 GB/s ;)
Is het met HBM niet zo dat je, gezien de hogere throughput van data, minder nodig hebt dan pakweg GDDR6?
Je ziet vaak dat HBM geheugen in 2 of 4 zogenaamde stacks uitgevoerd wordt, Dat is een stapel van meestal 8 HBM dies die samen met een controller een block geheugen vormen. Die dies zijn met elkaar verbonden door through silicon vias (tsv) en de stack wordt via bumps op het target silicium geplaatst. Door het 3D character is het mogelijk om de transmissie paden kort te houden en de bus breed te maken.

Dus als je een kaart hebt met 2 of 4 stacks lijkt het inderdaad alsof je minder geheugen hebt dan bij een traditionelere variant zoals GDDR6(x), maar throughput is maar een aspect van geheugen.

Latency is net zo belangrijk (de tijd tussen de vraag naar data en het opleveren van die data door het geheugen). Daarnaast helpt snelheid niet als de capaciteit te klein is. Hoe minder geheugen hoe meer data van secundaire opslag gehaald moet worden en daar zitten ook throughput en latency ksten aan vast.

Neem de situatie dat je voor rendering meer assets in geheugen nodig hebt dan de GPU aan boord heeft. Dan moet er dus vanuit RAM data naar het GPU geheugen gekopieerd worden via de PCI-E bus.

De snelste variant daarvan die commercieel verkrijgbaar is op dit moment, PCI-E 4.0, heeft een bandbreedte in beide richtingen van ongeveer 29 to 30 GB/s (dat is wat ik gemeten heb op een RTX 3090 op een X570 bord met een Ryzen 7 3800X).

Dat is dus zeker 20 keer langzamer dan dit HBM geheugen!

Dus ik denk dat capaciteit zeker net zo belangrijk is throughput en zou de eerste niet verminderen omdat de tweede groter geworden is. Er zijn meer aspecten belangrijk binnen het geheugen subsysteem van een PC.
Bedankt om je inzicht (en moeite) zo duidelijk neer te pennen ;)

Op dit item kan niet meer gereageerd worden.