Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 38 reacties

Uit slides die van Hynix afkomstig lijken, is op te maken dat het bedrijf werkt aan een stacked-memory-ontwerp voor dram-geheugen waarbij de bandbreedte in de tweede generatie tot 256GB/s zou kunnen oplopen. Het 'gestapelde geheugen' is op dezelfde die als de processor te plaatsen.

De Hynix-slides waarin onder de noemer high-bandwidth memory een verticaal stacked dram-ontwerp wordt beschreven, zijn onder andere gepubliceerd op Reddit. Met dit ontwerp zou het werkgeheugen een aanzienlijk grotere bandbreedte krijgen en het geheugen kan naast een processor op dezelfde die worden geplaatst. High-bandwidth memory zou als opvolger van de huidige ddr4-, gddr5- en lpddr4-geheugentechnologie, bovendien energiezuiniger zijn.

Hynix HBM

Hynix werkt onder andere met AMD samen aan de technologie. Bij de eerste generatie stacked memory worden vier dram-dies boven op elkaar gestapeld en deze lagen zijn met elkaar verbonden via verticale through-silicon via- of tsv-kanalen, die rusten op een base layer. Tsv's vormen paden door het silicium heen, zoals de naam al aangeeft, en zorgen daarmee voor korte lijnen. Bij huidige packages met gestapelde chips, lopen de onderlinge verbindingen buitenlangs en die langere paden brengen verlies in energie, bandbreedte en kosten met zich mee. De basis-die met i/o-circuits, is via een onderliggende interposer met bijvoorbeeld de soc verbonden, waarbij de interposer als onderliggend substraat en warmteafvoer dienstdoet.

Op basis van het ontwerp waar Hynix aan werkt, zou een geheugenbandbreedte van 128GB/s mogelijk zijn, aanzienlijk hoger dan de huidige dram-geheugentypes. In een tweede generatie hbm-chipontwerpen zou Hynix de snelheid door verdere schaalverkleiningen willen verdubbelen, om daarmee uit te komen op 256GB/s.

De eerste hbm-ontwerpen zouden 4GB aan werkgeheugen kunnen opleveren door vier dram-slices van 1GB te stapelen. Ook een design van 8GB zou haalbaar zijn, maar mogelijk door beperkingen aan het base layer-ontwerp zou dit niet zorgen voor een verdubbeling van de bandbreedte.

Onduidelijk is nog wanneer AMD de met Hynix ontwikkelde geheugentechnologie in chips gaat implementeren. Er gaan geruchten dat AMD in de tweede helft van 2014 met Volcanic Island 2.0-gpu's komen die gebruikmaken van stacked dram, maar andere geruchten suggereren dat AMD's komende Carrizo-apu, die de Kaveri moet vervangen, stacked memory heeft geïntegreerd.

Stacked memory

Moderatie-faq Wijzig weergave

Reacties (38)

Het PDF document is best interessant om te lezen/kijken :Y)

Het laat ook mooi de geschiedenis zien van de opbouw van chips en de technieken die worden toegepast om de genoemde bandbreedte en snelheidsverbeteringen te behalen. Met alle plaatjes erbij is het ook nog redelijk begrijpelijk te noemen...

[Reactie gewijzigd door R0KH op 1 oktober 2014 18:48]

Weetje, Ik vroeg me al heel lang af waarom dit er niet eerder was? Leek me al zo raar dat fabrikanten zich zo nauw aan bestaande conventies hielden op het gebied van design van hun hardware.

Kan iemand misschien uitleggen waarom fabrikanten in de Computer hardware industrie dit soort toepassingen niet eerder aan zijn begonnen?

Het lijkt mij niet meer dan logisch, zolang je de connectivity het zelfde houdt dat je probeert om geheugen, hardeschrijven, videokaarten of geluidskaarten in een andere vorm te realiseren.
omdat die TSV kanalen niet triviaal zijn om te maken waarschijnlijk. zeker niet op massa-productie schalen. het uitlijnen van de verschillende stukken silicium moet heel precies gebeuren bijvoorbeeld, waar dat bij normale chips veel minder precies komt omdat de aansluitingen veel groter zijn.

bij normale stukken silicium zitten de aansluitingen maar op 1 laag aan de onderkant en zijn grotere pad's dus geen probleem ze zitten geen andere transistors in de weg. maar als ze zoals bij TSVs van boven tot onder door het silicium lopen moeten ze zo klein mogelijk zijn anders nemen ze ruimte in die aan meer geheugen besteed had kunnen worden wat extra kosten zou betekenen.

dan is er ook nog het probleem van warmte. de middelste chips kunnen bij dit ontwerp minder gemakkelijk hun warmte kwijt als traditionele chips daar moet wel rekening mee gehouden worden en kan alleen als elke chip individueel niet te veel warmte produceert.
We stapelen al heel lang silicon op elkaar, wafer on wafer, Die-on-Die, Die-on-wafer, etc. Flash is dat al heel lang gebruikelijk voor massaproductie. Aansluitingen van silicon voor in behuizing zijn ook vrij groot, daar moet namelijk een draadje aan gelast worden(bonding) waar weer het pootje of grid(BGA) aan vast komt.

Bij traditionele IC behuizing moeten de pootjes of het grid ook verbonden worden met het stukje silicon.
https://www.youtube.com/watch?v=6-iuT_o8f00
Aansluitingen van silicon voor in behuizing zijn ook vrij groot,
maar die verbindingen zitten dus zoals ik al zei aan de onderkant en maar op 1 laag.
maar je kan geen grote pads hebben aan de bovenkant. niet zonder dat de verbinding zelf ook zo groot is, wat veel te veel silicium ruimte kost. (alle features op hogere lagen moeten kleiner zijn als die eronder)
We stapelen al heel lang silicon op elkaar
dat leggen ze uit in het artikel daar zitten de aansluitingen aan de zijkant en gaat de verbinding buiten het silicium om, waardoor je de gebruikelijke aansluit technieken kan gebruiken.
omdat die TSV kanalen niet triviaal zijn om te maken waarschijnlijk
Waarom? Het is niet alsof die TSV kanalen even dun moeten zijn als de rest van de interconnect. Bonding pads zijn bijvoorbeeld nog veel groter.
de middelste chips kunnen bij dit ontwerp minder gemakkelijk hun warmte kwijt als traditionele chips daar moet wel rekening mee gehouden worden en kan alleen als elke chip individueel niet te veel warmte produceert.
Silicium is gelukkig een goede warmte-geleider, dus een heatsink aan de buitenkant levert ook een degelijke warmtereductie aan chips die in het midden zitten.
Waarom? Het is niet alsof die TSV kanalen even dun moeten zijn als de rest van de interconnect. Bonding pads zijn bijvoorbeeld nog veel groter.
je kan geen 'overhang' hebben. dat werkt gewoon niet met lithografie. dus de pad aan de onderkant kan misschien wel groter zijn, maar de pad in de bovenkant kan niet groter zijn als de verbinding door het silicium zelf.
Silicium is gelukkig een goede warmte-geleider, dus een heatsink aan de buitenkant levert ook een degelijke warmtereductie aan chips die in het midden zitten.
het is een redelijke warmte geleider, zeker geen goede. koper geleid 2.7 keer beter bijvoorbeeld. aluminium 60% beter.
Ik denk dat het in het geval van RAM komt, doordat het allemaal zo klein is en ik heb ooit eens gelezen dat het materiaal dat ze gebruiken voor de interconnects nog niet helemaal meewerkte. Volgens mij ging dit over koolstof, maar dat durf ik niet meer met zekerheid te zeggen.
RAM is lang niet de bottleneck van een systeem geweest. De hoeveelheid misschien, maar niet de snelheid. Innovatie was dus niet nodig. Doordat applicaties steeds meer een beroep doen op geheugen en het multi-core processing tijdperk ook in software nu zijn gang gaat vinden is sneller geheugen wenselijk.
Aan de slimme tweakers hier heb ik een vraag:
Ik veronderstel dat tussen twee gestuurde bits over een koperdraad of glasvezel (maakt niet uit) een ruimte of tijdseenheid zit waardoor de twee bits onderscheiden kunnen worden. Wat is nu de maximum snelheid dat bits verstuurd kunnen worden alvorens de bits gaan overlappen of dat er geen ruimte of tijdseenheid meer zit tussen twee bits ? Volgens mij moet daar een limiet op zitten of is dit niet ?
256 miljard bits/sec lijkt veel, maar hoeveel kunnen er maximum in een seconde ? En ik heb het niet over de technologie van vandaag.
MLC technieken van flash halen recent pas 3 bits per flash cell (TLC), maar over koperdraad worden al lang 6 tot 8 bits tegelijk verstuurd (QAM-64/QAM-256). De tijd tussen 2 bits is dus al een tijdje letterlijk 0.

Blij glasvezels gaat het nog verder. Daar kunnen 160 kleuren licht tegelijjk gebruikt worden zonder dat ze elkaar storen.

Niet dat deze 256 GB/s claim daardoor komt, Hynix gebruikt gewoon veel draden naast elkaar.
Dus ik mag me voorstellen dat als er 8bits tegelijk verstuurd worden er toch nog een tijd bestaat tussen de volgende 8 bits. Hoe vol kan je een kabel dus volduwen tot die vol zit ? Ik denk dat alles afhangt van de snelheid dat fotonen of elektronen kunnen vooruit geraken. Als dit theoretisch met de lichtsnelheid kan, dan moet daar een limiet op zitten.
Of kan je bits ook korter maken ?

[Reactie gewijzigd door Pepsichoco op 3 oktober 2014 20:23]

Ik ben bang dat dit niet in een paar regels uit te leggen is, zeker niet als je nog denkt dat de lichtsnelheid er mee te maken heeft.
Graag had ik daar toch 'iets' meer over geweten, maar niet te overvloedig technisch. Uitleg voor dummies ?
Met glasvezel de snelheid van het licht, denk ik?
De snelheid van het licht is gewoon een snelheid m.i., dat geeft geen hoeveelheid aan per snelheid.
hangt van de lengte van je kabel af, hoe korter de kabel/verbinding, des te hoger je bandbreedte kan wezen.
maar , dan zijn er ook nog limieten op basis van skin effect, zelfinductie enzevoort.
vandaar dat je met glasvezel hogere snelheiden kan halen theoretisch dan met koper.
Ik dacht altijd dat je snellere snelheden kon halen op glasvezel dan koper omdat licht sneller beweegt als elektriciteit.
Dat ook. Twee keer zo snel ongeveer.
"op dezelfde die worden geplaatst" - wat?
Op dezelfde bus?
of op dezelfde geheugenkaart (dat lijkt mij beetje overbodig, ze zijn al stacked) ?
Of hetzelfde slot? Dat lijkt me logische .. :P
Meestal wordt dit "de chip" genoemd maar die term is niet precies genoeg voor deze context. De "die" is het stukje materiaal (silicium) waar de logische schakelingen op zitten. Je kan meerdere (min of meer) onafhankelijke schakelingen naast elkaar op hetzelfde stukje sillicium zetten. Dat is waar het hier over gaat.
dezelfde die (spreek uit als daai)
Ah zo, thanks maestro, dat is een onbekend gebied voor mij. :)
Wat is het verschil tussen deze techniek en de Hybric Memory Cube, waar Samsung en Micron mee bezig zijn?
Hybrid Memory Cube (HMC) werkt serieel (high-speed), terwijl deze Hybrid Memory Cube parallel (dezelfde snelheid als DDR4 = 2Gbps) lijkt te werken.

Ik vraag me trouwens wie dit gaat gebruiken. Het lijkt interessant, maar 1024 pinnen...really?? 8)7
Dit is zelfs meer dan het totale I/O budget van high-end chips...
Wat maakt dat uit? Je stapelt in Hynix' idee het RAM rechtstreeks op de onderliggende SoC. je hoeft dus niet via de externe pinnen van de CPU te communiceren.
Als ik de documentatie bekijk op de site die je linkte lijkt het mij te gaan om precies dezelfde techniek. Tot aan dezelfde interconnects naar de gestapelde dies aan toe. Ik denk gewoon dat het de logische opvolger is van de techniek die nu gebruikt wordt.
Als het stacked ram boven op de die wordt geplaatst hoe zit het met de warmteafvoer? Gezien high-end gpu's rond de 200 watt of zelfs meer kunnen verstoken krijgt het ram een slinke stoot warmte te verwerken.
Is het niet handiger om het geheugen naast de die te bakken?
Het plaatje in de presentatie van Hynix laat zien dat onderop een SoC zit - dat is typisch een low-power ARM met een heleboel peripheral logic op dezelfde die. Dit gebruik je typisch in low-power toepassingen zoals smartphones. Je hebt dan nog een extra voordeel: die korte verbindingen van een stacked geheugen zorgen voor minder energieverbruik. 256 GB/s is best aardig, maar als elke byte een nanoJoule zou kosten is dat wel 256 W. Hynix noemt een energiebesparing van 68%, best goed dus.
In dit artikel staat dat AMD in de tweede helft van 2014 met volcanic island 2.0 GPU's stacked dram zal gebruiken. Zie ook http://www.overclock.net/...r9-r7-graphics-to-use-hbm .
Nu blijft natuurlijk de vraag of het geheugen er daadwerklijk bovenop kom of toch naast de GPU? Het lijkt mij naast de GPU.

nVidia gaat ook gebruik maken van stacked dram in de nieuwe pascal GPU, hierbij wordt het stacked ram wel naast de GPU geplaatst. Hier zijn het nog losse chips die direct naast de GPU geplaatsen worden. Maar ik kan me voorstellen dat het later wellicht gewoon één grote chip wordt met GPU en stacked dram gecombineerd.
http://techreport.com/new...etary-nvlink-interconnect

Overigens lijkt het mij voor SoC's ook niet het beste om het geheugen boven de SoC zelfs te plaatsen, maar er ook gewoon naast. Voor SoC's in telefoons of andere kleine apparaten is temperatuur ook vaak van belang, anders gaat de SoC zich terugklokken, dus de best mogelijke warmteafvoer is het beste en dan lijkt mij het geheugen bovenop de SoC in de weg te zitten. Maar ok, verder heb je wel gelijk dat het plaatje het alleen over een SoC heeft.
Zeker voor videokaarten en apu's die echt bandbrede hongerig zijn is dit een er mooie uitvinding.
En denk eens aan het feit dat we dan misschien eens high end videokaarten krijgen die niet zo belachelijk lang zijn dat ze de toegang tot een groot deel van je moederbord blokkeren. In ieder geval bij mijn huidige kaarten neemt het RAM een flink deel van de kaart in.

Ook bied het de optie om met dezelfde grootte lekker veel VRAM op de kaart te gooien, en daar moeten we toch echt eens naar toe, meer VRAM op high end 3dkaarten. 8 tot 16 GB lijkt me helemaal niet zo gek.
Dat is een flinke verbetering! Helemaal interessant als in het in de aankomende Carrizo apus komt.

[Reactie gewijzigd door 12_0_13 op 1 oktober 2014 17:44]

nu nog inplementeren in SSD's en dan hebben we super snelle pc's
Ja want de huidige ssd is echt een bottleneck. ...
Belangrijker: moderne SSD's gebruiken al stacked flash.
Zou gerust kunnen. Was meer bedoeld op Dark omdat hij dus bedoeld dat SSD's niet snel genoeg zijn terwijl het juist het SATA protocol is dat de bottleneck is.

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True