AMD werkt aan 3d-stapelen dram en sram op processors

AMD ontwikkelt technieken voor het stapelen van dram en sram op processors met through-silicon-via-kanaaltjes voor de verbindingen tussen de die's. De techniek voor 3d-stacking moet compenseren voor het feit dat de Wet van Moore ten einde is.

Dat AMD bezig is met 3d-stacking van processorlagen maakte general manager Forrest Norrod volgens Tom's Hardware bekend tijdens de Rice Oil and Gas HPC-conferentie. Fabrikanten stapelen al chiplagen, maar dan gaat het om package-on-packagetechnologie waarbij de bovenste geheugenlagen met standaard-bga-connecties verbonden zijn. Dit maakt efficiënt gebruik van de ruimte mogelijk, maar levert niet veel snelheidswinst op.

Volgens Norrod levert het verkleinen van chipstructuren geen frequentieverbeteringen meer op. "Met de volgende node, als we geen bijzondere dingen doen, krijgen we minder frequentie", zegt hij zelfs. Traditiegetrouw gaat het overstappen op kleinere productieprocedé's gepaard met zowel een lager verbruik als hogere kloksnelheden. Dit uitvloeisel van de Wet van Moore staat echter onder druk.

AMD wil daarom gestapelde dies met elkaar verbinden met through-silicon-via's. Dit zijn microkanaaltjes voor snelle dataverbindingen tussen de lagen. Intel werkt aan vergelijkbare technieken die het vorig jaar presenteerde onder de naam Foveros. Intel gebruikt de technieken onder andere om chiponderdelen gemaakt met verschillende productieprocedés met elkaar te combineren, zoals een 14nm-i/o-die met een 10nm-core-die. Ook AMD werkt eraan om zijn processors modulair te maken. Het bedrijf bouwt chiplets op door onderdelen te verbinden met zijn CCIX- Gen-Z-interconnects.

Reacties (39)

MSalters 18 maart 2019 09:45

Fabrikanten stapelen al chiplagen, maar dan gaat het om package-on-packagetechnologie [...] Dit maakt efficiënt gebruik van de ruimte mogelijk, maar levert niet veel snelheidswinst op.

Nou nee. "HBM" is een bekende term, en dat staat toch echt voor High Bandwidth Memory. Dat zijn gestapelde chiplagen, precies met diezelfde Through-Silicon Via's die AMD hier wil gebruiken.

De twee belangrijke verschillen hier zijn dat AMD het wil gebruiken op CPU's in plaats van GPU's, en dat ze ook SRAM willen stapelen. SRAM wordt zoals bekend gebruikt in caches.

Een belangrijke reden voor dit idee is dat je elke afzonderlijke die met de beste technologie kan maken. DRAM heeft diepe condensatoren, componenten die extreem zeldzaam zijn op CPU's. SRAM heeft sterk herhalende patronen, terwijl CPU's veel gevarieerder zijn. Je kunt dus elke afzonderlijke die maken met precies het goede aantal belichtingsstappen, je kutn de transistor-grootte variëren tussen de verschillende lagen, etcetera.

[Reactie gewijzigd door MSalters op 23 juli 2024 02:40]

knirfie244 @MSalters • 18 maart 2019 13:20

De stelling van Tweakers klopt gewoon, bij package-on-package is er amper snelheidswinst en gaat het vooral om efficient gebruik van ruimte. HBM is geen package-on-package technologie, maar een 2.5D stack die in een SiP (of met de huidige hippe term "Chiplet") geïntegreerd wordt met een GPU , waar dit artikel om gaat, het wordt in de presentatie zelfs als voorbeeld genoemd

AMD wil nu nog een stap verder gaan en 3D stacks toepassen, waarbij meerdere één of meerdere kleinere die's op een grotere die geplaatst worden met behulp van through-silicon via's.

[Reactie gewijzigd door knirfie244 op 23 juli 2024 02:40]

TabCam @MSalters • 18 maart 2019 10:19

En als ze het gaan integreren op een single package zou het wel eens meer snelheidswinst kunnen opleveren dan wordt gedacht. Nu zit het geheugen via een moederbordkanaal aan de processor vast. De lengte daarvan hebben ze niet in de hand vandaar dat je zoveel kan instellen met CAS/RAS/... latency timing. Als je het stapelt is die afstand veel korter en kan de processorfabrikant ze goed instellen.

De traagheid van DRAM-geheugen blijft hetzelfde, latency neemt erg toe met afstand. 1 nanoseconde is bijna 30 cm. Op een processor betekent grofweg 5cm voor een grote processor dus latency is dan heen-en-weer 0.33 ns i.p.v. 2 ns. Voor kleinere processoren neemt dat nog meer af.

XanderHuisman @TabCam • 18 maart 2019 11:06

De latency met RAM geheugen zit meer in het feit dat DRAM-geheugen wordt gebruikt. DRAM gebruikt een '2d' grid van rows en columns met mini condensatoren om bits op te slaan. Deze condensatoren lopen ook nog eens leeg en daardoor moet je ze ook af en toe refreshen (=uitlezen en weer opnieuw schrijven, daardoor ook dynamic geheugen). Doordat die condensatoren zo klein zijn en maar één transistor nodig hebben, passen er meer op een bepaald oppervlak dan bij statisch geheugen waarbij meerdere transistors nodig zijn (=duurder, maar sneller).

Doordat zo'n grid bij DRAM vrij groot is ten opzichte van de condensator zijn gevoelige differentiële versterkers nodig met bepaalde sequences om een data row uit te lezen. Zodra zo'n row eenmaal uitgelezen is (gebufferd in de versterkers) kan er snel uit die row gelezen worden. Als een andere row nodig is, moet de huidige weg geschreven worden, de datalijnen voor geladen worden en de nieuwe row geactiveerd worden. Hoe vaker je van row moet wisselen, des te vaker je moet wachten tot het geheugen klaar is. On-die caches (=SRAM) bufferen data uit DRAM, maar kunnen alleen data bufferen die al een keer opgevraagd is. Als data er niet in staat, halen ze het eerst uit het DRAM geheugen. Als je dan ook nog eens vaak van cache line moet wisselen (bij kleine cache), moet de cache ook vaker data ophalen. De uiteindelijke latency voor geheugen is dus sterk afhankelijk van vorige requests, maar ook van de state van het geheugen zelf.

styno @MSalters • 18 maart 2019 10:10

Package on pacage is precies wat de naam zegt: twee behuizingen op elkaar, verbonden met een ball grid array. Veelal een geheugen package bovenop een microprocessor pacage maar twee geheugen packages op elkaar gebeurt ook. Heeft op zich niks met HBM van doen, behalve dan dat zo’n HBM package ook als PoP op een andere package geplaatst kan worden.

https://en.m.wikipedia.org/wiki/Package_on_package
https://en.m.wikipedia.org/wiki/High_Bandwidth_Memory

IKON 18 maart 2019 08:01

Ik vraag me af wat dit voor de warmte gaat betekenen... Kan me goed voorstellen dat de onderste lagen van een stack minder makkelijk hun warmte kwijt komen.

the_stickie @IKON • 18 maart 2019 09:42

Silicium heeft een thermische geleidbaarheid van ongeveer 130W/Km tov 237W/Km voor aluminium (hetasink oid). Dat inderdaad een stuk minder, maar zeker niet problematisch.

De grootste uitdaging blijft het koelen van de heatsink. De interface met lucht blijft de bottleneck.

MSalters @the_stickie • 18 maart 2019 10:35

Ik denk dat het misschien niet helemaal duidelijk is, maar dat is dus 130 Watt per Kelvin per vierkante meter oppervlak maal de laagdikte in meters.

De laagdikte hier is een paar micrometer. En we kunnen meerdere Kelvin temperatuursgradient accepteren. De warmteflux kan dus naar de Megawatt per m2. Inderdaad, de interface met de lucht is het probleem.

Tadango @the_stickie • 18 maart 2019 09:58

Totdat je gaat vergelijken met koper (wat je als eerste laag wilt hebben in een goed koellichaam: 370-390

ManIkWeet @IKON • 18 maart 2019 08:29

Ik neem aan dat de grootste warmte producent bovenaan geplaatst wordt

secretqwerty10 @ManIkWeet • 18 maart 2019 09:15

precies wat ik dacht. iets wat minder koeling nodig heeft onderin plaatsen en datgene wat de meeste koeling nodig heeft bovenin

MSalters @ManIkWeet • 18 maart 2019 10:36

Klinkt logisch, maar het probleem is dat de grootste warmteproducent per definitie ook de grootste stroomverbruiker is. En de stroom komt van onderen.

watercoolertje @IKON • 18 maart 2019 08:20

Ik weet niet hoe goed dat spul warmte geleid, maar dat zal het wel deels van af hangen, en hopelijk worden de lagen die er op komen van zichzelf ook niet (te) warm en kan dat de warmte die de cpu zelf uit straat wel aan.

Maar daar zal AMD wel over nagedacht hebben.

pgerrits 18 maart 2019 09:37

3 redenen waarom de Wet van Moore eindig is.

1. Transistors zijn nu zo klein dat ze niet nog kleiner kunnen worden zonder dat het kanaal waar de energie doorheen gaat te warm wordt en daardoor dus sneller slijt waardoor er meer energie zal lekken.

2. Veel transistoren op 1 chip zorgen veel veel warmte allemaal te samen waardoor de integritiet van een chip onder druk komt te staan. Hierdoor moet het voltage omlaag voor de gehele chip of het aantal transistors worden verlaagd. Hierdoor zal dus de performance minder worden.

3. Door al deze hitte is er nog een extra reden om niet door te gaan. Die hitte moet ook gekoeld worden en vooral in Datacenters is dit onbetaalbaar.

Bij elkaar zorgt dit er dus voor dat er geen markt meer is voor kleinere chips. Het is zijn dus warmere chips met een lagere gebruiksduur met vervolgens meer kosten om deze te koelen waardoor er simpelweg geen economische reden is om dit te willen. Er is dus geen vraag vanuit de grote enterprise markt.

MSalters @pgerrits • 18 maart 2019 10:29

Sorry, maar al je drie redenen zijn incorrect.

1. Het probleem is niet dat het kanaal te klein is, maar de isolatie tussen twee kanalen. Daardoor lekt er stroom tussen die kanalen.

2. Je noemt terecht het verlangen van spanning als een optie. Het verlagen van het aantal transistoren is minder voor de hand liggend. Wat energie kost is niet het bestaan van een transistor, maar het schakelen ervan. Zeker in SRAM zien we transistoren die alleen dienen om een bit vast te houden, vrijwel zonder energieverbruik.

3. De koelingskosten van een datacenter vallen tegenwoordig wel mee, dat kan vrij efficient. Airconditioning is niet meer strikt noodzakelijk. Logisch ook: de werktemperatuur van het silicium mag oplopen tot vér boven de buitentemperatuur. Je hebt alleen actieve koeling nodig als je werktemperatuur onder de buitentemperatuur moet blijven (denk daarbij aan een ijskast; die moet actief gekoeld worden).

pgerrits @MSalters • 18 maart 2019 11:04

Beetje raar om te zeggen dat alle 3 redenen incorrect zijn.

1. Ik zeg namelijk niet dat het kanaal te klein is. Ik zeg dat de transistoren zo klein worden dat...

2. Ik zeg ook niet dat het bestaan van een transistor energie kost. Ik zeg ook niet dat iets voor de hand liggend is. Ik geef alleen aan dat je in feite 2 opties hebt als je de warmte wil tegengaan. OF minder transistoren OF minder volt.

3. Het gaat erom, dat als we WEL doorgaan met de wet van Moore de warmte oploopt waardoor de kosten WEL hoger worden. Dat het nu niet zo is, doet er niet toe. Daarnaast is juist energie een enorme discussie. De kosten van het klimaat akkoord worden straks bij de bedrijven geplaatst. Welke soort bedrijven gebruiken veel energie denk je? Juist...

kidde

Processors

@MSalters • 18 maart 2019 17:29

Klopt wel wat @pgerrits stelt, punt 1 en 2 in uw reactie zijn niet juist:

1) Hogere lekkage komt juist voor een belangrijk deel door quantumeffecten (tunneling) die ontstaan doordat de afmetingen van de transistor richting quantum niveau gaan. Dan is er nog de variabiliteit: Een atoom per ongeluk meer of minder is procentueel een groter probleem als je transistor mindert atomen telt. Meer variatie leidt tot langere frequentie.

https://en.m.wikipedia.org/wiki/Quantum_tunnelling

2) Ook als de transistor uit zou moeten staan kan er stroom lekken :

https://www.eetimes.com/document.asp?doc_id=1279041

[Reactie gewijzigd door kidde op 23 juli 2024 02:40]

MSalters @kidde • 18 maart 2019 17:42

Ok, dan zal ik het nog eens uitleggen. @pgerrits eerste punt is "het kanaal waar de energie [stroom] doorheen gaat wordt te warm". Dat effect bestaat; dat is gewoon klassieke Ohmse weerstand. V=I*R, middelbare school natuurkunde. Quantumeffecten zoals tunneling staat daar compleet los van, en is een ongerelateerd effect.

En inderdaad, ook in een transistor heb je tunneling, en dus een klein energieverbruik. Dat is echter te verwaarlozen vergeleken met de energie die bij schakelen benodigd is.

Waar @pgerrits dan helemaal de fout in gaat is de redenatie dat je minder transistoren nodig hebt om het energie verbruik te verminderen. In werkelijkheid wil je dus het aantal schakel-momenten verminderen. Asl je een bepaald algoritme anders implementeert zodat je met 10% meer transistoren 10% minder schakelt, dan is dat winst, geen verlies. Maar dat kost natuurlijk wel oppervlakte, dus deze oplossing werkt beter naarmate je kleinere transistoren hebt.

kidde

Processors

@MSalters • 18 maart 2019 19:21

En inderdaad, ook in een transistor heb je tunneling, ... Dat is echter te verwaarlozen

OK, dan zal ik het nog eens uitleggen.

Het lek-effect door tunneling stijgt exponentieel naarmate de features kleiner worden:

https://physics.stackexch...ing-occurring-in-this-cpu

Dus ergens op de exponentiele curve wordt het in een keer een reusachtig probleem; kennelijk rond de 5nm node:

https://www.quora.com/Wha...nt-further-size-reduction

"At 7/5nm and beyond, there is a whole new set of worries to add to the list that are associated with quantum effects." <- https://semiengineering.com/quantum-effects-at-7-5nm/

De verwachting was dat er bij 5nm, als er niets gedaan wordt; ca. 90% van de stroom zou weglekken door quantum tunneling. Helaas ben ik de bron kwijt. 90% noem ik niet verwaarloosbaar.

Hoe kan je dat het makkelijkst tegen gaan: Zolang je FinFETs (of afgeleiden als GaAFET) blijft gebruiken: Verlagen van VDD. Dus ook een lagere frequentie.

https://www.reddit.com/r/...unneling_is_mitigated_in/

Dan loop je door de miniaturisatie nog tegen andere problemen aan, zoals variabiliteit / LER.

Deze fenomenen hebben voor de komende(!) nodes dus niet langer met de Ohmse weerstand te maken, maar met quantum mechanica. En nee, die kan je niet verwaarlozen!!! Duizenden engineers werken op dit moment aan dit soort problemen; dat doen ze echt niet als het 'te verwaarlozen' is.

Dus ja, die minuaturisatie is de oorsprong van de uitspraak:

"Met de volgende node, als we geen bijzondere dingen doen, krijgen we minder frequentie", zegt hij zelfs."

Fredi @kidde • 19 maart 2019 10:20

Dan is het simpel. Het is tijd om over te gaan op quantum computers.

gast128 @pgerrits • 18 maart 2019 13:18

De 'wet van Moore' is inderdaad eindig. Afgezien van warmte is ook een probleem dat bij verdere verkleining het quantum tunneleffect te grote invloed gaat krijgen waarbij een deeltje met klassiek gezien onvoldoende energie toch door een potentiaalbarrière heen kan.

Zie ook https://www.youtube.com/watch?v=rtI5wRyHpTg

MarkVeldthuis 18 maart 2019 08:19

Misschien dat ze zijkanten dan niet afgesloten zijn zoals je nu altijd ziet, in dat geval zou je hem op die manier kunnen koelen(denk ik).

Jartim00 18 maart 2019 09:04

Een 14nm I/O die is ook iets waar AMD mee zou komen met zen 2? 7nm cores en een 14nm i/o die

EMR77 18 maart 2019 09:09

Misschien wordt het tijd om naar de manier van data wegschrijven te kijken, als wij daar een efficiëntere manier voor vinden, dan hoeven de cpu's niet steeds krachtiger te worden. Maar daar valt weinig aan te verdienen.

freekr 18 maart 2019 09:25

Zouden ze misschien de loze ruimte better willen benutten?

Volgends dit filmpje van der8auer zit er boven de daadwerkelijke transistoren nog behoorlijk veel loos materiaal wat de geleiding ook niet ten goede komt.
Inside i7-8700K - Scanning Electron Microscope (SEM) Footage (en)

Zouden ze ook gebruikmaken van metalen via's? en zou dit een deel van de verminderde warmte overdracht goedmaken?

geoffrey.vl 18 maart 2019 09:39

Krijgen we hierdoor dan ook de mogelijkheid om big-little concepten te introduceren zoals bij een ARM chip?

Dennism

Processors
AMD Ryzen 5
AMD

@geoffrey.vl • 18 maart 2019 10:20

Ja al is big-little nu natuurlijk in principe ook al gewoon mogelijk. Big-little in een concept als dit komt bijvoorbeeld al naar voren in Intels forveros concept waar ze 4 "little" Atom cores en een "Big" Ice-like core in een design hebben zitten.

computerjunky 18 maart 2019 15:10

De afbeelding met process node scaling has slowed snap ik even niet of klopt simpelweg niet.
Tuurlijk er zijn minder lage getalletjes gekomen maar de procentuele schaalverkleining is dan ook groter geworden.
Van 14 naar 7 nm is een halvering van 180 naar 130 is dat zeer zeker niet maar het tijdsbestek was gelijk.
Dat is van 90 naar 45 wel en die tijdsperiode is dus ongeveer gelijk.
Per stap is het nog altijd gelijk of meer in een zelfde tijdsbestek en die manier van een grafiekje weergeven geeft een totaal vertekenend beeld van de realiteit.
als je het omrekent naar % verkleinings schaal per jaar dan zie het er heel anders uit en is de lijn representatiever voor de realiteit.

180 naar 130 = 27.77%
130 naar 90 = 30.76%
90 naar 65 = 27.77%
65 naar 45 = 30.76%
45 naar 32 = 28.88%
32 naar 22 = 31.25%
22 naar 14 = 36.36%
14 naar 7 = 50%
7 naar 5 = 28.57%

Als je dat in een grafiekje zet met de jaren erbij dan ziet de lijn er minder slecht uit en is de factor per jaar niet zo dramatisch.
De enige keer dat het in het verleden sneller ging was van 65 naar 45.

Verder zie ik hier alleen hijl in voor low performance low power oplossingen zoals een laptop tablet of telefoon.
Voor een high end desktop is dit gedoomd te falen.

[Reactie gewijzigd door computerjunky op 23 juli 2024 02:40]

Timoo.vanEsch @computerjunky • 18 maart 2019 17:49

Yep, true.
Percentagewise houdt de industrie nog steeds stand. Echter, men is nu natuurlijk al aan het nadenken over / testen met 5nm. En blijkbaar levert dat zóveel problemen op, dat 5nm de "absolute" ondergrens aan het worden is, omwille van al vernoemde problemen (Quantum effects, leaking, etc.)

En nog iets: "...when it comes to Intel 10nm vs. TSMC 7nm, the TSMC has slightly denser die. However, the difference is so narrow, that in the end its a matter of which architecture (IPC) is better, and which can clock higher. Those two would have a much larger impact than the density itself.

As others have said, the 10nm or 7nm name are pretty much marketing number these days."
source: Reddit

Als ik daar zo eens doorheen lees, blijkt de halvering van de density de grootste constante in de afgelopen xx jaar. En juist die komt onder vuur, als men niet kleiner kan. Als men dat kan ondervangen door in de hoogte te stapelen en daarmee een hogere density te behalen, dan is dat natuurlijk een manier om de verdubbeling in density (Morre's Law) in stand te houden.

Interessante ontwikkeling, overigens:
Doorgroeien van 2D X-Y CPUs naar 3D X-Y-Z CPUs.

Edit: Gokje. Als 3D CPUs een realiteit worden, wordt waterkoeling de norm. Net zoals auto's in het begin luchtgekoeld waren, maar naarmate de performance groeide, de noodzaak van waterkoeling groter werd.

Simple Sources:
MIT news van 2 jaar terug
About Intel on The Verge
Wikipedia

edit: typo's & layout

[Reactie gewijzigd door Timoo.vanEsch op 23 juli 2024 02:40]

UK223 @Timoo.vanEsch • 18 maart 2019 22:43

daar gaat de 212 evo

computerjunky @UK223 • 19 maart 2019 02:16

Ach er zijn zelfs al tech chips van 3 nm gemaakt en ook 1nm is in test fases bij ik geloof ibm.
Hoe lang dat op zich laat wachten is de vraag maar voorlopig lijkt het allemaal wel mee te vallen.
Wat voor een naam ze na 1nm gaan verzinnen blijft echter de vraag.

onetime @computerjunky • 9 april 2019 12:31

pm? pro memory? am. fm. pm.

SSDtje

19 maart 2019 13:19

Abstract:
Cache hierarchies in future many-core processors are expected to grow in size and contribute a large fraction of overall processor power and performance. In this paper, we postulate a 3D chip design that stacks SRAM and DRAM upon processing cores and employs OS-based page coloring to minimize horizontal communication of cache data. We then propose a heterogeneous reconfigurable cache design that takes advantage of the high density of DRAM and the superior power/delay characteristics of SRAM to efficiently meet the working set demands of each individual core.

Optimizing Communication and Capacity in a 3D Stacked Reconfigurable Cache Hierarchy = .pdf
@ cs.utah.edu/~rajeev/pubs/hpca09b.pdf

Die-Stacked DRAM: Memory, Cache, or MemCache? = .pdf
@ arxiv.org/pdf/1809.08828.pdf

A Survey of Memory Architecture for 3D Chip Multi-Processors = .pdf
@ jantsch.se/AxelJantsch/papers/2014/YuangZhang-MICPRO-Survey.pdf

Op dit item kan niet meer gereageerd worden.

AMD werkt aan 3d-stapelen dram en sram op processors

Lees meer

De processor van de toekomst

Reacties (39)

Lees meer

De processor van de toekomst

Reacties (39)

Sorteer op:

Weergave: