Redacteur

Feedback • 10-07-2017 18:06 19

MIT werkt aan geheugenbottleneck

Snellere caches en cpu- en geheugenintegratie

10-07-2017 • 18:06

Multipage-opmaak

Jenga: beter cachemanagement

Twee onderzoeksgroepen van het Massachusetts Institute of Technology hebben technologie ontwikkeld om een van de beperkende factoren in rekenkracht, de communicatie tussen processor en geheugen, te verwijderen.

De eerste toepassing richt zich op klassieke computerarchitecturen en dan met name op de processors zelf. Om te kunnen rekenen aan data heeft een processorcore zowel instructies als data nodig en moet de verwerkte data weer worden weggeschreven. In het verleden hadden processors geen caches en moesten instructies en data uit het werkgeheugen worden gehaald maar naarmate kloksnelheden omhoog gingen, kon data niet snel genoeg worden aangevoerd uit het ram. De oplossing was om caches, of kleine stukjes geheugen, dichtbij de rekenkernen in de processor in te bouwen. Die caches bestaan niet uit dram, maar veel sneller, en duurder, sram en worden in kilobytes of megabytes gemeten in plaats van gigabytes zoals bij werkgeheugen.

Cache-levels

Processorontwerpers hebben de afgelopen jaren steeds meer cachegeheugen in processors ingebouwd en inmiddels hebben processors drie lagen of levels cache, die afhankelijk van de laag steeds groter maar ook steeds trager worden. Het L1-cache is het snelste en zit het dichtst tegen te cores aan, zowel letterlijk als figuurlijk. Dat geheugen is echter vrij beperkt qua capaciteit en wordt alleen ingezet voor instructies en data die direct gebruikt moeten worden. Het L2-cache is groter maar iets trager en sinds enkele generaties hebben consumentenprocessors ook L3-cache, dat flink groter is, maar ook weer trager. Bij processors met meer dan één core zijn de L1-caches opgedeeld in een instructie- en datacache en heeft elke core zijn eigen L1-cache. Ook heeft elke core zijn eigen L2-cache, dat niet is opgedeeld in data- en instructiecaches. Het L3-cache ten slotte, wordt gedeeld door de verschillende cores.

De grootte van de verschillende caches kan worden aangepast aan de toepassingen waarvoor de processor ontworpen is. Zo hebben serverprocessors grote L3-caches, maar zouden sommige werklasten profiteren van grotere L2-caches of juist van nog grotere L3-caches, bijvoorbeeld voor multithreaded toepassingen, aangezien het L3-cache gedeeld wordt. Een groep onderzoekers van het Massachusetts Institute of Technology heeft software ontwikkeld waarmee gesimuleerd kan worden hoe de cachehiërarchie geoptimaliseerd kan worden voor toepassingen. Vooralsnog bestaat de techniek alleen als simulatie, maar het zou gebruikt kunnen worden om processorontwerpen te optimaliseren.

Jenga

In de simulaties die de MIT-onderzoekers uitvoerden konden ze een chip met 36 cores simuleren. De prestaties van die chip namen met twintig tot dertig procent toe met geoptimaliseerde cache-architecturen ten opzichte van standaardprocessorontwerpen. Bovendien nam het energieverbruik met dertig tot vijfentachtig procent af. Dat komt omdat de cores enerzijds minder kloktikken hoeven te wachten op data van de caches, maar ook omdat de data efficiënter uit de caches kan worden gehaald. Door relevante data namelijk in caches dichter bij de cores die de data nodig hebben op te slaan, kunnen latencies omlaag.

De onderzoekers hebben een algoritme ontwikkeld dat ze Jenga noemen. Jenga zet latencies tegen cache-grootte voor applicaties af en berekent paden over het oppervlak van die verhouding die de minste latency opleveren. Door slechts samples van de curve of het oppervlak van de functie te nemen in plaats van het helemaal door te rekenen, kan Jenga heel snel de optimale latency-paden berekenen en de cachetoewijzingen elke 100ms verversen. Om de latency bij wegschrijven van data te minimaliseren berekent Jenga bovendien de optimale locaties om data weg te schrijven, zodat ook daar geen bottlenecks ontstaan.

3d-integratie van cnt-fets en rram

Een tweede onderzoeksgroep bij het Massachusetts Institute of Technology richt zich op een alternatief computerontwerp dat niet meer de klassieke Von Neumann-architectuur aanhoudt. Zoals elke computer in ons bezit, maakt een Von Neumann-computer gebruik van invoer die verwerkt wordt door een cpu, die data uitwisselt met geheugen en de resultaten van berekeningen ten slotte uitvoert. Juist omdat de communicatie tussen cpu en geheugen, zoals we op de vorige pagina zagen, vaak een bottleneck vormt voor de rekensnelheid van een processor, kijken veel onderzoekers naar alternatieven voor de Von Neumann-architectuur om computers sneller te maken.

De onderzoeksgroep van het MIT werkt samen met de Stanford-universiteit en gezamenlijk hebben ze in wetenschappelijk tijdschrift Nature een chip omschreven die geheugen en rekenkracht bij elkaar brengt, zodat de geheugeninterface niet langer een beperkende factor voor de rekensnelheid vormt. Bovendien hebben ze twee nieuwe technieken voor de fabricage van het geheugen en de cpu-transistors gebruikt. Voor het geheugen hebben de onderzoekers rram, oftewel resistive ram, gebruikt en de transistors van het rekendeel zijn gemaakt van koolstof nanobuisjes. De twee lagen zijn bovenop elkaar gemaakt, met een netwerk van interconnects tussen de transistors en het rram. Het rram fungeert niet alleen als dram, maar behoudt zijn data ook zonder spanning: het is dus zowel tijdelijke als permanente opslag.

3d-integratie cnt-fets en rram-geheugen

Vooralsnog is de chip die door de onderzoekers gemaakt werd nog een prototype, maar de één miljoen rram-cellen en het cnt-transistordeel zouden aanzienlijk zuiniger zijn dan silicium- en dram-equivalenten. Als derde laag bouwden de onderzoekers nog een laag koolstof nanobuisjes die als sensors dienen om gassen in de atmosfeer te herkennen. Dankzij de 3d-integratie van rekenlogica, rram-opslag en sensoren kon alle sensordata parallel worden uitgelezen, iets wat met conventionele technologie tegen bandbreedteproblemen zou aanlopen. Bovendien zou dergelijke integratie met siliciumcomponenten niet mogelijk zijn, omdat die veel hogere temperaturen vergen voor verwerking dan de cnt's en rram-cellen.

Het is volgens de onderzoekers voor het eerst dat zo'n grootschalige integratie van cnt-fets en rram-cellen is gerealiseerd. Waar eerdere ontwerpen nog met enkele honderden transistors werkten, hebben de MIT- en Stanford-onderzoekers twee miljoen cnt-fets gecombineerd met één miljoen rram-cellen en ook één miljoen gassensors. De onderste laag bestaat overigens uit traditioneel op silicium gebaseerde logica, met erboven de cnt-fet-logica, rram-cellen en cnt-fet-sensors. Tussen de lagen zit steeds een isolerende laag waarin via's, of verbindingen, zijn aangelegd.

De chips met rram en cnt-fets zouden op termijn vooral geschikt zijn voor toepassingen in neurale netten of andere computers waarvan de werking lijkt op die van hersenen.

Inhoudsopgave

1. Jenga: beter cachemanagement

2. 3d-integratie van cnt-fets en rram
19Reacties

Multipage-opmaak

Lees meer

MIT-wetenschappers tonen slimme luier met rfid-sensor .Geek van 14 februari 2020

IBM, GloFo en Samsung gaan gate-all-around transistors inzetten voor 5nm-chip Nieuws van 6 juni 2017

Imec ontwikkelt nanodraad-transistors met ronde gate Nieuws van 16 juni 2016

Onderzoekers ontwikkelen chip met geïntegreerde optische communicatie Nieuws van 24 december 2015

Imec integreert lasers in siliciumwafers voor photonics Nieuws van 29 oktober 2015

Onderzoekers bouwen 3d-structuren in silicium met behulp van goud Nieuws van 25 juni 2015

Meer producten en artikelen

Processors Wetenschap Cache

Reacties (19)

-Moderatie-faq

Wijzig sortering

Trommelrem 10 juli 2017 21:44

Zijn registers nog steeds apart geheugen in een processor? En is dat geheugen nog sneller dan L1 cache en zit het nog dichter op de processor?

Squee @Trommelrem • 10 juli 2017 23:23

Ja, de registers zitten min of meer direct geintegreerd in de processor pipeline, aangezien ze de waarden bevatten waar de instructies hun operaties mee uitvoeren en hun resultaten weer naar terug schrijven. Eigenlijk bestaat meestal niet echt een enkele fysieke register file meer in veel moderne out-of-order processoren, (door o.a. register renaming, bypass busses etc etc). Zo is er vaak een working register file en een architectural register file waar verschillende kopieen van waarden zich in bevinden, waarbij de ene speculatieve waarden bevat (de processor weet nog niet of hij het juiste heeft uitgevoerd). Vanuit het oogpunt van het programma dat draait zal je alleen de architecturele waarden zien, aangezien ondanks dat er van alles out-of-order gebeurt, het toch een sequentieel machine model representeert. Over de register file kan je meer lezen op Wikipedia, maar dat artikel zag er een beetje uit als een complex zooitje.

De L1 cache zit overigens ook diep geintegreerd in de processor; de L1 data cache vaak in of tegen de load-store-unit, en meestal is die in slechts 3 kloktikken te benaderen om de meest gebruikte waardes uit het geheugen weer meteen snel terug in een register te kunnen lezen. De L1 instructie cache zal aan de fetch/decode kant van de processor diep geintegreerd zitten. Iets verder naar buiten, de L2 cache, zit vaak in de orde van 12-14 kloktikken, L3 cache zo'n 50-60, en extern geheugen dan heb je het over honderden klokcycli voordat de resultaten pas terug komen.

mrtak 10 juli 2017 18:12

Zat vroeguhr de L2 cache niet op het moederbord? pentium1 enzo.
Daarna de L2 cache op de printplaat van de pentium2.
En pas bij de pentium3 daadwerkelijk op de cpu.

aryan1171 @mrtak • 10 juli 2017 19:07

Hier staat het allemaal duidelijk uitgelegd:

https://en.wikipedia.org/wiki/CPU_cache#History

Overigens wel prachtig om te zien hoe computers nog steeds krachtiger worden. Het ziet er naar uit Moore's law misschien tot halt komt- gebrek aan creativiteit echter niet. "We hebben bijna geen ruimte meer om zaken nog kleiner te maken!" > "Ah dan bouwen we toch gewoon laag op laag!" Zo logisch, zo heerlijk. Ik ben alleen bang dat naarmate we dingen ingewikkelder maken er steeds meer kans is op falen. Ik doel hier een beetje op het hallelujah/omafiets principe waar de meesten onder ons bekend mee zijn: Er zit niks op dus er kan ook weinig kapot aan gaan! Zijn hier geen failsafes tegen? Wordt hier iets aan gedaan of bedacht?

kidde

Processors

@aryan1171 • 10 juli 2017 21:27

Maar wordt het ingewikkelder? Of juist simpeler?

DRAM heeft een moederbord nodig en een connector, er zijn 'contactlijnen' nodig, er moet gesoldeed worden, en er moet altijd spanning op staan. Dat kan allemaal kapot.

Bij een SoC heb je minder onderdelen en het RRAM-geheugen is eenvoudiger aan te sturen omdat er niet altijd 'ververst' hoeft te worden. Het is niet modulair, dus niet te 'repareren', maar heeft minder onderdelen en contactpunten die kunnen falen. Verder heb je nooit risico op een niet werkende combo van MoBo, RAM en CPU: De boel is in de fabriek al getest.

Een 10nm-telefoon SoC is veel complexer dan een omafiets-CPU uit 2005 met externe North- (en South-?)bridge, maar gaat de SoC daarom ook eerder kapot?

MrHankey @kidde • 11 juli 2017 00:11

Het risico dat iets kapot gaat, cpu of omafiets of whatever, zit met name in het vervaardigingsproces en veel minder in het design van zoiets. Naarmate iets complexer is, is het moeilijker te maken en dus meer risico op foutjes waardoor het tzt kapot gaat. Met chips zie je dat yield echt hoger worden en het procede dus beter wordt. Dat verlaagt ook failure risico (mits het design ok is na een x aantal iteraties).

N8w8 @mrtak • 10 juli 2017 20:26

itt de "gewone" P2, had de P2 Celeron >300MHz on-die L2 cache op corespeed (bron: ik had er een). Volgens mij was dat de eerste consumenten CPU die dat had.
En ja inderdaad had ik daarvoor een PC (486? P1?) waarbij de L2 op een soort van dimm zat.

Verwijderd @mrtak • 11 juli 2017 09:54

Klopt. Dat concept is zelfs nog ouder; er zijn 386 borden met L2 cache sockets.

Het tweaken daarvan was ook al aan de orde: eerst hadden we 20ns, toen 15ns.
Op een gegeven moment had ik ergens 12 gevonden. Hup: 15 er uit, 12 er in.
Er is ook 10ns geweest, daar was lastiger aan te komen en vooral duur. Zelf nooit gehad.

Op simpele benchmarks was het effect op de toegang tot het geheugen ook direct zichtbaar.

Het waren 'klassieke chips' in DIL behuizing. Met een IC-trekker kon je de oude er vrij makkelijk uit halen, en de nieuwe er in duwen. (wel even je anti-statische polsbandje aan natuurlijk!)

Opa verteld uit de oude doos...

Willy Kwadraat 10 juli 2017 18:19

Ik weet nog dat ik voor mijn fonkelnieuwe pentium 75(? weet niet meer) net niet genoeg geld had voor module van 128kb pipeline burst cache. Dat was weer zoveel extra krantenwijk dat ik het heb gelaten.

cbravo2 10 juli 2017 21:20

Het is een beetje een BS verhaal. Je kunt de geheugenbottleneck niet oplossen. Je hebt, met welke processor dan ook, een limiet aan het hoeveelheid geheugen dat je in de buurt van je processor kunt plaatsen (dat je snel wilt kunnen benaderen).

Vervolgens zit het volgende onderdeel zoals geheugen en/of processor een aantal klokcycli verderop. Het is ook een vrij fundamenteel probleem: Een processor en/of geheugen heeft een bepaalde fysieke grootte en de volgende zit dus, gegeven de lichtsnelheid, minimaal X clockcycli verder. Een nieuwe plaatsing laat dan wel ruimte over voor nieuwe programmeer methodes (zoals bijv. ook op een videokaart het geval is). Maar het is geen oplossing.

De rest is 'optimalisatie'. Wat ik nog mis is een bewijs dat voor applicatie X en architectuur Y de optimalisatie Z% is. Of dat voor applicatie X een architectuur Y optimaal is (voor stroomverbruik, executiesnelheid, chipkosten, koelingskosten of welke metriek je maar wilt verzinnen).

Het grote probleem is dus dat de meeste software niet goed met die geheugenbottleneck omgaat. Compile en/of programmeertechnieken ontbreken vaak.

Sorry voor de not-so-humble opinion.

rvt1 @cbravo2 • 10 juli 2017 21:36

Je bent wel gelijk..

Volgens mij is het nog niet goed mogelijk om voor een CPU of OS te bepalen hoe lang een bepaalde core actief moet zijn op een thread. Dat kan dus inhouden dat een cache opnieuw gevuld moet worden terwijl als de core nog XX ticks door had gegaan de thread afgerond had kunnen worden.
Dus slim het aantal context switches verminderen gebeurt nog niet in voldoende mate....

Zoals altijd... correct me if I am wrong...

King4589 @cbravo2 • 10 juli 2017 23:30

Je kan ook anders tegen het op lossen van de bottleneck aan kijken, bijvoorbeeld ssd.
De Hdd was eerst de bottleneck van ieder systeem, totdat de ssd uitgevonden werd en steeds sneller wordt. Sata 3gb was al snel de volgende waarna 6gb ook al snel te traag was. Dus is ook voor die bottleneck een oplossing gekomen in de vorm van m.2
Dus met deze implementatie zou het geheugen geen bottleneck meer zijn en alles sneller worden tot de volgende bottleneck.

Squee @cbravo2 • 10 juli 2017 23:33

Het grote probleem is dus dat de meeste software niet goed met die geheugenbottleneck omgaat. Compile en/of programmeertechnieken ontbreken vaak.

Het grote probleem is dat de meeste software een soort "oneindig en exclusief" machine model aanneemt als het geschreven wordt, en helemaal niet ingesteld is op een "alles eerlijk delen" principe tussen verschillende software taken die binnen een systeem op de verschillende cores draaien. Het lijkt er op dat ze hier een mechanisme presenteren wat probeert te meten wat software nodig heeft en de hardware instelt dat er een meer optimaal performance punt bereikt wordt.

Nou vind ik het wel een heel mooi klinkend verhaal over herconfigureren van cache hierarchieen en dergelijke in dit artikel, maar mijn not-so-humble-opinion is dat het uiteindelijk allemaal neer komt op je cache allocatie en replacement policy. Hoeveel cachelines ga ik aan welke core/applicatie toewijzen, en welke gooi ik snel weer weg (streaming data), en welke hou ik extra lang vast (belangrijk deel van de working set, de stack, of instructies). Dat is natuurlijk een gebied waar uitgebreid onderzoek naar gedaan wordt, en al helemaal in het huidige multicore en Cloud tijdperk. Je wil immers een bepaalde Quality of Service (QoS) kunnen leveren, waar je zo min mogelijk last hebt van een "noisy neighbor".

Intel heeft hier overigens een tijdje geleden wat mechanismen voor geintroduceerd, zoals Cache Allocation Technology waar je bepaalde sets binnen je cache aan een bepaalde core/thread kan toewijzen, en de Code and Data Prioritization extensie daar op. Dus wat dat betreft vind ik het verhaal van deze herconfigureerbare caches helemaal niet zo spannend. Wat de beste cache is voor een applicatie? Het antwoord zal altijd zijn: zoveel mogelijk, op een zo laag mogelijke latency. Het interessantere deel hier is het algoritme wat ze gebruiken om hun QoS te bepalen en hoe ze een optimum proberen te vinden voor de performance over alle applicaties.

[Reactie gewijzigd door Squee op 23 juli 2024 15:02]

RobLemmens @cbravo2 • 10 juli 2017 23:47

Het is voor een cpu vrij goed mogelijk een profiel op stellen van datgeen dat uitgevoerd word ook lijkt het me geen (groot) probleem om threads die gedeelde data in L3 gebruiken fysiek korter bij elkaar te laten draaien op een plek op de chip kort bij die portie van het L3 dat gebruikt wordt voor die thread. Ook kan er behoorlijk gewonnen worden door de splitsing van de L2 dynamisch te maken op basis van de code die gedraaid gaat worden, als er een lus is van enkele operaties op een redelijke hoeveelheid data dan hoef ik geen bewijs om te geloven dat een andere L2 indeling flinke winst gaat geven, je kunt zomaar 90% extra L2 verwachten voor een thread voor de duratie van die lus. Na de lus zal de cache waarschijnlijk toch ververst moeten worden dan kan de indeling ook direct aangepast worden op basis van een profiel voor de nieuwe uit te voeren code, een profiel dat op vergelijkbare manier gemaakt kan worden zoals nu ook voor andere delen zoals de prefetcher of cache gedaan wordt.

Software optimalisatie is mooi, maar als je compleet geoptimaliseerde applicatie moet draaien op een dik belaste server gaat het je weinig helpen, dit kan behoorlijk verschil maken. Stel dat voor de threads die continue aan het rekenen zijn op een bult data een hoekje op de cpu wordt toegewezen en meer zodra dat beschikbaar is, dat moet geen groot probleem zijn om te implementeren in een toekomstige generatie maar dan moet een simulatie dat wel eerst uitwijzen, gewoon proberen ga je niet snel zoveel van leren als een goedkoop te tweaken simulatie

Verwijderd 10 juli 2017 18:20

vooruitgang, altijd leuk om te zien

Stijn Weijters 10 juli 2017 18:49

Is AMD toch ook mee bezig. (En de titel komt best wel clickbaity over...)

Smultie @Stijn Weijters • 10 juli 2017 21:25

De titel komt ongeveer net zo clickbaity over als jouw naam...

Magic6399 10 juli 2017 19:21

Wat een leuk artikel om te lezen. Ik vroeg me laatst al af wat die caches nou precies waren en deden. Dank voor de uitleg!

A87 15 juli 2017 19:26

Voor de mensen die denken dat 1600mhz of 2666mhz geheugen snel zat, is ur wrong...
Die bottleneck mag er wel uit. Merk een groot verschil tussen 2200, 2666mhz vs 3000 en 3000 vs 3866mhz in Battlefield met 64 spelers.. en dan doelend op de absolute minimum FPS bij een hoop actie en explosies. Zowel GPU als CPU bij lange na niet op de max.
Geheugen vormt zeker wel een bottleneck, alleen met idioot duur geheugen los je het wat op, maar ik denk dat je zelfs nog baat zou hebben bij bijv 10Ghz DDR5

[Reactie gewijzigd door A87 op 23 juli 2024 15:02]

Op dit item kan niet meer gereageerd worden.

Jenga: beter cachemanagement

3d-integratie van cnt-fets en rram

Inhoudsopgave

Lees meer

Als nanometers te groot worden

Wat als elke chip uniek was?

Hoe worden chips gemaakt?

Reacties (19)

Sorteer op:

Weergave: