Onderzoekers van de North Carolina State University en Samsung hebben met simulaties aangetoond dat Dense Footprint Cache efficiënt ingezet kan worden: met de cachetechnologie kunnen applicaties meer dan 9 procent sneller starten.
Bij die-stacked dram wordt het geheugen op de die van de processor gestapeld. Dat maakt lagere latencies en vooral hogere bandbreedte mogelijk. Als het dram als last level cache voor de processor ingezet wordt, is het wel een probleem dat het aanspreken van het geheugen door de omvangrijke tag-array veel eist van het sram-budget.
Om de overhead bij het sram terug te brengen, kan voor grotere geheugenblokken, of Mblocks, gekozen worden. Bij een blokgrootte van 2kiB in plaats van 64B snoept 256MB llc bijvoorbeeld nog maar 1MB sram op. Onder andere Intel gebruikt Mblocks vanaf de Haswell-generatie. Nadeel is dat grote delen van de blokken helemaal niet nodig zijn voor de processor, maar wel in de cache geladen worden. Daarvoor is dan weer de Footprint-techniek ontwikkeld: die zorgt voor een onderverdeling van de Mblocks in kleinere blokken. Die worden alleen aan de cache toegevoegd als er indicaties zijn dat ze nodig kunnen zijn.
De onderzoekers van North Carolina State University en Samsung beschrijven het nieuwe probleem dat dit oplevert: delen van de Mblocks blijven ongebruikt achter en deze leemtes zouden opgevuld kunnen worden met bruikbare data. Ze stellen daarom voor bij het fetchen van delen van Mblocks, de blokken aaneengesloten in de cache te plaatsen. Ze noemen deze techniek Dense Footprint Cache. De Mblocks hebben daarbij variabele groottes, wat uitdagingen op gebied van het plaatsen, herplaatsen en updaten van geheugendelen met zich meebrengt. De eerste testresultaten laten volgens de onderzoekers echter efficiëntieverbeteringen zien.
Bij simulaties van bigdata-applicaties zou Dense Footprint Cache deze 9,5 procent sneller laten draaien dan zonder gebruik van deze techniek, met een energieverbruik dat gemiddeld 4,3 procent lager ligt. Bovendien zou de miss ratio met 43 procent afnemen: lastlevel cache-misses vinden plaats als de processor data uit de cache probeert te halen die er niet is, waarna deze uit het langzamere werkgeheugen gehaald moet worden. De prestaties zijn gemeten met de Cloudsuite-benchmark.
De paper van de onderzoekers is getiteld Dense Footprint Cache: Capacity-Efficient Die-Stacked DRAM Last Level Cache en deze zal tijdens de International Symposium on Memory Systems begin oktober gepresenteerd worden.