Core en cache
Afgelopen maandag heeft AMD op het Microprocessor Forum in San Jose voor het eerst details vrijgegeven over zijn achtste-generatie K8 Hammer processor. In deze korte feature volgt een bespreking van de AMD Hammer architectuur, aan de hand van de presentatie die in San Jose werd gegeven door AMD Chief Technical Officer Fred Weber. Deze presentatie kan in PDF-formaat geraadpleegd worden op de AMD site.
Hammer basics
De AMD K8 ofwel Hammer is de achtste-generatie processor van AMD. Wat deze processor vooral bijzonder maakt is een 64-bits uitbreiding van de IA-32 instructieset. Met deze x86-64 instructieset is de Hammer in staat om te profiteren van alle mogelijkheden van een 64-bit brede processor, terwijl backwards compatibiliteit met bestaande IA-32 software wordt behouden. De implementatie van de Hammer processor is daardoor veel minder ingrijpend dan van de 64-bit Intel Itanium, die nieuwe IA-64 software vereist om optimaal te presteren.
AMD mikt met de ondersteuning van 64-bit instructies en registers, en een grotere adresruimte niet alleen op de desktopmarkt waarin het bedrijf traditioneel sterk vertegenwoordigd is, maar vooral op het server en workstation segment. Waar de Pentium 4 is geoptimaliseerd voor hoge bandbreedte in een 1-way omgeving, is de Hammer ontwikkeld voor een zeer hoge bandbreedte in multi-processor configuraties tot 8 CPU's. Andere innovaties in de Hammer core hebben betrekking op de verbetering van de IPC, het (gemiddelde) aantal instructies dat de processor per klokcyclus kan verwerken.
Core en cache
De core van de Hammer processor lijkt grotendeels op de K7. AMD richt zich voornamelijk op het verhogen van de IPC. Gezien het feit dat moderne processors al blij mogen zijn als zij met 4 execution units een IPC van 1,3 halen, is het duidelijk dat door verbetering van de efficiency nog veel performance verbeteringen gemaakt kunnen worden. AMD heeft bekend gemaakt dat het cachesysteem van de Hammer een verbeterde branch prediction en verbeterde TLB's (translation lookaside buffers) krijgt. De L2 cache heeft een grootte van maximaal 1MB en de memory controller is geïntegreerd in de processor voor minimale latencies. Zodoende hoopt men pipeline-stalling zoveel mogelijk te voorkomen en de nadelige gevolgen van een stall te beperken. Hogere kloksnelheden worden mogelijk door ondermeer een verlenging van de pipeline van 10 naar 12 stappen. In de presentatie gaat men uit van een processor op 2,66GHz. Verdere IPC verbetering is mogelijk door de 8 extra integer registers die ter beschikking staan in 64-bit mode. De Hammer heeft SSE en SSE2 support met 16 registers in 64-bit SSE2 mode. Dankzij SSE2 hoeft de floating point performance van de Hammer niet verkreupeld te worden door de beperkingen van de x87 FPU.
Memory controller
De Hammer architectuur breekt radicaal met het traditionele idee van een northbridge die het middelpunt vormt tussen processor, geheugen, AGP poort en de southbridge. Daarentegen is de Hammer als eerste high-end x86 processor voorzien van een geïntegreerde geheugencontroller. Dit levert een latency-verlaging op van 20 tot 30 procent en verbetert daarmee tevens de bandbreedte-efficiency. De controller heeft een 64-bit of 128-bit brede bus en ondersteunt PC1600, PC2100 en PC2700 DDR SDRAM. In het meest optimale geval resulteert dit in een bandbreedte van 5,3GB/s. Er worden maximaal 8 Registered DDR DIMMs van 2GB per controller ondersteund.
HyperTransport I/O
Het I/O gedeelte van de Hammer processor wordt afgehandeld door een snelle HyperTransport bus. De HyperTransport bus is gekoppeld aan de AGP8x poort en aan de southbridge, waar zich zaken zoals de PCI32, IDE en USB controllers bevinden. In multi-processor systemen kan één van de HyperTransport bussen gebruikt worden voor koppeling met een PCI-X bridge. Verder worden de HyperTransport bussen gebruikt voor de onderlinge communicatie tussen de CPU's in een multi-processor configuratie. In 8-way systemen gebruikt AMD een X-bar crossbar switch waarbij de vier centrale processors drie HyperTransport links gebruiken.
Schaalbaarheid
AMD wil met de Hammer architectuur een breed segment bedienen, beginnend bij desktops, workstations en later mobiele computers en zware 8-way server systemen. Vooral dat laatste vereist een architectuur die zeer schaalbaar is. De ondersteuning van 64-bit registers en 48-bit adresruimte versnelt het verwerken van grote getallen en heft de 4GB geheugenlimiet van 32-bit processors op. De geheugenlimiet wordt in de praktijk beperkt tot 128GB aangezien er niet meer dan 8 DIMM slots per controller gebruikt kunnen worden, maar dat zal voldoende zijn voor elke denkbare toepassing voor een server van dit kaliber.
Op het gebied van bandbreedte kiest AMD voor een solide, snelle en schaalbare architectuur waarbij de geheugencontroller in de processor is geïntegreerd en de processors in een multi-processor omgeving onderling communiceren via snelle point-to-point HyperTransport verbindingen. De geheugenbandbreedte schaalt daardoor mee met de toename van het aantal processors. Volgens AMD is de latency-penalty van een transfer over de X-Bar gelijk aan een pagemiss in lokaal geheugen. De latency bedraagt 140ns in 4-way systemen en 160ns in 8-way systemen. Dankzij de hoge geheugen bandbreedte, die in een 4-way systeem in totaal 8GB/s bedraagt, blijven de latencies laag als een 4-way of 8-way systeem onder heftige load staat. Bij een bus-systeem, zoals dat door Intel wordt gebruikt, nemen de latencies snel toe naarmate er meer processors in de bus zitten en het bandbreedteverbruik toeneemt. De totale I/O bandbreedte kan oplopen tot 25GB/s in een 8-way configuratie met 4 HyperTransport links.
RAS
De high-end ambities van AMD vinden weerklank in de aanwezigheid van RAS (reliability, availability en serviceability) features in de Hammer architectuur. Een voorbeeld is de ondersteuning van chipkill door de memory controller. Chipkill zorgt ervoor dat een server probleemloos kan voortleven op één of meerdere dooie DRAM chips. ECC is vanzelfsprekend aanwezig, zowel op de caches als het DRAM.
Resumerend...
Kijken we naar de toepassing van de Hammer in 1-way desktop systemen, dan kan de nieuwe architectuur van AMD gezien worden als een beefed-up K7 met 64-bit support. Maken we een analogie met auto's, dan kan de K7 gezien worden als een dikke P6 met opgevoerd motorblok, terwijl de Hammer het vooral van een geoptimaliseerd motormanagement, verbeterde aerodynamica en een verbeterde wegligging moet hebben
. De innovaties zijn voldoende om ook op desktops een goede performance-verbetering te verwachten en niet alleen vanwege hogere kloksnelheden. In tegenstelling tot de Pentium 4 van Intel kunnen we bij de AMD ClawHammer wél een IPC-verhoging verwachten. Het gebruik van QuantiSpeed Model-nummers lijkt daarom waarschijnlijk. De Palamino, Thoroughbred en Barton cores werken aan de acceptatie van de QuantiSpeed-ratings voordat Hammer de markt betreedt. Silicon-on-Insulator, koper-interconnects en andere geavanceerde technologiën uit de keukens van IBM, Motorola en ASML dragen bij aan een verhoging van de kloksnelheid.
AMD K7 en K8 :^)Dat AMD serieuze ambities heeft in de server en workstation markt moge duidelijk worden uit de moeite die de ontwerpafdeling van het bedrijf heeft gestoken in het ontwikkelen van een schaalbare architectuur. Het gebruik van meerdere processors betekent niet langer het delen van geheugen- en I/O bandbreedte, maar levert bij de Hammer een combinatie op van de totaal beschikbare bandbreedte. In dat opzicht loopt de Hammer architectuur mijlen ver voor op alles wat Intel momenteel kan bieden. Veel kritiek op het uitblijven van succes in de server en workstation markt heeft betrekking op de te beperkte productlijn van AMD. Met de komst van de Hammer zal dit verleden tijd zijn. Niet alleen low-end SMP systemen behoren dan tot de mogelijkheid, maar ook high-end 4-way en 8-way configuraties. Of dit ook meteen resultaat heeft in de vorm van commercieel succes valt te bezien, maar in ieder geval zal de technologie aanwezig zijn.
Ondanks de wilde speculaties over chip multi-processing en de patenten die AMD heeft verkregen met betrekking tot CMP technologie, verwijst de presentatie niet concreet naar de aanwezigheid van CMP. Wel worden er kleine hints gegeven op pagina 26 van de presentatie, waar een flowchart wordt getoond van een northbridge met twee CPU-poorten.
ClawHammer, SledgeHammer ...en nog een Hammer?
Volgens
Silicon Strategies heeft AMD drie versies van de Hammer gepland. De ClawHammer voor desktops en 2-way systemen en de SledgeHammer voor 4-way en 8-way servers is bij iedereen bekend, maar over de derde Hammer versie is geen informatie bekend. Mogelijk is dit de CMP-variant. De ClawHammer en SledgeHammer zullen zich waarschijnlijk onderscheiden in de de grootte van de L2 cache, het aantal HyperTransport links en de breedte van de geheugenbus (64-bit bij de ClawHammer en 128-bit bij SledgeHammer). Voordat we beslag kunnen leggen op deze mooie spullen moeten we echter eerst wachten tot de release in de tweede helft van 2002....tenminste, als de geruchten over uitstel tot 2003 onjuist zijn.
Bronnen: