Inleiding
Volgens IDC is er van het vierde kwartaal van 2007 tot en met het derde kwartaal van 2008 wereldwijd voor 55,2 miljard dollar aan serverhardware verkocht. Zestig procent van die omzet werd verdeeld tussen de twee giganten IBM en HP. Van de overige veertig procent ging de helft naar Dell en Sun.
De reden dat vier spelers het leeuwendeel van de servermarkt in handen hebben, is dat de producten die ze leveren complex en onmisbaar zijn, waardoor vertrouwen essentieel is. Een bekende naam en de mogelijkheden voor dienstverlening van advies tot support dragen bij aan het veilige gevoel.
Wie zich wil oriënteren op de servermarkt als voorbereiding op een consultancytraject, voor een kleinere aankoop of puur uit interesse, kan echter ook een aantal standaard benchmarks gebruiken. Deze zijn er in twee categorieën: tests zoals die van SPEC en TPC worden bedacht door commissies van mensen uit alle hoeken van de it-industrie, terwijl benchmarks zoals VMmark en SAP-SD door makers van softwarepakketten worden samengesteld. De overeenkomst tussen beide is dat het publiceren van scores voor deze tests is gebonden aan bepaalde regels, die onafhankelijk worden gecontroleerd.
Geen van deze tests is perfect. Hoewel ze allemaal ooit zijn gekozen of gemaakt om representatief te zijn, blijven ze vaak jaren achter elkaar hetzelfde. Buiten het feit dat ze op natuurlijke wijze verouderden, leren software- en hardwaremakers ze na verloop van tijd ook goed genoeg kennen om er specifieke optimalisaties voor te bouwen. Ook zijn de geteste machines bijna nooit volledig met elkaar te vergelijken; verschillen in software, compilers, hoeveelheid geheugen en harde schijven kunnen roet in het eten gooien.
Toch zijn het zeker geen onzinnige cijfers. Omdat iedere fabrikant zijn beste beentje probeert voor te zetten, is het een redelijk goede manier om de relatieve prestaties van verschillende platforms met elkaar te vergelijken, zeker als meerdere tests naast elkaar worden gelegd.
In dit artikel richten we ons vooral op de nieuwe 45nm-processors die in het laatste halfjaar zijn verschenen, met name de 6-core Xeon Dunnington, de AMD Opteron Shanghai en natuurlijk de nieuwe Nehalem. De belangrijkste vraag die we willen beantwoorden, is hoe goed of hoe slecht AMD er in de servermarkt voorstaat.
SPECfp2006
SPEC CPU2006 bestaat uit vier benchmarks. Ten eerste is er het onderscheid tussen integer- en floatingpointtests, waarmee onderscheid gemaakt wordt tussen verschillende soorten code die verschillende eigenschappen van de processor belasten. De eerste suite test het rekenen met gehele getallen en veel vertakkingen, terwijl de tweede zich richt op kommagetallen en het echte cijferkauwen.
Daarnaast is er de opdeling in de gewone cpu-test en de rate-test. In de eerste wordt een enkele instance van ieder programma gedraaid, terwijl de score in de tweede variant kan worden opgevoerd door meer kopieën van de suite parallel te draaien. Voorheen was de eerste vorm een goede indicatie van singlethreaded prestaties, maar sinds de opkomst van compilers die automatisch meerdere threads genereren, is deze vorm van de benchmark aan het falen.
SPEC eist namelijk wel dat het gebruik van autoparallellisatie vermeld wordt, maar niet dat er ook een singlethreaded score wordt meegestuurd. Helaas doet ook bijna niemand dat meer op eigen initiatief. Daarom hebben we ervoor gekozen om hier alleen de rate-tests te behandelen, die voor een server uiteindelijk toch relevanter zijn.
SPECfp
In servers met vier sockets blijft de Sun UltraSparc T2+ de koning van SPECfp_rate. De chip heeft dit te danken aan een flinke sloot bandbreedte en aan het feit dat hij 64 instances tegelijk kan draaien. Heel groot is de voorsprong echter niet: de Power6 heeft slechts vier threads per socket en haalt toch bijna dezelfde score. We zien dat de Shangai AMD een leuke winst van 24 procent ten opzichte van de Barcelona heeft opgeleverd. Intels Dunnington maakt een grotere sprong ten opzichte van zijn voorganger, maar slaagt er nog steeds niet in om de Barcelona te verslaan, laat staan de Shanghai. De fsb doet Intel hier duidelijk de das om.
SPECfp_rate_2006 (vier sockets) |
4x 8c @ 1,4GHz |
UltraSparc T2+ |
  230 |
4x 2c @ 4,7GHz |
Power6 |
  216 |
4x 4c @ 2,7GHz |
Shanghai |
  210 |
4x 4c @ 2,5GHz |
Barcelona |
  170 |
4x 6c @ 2,66GHz |
Dunnington |
  156 |
4x 4c @ 2,93GHz |
Tigerton |
  119 |
4x 4c @ 2,52GHz |
SPARC64 VII |
  112 |
4x 2c @ 1,6GHz |
Itanium 2 |
  90,8 |
Voor servers met twee sockets lijkt het beeld in eerste instantie ongeveer hetzelfde, met UltraSparc, Shanghai en Power6 aan kop en de verouderde Itanium 2 onderaan. De Xeon doet het echter beter in dit segment: hij scoort hier ongeveer gelijk met de Barcelona, een prestatie die in het viersocketsegment vanwege de fsb onhaalbaar zou zijn. Als de onlangs uitgelekte score van de Nehalem echter blijkt te kloppen - en er zijn goede redenen om aan te nemen dat die in ieder geval in de buurt zit - zal deze binnenkort alle concurrentie met ruime marge achter zich laten.
SPECfp_rate_2006 (twee sockets) |
2x 4c @ ? |
Nehalem |
  (160) |
2x 8c @ 1,4GHz |
UltraSparc T2+ |
  121 |
2x 4c @ 2,7GHz |
Shanghai |
  118 |
2x 2c @ 4,7GHz |
Power6 |
  116 |
2x 4c @ 3,4GHz |
Harpertown |
  95,6 |
2x 4c @ 2,5GHz |
Barcelona |
  94,7 |
2x 2c @ 1,6GHz |
Itanium 2 |
  55,8 |
Voor AMD is dit een gevoelige slag omdat deze benchmark vooral indicatief is voor het hpc-segment, dat al sinds de introductie van de eerste Opteron in 2003 een belangrijke doelgroep voor het bedrijf is. Nu Intel eindelijk de fsb gedumpt heeft, kan AMD dan ook zijn borst natmaken. LANL, een toonaangevend instituut op het gebied van supercomputers, heeft recent een rapport uitgebracht waaruit al bleek dat AMD het moeilijk gaat krijgen in de hpc-wereld. Een SPEC-overwinning kan dus niet zomaar worden afgedaan als een compilertruc.
Hier zien we een van de redenen waarom de score van 160 punten voor een dubbele Nehalem niet overdreven lijkt: een enkel exemplaar scoort al 86 punten, wat 27 procent sneller is dan Shanghai en 50 procent sneller dan zijn voorganger, de Harpertown.
SPECfp_rate_2006 (één socket) |
1x 4c @ 3,2GHz |
Nehalem |
  86,1 |
1x 4c @ 2,7GHz |
Shanghai |
  67,6 |
1x 8c @ 1,4GHz |
UltraSparc T2 |
  62,3 |
1x 2c @ 4,7GHz |
Power6 |
  58 |
1x 4c @ 3,2GHz |
Harpertown |
  56,5 |
1x 4c @ 2,5GHz |
Barcelona |
  51,4 |
1x 4c @ 2,52GHz |
SPARC64 VII |
  35,2 |
SPECint2006
Van SPECfp hebben we geen scores laten zien van systemen met acht sockets, omdat er simpelweg geen interessante recente cijfers beschikbaar zijn. Van SPECint hebben we wel resultaten: AMD laat zien dat de Shanghai 38 procent beter scoort dan zijn voorganger. Waarschijnlijk heeft het deze grote winst te danken aan de 6MB grote L3-cache, die de bottleneck van de Barcelona op het gebied van bandbreedte verlicht.
Daarom kan Shanghai met acht sockets 55 procent beter scoren dan met vier sockets, terwijl zijn voorganger slechts 40 procent winst haalde uit dezelfde verdubbeling. Xeon-scores voor recente systemen met acht sockets zijn er niet in deze test, hoewel we ze verderop in dit artikel nog wel zulllen tegenkomen.
SPECint_rate_2006 (acht sockets) |
8x 2c @ 5,0GHz |
Power6 |
  542 |
8x 4c @ 2,7GHz |
Shanghai |
  386 |
8x 4c @ 2,5GHz |
Barcelona |
  280 |
8x 4c @ 2,52GHz |
SPARC64 VII |
  264 |
8x 2c @ 1,6GHz |
Itanium 2 |
  209 |
SPECint is - wellicht met uitzondering van de verdacht afwezige 8S-scores - altijd een sterk punt geweest van Intel, mede dankzij grote caches, slimme branch predictors en veel prefetchers. Bij de vorige generatie wist de Xeon 'Tigerton' de Barcelona net voor te blijven in een configuratie met vier sockets. Deze ronde heeft Intel zijn voorsprong iets vergroot door meer cores en 16MB L3-cache in te zetten.
SPECint_rate_2006 (vier sockets) |
4x 8c @ 1,4GHz |
UltraSparc T2+ |
  301 |
4x 6c @ 2,66GHz |
Dunnington |
  294 |
4x 4c @ 2,7GHz |
Shanghai |
  249 |
4x 2c @ 4,7GHz |
Power6 |
  243 |
4x 4c @ 2,93GHz |
Tigerton |
  214 |
4x 4c @ 2,5GHz |
Barcelona |
  199 |
4x 4c @ 2,52GHz |
SPARC64 VII |
  135 |
4x 2c @ 1,6GHz |
Itanium 2 |
  102 |
Kijken we naar systemen met twee sockets, dan zien we dat de 45nm-Xeon een riante voorsprong op de Barcelona heeft en dat de Shanghai dit gat niet heeft kunnen dichten. De Nehalem zou in deze test, op basis van zijn score met één socket, makkelijk 200 punten moet kunnen bereiken, waardoor die chip helemaal helemaal buiten het bereik van AMD lijkt.
SPECint_rate_2006 (twee sockets) |
2x 8c @ 1,4GHz |
UltraSparc T2+ |
  160 |
2x 6c @ 2,66GHz |
Dunnington |
  158 |
2x 4c @ 3,2GHz |
Harpertown |
  156 |
2x 4c @ 2,7GHz |
Shanghai |
  136 |
2x 2c @ 4,7GHz |
Power6 |
  122 |
2x 4c @ 2,5GHz |
Barcelona |
  110 |
2x 2c @ 1,6GHz |
Itanium 2 |
  62,8 |
De voorsprong van de Xeon met een enkel socket is onmiskenbaar. De Harpertown scoorde al 63 procent beter dan de Barcelona, maar met de Nehalem vergroot Intel de voorsprong zelfs ten opzichte van de Shanghai naar 84 procent. Waarschijnlijk komt dit vooral dankzij HyperThreading en de nieuwe geïntegreerde ddr3-geheugencontroller. Met een score van 124 kan een enkele Nehalem zelfs bijna de concurrentie aan met 2S-systemen.
SPECint_rate_2006 (één socket) |
1x 4c @ 3,2GHz |
Nehalem |
  124 |
1x 4c @ 3,2GHz |
Harpertown |
  88,5 |
1x 8c @ 1,4GHz |
UltraSparc T2 |
  85,5 |
1x 4c @ 2,7GHz |
Shanghai |
  67,5 |
1x 2c @ 4,7GHz |
Power6 |
  60,9 |
1x 4c @ 2,3GHz |
Barcelona |
  54,4 |
1x 4c @ 2,52GHz |
SPARC64 VII |
  40,8 |
TPC-C, TPC-E en TPC-H
TPC-C
TPC-C is een databasetest die het reilen en zeilen van een distributiebedrijf simuleert. Prestaties worden gemeten in aantallen transacties per minuut en worden aan de kosten van het systeem gerelateerd. De hoogste scores kunnen namelijk alleen worden behaald door iedere core van honderden megabytes per seconde aan i/o te voorzien, waarvoor kasten vol met harde schijven nodig zijn.
De kosten van een bepaald prestatieniveau kunnen berekend worden door de score te vermenigvuldigen met het bedrag dat erachter vermeld is. Hierbij moet wel in het achterhoofd worden gehouden dat het de testers vrij staat om met grof geld te smijten om de laatste tien procent uit de chips te slepen, of juist een meer bescheiden systeem neer te zetten met een goede prijs/prestatieverhouding. In sommige gevallen worden om die reden twee afzonderlijke scores ingestuurd; wij hebben steeds voor de hoogste score gekozen.
TPC-C |
8x 2c @ 4,7GHz |
Power6 |
  1616162 @ $3,54 |
8x 6c @ 2,66GHz |
Dunnington |
  1200632 @ $1,99 |
8x 4c @ 2,93GHz |
Tigerton |
  841809 @ $3,46 |
![]() |
4x 6c @ 2,66GHz |
Dunnington |
  684508 @ $2,58 |
4x 2c @ 4,2GHz |
Power6 |
  629159 @ $2,49 |
4x 4c @ 2,93GHz |
Tigerton |
  516752 @ $2,59 |
4x 4c @ 2,7GHz |
Shanghai |
  515984 @ $0,96 |
4x 4c @ 2,5GHz |
Barcelona |
  471883 @ $1,17 |
4x 2c @ 1,6GHz |
Itanium 2 |
  372140 @ $1,81 |
![]() |
2x 2c @ 4,7GHz |
Power6 |
  404462 @ $3,50 |
2x 4c @ 3,16GHz |
Harpertown |
  275149 @ $1,44 |
2x 2c @ 1,6GHz |
Itanium 2 |
  230569 @ $2,63 |
Bij de achtsocketservers zien we dat Dunnington als eerste x86-chip meer dan een miljoen transacties per minuut haalt, een verbetering van 43 procent ten opzichte van de score van zijn voorganger Tigerton. Opvallend is ook dat het testsysteem zelfs nog iets goedkoper was dan zijn voorganger.
Onder de viersocketsystemen maakt Dunnington minder indruk. De winst ten opzichte van de Tigerton is nog steeds een respectabele 32 procent, maar het kostenplaatje stijgt even hard mee. De Shanghai doet het wat dat betreft beter. Hoewel de 45nm Opteron slechts een bescheiden 10% meer transacties uitvoert dan zijn voorganger Barcelona, valt de prijs van de hardware hier 10% lager uit. De systemen met AMD-chips zijn sowieso degene met de beste verhouding tussen prijs en prestaties, wat in het huidige economische klimaat zwaar mee kan wegen.
TPC-E
Hoewel TPC-C al jaren een populaire benchmark is, hebben experts ook een hoop kritiek op zowel het gebruiksgemak als de inhoud van de test. De ontwikkelaars hebben dan ook al ruim een jaar geleden opvolger TPC-E uitgebracht om een realistischer en tegelijkertijd eenvoudiger uit te voeren benchmark neer te zetten. Helaas is het aantal testresultaten voor TPC-E nog steeds beperkt, waardoor er bijvoorbeeld geen Opteron- of Power-scores beschikbaar zijn.
TPC-E |
4x 6c @ 2,66GHz |
Dunnington |
  729 @ $457 |
4x 4c @ 2,93GHz |
Tigerton |
  492 @ $560 |
4x 2c @ 3,4GHz |
Tulsa |
  220 @ $1020 |
We zien hier wel goed hoe Intel in de afgelopen jaren zijn positie op het het gebied van systemen met vier sockets heeft verbeterd. Tigerton betekende eind 2007 al een verbetering van 123 procent ten opzichte van Tulsa. De nieuwe Dunnington gooit daar nog eens 48 procent bovenop, met een betere prijs/prestatieverhouding op de koop toe.
TPC-H
Een derde benchmark van dezelfde makers is TPC-H. Deze test is niet gericht op de dagelijkse verwerking van bestellingen, ook wel bekend als oltp, maar op het achteraf analyseren van grote hoeveelheden gegevens, oftewel datawarehousing. Ook hier zijn helaas een stuk minder scores bekend dan bij TPC-C, maar omdat er wel een score voor Shanghai bij zit, willen we de cijfers toch even laten zien. Acht van de nieuwste AMD-chips presteren hier 25 procent beter dan evenveel Xeons van de vorige generatie, terwijl de systeemprijs een kwart lager ligt.
TPC-H / 300GB |
8x 4c @ 2,7GHz |
Shanghai |
  57684 @ $3,24 |
8x 4c @ 2,93GHz |
Tigerton |
  46034 @ $5,40 |
SAP-SD
SAP is een van 's werelds grootste leveranciers van zakelijke software. Het bedrijf heeft een benchmark ontwikkeld voor zijn SD-module, waarbij wordt gekeken hoeveel mensen tegelijk in het systeem actief kunnen zijn zonder dat de gemiddelde reactietijd van de diverse formulieren boven de twee seconden uitkomt.
Bij de achtprocessorsystemen zien we de Xeon Dunnington met zijn zes cores de kop pakken door de gelijktijdige afhandeling van 9200 gebruikers. Intel vergroot hiermee zijn voorsprong: de Tigerton lag 14 procent voor op de Barcelona, terwijl de Dunnington 31 procent op de Shanghai pakt. Ook schaalt Intel beter dan AMD: de Xeon pakt met acht sockets 74 procent winst ten opzichte van een systeem met vier sockets, terwijl de Opteron er maar 60 procent op vooruit gaat.
SAP-SD 2-tier (acht sockets) |
8x 6c @ 2,66GHz |
Dunnington |
  9200 |
8x 2c @ 4,7GHz |
Power6 |
  8000 |
8x 4c @ 2,7GHz |
Shanghai |
  7010 |
8x 4c @ 2,93GHz |
Tigerton |
  6615 |
8x 4c @ 2,5GHz |
Barcelona |
  5800 |
8x 4c @ 1,6GHz |
Itanium 2 |
  3211 |
Voor sommige mensen zal dit een verrassing zijn, maar hoe goed de schaalbaarheid van de Opteron in sommige gevallen ook is, de HyperTransport-interconnects van AMD zijn lang niet zo intelligent als de X4-chipset van IBM, die met trucs als snoopfilters en virtueel L4-cache voorkomt dat de fsb van de Xeon overbelast raakt. Combineer dat met 16MB L3-cache en het wordt duidelijk waarom Intel op het gebied van schaalbaarheid zelfs met het gebruik van een fsb niet afschreven hoeft te worden.
Bij systemen met vier sockets zien we ongeveer hetzelfde beeld als bij acht sockets, hoewel de voorsprong van de Xeon hier relatief kleiner is en de x86-kemphanen ruimschoots worden overtroefd door Sun met zijn 64-koppige threadmonster dat UltraSparc T2 heet.
SAP-SD 2-tier (vier sockets) |
4x 8c @ 1,4GHz |
UltraSparc T2+ |
  7520 |
4x 6c @ 2,66GHz |
Dunnington |
  5300 |
4x 4c @ 2,7GHz |
Shanghai |
  4386 |
4x 2c @ 4,7GHz |
Power6 |
  4010 |
4x 4c @ 2,5GHz |
Barcelona |
  3801 |
4x 4c @ 2,93GHz |
Tigerton |
  3780 |
4x 2c @ 1,6GHz |
Itanium 2 |
  2150 |
Bij twee sockets wordt het pas echt interessant. Ten opzichte van de Barcelona biedt de Shanghai een duidelijke verbetering, waarmee ook de Xeon Harpertown wordt overtroffen. We zien hier echter ook de eerste officiële test van een machine met twee Nehalems: deze kan 5100 gelijktijdige gebruikers aan. Dat is twee keer zoveel als wat de Harpertown aankan en ook van de Shanghai zijn vier exemplaren nodig om in dezelfde prestatiecategorie terecht te komen.
SAP-SD 2-tier (twee sockets) |
2x 4c @ 2,93GHz |
Nehalem |
  5100 |
2x 8c @ 1,4GHz |
UltraSparc T2+ |
  4170 |
2x 4c @ 2,7GHz |
Shanghai |
  2752 |
2x 4c @ 3,33GHz |
Harpertown |
  2518 |
2x 4c @ 2,3GHz |
Barcelona |
  2102 |
2x 2c @ 4,7GHz |
Power6 |
  2035 |
2x 2c @ 1,6GHz |
Itanium 2 |
  1165 |
Waarschijnlijk heeft Nehalem deze overweldigende score voor een groot deel te danken aan HyperThreading, omdat de UltraSparc al had aangetoond dat SAP-SD blij wordt van veel threads. Dat een Xeon-machine met 16 threads een Sun-machine met 128 threads overtreft, spreekt boekdelen over de singlethreaded prestaties van beide chips: een Nehalem bedient 319 users per thread, terwijl de T2+ niet verder dan 33 users per thread komt. Shanghai doet het met 344 users per thread ook lang niet slecht, maar AMD zal pas weer kans maken om deze test te winnen als het ook een vorm van multithreading in zijn core bouwt.
SPECjbb2005
SPECjbb2005 is een test die machines in de rol van java-applicatiehost aan de tand voelt. De software is losjes gebaseerd op TPC-C, maar in plaats van de aandacht op de database te richten, worden de prestaties van de applicatie gemeten. De prestaties worden gegeven in aantallen business operations per seconde, waarbij gedacht kan worden aan het aanmaken, opvragen en wijzigen van orders.
Bij acht sockets laat de Shanghai ruim een miljoen bops noteren - een indrukwekkende verbetering van 52 procent ten opzichte van de Barcelona. Wat opvalt is dat het schaalgedrag van de 45nm-Opteron in deze test tegenvalt: waar de Barcelona 75 procent winst uit de verdubbeling naar acht sockets haalt, wint de Shanghai slechts 44 procent. Bij SPECint zagen we eerder dat de relatieve winst juist groter was geworden. Ook opmerkelijk is dat er voor achtsocketsystemen geen recente Xeon-scores beschikbaar zijn. De recentste inzending betreft een systeem met dualcore 'Tulsa'-chips, die nog op de Pentium 4 zijn gebaseerd.
SPECjbb2005 (acht sockets) |
8x 4c @ 2,7GHz |
Shanghai |
  1037851 |
8x 2c @ 4,7GHz |
Power6 |
  867989 |
8x 4c @ 2,5GHz |
Barcelona |
  683542 |
8x 2c @ 3,5GHz |
Tulsa |
  336653 |
8x 2c @ 2,1GHz |
UltraSparc IV+ |
  244846 |
Bij vier sockets zien we de Shanghai weer zeer indrukwekkende resultaten leveren. Door de Barcelona met 84 procent te overtreffen worden de Xeons met gemak aan de kant geveegd en zelfs de UltraSparc T2+ van Java-uitvinder Sun delft het onderspit. Een dergelijke sprong is niet alleen te verklaren door hardwarewijzigingen. AMD heeft weliswaar de L3-cache van 2MB naar 6MB vergroot, de kloksnelheid 200MHz opgeschroefd en enkele niet nader toegelichte wijzigingen gemaakt om de ipc op te krikken, maar dat is niet genoeg om de prestaties van realistische code bijna te verdubbelen.
Software en geheugen zijn hier waarschijnlijk dus ook factoren. De Barcelona-test is uitgevoerd door Dell met BEA JRockit P27 als virtuele machine op Windows Server 2003 met 32GB geheugen. De IBM-inzending is daarentegen uitgevoerd met IBM J9 2.4, op Windows Server 2008 met 64GB geheugen. Dit is een goed voorbeeld van het soort valkuilen waar iemand in kan vallen als hij op basis van standaardbenchmarks keuzes moet maken. Het is dus nog belangrijk om alle factoren te bestuderen en de cijfers als indicatief te beschouwen, in plaats van ze als het laatste woord te zien.
SPECjbb2005 (vier sockets) |
4x 4c @ 2,7GHz |
Shanghai |
  721843 |
4x 8c @ 1,4GHz |
UltraSparc T2+ |
  692736 |
4x 6c @ 2,66GHz |
Dunnington |
  508240 |
4x 4c @ 2,93GHz |
Tigerton |
  446209 |
4x 2c @ 4,7GHz |
Power6 |
  402923 |
4x 4c @ 2,5GHz |
Barcelona |
  391654 |
4x 2c @ 1,6GHz |
Itanium 2 |
  158174 |
Voor machines met twee sockets zien we wederom een flinke prestatiewinst bij de Shanghai, genoeg om de Xeon voorbij te streven. Ook hier is de winst te groot om zich volledig door wijzigingen aan de chip te laten verklaren; even doorzoeken leert dan ook dat er hier verschillen zijn in besturingssysteem en jvm. Om precies te zijn: de Barcelona draait op Solaris 10 met HotSpot, terwijl Shangai zijn kunsten vertoont op Windows 2003 met IBM J9 2.4.
SPECjbb2005 (twee sockets) |
2x 8c @ 1,4GHz |
UltraSparc T2+ |
  388456 |
2x 4c @ 2,7GHz |
Shanghai |
  352700 |
2x 4c @ 3,33GHz |
Harpertown |
  344436 |
2x 4c @ 2,5GHz |
Barcelona |
  224595 |
2x 2c @ 4,7GHz |
Power6 |
  205917 |
2x 2c @ 1,6GHz |
Itanium 2 |
  80884 |
SPECjbb2005 uml-diagram
VMmark en SPECweb2005
VMmark
VMmark is een door VMware ontwikkelde benchmark die de prestaties van hardware op het gebied van virtualisatie beproeft. De test werkt door zogenaamde 'tegels' van zes virtuele machines te laten draaien. Iedere server in een tegel heeft zijn eigen functie: Java, Apache/PHP, database, fileserver en standby. Drie van deze machines draaien op Suse Linux en de andere drie op Windows Server 2003. VMware ESX draait direct op de hardware als hypervisor om de capaciteit van de fysieke machine over de virtuele bakken te verdelen. De score die wordt gegeven vat de prestaties van de tegels samen. De bedoeling is daarbij om zoveel mogelijk tegels op een machine te krijgen.
VMmark |
8x 4c @ 2,93GHz |
Tigerton |
  24,62 @ 18 |
8x 4c @ 2,3GHz |
Barcelona |
  21,96 @ 15 |
4x 4c @ 2,7GHz |
Shanghai |
  20,35 @ 14 |
4x 6c @ 2,66GHz |
Dunnington |
  19,10 @ 14 |
4x 4c @ 2,5GHz |
Barcelona |
  15,35 @ 11 |
4x 4c @ 2,93GHz |
Tigerton |
  14,14 @ 10 |
2x 4c @ 2,7GHz |
Shanghai |
  11,22 @ 8 |
2x 4c @ 3,33GHz |
Harpertown |
  9,15 @ 7 |
2x 4c @ 2,5GHz |
Barcelona |
  8,07 @ 6 |
Op het moment van schrijven waren er geen nieuwe scores verschenen voor machines met acht sockets, maar voor de volledigheid laten we even zien dat de Xeon Tigerton iets sneller is dan de Barcelona Opteron. Daaruit blijkt ook dat de situatie bij SAP-SD niet uniek is.
Bij vier sockets zien we dat er niet veel is veranderd. De Barcelona had een bescheiden voorsprong op de Tigerton en de Shanghai heeft een - iets minder grote - voorsprong op de Dunnington. Technisch gezien is dit een goede score voor AMD, omdat Intel de helft meer cores is gaan gebruiken. Bij twee sockets blijft het aantal cores voor iedereen gelijk en zien we de Opteron van 11,8 procent achterstand naar 22,6 procent voorsprong gaan ten opzichte van de Xeon Harpertown.
SPECweb2005
Deze webservertest is de laatste benchmark die in dit artikel aan de orde komt. De test bestaat uit drie dynamische websites: een supportsite, een deels beveiligde e-commercesite en een geheel beveiligde bankingsite. De test is beschikbaar in php- en jsp-versies en degene die hem draait is vrij om zelf de webserversoftware te kiezen. De score is gebaseerd op het aantal gebruikers dat tegelijk actief kan zijn, geindexeerd op een referentiesysteem dat een score van 100 heeft.
SPECweb2005 |
2x 4c @ 2,7GHz |
Shanghai |
  37630 |
2x 4c @ 2,5GHz |
Barcelona |
  32288 |
2x 4c @ 3,2GHz |
Harpertown |
  29591 |
1x 8c @ 1,4GHz |
UltraSparc T2 |
  41847 |
We zien dat de Barcelona een kleine voorsprong had op de Harpertown en dat AMD met de Shanghai zijn positie verder heeft verstevigd. Ook zien we dat Sun met zijn UltraSparc T2 een chip heeft neergezet die speciaal voor dit werk gemaakt lijkt te zijn: in zijn eentje overtreft hij de beste scores van x86-machines met twee cpu's.
Samenvatting en conclusie
Omdat servers qua doelgroep en prijs verdeeld zijn in segmenten die in grote lijnen overeenkomen met de verdeling naar aantal sockets, verdelen we ook de samenvatting op deze manier. We richten ons hier ook alleen nog op de x86-markt. Dat doen we niet alleen omdat deze architectuur in ongeveer negentig procent van alle servers terug te vinden is, maar ook omdat hier de interesse van de meeste Tweakers ligt.
Twee sockets
In de categorie van servers met twee sockets heeft AMD een grote sprong gemaakt. De 65nm-Barcelona is in bijna alle tests trager dan de Xeon, maar de op 45nm gebakken Shanghai wint op zijn beurt weer bijna alles van Intel. De Opteron is ook zuiniger geworden: waar het topmodel Barcelona een tdp van 137 watt had, ligt dat van de Shanghai op 115 watt.
AMD heeft echter niet veel tijd om van deze overwinning te genieten, want Nehalem staat klaar om korte metten te maken met alle records. Met twee keer zoveel bandbreedte en threads per socket als de Opteron, zal Intels nieuwste generatie Xeon zijn concurrent met gemak aan de kant schuiven. AMD zal nog enkele honderden megahertzen en het snellere HyperTransport 3.0 inzetten om de positie van Shanghai enigszins te versterken, maar de prestatiekroon zal daarmee niet gered worden.
| Barcelona | Harpertown | Shanghai | Nehalem |
SPECint_rate |
70,5 |
100 |
87,1 |
- |
SPECfp_rate |
99,0 |
100 |
123,4 |
167,4* |
SPECjbb2005 |
65,2 |
100 |
102,4 |
- |
SAP-SD |
83,5 |
100 |
109,3 |
202,5 |
VmMark |
88,1 |
100 |
122,6 |
- |
SPECweb2005 |
109,1 |
100 |
127,2 |
- |
![]() |
Gemiddeld |
85,9 |
100 |
112,0 |
185,0* |
*) Deels gebaseerd op geruchten
Vier sockets
Dit segment werd na de release van de Opteron in 2003 een erg zwak punt voor Intel, maar wonderbaarlijk genoeg heeft het bedrijf zijn fsb-techniek de laatste jaren dermate opgekrikt dat het zich kan meten met de veel modernere systeeminterface van AMD. De Tigerton moest gemiddeld genomen wel zijn meerdere in de AMD's erkennen, maar het verschil is niet groot.
De Dunnington is een stevige verbetering van de Xeon, maar wel een die gebaseerd is op brute kracht: zes cores, 9MB L2-cache en 16MB L3-cache en 1,9 miljard transistors op een chip van 503mm². Daar passen twee Core 2 Quads in, waarna er nog ruimte overblijft voor drie Atoms. Intel kan het zich veroorloven, maar het is wel enigszins beschamend dat AMD met een chip die half zo groot is, minder stroom verbruikt én goedkoper is, alsnog de helft van de benchmarks wint.
| Tigerton | Barcelona | Dunnington | Shanghai |
SPECint_rate |
107,5 |
100 |
147,7 |
125,2 |
SPECfp_rate |
70,0 |
100 |
91,7 |
123,5 |
SPECjbb2005 |
113,9 |
100 |
129,7 |
184,3 |
SAP-SD |
99,4 |
100 |
139,4 |
115,4 |
VmMark |
92,1 |
100 |
124,4 |
132,5 |
TPC-C |
109,5 |
100 |
145,1 |
109,3 |
TPC-E |
100 |
- |
161,0 |
- |
![]() |
Gemiddeld* |
98,7 |
100 |
129,7 |
131,7 |
*) Exclusief TPC-E vanwege ontbrekende data
Dat betekent echter niet dat AMD veilig is: een server met twee Nehalems heeft evenveel bandbreedte en threads tot zijn beschikking als een machine met vier Shanghais aan boord. We hebben al twee tests gezien waarin eerstgenoemde configuratie sneller is. Bovendien wordt onder de codenaam Beckton aan een 2,3 miljard transistors tellende chip met acht Nehalem-cores en 24MB L3-cache gewerkt. Deze chip moet in de tweede helft van het jaar definitief een einde maken aan Intels wankele positie in deze categorie.
Acht sockets
Voor dit kleine segment zijn relatief weinig testresultaten beschikbaar, maar we kunnen wel een beeld schetsen. Wat opvalt is dat de Xeon het met acht sockets relatief beter doet dan met vier sockets. Dit is vooral te danken aan IBM, dat flink wat geld pompt in de ontwikkeling van geavanceerde chipsets zoals X3 en X4, die specifiek bedoeld zijn om de tekortkomingen van de fsb op te heffen en zelfs efficienter zijn dan het HyperTransport-systeem van de Opteron. IBM werkt ook al aan een X5-chipset om de nieuwe generatie Xeons - zoals de eerder genoemde Beckton - naar acht en zestien sockets te tillen.
| Barcelona | Tigerton | Shanghai | Dunnington |
SPECint_rate |
100 |
112,1 |
- |
- |
SPECjbb2005 |
100 |
- |
151,8 |
- |
SAP-SD |
100 |
114,1 |
120,9 |
158,6 |
VmMark |
100 |
112,1 |
- |
- |
TPC-C |
- |
100 |
- |
142,6 |
TPC-H |
- |
100 |
125,3 |
- |
Vooruitblik en conclusie
AMD heeft met de Shanghai knap werk afgeleverd. De chip is kleiner en zuiniger dan zijn voorganger, maar presteert vaak tientallen procenten beter. Met name in het segment van vier sockets is voor Intel pijnlijk duidelijk dat zelfs de lompe Dunnington er niet tegen opgewassen is.
Het probleem is echter dat Intel binnenkort alle remmen los gaat gooien. Het had een core die al goed presteerde op een krappe fsb en voorzag die vervolgens van een enorme sloot bandbreedte en HyperTreading. Koppel dat aan de capaciteit om chips met een paar miljard transistors in de strijd te gooien en AMD krijgt dit jaar ongekend felle concurrentie voor zijn kiezen.
De roadmap biedt niet veel uitwegen. In de tweede helft van het jaar verschijnt de Istanbul, een versie van de Shanghai met zes cores. Structurele verbeteringen zoals ondersteuning voor vier ddr3-geheugenkanelen, een probe filter en een extra ht-link laten op zich wachten tot de eerste helft van volgend jaar, als de Sao Paulo en de Magny-Cours met respectievelijk zes en twaalf cores worden uitgebracht.
Dit klinkt veelbelovend, maar AMD zal het met deze 45nm-chips moeten opnemen tegen 32nm-Xeons, die ook een paar extra cores, grotere caches en een paar andere nieuwe trucs zullen krijgen. De grote onbekende is Bulldozer, de nieuwe architectuur die AMD in 2011 op zijn 32nm-procedé wil introduceren. Hier en daar wordt gefluisterd dat dit een gewaagd ontwerp is, maar dat zal waarschijnlijk ook nodig zijn om weerstand te bieden aan Intels volgende 'tock': Sandy Bridge. Over beide architecturen is nog vrijwel niets bekend, dus wat dat betreft kan er vrolijk op los gespeculeerd wordt. Tot die tijd gaat AMD het op de servermarkt in ieder geval zwaar krijgen.