Door Wouter Tinus

Is de Shanghai sterk genoeg voor AMD?

22-01-2009 • 09:34

36

Multipage-opmaak

Inleiding

Volgens IDC is er van het vierde kwartaal van 2007 tot en met het derde kwartaal van 2008 wereldwijd voor 55,2 miljard dollar aan serverhardware verkocht. Zestig procent van die omzet werd verdeeld tussen de twee giganten IBM en HP. Van de overige veertig procent ging de helft naar Dell en Sun.

De reden dat vier spelers het leeuwendeel van de servermarkt in handen hebben, is dat de producten die ze leveren complex en onmisbaar zijn, waardoor vertrouwen essentieel is. Een bekende naam en de mogelijkheden voor dienstverlening van advies tot support dragen bij aan het veilige gevoel.

Spec fpaWie zich wil oriënteren op de servermarkt als voorbereiding op een consultancytraject, voor een kleinere aankoop of puur uit interesse, kan echter ook een aantal standaard benchmarks gebruiken. Deze zijn er in twee categorieën: tests zoals die van SPEC en TPC worden bedacht door commissies van mensen uit alle hoeken van de it-industrie, terwijl benchmarks zoals VMmark en SAP-SD door makers van softwarepakketten worden samengesteld. De overeenkomst tussen beide is dat het publiceren van scores voor deze tests is gebonden aan bepaalde regels, die onafhankelijk worden gecontroleerd.

Geen van deze tests is perfect. Hoewel ze allemaal ooit zijn gekozen of gemaakt om representatief te zijn, blijven ze vaak jaren achter elkaar hetzelfde. Buiten het feit dat ze op natuurlijke wijze verouderden, leren software- en hardwaremakers ze na verloop van tijd ook goed genoeg kennen om er specifieke optimalisaties voor te bouwen. Ook zijn de geteste machines bijna nooit volledig met elkaar te vergelijken; verschillen in software, compilers, hoeveelheid geheugen en harde schijven kunnen roet in het eten gooien.

Celestica dual Opteron 1U rackmount (open, 225px)Toch zijn het zeker geen onzinnige cijfers. Omdat iedere fabrikant zijn beste beentje probeert voor te zetten, is het een redelijk goede manier om de relatieve prestaties van verschillende platforms met elkaar te vergelijken, zeker als meerdere tests naast elkaar worden gelegd.

In dit artikel richten we ons vooral op de nieuwe 45nm-processors die in het laatste halfjaar zijn verschenen, met name de 6-core Xeon Dunnington, de AMD Opteron Shanghai en natuurlijk de nieuwe Nehalem. De belangrijkste vraag die we willen beantwoorden, is hoe goed of hoe slecht AMD er in de servermarkt voorstaat.

SPECfp2006

SPEC CPU2006 bestaat uit vier benchmarks. Ten eerste is er het onderscheid tussen integer- en floatingpointtests, waarmee onderscheid gemaakt wordt tussen verschillende soorten code die verschillende eigenschappen van de processor belasten. De eerste suite test het rekenen met gehele getallen en veel vertakkingen, terwijl de tweede zich richt op kommagetallen en het echte cijferkauwen.

Daarnaast is er de opdeling in de gewone cpu-test en de rate-test. In de eerste wordt een enkele instance van ieder programma gedraaid, terwijl de score in de tweede variant kan worden opgevoerd door meer kopieën van de suite parallel te draaien. Voorheen was de eerste vorm een goede indicatie van singlethreaded prestaties, maar sinds de opkomst van compilers die automatisch meerdere threads genereren, is deze vorm van de benchmark aan het falen.

SPEC eist namelijk wel dat het gebruik van autoparallellisatie vermeld wordt, maar niet dat er ook een singlethreaded score wordt meegestuurd. Helaas doet ook bijna niemand dat meer op eigen initiatief. Daarom hebben we ervoor gekozen om hier alleen de rate-tests te behandelen, die voor een server uiteindelijk toch relevanter zijn.

SPECfp

In servers met vier sockets blijft de Sun UltraSparc T2+ de koning van SPECfp_rate. De chip heeft dit te danken aan een flinke sloot bandbreedte en aan het feit dat hij 64 instances tegelijk kan draaien. Heel groot is de voorsprong echter niet: de Power6 heeft slechts vier threads per socket en haalt toch bijna dezelfde score. We zien dat de Shangai AMD een leuke winst van 24 procent ten opzichte van de Barcelona heeft opgeleverd. Intels Dunnington maakt een grotere sprong ten opzichte van zijn voorganger, maar slaagt er nog steeds niet in om de Barcelona te verslaan, laat staan de Shanghai. De fsb doet Intel hier duidelijk de das om.

SPECfp_rate_2006 (vier sockets)
4x 8c @ 1,4GHz UltraSparc T2+ 230
4x 2c @ 4,7GHz Power6 216
4x 4c @ 2,7GHz Shanghai 210
4x 4c @ 2,5GHz Barcelona 170
4x 6c @ 2,66GHz Dunnington 156
4x 4c @ 2,93GHz Tigerton 119
4x 4c @ 2,52GHz SPARC64 VII 112
4x 2c @ 1,6GHz Itanium 2 90,8

Voor servers met twee sockets lijkt het beeld in eerste instantie ongeveer hetzelfde, met UltraSparc, Shanghai en Power6 aan kop en de verouderde Itanium 2 onderaan. De Xeon doet het echter beter in dit segment: hij scoort hier ongeveer gelijk met de Barcelona, een prestatie die in het viersocketsegment vanwege de fsb onhaalbaar zou zijn. Als de onlangs uitgelekte score van de Nehalem echter blijkt te kloppen - en er zijn goede redenen om aan te nemen dat die in ieder geval in de buurt zit - zal deze binnenkort alle concurrentie met ruime marge achter zich laten.

SPECfp_rate_2006 (twee sockets)
2x 4c @ ? Nehalem (160)
2x 8c @ 1,4GHz UltraSparc T2+ 121
2x 4c @ 2,7GHz Shanghai 118
2x 2c @ 4,7GHz Power6 116
2x 4c @ 3,4GHz Harpertown 95,6
2x 4c @ 2,5GHz Barcelona 94,7
2x 2c @ 1,6GHz Itanium 2 55,8

Voor AMD is dit een gevoelige slag omdat deze benchmark vooral indicatief is voor het hpc-segment, dat al sinds de introductie van de eerste Opteron in 2003 een belangrijke doelgroep voor het bedrijf is. Nu Intel eindelijk de fsb gedumpt heeft, kan AMD dan ook zijn borst natmaken. LANL, een toonaangevend instituut op het gebied van supercomputers, heeft recent een rapport uitgebracht waaruit al bleek dat AMD het moeilijk gaat krijgen in de hpc-wereld. Een SPEC-overwinning kan dus niet zomaar worden afgedaan als een compilertruc.

Hier zien we een van de redenen waarom de score van 160 punten voor een dubbele Nehalem niet overdreven lijkt: een enkel exemplaar scoort al 86 punten, wat 27 procent sneller is dan Shanghai en 50 procent sneller dan zijn voorganger, de Harpertown.

SPECfp_rate_2006 (één socket)
1x 4c @ 3,2GHz Nehalem 86,1
1x 4c @ 2,7GHz Shanghai 67,6
1x 8c @ 1,4GHz UltraSparc T2 62,3
1x 2c @ 4,7GHz Power6 58
1x 4c @ 3,2GHz Harpertown 56,5
1x 4c @ 2,5GHz Barcelona 51,4
1x 4c @ 2,52GHz SPARC64 VII 35,2

SPECint2006

Van SPECfp hebben we geen scores laten zien van systemen met acht sockets, omdat er simpelweg geen interessante recente cijfers beschikbaar zijn. Van SPECint hebben we wel resultaten: AMD laat zien dat de Shanghai 38 procent beter scoort dan zijn voorganger. Waarschijnlijk heeft het deze grote winst te danken aan de 6MB grote L3-cache, die de bottleneck van de Barcelona op het gebied van bandbreedte verlicht.

Daarom kan Shanghai met acht sockets 55 procent beter scoren dan met vier sockets, terwijl zijn voorganger slechts 40 procent winst haalde uit dezelfde verdubbeling. Xeon-scores voor recente systemen met acht sockets zijn er niet in deze test, hoewel we ze verderop in dit artikel nog wel zulllen tegenkomen.

SPECint_rate_2006 (acht sockets)
8x 2c @ 5,0GHz Power6 542
8x 4c @ 2,7GHz Shanghai 386
8x 4c @ 2,5GHz Barcelona 280
8x 4c @ 2,52GHz SPARC64 VII 264
8x 2c @ 1,6GHz Itanium 2 209

SPECint is - wellicht met uitzondering van de verdacht afwezige 8S-scores - altijd een sterk punt geweest van Intel, mede dankzij grote caches, slimme branch predictors en veel prefetchers. Bij de vorige generatie wist de Xeon 'Tigerton' de Barcelona net voor te blijven in een configuratie met vier sockets. Deze ronde heeft Intel zijn voorsprong iets vergroot door meer cores en 16MB L3-cache in te zetten.

SPECint_rate_2006 (vier sockets)
4x 8c @ 1,4GHz UltraSparc T2+ 301
4x 6c @ 2,66GHz Dunnington 294
4x 4c @ 2,7GHz Shanghai 249
4x 2c @ 4,7GHz Power6 243
4x 4c @ 2,93GHz Tigerton 214
4x 4c @ 2,5GHz Barcelona 199
4x 4c @ 2,52GHz SPARC64 VII 135
4x 2c @ 1,6GHz Itanium 2 102

Kijken we naar systemen met twee sockets, dan zien we dat de 45nm-Xeon een riante voorsprong op de Barcelona heeft en dat de Shanghai dit gat niet heeft kunnen dichten. De Nehalem zou in deze test, op basis van zijn score met één socket, makkelijk 200 punten moet kunnen bereiken, waardoor die chip helemaal helemaal buiten het bereik van AMD lijkt.

SPECint_rate_2006 (twee sockets)
2x 8c @ 1,4GHz UltraSparc T2+ 160
2x 6c @ 2,66GHz Dunnington 158
2x 4c @ 3,2GHz Harpertown 156
2x 4c @ 2,7GHz Shanghai 136
2x 2c @ 4,7GHz Power6 122
2x 4c @ 2,5GHz Barcelona 110
2x 2c @ 1,6GHz Itanium 2 62,8

De voorsprong van de Xeon met een enkel socket is onmiskenbaar. De Harpertown scoorde al 63 procent beter dan de Barcelona, maar met de Nehalem vergroot Intel de voorsprong zelfs ten opzichte van de Shanghai naar 84 procent. Waarschijnlijk komt dit vooral dankzij HyperThreading en de nieuwe geïntegreerde ddr3-geheugencontroller. Met een score van 124 kan een enkele Nehalem zelfs bijna de concurrentie aan met 2S-systemen.

SPECint_rate_2006 (één socket)
1x 4c @ 3,2GHz Nehalem 124
1x 4c @ 3,2GHz Harpertown 88,5
1x 8c @ 1,4GHz UltraSparc T2 85,5
1x 4c @ 2,7GHz Shanghai 67,5
1x 2c @ 4,7GHz Power6 60,9
1x 4c @ 2,3GHz Barcelona 54,4
1x 4c @ 2,52GHz SPARC64 VII 40,8

TPC-C, TPC-E en TPC-H

TPC-C

TPC-C is een databasetest die het reilen en zeilen van een distributiebedrijf simuleert. Prestaties worden gemeten in aantallen transacties per minuut en worden aan de kosten van het systeem gerelateerd. De hoogste scores kunnen namelijk alleen worden behaald door iedere core van honderden megabytes per seconde aan i/o te voorzien, waarvoor kasten vol met harde schijven nodig zijn.

De kosten van een bepaald prestatieniveau kunnen berekend worden door de score te vermenigvuldigen met het bedrag dat erachter vermeld is. Hierbij moet wel in het achterhoofd worden gehouden dat het de testers vrij staat om met grof geld te smijten om de laatste tien procent uit de chips te slepen, of juist een meer bescheiden systeem neer te zetten met een goede prijs/prestatieverhouding. In sommige gevallen worden om die reden twee afzonderlijke scores ingestuurd; wij hebben steeds voor de hoogste score gekozen.

TPC-C
8x 2c @ 4,7GHz Power6 1616162 @ $3,54
8x 6c @ 2,66GHz Dunnington 1200632 @ $1,99
8x 4c @ 2,93GHz Tigerton 841809 @ $3,46
4x 6c @ 2,66GHz Dunnington 684508 @ $2,58
4x 2c @ 4,2GHz Power6 629159 @ $2,49
4x 4c @ 2,93GHz Tigerton 516752 @ $2,59
4x 4c @ 2,7GHz Shanghai 515984 @ $0,96
4x 4c @ 2,5GHz Barcelona 471883 @ $1,17
4x 2c @ 1,6GHz Itanium 2 372140 @ $1,81
2x 2c @ 4,7GHz Power6 404462 @ $3,50
2x 4c @ 3,16GHz Harpertown 275149 @ $1,44
2x 2c @ 1,6GHz Itanium 2 230569 @ $2,63

Bij de achtsocketservers zien we dat Dunnington als eerste x86-chip meer dan een miljoen transacties per minuut haalt, een verbetering van 43 procent ten opzichte van de score van zijn voorganger Tigerton. Opvallend is ook dat het testsysteem zelfs nog iets goedkoper was dan zijn voorganger.

Onder de viersocketsystemen maakt Dunnington minder indruk. De winst ten opzichte van de Tigerton is nog steeds een respectabele 32 procent, maar het kostenplaatje stijgt even hard mee. De Shanghai doet het wat dat betreft beter. Hoewel de 45nm Opteron slechts een bescheiden 10% meer transacties uitvoert dan zijn voorganger Barcelona, valt de prijs van de hardware hier 10% lager uit. De systemen met AMD-chips zijn sowieso degene met de beste verhouding tussen prijs en prestaties, wat in het huidige economische klimaat zwaar mee kan wegen.

TPC-E

Hoewel TPC-C al jaren een populaire benchmark is, hebben experts ook een hoop kritiek op zowel het gebruiksgemak als de inhoud van de test. De ontwikkelaars hebben dan ook al ruim een jaar geleden opvolger TPC-E uitgebracht om een realistischer en tegelijkertijd eenvoudiger uit te voeren benchmark neer te zetten. Helaas is het aantal testresultaten voor TPC-E nog steeds beperkt, waardoor er bijvoorbeeld geen Opteron- of Power-scores beschikbaar zijn.

TPC-E
4x 6c @ 2,66GHz Dunnington 729 @ $457
4x 4c @ 2,93GHz Tigerton 492 @ $560
4x 2c @ 3,4GHz Tulsa 220 @ $1020

We zien hier wel goed hoe Intel in de afgelopen jaren zijn positie op het het gebied van systemen met vier sockets heeft verbeterd. Tigerton betekende eind 2007 al een verbetering van 123 procent ten opzichte van Tulsa. De nieuwe Dunnington gooit daar nog eens 48 procent bovenop, met een betere prijs/prestatieverhouding op de koop toe.

TPC-H

Een derde benchmark van dezelfde makers is TPC-H. Deze test is niet gericht op de dagelijkse verwerking van bestellingen, ook wel bekend als oltp, maar op het achteraf analyseren van grote hoeveelheden gegevens, oftewel datawarehousing. Ook hier zijn helaas een stuk minder scores bekend dan bij TPC-C, maar omdat er wel een score voor Shanghai bij zit, willen we de cijfers toch even laten zien. Acht van de nieuwste AMD-chips presteren hier 25 procent beter dan evenveel Xeons van de vorige generatie, terwijl de systeemprijs een kwart lager ligt.

TPC-H / 300GB
8x 4c @ 2,7GHz Shanghai 57684 @ $3,24
8x 4c @ 2,93GHz Tigerton 46034 @ $5,40

SAP-SD

SAP logo (80x42)SAP is een van 's werelds grootste leveranciers van zakelijke software. Het bedrijf heeft een benchmark ontwikkeld voor zijn SD-module, waarbij wordt gekeken hoeveel mensen tegelijk in het systeem actief kunnen zijn zonder dat de gemiddelde reactietijd van de diverse formulieren boven de twee seconden uitkomt.

Bij de achtprocessorsystemen zien we de Xeon Dunnington met zijn zes cores de kop pakken door de gelijktijdige afhandeling van 9200 gebruikers. Intel vergroot hiermee zijn voorsprong: de Tigerton lag 14 procent voor op de Barcelona, terwijl de Dunnington 31 procent op de Shanghai pakt. Ook schaalt Intel beter dan AMD: de Xeon pakt met acht sockets 74 procent winst ten opzichte van een systeem met vier sockets, terwijl de Opteron er maar 60 procent op vooruit gaat.

SAP-SD 2-tier (acht sockets)
8x 6c @ 2,66GHz Dunnington 9200
8x 2c @ 4,7GHz Power6 8000
8x 4c @ 2,7GHz Shanghai 7010
8x 4c @ 2,93GHz Tigerton 6615
8x 4c @ 2,5GHz Barcelona 5800
8x 4c @ 1,6GHz Itanium 2 3211

Voor sommige mensen zal dit een verrassing zijn, maar hoe goed de schaalbaarheid van de Opteron in sommige gevallen ook is, de HyperTransport-interconnects van AMD zijn lang niet zo intelligent als de X4-chipset van IBM, die met trucs als snoopfilters en virtueel L4-cache voorkomt dat de fsb van de Xeon overbelast raakt. Combineer dat met 16MB L3-cache en het wordt duidelijk waarom Intel op het gebied van schaalbaarheid zelfs met het gebruik van een fsb niet afschreven hoeft te worden.

Bij systemen met vier sockets zien we ongeveer hetzelfde beeld als bij acht sockets, hoewel de voorsprong van de Xeon hier relatief kleiner is en de x86-kemphanen ruimschoots worden overtroefd door Sun met zijn 64-koppige threadmonster dat UltraSparc T2 heet.

SAP-SD 2-tier (vier sockets)
4x 8c @ 1,4GHz UltraSparc T2+ 7520
4x 6c @ 2,66GHz Dunnington 5300
4x 4c @ 2,7GHz Shanghai 4386
4x 2c @ 4,7GHz Power6 4010
4x 4c @ 2,5GHz Barcelona 3801
4x 4c @ 2,93GHz Tigerton 3780
4x 2c @ 1,6GHz Itanium 2 2150

Bij twee sockets wordt het pas echt interessant. Ten opzichte van de Barcelona biedt de Shanghai een duidelijke verbetering, waarmee ook de Xeon Harpertown wordt overtroffen. We zien hier echter ook de eerste officiële test van een machine met twee Nehalems: deze kan 5100 gelijktijdige gebruikers aan. Dat is twee keer zoveel als wat de Harpertown aankan en ook van de Shanghai zijn vier exemplaren nodig om in dezelfde prestatiecategorie terecht te komen.

SAP-SD 2-tier (twee sockets)
2x 4c @ 2,93GHz Nehalem 5100
2x 8c @ 1,4GHz UltraSparc T2+ 4170
2x 4c @ 2,7GHz Shanghai 2752
2x 4c @ 3,33GHz Harpertown 2518
2x 4c @ 2,3GHz Barcelona 2102
2x 2c @ 4,7GHz Power6 2035
2x 2c @ 1,6GHz Itanium 2 1165

Waarschijnlijk heeft Nehalem deze overweldigende score voor een groot deel te danken aan HyperThreading, omdat de UltraSparc al had aangetoond dat SAP-SD blij wordt van veel threads. Dat een Xeon-machine met 16 threads een Sun-machine met 128 threads overtreft, spreekt boekdelen over de singlethreaded prestaties van beide chips: een Nehalem bedient 319 users per thread, terwijl de T2+ niet verder dan 33 users per thread komt. Shanghai doet het met 344 users per thread ook lang niet slecht, maar AMD zal pas weer kans maken om deze test te winnen als het ook een vorm van multithreading in zijn core bouwt.

SPECjbb2005

SPECjbb2005 is een test die machines in de rol van java-applicatiehost aan de tand voelt. De software is losjes gebaseerd op TPC-C, maar in plaats van de aandacht op de database te richten, worden de prestaties van de applicatie gemeten. De prestaties worden gegeven in aantallen business operations per seconde, waarbij gedacht kan worden aan het aanmaken, opvragen en wijzigen van orders.

Bij acht sockets laat de Shanghai ruim een miljoen bops noteren - een indrukwekkende verbetering van 52 procent ten opzichte van de Barcelona. Wat opvalt is dat het schaalgedrag van de 45nm-Opteron in deze test tegenvalt: waar de Barcelona 75 procent winst uit de verdubbeling naar acht sockets haalt, wint de Shanghai slechts 44 procent. Bij SPECint zagen we eerder dat de relatieve winst juist groter was geworden. Ook opmerkelijk is dat er voor achtsocketsystemen geen recente Xeon-scores beschikbaar zijn. De recentste inzending betreft een systeem met dualcore 'Tulsa'-chips, die nog op de Pentium 4 zijn gebaseerd.

SPECjbb2005 (acht sockets)
8x 4c @ 2,7GHz Shanghai 1037851
8x 2c @ 4,7GHz Power6 867989
8x 4c @ 2,5GHz Barcelona 683542
8x 2c @ 3,5GHz Tulsa 336653
8x 2c @ 2,1GHz UltraSparc IV+ 244846

Bij vier sockets zien we de Shanghai weer zeer indrukwekkende resultaten leveren. Door de Barcelona met 84 procent te overtreffen worden de Xeons met gemak aan de kant geveegd en zelfs de UltraSparc T2+ van Java-uitvinder Sun delft het onderspit. Een dergelijke sprong is niet alleen te verklaren door hardwarewijzigingen. AMD heeft weliswaar de L3-cache van 2MB naar 6MB vergroot, de kloksnelheid 200MHz opgeschroefd en enkele niet nader toegelichte wijzigingen gemaakt om de ipc op te krikken, maar dat is niet genoeg om de prestaties van realistische code bijna te verdubbelen.

Software en geheugen zijn hier waarschijnlijk dus ook factoren. De Barcelona-test is uitgevoerd door Dell met BEA JRockit P27 als virtuele machine op Windows Server 2003 met 32GB geheugen. De IBM-inzending is daarentegen uitgevoerd met IBM J9 2.4, op Windows Server 2008 met 64GB geheugen. Dit is een goed voorbeeld van het soort valkuilen waar iemand in kan vallen als hij op basis van standaardbenchmarks keuzes moet maken. Het is dus nog belangrijk om alle factoren te bestuderen en de cijfers als indicatief te beschouwen, in plaats van ze als het laatste woord te zien.

SPECjbb2005 (vier sockets)
4x 4c @ 2,7GHz Shanghai 721843
4x 8c @ 1,4GHz UltraSparc T2+ 692736
4x 6c @ 2,66GHz Dunnington 508240
4x 4c @ 2,93GHz Tigerton 446209
4x 2c @ 4,7GHz Power6 402923
4x 4c @ 2,5GHz Barcelona 391654
4x 2c @ 1,6GHz Itanium 2 158174

Voor machines met twee sockets zien we wederom een flinke prestatiewinst bij de Shanghai, genoeg om de Xeon voorbij te streven. Ook hier is de winst te groot om zich volledig door wijzigingen aan de chip te laten verklaren; even doorzoeken leert dan ook dat er hier verschillen zijn in besturingssysteem en jvm. Om precies te zijn: de Barcelona draait op Solaris 10 met HotSpot, terwijl Shangai zijn kunsten vertoont op Windows 2003 met IBM J9 2.4.

SPECjbb2005 (twee sockets)
2x 8c @ 1,4GHz UltraSparc T2+ 388456
2x 4c @ 2,7GHz Shanghai 352700
2x 4c @ 3,33GHz Harpertown 344436
2x 4c @ 2,5GHz Barcelona 224595
2x 2c @ 4,7GHz Power6 205917
2x 2c @ 1,6GHz Itanium 2 80884
SpecJbb2005 uml-diagram
SPECjbb2005 uml-diagram

VMmark en SPECweb2005

VMmark

VMmark is een door VMware ontwikkelde benchmark die de prestaties van hardware op het gebied van virtualisatie beproeft. De test werkt door zogenaamde 'tegels' van zes virtuele machines te laten draaien. Iedere server in een tegel heeft zijn eigen functie: Java, Apache/PHP, database, fileserver en standby. Drie van deze machines draaien op Suse Linux en de andere drie op Windows Server 2003. VMware ESX draait direct op de hardware als hypervisor om de capaciteit van de fysieke machine over de virtuele bakken te verdelen. De score die wordt gegeven vat de prestaties van de tegels samen. De bedoeling is daarbij om zoveel mogelijk tegels op een machine te krijgen.

VMmark
8x 4c @ 2,93GHz Tigerton 24,62 @ 18
8x 4c @ 2,3GHz Barcelona 21,96 @ 15
4x 4c @ 2,7GHz Shanghai 20,35 @ 14
4x 6c @ 2,66GHz Dunnington 19,10 @ 14
4x 4c @ 2,5GHz Barcelona 15,35 @ 11
4x 4c @ 2,93GHz Tigerton 14,14 @ 10
2x 4c @ 2,7GHz Shanghai 11,22 @ 8
2x 4c @ 3,33GHz Harpertown 9,15 @ 7
2x 4c @ 2,5GHz Barcelona 8,07 @ 6

Op het moment van schrijven waren er geen nieuwe scores verschenen voor machines met acht sockets, maar voor de volledigheid laten we even zien dat de Xeon Tigerton iets sneller is dan de Barcelona Opteron. Daaruit blijkt ook dat de situatie bij SAP-SD niet uniek is.

Bij vier sockets zien we dat er niet veel is veranderd. De Barcelona had een bescheiden voorsprong op de Tigerton en de Shanghai heeft een - iets minder grote - voorsprong op de Dunnington. Technisch gezien is dit een goede score voor AMD, omdat Intel de helft meer cores is gaan gebruiken. Bij twee sockets blijft het aantal cores voor iedereen gelijk en zien we de Opteron van 11,8 procent achterstand naar 22,6 procent voorsprong gaan ten opzichte van de Xeon Harpertown.

SPECweb2005

Deze webservertest is de laatste benchmark die in dit artikel aan de orde komt. De test bestaat uit drie dynamische websites: een supportsite, een deels beveiligde e-commercesite en een geheel beveiligde bankingsite. De test is beschikbaar in php- en jsp-versies en degene die hem draait is vrij om zelf de webserversoftware te kiezen. De score is gebaseerd op het aantal gebruikers dat tegelijk actief kan zijn, geindexeerd op een referentiesysteem dat een score van 100 heeft.

SPECweb2005
2x 4c @ 2,7GHz Shanghai 37630
2x 4c @ 2,5GHz Barcelona 32288
2x 4c @ 3,2GHz Harpertown 29591
1x 8c @ 1,4GHz UltraSparc T2 41847

We zien dat de Barcelona een kleine voorsprong had op de Harpertown en dat AMD met de Shanghai zijn positie verder heeft verstevigd. Ook zien we dat Sun met zijn UltraSparc T2 een chip heeft neergezet die speciaal voor dit werk gemaakt lijkt te zijn: in zijn eentje overtreft hij de beste scores van x86-machines met twee cpu's.

Samenvatting en conclusie

Omdat servers qua doelgroep en prijs verdeeld zijn in segmenten die in grote lijnen overeenkomen met de verdeling naar aantal sockets, verdelen we ook de samenvatting op deze manier. We richten ons hier ook alleen nog op de x86-markt. Dat doen we niet alleen omdat deze architectuur in ongeveer negentig procent van alle servers terug te vinden is, maar ook omdat hier de interesse van de meeste Tweakers ligt.

Twee sockets

In de categorie van servers met twee sockets heeft AMD een grote sprong gemaakt. De 65nm-Barcelona is in bijna alle tests trager dan de Xeon, maar de op 45nm gebakken Shanghai wint op zijn beurt weer bijna alles van Intel. De Opteron is ook zuiniger geworden: waar het topmodel Barcelona een tdp van 137 watt had, ligt dat van de Shanghai op 115 watt.

AMD heeft echter niet veel tijd om van deze overwinning te genieten, want Nehalem staat klaar om korte metten te maken met alle records. Met twee keer zoveel bandbreedte en threads per socket als de Opteron, zal Intels nieuwste generatie Xeon zijn concurrent met gemak aan de kant schuiven. AMD zal nog enkele honderden megahertzen en het snellere HyperTransport 3.0 inzetten om de positie van Shanghai enigszins te versterken, maar de prestatiekroon zal daarmee niet gered worden.

BarcelonaHarpertownShanghaiNehalem
SPECint_rate 70,5 100 87,1 -
SPECfp_rate 99,0 100 123,4 167,4*
SPECjbb2005 65,2 100 102,4 -
SAP-SD 83,5 100 109,3 202,5
VmMark 88,1 100 122,6 -
SPECweb2005 109,1 100 127,2 -
Gemiddeld 85,9 100 112,0 185,0*
*) Deels gebaseerd op geruchten

Vier sockets

Dit segment werd na de release van de Opteron in 2003 een erg zwak punt voor Intel, maar wonderbaarlijk genoeg heeft het bedrijf zijn fsb-techniek de laatste jaren dermate opgekrikt dat het zich kan meten met de veel modernere systeeminterface van AMD. De Tigerton moest gemiddeld genomen wel zijn meerdere in de AMD's erkennen, maar het verschil is niet groot.

De Dunnington is een stevige verbetering van de Xeon, maar wel een die gebaseerd is op brute kracht: zes cores, 9MB L2-cache en 16MB L3-cache en 1,9 miljard transistors op een chip van 503mm². Daar passen twee Core 2 Quads in, waarna er nog ruimte overblijft voor drie Atoms. Intel kan het zich veroorloven, maar het is wel enigszins beschamend dat AMD met een chip die half zo groot is, minder stroom verbruikt én goedkoper is, alsnog de helft van de benchmarks wint.

TigertonBarcelonaDunningtonShanghai
SPECint_rate 107,5 100 147,7 125,2
SPECfp_rate 70,0 100 91,7 123,5
SPECjbb2005 113,9 100 129,7 184,3
SAP-SD 99,4 100 139,4 115,4
VmMark 92,1 100 124,4 132,5
TPC-C 109,5 100 145,1 109,3
TPC-E 100 - 161,0 -
Gemiddeld* 98,7 100 129,7 131,7
*) Exclusief TPC-E vanwege ontbrekende data

Dat betekent echter niet dat AMD veilig is: een server met twee Nehalems heeft evenveel bandbreedte en threads tot zijn beschikking als een machine met vier Shanghais aan boord. We hebben al twee tests gezien waarin eerstgenoemde configuratie sneller is. Bovendien wordt onder de codenaam Beckton aan een 2,3 miljard transistors tellende chip met acht Nehalem-cores en 24MB L3-cache gewerkt. Deze chip moet in de tweede helft van het jaar definitief een einde maken aan Intels wankele positie in deze categorie.

Acht sockets

Voor dit kleine segment zijn relatief weinig testresultaten beschikbaar, maar we kunnen wel een beeld schetsen. Wat opvalt is dat de Xeon het met acht sockets relatief beter doet dan met vier sockets. Dit is vooral te danken aan IBM, dat flink wat geld pompt in de ontwikkeling van geavanceerde chipsets zoals X3 en X4, die specifiek bedoeld zijn om de tekortkomingen van de fsb op te heffen en zelfs efficienter zijn dan het HyperTransport-systeem van de Opteron. IBM werkt ook al aan een X5-chipset om de nieuwe generatie Xeons - zoals de eerder genoemde Beckton - naar acht en zestien sockets te tillen.

BarcelonaTigertonShanghaiDunnington
SPECint_rate 100 112,1 - -
SPECjbb2005 100 - 151,8 -
SAP-SD 100 114,1 120,9 158,6
VmMark 100 112,1 - -
TPC-C - 100 - 142,6
TPC-H - 100 125,3 -

Vooruitblik en conclusie

AMD heeft met de Shanghai knap werk afgeleverd. De chip is kleiner en zuiniger dan zijn voorganger, maar presteert vaak tientallen procenten beter. Met name in het segment van vier sockets is voor Intel pijnlijk duidelijk dat zelfs de lompe Dunnington er niet tegen opgewassen is.

Het probleem is echter dat Intel binnenkort alle remmen los gaat gooien. Het had een core die al goed presteerde op een krappe fsb en voorzag die vervolgens van een enorme sloot bandbreedte en HyperTreading. Koppel dat aan de capaciteit om chips met een paar miljard transistors in de strijd te gooien en AMD krijgt dit jaar ongekend felle concurrentie voor zijn kiezen.

De roadmap biedt niet veel uitwegen. In de tweede helft van het jaar verschijnt de Istanbul, een versie van de Shanghai met zes cores. Structurele verbeteringen zoals ondersteuning voor vier ddr3-geheugenkanelen, een probe filter en een extra ht-link laten op zich wachten tot de eerste helft van volgend jaar, als de Sao Paulo en de Magny-Cours met respectievelijk zes en twaalf cores worden uitgebracht.

Dit klinkt veelbelovend, maar AMD zal het met deze 45nm-chips moeten opnemen tegen 32nm-Xeons, die ook een paar extra cores, grotere caches en een paar andere nieuwe trucs zullen krijgen. De grote onbekende is Bulldozer, de nieuwe architectuur die AMD in 2011 op zijn 32nm-procedé wil introduceren. Hier en daar wordt gefluisterd dat dit een gewaagd ontwerp is, maar dat zal waarschijnlijk ook nodig zijn om weerstand te bieden aan Intels volgende 'tock': Sandy Bridge. Over beide architecturen is nog vrijwel niets bekend, dus wat dat betreft kan er vrolijk op los gespeculeerd wordt. Tot die tijd gaat AMD het op de servermarkt in ieder geval zwaar krijgen.

AMD Shanghai dieshot

Reacties (36)

36
35
13
8
0
2
Wijzig sortering
Het enige dat ik nog mis is een vergelijk in energieverbruik tussen de server processors. Waar het in een desktop pc fijn is een zuinige proc te hebben is dit in servers van groter belang. Denk aan airco, stroomvoorziening en energiekosten. In dat geval kan het goedkoper zijn meerdere cpu's met een lager TDP te gebruiken dan minder, maar veel warmere cpu's.

De Core i7 is dan wel een snelle processor, we weten ook dat deze flink wat stroom verbruikt. Dus moet ook de airco een standje hoger. Dit terwijl de Shanghai juist zuiniger is geworden, maar toch sneller is.

Verder een mooie review. Ook mooi om het verschil in clocksnelheid te zien tussen de verschillende chips.
gelijk heb je, een soort punten/watt en punten/€ grafiek zou tof zijn in tijden waar energie en geld verbruik ook als belangrijk worden gezien.
Informatief artikel. Alleen kan ik de VMware benchmark waarden niet geheel thuisbrengen.
De waarden wijken nogal af van de resultaten die op de VMware site staan.
Zie : http://www.vmware.com/products/vmmark/results.html Hier zijn de waarden hoger dan in dit artikel.
@writer, ik weet niet wanneer uw moment van schrijven is maar de VMmark van 8s shanghai staat nu al een maand online, deze is dan ook duidelijk een pak sneller dan eender welke ander 8s.

http://www.vmware.com/products/vmmark/results.html

HP HP ProLiant DL785 G5
VMware ESX v3.5.0 Update 3 VMmark v1.1
27.71@19 tiles
View Disclosure 8 sockets
32 total cores
32 total threads 12/19/08

voor de rest sterke review helaas zijn het overal resultaten die je vergelijkt van de beste die er zijn, maar er zit wel degelijk meestal een pak prijsverschil tussen, inderdaad nehalem gaat vooral in 2s hier en daar brokken maken in performance binnen een goei 2-3 maanden maar zal dan ook duurder zijn door zijn board layout etc en ook powerconsumptie is hoger dan shanghai.

ivm amd zal het inderdaad lastiger worden, het is wel ddr3 - ht3 en een pak hogere snelheden en binnenkort 6 cores die het opnemen tegen nehalem.

de 4s nehalem is H2 exacte datums zijn er nog steeds niet.
misschien lichtelijk off-topic, maar wat mij nog het meeste is opgevallen is hoe bizar slecht de Itaniums naar voren komen in alle tests waar er resultaten van te zien zijn?
Waar zijn die nog goed voor?
Heeft intel daar de stekker al uit getrokken?
Itanium worden veel ingezet als vervanging van PA-RISC (HP's oude platform) de truck is dat je over het algemeen zonder veel moeite van PA-RISC naar Itanium kan gaan. HP wil dat graag en Intel is er ook blij mee. AMD is niet echt een optie omdat HP dat soort servers niet in de aanbieding heeft zeker niet als je vraagt om systemen met zeg 20 cores of meer.
Dus toen ik aan HP vroeg wat ze me konden bieden was het of Xeon of Itanium. Dan is de keuze snel gemaakt een Xeon server met 20 processors is nog al lastig te vinden en dus moet je wel Itanium kopen. En even van supplier veranderen omdat je 20 servers moet vervangen lijkt goed mogenlijk maar dat is een ander verhaal als je enkele duizende servers van die suplier hebt staan en zij natuurlijk ook alle support etc bieden, tot en met een aantal mensen permanent in house en een spare parts opslag direct naast het kantoor.

Waar Itanium dus voor gebruikt wordt is over het algemeen voor systemen die van PA-RISC af stappen nu het niet langer gemaakt wordt. En omdat je nu eenmaal niet even een 20 processor server met AMD cores bestelt of Xeon etc moet je dus wel naar Itanium of iets dergelijks, vendor lock in en prefered supplier contracts doen de rest. De andere AMD en Intel processoren zijn wel goed maar zijn nu eenmaal niet instaat om net zo veel rekenkracht te leveren als een flinke stapel Itaniums, ook al moet je dan vaak wel flink wat meer kosten maken zowel in aanschaf als in energie voorziening.
Buiten OpenVMS en HP-UX is er voor zover ik alleen op de deze processor draaien.

Aangezien beide genoemde OSen marktaandeel aan het verliezen zijn wordt deze processor minder interessant, voor klanten, ontwikkelaars en Intel.
Verliezen? Is dat echt zo? Tsja okee.. Nieuwbouw zal zelden op OpenVMS draaien. Het UWV/Belastingdienst hebben echter nog een hoop systemen op OpenVMS draaien. Omdat hardware vervangen wordt wordt er een hoop ge-migreerd van Alpha naar Itanium.
fbsd? debian? En vast nog een hoop andere bsd en linux smaakjes. Opensuse is de enige die ik ooit op een itanium heb geplempt voor de lol, freebsd en debian gewoon in productie.
Vergeet het HP-nonstop platform niet, draait nu ook allemaal op Itanium II, en is bij banken en andere bedrijven zeer belangrijk... word nog best gebruikt.
maar wat mij nog het meeste is opgevallen is hoe bizar slecht de Itaniums naar voren komen in alle tests waar er resultaten van te zien zijn?
De itanium is nog wel sterk in floating point benchmarks.

Verder is het zo dat de Itanium tukwila (30MB cache !!) deze winter of dit voorjaar uitkomt waarmee de Itanium eindelijk onder de 90nm produtie komt.
Het is dus nu heel slechte timing om dan de specs van de verouderde Itanium processorvarianten te zien. Zeker vergeleken met de veel nieuwere processor varianten als de shanghai, de dunnington, de ultrasparc T2 en de nehalem.
Nou dat valt nog wel mee - als je kijkt naart kloklsnelheid zie je dat ie in bepaalde tests zelfs sneller is dan de Power6 (als de Itanium ook op 5GHz zou draaien zou hij bijvoorbeeld in SPECint_rate_2006 653 punten halen, versus de 542 van de Power6)

Dus de IPC van Itanium is pretty impressive. Probleem is echter dat Intel schijbaar erg veel moeite heeft met hogere kloksnelheden op de Itanium mogelijk te maken. Dus ja, ok, in PRAKTIJK is Itanium vrij zielig, maar in theorie blijkt maar weet wat een geweldige architectuur het zou kunnen zijn...
in PRAKTIJK is Itanium vrij zielig, maar in theorie blijkt maar weet wat een geweldige architectuur het zou kunnen zijn...
Nee, da's echt onzin. De architectuur van de Power6 is namelijk dusdanig dat deze daadwerkelijk op 5 GHz te klokken is. Bij de Itanium is dit niet mogelijk (anders zou Intel dat echt wel gedaan hebben). De maximaal haalbare kloksnelheid is ook een eigenschap van de architectuur. Om eerlijk te zijn, de maximale kloksnelheid hangt ook van andere dingen af, maar architectuur is een zeer belangrijke factor.
Niet om het een of ander; Maar een architectuur zegt niets over de maximaal haalbare snelheid van een chip. Je haalt architectuur en proces door elkaar. Op dit moment is het misschien niet mogelijk om een Itanium op 5GHz te klokken, maar met een sterk verbeterd proces (22 nm of nog kleiner?) maar dezelfde architectuur is dat op den duur wel mogelijk.
Zoals ik in "small" er ook al onder had gezet, de architectuur zegt inderdaad langs niet alles over de maximaal haalbare snelheid, maar is wel degelijk een factor. En inderdaad, het proces waarop je een chip bakt is evengoed een belangrijke factor.
Gemakshalve had ik even aangenomen dat beide processoren die Webdoc vergeleek op ongeveer vergelijkbare processen worden gefabriceerd, zodat we daar niet al teveel aandacht aan hoeven te besteden. (Als je een Itanium naar 5 GHz kunt krijgen op 22 nm, dan gaat een Power op 22 nm nóg veel harder.)

De architectuur is wel degelijk een beperkende factor in de maximaal haalbare kloksnelheid van een processor. Als je bijvoorbeeld de volledige verwerking van een instructie in één klokslag wil laten plaatsvinden (zonder pipelining dus), dan zie ik het niet gebeuren dat je zelfs maar in de buurt komt van 1 GHz. Terwijl je met een pipeline van lekker veel stappen meerdere gigahertzen kunt halen (een lange pipeline brengt natuurlijk wel andere problemen met zich mee).

En even voor de goede orde, ik heb het hier over moderne CPUs op een hedendaags proces. Een 8 bit full adder zal (zonder pipelining) echt wel tot (ver voorbij) 5 GHz komen, maar dat zou ik niet een processor willen noemen.
Hoe vooruitstrevend de Itanium mag zijn.

Ik denk dat de huidige Intel x86 architectuur de Itanium ruim voorbij gestreefd heeft in performance, prijs, marge en rendement op R&D kosten.

Ik verwacht dat Intel de Itanium dood zal laten bloeden.
Het probleem van de itanium is dat intel de itanium op oude techniek bakt. Binnenkort maakt de Itanium echter een flinke stap voorwaards en wordt die gelijkgetrokken met de Xeons op 45nm. Dan kan die opeens een boost qua kloksnelheid en aantal cores krijgen en ook nog eens zuiniger worden. En dan wordt de chip opeens ook veel interessanter. Nu leeft de chip eigenlijk enkel nog in de niche waar betrouwbaarheid een belangrijke rol speelt en x86 chips simpelweg geen optie zijn
zo kun je wel bij elke processor gaan kijken wat hij op 5GHz zou doen... Moet je eens kijken wat dat met een Ultrasparc doet. Je kan niet zomaar kloksnelheden aan elkaar gelijkstellen, dan krijg je heel rare resultaten, waar niemand wat aan heeft.
Ik dacht dat Itanium ook vooral belangrijk was voor super kritieke systemen. Neem bijvoorbeeld een applicatie zoals die van Currence voor alle pinbetalingen. Als 100% uptime gevraagd wordt mag het best wat trager worden. Er zijn genoeg business cases te bedenken die niet zozeer op snelheid hangen als wel op beschikbaarheid.
Inderdaad, Itanium2 wordt gebruikt in "Tandem" systemen, oftewel een HP Non-Stop Integrity server.
Worden gebruikt bij veel banken voor online transaction processing, maar ook bijvoorbeeld de NYSE draait er op. Zo'n beetje de meest betrouwbare systemen die er zijn.

Maar ik ben best benieuwd hoe snel het betalingsverkeer wel niet zou kunnen verlopen als deze servers van 20+ Shanghai's voorzien konden worden ;)
Mooi artikel. Ik moet zeggen dat ik toch wel onder de indruk ben van de Shanghai processor van AMD. Hij is weliswaar niet de snelste, maar doet toch goed mee met de bestaande en vaak duurdere configuraties. Daarnaast is de Shanghai ook nog eens heel erg zuinig (vooral in idle) en kan er goedkoop DDR2 geheugen op gezet worden.

Dus als je niet per se alle prestaties van de wereld moet hebben zou ik toch AMD als de meest interessante aanbieder zien.

Edit: Daarbij komt dat de geteste Shanghai chip werkt op 2,7 GHz, terwijl bewezen is dat ie met goede luchtkoeling ook prima op 3+ GHz geklokt kan worden. Dat levert zo 10 tot 20% extra performance.

[Reactie gewijzigd door frankknopers op 22 juli 2024 18:05]

Een cpu overclocken van een server waar je halve bedrijf van afhankelijk is lijkt me niet zo slim, AMD clockt ze niet voor niets op 2,7 ipv 3,0 ghz.
Het is veel belangrijker een reputatie op te bouwen met goede, zuinige en betrouwbare CPU's, dan 'de snelste' .
Hij moet natuurlijk wel performen, maar schaling en betrouwbaarheid zijn veel belangrijker.
Het is waar dat de server markt voor AMD de belangrijkste geld schieter voor de CPU tak is. Maar ik vind dat de nehalem nouw ook weer niet zo ontzettend veel sneller is. En dan hebben we het nog niet gehad over het prijskaartje en het verbruik. Want verbruik dar scoort shanghai enorm goed op. Want die is zuiniger dan de desktop variant ervan. terwijl ik verwacht dat nehalem ongeveer gelijk verbruikt aan de desktop variant. ik verwacht dat AMD zich meer op de chinese markt gaat vestigen met shanghai eigenljk want daar zou het wel eens heel goed kunnen gaan doen:http://news.cnet.com/AMDs...33158.html?tag=html.alert

[Reactie gewijzigd door Verwijderd op 22 juli 2024 18:05]

Dit klinkt veelbelovend, maar AMD zal het met deze 45nm-chips moeten opnemen tegen 32nm-Xeons, die ook een paar extra cores, grotere caches en een paar andere nieuwe trucs zullen krijgen. De grote onbekende is Bulldozer, de nieuwe architectuur die AMD in 2011 op zijn 32nm-procedé wil introduceren. Hier en daar wordt gefluisterd dat dit een gewaagd ontwerp is, maar dat zal waarschijnlijk ook nodig zal om weerstand te bieden aan Intels volgende 'tock' - Sandy Bridge. Over beide architecturen is nog vrijwel niets bekend, dus wat dat betreft kan er vrolijk op los gespeculeerd wordt. Tot die tijd gaat AMD het op de servermarkt in ieder geval zwaar krijgen.
De huidige snelste zal uiteindelijk altijd ingehaald worden. Het is en blijft stuivertje wisselen.

Hoe dan ook. AMD is helemaal terug na mer dan een jaar. Vooral het server segment is erg belangrijk omdat hier fatsoenlijke marges gehaald kunnen worden.
Het is net het omgekeerd... AMD is nooit 'weggeweest' in de servermarkt... Enkel in de desktopmarkt hebben ze het moeilijk, qua high end dan
Jawel, toen Intel wel en AMD geen quad core server processors kon leveren.

Omdat de licentie vaak per processor geregeld wordt was Intel op dat moment voordeliger.
Uitstekend artikel, grondig en overzichtelijk! Grappig om te zien dat een 1.4Ghz Ultrasparc vele malen sneller is dan een 4.7Ghz Power6; ben benieuwt naar ene snelheid/verbruik analyse.
Heel mooi artikel. De laatste jaren is het telkens AMD die de beste verhouding tussen prijs en prestatie heeft, maar Intel neemt telkens met gepast geweld de prestatiekroon over. En dan vraag ik me elke keer weer af: welke strategie loont beter? En hoelang zal die verdeling nog stand houden?

Overigens vind het altijd leuk om die codenamen van de cpu's te lezen, van die prachtige verzinsels: Nehalem, Tigerton, Harpertown, Shanghai, Barcelona, Dunnington... en dan de Sao Paulo, Magni-Cours, Bulldozer... Heerlijk. :Y)

Op dit item kan niet meer gereageerd worden.