Door Wouter Tinus

Serverduel: Xeon Woodcrest vs. Opteron Socket F

04-09-2006 • 12:43

37

Multipage-opmaak

Inleiding

For your convenience, an English translation of this article is available.

Sinds de introductie van de Opteron in april 2003 is het aandeel van AMD in de markt voor x86-servers gegroeid van een schamele drie procent naar ruim een kwart. Dit gebeurde natuurlijk niet zonder goede redenen: sowieso was het K8-ontwerp voor veel toepassingen sneller, maar het bleek ook zuiniger en beter schaalbaar te zijn dan zijn concurrenten. Bovendien liep de Opteron voorop met technieken zoals 64-bit extensies en dualcore, waardoor reviews keer op keer moesten concluderen dat de Xeon achter de feiten aan liep. Dit was natuurlijk pijnlijk voor Intel, maar bleek ook een goede motivatie te zijn om het een en ander drastisch te veranderen. Onder de codenaam 'Woodcrest' heeft het bedrijf hard gewerkt aan een nieuwe generatie serverchips en op 25 juni jongstleden werd het resultaat van die inspanningen officieel geïntroduceerd in de vorm van de Xeon 51xx-serie. In dit artikel zullen we bekijken wat men heeft gedaan in de poging om het tij te keren en beoordelen in hoeverre dat is geslaagd.

Net als in de vorige artikelen in deze serie zullen we gebruikmaken van onze zelf ontwikkelde benchmark gebaseerd op de database van Tweakers.net. Het hoofdonderwerp is ditmaal een dual 2,66GHz Woodcrest-server van Fujitsu-Siemens. Als vergelijkingsmateriaal gebruiken we de eerder besproken Socket F Opteron met DDR2-geheugen, aangezien deze tot zeker halverwege volgend jaar het paradepaardje van AMD zal zijn. We zullen Intels nieuwe Xeon voor de volledigheid echter ook vergelijken met twee andere chips die eerder de revue zijn gepasseerd, te weten de Socket 940 Opteron en de Sun UltraSparc T1.

Intel Woodcrest-processor
Intels Xeon 51xx 'Woodcrest'

Intel profileert zich de laatste anderhalf jaar niet meer als leverancier van processors, maar als aanbieder van complete platforms. Naast de nieuwe serverprocessor introduceerde men dan ook een bijpassende chipset - codenaam 'Blackford' - die een einde probeert te maken aan de bandbreedteproblemen waar de vorige generatie Xeons mee worstelde. Dat gebeurt door middel van een dubbele bus en viervoudige geheugenkanalen. Om een indruk te krijgen van welk deel van de prestatiewinst veroorzaakt wordt door de nieuwe processor en welk deel door de chipset testen we ook de Xeon 50xx 'Dempsey', het laatste model gebaseerd op de oude Netburst-filosofie.

Post mortem: Netburst

Intels Netburst-architectuur is bijna zijn hele levensloop onderwerp van controverse geweest. De eerste iteratie - de Pentium 4 'Willamette' - werd op 20 november 2000 geïntroduceerd op snelheden tot en met 1,5GHz. Dit beloofde een grote sprong te worden boven de 1,0GHz van de Pentium III 'Coppermine' en de 1,2GHz van de Athlon 'Thunderbird', maar al snel kwam de wereld er achter dat de kloksnelheid niet meer het hele verhaal vertelde: de prestaties van de nieuwe chip stelden teleur en bovendien was het zowel voor Intel als voor de klant een dure grap. De Willamette-core was meer dan twee keer zo groot als zijn voorganger en kon alleen maar gebruikt worden in combinatie met het schaarse en dure Rambus RDRAM-geheugen. Een vroegtijdige wissel in sockets van 423 naar 478 pinnen hielp ook niet om de populariteit te vergroten.

Iets meer dan een jaar later - op 7 januari 2002 om precies te zijn - verscheen de tweede generatie Netburst met de codenaam 'Northwood'. In deze periode werden de kreukels van Willamette weggestreken, onder andere door de introductie van chipsets met ondersteuning voor DDR-geheugen, HyperThreading, een groter L2-cache en bredere acceptatie van de SSE2-instructies. Intels strategie om voor hoge kloksnelheid te gaan begon zelfs goed te werken: toen de voorsprong in frequentie tegen het einde van het jaar toenam tot meer dan 800MHz werd AMD diep de rode cijfers in gedreven. Eén probleem was er echter nog wel: het stroomverbruik was rap aan het stijgen. Northwood begon op 2,0GHz met een TDP van 54,3 watt, maar tegen de tijd dat de 3,06GHz bereikt werd was dit al opgevoerd tot 81,8 watt. Naar huidige maatstaven lijkt dit niet veel, maar destijds was het een record.

Intel processors van Willamette tot en met 65nm dual-core

Gelukkig was er een oplossing voorhanden, althans, dat geloofde men destijds. De overstap van 130nm- naar 90nm-productie zou het stroomverbruik weer terug moeten brengen, genoeg om een verdere groeispurt richting 5,0GHz mogelijk te maken. De derde generatie Pentium 4 - codenaam 'Prescott' - was de core die dit had moeten doen, en was daarop al voorbereid door een lange pipeline van 31 stappen. Op dat moment ontplofte de Netburst-motor echter: door een onverwachte hoeveelheid lekkage vanuit de kleinere transistors bleef de beoogde stroombesparing uit. Hoewel dit voor alle chips (dus ook die van concurrenten) tot op zekere hoogte een rol speelde, was de Pentium 4 in het bijzonder kwetsbaar voor dit effect. Hogere kloksnelheid vereist namelijk meer activiteit van de transistors en hogere spanning, wat meer lekkage veroorzaakt. Het effect versterkt zichzelf bovendien op een kwadratische manier: als de chip warmer wordt lekt er nog meer stroom weg.

De gevolgen voor Intel waren groot. Toen de Prescott op 2 februari 2004 werd uitgebracht wist de nieuwe core geen verbetering in prestaties of zuinigheid te brengen. Het verzet van klanten tegen nog warmere processors was de doodsklap: ondanks redelijk succes om het ontwerp gedurende zijn levensloop zuiniger te maken konden de doelstellingen simpelweg niet gehaald worden. Dit gebeurde voor Intel zo ongeveer op het meest ongunstige moment dat maar denkbaar was: AMD had een paar maanden eerder de Athlon 64 geïntroduceerd en daarmee een sterk antwoord op Northwood neergezet, zowel op het gebied van prestaties als dat van zuinigheid. Zonder hogere kloksnelheid om naartoe te vluchten was de Pentium 4 een makkelijke prooi geworden, en dus moest Intel toekijken hoe zijn voorsprong als sneeuw voor de zon wegsmolt.

Barret smeekt om vergiffenis
Intels toemalige CEO op zijn knieën om excuses aan te bieden voor het niet halen van de 4GHz

Achteraf praten is natuurlijk altijd makkelijk, maar het duurde daarna toch nog even voor het bedrijf accepteerde dat het Netburst-idee een doodlopend pad was. Op 8 mei 2004 ging de kogel door de kerk: men kondigde aan dat twee toekomstige generaties van de Pentium 4 (codenamen Tejas en Nehalem) waren geannuleerd, en dat men 'iets anders' ging doen met 'dualcore'. Geruchten waren talrijk, maar de optie om verder te bouwen op het ontwerp van de Pentium M was direct een van de meest populaire theorieën. De mobiele processor werd al een paar jaar onafhankelijk van Netburst ontwikkeld door een team in Haifa, Israël. Ondanks het feit dat hij niet specifiek voor desktops - laat staan servers - gebouwd was, wist hij toch indrukwekkende prestaties neer te zetten. In tegenstelling tot de Amerikaanse teams die met Pentium 4 bezig waren, hadden de Israëliërs bovendien de valkuilen van het alsmaar stijgende verbruik weten te ontwijken.

Al voor het ontsporen van de Pentium 4-ontwikkeling stond er een zuinige 64-bit, dualcore Pentium M op de planning met de codenaam Merom. De ontwikkeling van deze chip is volgens onbevestigde verhalen al in 2002 begonnen. Toch duurde het tot 9 april 2005 voor officieel bevestigd werd dat de Merom twee broertjes had gekregen: Conroe voor desktops en Woodcrest voor servers. Samen werden ze ook wel de NGMA genoemd: Next Generation Micro-Architecture. Weer bijna een jaar later - 9 maart jongstleden - werd de definitieve naam voor de nieuwe architectuur wereldkundig gemaakt: Core. Op de volgende pagina's zullen we bekijken welke verbeteringen deze te bieden heeft.

De Core-architectuur (1)

Voor we bekijken wat Core allemaal aan boord heeft, is het zinvol om eerst te bespreken wat het precies is. Volgens Intel is het een mix van de beste eigenschappen van Pentium 4 en Pentium M, maar er is niet veel technische kennis voor nodig om te zien dat de gelijkenis met laatstgenoemde veel groter is dan die met eerstgenoemde. Feitelijk zijn alleen features (zoals 64-bit extensies) van Netburst overgenomen, maar is er van het ontwerp geen spaan heel gelaten. Of het dan wel een Pentium M genoemd kan worden hangt af van het niveau waarop gekeken wordt. Hij is door hetzelfde team ontworpen en uit de eigenschappen blijkt duidelijk dat de architecten hun ervaring met eerdere projecten niet vergeten zijn. De filosofie is dus onmiskenbaar die van de eerdere mobiele chips, maar wie iets dichterbij kijkt komt echter snel genoeg een aantal ingrijpende nieuwe features tegen, die voldoende zijn om van een volledig nieuw ontwerp te kunnen spreken. De nieuwe features zijn door Intel grofweg verdeeld in vijf categorieën.

* Wide Dynamic Execution

Core is gebouwd om tot vier instructies per klokcyclus te kunnen decoderen, uitvoeren en verwerken. Andere x86-chips zoals de Pentium 4, Pentium M en Athlon 64 gaan maximaal tot drie. Hoewel het in de praktijk erg moeilijk is om binnen één thread instructies te vinden die volledig onafhankelijk van elkaar uitgevoerd kunnen worden, is iedere verbetering van het gemiddelde natuurlijk welkom. Om de effectiviteit verder te verhogen doet Core aan 'fusion' van instructies: als twee opdrachten bij elkaar horen zullen ze door de hardware aan elkaar gesmolten worden. Dit verandert niets aan de hoeveelheid werk die uitgevoerd moet worden, maar zorgt er wel voor dat er iets efficiënter gewerkt kan worden, omdat er minder interne boekhouding nodig is.

Het koppelen vindt plaats op twee niveaus: op de interne instructieset van de processor (microfusion) en de externe instructieset (macrofusion). De eerste vorm werd ook al gebruikt door de Pentium M, maar is voor Core verbeterd om meer combinaties mogelijk te maken. Volgens Intel zorgt microfusion ervoor dat de processor intern 10% minder opdrachten hoeft te verwerken. Macrofusion werkt direct op de x86-opdrachten die binnenkomen en elimineert daar overbodige complexiteit, bijvoorbeeld door losse instructies 'compare' en 'jump' samen te voegen tot één nieuwe 'compare and jump'-instructie. Opvallend is dat macrofusion niet wordt gebruikt in de 64-bit-modus, mogelijk omdat er vanuit gegaan wordt dat moderne compilers überhaupt geen overbodige instructies meer genereren.

Core: Wide Dynamic Execution

* Smart Memory Access

Een van de meest innovatieve nieuwe features in de Core-architectuur te vinden is Memory Disambiguation. Om de correcte uitvoer van een stuk programma te garanderen moeten alle instructies in de juiste volgorde afgehandeld worden. Of - beter gezegd - het moet lijken alsof alle instructies in de juiste volgorde afgehandeld worden. Er zijn namelijk al jaren processors die 'stiekem' in een andere volgorde kunnen werken om zo betere prestaties te leveren. De eerste x86-chips die dat principe toepasten waren de K5 van AMD en de Intel Pentium Pro. Voor deze zogenaamde OoOE-ontwerpen is het echter van levensbelang om de schijn van sequentiële verwerking hoog te houden. Het is immers op zijn zachts gezegd onwenselijk dat een processor in zijn enthousiasme om instructies uit te voeren gaat werken met data die eigenlijk eerst nog gewijzigd moest worden.

In de praktijk is het bij lange na niet nodig om álle lees- en schrijfacties in de exacte volgorde van het programma uit te voeren. Een truc die Intel eerder heeft toegepast (en AMD ook in de K8L gaat gebruiken) is om leesacties alvast uit te voeren voor ze eigenlijk aan de beurt zijn, zodat de data sneller beschikbaar is. Schrijfacties gooien echter nog steeds roet in het eten: als er ook maar ergens een store-instructie in de pipeline zit waarvan het doelwit onbekend is, kan de processor niet het risico nemen om ondertussen iets te lezen. Programmeurs en compilers vermijden het wegschrijven en vervolgens weer inlezen van dezelfde data zo veel mogelijk (omdat het gewoon niet efficiënt is), maar een processor moet nu eenmaal met álle code juiste resultaten opleveren, ook al is deze niet optimaal. Dit was tot nu toe meer dan voldoende reden om leesacties te blokkeren zolang niet alle voorgaande schrijfacties waren afgehandeld.

De Core-architectuur lost dit probleem op met de zogenaamde Memory Disambiguator. Deze voorspelt het doelwit van nog uit te voeren schrijfacties en laat alle leesopdrachten die buiten de gevarenzone vallen toch voorgaan. Dat betekent dat instructies gemiddeld minder lang op data hoeven te wachten en de chip meer werk in dezelfde tijd kan verrichten. Voorspellingen van de Disambiguator zouden meer dan 90% nauwkeurig zijn, maar een kleine 10% missers betekent nog steeds dat de Core regelmatig met verkeerde data aan de slag gaat. Zodra dit wordt opgemerkt (wat overigens altijd gebeurt voor het resultaat permanent wordt) begint de verwerking gewoon weer opnieuw. Het systeem is dus enigzins te vergelijken met branch prediction, waarbij gegokt wordt naar welke tak van een if-constructie er gesprongen moet worden. Meestal gaat het goed en wordt er tijd bespaard, maar soms gaat het ook fout en kost het extra moeite om de schade van de verkeerde gok te herstellen. Het is natuurlijk wel de bedoeling dat er netto winst mee gemaakt wordt, dus als de Disambiguator te veel fouten maakt in een bepaalde thread wordt hij automatisch uitgeschakeld.

Core: Memory Disambiguation

De Core-architectuur (2)

* Advanced Smart Cache

Core heeft een gedeeld L2-cache, wat afhankelijk van de precieze uitvoering 2MB of 4MB groot is. De twee kernen kunnen door elkaar opgevraagde gegevens gebruiken, waardoor de gemiddelde toegangstijd afneemt als ze aan dezelfde taak werken. De capaciteit van het cache wordt dynamisch verdeeld tussen de twee cores, dus als het nodig is kan één thread de volle mep voor zijn rekening nemen. Door het cache te delen wordt ook busbandbreedte bespaard, omdat de onderlinge communicatie via het L2 afgehandeld kan worden. De L1-caches van de twee cores zijn overigens ook met elkaar verbonden, maar Intel heeft op dit moment nog geen duidelijkheid gegeven over de functie van deze connectie.

Een dualcore Core-processor heeft in totaal acht prefetchers aan boord die samen met het ruime cache helpen om de latency te verlagen. Iedere core heeft er op L1-niveau twee voor data en één voor instructies, en nog eens twee worden er door de cores gedeeld in het L2. De reden om meerdere prefetchers voor hetzelfde cache te gebruiken is om verschillende toegangspatronen te kunnen herkennen. In tegenstelling tot oudere ontwerpen controleren de prefetchers van Core of de data die ze klaarzetten ook daadwerkelijk nuttig gebruikt wordt, zodat ze minder onnodige belasting van de bus veroorzaken en ook minder zinvolle gegevens per ongeluk uit het cache duwen. Verder krijgen leesopdrachten die uit de programmacode afkomstig zijn voorrang boven die van de verschillende prefetchers, waardoor het risico op een prestatieverslechtering door overenthousiaste prefetchers minimaal wordt.

Core: Prefetchers

Hoewel de latency van Core door het gebrek aan een geïntegreerde geheugencontroller nog steeds hoger is dan die van de K8, werkt de combinatie van het cache en de prefetchers zo goed dat zelfs verschillende latencybenchmarks (die specifiek zijn ontworpen om primitievere prefetchers te omzeilen) voor de gek worden gehouden. Het enige nadeel van de prefetchers is dat ze zo druk bezig kunnen zijn dat ze het stroomverbruik verhogen. Intel heeft daarom een optie ingebouwd om de agressiviteit in te stellen, waarbij de mobiele Merom van huis uit de mildste instellingen meekrijgt en Woodcrest als serverchip de zwaarste.

* Intelligent Power Capability

Om Core efficiënter te maken dan zijn voorgangers wordt niet alleen 65nm-productietechniek gebruikt, maar vooral ook slimme ontwerptrucs: zo ongeveer ieder onderdeel van de core kan in- en uitgeschakeld worden. Het oppervlak is opgedeeld in enkele tientallen verschillende gebieden die alleen maar actief zijn op de momenten dat ze ook daadwerkelijk gebruikt worden. Sommige delen, zoals caches, bussen en buffers, kunnen zelfs gedeeltelijk worden uitgeschakeld. Normaalgesproken brengt het uitschakelen van onderdelen een vervelend nadeel met zich mee, namelijk dat het tijd kost om ze weer in te schakelen als ze nodig zijn. Hierdoor gaat de reactietijd omhoog en daar kunnen de prestaties onder lijden. Er is echter een systeem bedacht dat van te voren voorspelt wanneer het nodig is om een bepaald deel van de chip te activeren, zodat deze steeds net op tijd gereed zijn.

Core: split busses

* Advanced Digital Media Boost

Core is de eerste processor die 128-bits SSE-instructies in één klap kan verwerken. Eerdere ontwerpen moesten deze opsplitsen in twee brokken van 64 bits, wat sowieso minstens één extra kloktik vertraging betekent, maar ook voor de interne boekhouding minder efficiënt is dan gewoon één instructie uitvoeren. Door de brede datapaden voor multimedia kunnen er vier 64-bits flops per kloktik per core worden uitgevoerd, het dubbele van Netburst en K8. Tot slot zijn er onder de noemer SSE4 acht nieuwe multimedia-instructies toegevoegd die enkele specifieke toepassingen aan een prestatiewinst moeten kunnen helpen. Intel besteedt hier zelf echter zo weinig aandacht aan, dat we vermoeden dat het niets spectaculairs is.

Blackford-chipset

Behalve het feit dat de Netburst-filosofie een doodlopend pad bleek te zijn, kampten Intels serverprocessors ook met een ander probleem: een schrijnend tekort aan bandbreedte. De E7520 'Lindenhurst'-chipset - tot voor kort het topmodel voor twee sockets - had maar één 800MHz bus, wat betekende dat er in een machine met dualcores maar 1,6GB/s per core beschikbaar was. Ongeveer twee maanden voor Woodcrest werd aangekondigd verbeterde Intel die situatie aanzienlijk met de introductie van de Blackford-chipset. Met zijn dubbele bus en vier geheugenkanalen leverde zelfs de eerste versie al 4,3GB/s per core. Voor de Woodcrest werd de kraan echter nog iets verder opengedraaid door de busfrequentie op te hogen van 1066MHz naar 1333MHz. Dit betekent dat iedere core vandaag ruim drie keer zoveel bandbreedte tot zijn beschikking heeft als aan het begin van dit jaar het geval was.

PaxvilleDempseyWoodcrestSocket 940Socket F
Busfrequentie800MHz1066MHz1333MHz--
Aantal bussen122--
Busbandbreedte6,4GB/s17,1GB/s21,3GBs--
GeheugenDDR2FBDFBDDDRDDR2
Aantal kanalen24444
Frequentie400MHz533MHz667MHz400MHz667MHz
Geheugenbandbreedte6,4GB/s17,1GB/s21,3GB/s12,8GB/s21,3GB/s
Bandbreedte per core1,6GB/s4,3GB/s5,3GB/s3,2GB/s5,3GB/s

In de tabel is te zien dat Woodcrest en Socket F in theorie evenveel geheugenbandbreedte hebben. Toch zullen er in de praktijk verschillen zijn in de effectief beschikbare hoeveelheid. De Opterons hebben een decentrale architectuur (NUMA) wat betekent dat iedere processor twee kanalen voor zichzelf heeft en de rest van het geheugen alleen via zijn buurman kan benaderen. De onderlinge communicatie gebeurt met een HyperTransport-link die in iedere richting 4GB/s kan leveren. Als de chip - in een ongunstig geval - alleen maar data nodig heeft die zich 'aan de andere kant' bevindt is de effectieve bandbreedte per core dus nog maar 2GB/s. Om die reden is het belangrijk dat operating systemen ervoor zorgen dat threads zodanig worden verdeeld dat ze dichtbij hun data draaien, iets wat niet altijd even makkelijk is.

Ook het systeem van Intel kent overigens een valkuil. In systeem met meerdere sockets is het van wezenlijk belang dat de caches van de processors synchroon blijven met elkaar. Het mag immers niet voorkomen dat een core een berekening uitvoert met data uit het cache die ondertussen door een andere core gewijzigd is. Er zijn verschillende manieren om deze zogeheten 'cache coherentie' te bewaken, maar alle vereisen communicatie tussen de cores onderling. Bij AMD verloopt deze communicatie via HyperTransport en is er dus geen nadelig effect voor de (lokale) geheugenbandbreedte. Intel verstuurt deze data echter over de bus, waardoor niet de volle capaciteit gebruikt kan worden voor het geheugen.

Intel 5000P Blackford chipset
De 5000P 'Blackford' chipset

Woodcrest verlicht de last van het coherentieverkeer overigens wel aanzienlijk ten opzichte van Paxville en Dempsey door twee cores één cache te laten delen. Hierdoor is het niet meer noodzakelijk om de bus te belasten voor onderlinge communicatie binnen één socket. Met de komst van quadcore 'Clovertown' - die wordt opgebouwd uit twee dualcores - zullen de twee chips in hetzelfde socket waarschijnlijk wel weer over de bus moeten gaan om elkaar te bereiken, maar de chipset kan dan in ieder geval voorkomen dat de processor in het andere socket daarop moet wachten.

Er zijn twee verschillende versies van Blackford, 5000P en 5000V. Laatstgenoemde is een iets goedkopere versie die beperkt is in zijn maximale geheugencapaciteit en -features. Hij ondersteunt twee kanalen met een maximum van 32GB, in plaats van vier kanalen en 64GB. Het zogenaamde 'memory mirroring' - waarbij data dubbel wordt opgeslagen om fouten op te kunnen merken - wordt wel door 5000P maar niet door 5000V ondersteund. Beide hebben wel 'memory RAID', een feature die eveneens gegevens dupliceert op verschillende plaatsen, maar dan met het doel om ze te kunnen herstellen in het geval dat er een chip of module uitvalt. Tot slot is er nog een derde chipset, de 5000X 'Greencreek'. De specificaties hiervan zijn grotendeels identiek aan die van 5000P, maar hij heeft een PCI Express x16-slot om er een fatsoenlijke videokaart in te kunnen prikken en een voor workstations geoptimaliseerde geheugencontroller. Deze biedt een iets hogere bandbreedte in ruil voor een iets hogere latency.

DDR2 vs. FB-DIMM

De Blackford- en Greencreek-chipsets zijn de eerste die gebruikmaken van een nieuw type geheugenmodule dat is bedacht door een grote groep bedrijven, aangevoerd door Intel en IBM. In tegenstelling tot een normale DIMM gebuikt een zogeheten FB-DIMM geen parallelle bus om data over te sturen, maar een seriële p2p-verbinding. Eén van de voornaamste redenen hiervoor is dat het moeilijk is gebleken om een parallelle bus op te schalen naar hoge snelheden en grote aantallen modules. Met DDR2 kunnen er bijvoorbeeld nog vier repen per kanaal geplaatst worden op 400MHz en 533MHz, maar niet meer dan twee per kanaal op 667MHz en 800MHz. Voorspeld wordt dat volgend jaar met DDR3 het punt bereikt zal worden waarop nog maar één reep per kanaal geplaatst kan worden. Vooral voor servers is dat geen prettige situatie, omdat de maximale capaciteit erdoor beperkt wordt en er duurdere modules nodig zijn om een bepaald aantal gigabytes te halen. FB-DIMM ondersteunt een comfortabele acht modules per kanaal en maakt dus korte metten met dit probleem.

Een tweede voordeel van deze techniek is dat de controller niet meer rechtstreeks met de geheugenchips praat, maar alleen nog met de bufferchip (AMB - Advanced Memory Buffer). Dit betekent dat de geheugencontroller geen weet meer hoeft hebben van het soort chips dat aan de andere kant van de buffer gebruikt wordt. Op dit moment gebruikt al het beschikbare FBD-geheugen DDR2-chips, maar in de toekomst kan dat pijnloos vervangen worden voor een ander soort, zoals bijvoorbeeld DDR3 of iets exotischers als XDR. Hiervoor zijn dus niet langer nieuwe moederborden of sockets nodig.

Een derde motivatie om over te stappen is dat FB-DIMM op het moederbord maar 69 sporen per kanaal gebruikt. Voor een gewoon DDR2-kanaal zijn 240 sporen nodig, die tot frustratie van ontwerpers van moederborden ook nog eens (bijna) precies even lang moeten zijn. Wie zijn computer openmaakt en het stuk tussen processor en de geheugenbanken bekijkt zal vaak zien dat bepaalde banen rare kronkels maken, bedoeld om het signaal te vertragen. Bij FB-DIMM compenseert de chipset voor verschillen in lengte, en gecombineerd met het kleine aantal sporen betekent dat in de praktijk dat er twee tot drie keer zoveel kanalen aangelegd kunnen worden met gelijke of minder complexiteit.

FB-DIMM
Links: één kanaal DDR2, exclusief stroom | Rechts: twee kanalen FB-DIMM, inclusief stroom

Het laatste punt wat men heeft aangepakt is de betrouwbaarheid: in plaats van alleen ECC-foutcorrectie toe te passen op de data gebeurt dat nu ook op adressen en opdrachten. Verder kan een transactie in het geval er een fout optreedt automatisch opnieuw geprobeerd worden, zonder direct paniek te veroorzaken bij de processor of het besturingssysteem. Daarnaast wordt hotswapping ondersteund en kunnen datapaden die onbetrouwbaar blijken te zijn uitgeschakeld worden, waardoor de bandbreedte afneemt maar het systeem wel in de lucht blijft.

Niet alles aan FB-DIMM is positief: een duidelijk nadeel van de techniek is bijvoorbeeld de hogere latency. Er komt natuurlijk sowieso een buffer als extra stap tussen de processor en het geheugen te zitten, maar het ergste is dat de controller alleen maar een rechtstreekse verbinding heeft met de eerste reep op het kanaal. De rest van de modules is alleen via-via bereikbaar, waarbij voor iedere stap gerekend moet worden op een vertraging van 3 tot 5 nanoseconden (2 à 3 cycles). Tegen de tijd dat de achtste reep op een kanaal bereikt wordt is er vanuit de processor gezien dus al een kleine eeuwigheid voorbij gegaan. De NUMA-architectuur van de Opteron heeft een zelfde soort probleem als er data moet worden opgevraagd uit een module die is gekoppeld aan het andere socket: in dat geval moet er 30 nanoseconde (ongeveer 20 cycles voor DDR2-667) bij de toegangstijd worden opgeteld.

Voor de Xeon DP gaan de meeste fabrikanten overigens meer in de breedte dan in de diepte. De populairste configuratie voor Blackford-servers is vier kanalen met ieder twee of drie repen, dus het extreme geval van acht per kanaal is in de praktijk nog niet verschenen. Onder zware belasting wordt het nadelige effect van de hogere latency per transactie ook weer gecompenseerd door het feit dat er meerdere acties simultaan uitgevoerd kunnen worden. Zo kan er tegelijkertijd gelezen en geschreven worden en kunnen er per kloktik opdrachten naar drie verschillende repen per kanaal verstuurd worden. Hierdoor kan de gemiddelde latency onder zware belasting weer lager worden dan die van DDR2, maar dat zal lang niet voor alle toepassingen het geval zijn.

FB-DIMM buffers

Een ander nadeel van de buffer is dat deze het aardig druk kan krijgen: met een effectieve transmissiesnelheid van 3,2GHz (PC2-4200F) of 4,0GHz (PC2-5300F) in twee verschillende richtingen zal het voor weinig mensen nog een verrassing zijn dat het stroomverbruik van de reep er aanzienlijk door stijgt. Uit onze metingen blijkt er voor iedere extra (533MHz) module ongeveer 7,6 watt uit het stopcontact wordt getrokken, ongeacht het niveau van belasting. De 1GB DDR2-667-modules van onze Socket F Opteron hadden daarentegen idle 1,9 watt en onder belasting 2,4 watt nodig, waardoor we kunnen stellen dat iedere FB-DIMM ruim 5 watt aan het totale verbruik van de server toevoegt, wat voor een totaal van acht repen toch een dikke 40 watt is.

Verwacht wordt wel dat naar mate men meer ervaring krijgt met het ontwerp en de productie van de buffers het stroomverbruik ervan omlaag zal gaan, maar aan de andere kant zal de frequentie ook omhoog moeten om snellere geheugensmaken te ondersteunen, waardoor het altijd een strijd zal blijven. De geheugencontroller lijkt in ieder geval niet meer zo heel veel stroom te gebruiken nu de bufferchips een hoop functies overnemen. Het maximum verbruik van de 5000P-chipset met vier kanalen wordt op 30 watt gespecificieerd, maar ieder actief kanaal voegt slechts 1,75 watt toe, waardoor het erop lijkt dat een groot deel van de verbruik van de northbridge in andere functies zit.

Testplatform: Woodcrest en Dempsey

Om Woodcrest en Dempsey aan de tand te kunnen voelen mochten we van Fujitsu-Siemens een Primergy RX300 S3 lenen, een 19"/2U rackmount server die volgens de marketing van het bedrijf geschikt is voor 'veeleisende taken op het gebied van ERP- en e-commerce'. Het moederbord is gebaseerd op de 5000P-chipset en is voorzien van twee LGA771-sockets voor Dempsey of Woodcrest, acht geheugenbanken, één keer PCI Express x8, twee keer PCI Express x4 en twee keer 133MHz PCI-X. Standaard treffen we verder een achtpoorts SAS-controller aan die ondersteuning biedt voor RAID-levels 0 en 1. Optioneel kan deze worden uitgebreid met 256MB cache en ondersteuning voor de RAID-levels 5, 10 en 50. Tot het basisgereedschap behoren verder een IDE-connector voor een eventuele dvd/cd-drive en dual gigabit ethernet. In de behuizing is ruimte gemaakt voor twee 600 watt voedingen, zes harde schijven, acht koelers, een optische drive en een diskettestation. Besturingssystemen die worden ondersteund zijn Windows Server, VMware ESX Server, Suse Enterprise Server en RedHat Enterprise Linux. Uitgebreide specificaties zijn hier te downloaden.

Fujitsu-Siemens Primergy RX300 S3 - Overzicht
Fujitsu-Siemens Primergy RX300 S3 - Hotswap fans
Fujitsu-Siemens Primergy RX300 S3 - Heatsinks en FB-DIMM-slots
Fujitsu-Siemens Primergy RX300 S3 - PCI-slots en luchtgeleiders

Net als de machines van Sun die we eerder onder de loep namen kan de Fujitsu-machine op afstand beheerd worden met behulp van een ingebouwde webapplicatie die RemoteView heet. Hiermee kan uitgebreide informatie over de hardware worden bekeken, en kunnen er op verschillende manieren waarschuwingen worden verstuurd als er iets mis dreigt te gaan.

RemoteView screenshot (klein)
Klik op de screenshot voor een grotere versies. Meer plaatjes zijn hier te vinden.

Bij onze machine kregen we vier Xeon-processors, twee van het type 5080 en twee van het type 5150. Hoewel de modelnummers niet zo gek ver uit elkaar liggen is het verschil in specificaties toch bijna als dag en nacht: de eerste is het topmodel uit de oude stal en de tweede het op een na snelste product uit de nieuwe serie. De Woodcrests bleken overigens samples te zijn van de B1-stepping in plaats van de commercieel beschikbare revisie B2, maar het is niet te verwachten dat deze merkbaar beter of slechter is.

Xeon50805150
CodenaamDempseyWoodcrest
ArchitectuurNetburstCore
Transistors374 miljoen291 miljoen
Die-size161mm²143mm²
SteppingC1B1
Kloksnelheid3,73GHz2,66GHz
Bus1066MHz1333MHz
L2-cache2x2MB4MB
TDP130W65W
Prijs$851$690

Voor beide processors is hetzelfde geheugen gebruikt: volledig gebufferd DDR2-533 met een CAS-latency van vier tikken (PC2-4200F CL4). We gebruikten in totaal acht repen - zes keer 1GB en twee keer 512MB - voor een totale capaciteit van 7GB.

Testplatform: Socket F en overigen

De resultaten van de Opteron met DDR2 die in deze review gebruikt worden zijn dezelfde als al eerder in een artikel werden gepubliceerd. Ze zijn verkregen met een MSI K9SD Master-A8R en twee dualcore Socket F Opterons-processors op 2,4GHz. De plank gebruikt een chipset van Serverworks en ondersteunt één keer PCI Express x8, één keer 133MHz PCI-X en één keer gewoon PCI. Een vierde slot kan door de klant zelf gekozen worden: afhankelijk van de gebruikte riserkaart verandert het in een extra PCI Express x8-aansluiting of een HTX-aansluiting (HyperTransport).

Aan boord vinden we twee keer gigabit ethernet en acht keer SATA (vier van de Serverworks-chipset met ondersteuning voor RAID 0 en 1, en vier van een Adaptec AIC-8130 die ingesteld kan worden op RAID 0, 1 en 10). Een geïntegreerde ATi Radeon Mobility zorgt voor de videobeelden. Het bord valt echter vooral op door zijn ruime aantal geheugenslots, zestien stuks in totaal. Vanwege stabiliteitsproblemen met onze - pre-productie - hardware lukte het helaas niet om meer dan vier repen aan de praat te krijgen. Uiteindelijk is er dus getest met slechts 4GB RAM, minder dan de rest van de systemen tot hun beschikking hadden. Uit de weinige resultaten die we wel met de Socket F-opstelling met 8GB konden krijgen kunnen we concluderen dat het prestatieverlies veroorzaakt door de lagere geheugencapaciteit rond de twee procent ligt, iets om rekening mee te houden tijdens het bekijken van de grafieken.

MSI S-K9SD Master-A8R Socket F-moederbord

MSI S-K9SD Master-A8R moederbord: Socket F Opteron

MSI S-K9SD Master-A8R moederbord: Socket F Opteron

Naast de Socket F-plank zullen we in dit artikel ook resultaten van twee andere bekende gezichten tegenkomen, namelijk de Sun X4200 en T2000 uit onze UltraSparc T1 vs. Opteron review. Voor de volledigheid zetten we hier nog even alle specificaties op een rijtje:

MerkIntelIntelAMDAMDSun
ProcessorXeonXeonOpteronOpteronUltraSparc
Model508051502216280T1
CodenaamDempseyWoodcrestSanta RosaItalyNiagara
ArchitectuurNetburstCoreK8K8Sparc
Kloksnelheid3,73GHz2,66GHz2,4GHz2,4GHz1,0GHz
Socket type771 (J)771 (J)1207 (F)9401933
Bus1066MHz1333MHz---
L2-cache2x2MB4MB2x1MB2x1MB3MB
TDP130W65W95W95W79W
Prijs$851$690$698$851-
ServermerkFujitsuFujitsuMSISunSun
ServertypeRX300 S3RX300 S3K9SD MasterFire X4200Fire T2000
Hoogte2U2U-2U2U
Aantal sockets22221
Aantal cores44448
GeheugentypeFBDFBDDDR2DDRDDR2
Kanalen44444
Frequentie533MHz533MHz667MHz400MHz533MHz
CAS (cycles)44534
CAS (nanoseconden)7,57,57,57,57,5
Capaciteit7GB7GB4GB8GB16GB
BesturingssysteemLinux 2.6Linux 2.6Linux 2.6Linux 2.6Solaris 10
OpslagcontrollerArecaArecaArecaArecaLSI
TypeARC-1120ARC-1120ARC-1120ARC-1120SAS1064
Cache128MB128MB128MB128MB-
InterfacePCI-XPCI-XPCI-XPCI-XPCI-X
SchijvenRaptor 73GBRaptor 73GBRaptor 73GBRaptor 73GBSAS 73GB
Aantal disks22222
RAIDJBODJBODJBODJBODJBOD

Benchmarkbeschrijving

Het doel van onze benchmark is het simuleren van de belasting die Tweakers.net (exclusief forum) onder normale omstandigheden veroorzaakt op de database. De productieversie - degene die net heeft geholpen tijdens het bakken van deze pagina - draait een MySQL 4.0-installatie met bijna tweehonderd tabellen, die sterk variëren in grootte (van enkele kilobytes tot enkele gigabytes) en mate van activiteit. De database draait op een toegewijd systeem en krijgt zijn opdrachten toegeworpen vanuit een loadbalanced cluster van webservers. Deze scheiding van data en (web)applicatie is een klassiek 'two-tier' patroon.

De webservers zijn voorzien van PHP 4.4 en maken gebruik van de standaard MySQL-bibliotheken. Afhankelijk van welke pagina er door een bezoeker wordt opgevraagd zal deze verschillende queries op de database afschieten, waarvan de complexiteit sterk uiteenloopt. Sommige opdrachten werken op een enkele tabel, andere op vier of meer. De WHERE-clausules zijn doorgaans echter vrij kort; in de meeste gevallen wordt er alleen gefilterd op een bepaalde key (zoals het nummer van een nieuwsbericht of product). In enkele gevallen wordt er ook nog gesorteerd of gepagineerd.

In de benchmark is doelbewust het reguliere onderhoudswerk weggelaten, enerzijds om de tijdsduur van de test te beperken en anderzijds om het aantal schrijfoperaties (UPDATE, DELETE en INSERT) te minimaliseren, zodat het opslagsysteem geen belangrijke invloed heeft op de prestaties. Het actieve deel van de database is enkele gigabytes groot, waardoor systemen met 4GB tot 8GB de volledige werkset in het geheugen kunnen houden, en er zelfs met 2GB nog weinig schijfactiviteit is. De nadruk komt hierdoor echt te liggen op de processors en het geheugen. Een ander verschil met de productieomgeving is dat er tijdens de test hele series van requests in één batch worden uitgevoerd, terwijl er normaal voor iedere pagina een nieuwe verbinding met de database gelegd zou worden. Door deze stap weg te snijden kunnen we de database zwaarder en beter gecontroleerd belasten.

Fujitsu-Siemens Primergy RX300 S3 - FB-DIMMs

De testdatabase is een back-up van de productiedatabase die ongewijzigd is ingeladen in MySQL 4.1.20 en 5.0.20a. Eveneens is hij geïmporteerd in een cvs-versie van PostgreSQL 8.2, die voor zover wij hebben kunnen ondervinden volledig stabiel is. Voor laatstgenoemde zijn enkele indices verplaatst om betere prestaties te krijgen en waren kleine wijzigingen van datatypes nodig. De testopstelling bestaat - naast de server die op dat moment onder vuur wordt genomen - uit drie machines. Twee webservers van Appro (dual Xeon 2,4GHz met 1GB geheugen) om de requests te genereren en een derde machine om de resultaten weg te schrijven. Alles is aan elkaar geknoopt met gigabit ethernet.

Een 'bezoeker' bestaat in onze test uit een serie van pageviews die worden afgehandeld door Apache 2.2 en PHP 4.4. Gemiddeld bestaat een serie requests uit ongeveer 115 stuks; de variatie zit hem in het feit dat er met een bepaalde kans een reactie wordt gegeven of prijs wordt ingevoerd. Om precies te zijn vraagt iedere 'bezoeker' de volgende pagina's op, waarbij tenzij anders vermeld willekeurig wordt gekozen:

AantalOmschrijving
34Standaard frontpage
1Dynamische frontpage (abonneefunctie)
18Meest recente nieuwsberichten
7Willekeurige nieuwsberichten
2Reviews
13Categorie-overzichten Pricewatch
14Prijsoverzichten Pricewatch
2Advertenties (V&A)
2Productsurveys
6Meuktracker-updates
14XML-feeds
5% kansNieuwe prijs invoeren
2,5% kansReactie posten bij het meest recente bericht

Hoewel dit patroon niet helemaal natuurgetrouw is, denken we dat het wel een acceptabele benadering van de realiteit is, en in ieder geval één die zwaar en gevarieerd genoeg is om de database te laten zweten. De requests worden volledig willekeurig door elkaar gehusseld om een onvoorspelbaar patroon te krijgen en vervolgens afgevuurd. Er wordt zo min mogelijk gedaan met de antwoorden die ontvangen worden, om te voorkomen dat de webservers een bottleneck gaan vormen. Het uiteindelijke resultaat is het aantal pageviews dat in precies tien minuten tijd uitgevoerd wordt (gemeten door Apache-bench). Hoewel niet iedere pagina hetzelfde is, worden er zelfs tijdens de allertraagste runs nog ruim tienduizend opgevraagd, waardoor we ons statistisch gezien behoorlijk veilig kunnen voelen over de vergelijkbaarheid van de resultaten.

Tijdens een complete sessie worden runs uitgevoerd met een wisselend aantal gelijktijdige bezoekers, oplopend van één tot honderd stuks. Iedere webserver simuleert daarbij de helft van de bezoekers. Het startschot wordt steeds gegeven vanaf de databasemachine zelf, om zo precies de begin- en eindtijd te kunnen registeren. Het wordt overwogen om dit in de toekomst vanaf een apart controlesysteem te gaan doen, maar naar verwachting heeft dat nauwelijks invloed op de resultaten. Iedere sessie wordt afgetrapt door een (niet meetellende) opwarmronde met 25 gelijktijdige bezoekers om het geheugen en caches alvast te vullen. De eerste run wordt hierdoor niet onnodig benadeeld. Na iedere run wordt de database weer opgeschoond door de nieuw ingevoerde reacties en prijzen weer te verwijderen, en in het geval van PostgreSQL een 'vacuum'-commando te geven. Daarna krijgt de machine dertig seconden rust om zich voor te bereiden op de volgende aanval.

Invloed HyperThreading

HyperThreading is altijd al een enigszins omstreden feature geweest, omdat het theoretische voordeel ervan alleen bereikt kan worden door een aantal praktische nadelen te ontwijken, waar niet iedere applicatie even goed in slaagt. In ons eerste artikel moesten we concluderen dat MySQL en virtuele cores geen goede combinatie was, maar de precieze technische reden daarvan was niet duidelijk. Omdat Blackford toch een drastische herziening van het platform is en Dempsey - hoewel nog steeds gebaseerd op Netburst - wel veel sneller is, hebben we voor dit artikel nogmaals onderzocht of HyperThreading nuttig kan zijn voor onze situatie.

De resultaten zijn dit keer niet consequent. Voor MySQL lijkt de feature in eerste instantie wel winst op te leveren: zolang er één of twee cores worden gebruikt zijn de prestaties gemiddeld meer dan 10% beter, geen onaardig resultaat. Er ontstaan echter problemen als er met vier cores gewerkt wordt: versie 4.1.20 verliest dan gemiddeld 7% en 5.0.20a gaat zelfs meer dan 20% trager draaien als HyperThreading aan staat.

Woodcrest review - MySQL 4.1 HyperThreading
Woodcrest review - MySQL 5.0 HyperThreading

PostgreSQL is een heel ander verhaal. Het pakket had in ons eerdere artikel over de Sun UltraSparc T1 al bewezen beter op te schalen dan MySQL, maar nu blijkt ook dat het geen enkel probleem heeft met HyperThreading. Gemiddeld over belastingen van 25 gelijktijdige bezoekers en meer presteert het ruim 8% beter als de feature wordt ingeschakeld.

Woodcrest review - PostgreSQL 8.2 HyperThreading

Normaalgesproken houden we tijdens het testen het liefst zo veel mogelijk instellingen gelijk, maar de uiteenlopende resultaten van HyperThreading waren te groot om te negeren. Om die reden hebben we ervoor gekozen om in de rest van dit artikel de MySQL-benchmarks zonder HyperThreading te tonen en PostgreSQL-benchmarks met HyperThreading. We gaan er van uit dat een competente serverbeheerder voor zichzelf zou testen of het inschakelen zinvol is voor zijn applicatie(s), en kiezen voor onze benchmarks dus ook de beste optie.

Opteron vs. Dempsey

Het eerste waar we naar willen kijken is hoe Xeon Dempsey het doet tegenover de Opteron. Hierdoor kunnen we namelijk een goed beeld krijgen van hoe de oude Netburst-architectuur zich gewapend met een goede chipset houdt tegenover de concurrentie. Dat blijkt nog steeds niet zo heel goed te zijn: de 2,4GHz Opteron is onder zware belasting gemiddeld 12% sneller dan de 3,73GHz Demspey in MySQL 4.1.20. In MySQL 5.0.20a is het verschil iets kleiner, maar 9% is natuurlijk nog steeds een onmiskenbare overwinning voor AMD. Toch is de voorsprong van de Opteron lang niet meer zo groot als in het begin van dit jaar, toen de oude Xeon 'Paxville' in combinatie met de Lindenhurst-chipset de enige concurrent was. De bijna drievoudige bandbreedte van Blackford doet dus zelfs zonder Woodcrest een hoop goed: het levert nog niet direct een overwinning op, maar men hoeft zich in ieder geval een stuk minder te schamen.

Woodcrest review - MySQL 4.1 - Dempsey vs. Socket F
Woodcrest review - MySQL 5.0 - Dempsey vs. Socket F

In PostgreSQL zet Dempsey een ruime overwinning tegenover de Opteron. De reden hiervoor lijkt - buiten de ruim 1,3GHz hogere klok van de Xeon - voornamelijk een goede benutting van HyperThreading te zijn: met ieder één core ingeschakeld liggen de prestaties van de twee nog dicht bij elkaar, maar tijdens de stappen naar twee en vier cores wint de Xeon duidelijk meer terrein dan de Opteron. Uiteindelijk is het Intel-systeem onder zware belasting maar liefst 22% procent sneller dan het AMD-systeem.

Woodcrest review - PostgreSQL 8.2 - Dempsey vs. Socket F

Al met al zet Dempsey een redelijk resultaat neer, maar het moet in acht worden genomen dat het hier gaat om een vergelijking tussen de snelste Dempsey en een subtop Opteron, waarbij de AMD-chip met 4GB extra geheugen ook nog iets beter had kunnen scoren. Intels nieuwe chipset maakt een einde aan de beschamende achterstand die we aan het begin van dit jaar moesten constateren, maar in combinatie met de Netburst-Xeon kunnen we ook nog niet van een (overtuigende) voorsprong spreken.

Woodcrest vs. Dempsey

Blackford heeft een solide basis gelegd in combinatie met Demspey, dus nu het is tijd om te kijken wat Woodcrest nog als extra te bieden heeft. Dat blijkt niet kinderachtig te zijn: onder zware belasting doet hij het gemiddeld 39% beter in MySQL 4.1.20 en 42% beter in MySQL 5.0.20a. Het is simpelweg geen eerlijke strijd meer: twee Woodcrest-cores op 2,66GHz verslaan vier Dempsey-cores op 3,73GHz met een vinger in hun neus. Wel zijn we enigszins teleurgesteld in het schaalgedrag van de nieuwe architectuur, want de stap van twee naar vier cores levert niet meer dan 15% betere prestaties op. Hoewel MySQL in het algemeen niet zo goed op wil schalen zit Woodcrest relatief gezien nog steeds aan de lage kant. Mogelijk kan dit worden opgelost door sneller geheugen te gebruiken: voor Woodcrest zijn namelijk dezelfde 533MHz-repen gebruikt als voor Dempsey, terwijl 667MHz-repen een kwart meer bandbreedte zouden bieden en - wellicht belangrijker - synchroon zouden lopen met de 1333MHz bus.

Woodcrest review - MySQL 4.1 - Dempsey vs. Woodcrest
Woodcrest review - MySQL 5.0 - Dempsey vs. Woodcrest

In PostgreSQL zette Dempsey al goede cijfers neer, en Woodcrest weet deze niet ver meer te overtreffen. Toch is het resultaat niet slecht, want ondanks het feit dat Woodcrest geen HyperThreading heeft (iets waar de Dempsey wel 8% voordeel uit haalt) scoort hij gemiddeld nog steeds 11% hoger. Bovendien heeft de nieuwe Xeon nog iets meer speelruimte: onze 2,66GHz-versie van Woodcrest is niet het topmodel, terwijl de 3,73GHz Dempsey wel (prijs)lijstaanvoerder is van de Netburst-partij. Ook hier zou sneller geheugen wellicht nog betere cijfers op kunnen leveren.

Woodcrest review - PostgreSQL 8.2 - Dempsey vs. Woodcrest

Woodcrest vs. Opteron

De uiteindelijk confrontatie tussen de Opteron en Woodcrest was in dit artikel onvermijdelijk, maar wie één en één kan optellen had na de vorige twee pagina's al kunnen weten dat het er niet heel goed uit zou zien voor AMD. Onder belastingen van 25 tot en met 100 gelijktijdige bezoekers presteert de Xeon gemiddeld 24% beter in MySQL 4.1.20, 30% beter in MySQL 5.0.20a en 37% beter in PostgreSQL 8.2-dev. Kort samengevat maakt de Socket F Opteron geen schijn van kans: hoewel hij wel beter opschaalt heeft Woodcrest een dusdanig hoog startpunt met één core, dat er van inhalen geen sprake is. We kunnen ons voorstellen dat de Opteron met meer geheugen en productiehardware een aantal procenten sneller zou zijn, maar het verschil met Woodcrest is zo groot dat we ons moeilijk kunnen voorstellen dat dit het totaalplaatje nog drastisch zou veranderen.

Woodcrest review - MySQL 4.1 - Woodcrest vs. Socket F
Woodcrest review - MySQL 5.0 - Woodcrest vs. Socket F
Woodcrest review - PostgreSQL 8.2 - Woodcrest vs. Socket F

Samenvatting resultaten (prestaties)

De samenvatting van de testresultaten is gebaseerd op de gemiddelden van cijfers verkregen onder zware belastingen (van 25 tot en met 100 gelijktijdige gebruikers). De reden om de lichtere belastingen weg te laten is om ieder systeem de kans te geven om zijn maximale potentiëel te bereiken en de verschillen dus beter zichtbaar te maken dan wanneer ook de 'opstartfase' zou worden meegenomen. De getallen zijn niet langer pageviews per seconde zoals in de grafieken op voorgaande pagina's, maar het totaal wat tijdens een volledige run van tien minuten is gehaald.

Gemiddelde prestaties MySQL 4.1.20 - concurrency 25+
[*] Woodcrest 201337
Opteron (DDR) 179714
Opteron (DDR2) 162609
Dempsey 145327
Dempsey-HT 135615
UltraSparc T1 92125
Gemiddelde prestaties MySQL 5.0.20a - concurrency 25+
[*] Woodcrest 217675
Opteron (DDR) 178866
Opteron (DDR2) 167101
Dempsey 153747
Dempsey-HT 121594
UltraSparc T1 53997
Gemiddelde prestaties PostgreSQL 8.2-dev - concurrency 25+
[*] Woodcrest 295083
Dempsey-HT 264699
Dempsey 241023
Opteron (DDR) 219639
Opteron (DDR2) 216108
UltraSparc T1 177907

In de volgende tabellen worden de relatieve prestaties van Woodcrest, Dempsey en Socket F weergegeven. Deze zijn gebaseerd op dezelfde cijfers als de tabellen hierboven en moeten gezien worden als een procentuele benadering van de prestaties van één processor ten opzichte van de rest. Het getal 1,39 hieronder in de eerste tabel betekent bijvoorbeeld dat Woodcrest 1,39 keer de prestaties biedt van Dempsey in MySQL 4.1.20, ofwel dat hij 39% sneller is.

WoodcrestMySQL 4.1.20MySQL 5.0.20aPostgreSQL 8.2-devGemiddeld
Dempsey1,391,421,111,31
Opteron (DDR)1,121,221,341,23
Opteron (DDR2)1,241,301,371,30
UltraSparc T12,194,031,662,63
DempseyMySQL 4.1.20MySQL 5.0.20aPostgreSQL 8.2-devGemiddeld
Woodcrest0,720,710,900,78
Opteron (DDR)0,810,861,210,96
Opteron (DDR2)0,890,921,221,01
UltraSparc T11,582,851,491,97
Socket FMySQL 4.1.20MySQL 5.0.20aPostgreSQL 8.2-devGemiddeld
Woodcrest0,810,770,730,77
Dempsey1,121,090,821,01
Opteron (DDR)0,90,930,980,94
UltraSparc T11,773,091,212,02

Als bonus kijken we nog even naar de gemiddelde prestaties per database. PostgreSQL zet - voornamelijk dankzij zijn betere schaalgedrag - ruim 50% hogere scores neer dan MySQL. De piekprestaties van de twee pakketten liggen dichter bij elkaar dan onderstaande grafiek suggereert, maar omdat de prestaties van MySQL na het hoogtepunt afzakken terwijl die van PostgreSQL ongeveer op hetzelfde niveau blijven wordt het verschil met 25+ gelijktijdige bezoekers een stuk groter. Om het gemiddelde te berekenen zijn alleen de hoogste scores van Dempsey meegenomen, voor MySQL 4.1 en 5.0 dus zònder en voor PostgreSQL mèt HyperThreading.

Gemiddelde prestaties per database
PostgreSQL 8.2-dev 234687
MySQL 4.1.20 156222
MySQL 5.0.20a 154277

Samenvatting resultaten (schaalgedrag)

Naast absolute prestaties kan het interessant zijn om te kijken naar het schaalgedrag van verschillende processors, dat wil zeggen de winst die te halen valt met het toevoegen van extra cores. We keken weer alleen naar de zware belastingen, omdat de extra rekenkracht daar het meest tot zijn recht komt. De prestaties met 1 en 4 cores zijn natuurlijk maar op één manier te meten, maar voor de prestaties van 2 cores zijn er twee opties: òf van beide processors één core gebruiken, of maar één processor gebruiken. Ondanks de ogenschijnlijk grote invloed die dit heeft op de toegang tot het geheugen (Opteron) en de hoeveelheid cache per core (Woodcrest) blijkt het verschil in prestaties maar klein te zijn. Toch moet er een keuze gemaakt worden, en daarom hebben we hier - overigens net als op alle voorgaande pagina's - steeds voor het beste resultaat van de twee gekozen.

Woodcrest review - effect cores
Schaalgedrag Woodcrest
MySQL 4.1.20 (1 naar 2 cores) 47%
MySQL 4.1.20 (2 naar 4 cores) 15%
MySQL 5.0.20a (1 naar 2 cores) 34%
MySQL 5.0.20a (2 naar 4 cores) 14%
PostgreSQL 8.2-dev (1 naar 2 cores) 84%
PostgreSQL 8.2-dev (2 naar 4 cores) 82%
Schaalgedrag Dempsey*
MySQL 4.1.20 (1 naar 2 cores) 42%
MySQL 4.1.20 (2 naar 4 cores) 19%
MySQL 5.0.20a (1 naar 2 cores) 44%
MySQL 5.0.20a (2 naar 4 cores) 21%
PostgreSQL 8.2-dev (1 naar 2 cores) 95%
PostgreSQL 8.2-dev (2 naar 4 cores) 88%
Schaalgedrag Socket F
MySQL 4.1.20 (1 naar 2 cores) 48%
MySQL 4.1.20 (2 naar 4 cores) 25%
MySQL 5.0.20a (1 naar 2 cores) 44%
MySQL 5.0.20a (2 naar 4 cores) 21%
PostgreSQL 8.2-dev (1 naar 2 cores) 85%
PostgreSQL 8.2-dev (2 naar 4 cores) 80%
Schaalgedrag Socket 940
MySQL 4.1.20 (1 naar 2 cores) 50%
MySQL 4.1.20 (2 naar 4 cores) 28%
MySQL 5.0.20a (1 naar 2 cores) 45%
MySQL 5.0.20a (2 naar 4 cores) 23%
PostgreSQL 8.2-dev (1 naar 2 cores) 90%
PostgreSQL 8.2-dev (2 naar 4 cores) 81%

De verschillen zijn niet heel groot, maar toch wel degelijk aanwezig. Woodcrest toont zich met name in MySQL zwak ten opzichte van de Opterons. De prestatieverbetering die gehaald wordt met het verdubbelen van het aantal cores neemt bij alle geteste chips snel af, maar waar AMD tijdens de sprong van twee naar vier cores nog 21% tot 28% winst boekt, weet de nieuwe Xeon maximaal 15% betere prestaties te halen. Natuurlijk heeft Intel het voordeel van een sterkere core, maar voor de toekomst (quadcores en systemen met vier of meer sockets) zou dit toch een probleem kunnen worden.

Gemiddeld per processor*
Woodcrest (1 naar 2 cores) 55%
Woodcrest (2 naar 4 cores) 37%
Dempsey (1 naar 2 cores) 60%
Dempsey (2 naar 4 cores) 43%
Opteron (DDR) (1 naar 2 cores) 62%
Opteron (DDR) (2 naar 4 cores) 44%
Opteron (DDR2) (1 naar 2 cores) 62%
Opteron (DDR2) (2 naar 4 cores) 43%
Gemiddeld per database*
MySQL 4.1.20 (1 naar 2 cores) 48%
MySQL 4.1.20 (2 naar 4 cores) 22%
MySQL 5.0.20a (1 naar 2 cores) 43%
MySQL 5.0.20a (2 naar 4 cores) 21%
PostgreSQL 8.2-dev (1 naar 2 cores) 89%
PostgreSQL 8.2-dev (2 naar 4 cores) 83%
*) Bij alle Dempsey-resultaten is voor MySQL geen HyperThreading gebruikt en voor PostgreSQL wel

Stroomverbruik, prijzen en conclusie

Tot dusver hebben we vooral gekeken naar de prestaties, maar een veelgehoorde kreet dezer dagen is 'prestaties per watt'. We hebben metingen verricht op vier complete servers tijdens het draaien van de benchmark om te bepalen hoeveel vermogen ze onder belasting uit het stopcontact trokken. Het gaat daarbij dus niet om het absolute maximum, maar om het verbruik tijdens een realistisch zware belasting. Omdat we voor de Socket F Opteron alleen een los moederbord tot onze beschikking hebben (in plaats van een complete server zoals voor de rest van de processors) is die niet meegenomen in de vergelijking. De Socket 940-versie zou echter een aardig beeld moeten geven van hoe AMD-servers het in het algemeen doen. Waarschijnlijk zal de Socket F-versie door het gebruik van DDR2-geheugen minder stroom nodig hebben, maar dat wordt ook weer deels opgeheven door het feit dat hij iets minder goed presteert. De prestaties per watt zijn verkregen door naar het gemiddelde aantal pageviews per tien minuten onder de zware belastingen (van 25 tot 100 gebruikers) te kijken en dat te delen door het gemeten aantal watts.

Opgenomen vermogen onder belasting
Primergy RX300 S3 (Dempsey) 447
Fire X4200 (Opteron (DDR)) 341
[*] Primergy RX300 S3 (Woodcrest) 294
Fire T2000 (UltraSparc T1) 232
Prestaties/wattMySQL 4.1.20MySQL 5.0.20aPostgreSQL 8.2-dev
Woodcrest6857401004
Opteron (DDR)527524644
Dempsey325344592
UltraSparc T1397233766
Gemiddelde prestaties
[*] Woodcrest 238032
Opteron (DDR) 192740
Dempsey 187924
Opteron (DDR2) 181939
UltraSparc T1 108010
Gemiddelde prestaties per watt
[*] Woodcrest 810
Opteron (DDR) 565
UltraSparc T1 465
Dempsey 420

Gemiddeld biedt de nieuwe Xeon duidelijk de beste prestaties per watt, bijna 93% meer dan de op Netburst gebaseerde Dempsey, 43% meer dan de AMD Opteron en 74% meer dan de Sun UltraSparc T1. Hoewel deze cijfers niet representatief zijn voor alle verschillende servers en applicaties, kunnen we toch wel concluderen dat Woodcrest een erg zuinige chip is, die op systeemniveau nauwelijks last lijkt te ondervinden van zijn externe geheugencontroller en warmere FB-DIMM-repen. De gemiddelde prestatiewinst van 23% tot 31% boven zowel zijn concurrenten als voorganger maakt het geheel alleen maar extra indrukwekkend. Een andere factor die een rol speelt zijn de prijzen van de processors. Hoewel deze op het totaalbedrag van een complete server maar een klein onderdeel zijn, kunnen we door naar de prijslijst te kijken op zijn minst een idee krijgen van de positionering:

Socket F OpteronWoodcrestDempsey
3,0GHz (95W)$177
1,66GHz (65W)$209
1,8GHz (95W)$2551,86GHz (65W)$256
1,8GHz (68W)$3162,0GHz (65W)$3163,2GHz (130W)$316
2,0GHz (95W)$377 3,2GHz (95W)$369
2,0GHz (68W)$4502,33GHz (65W)$455
2,2GHz (95W)$523
2,2GHz (68W)$611
*2,4GHz (95W)$698*2,66GHz (65W)$690
2,4GHz (68W)$768
2,6GHz (95W)$8733,0GHz (80W)$851*3,73GHz (130W)$851
2,8GHz (120W)$1165

Ook hier ziet het er niet goed uit voor AMD. Voor iedere Opteron is er wel een gelijk of lager geprijsde Woodcrest te krijgen die sneller en/of zuiniger is. In deze test hebben we niet de topmodellen vergeleken, maar het is niet zo dat het ene merk meer speelruimte heeft dan het andere. Als we bijvoorbeeld één tree hoger gaan op de prijsladder wordt het verschil in kloksnelheid 400MHz in plaats van 266MHz. De 'special edition' Opteron op 2,8GHz komt dichter in de buurt van het topmodel Woodcrest, maar die is ook meteen 314 dollar duurder en komt als bonus met een hoger stroomverbruik.

Behalve de prijs van de processor is natuurlijk ook die van het geheugen belangrijk. Omdat er een extra component (de bufferchip) nodig is, ligt het voor de hand dat een FB-DIMM duurder is dan een gewone DIMM op dezelfde frequentie. De keuze voor een Woodcrest brengt dus een 'verborgen' extra kostenpost met zich mee. Het is echter moeilijk om precies te pijlen hoe groot het verschil is. In de pricewatch is een 1GB registered DDR2-667 te vinden vanaf 100 euro, terwijl voor een equivalente FB-DIMM bijna 160 euro neergeteld moet worden. Zelfbouwers die veel geheugen voor weinig geld willen hebben zullen de Opteron voorlopig dus nog steeds een interessante optie blijven vinden. Wie zaken doet met een van de grote fabrikanten loopt echter tegen een ander beeld aan. De bekende merken rekenen namelijk toch al woekerprijzen voor geheugen, of het nou DDR(2) of FB-DIMM is maakt daarbij niet zo veel uit. Bij IBM - de enige grote fabrikant die op het moment van publicatie DDR2-667 én FB-DIMM verkoopt - is de gebufferde smaak zelfs iets goedkoper. Ook Dell heeft een goede deal voor FB-DIMM in verhouding tot de DDR2-667-repen van IBM en Sun.

Prijzen voor 1GB geheugen
FabrikantRegistered DIMMFB-DIMM (667MHz)Verschil
Dell$190 (DDR2-400)$228,5020,3% up
IBM$255 (DDR2-667)$2492,4% up
HP$254,50 (DDR400)$274,507,9% up
Apple$315 (DDR2-533)$35011,1% up
Sun$247,50 (DDR2-667)--

Intel kan dankzij de introductie van Blackford en Woodcrest voorlopig weer even opgelucht ademhalen. Eindelijk is er voor servers met één of twee sockets een meer dan degelijke concurrent voor de Opteron, die het zowel op het gebied van prestaties, zuinigheid en prijs beter doet. Het geluk van AMD is dat Intels nieuwe architectuur voorlopig nog niet geschikt is voor vier sockets - het segment waarin de Opteron het diepst is binnengedrongen - want voor de rest lijken ze compleet verrast te zijn. Het feit dat er niet direct een antwoord is wil echter ook niet zeggen dat de strijd nu gestreden is. Beide bedrijven zijn bijvoorbeeld al volop bezig met de ontwikkeling van hun quadcores. Intel wil zijn 'Clovertown' binnen enkele maanden introduceren en AMD komt halverwege volgend jaar met een processor met vier cores.

Ook werkt AMD onder de codenaam K8L aan een verbeterde versie van de K8. Deze heeft voor zover bekend niet zo veel ingrijpende nieuwe features in zich als de Core-architectuur, maar neemt wel een aantal belangrijke punten over, waaronder de 128 bits brede multimedia-eenheden. Volgens de laatste geruchten zal het K8L-ontwerp echter pas begin 2008 op de markt verschijnen. De eerste quadcore serverchip zou dus nog gewoon gebaseerd zijn op de huidige K8.

We hopen er snel achter te komen of de Core-architectuur sterk genoeg is om de komende jaren aan kop te blijven. Woodcrest lijkt ijzersterk, maar het mindere schaalgedrag baart zorgen voor de overstap naar quadcores en vier sockets. Zelfs als dat zonder kleerscheuren lukt, kan AMD nog een konijn uit zijn hoge hoed toveren met K8L. De toekomst is dus nog niet in steen gebijteld, maar voorlopig hebben we onze keuze wel kunnen maken: voor de nieuwe forumdatabase is onder andere naar aanleiding van deze benchmarks een dual 3GHz Woodcrest-server besteld.

* Dankwoord

Fujitsu-Siemens Computers logoTweakers.net wil Fujitsu-Siemens (Woodcrest en Dempsey), MSI (Socket F-moederbord), Adata (DDR2-geheugen), Sun (Socket 940 Opteron en UltraSparc T1), AMD en Intel graag bedanken voor hun medewerking aan dit artikel. Ook dank aan Mick de Neeve voor de Engelse vertaling en wederom dank aan ACM en moto-moi voor het uitvoeren van de benchmarks en het geven van waardevolle informatie bij de interpretatie en beschrijving daarvan.

* Eerdere artikelen in deze serie

30-7-2006: AMD Socket F
27-7-2006: Sun UltraSparc T1 vs. AMD Opteron
19-4-2006: Xeon vs. Opteron, single- en dualcore

Reacties (37)

37
37
20
11
7
10
Wijzig sortering
Een schande dat men hier een high end Fujitsu Siemens oplossing naast een budget oplossing van MSI hangt. Ik zou deze resultaten wel eens terug willen zien in een Uniwide server met handpicked geheugen handpicked CPU's.

Dat jullie je door Intel voor het karretje laten spannen is een schande!
De enige reden waarom een fabrikant onderdelen met de hand uit zou kiezen voor een review is omdat ze beter over te klokken zijn dan normaal, iets wat we hier niet eens hebben geprobeerd. Het is niet zo dat de ene 2,66GHz Woodcrest sneller is dan de andere 2,66GHz Woodcrest, of het ene CL4-reepje een lagere latency heeft dan het andere CL4-reepje. Een Uniwide-moederbord zou het door (BIOS-)tweaks misschien iets beter kunnen doen dan een MSI-moederbord, maar dan hebben we het maximaal over een paar procent, niet over verschillen die het gat met Woodcrest kunnen overbruggen.
Het MSI-moederbord dat we gebruikt hebben voor de Opteron-tests is zeker niet low-end, het is een prima plank met 133MHz PCI-X, twee keer PCIe x8, een HTX-slot, niet minder dan zestien DIMM-slots, ATi Mobility Radeon en een Adaptec SATA-controller met HostRAID. Deze borden zijn ideaal voor lokale leveranciers die eigen machines samenstellen en ook zullen ze door grotere OEMs op eigen specificatie gemaakt worden. Bedrijven zoals Fujitsu-Siemens ontwikkelen hun moederborden waarschijnlijk niet meer in eigen huis maar bij fabrikanten zoals MSI en Asus.

Leg het MSI-bord in een mooie kast en je hebt een systeem dat in veel opzichten vergelijkbaar is met de Fujitsu-Siemens RX300. De machine van Fujitsu-Siemens is overigens niet extreem high-end, het is gewoon een mooi 2U apparaat met alle features die je mag verwachten van een tier-1 OEM.

De invloed van het moederbord op de prestaties is overigens minimaal. Zelfs de invloed van de chipset is bij de Opteron voornamelijk beperkt tot I/O (PCI-X-, PCIe-, SATA- en netwerkcontrollers). De I/O belasting is in onze tests bewust laag gehouden.
ACM Software Architect @TheSiemNL4 september 2006 14:47
Ten eerste:
We hebben de server, processors en het geheugen van Fujitsu-Siemens te leen gekregen. Niet van Intel.
Dus ik zie niet hoe we ons hier door Intel voor het karretje zouden hebben laten spannen.

Ten tweede:
Het hangt van je definitie af, maar imho is deze Fujitsu-machine nog geen "high end". Wel een goeie en complete machine natuurlijk. Mocht je liever de vergelijking van deze met een complete Opteron-server zien dan raad ik je aan de getallen uit de vorige review met de Sun Fire x4200 naast de getallen uit deze te leggen.
Dat zijn in mijn ogen kwalitatief en kostprijstechnisch gezien heel vergelijkbare machines.

Helaas konden we toen we begonnen niet echt de beschikking over een complete Socket F-server krijgen, anders zouden we dat wel geregeld hebben. Niettemin verwachten we niet dat er heel erg grote verschillen zullen zijn met deze resultaten (het is namelijk wel een echt server-moederbord, niet bepaald een budgetmoederbord) en een complete server.
't Heeft natuurlijk ook onze eigen voorkeur om zo'n complete machine te hebben.

Als jij zo'n Uniwide-machine voor ons kan regelen en er van overtuigd bent dat die (veel) beter gaat presteren dan onze simpele, neem dan even contact op, dan testen we die graag natuurlijk.
En dat kost,
prestatie kosten wint intel het nu en met een speciaal samengesteld systeem zullen de kosten->prestatie van AMD alleen maar meer dalen
Dat kost voor de handel doorgaans veel meer. Maar mijn ervaring is dat als er een vooraf aangekondigde benchmarkt wordt gedraaid, een Intel machine er altijd veel beter uit komt dan daarna in een real life situatie.

Kortom, als ik Fujitsu als Tweaker.net om een testserver vraag, Fujitsu en Intel alles uit de kast halen om ervoor te zorgen dat je het beste van het beste krijgt.

In dit geval heeft pietje een MSI bordje geleverd, Fransje een paar CPU's en yokodoko heeft nog wat geheugen geleverd.

Dit is het zelfde als de Ferrari F1 team vergelijken met dat van Minardi. Beide doen F1, maar qua kwaliteit en inzet zit er een groot verschil in.
Volgens mij heb je toch echt hele verkeerde ideeën over de invloed die bepaalde onderdelen op de pretaties van een systeem kunnen hebben. Zoals Wouter reeds heeft opgemerkt hebben de onderdelen die we in deze tests gebruiken een vast prestatieniveau. Een Xeon 5150 presteert altijd hetzelfde (afgezien van minimale verschillen in kloksnelheid die veroorzaakt worden door de klokgenerator), of je 'm nu met de hand selecteert, het voetje met helende zalf insmeert of er andere gekke dingen mee doet. Alleen door 'm extreem heet te laten worden zou je de prestaties misschien kunnen beïnvloeden (ik weet niet of zo'n Woodcrest ook clock throttling doet bij te hoge temperaturen?).

De vergelijking met de Formule 1 zou opgaan als we hier bezig zouden zijn met overclocking, en het team van Ferrari bijvoorbeeld betere processors zou kunnen inkopen dan Minardi en betere koeling zou kunnen ontwikkelen, waardoor Ferrari de processors hoger kan klokken dan Minardi. De prestaties van de Xeon werden in deze test enkel beïnvloed door de prestaties van het geheugen, en die was met een kloksnelheid van 533MHz en een latency van 4 cycli niet bijzonder goed. De Opteron had zelfs beschikking over sneller geheugen.
Er is geen bedrijf die zo'n oplossing zal gebruiken, grotere bedrijven blijven toch altijd wel HP, foetsie en andere grote merken gebruiken.
server samenstellen met handpicked cpu's en geheugen is heel leuk... voor thuis, zakelijk kost dat te veel moeite en tijd voor weinig tot geen winst.
Voor dit soort reviews en verhalen kom ik naar Tweakers.net. Bedankt, jongens!

Ik ben zelf erg verknocht aan AMD, maar ik ben blij dat Intel de strijd op een hoger niveau heeft getilt. Dit is alleen maar goed voor ons, de consument! Dit is wat eerlijke concurentie doet, het brengt het beste boven in alle markspelers. Ik ben ook blij dat eindelijk iemand PostgreSQL eens serieus neemt. Ik wordt zo moe van MySQL voor, MySQL na. En ja, ik vindt het dan weer jammer dat bijvoorbeeld Oracle niet toestaat dat er benchmarks worden gepubliceerd. OTOH, daar hebben we dan weer TPC's e.d. voor. Het gekke is dat in de TPC-H in de lage regionen nog steeds een quad Xeon van Dell de boel staat te roelen, en dat de eerste opteron pas op #3 staat. Gelukkig is dat met een grotere dataset wel anders.

In ieder geval, petje af lui, en ga vooral zo door!
Gezien een gemiddelde professionele klant geen MySQL gebruikt voor zulke servers (op een paar web hosters na), is deze test eigenlijk volstrekt niet serieus te noemen!
Waarom geen test met Oracle, SQL Server, DB2 en wat applicatieserver toepassingen?
Alsof je een ferrari test op een boerenlandweggetje...
Waarschijnlijk sta ik nu op vele LAMP teentjes
Oracle en DB2 hebben in hun licentievoorwaarden staan dat je geen benchmarks mag posten zonder dat ze dat weten, verder hebben wij totaal geen ervaring met de drie databaseservers die je opnoemt en zou het dus niet eerlijk zijn om mysql en postgresql daar tegenover te zetten.
ACM Software Architect @TinusH7774 september 2006 13:47
Ik ben het niet eens met je opmerking. MySQL kent wel degelijk grote klanten. Maar belangrijker nog... onze eigen servers zijn van dit kaliber en draaien MySQL. Zo bijzonder zware constructies zijn het namelijk helemaal niet, andere grote websites werken ook met dit soort servers. Je zou ze "top of the low-end-range" kunnen noemen.

Als er nou een Sun 15k-machine werd getest met MySQL zou ik je gelijk geven ;)

Bovendien testen we naast MySQL ook PostgreSQL en dat is kwa functionaliteit en stabiliteit een prima "gratis alternatief" voor Oracle en vrienden. Uiteraard bieden de grote jongens op diverse punten meerwaarde, maar dan heb je het over veel grotere installaties dan hier sprake van is.

Overigens laten SQL Server en Oracle in hun voorwaarden het helemaal niet toe om benchmarkresultaten te publiceren met hun producten. DB2 meen ik niet.
Niettemin heeft moto-moi al aangegeven dat we daar geen expertise in hebben en dat het dus sowieso geen eerlijke test wordt dan.

Bovendien betwijfel ik sterk of je met Oracle, DB2 en vrienden een ander beeld uit de vergelijking gaat krijgen dan nu... Het lijkt me heel sterk als daarmee de Opteron ineens wel sneller is dan de Woodcrest, jou niet?
Hulde voor deze opmerking. Alleen vraag ik mij af of voor de vergelijking het niet beter was geweest om een klassieke SPARC- of POWER-processor er naast te leggen. De T1 heeft een te specifieke toepassing. Die andere twee zijn immers gebouwd voor database- of applicatieservers.
vergelijk appels met appels en zet gelijke nieuwe cores tov elkaar. wat nut heeft het van een 2,4 tegen een 2,66 te zetten en dan komt er nog bij dat je een serversysteem tegen een entry budget mobo, zelfs een gelijke hoeveelheid geheugen zou al een basis zijn, het was al duidelijk van de vorige setup dat jullie basis al niet te deftig was met dat MSI mobo. Hoe kun je trouwens prestaties per watt degelijk maken als de basis niet deftig is.... je had evengoed een 5120 proc kunnen nemen, evenveel verbruik, een pak minder prestaties.

en ivm uw prijsvergelijk das retail processor. configureer bij ibm maar eens een x3450 tegen een x3550 met gelijke core snelheid zijnde 2,6 vs 2,66 je zal zien dat je een marginaal verschil hebt in totaalprijs start daaruit jullie testen eens, er zijn veel firma's waar je deze gerust kan testen.
Op dit moment kosten zowel de Xeon 5150 2,66GHz als de Opteron 280 2,4GHz (de 2216 staat er nog niet in) 661 euro in de Pricewatch. Ze zijn dus vergelijkbaar qua prijs en dat is het belangrijkste. Dat de Opteron voor een gelijk aantal pegels een lagere kloksnelheid biedt is geen reden om dan maar een processor uit een hogere prijsklasse met de Xeon 5150 te vergelijken.

En nogmaals, het MSI-moederbord is geen 'entry budget mobo'. Vergelijkbare Socket 940-borden van MSI staan voor 400 tot 450 euro in de Pricewatch, gelijk aan de prijzen die Supermicro, Tyan en Iwill hanteren.

Het Socket F-platform is overigens buiten de performance-per-Watt-vergelijking gehouden omdat we geen compleet systeem voorhanden hadden en het Socket F-platform daarom bevoorbeeld zou worden. De andere systemen hadden meer stroomverbruikers (zoals redundant voedingen) aan boord.
ACM Software Architect @d3x5 september 2006 15:10
Als ik bij HP een DL380 G5 met twee Xeon 5150's, 2 sets van 2x2GB geheugen extra en 2x 36GB disks configureer komt dat op $7054,- uit. En een met 5160's kost ongeveer $7454,-
Als ik hetzelfde doe voor een DL385 met Opteron 285's en verder een zo gelijk mogelijke config komt dat op $7784,- uit.
Een goed vergelijkbare Sun x4200 met 285's kost dan weer $8195, hoewel daar dan geen raid-controller op het systeem zit, maar wel weer 73GB schijven, een met 280's kost $7145.

Het hangt er dus heel erg van af wat je precies wilt en waar je het dan besteld, maar het is zeker geen oneerlijke vergelijking zoals wij het hebben gedaan.

Desnoods vermenigvuldig je de getallen van de Sun Fire x4200 met 1.0833 (=2.6/2.4) om te schalen naar de snellere 285's of 2218's.
Los van de punten die ACM en Femme al hebben afgeschoten:
vergelijk appels met appels en zet gelijke nieuwe cores tov elkaar.
Heb je het nu over K8L, en zeg je dus dat er het komende (dikke) jaar geen vergelijking tussen Intel en AMD meer gemaakt mag worden? Daar zullen de mensen die in die periode voor ruim 30 miljard dollar aan x86-servers gaan kopen het toch niet mee eens zijn. Zodra AMD een nieuwe core heeft zullen we die met alle plezier testen, maar het is onrealistisch om daar zo lang op te gaan zitten wachten. Als de geruchten kloppen zit het bovendien dik in dat Intel vrij snel na K8L met een 45nm-antwoord komt, dus dan kun je wel blijven wachten.
Hoe kun je trouwens prestaties per watt degelijk maken als de basis niet deftig is....
De enige prestaties per watt die we hier tonen van de Opteron zijn voor Socket 940, verkregen op een volwaardig productiesysteem (de Sun X4200).
je had evengoed een 5120 proc kunnen nemen, evenveel verbruik, een pak minder prestaties.
Zelfde TDP != evenveel verbruik.
nee ik heb het over gelijke snelheid van cores...

2.66 tegen 2.6, wie haalt er hier nu k8L boven.....
en weer wie je in je reply dat "uw review gehalte pro gericht is" wat heeft hier dan ook weer een 45nm mee te maken alsof een shrink performance meergeeft.... ze kunnen nog niet eens een deftig aantal leveren op 65nm laat staan dat ze 45nm leveren.

"En een met 5160's kost ongeveer $7454,-
Als ik hetzelfde doe voor een DL385 met Opteron 285's en verder een zo gelijk mogelijke config komt dat op $7784,- uit." das dus maar 230eur verschil en je hebt trouwens een berekening gedaan van de opteron 940.

MSI is en blijft enrty level, hun mobo performance en bios niveau is nog nooit degelijk geweest en dat zie je ook in jullie performance charts...

En je verbruikstest doe je dan toevallig niet met de opteron F en MSI... als het dan toch een volledig serverbord is volgens jullie... de SUN heeft sowieso een hogere TDP, algemeen feit, algemeen geweten dit doen ze ook in hun workstations, ze gebruiken geen C&Q en laten steeds vcore op hoogste range.

Zelfde TDP != evenveel verbruik.
maar een pak lager performance, waardoor de chart helemaal anders uitkomt wat je nu ook doet met de k8.
Waar ik benieuwd naar ben is hoe een dual 3,0GHz Woodcrest (4 cores) presteerd ten opzichte van een 2,6GHz quad Opteron (8 cores). Als ik de prestaties zo lees dan verwacht ik dat de Woodcrest betere prestaties neerzet. Een quad Opteron is heel erg duur ten opzichte van een dual Opteron, zou een aardige slag kunnen zijn voor Intel...
Dit zal misschien waar zijn voor een slecht opschalende applicatie zoals MySQL, maar als ik de Opteron-resultaten in PostgreSQL met een (grof geschatte) 70% ophoog voor de stap van dual naar quad komen ze toch ruim boven die van een dual Woodcrest uit. Zelfs 50% zou al genoeg zijn. Het hangt dus maar net af van de applicatie. De kosten van de stap naar quad zijn inderdaad wel erg hoog: 2,6GHz Opteron 8218's kosten 2149 dollar per stuk.
Goede review. De beschikbaar gestelde socket F cpu's van MSI waren geen productie sampels. Vandaar misschien de wat mindere resultaten. Gezien de vele bios aanpassingen van dit bord lijkt me deze test niet geheel correct en is in het nadeel van AMD. Wat denk ik veel interessanter is om eens de prestaties te meten in een virtuele omgeving tussen de woodcrest en de Opteron socket F. En hoe verhouden deze zich in een 64-bit omgeving.
De beschikbaar gestelde socket F cpu's van MSI waren geen productie sampels. Vandaar misschien de wat mindere resultaten. Gezien de vele bios aanpassingen van dit bord lijkt me deze test niet geheel correct en is in het nadeel van AMD.
De Woodcrests waren ook geen productie-exemplaren en bovendien niet voorzien van het snelst beschikbare geheugen. Het is waar dat een productieversie van AMD iets sneller zou kunnen zijn, maar of ze echt benadeeld zijn betwijfel ik. Er zijn zoveel factoren die de prestaties een paar procent kunnen beïnvloeden, maar de verschillen die wij hebben gezien kunnen op geen enkele redelijke manier overbrugd worden. Als het nou kiele-kiele was geweest zou de kritiek begrijpelijk zijn, maar dit zijn geen prestatieverschillen meer die van de ene op de andere stepping of met een nieuw BIOS worden opgelost. Vergeleken met de Sun Fire X4200 (een volwaardig productiesysteem gebaseerd op de Socket 940 Opteron dat consequent iets beter presteert dan onze Socket F-configuratie) zou de conclusie precies hetzelfde zijn.
Wat denk ik veel interessanter is om eens de prestaties te meten in een virtuele omgeving tussen de woodcrest en de Opteron socket F. En hoe verhouden deze zich in een 64-bit omgeving.
Alles is al gedraaid in 64-bit Linux. Ik zie het nut van een gevirtualiseerde omgeving niet echt in als het doel is om te testen hoe snel de processors zijn voor databasewerk. Virtualiseren wordt pas interessant als er meerdere applicaties tegelijk draaien en dat is een heel andere tak van sport, een stuk moeilijker om goed te testen ook. Het zou wel leuk zijn om de hardwarematige virtualisatie-technieken van Intel en AMD tegenover elkaar te zetten (en tegenover puur software), maar dat is meer iets voor een vervolgartikel dan voor een eerste beschouwing van beide platforms.
De reden om de lichtere belastingen weg te laten is om ieder systeem de kans te geven om zijn maximale potentiëel te bereiken en de verschillen dus beter zichtbaar te maken dan wanneer ook de 'opstartfase' zou worden meegenomen.
Is het niet zo dat zo'n servers hun kans pas grijpen onder zware belasting?
ACM Software Architect @mieJas4 september 2006 13:55
Dat is toch ongeveer wat er staat? :P
En daarom zijn kabouters lief!

En wordt het eens tijd dat AMD zijn prijzen gaat verlagen. Ik heb net wat weer render benchmarks gezien waarin 2 285's het toch zwaar afleggen tegen 2 5160's
Voor hetzelfde geld heb je gewoon meer renderpowerrrr.
In sommige apps heb je met de helft van de prijs per proc dezelfde snelheid....
Ik heb net wat weer render benchamarks gezien waarin 2 285's het toch zwaar afleggen tegen 2 5160's
Waar heb je dat gelezen? Linkje graag.
Ben wel erg benieuwd naar de prestatieverhoudingen in applicaties als Maya en Max.
Vray rendertestscene

dual woocrest 5160: 1 minuut 55 sec
dual otepron 285: 2 minuten en 43 sec

Das best wel veel.
Ik wil wel graag opmerken dat de schalingskarakteristieken misschien met een korrel zout genomen moeten worden.
Zoals de review zegt, begint de Woodcrest op een veel hoger basisniveau dan de Opteron en Dempsey.
Aangezien de rest van de hardware zoveel mogelijk gelijkwaardig is gehouden, zal dit betekenen dat de Woodcrest dus ook dichter op de grenzen zit van de prestaties van het geheugen, harddisks en dergelijke.

Met andere woorden, het zou best kunnen dat je ziet dat ook Opterons en Dempseys minder gaan schalen naarmate je snellere cores neemt.
Omgekeerd zou het ook best kunnen dat je met langzamere Woodcrests juist betere schaling waarneemt.

Misschien interessant om daar in een volgend artikel wat aandacht aan te schenken? Hoe een low-end en high-end CPU uit dezelfde serie schaalt op dezelfde hardware.
Wat ik ook interessant vind is dat het fb-dimm interface gewoon eigenlijk belabberd presteerd, ten opzichten van het normale ddr2 van de core2. Ik vraag me af hoe snel de woodcrest geweest zou zijn als ze ook gewoon reg ecc ddr2 toe zouden staan.
Ik betwijfel alleen een beetje of dat nog wel zal gebeuren, de workstation chipset(5000X) ondersteund ook alleen FB Dimm's.

Op dit item kan niet meer gereageerd worden.