Dean Kent over de objectiviteit van benchmarks

Dean Kent heeft een artikel geschreven over de objectiviteit van benchmarks, dit naar aanleiding van een probleem dat recent werd ontdekt met SysMark 2001. Eén van de onderdelen van deze suite is Microsoft Windows Media Encoder, een programma dat gebruik kan maken van SSE instructies. Recent kwam echter aan het licht dat deze optie alleen werd benut bij Intel processors, terwijl de nieuwste generatie van AMD deze mogelijkheid ook heeft. BAPco bracht hiervoor een patch uit, terwijl Microsoft het probleem in de software nog niet heeft opgelost. Hierdoor laaide een hevige discussie op over wat nou echt een goede "real-world" performance test is. Bij Real World Technologies kun je de visie van Dean Kent op de objectiviteit van benchmarks lezen. Hij komt tot de conclusie dat er wel een paar dingen zijn waardoor deze zou kunnen verbeteren, maar dat zolang klanten niet willen betalen voor de benchmarks, ze altijd afhankelijk zullen zijn van degenen die door de producenten zijn betaald:

There is money in benchmarking, to be sure, but not from the consumer. Vendors and publications are the source of revenues, and this is where the danger is, because the target audience for benchmark developers is not the end user. Since the end user is generally not willing to pay the price of real benchmarking, he/she is left with whatever the vendors and publications are willing to pay for – and in some cases specifically ask for. Industry consortiums, such as SPEC and BAPCo are supposed to minimize the problems, but politics and money are always going to be driving forces.

In the end, the fact of the matter is that "There Ain’t No Such Thing As A Free Lunch". If we, the consumers, want accurate benchmarks, we either must pay with our dollars, or pay with our diligence. Uncovering every bug and corruption issue is probably far beyond my capabilities, but what I should be able to do is look at the issues, evaluate them as objectively and honestly as I am able, run my own tests and present the facts as clearly and completely as possible. In some cases, the conclusion may very well be "I just don’t know", because there isn’t enough information available – but to my mind, the effort is necessary to even begin making the situation any better.

Lees meer

Reacties (41)

[X]Death996 11 oktober 2001 16:30

Volgens mij is de beste manier om je systeem door te lichten gewoon de quake tests draaien.
Of andere spellen zoals max-payne etc.
In dat soort benchmarks kun je de kracht van je pc zien op de punten waar jij ze nodig hebt.
(als gamer zijnde dan

)
Ook een heel goed benchmarking programma vind ik sisoft-sandra2001.
Dit programma kan dingen benchmarken als je processor, geheugen, harde schijfen, dc-rom drives, etc..etc..
Je kunt dit programma downloaden van www.download.com

Verwijderd @[X]Death996 • 11 oktober 2001 16:36

Maar die games gebruiken eigenlijk alleen de processor en videokaart en niet zo zeer de hd en cdrom speler enz.

[X]Death996 @Verwijderd • 11 oktober 2001 16:41

Vandaar ook dat ik SiSoft Sandra2001 noemde in mn post.
Die kan deze dingen namelijk wel benchmarken.
En dat doet hij niet door een syntetische benchmark maar door daadwerkelijk te kijken hoe snel hij data kan lezen van je cd / hd

whiteguy

@Verwijderd • 11 oktober 2001 22:34

Maar die games gebruiken eigenlijk alleen de processor en videokaart en niet zo zeer de hd en cdrom speler enz.

maar een snellere hd verkort weer laadtijden enz... waardoor het spel ook sneller wordt, alleen op een andere manier

Bobco @[X]Death996 • 11 oktober 2001 16:33

De enige goede test is inderdaad de test die je zelf doet. Als ik een systeem nodig heb dat niks anders doet dan een mailserver draaien, dan kijk ik hoe goed een mailserver op dat systeem draait.

Al die 'algemene' benchmarks die proberen om alle onderdelen van een systeem te testen moeten altijd goed in de gaten houden wat de stand van de techniek is. op het moment dat er iets nieuws is zal de benchmark ook aangepast moeten worden.

Als je weet wat je voor software wilt draaien, weet je ook waarmee je moet testen

DennisBoom @Bobco • 11 oktober 2001 16:43

Beetje lastig als je alles zelf wilt testen voor je eigen toepassing. Dat zou betekenen dat je eerst allerlei hard en software zou moeten kopen en daarna het beste (voor jouw toepassing) moet bewaren. Maar wat doe je met de rest? Dat wordt een dure mailserver.

Bobco @DennisBoom • 11 oktober 2001 16:58

Testen en kopen zijn 2 verschillende dingen. Natuurlijk gat dit alleen maar op voor de duurdere spullen, maar het moet naar mijn idee altijd mogelijk zijn om spullen eerst uit te proberen voordat je ze koopt.

Het is een van de dingen die ik altijd een beetje vreemd heb gevonden in computerland. Zelfs met een 2e hands auto van 3 mille kun je een testritje maken, maar een computer van 10 mille mag je vaak alleen maar van de buitenkant bekijken en de verhalen van de verkoper geloven....

Als je zelf de systemen in elkaar schroeft wordt het natuurlijk een ander verhaal. Als ik inderdaad die mailserver moest bouwen zou ik eerst eens uitzoeken of dat ding nu CPU, disk of netwrok-bound is. Aan de hand van dat soort simpele dingen kun je in ieder geval zorgen dat die bottle-neck zo breed mogelijk is.

Verwijderd @DennisBoom • 11 oktober 2001 20:29

TIP TIP !!!!

luisterd allen.

*grin*

Bij Memo in Breda kun je dingen altijd 8 dagen proberen.

Echt waar ik heb het al meerdere malen geprobeerd.
Lijkt me wel dat je het in redelijkheid moet zien. Maar het mag daar.

blouweKip @[X]Death996 • 11 oktober 2001 16:37

quake 3 is echt niet zon goede benchmark, zo wijkt de score van q3 met een p4 flink af van het gemiddelde verschil tussen p4 en de TB, en is bijvoorbeeld de kyro 2 alleen maar geoptimaliseerd voor q3 (in de meeste andere spellen presteert ie dan ook flink slechter)

[X]Death996 @blouweKip • 11 oktober 2001 16:44

Ik doelde eigenlijk niet specifiek op Q3 maar gewoon spellen in het algemeen.
Denk dus ook aan spellen als:
Serious sam
Soldier of fortune
Return to castle wolfenstein
Max Payne
Unreal2 Alpha

Verwijderd @[X]Death996 • 12 oktober 2001 10:02

Aangezien het in het algemeen toch niet echt mogelijk is om systemen eerst even te 'proberen' zul je toch vaak een beetje moeten afgaan op tests door mensen die dat wel hebben mogen doen op de inmiddels beroemde sites.

Wat betreft de daarvoor gebruikte benchmarks: ik zou graag onderscheid willen maken tussen:

1) Architectuurgerichte benchmarks: deze benchmarks testen specifieke architectuur prestaties zoals HDD doorvoer/vertraging, etc.

2) Applicatiedomein benchmarks: deze benchmarks zouden representatief moeten zijn voor de workload van een heel scala van applicaties uit een bepaald domein (games/internet/etc.)

3) Specifieke applicaties: ook al komt een bepaald systeem heel goed uit de tests van 1) en 2), kan het voor jouw doeleinden nog steeds niet zijn wat je wilt. Deze enige manier om er helemaal zeker van te zijn is door te weten hoe deze presteert op de door jouw gekozen applicaties (Quake voor gamers, FLASK voor videofreaks, etc.). Helaas kunnen reviewers niet alle applicaties testen voor iedereen. Je bent dan vaak ook aangewezen op wat het meest in de buurt komt en in veel gevallen dan ook tests als 2).

Conclusie: zeker kun je nooit zijn, maar als je even goed op de resultaten van meerdere benchmarks kijkt, kun je meestal niet al te hard op je bek gaan.

Verwijderd 11 oktober 2001 16:29

We moeten vooral in het oog houden dat een benchmark maar een indicatie geeft en niet een alomvattende waarde geeft voor de snelheid van het gebenchmarkte onderdeel of systeem.

Swinnio @Verwijderd • 11 oktober 2001 16:57

Dat klopt, maar het mag niet te erg worden. In het geval met SysMark (ging daar om Athlon XP vs. Pentium 4) scheelde het zoveel dat de conclusie van de hele benchmark overhoop gegooid wordt. Zonder SSE support voor de Athlon, presteert de P4 beter (en niet alleen de 2,0 GHz). Met die support winnen bijna alle XP procs het van de P4 2,0 GHz.
Dus: als je op dergelijke benchmarks een keus tussen bv. AMD en Intel wilt maken (en ik denk dat veel mensen dat willen, waar zijn ze anders voor?), zullen ze toch wel tot op zekere hoogte betrouwbaar moeten zijn.

Btw: ik bedoel dus dit artikel: www.tweakers.net/nieuws/18800

TheGhostInc @Swinnio • 11 oktober 2001 23:07

Is dit niet gewoon weer het aloude verhaal:
Een nieuwe processor heeft gewoon weer even tijd nodig om in de meeste programma's volledig indersteund te worden, ook al is de ondersteuning nodig voor iets dat er al lang inzat, dan moeten ze het wel even aanzetten.

* 786562 TheGhostInc

Vastloper @TheGhostInc • 12 oktober 2001 01:12

Nee want sse is bij de Athlon XP exact 100% compleet hetzelfde en compatible als de sse in de p3 en p4. Er word in het programma dus gewoon niet gekeken of de proc sse ondersteund maar gewoon domweg of de proc een p3 of hoger is. Dit is gewoon erg slecht programmeren. Dat kan gebeuren omdat de programeur(s) gewoon niet beter wisten en geen zin/tijd hadden het ff goed uit te zoeken of er zit meer achter. Het zou mij niet verbazen als het het eerste is, maar ik vind het dan wel vreemd dat ze het niet snel zelf gefixt hebben.

SG @TheGhostInc • 14 oktober 2001 13:22

Daar heb je setup opties voor om SSE te disablen/enablen je geeft de user de keuze en maakt de keuze niet voor de user.

Dus het is niet defensief maar 'n foutiefe oplossing en als die bewust gemaakt is ook smerig.

Verwijderd @TheGhostInc • 22 oktober 2001 11:21

Oplosbaar? Ja, maar dan moet dit wel gebeuren. Onschadelijk? Zeker niet: het heeft even geduurd voordat het is ontdekt. Tot deze tijd is de AMD processor in kwestie ondergewaardeerd. Ik noem dat smerig gezien ik aanneem dat de programmeurs van de benchmark zich er bewust van waren wat de consequenties zouden zijn voor non-Intel processors die WEL SSE ondersteunen.

Als je dat soort dingen bij mij zou flikken zou ik vuur spuwen

Verwijderd @TheGhostInc • 12 oktober 2001 09:49

Met een spelletje kun je de patch inderdaad wel even afwachten. Met een benchmark wordt het verhaal even anders. Bovendien zit hier nog een addertje onder het gras:

Het probleem was dat de benchmark eerst vrolijk keek of de CPU-Manufacturer 'GenuineIntel' was. Daarna controleerde hij of SSE bit was enabled. Dit betekent dat welke andere processor dan ook, ook al ondersteunt deze SSE 100% geen kans maakt in deze test. Dat is natuurlijk een beetje (lees: verschrikkelijk) smerig.

arjenk|IA @TheGhostInc • 12 oktober 2001 13:26

[m.n. reactie op Blitskikker] Nee, hoor het is niet smerig, maar gewoon defensief geprogrammeerd.

Je kan beargumenteren dat alleen controleren van het SSE bit voldoende is. Dat zou ook zo moeten zijn, maar helaas is het zo dat dit soort afspraken nogal eens niet wordt nagekomen. En het gevolg daarvan is dat de software crasht, waarvan de ontwikkelaar natuurlijk de schuld krijgt en hoe dan ook supersnel een patch voor uitgebracht moet worden.

Maar met deze code is het enige gevolg dat SSE niet gebruikt wordt op een CPU die het wel ondersteunt. Vervelend, maar totaal onschadelijk. Er is geen haast met de patch, je wijzigt het gewoon in de volgende release.

Je ontkomt er niet aan dit soort dingen te doen als je software ontwikkelt. Het is nu eenmaal nog altijd het belangrijkst dat het gewoon werkt.

loweedje 11 oktober 2001 16:40

Wat ik ff niet helemaal volg:

Stel nou dat sysmark die patch voor sysmark werkt, dan zijn de tests die uitgevoerd worden enigzins correct. Maar dat zegt dan toch niks over games ?
Als je bijv Q3 speelt met een Athlon XP, snapt dit spel dan wel dat je SSE in je cpu heb zitten ?

Beaves @loweedje • 11 oktober 2001 16:48

Als je bijv Q3 speelt met een Athlon XP, snapt dit spel dan wel dat je SSE in je cpu heb zitten ?

Als Q3 goed geprogrammeerd is zou SSE op de XP moeten werken, de reden dat Sysmark geen SSE op een XP gebruikt ligt zoals hierboven al staat aan het feit dat het programma naar het CPU_ID kijkt.

Ik kan me voorstellen dat als Q3 of een andere game niet naar de CPU_ID kijkt, maar of SSE aanwezig is, dat de game wel van SSE gebruikt maakt.

Ik vind het ook redelijk stom om naar een CPU_ID te kijken om te bepalen of SSE aanwezig is, er is vast wle een mogelijkheid om zonder dat ID te bepalen of er SSE aanwezig is.

Er is IMHO maar een manier om een objectieve benchmark voor bijvoorbeeld CPU's te krijgen, en dat is om iedere CPU fabrikant te laten meebetalen aan een nieuw op te richten organisatie die de CPU's onafhankelijk test.

Op die manier ben je ook van de MHz mythe af, een bedrijf of revieuwer kan dan gewoon de behaalde score's vermelden.

Femme UX Designer @Beaves • 11 oktober 2001 18:14

De BapCO score is een combinatie van allerlei applicatiebenchmarks. De WME performance van een processor kan mij persoonlijk volstrekt niet boeien, terwijl ik Photoshop wel belangrijk is. Nu blijkt dat de Athlon XP volgens BapCO (zonder patch) helemaal niet zo goed presteert tov de P4 2GHz, terwijl dat in de praktijk misschien wel het geval is voor de applicatie die je zelf belangrijk vind. Dat is het hele grote probleem met benchmark mixen zoals BapCO en Winstone. Vooral tegenwoordig met al die SSE, SSE2, 3DNow en geheugenbandbreedte optimalisaties waar de ene processor wel van profiteert en de andere niet. In de vroegere tijden ging dat allemaal zo ongeveer gelijk op omdat processors qua architectuur veel op elkaar leken (de K7 is bijv. een dikke P6 en presteert daardoor ook als dusdanig, alleen over de hele linie een paar procent beter dan de PII/PIII Katmai zonder SSE).

mr_obb @loweedje • 11 oktober 2001 16:51

In het register van Windows staat een sleutel die aangeeft of je processor SSE ondersteunt of niet.

Het probleem met Windows Media Encoder was dat die niet keek naar die sleutel, maar naar de processor. Hij schakelde SSE in als de processor GenuineIntel was en niet als die AuthenticAMD was.
Met die fix wordt dat probleem opgelost.

dataworm @mr_obb • 11 oktober 2001 21:48

In het register van Windows staat een sleutel die aangeeft of je processor SSE ondersteunt of niet.

Wat dus inhoud dat als je upgrade naar een Athlon XP je ook nog even Windows over je bestaande installatie heen moet drukken.

[X]Death996 @loweedje • 11 oktober 2001 16:45

Als het spel gebruik maakt van SSE instructies dan kan het spel ook herkennen of een cpu deze ondersteunt.
Anders zou het hele verhaal weinig nut hebben......

Deddiekoel 11 oktober 2001 16:32

Als de beperkingen van een benchmark bekent zijn weet je ook hoe je de resultaten moet beoordelen.
Dus je krijgt gewoon benchmarks voor specifiekere doelen (zoals nu ookal het geval is).

Ganymedus 11 oktober 2001 16:46

[/irri modus]
Deze newspost zal uiteraard wel wat reacties trekken dat er een vriendjes politiek gaande is tussen MS en Intel. Maar dan wil ik die personen gaarne eventjes wijzen op de vorige newspost over de Athlon XP en hun eigen reactie daarop hoe goed die combinatie Win XP en Athlon XP zou zijn.
[irri modus]

Wel erg slordig dat ze die benchmarks zo enorm hebben laten beinvloeden door een dergelijk fout. Maar voor wie is een benchmark belangrijk? De meeste mensen die kopen een pc toch omdat iemand zegt dat die goed is. Wij, als tweakers, kopen een pc die goed aansluit bij onze wensen. Wat zou het uitmaken als een processor iets langzamer is als de andere als wij toch weten dat we de gene die langzamer is veel beter kunnen overklokken opdat we dan toch nog de snelste pc hebben?? Uiteindelijk komt het erop neer dat de mensen die "verstand" van pc's hebben toch wel een pc koopt die aan hun wensen voldoet en dat mensen die er geen verstand van hebben meestal totaal iets anders kopen dan waarvoor ze in de winkel kwamen.
* 786562 Ganymedus

Ralphie 11 oktober 2001 16:46

Ik bouw en test wel eens systemen voor computerbladen.Ook heb wel vaker problemen gehad met Sysmark 2001, en dan alleen eigenlijk maar met Windows Media Encoder op AMD systemen.

* 786562 Ralphie2k

Verwijderd 11 oktober 2001 16:48

Aangezien een PC door iedereen anders wordt gebruikt, is het volgens mij niet mogelijk om in een alles-in-1 test het systeem een bepaalde waarde te geven. Als je b.v. een soort "WP 5.1" test doet, dan maakt het niet uit of het nu om een P3 of P4 gaat.

Ga je naar de individuele scores kijken (per hardware onderdeel dus) dan denk ik dat wel objectief kan zijn.

b.v. doorvoersneldheid tussen een 5400 RPM schijf en een 7200 RPM.

Ralphie 11 oktober 2001 17:41

De Sysmark test is wel even wat anders dan een SiSoft test. Bij SiSoft test (stress) je de diverse hardware apart. Sysmark bestaat uit 2 tests, namelijk Internet Content Creation en Office Productivity. Het programma opent dan verschillende programma`s apart en zo wordt dus alle hardware in een keer gestest. Zo weet je dus eigenlijk pas of het systeem wel goed is
Sysmark gebruikt de volgende tests:
INTERNET CONTENT CREATION
Adobe Photoshop® 6.0, Adobe Premiere® 6.0, Microsoft Windows Media Encoder 7, Macromedia Dreamweaver 4, and Macromedia Flash 5.

OFFICE PRODUCTIVITY
Microsoft Word 2000, Microsoft Excel 2000, Microsoft PowerPoint 2000, Microsoft Outlook 2000, Microsoft Access 2000, Netscape Communicator® 6.0, Dragon NaturallySpeaking Preferred v.5, WinZip 8.0, and McAfee VirusScan 5.13

Deodaatje 12 oktober 2001 18:48

ach ja Benchmarks...ed meesten zijn in elk geval erg kewl om naar te kijken. Neem nou AquaMark.....erg mooi hoor...en DroneZ.... ach en als je dan ook nog een getalletje op je PC kan prikken..mooi toch.

Snel, sneller, snelst..is dat niet wat we met een Bench uit willen zoeken ?
Kom op joh..is dat nou echt zo belangrijk.

Nee...voor mij niet. Als ik maar af en toe even een demo-bench kan zien...heb me Geforce3 toch niet voor niets :-)

Verwijderd 12 oktober 2001 19:12

De reden van het uitschakelen van SSE voor Athlon 4/XP's kan je lezen in [url="http://http://www.tweakers.net/nieuws/17054"]dit[/url] artikel.

Hierin presteerde een Athlon 4 met SSE aan slechter dan met SSE uit met WME 4.0. Waarschijnlijk omdat 3DNow! efficienter werkte dan SSE. Daardoor heeft Microsoft waarschijnlijk de SSE herkenning aangepast, om ook AMD gebruikers maximale snelheid te bieden.

Alleen jammer dat AMD daarna de SSE implementatie veranderd heeft, zodat SSE nu wel sneller is dan 3DNow!.

Maar ik vind het overdreven om te zeggen dat de programmeurs domme eikels zijn, of dat MS het met opzet heeft gedaan om AMD te benadelen.

Op dit item kan niet meer gereageerd worden.

Lees meer

Reacties (41)

Sorteer op:

Weergave: