SysMark 2002 bevoordeelt Pentium 4 processors

Op de frontpage van Tweakers.net staat de laatste dagen regelmatig nieuws met betrekking tot AMD en haar streven een eerlijkere methode te ontwikkelen om verschillende merken en typen processors mee naar waarde te schatten. Het blijkt nu dat AMD's klagen een goede grond heeft gehad: verschillende bronnen, waaronder The Inquirer en de fora van AnandTech, maken er melding van dat de methode waarmee Bapco's SysMark 2002 de ratings voor systemen berekent, Intel's Pentium 4 opzettelijk bevoordeelt.

De mate waarin Bapco en Intel geliëerd zijn, is al eerder bron van ergernis geweest: op Van's Hardware vertelde men vorig jaar al dat de domeinnaam bapco.com oorspronkelijk op naam van Intel stond. Nu blijkt zelfs dat veranderingen die sinds de 2001-versie in SysMark 2002 zijn doorgevoerd, de nadruk leggen op het draaien van geheugen-intensieve taken, een terrein waarop de Pentium 4 zich van zijn sterke kant kan laten zien. Taken waarop de processors van AMD beter presteren, worden veel minder zwaar gewaardeerd in het eindresultaat van de benchmark. Volgens onder meer Dean Kent op het forum van Ace's Hardware zijn de misstanden in de benchmark suite de reden dat AMD recent lid is geworden van Bapco. Dean Kent legt op dit forum ook uit hoe de einduitslag van SysMark beoordeeld wordt:

Bapco logo Specifically, the weightings are based upon 'run time', as I mentioned before. This means a task that runs twice as long as another will get twice the 'weight' in the aggregate score. Since memory-intensive tasks will tend to run longer than CPU intensive tasks, this means the P4 will automatically be favored, even if the 'quantity' of memory intensive tasks vs. CPU intensive tasks are equal. Add in a few more memory intensive tasks, and you see a big shift towards the P4 - and this is what you will see when the 'news' really breaks. [break]Ook Anand geeft in de fora van AnandTech zijn mening over het fenomeen:[/break] Here's the main problem: SYSMark 2001 ran a certain set of tasks but in the move to SYSMark 2002, a good deal of the tasks that AMD's Athlon was faster at were removed and replaced with tasks that the Pentium 4 was faster at. Both sets of tasks are perfectly valid tests of CPU performance (it's not like BAPCo just stuck in random tasks that don't do anything) but the point that must be made is that the changes were made seemingly without any user-level research to back them up. If there was some research that said "this is how most people use their systems" that caused BAPCo to change their methodology then this wouldn't have been a problem, but without that backing for their decision then it just seems as if BAPCo optimized the benchmark for the Pentium 4.

Geïnteresseerden kunnen hier een PDF van AMD downloaden, waarin de fabrikant haar eigen bevindingen weergeeft.

Door Maxim Burgerhout

Nieuwsposter

25-08-2002 • 22:17

62

Bron: The Inquirer

Reacties (62)

62
60
48
24
1
2
Wijzig sortering
Dit is dus precies de reden waarom ik onafhankelijke benchmarks ontwikkeld wil zien, desnoods ontwikkeld door AMD en INTEL tezamen. Ik heb om eerlijk te zijn ook mijn twijfels (al enige tijd) over specview en 3dMark benchmarks...
Anoniem: 1977 @xces25 augustus 2002 22:48
er begint weer een vieze smaak in mijn mond te ontwikkelen (en het is niet de koffie)...
Eerder is dit al gebeurd met intels i740 grafische kaart... die was sneller dan de Voodoo2 volgens intel en in sommige benchmarks was dat ook zo.

Behalve in real life spellen, want dan kwam hij er niet aan te pas (wat een verrassing) maar hij is wel ontzettend veel verkocht.
Later bleek dat de benchmarks opzettelijk "beïnvloed" waren. :r

Zo krijg je nooit een goed beeld van het beste waar voor je geld... goed naar "onafhankelijke" sites blijven kijken dan maar en in losse testen i.p.v. suites
Je kan beter paar dikke reviews met massa's benchmarks lezen, dan kan je correcter beoordelen, want 1 meetmethode is niet betrouwbaar.
Pak dan gewoon de game-demo's. Dat zijn reallife performance indicaties. Domweg frampjes tellen bij een demo met instelling X.
Ja oke dat heb je 1 onderdeel gehad van testen maar daarna moet je een office geval zien te krijgen en daar bestaat nou niet een performance demo van :P
Zelfde geld voor multimedia playback (ook al zou het daar wel makkelijker voor te maken zijn).
Maar ja een consument is eenvoudig te overtuigen als het om mhz gaat en benchmarks zeggen toch al niet veel dus dit is gewoon eenvoudig gezegd een voordeel voor Intel, terwijl het gewoon gelogen is.

Maar ja marketing is dat ook dus kun je het eigenlijk wel weg laten!
AMD en Intel zijn samen wel marktleiders, maar ze hebben denk ik 90-95% van de markt in handen. Dus helemaal onafhankelijk is het dan niet.

Je krijgt dan een oneerlijke bench voor bijv Transmeta en VIA CPU's. Mocht je om een platform-independent bench schreeuwen, dan zijn er nog veel meer chipfabrikanten die in het nadeel gesteld zouden kunnen worden.

Gewoon een onafhankelijk bedrijfje nemen dus, desnoods een open-source dinge, dat zou het beste zijn IMHO.

Reactie op Hallers:
3DMark is een programma dat de 3D performance van een kaart bencht, niet de GF-features van een kaart. Dus wat ze doen is zo fout als het maar kan.

Iedereen verdient toch een gelijke kans :?
3dmark is precies hetzelfde verhaaltje, 3dmark schreeuwt gewoon nvidia nvidia maar blijkbaar zijn alle nvidiots selectief doof.
Nou moet je ook wel even in je achterhoofd houden dat veel games worden ontwikkeld met speciale features voor de GeForce-kaarten, dus dat 3Dmark de NVidia's "voortrekt" kan ik op zich best wel begrijpen...
3dMark is helemaal niet hetzelfde verhaal, dat houdt zich gewoon aan DirectX. Dat nVidia veel invloed heeft bij Microsoft als het over DirectX gaat wil niet zeggen dat 3dMark slecht is.
Anoniem: 55633 @xces26 augustus 2002 11:23
Kijk eens op www.tomshardware.com voor een wat genuanceerder verhaal van iemand die dichter bij het vuur zit...Overigens ook over eerdere benchmark-perikelen tussen Ati en nVidia!

Ben het overigens eens met degenen die menen dat benchmarks doorzichtiger moeten worden.
tsja gelijk heb je wel, maar intel en amd?, ik denk dan aan water en vuur :o
Ik denk nu aan een kopje thee :+
Waarom kan met niet gewoon met het aantal MIPS werken, of ligt het allemaal iets ingewikkelder? (zal wel, anders hadden ze dat al lang gedaan, maar kan het niet op zo'n soort eenvoudige manier?)
Nee, dat kan niet. De aard van de instructieset is soms al anders (SSE2, 3DNow!) en die zijn dus niet lineair te vergelijken, terwijl dat toch een groot deel van de CPU is...
Omdat de ene processor een taak in 50 operaties en een andere processor diezelfde taak in bijvoorbeeld 25 operaties uit kan voeren.

Kan je dus wel aan gaan geven hoeveel operaties een processor per sec. kan uitvoeren, maar dan weet je nog niets.

Het gaat erom hoe snel een processor een taak kan uitvoeren. Maar daar ligt nu juist het probleem.
Er zijn honderden/duizenden verschillende taken te bedenken, dus welke test je?
Je zou een profiel van een gebruiker moeten merge-en met de test resultaten om een test uitslag te geven. De programma's die een gebruiker gebruikt bepalen welk soort bewerkingen belangrijk zijn en welke niet.
MIPS is een puur theoretisch getal dat niets zegt over de effectiviteit van de processor. Een processor met 8 rekeneenheden kan in de praktijk slechter presteren dan een proc met 4 rekeneenhouden als de frontend niet in staat is om om voldoende instructies aan te leveren. MIPS zegt helemaal niks over de prestaties van de branch prediction, schedulers, cache e.d.
Als je die pdf van AMD leest dan is het punt dat de rating van de AMD's veranderd is tijdens de overgang van SysMark2001 naar SysMark2002 en dat de Pentium4 er beter uitkomt in SysMark2002.

Nu zegt iedereen dat Bapco hun programma heeft aangepast om de Pentium4 te bevoordelen (Dat is de AMD kijk op het verhaal), maar het is natuurlijk net zo goed mogelijk dat in SysMark2001 de AMD CPU's (teveel) bevoordeeld werden en dat die fout in SysMark2002 nu is rechtgezet.

Maar daar hoor je niemand over.
Zie de quote van Anand. Het is opmerkelijk dat bepaalde tests waarin de Athlon XP sneller was dan de Pentium 4 in SysMark 2002 zijn verdwenen zonder dat deze verandering onderbouwd kunnen worden met onderzoeksresultaten over over real-life gebruikspatronen.
Inderdaad, zo gebruikte SysMark 2001 dertien verschillende Photoshop filters. Acht daarvan bleken sneller te draaien op de Athlon XP. In versie 2002 waren deze acht filters 'toevallig' verdwenen, en draaiden de andere filters ineens 3/4/5 keer achterelkaar om het voordeel van Pentium 4 groter te laten lijken.
Inderdaad, zo gebruikte SysMark 2001 dertien verschillende Photoshop filters. Acht daarvan bleken sneller te draaien op de Athlon XP. In versie 2002 waren deze acht filters 'toevallig' verdwenen, en draaiden de andere filters ineens 3/4/5 keer achterelkaar om het voordeel van Pentium 4 groter te laten lijken.
Dat is inderdaad waar Van Smith de nadruk op legt.

Maar naast de Photoshop filters gaat het ook om de de "Flash" testen. Blijkbaar zijn 211 van de 241 "Flash" testen verwijderd in SYSMark 2002, precies die testen waar de Athlon XP beter scoorde dan de Intel. De overgebleven 30 testen werden zo gemanipuleerd dat de Intel met z'n bandbreedte nog meer in het voordeel kwam te staan.
quote
Nu zegt iedereen dat Bapco hun programma heeft aangepast om de Pentium4 te bevoordelen (Dat is de AMD kijk op het verhaal), maar het is natuurlijk net zo goed mogelijk dat in SysMark2001 de AMD CPU's (teveel) bevoordeeld werden en dat die fout in SysMark2002 nu is rechtgezet

Nope, SysMark2001 bevat veel SSE optimalisaties.
Toen kwam AMD echter met de AthlonXP(MET SSE!)
en gut nu is de AthlonXP steeds beter.
De processoren van Intel en AMD verschillen ondertussen al zoveel van elkaar dat je je af zou vragen of het nog wel te vergelijken is. Je zou haast gaan kijken voor welke instructies jouw programmatuur geoptimaliseerd is en aan de hand daarvan een proc kopen...

En dat is uiteindelijk misschien nog niet eens zo'n slecht idee : "Ik speel veel *vul spel in* dus ik koop een Intel processor omdat dat spel zo goed SSE2 ondersteund" om maar iets te noemen...

Je kunt een benchmark wel proberen overal voor te optimaliseren, maar dan krijg je door sommige technieken die misschien wel nooit gebruikt worden weer onrealistische te hoge scores.
SysMark is een applicatiebenchmark die bestaande applicaties gebruikt om de performance te meten. Tijdens een SysMark run zie je dus daadwerkelijk Word, PowerPoint, Photoshop, Dreamweaver en meer van dat soort applicaties op de desktop draaien. SysMark voert een script uit die een gebruiker emuleert (je ziet bijv. Word automatisch allerlei menuutjes openen en teksten bewerken). Het concept van applicatiebenchmarks zoals SysMark en Winstone is dus erg goed, op voorwaarde dat het gebruikspatroon dat geëmuleerd wordt ook representatief is voor de werkelijkheid. Hier schort het bij SysMark 2002 kennelijk aan. Gelukkig is AMD sinds kort ook lid van Bapco zodat toekomstige SysMark versies waarschijnlijk een eerlijker resultaat zullen geven.

Dat deze informatie nu naar buiten komt verbaast me overigens niet. De resultaten van SysMark 2002 waren altijd al dubieus.
SysMark 2002 is dus geen benchmark programma.

Zodra een programma een bepaald merk gaat voortrekken, spreek je mijn inziens niet meer van een benchmark programma.
Het zal dan heus nog wel een benchmark zijn maar het is nou niet echt slim van ze om zo te werk te gaan, immers, de resultaten komen niet meer overeen met de performance "buiten" de benchmark.
Nee, het zijn statistieken van real life gebruik. De vraag is alleen; welke selecteer je? Als je maar goed selecteert kun je deze real life-benchmark vanzelf een bepaalde kant op sturen.
there are lies, damned lies an statistics
Volgens onder meer Dean Kent op het forum van Ace's Hardware zijn de misstanden in de benchmark suite de reden dat AMD recent lid is geworden van Bapco.
Dat is wel een logische conclusie die je kan trekken, maar ik kan het niet opmaken uit de originele tekst van Dean Kent die op het forum van Ace's Hardware te vinden is.

De vraag is dus nog steeds:

Heeft AMD het besluit gemaakt om lid te worden van BAPCo nadat ze er achter kwamen dat Intel en BAPCo goed konden samenwerken ?
Dat is wel een logische conclusie die je kan trekken, maar ik kan het niet opmaken uit de originele tekst van Dean Kent die op het forum van Ace's Hardware te vinden is.
Maar het staat wel overduidelijk op slide 13 van de presentatie :). Antwoord: ja, ze besloten lid te worden nadat ze er achter kwamen dat 2002 twijfelachtige resultaten gaf.
Maar het staat wel overduidelijk op slide 13 van de presentatie
Maar dat zijn niet de woorden van Dean Kent.
Waarom maakt MS niet een degelijke Sysinfo welke dus alle componenten in een systeem beoordeeld en mbv. de resultaten een mooie uitkomst geeft. MS krijgt geen financiele steun van andere bedrijven, er lopen al rechtzaken genoeg tegen MS en ze worden te goed in de gaten gehouden om te frauderen.
De nieuwe Microsoft Windows.Net server software blijkt geen ondersteuning aan boort te hebben voor x86-86 processoren zoals de Opteron. Wel is er support voor IA-64 van Intel. Dus zo onafhankelijk en onpartijdig is Microsoft niet.
Toch niks nieuws?

Op deze mannier waren de processors van Intel altijd 5x sneller dan die van apple (en vice versa)
Inderdaad, en de volgende nieuwspost van Amd laat zich ook al raden:

Te weinig 64bit instructies in SysMark 2003

Zo blijven we bezig. Amd moet gewoon een betere marketing gaan voeren. En imho hoort moddergooien daar niet bij.
Laat Amd zelf maar eens een benchmark ontwikkelen die een eerlijk beeld geeft.

* 786562 TheGhostInc
Nou, als dit gerucht echt waar is dan zullen we bij de AMD HAMMER wel een flinke verbetering zien, want die had een snellere toegang tot het geheugen als ik me nie vergis, on die geheugen controller ofzoiets.
Het feit dat Intel een stapel designers naar BAPCo heeft gestuurd om mee te helpen met het maken van SYSmark 2002 is wel erg vies. Vlak na de release van SYSmark 2001 kwam de AthlonXP. En tot verbazing van Intel verloor de Pentium 4 het herhaaldelijk van de AthlonXP, zelfs met een lager geklokte AthlonXP. Hierna zijn Intel en BAPCo weer aan het werk gegaan, om wederom de Intel in het goede daglicht te zetten door geheugenafhankelijke testmethoden te gebruiken, waar de Pentium nu eenmaal goed in is. Het resultaat hiervan was SYSmark 2002, een van de meest onrealistische benchmarks.

Het is belangrijk dat Intel en AMD (eventueel ook anderen procbakkers) nu aan de tafel gaan zitten om een universeel benchmark programma te ontwikkelen met behulp van een PR Rating. Je kan nu eenmaal processoren niet vergelijken op alleen Hz of interne architectuur.

Op dit item kan niet meer gereageerd worden.