Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 67 reacties
Submitter: iyanic

Vanaf nu zal Futuremark, zodra het vermoedt dat een smartphone of tablet vals speelt bij zijn 3d-Android-benchmark, deze onderaan de ranglijst plaatsen met de aanduiding delisted. Het bedrijf raadt aan benchmarkscores van die smartphones ook in het geheel niet meer te gebruiken.

Futuremark heeft versie v1.2.0.1232 van 3DMark Android uitgebracht. De opvallendste wijziging is dat de software apparaten met 'verdachte benchmark-scores' niet meer meeneemt. Mobiele apparaten die zich niet aan de regels van Futuremark houden en waarvan het bedrijf het vermoeden heeft dat ze vals spelen, komen onder aan de ranglijst van 3DMark Android te staan. Bij de meest recente lijst is dat het geval met de HTC One, HTC One Mini, Samsung Galaxy Note 10.1, Samsung Galaxy Note 10.1 2014 en de Samsung Galaxy Note III.

Van veel toestellen is bekend dat ze de resultaten van benchmarks positief proberen te beïnvloeden. Als ze detecteren dat een benchmark draait, worden alle processorkernen meteen op hun maximale kloksnelheid vastgezet. Er is discussie mogelijk in hoeverre dit vals spelen betreft, aangezien de cores bij zware rekentaken ook op volle kracht moeten draaien. "Een apparaat moet onze benchmark zonder modificaties draaien, als ware het willekeurig welke andere applicatie", vindt Futuremark echter. 

3D mark Android IceStorm

Moderatie-faq Wijzig weergave

Reacties (67)

De Nexus 5 doet dat toch ook, waarom wordt die niet delisted?
Als die bij andere applicaties gelijkaardig gedrag vertoond zal dat niet direct een probleem zijn.

Als men echter logica inbouwt die sneller gaat reageren als een benchmark draait, dan wordt het een ander verhaal.

Stel bvb dat bij een systeem staat ingesteld om bij 10 seconden @load 80% = ik ga de kloksnelheid verhogen.
Maar er staat een extra regel die zegt dat ... als de applicatie die nu draait benchmark X is ... kloksnelheid onmiddelijk verhogen, dus niet eerst 10 seconden wachten.

Dan manipuleer je gewoon de benchmark en haal je die zijn bestaansreden eigenlijk onderuit.
.

[Reactie gewijzigd door watercoolertje op 27 november 2013 09:02]

maar het is toch goed als een telefoon niet steeds op max kloksnelheid draait. dat gaat dan ten kosten van de batterij
Ja en het lekkere is dat deze update van 3DMark Android het niet meer doet op mijn MeLE M9, wanneer de versie voor deze update het wel goed deed.

Hoop dat ze dit snel fixen voor de mensen met denk ik een Allwinner A31 Cortex A7 CPU met PowerVR SGX544MP2 GPU.
Nexus 5 doet dat niet, telefoons met stock Android doen dit niet, daarom scoort de S4 GPE en de One GPE lager dan de normale versies.

Oftwel, smartphones met stock Android spelen niet valt, vals spelen is softwarematig.
misschien, omdat dat nog niet helemaal bekend is en het algoritme daar nog geen flags terug geeft. Met de hoeveelheid toestellen van tegenwoordig kan het best zijn dat er eentje tussendoor glipt.
Maar nou juist de Nexus 5 die ertussendoor glipt? Sowieso vind ik kunstmatige benchmarks niet echt geschikt, en ze zijn ook niet nodig meer: er zijn veel betere testen, die echte dingen doen, zoals een bepaald spel automatisch draaien gedurende tien minuten, of een video aanzetten gedurende tien minuten, of automatisch browsen gedurende tien minuten.
Dat is nou net het gevaar van zo'n maatregel.

Ik snap best dat Futuremark dit wil, de waarde van de benchmark wordt behoorlijk omlaag gehaald door dit soort praktijken. Maar aan de andere kant ben je nog steeds afhankelijk van de vraag of Futuremark 'misbruik' gedetecteerd heeft van een bepaald toestel. Je bent er dus nog steeds niet helemaal zeker van dat de benchmarks eerlijk verlopen.
.

[Reactie gewijzigd door watercoolertje op 27 november 2013 09:02]

De Nexus 5 doet dat toch ook, waarom wordt die niet delisted?
bij de toestellen die geblacklist zijn, was het valsspelen overduidelijk, er waren diverse property/config bestanden gevonden waar het meer dan overduidelijk in stond.

Dat is bij de nexus 5 waarschijnlijk niet het geval.
...Bron? De Nexus 5 doet dit niet, de governor verandert zijn gedrag op die telefoon niet wanneer er bepaalde apps wel of niet draaien, zoals het hoort.
Zolang de extra processor kracht die dan voor de benchmark word toegepast niet boven de "normale" extra rekenkracht uit komt bij het draaien van bijvoorbeeld zware spellen dan zie ik het probleem niet zo.
Dat is dus juist wel het geval bij deze toestellen. De snelheid wordt alleen voor deze benchmarks extra opgeschroefd en niet voor andere zware applicaties. Die extra snelheid zouden ze natuurlijk ook kunnen activeren bij de andere zware applicaties maar dat zou nadelige effecten hebben voor de accuduur, levensduur en warmteontwikkeling van de telefoon zelf. Bij benchmarks treden deze effecten natuurlijk ook op, maar hier is dit niet zo erg omdat je niet elke dag een benchmark draait op je telefoon en ook niet voor een lange tijd.
3dmark wordt toch JUIST gebruikt voor overklokken, hiermee testte ik altijd hoever ik kon gaan!
3dmark wordt toch JUIST gebruikt voor overklokken, hiermee testte ik altijd hoever ik kon gaan!
Maar je gebruikt 't niet als marketing tactiek om beter te verkopen dan je concurrent, of wel?

Dat is waar het hier om gaat, benchmarks vervalsen, om betere resultaten te verkrijgen dan je concurenten, en daardoor betere sales binnen te harken.

Overclocken is een wedstrijd, en een overgeklokt systeem maakt geen onderscheid tussen applicatie, die zal voor 3D mark net zo hard draaien als voor word of notepad. In deze situaties wordt het gehele reguliere hardware management schema overhoop gegooit, om de maximale score te halen. Een score die ze zonder die aanpassing niet zouden halen, en die aanpassing wordt ook alleen gedaan voor benchmarks, niet voor normale zware apps.
Volledig terecht imo. Valsspelen blijft valsspelen.
Mooi dat de benchmarks dit nu ook vinden, nu zullen prestaties van smartphones weer onderling vergelijkbaar worden.
Wat is er valsspelen aan? De futuremark benchmarks worden al jaar en dag gebruikt voor het testen van systemen welke sneller draaien dan bedoeld.
Voor zover ik weet gaat het hier echt om overclocking op basis van de naam van de applicatie. Zodra de naam van de applicatie werd veranderd in iets anders dan die van de benchmark werd de smartphone niet meer overclocked.
Als de telefoon nou gewoon zou overclocken bij alle zware taken is het naar mijn inziens geen valsspelen, maar zo geeft het geen goede representatie van wat voor prestaties het toestel normaal gesproken levert.

(http://www.anandtech.com/show/7384/)
Scheelt blijkbaar zo'n 4.4%
Wat is er valsspelen aan? De futuremark benchmarks worden al jaar en dag gebruikt voor het testen van systemen welke sneller draaien dan bedoeld.
Maar die systemen draaien harder om in totaal - voor alle applicaties - harder te draaien. Niet alleen voor 3D Mark. En dat is waar de schoen wringt in deze. Als standaard hardware de benchmark detecteerd, wordt alles op alles gezet om die benchmark zo snel mogelijk te laten draaien, performance die je bij normaal gebruik (incl zware applicaties) niet tot nauwelijks krijgt.
haha het rating systeem van Tweakers is weer los. Een +3 rating voor bovenstaande opmerking?


on-topic: Hier de lijst met geteste devices. Hier zie je ook dat de genoemde toestellen gemarkeerd zijn als 'Delisted' en helemaal onderaan gezet zijn.
http://community.futuremark.com/hardware/mobile
Maar dan ben ik dus benieuwd op hoeveel GHz die toestellen gedraaid hebben gedurende de test. Dat moet er toch ook uit te halen zijn tijdens het uitvoeren?
Ze draaien maar een een paar (tientallen) procent sneller hoor. Maar net genoeg om boven de concurrentie uit te steken. Het verschil is klein, maar als je rest van de hardware vijrwel gelijk is kan het net een andere aankoopbeslissing sturen.
Tsjah, ik vind het wel meevallen. Is een PC benchmark op standje High Performance ineens niet meer betrouwbaar? Moeten we dan uitgaan van de energy-save prestaties?

Enige voorwaarde die ik zou willen stellen is dat games en applicaties ook de technische mogelijkheid moeten hebben om op de hoge kloksnelheid te draaien.
Lijkt me op het eerste gezicht ietwat kort door de bocht.
Volgens mij was het verschil dat hij tijdens het runnen van de benchmark daadwerkelijk nog hoger ging klokken dan dat hij normaal onder full load zou doen. Dat maakt het niet representatief voor de prestaties van het apparaat.

Bijvoorbeeld normaal is de max kloksnelheid 1.5 ghz. Maar hij kijkt runt benchmark x? Dan klokken we hem even over naar 1.7ghz.

[Reactie gewijzigd door ZpAz op 26 november 2013 13:25]

Als iedereen het doet, is het eigenlijk wie het beste zijn software kan optimaliseren....

Waar kennen we dat van...? Oh ja... van videokaart fabrikanten <vul hier de namen in>.
ik kan me in die discussie wel vinden, want als iemand een benchmark op een pc draait zet hij toch ook alles zo dat hij de maximale prestaties krijgt?
voor android zou ik het toestel herstarten en alle apps uitschakkelen

[Reactie gewijzigd door Sir_Markus op 26 november 2013 13:19]

Een hogere benchmarkscore geeft potentiŽle kopers de indruk dat het toestel sneller is dan de concurrentie en dat is uiteraard de consument bedriegen.

leuk artikel: http://www.anandtech.com/...ing-in-android-benchmarks

eisen voor goede smartphone benchmark volgens futuremark:
  • The platform may not change the quality level of the work.
  • The platform may not use an alternative technique to that requested by the workload.
  • The platform may not replace or remove any portion of the requested work even if the change would result in the same output.
  • Optimizations based on empirical data of benchmark workloads are not allowed.
  • Optimizations that change the output of the work are not allowed.
  • The platform may not detect the launch of the benchmark executable.
  • The platform must not alter, replace or override any parameters or parts of the test, nor modify the usual functioning of the platform based on the detection of the benchmark.
"Will all smartphone manufactures stop rigging the benchmarks if all these companies start delisting devices from their benchmark list? Only time will tell. Since Futuremark can’t check every device, the company asks people to mail them at testlab@futuremark.com , if you come across a device with a suspcious score, so that they can can investigate further. "

[Reactie gewijzigd door Rigs op 26 november 2013 13:38]

Interessant, want met nieuwe VM's (ANT voor android) zullen de intepreterers/compilers precies proberen workloads die geen output hebben weg te optimaliseren. Dat geldt dan voor alle applicaties, en niet alleen benchmarks.

Een lusje wat niks doet, mag volgens de regels niet weggeoptimaliseerd worden, terwijl de VM/compiler dit wellicht wel gaat doen. Dan zul je zien dat 1 bepaalde subtest opeens 100x sneller wordt. Maar sommige apps worden ook echt sneller....
Een beetje smartphonekoper leest zich een beetje in voordat hij een telefoon koopt, en baseert z'n keuze niet alleen op een paar benchmarks. Kwaliteit van het beeldscherm, accuduur, bouwkwaliteit zijn minstens even belangrijk, en niet te vergeten hoe zo'n toestel in de dagelijkse praktijk presteert (bijv. haperingen, vloeiende graphics etc.).
een beetje tweaker wel uiteraard, heb zelf nog vorig week voor een monitor al men opties overwogen en na deftig onderzoek de benq2420t gekocht voor mezelf, maar de meeste mensen stappen gewoon in deze gevallen een smartphone winkel binnen en sommige verkopers weten nu ook eenmaal niet beter dan te verwijzen naar benchmarks die in zoals hierboven in artikel aangegeven niet altijd correct zijn.

ken je het verhaal van de giraf ? en als dit verhaal 10 mensen aandoet is het een olifant geworden..

uiteraard kijken sommige gewoon naar het uiterlijk van een toestel of naar hoe hoger de prijs hoe beter, dewelke niet altijd het geval is.
nee, een beetje tweaker smartphone koper doet dat, maar dat is misschien 0,01% van de markt. De gemiddelde gebruiker leest misschien een paar reviews, en daar worden zulke benchmarks prominent in genoemd. Ook zullen ze dan wellicht bij de benchmark site zelf gaan kijken.

Als ze al zo ver gaan, dan verder dan dat zeker niet.
Ja en nee. Stel je voor, AMD gaat benchmarken en laat zien dat hun processor en videokaart combinatie ongeveer 1,5x zo snel is als een vergelijkbare intel/nvidia setup. Maar wat jij niet weet is dat dit gedaan is door de hardware in olie te dopen, gigantisch te boel over te klokken en zo een korte test uit te voeren voordat de boel crashte.
Want zou jij als consument hier iets aan hebben? Lijkt me niet.

Nu is dat wel een hele grote extreem, maar toch is dit niet heel anders dan wat bedrijven zoals Samsung en HTC doen, want het is gebleken dat wanneer zo'n test meerdere keren wordt uitgevoerd dat de scores opeens in verhouding zijn, dit omdat de telefoon dan zo warm is, dat die op een normale manier gaat draaien, zou die wel doorgaan dan zou de telefoon crashen oid.

Uiteindelijk moeten benchmarks laten zien hoe snel een toestel is, zeker bij een benchmark als futuremark, die gericht is op het grafische, is het toch wel belangrijk of je telefoon/tablet het langer dan 5 minuten uithoudt, en gezien je deze performance sowieso niet krijgt bij een spel, is het gewoon een loze en totaal niet relevante score.
Wat jij zegt (pc zo zetten dat hij met maximale prestaties draait), doe je normaal gezien ook als je gaat gamen en dat is dus een relevante benchmark. Ga je nog een paar stappen verder door pakweg vloeibare stikstof en een extreme overklok te gebruiken voor je benchmark, dan gebruik je toch geen realistische setup meer en ben je gewoon aan het benchmarken om te benchmarken. Dat is wat die telefoons doen, de setup is niet realistisch. Moesten dezelfde instellingen gebruikt worden voor games of zware apps zie ik er ook geen probleem in, maar dat gaat niet want de telefoon wordt hier na een paar minuten te warm voor.
Ik persoonlijk niet. Het enigste wat ik doe is alle andere programma's even afsluiten.

Maar ja, wie ben ik?
Ik vind het wel een correcte zet van FM. Het is begrijpelijk dat fabrikanten er op in spelen en de scores voor leuke marketingpraatjes willen gebruiken, maar dat lijkt mij een beetje een vertekenend beeld te geven.
En dat gaat ook niet veranderen natuurlijk. Benchmark scores worden vooral veel gepubliceerd als een toestel net op de markt is, maar juist dan is nog niet (altijd) bekend of een toestel geoptimaliseerd is voor benchmarks. Kans is dus groot dat zo'n toestel eerst lekker breeduit in het nieuws komt vanwege z'n hoge FM score, en pas later delisted wordt.
Hoe haalbaar de zet in de praktijk is is een tweede, absoluut waar. Ik doelde dan ook meer op de principiŽle zet vanuit FM, ik kan het wel waarderen.
Als men dit nou toepast bij elke telefoon, dan is het geen probleem en betekenen benchmarks op zich weer wat.. :+
Gelijk hebben ze, benchmarks zijn er om een goed beeld van de prestaties te geven, niet om te laten zien welk apparaat het beste geoptimaliseerd is voor betreffende benchmarks.
.

[Reactie gewijzigd door watercoolertje op 27 november 2013 09:01]

Ik snap de discussie die mogelijk is. Maar ik vind persoonlijk de gedachte van Futuremark wel de beste. Zeker omdat er gevallen bekend zijn waarbij sommige toestellen zich zo aanpassen dat de toegestane warmtegrens wordt genegeerd om maar een zo goed mogelijk resultaat te behalen. Dit is in "normale" apps niet mogelijk en dus vind ik dat er een niet-waarheidsgetrouw beeld ontstaat.
Op zich is het activeren van alle kernen op maximale snelheid toch juist goed voor het testen van de performance? Het enige probleem, voor zover ik het zie, is dat de ene telefoon dit wel doet en de ander blijkbaar niet. Volgens mij zouden benchmarks en andere zware applicaties gewoon een vlaggetje "high-performance" moeten krijgen, wat voor de toestellen een signaal zou kunnen zijn om de hardware 100% "open te draaien". Dat vind ik niet vals spelen, zolang alle telefoons het doen en er duidelijkheid over komt. Want het lijkt mij dat een benchmark dan juist meer kloppende waarden geeft, namelijk het maximaal haalbare. Of denk ik nu helemaal verkeerd?

[Reactie gewijzigd door geert1 op 26 november 2013 13:24]

Nee, niet zolang alle telefoons het doen. Maar zolang dit bij alle applicaties gebeurd die high-performance nodig hebben.

En niet die 5min dat het gemeten wordt.

Om nu een betrouwbare benchmark te meten moet de telefoon 60min high-performance draaien en de prestaties op een volledig willekeurig moment meten. Omdat anders de telefoon precies tijdens het meten optimaliseerd en de overige 55min ver onder maat presteerd.

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True