Samsung speelt met Android 4.4-update niet langer vals in benchmarks

Samsung lijkt met de Android 4.4-update voor de Galaxy S4 en Note 3 de code uit de software gehaald te hebben om hoger te scoren in benchmarks. Deze 'benchmarkbooster' zit wel in firmwares voor Samsung-toestellen met Android 4.3.

Samsung 'speelde vals' bij benchmarks door een lijst van benchmarkapps in de firmware te zetten; als de software constateert dat de gebruiker zo'n app start, staan de processorkernen standaard allemaal op de maximale kloksnelheid. Dat gebeurt niet alleen tijdens het draaien van de benchmark, maar ook in bijvoorbeeld menu's waar die processorkracht niet nodig is. In die lijst staan veelgebruikte native benchmarks en webbased benchmarks als Sunspider en Browsermark.

Omdat de processorkernen dan al op de maximale snelheid draaien, hoeft de soc de kernen niet meer hoger te klokken als de benchmark start en scoort een telefoon hoger dan normaliter het geval zou zijn. Anandtech betrapte diverse fabrikanten vorig jaar op vals spelen bij benchmarks. Bij de versie van de Galaxy S4 met Exynos-soc ging Samsung een stap verder: benchmarks kregen daar toegang tot een gpu-kloksnelheid die normale apps niet konden bereiken. Dat is bij Qualcomm-socs niet het geval.

De benchmarkbooster lijkt verdwenen uit de code van Samsungs Android 4.4-firmwares voor onder meer de Galaxy S4 en Note 3, zegt Ars Technica. Het bestand waarin de benchmarks stonden is weg, kernen hebben niet langer de maximale kloksnelheid in menu's van benchmarks en de maker van Geekbench heeft signifcant lagere scores gemeten op Android 4.4 dan met dezelfde toestellen op Android 4.3.

Het is nog altijd niet uit te sluiten dat Samsung een moeilijker detecteerbare manier van vals spelen heeft gevonden, waarschuwt Ars Technica, hoewel het die kans klein acht. De impact van het vals spelen op reviews van Tweakers is gering geweest: Tweakers gebruikt veel minder gangbare benchmarks zoals Andebench en Kraken, waardoor de benchmarkbooster geen invloed heeft op veel van de resultaten in onze reviews. Samsung is niet de enige die resultaten van benchmarks probeerde te beïnvloeden. Andere fabrikanten, waaronder HTC en LG, gebruiken dezelfde soort trucs.

Geekbench op Galaxy S4 onder Android 4.3 en 4.4

Geekbench op een Samsung Galaxy S4 onder Android 4.3 (links) en Android 4.4 (rechts). Het is zichtbaar dat onder Android 4.3 alle processorkernen op de maximale kloksnelheid draaien, waar dat rechts niet het geval is (screenshots: Ars Technica)

Door Arnoud Wokke

Redacteur Tweakers

05-03-2014 • 10:49

99

Reacties (99)

99
87
52
2
0
4
Wijzig sortering
Is het doel van zo'n benchmark dan niet de maximale prestaties onder optimale omstandigheden meten? Ik zou het erger vinden moesten ze bijvoorbeeld een bug in de benchmark software misbruiken om de resultaten kunstmatig te verhogen, tot boven wat fysiek mogelijk is met de gebruikte hardware.

EDIT

Voor zover ik het begrijp, is het probleem dus dat de beïnvloede resultaten niet representatief zijn voor hoe de telefoon omgaat met andere zware apps. Tja...

[Reactie gewijzigd door sliekens op 22 juli 2024 14:53]

Het doel van een benchmark is toch juist het vergelijken van verschillende hardware eenvoudiger maken?

Als dan het ene toestel alvast de maximale kloksnelheid aanneemt, kan de implementatie van adaptieve klok niet meer worden meegenomen; ik kan me voorstellen dat dat voor sommige benchmarks, en zeker voor dagelijkse situaties, best wel invloed heeft op de prestaties van het toestel. Dit heeft negatieve impact op hoe goed je met de benchmark kunt vergelijken.

Deze actie lijkt op het excessief trainen voor de cito-toets: er wordt naar de test toegewerkt, waardoor de resultaten van die test veel minder zeggen over datgene waarvoor de test was bedoeld. Dit geldt in het bijzonder voor het volgende:
Bij de versie van de Galaxy S4 met Exynos-soc ging Samsung een stap verder: benchmarks kregen daar toegang tot een gpu-kloksnelheid die normale apps niet konden bereiken.

[Reactie gewijzigd door Lord_Farin op 22 juli 2024 14:53]

Het probleem is dat de tests zélf niet representatief zijn voor het gebruik van de telefoon.

Elke telefoon schakelt enkele cores uit bij het idlen om stroom te sparen. Dit is geen probleem bij normaal gebruik, want de cores schieten in actie binnen enkele milliseconden nadat je een zware app of game start.

De benchmarks daarentegen duren slechts een fractie van een seconde, waardoor de fabrikant wordt afgestraft met een meetbaar slechtere score, ook al maakt het bij normaal gebruik geen fluit uit dat je app een tiende van een seconde trager start (vooral omdat je batterij hierdoor dubbel zo lang meegaat).

Het is alsof je als deel van het sollicitatieproces bij een bedrijf om vier uur 's nachts uit bed gebeld wordt om na te gaan hoe je met stress omgaat. Als je dit op voorhand weet, dan zorg je toch dat je gewoon wakker bent wanneer de telefoon rinkelt. Is dit valsspelen?
Moet het alleen wel eerlijk gebeuren, je gaat in een (straat) race ook geen 2 auto's tegen elkaar laten racen waar er 1 op topsnelheid over de startlijn mag gaan en de andere vanaf 0 moet optrekken.
Meer je motor stationair laten draaien of de toeren al op te voeren. Dit doe je wel bij de start, aan de ander de keus of hij mee doet.
Dit is zelfs de perfecte vergelijking, want stationair draaien is gewoon veel zuiniger en in 99.9% van de gevallen gewoon de betere keuze..

De populaire benchmarks slagen er niet in om real world performance na te bootsen en reduceren een rijexamen tot louter een onverwachte sprintrace tot het volgende verkeerslicht. Dan moet men ook niet verbaasd zijn dat de leerling vooral de quartermile oefent.
maar ligt dat aan de benchmark of aan de telefoon?

of om de vergelijking te volgen; ligt het aan de auto, of aan de bestuurder (of de starter) ;)
Anoniem: 315662 @sliekens5 maart 2014 11:07
In principe haal je inderdaad geen scores die niet mogelijk zijn. Maar het gaat er waarschijnlijk meer om dat er een oneerlijk voordeel optreedt door de boosts. Waar een 'gebooste' processor al aan staat en zo klaar is om op 100% te rekenen duurt dat in normale situaties wat langer waardoor de vergelijking dus niet meer klopt.
Als iedereen dezelfde boosts zou gebruiken zou er ook geen probleem zijn want dan zijn de scores alsnog te vergelijken.
Ja dat is inderdaad de definitie, vals spelen is dus niet helemaal de juiste verwoording.
Leuk die benchmark boosters. Maar is er dan niemand die daar mee heeft gespeeld en tijdens bet benchmarken het uithoudingsvermogen bij te houden? Dus de benchmark draaien tot de accu leeg is en dat als accu-benchmark gebruiken?

Met dat soort creative testen zijn de benchmark boosters als een slang die in zijn eigen staart bijt.
Dat zou dan ook een nutteloze oefening zijn: wat heb je aan zo'n cijfer? Het heeft dan ook geen enkele waarde voor het schatten van batterijleven, zelfs niet als worst case.

Bovendien zijn deze snelheden niet aan te houden voor langer dan enkele minuten, niet omwille van de batterij, maar omwille van de thermische beperkingen van de chips. Ze bevatten dan ook (meestal) wel een hardware failsafe die ofwel de klok gaat verlagen wanneer bepaalde temperaturen overschreden worden, ofwel zichzelf gewoon zullen uitschakelen. Dus lang zal er niet gemeten worden.
Eerst zien dan geloven lijkt me? Ik kan me best voorstellen dat in de uiteindelijke versie de code dan wel niet echt weg is dan wel niet gewoon weg blijft.
De tijd zal het leren.
Ik heb 4.4 officieel draaien op mijn S4 (duits) en daar kan ik alle benchmarks draaien zonder dat de clocksnelheid op max staat, zoals in het artikel staan cores zelfs uit, zelfs onder het benchmarken zelf kan dat voorkomen (als die de gpu/mem aan het testen is bijv)...
Toch wel grappig dan. Heeft Samsung dan zoveel kritiek gehad op zijn software....
Of wat ze (Samsung) toen zeiden klopt, dat het niet de bedoeling was dat het in de uiteindelijke versie zou zitten...

Alles kan, alleen zullen we de exacte reden nooit weten :)
Of ze hadden begrepen dat het toch geen nut meer had om de code erin te houden.
Ik geloof er eerlijk gezegd geen hout van dat het per ongeluk in de uiteindelijke versie terecht is gekomen. Ikkan me namelijk geen reden bedenken waarom je dergelijke code nodig zou hebben, ook niet in een testfase, om op basis van een lijstje van benchmarks ineens de prestaties van het apparaat te verhogen.
Ik opper het alleen maar hoor meer niet :) Punt was dat we het niet weten, en Samsung wel. That's all :)
Weet ik, het is ook niet als aanval bedoeld. No offense
Dat gebeurt niet alleen tijdens het draaien van de benchmark, maar ook in bijvoorbeeld menu's waar die processorkracht niet nodig is
Betekend dit dat de telefoons nu ook zuiniger (en minder warm?) worden omdat ze niet onnodig de CPU max overklokken?
alleen als je in de benchmark app zit dus...
Ja, in de menu van zo'n benchmark app. Dus als je zo'n app niet geïnstalleerd hebt en/of niet open hebt staan, wordt de telefoon niet minder warm / zuiniger.
Het staat er de eerste keer niet helemaal duidelijk in het artikel. Maar het gaat in dit geval specifiek om de menus van de benchmarks zoals iets verderop in het artikel wel staat:
"kernen hebben niet langer de maximale kloksnelheid in menu's van benchmarks"

Samsung zou wel gek zijn de CPU in het standaard menu constant op volle kracht te laten blazen i.v.m. batterijverbruik :P
de menu's van de benchmark apps - that it
kernen hebben niet langer de maximale kloksnelheid in menu's van benchmarks
Want gezien hoe de schedulers in Android werken (en daar zijn er niet voor niets tientallen van inclusief alle community varianten, die al dan niet later zijn opgenomen door Google), is het logisch dat Samsung ook in de Menu's al een OC toepast.

De relatief snelle en lang meedraaiende "On Demand" scheduler zal toch even de tijd nemen om van "low awake" naar max of zelfs OC te gaan. Om nog maar niet te spreken van Conservative, dat kan rustig alleen op langzaam op gang komen 20% performance schelen. En dat komt vooral door JIT binnen de VM en niet zo zeer alleen door hoe de performance gemanaged wordt. Vandaar dat met de Ahead of Time aanpak straks in ART een grote performance boost wordt verwacht, het moment dat dat systeem volwassen is. Vergelijkbaar met wat er tussen 2.0 en 2.1 met JIT gebeurde.

Samsung heeft wel degelijk een mooie functie met kernel-application profiling gemaakt. Zo schakelt het ook naar Conservative bijvoorbeeld in messaging apps. Prima, je hebt toch geen peak performance nodig, mits je een grote hap data moet verwerken voor meer dan een seconde.

Dat ze een niet schalende OC setting hebben gemaakt voor max performance applications, zoals benches is alleen maar logisch. Maar goed, het blijft cheaten. Het feit dat zo'n profiel aanwezig is in de standaard kernel, geeft de gebruiker van het toestel alleen natuurlijk ook weer de mogelijkheid dit voor andere veeleisende applicaties te gebruiken.

Valsspelen is flauw, maar eigenlijk vind ik kernel hacks niet eens echt zo'n foute actie. Ergens ook wel de schuld van de consument zich te laten misleiden en dat ze zich niet echt goed verdiepen in de materie.
Het is volgens mij veel simpeler.. ze hebben gewoon een lijst apps waarbij de klokfrequentie op max draait. om het afhakelijk te maken voor taken binnen apps koste waarschijnlijk teveel moeite. (of het werkt op deze manier beter omdat bij het starten er niet eerst opgeschakeld hoeft te worden)
Oh ik bedoel ook te stellen dat de Dalvik VM een applicatie ID herkent en hierop inspeelt door de scheduler voor die VM sessie op een andere mode te zetten. En waarom ook niet, 1 core op halve kracht is prima voor een messaging service. En 4 cores op conservative met een 1Ghz limiet is prima voor een mail app in veel gevallen.

Natuurlijk wordt Samsung nu zwartgemaakt omdat ze niet open en eerlijk waren over hun "valsspelen" maar eigenlijk is het een mooi stukje software dat ze maken. Misschien wel het enige echt mooie ding aan de hele TW-semi-fork van Android.

Wat ik probeer te stellen, als Samsung nou eens de gebruiker deze lijst van apps laat aanpassen, geven ze de handige gebruiker een mooie tool, zonder dat die zelf moet gaat rooten om erbij te kunnen.
Maar is het nu alleen als je in de menu's van de benchmarks zit (die 99.9% toch niet heeft en dus niet uitmaakt voor stroomverbruik etc). Dus alle gewone apps zoals uh facebook, ad.nl, weeralarm etc heeft er geen last van dat je processor ineens max gaat klokken. Maar als je bepaalde benchmark software op je telefoon hebt en die open je dan gebeurd dit wel (zonder dat je de daadwerkelijke benchmark draait)
Als die kracht nodig is schakelt die CPU er toch wel heen, dat is het idee namelijk van het dynamisch kunnen schalen...

Dus enkel in de menu's van de benchmarks ben je wat meer stroom kwijt, maar daar zit je toch niet de hele dag? In een menu van een benchmark app :P

[Reactie gewijzigd door watercoolertje op 22 juli 2024 14:53]

nee hoor, mijn edit was alleen maar "van benchmarks" bold maken.
jij qoute nu hetzelfde stuk als thewizard2006, daar staat het inderdaad niet volledig.
Een stuk verder in de text, waar mijn qoute vandaan komt, daar kan je uit opmaken dat het alleen om de menu's van benchmark apps gaat.

Je kan het op 2 manieren opvatten, maar ik denk toch dat ik gelijk heb :)
Alexmeijer, hij bedoelt gewoon dat deze boost alleen plaatsvindt binnen de benchmark app (en dus ook de menu's daarvan). Jullie bedoelen hetzelfde maar lullen langs elkaar heen.
benchmarks geven sowieso geen zuiver beeld van prestaties tijdens menselijk gebruik, veel belangrijker is de interactie met de gebruiker hoe soepel dat verloopt en hoe efficiënt de menu's opgebouwd zijn. en bovendien, als ze het allemaal doen, dan is het toch nog steeds een vergelijking? die synthetische waarden kan je toch niet omrekenen naar hoe snel voelt een telefoon en hoeveel tijd kost het om een bepaalde handeling uit te voeren.hooguit kun je een schatting maken hoe goed een zware app maximaal kan draaien in verhouding tot een andere telefoon, beetje appels met peren vergelijken. makkelijk voorbeeld, er waren voorheen android telefoons die een stuk snellere hardware kregen dan de op dat moment huidige iphone, maar toch door een te zware grafische schil of slechte hardwarematige ondersteuning voor menu's traag aanvoelden in verhouding. dus wat heb je dan liever, iets tragere hardware die soepel werkt of snelle hardware die nog steeds niet vooruit te branden is en hoe waardevol zijn dergelijke benchmarks dan?
Goed dat ze ermee stoppen. Maar elke keer als ik dit lees, vraag ik me af.

1.) Waarom zijn die benchmarks zo belangrijk. Voor de gebruiker haal je die toch nooit.
2.) Wie zegt dat andere merken dit niet doen? Ja "ze zeggen dat" is niet echt een goed bewijs te noemen

Voor de rest verwijs ik naar de reactie van Myskylinedrive want ik kan daar weinig aan toevoegen.
Anoniem: 530086 @corset5 maart 2014 17:56
Voor 85% van de mensen is dit wel belangrijker.. Als jij een winkel binnen stapt en vraagt welke telefoons sneller is de iphone of samsung. Als de verkoper zegt op papier is de samsung 2x zo snel dan zijn mensen daar toch gevoelig voor. Als de verkoper ook aangeeft dat de iphone in praktijk 2x zo snel is dan zal dit het weer rechttrekken. Maar goed 8/10 personen kopen een telefoon via internet en kijken daarbij toch naar specs, jij en ik niet omdat het ons interesseert maar je tante of je oom wilt het liefst een snelle telefoon, indien ze jou niet om advies vragen dan komen ze dus thuis met een samsung.
Ik zit eigenkijk met mijn S4 te wachten op de update naar Kitkat, die benchmarks zeggen me niet zoveel. Maximale ondersteuning voor je hardware veel meer....
Dan moet je sowieso overstappen naar Blackberry en dan wel Blackberry 10. Geen telefoon die beter presteert op dit moment. Namelijk de Z30
Ik dacht dat het de bedoeling van een benchmark was, kijken hoe snel een toestel kan gaan. Wat heb je eraan om een benchmark te draaien met een processor die op halve snelheid draait ? Wat bewijst dat ? Moet ik dan nu gaan verwachten dat als mijn Note 3 de update naar 4.4 krijgt (want die is hier in Belgie nog steeds niet beschikbaar), dat mijn toestel plots 3 keer trager wordt ?, want dan hoef ik 4.4 niet.
Ja, het toestel wordt trager in het draaien van benchmark software zoals Sunspider. En dan vooral in het benchmark menu.

Waarschijnlijk wordt hij in alle overige toepassingen die je wel gebruikt iets sneller. Maar daarvoor zou je een nieuwe Tweakers benchmark moeten afwachten.

Een benchmarck software die max prestaties meer zou iets langer moeten draaien en de score moeten baseren op hoogste min of meer egale periode. Dan draaien de kernen wel op volle snelheid. Huidige benchmarks nemen omschakeltijd van idle naar max inderdaad mee.
zolang ik zelf vindt dat mijn smarthphone snel en goed werkt zal een benchmark mijn mening niet veranderen
Maar het is onmogelijk alle smartphones te testen op snelheidsbeleving voor dat je een nieuw toestel aanschaft.

Dus zal je bij het uitzoeken van een nieuw toestel gaan kijken naar indicaties over deze snelheidsbeleving. Dit kan zijn de max. kloksnelheid van de processor of reviews die over snelheidsbeleving praten. Maar ook de benchmark resultaten.

Hierbij kan je 1 toestel zelf uit proberen en de snelheidsbeleving van dit toestel vergelijken met de score die dit toestel heeft in vergelijking met andere toestellen binnen je budget.

En als hier toestellen bij zitten die hoger scoren in een benchmark maar lager in de gebruikssnelheid zou je er ten onrechte van uit kunnen gaan dat het toestel goed presteert. En geen aandacht meer kunnen schenken aan een toestel dat slecht lijkt te scoren.

Maar een test waarbij de snelheidsbeleving wordt getest aan de hand van 'echte' tests zoals ik vind dat Tweakers die uitvoerd geeft hier wel een beter beeld van dan een snelheidsbenchmark die het max. uit de proc. wil halen.
En als hier toestellen bij zitten die hoger scoren in een benchmark maar lager in de gebruikssnelheid zou je er ten onrechte van uit kunnen gaan dat het toestel goed presteert. En geen aandacht meer kunnen schenken aan een toestel dat slecht lijkt te scoren.
Maar dat is altijd zo, ongeacht de cheats of niet. Of hoor ik hier nooit klachten over Touchwizz? De benchmarks van de Google Edition van de S4 zijn lager dan de Touchwizz verdie van de S4 (zonder booster!), maar toch is de GE versie in het echt soepeler en sneller in gebruik :)

Dus wat heb je nou aan benchmarks? Eigenlijk helemaal niks, ook niet ter vergelijking, het is een leuk patsmiddel, en ik als OCer heb er dan wel weer mee te maken, maar dat is voornamelijk om te meten tegenover zichzelf en dan zegt die score weer wel wat, maar nog niks over de uiteindelijke gebruikerservaring...

[Reactie gewijzigd door watercoolertje op 22 juli 2024 14:53]

Zeker waar dat Touchwiz slechte invloed heeft, zeker op ervaring dagelijks gebruik. Maar bij het spelen van games of zware toepassingen, waar max prestaties wel belangrijk zijn, is die invloed beperkt. Tijdens gebruik van Touchwiz hoop ik niet dat de kernen op 100% draaien.
kijk natuurlijk ook zelf eerst even de specs na als welke cpu en gpu erin zit op welke snelheid en daarna pas wat het fijnste werkt
Ik vind het toch frappant dat Samsung die altijd pocht met quadcores en octacores en dergelijke toch moet valsspelen in de benchmarks. Blijkbaar hebben ze niet genoeg vertrouwen in hun eigen apparaten om dit te moeten doen.
Waar komt die noodzaak vandaan, is die TouchWiz dan zo vertragend dat dit nodig was of lag het ook nog aan de oudere versies van Android (< 4.4)?
Waar komt die noodzaak vandaan, is die TouchWiz dan zo vertragend dat dit nodig was of lag het ook nog aan de oudere versies van Android (< 4.4)?
Lijkt me niet gezien ze het aanzetten in apps die niks met TW te maken hebben, en in TW zelf helemaal niet gebruiken :)
Ik vind het toch frappant dat Samsung die altijd pocht met quadcores en octacores en dergelijke toch moet valsspelen in de benchmarks.
Omdat andere fabrikanten die hardware ook kunnen gebruiken, dus steek je er dan zelf niet meer echt boven uit ;) Grappige is dat de concurrentie met dezelfde hardware (qualcomm 600/800) ook dezelfde trucjes toe past (HTC/LG)...

[Reactie gewijzigd door watercoolertje op 22 juli 2024 14:53]

Op dit item kan niet meer gereageerd worden.