Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door Wout Funnekotter

Hoofdredacteur

De zin en onzin van prestatiebenchmarks op smartphones

29-10-2018 • 16:48

70 Linkedin Google+

Bij Tweakers doen we niet alleen veel tests, we denken ook graag na over hoe en waarom we dingen testen. Volgens ons is het tijd om de huidige cpu-, gpu- en opslagbenchmarks voor smartphones de deur te wijzen en op zoek te gaan naar betere manieren om prestaties te meten.

Het belangrijkste doel van een review is goed en duidelijk weergeven hoe een telefoon op diverse vlakken presteert. We merkten dat de toegespitste benchmarks daarvoor steeds minder een middel vormden. Waarom scoren sommige telefoons in opslagbenchmark Androbench veel hoger dan andere, terwijl we geen verschil zien op overige gebieden en op het gebied van gebruikservaring? Daar komt bij dat we er niet meer zeker van kunnen zijn dat de dingen die we meten, ook echt kloppen. Onder meer Huawei en Oppo zijn betrapt op valsspelen bij benchmarks. Ook blijkt dat verschillende gpu's bij grafische benchmarks beelden net anders renderen, waardoor ze niet goed onderling vergelijkbaar zijn.

Voor ons is de belangrijkste conclusie dat benchmarkscores en prestaties in de praktijk, in tegenstelling tot vroeger, steeds minder met elkaar te maken hebben. Hoe een telefoon in de praktijk presteert, hangt vandaag de dag voor een groot deel af van software en tuning onder de motorkap. Een telefoon kan laag scoren op een benchmark, maar in de praktijk sneller en vlotter werken dan concurrenten die in diezelfde benchmark hoger scoren. In toekomstige smartphonereviews vind je dus geen grafieken meer met vergelijkingen van synthetische benchmarks als AndEBench, Androbench, GFXBench en 3DMark.

Betekent dit dat je dergelijke benchmarks helemaal nooit meer voorbij zult zien komen? Zo is het waarschijnlijk ook weer niet. Bijvoorbeeld bij het vergelijken van de nieuwste Snapdragon-soc met zijn voorganger, kunnen goed gekozen synthetische tests zeker wat zeggen over prestatieverschillen van chip tot chip.

We stoppen uiteraard niet met alle tests. Wij zien grote meerwaarde in de eigen tests die we doen op het gebied van scherm, opladen en accuduur, en die resultaten blijven we dus weergeven. Daarnaast gaan we onderzoeken of we zelf tests kunnen ontwikkelen om de prestaties van smartphones beter te kunnen meten. Voor iOS zal dit niet makkelijk zijn, maar de debuggingtools van Android kennen een heleboel mogelijkheden tot automatiseren en het meten van prestaties. In een ideale situatie zouden we een soort macro’s kunnen afdraaien, waarbij we zaken als startsnelheid en framedrops meten.

Het is niet makkelijk om tests te bedenken die correleren met de praktijk en daarnaast goed reproduceerbaar zijn, ook als je twee toestellen maanden na elkaar test. Mocht je dit dus lezen en hier ideeën over hebben - of misschien ben je wel ontwikkelaar en heb je ervaring met deze materie - dan horen we het graag van je.

Beeld van onze accutestset-up waarin een webcam 24 uur per dag in de gaten kan houden hoe lang smartphones, tablets en laptops het volhouden op accutests

Reacties (70)

Wijzig sortering
Goeie stap, goede uitleg. We zijn ook eigenlijk op een punt dat iedere high end telefoon snel is, en nu de A7X cores ook in midrange socs opduiken, zelfs die behoorlijk rap worden.
Dit dus.

Ik heb voorheen eigenlijk altijd flagship phones gehad (Snapdragon 8xx) maar ik merk tegenwoordig dat de mid-range modellen echt dikke prima zijn. Heb nu al bijna 2 jaar een toestel met een SD625 en die volstaat echt prima voor dat to day use. Met als leuke bijkomstigheid dat hij lekker zuinig is. Met de huidige SD636 en 660 is het al helemaal prima.

Persoonlijk kijk ik tegenwoordig alleen nog maar naar toestellen in de €150-250 range.
Ik ben benieuwd welke toestellen jij interessant vind. Ik heb net de Nokia 8, fijn toestel, maar toch wel boven die prijs. Ik zoek nog iets nieuws voor m'n vriendin en die wil de hoofdprijs niet betalen. Ow ja en die heeft absoluut geen geduld met techniek, het moet accuut reageren.

[Reactie gewijzigd door PageFault op 29 oktober 2018 17:45]

Ik moet eerlijk bekennen dat ik tegenwoordig eigenlijk alleen nog kijk naar Xiaomi toestellen. (Die nu overigens ook prima te krijgen zijn in NL)

Bijvoorbeeld een Xiaomi Redmi Note 5 of Redmi Note 6 Pro
Of een Mi A2 (Android One)

[Reactie gewijzigd door Razzah op 29 oktober 2018 20:41]

Die zien er wel goed uit voor een gunstig bedrag, thanks.
Ow ja en die heeft absoluut geen geduld met techniek, het moet accuut reageren.

Die telefoon moet nog ontwikkeld worden...
Ja, soms is het user error, please replace user and press any key to continue :o
Ook dat ja! }>

Maar eerst nog de aantal camera lens race flink uitmelken en misschien dat smartphones over 20 jaar wel instant reageren en touchscreens geen vertraging meer hebben.. Maar goed, dit wordt de volgende race..
Vertragingen hebben te maken met Wirth's law volgens mij :)

Wat betreft cameras en lenses: eerst de megapixels, dan 1000x optische zoom en straks een full frame sensor....
Ik ben zelf altijd van de nieuwste techniek etc, heb iPhone X zakelijk en Samsung s8 privé... op de iPhone loop ik al een jaar achter evenals de Samsung, tav de nieuwste techniek, dat even terzijde...

Maar, ik vraag mijzelf ook wel eens serieus af, waarom? Mijn enige motivatie is, leuk nieuwste techniek...draagt het bij? Mwah...als ik naga daily use...whatsapp, internet, mail, bellen (ofc), muziek luisteren, bankieren etc, alles wat prima met een mid-range toestel kan!

Ik weet nu al dat ik volgend jaar alles ga vervangen, maar niet omdat het nodig is, maar ook niet omdat m’n huidige toestel het niet aankan ofzo...

Wat ik het voordeel zou vinden van een 200,- telefoon is dat ik er echt “minder” zuinig mee om kan springen...ik ben echt super voorzichtig met m’n iPhone en durf hem haast niet vast te houden, bang dat het veels te dure speeltje breekt (gechargeerd), dus de beleving wat dat aangaat is bij een goedkopere telefoon veel beter :)
Dat is ook zeker waar. Ik heb nu een telefoon van €130. En ook daar ben ik zuinig op. Maar stel dat er een krasje op komt of het scherm gaat kapot dan is het toch iets minder pijn in de portemonnee :)
Vroeger in tijd van de Galaxy S4, merkte ik niks tussen de SD600 en de SD800 in de Galaxy S4.

De Snapdragon 600 series zijn gewoon prima.
Het niet meer doen van benchmarks omdat jullie bang zijn voor cheating, is vergelijkbaar met het niet meer rijden van de tour de france omdat er doping wordt gebruikt. Naar mijn mening moet je nog wel de benchmarks blijven draaien maar moet je de resultaten op een dergelijke manier presenteren dat ze wel nuttig zijn. Wie maakt het uit of een telefoon in antutu 129000 of 134000 punten scoort omdat 1 van de twee overclockt zou zijn. Zo'n verschil is dermate minimaal dat ik het in mijn reviews niet eens meer benoem.

Natuurlijk is het altijd goed om te zoeken naar hoe benchmarks het eerlijkste gedraaid kunnen worden maar kleine verschillen tussen chips zijn naar mijn mening het melden niet waard. Echter is het wel belangrijk om te controleren op consistentie: presteert deze chip in telefoon A, ongeveer hetzelfde als in telefoon B.

Mijn conclusie is dus: benchmarks niet gebruiken voor het uitpoepen van scores en deze te vergelijken met telefoons welke van dezelfde componenten gebruik maken. Wel de benchmarks gebruiken voor verschillen tussen socs en het meten van consistentie.

[Reactie gewijzigd door Frozen op 29 oktober 2018 17:20]

Dat cheaten is maar een klein onderdeel van het verhaal. Feit is dat hoge benchmarkscores op Android niet per se goede prestaties betekenen en vice versa. Daarmee zijn ze hun doel voorbijgeschoten.
Daarmee zijn ze hun doel voorbijgeschoten.
Moet je überhaupt de nieuwe modellen van bekende merken op benchmarks testen?
De nieuwe telefoons van die (top) merken zijn in de praktijk zo snel, dat je (bijna) geen verschil meer ziet in de apps die gebruikt, het maakt toch niet uit of die telefoon een seconde (of 2) sneller is dan die andere of nieuwer model.
Het 2017 model ten opzichte van model 2018 is visueel amper te zien, onder de "motorkap" zal model 2018 altijd beter presteren dan model 2017,waarom zou je dan al die moeite doen als je dat alleen maar in cijfertjes kan zien, je kan hier niks aan veranderen zoals een pc, waar deze cijfers wel belangrijk zijn.
Ze zouden ervoor kunnen kiezen om zelf standaarden te definieren die los staan van de hardware en gewoon vanuit een app getest worden, bijv het zo snel mogelijk weergeven van verschillende fullscreen bitmaps die "raw" op de interne storage staan. Hiervoor is ook een definitie nodig van wat een schone runtime-omgeving is. Ik denk dat daar de schoen een beetje wringt. Net als Windows de afgelopen 20 jaar wil Android ook niet transparant zijn over eigen systeemactiviteiten. Daarnaast moeten de OS-maker + alle fabrikanten hun standaard meegeleverde bloatware and randactiviteiten allemaal uitschakelbaar maken om onvoorspelbare invloeden per model te elimineren.
..... Feit is dat hoge benchmarkscores op Android niet per se goede prestaties betekenen en vice versa. Daarmee zijn ze hun doel voorbijgeschoten.


Geldt dan ook voor mobile CPU bij laptops? Gaan wij daar ook de benchmarkscores afschaven ?
Nee, want daar is de correlatie beter te maken. Daar komt nog eens bij dat we op laptops/Windows ook praktijktests draaien goed overeenkomen met dagelijks gebruik.
Ik heb inderdaad het onderstaande gelezen:
Voor ons is de belangrijkste conclusie dat benchmarkscores en prestaties in de praktijk, in tegenstelling tot vroeger, steeds minder met elkaar te maken hebben. Hoe een telefoon in de praktijk presteert, hangt vandaag de dag voor een groot deel af van software en tuning onder de motorkap. Een telefoon kan laag scoren op een benchmark, maar in de praktijk sneller en vlotter werken dan concurrenten die in diezelfde benchmark hoger scoren.
Maar jullie zeggen dus eigenlijk dat jullie geen processorkracht meer willen meten, maar wel de gebruikservaring. Daar heb je natuurlijk wel een punt, want 9 van de 10 keer gaat het inderdaad om gebruikservaring en maakt het niemand uit of de ene telefoon iets beter scoort dan de ander in een bepaalde benchmark. Daarom noem ik onsignificante verschillen ook niet eens op: op dat moment neem je dus als reviewer het beluit om je gemeten waardes op een bepaalde manier te tonen aan je publiek.

Maar ik vraag mij wel concreet af: Als je vindt dat de benchmarks en de gebruikservaring steeds minder met elkaar te maken hebben, hoe kom je dan tot de conclusie dat de correlatie tussen hoge scores en "vloeiende gebruikservaring" ontbreken? Heb je dat gemeten en daar wat statistiek op losgelaten, of is dat maar een gevoel?

Mijn gevoel is namelijk dat er tussen socs weinig verschil zit en dat blijkt ook uit de punten. Als Huawei met hun smartphones 5% hoger scoren dan bijvoorbeeld een Samsung, vind ik dat niet significant.

De beste manier is om resultaten weer te geven zoals notebookcheck dat doet naar mijn mening. Met een gemiddelde, een mediaan en een 25 en 75 percentiel: https://www.notebookcheck...Ti-Notebook.168400.0.html

[Reactie gewijzigd door Frozen op 29 oktober 2018 17:38]

Dit is voor smartphones. Mede omdat er door de fabrikanten wat gesjoemeld word denk ik. Maar hoe zit dit met alle andere benchmarks? Zoals GPU en CPU? Want jullie benoemen
Voor ons is de belangrijkste conclusie dat benchmarkscores en prestaties in de praktijk, in tegenstelling tot vroeger, steeds minder met elkaar te maken hebben.
Dit geld dan toch voor alle hardware?

[Reactie gewijzigd door Mrjraider op 29 oktober 2018 17:05]

Het lijkt me meer het probleem dat wanneer je de FLOPS van een processor wil meten, je dit bij een telefoon alleen virtueel kan doen omdat gebruikers geen directe toegang tot de processor hebben. Hetzelfde geldt voor storage- en RAM doorvoersnelheden. Er zit een Android tussen die zelf graag wil bepalen wat de hardware kan.
Nee, want bij een cpu of gpu kun je heel makkelijk een praktijkbenchmark doen. Bijvoorbeeld een film exporteren in Adobe Première of een game spelen en de framerate/frametimes meten. Dingen die je veel op een telefoon doet 'webbrowsen' of 'apps gebruiken' zijn moeilijker te standaardiseren en te meten.
Wat een goede ontwikkeling!

Deze benchmarks sloeg ik sowieso al over, omdat ze te "subjectief" waren. En inderdaad mij weinig konden vertellen over de ervaringen in praktijk. Daarom skip ik bij GPU's bijvoorbeeld, meestal direct naar de FPS scores of latency statistieken om te zien hoe deze in verhouding staat tot andere producten.
Nadeel daarvan is dat je altijd dezelfde opstelling moet hebben, om ook het verschil tussen verschillende generaties te kunnen meten. Bij een processor met een ander type socket, telt de prestatie van het moederboard en geheugen in de praktijk natuurlijk ook mee.. Dus dit zijn wel moeilijke kwesties.

Als ik even de fanatasie de vrije loop laat, dan zou je eigenlijk een soort virtuele box willen hebben, waarin je de prestaties van verschillende componenten kan "faken"..
Dus stel je hebt een supercomputer, waarin je kunt aangeven met hoeveel GPU pipelines, of memory lanes en latencies hij moet testen. Waarbij je kunt aangeven welke hardware component getest moet worden. Dus je selecteerd de GPU, en dan verzamelt hij alleen van die metingen de data. De rest is dan een soort virtuele invulling, die (hopelijk) een constante vormt in de testopstelling.

Bij mobieltjes is dat al lastiger, daar zou je eigenlijk een stresstest moeten uitvoeren, misschien wel door een robotvinger, die één hele batterijlading dat ding intensief gebruikt. Zodat ook in de loop van zo'n sessie, ook de cache vol kan lopen, en het geheugen langzaam volraakt, zodat je ook kan zien hoe de telefoon daar mee omgaat.

Leuke case om mee bezig te zijn. Succes :Y)

[Reactie gewijzigd door dwarfangel op 29 oktober 2018 17:05]

Het idee van een robotvinger zingt al lange tijd rond hier op de redactie, maar is in de uitvoering zo makkelijk nog niet ;)
En wat heeft het voor zin om bijvoorbeeld Intel Octa Core CPU's te Benchmarken? Want Meestal krijgen review sites van Intel een Golden Sample die erg hoog over kan clocken. En maken dan een positieve review. Waarna veel consumenten de processor gaan kopen. Om dan tot de conclusie te komen dan hun exemplaar lang niet zo hoog kan overclocken. Want maar 1% van de geproduceerde CPU's kan die hoge clocks behalen.. Ik vind dat daar ook eens overna gedacht moet worden.

[Reactie gewijzigd door deregtx op 29 oktober 2018 18:10]

Golden Sample? Leuk bedacht, maar populair geklets.

Kijk bijvoorbeeld https://youtu.be/M8WOYjk7hKo maar eens
Check de link hieronder als antwoord op je vraag over golden samples. Daarnaast zullen we nooit waarde hechten aan overklokbaarheid bij het eindoordeel van een cpu omdat daar nou eenmaal veel variatie van sample tot sample in zit.
Kan ik me heel goed voorstellen, het spreekt natuurlijk absoluut tot de verbeelding om à la Adams Family zo'n hand te hebben die op de redactie rondkruipt en alle mobiele tests voor zijn rekening neemt :D

Maar jullie zouden T.net niet zijn als je je zou laten tegenhouden door de moeilijkheidsgraad van zo'n idee ;)

Hoe zit het met de 'virtuele hardware box'? zoals ik dat maar even noem. Bestaat zoiets al? of is dat domweg niet haalbaar / realistisch? Ik heb er wel een beeld bij, waarom en hoe het zou moeten werken. Maar zelf totaal niet gehinderd door enige kennis op dit gebied waarom het niet zou kunnen :)
Niet haalbaar helaas :)
Je ziet wel eens benchmarks dat er een 10 tal apps snel achter elkaar geopend worden. Dat is ook goed platform onafhankelijk te testen aangezien vele apps voor zowel iOS als Android beschikbaar zijn. Alleen is dat qua reproduceerbaarheid niet erg goed als je maanden later een vergelijk wilt maken bij de test van een nieuw toestel met eentje die al eerder getest is aangezien de apps waarschijnlijk wel gewijzigd zijn in de tussentijd, dus een ander resultaat zal geven.
Je moet die app-inlaad-test inderdaad niet gaan gebruiken om de cpu te testen. Maar je memory-subsysteem kun je er prima mee testen.
Klopt wat je zegt.
Maar die test is wel een perfecte afspiegeling van wat je in de realiteit ook doet, wat de consument elke dag doet.
Je mag nog meten zoveel je wilt, als de consument het niet ervaart heb je er niks aan.
Helemaal mee eens, duidelijk onderbouwt. Gaaf ook dat jullie gaan kijken naar eigen tests. Lijkt me een enorme taak, maar als jullie iets moois kunnen vinden gaat dat wel de waarde van reviews op Tweakers enorm verhogen. Al met al, een gewaagde maar goede stap!
Een goede ontwikkeling. Benchmarks laten maar in beperkte zien hoe de gebruikerservaring is en de test die jullie omschrijven klinkt beter geschikt voor smartphone’s, zeker omdat fabrikanten (oa Huawei) deze benchmarks ook nog eens manipuleren.
Het zou helemaal top zijn als jullie die “zelfontwikkelde benchmark” op wat oudere toestellen die jullie eerder hebben getest kunnen laten draaien. Zo zou je kunnen zien in welke mate de snelheid afneemt naarmate het toestel
ouder wordt. Ik denk dat vele dit fijn vinden om te zien hoe een fabrikant het op dit gebied doet als iemand een nieuw toestel wilt kopen!
Een test qua accu duur scherm en de camera is volgens mij meer dan genoeg.

De processor is in de meeste telefoons snel genoeg voor een soepele ervaring vandaag de dag.
Goede ontwikkeling. theoretische benchmarks voor telefoons zeggen bar weinig, de gebruikservaring des te meer. Ik ken zelf toevallig 2 telefoons die qua specs duidelijk beter zijn dan mijn Nokia 6.1, echter is de Nokia in het algemene gebruik gewoon een stuk prettiger, de eigenaren van de andere telefoons beamen dit. Ik ga verder geen namen of merken noemen om downvoting en Flamewars te voorkomen.
Misschien is met het exporteren van een project in Lightroom Mobile of Adobe première clip een aardig onderscheid tussen telefoons te maken.

Op dit item kan niet meer gereageerd worden.


Apple iPhone 11 Nintendo Switch Lite LG OLED C9 Google Pixel 4 FIFA 20 Samsung Galaxy S10 Sony PlayStation 5 Games

'14 '15 '16 '17 2018

Tweakers vormt samen met Hardware Info, AutoTrack, Gaspedaal.nl, Nationale Vacaturebank, Intermediair en Independer DPG Online Services B.V.
Alle rechten voorbehouden © 1998 - 2019 Hosting door True