Meta gebruikte aparte versie van Llama 4 om hoog te scoren in benchmark

Meta heeft een aparte versie van Llama 4 gebruikt in een bekende benchmark, om zo hoger te scoren dan de versie waar het publiek gebruik van kan maken. Llama 4 kwam op LMArena op plek twee, maar hoorde daar eigenlijk niet.

De versie Llama-4-Maverick-03-26-Experimental was een versie gericht op het produceren van resultaten die mensen prefereren, zo claimt LMArena. Meta erkent dat het gaat om een aparte versie. Dat stond ook in de kleine letters bij het resultaat van de benchmark. Hoewel de benchmark daar geen expliciete regels tegen heeft, gaat LMArena de resultaten toch van een update voorzien.

Het valsspelen of misleiden bij benchmarks gebeurt al zo lang als benchmarks bestaan. Het is wel voor het eerst dat een groot bedrijf een aparte versie uploadt om hoger te scoren op benchmarks. Meta bracht Llama 4 afgelopen weekend uit.

Door Arnoud Wokke

Redacteur Tweakers

08-04-2025 • 16:52

17

Reacties (17)

17
17
11
0
0
4
Wijzig sortering
Links laten liggen Llama 4, onrealistisch groot zodat je het onmogelijk zelf kunt draaien en daarnaast slechte performance. Gemma 3 is veel beter en zelfs het 27b model kan je thuis draaien als je beetje fatsoenlijke hardware hebt.
Toch lijkt het erop dat het model Qwen 2.5 Coder beter is voor programmeren en dergelijke dan Gemma 3. Dat vind ik zelf belangrijk.

[Reactie gewijzigd door Anonymoussaurus op 8 april 2025 17:21]

Ja goed, dat is wel een model speciaal getraind voor coding etc terwijl Gemma meer generiek is. Maar voor zo ik het nu zie is Llama 4 een grote teleurstelling want onnodig groot en de performance wat achterblijft. Als je bijvoorbeeld kijkt naar Qwen QwQ een 32b model wat zich op vele vlakken kan meten met de frontier modellen van Google, Claude, Deepseek en OpenAI die tig keer zo groot zijn. En zelfs een 32b model kan je nog draaien op een fatsoenlijke mac of een array van 2-3 GPU's.
Ik laat heel Meta links liggen, bedrijf is simpelweg niet te vertrouwen
Valsspelen mag dan vaker gebeuren maar het zegt vooral iets over de integriteit van het bedrijf/leiding.
Het zegt voor mij vooral iets over de zin en onzin van benchmarks. Het is in de praktijk te verleidelijk om producten aan te passen op de benchmarks. Benchmarks zijn de praktijk alleen leuk voor de marketingmolen van organisaties. En aangezien (verkoop)marketing alles wat mooi kan zijn kapot maakt, moet je dus eigenlijk heel die statische benchmarks achterwegen laten.

Dieselgate met auto's was er ook zo een. Een aantal jaar geleden was er een telefoon die zichzelf tijdelijk overklokte als het detecteerde dat er een benchmark draait. Zo zijn er zat voorbeelden waar organisaties worden uitgelokt om de boel te flessen.

Het zou gewoon beter zijn als er echte praktijktests gedaan worden ipv statische benchmarks die niets anders zeggen dan een statische meting van een fictief iets.

Tweakers doet met SSD's een "praktijktest" van zoveel GB kopiëren van/naar een RAMdisk. Ik durf er om te wedden dat minder dan 1 promille van de bezoekers van Tweakers dit regelmatig doet. Gaat dus helemaal nergens over. (Zeker met de naam "praktijktest")

Bij videokaarten gaat dit bijvoorbeeld al beter. Daar meten ze FPS'en bij bestaande games met standaard instellingen. Dat zegt heel wat meer dan een score van 13739.
En daar zie je dan driver based optimalisaties omdat het altijd de zelfde benchmarks zijn
Hadden we iets anders verwacht bij een bedrijf dat data misbruik bagetaliseert en werkt met Cambridge Analytica en dan ontkende, bagetaliseerde en dan aangaf dat het allemaal niet zo erg is....

Meta is er maar voor 1 doel... Zichzelf verrrijken ten koste van bijna alles
De vraag is eerder, waarom al deze moeite doen voor een open source model? Wat zijn de voordelen voor Meta wanneer wij deze modellen gebruiken? Ik denk dat ik me daar mee eens in ga verdiepen, want het zint me niet lol.
Ik kan zo niet bedenken wat the complement van llama voor meta. Voor nvidia zou ik het snappen. Heb jij een idee?
Genereren van content, dat vervolgens via Meta haar platformen gedeeld/voorgeschoteld kan worden (zodat zij geld met advertenties kunnen verdienen)?
Toch wel mooi dat de onbetrouwbare reputatie van Meta in ieder geval consistent is. :9
Als je op deze manier handelt is dat weliswaar niet verboden (helaas...), maar geeft het op zijn minst wel een wat wrange nasmaak.

Heb je dan zo weinig vertrouwen in het normale product, dat je dit soort trucs moet uithalen om mensen te misleiden?

Wat was de echte score die hij dan wél haalde, met de gewone versie?
Kijk, zo kwam mijn voorspelling van benchmark beïnvloeden zoals dat gebeurde met computer benchmarks al eerder uit dan ik dacht.
Wie had dat nou aan zien komen???!?!?!?!?!?!

Op dit item kan niet meer gereageerd worden.