Meta gebruikte aparte versie van Llama 4 om hoog te scoren in benchmark

Meta heeft een aparte versie van Llama 4 gebruikt in een bekende benchmark, om zo hoger te scoren dan de versie waar het publiek gebruik van kan maken. Llama 4 kwam op LMArena op plek twee, maar hoorde daar eigenlijk niet.

De versie Llama-4-Maverick-03-26-Experimental was een versie gericht op het produceren van resultaten die mensen prefereren, zo claimt LMArena. Meta erkent dat het gaat om een aparte versie. Dat stond ook in de kleine letters bij het resultaat van de benchmark. Hoewel de benchmark daar geen expliciete regels tegen heeft, gaat LMArena de resultaten toch van een update voorzien.

Het valsspelen of misleiden bij benchmarks gebeurt al zo lang als benchmarks bestaan. Het is wel voor het eerst dat een groot bedrijf een aparte versie uploadt om hoger te scoren op benchmarks. Meta bracht Llama 4 afgelopen weekend uit.

IT-banen

Reacties (17)

magnifor 8 april 2025 17:07

Links laten liggen Llama 4, onrealistisch groot zodat je het onmogelijk zelf kunt draaien en daarnaast slechte performance. Gemma 3 is veel beter en zelfs het 27b model kan je thuis draaien als je beetje fatsoenlijke hardware hebt.

Anonymoussaurus @magnifor • 8 april 2025 17:21

Toch lijkt het erop dat het model Qwen 2.5 Coder beter is voor programmeren en dergelijke dan Gemma 3. Dat vind ik zelf belangrijk.

[Reactie gewijzigd door Anonymoussaurus op 8 april 2025 17:21]

magnifor @Anonymoussaurus • 8 april 2025 17:25

Ja goed, dat is wel een model speciaal getraind voor coding etc terwijl Gemma meer generiek is. Maar voor zo ik het nu zie is Llama 4 een grote teleurstelling want onnodig groot en de performance wat achterblijft. Als je bijvoorbeeld kijkt naar Qwen QwQ een 32b model wat zich op vele vlakken kan meten met de frontier modellen van Google, Claude, Deepseek en OpenAI die tig keer zo groot zijn. En zelfs een 32b model kan je nog draaien op een fatsoenlijke mac of een array van 2-3 GPU's.

Vexxon @magnifor • 8 april 2025 17:39

Ik laat heel Meta links liggen, bedrijf is simpelweg niet te vertrouwen

dam0r 8 april 2025 16:59

Valsspelen mag dan vaker gebeuren maar het zegt vooral iets over de integriteit van het bedrijf/leiding.

lenwar

Internet
Meta

@dam0r • 8 april 2025 17:14

Het zegt voor mij vooral iets over de zin en onzin van benchmarks. Het is in de praktijk te verleidelijk om producten aan te passen op de benchmarks. Benchmarks zijn de praktijk alleen leuk voor de marketingmolen van organisaties. En aangezien (verkoop)marketing alles wat mooi kan zijn kapot maakt, moet je dus eigenlijk heel die statische benchmarks achterwegen laten.

Dieselgate met auto's was er ook zo een. Een aantal jaar geleden was er een telefoon die zichzelf tijdelijk overklokte als het detecteerde dat er een benchmark draait. Zo zijn er zat voorbeelden waar organisaties worden uitgelokt om de boel te flessen.

Het zou gewoon beter zijn als er echte praktijktests gedaan worden ipv statische benchmarks die niets anders zeggen dan een statische meting van een fictief iets.

Tweakers doet met SSD's een "praktijktest" van zoveel GB kopiëren van/naar een RAMdisk. Ik durf er om te wedden dat minder dan 1 promille van de bezoekers van Tweakers dit regelmatig doet. Gaat dus helemaal nergens over. (Zeker met de naam "praktijktest")

Bij videokaarten gaat dit bijvoorbeeld al beter. Daar meten ze FPS'en bij bestaande games met standaard instellingen. Dat zegt heel wat meer dan een score van 13739.

Scriptkid @lenwar • 8 april 2025 18:35

En daar zie je dan driver based optimalisaties omdat het altijd de zelfde benchmarks zijn

Loft @dam0r • 8 april 2025 19:43

Hadden we iets anders verwacht bij een bedrijf dat data misbruik bagetaliseert en werkt met Cambridge Analytica en dan ontkende, bagetaliseerde en dan aangaf dat het allemaal niet zo erg is....

Meta is er maar voor 1 doel... Zichzelf verrrijken ten koste van bijna alles

3raser @dam0r • 9 april 2025 10:57

Zoals Samsung?

Yzord 8 april 2025 17:16

De vraag is eerder, waarom al deze moeite doen voor een open source model? Wat zijn de voordelen voor Meta wanneer wij deze modellen gebruiken? Ik denk dat ik me daar mee eens in ga verdiepen, want het zint me niet lol.

Balance @Yzord • 8 april 2025 17:47

Commoditize your products’ complements

kaaas @Balance • 8 april 2025 21:53

Ik kan zo niet bedenken wat the complement van llama voor meta. Voor nvidia zou ik het snappen. Heb jij een idee?

drdelta @kaaas • 9 april 2025 02:30

Genereren van content, dat vervolgens via Meta haar platformen gedeeld/voorgeschoteld kan worden (zodat zij geld met advertenties kunnen verdienen)?

Tintel

Meta
Internet

8 april 2025 17:00

Toch wel mooi dat de onbetrouwbare reputatie van Meta in ieder geval consistent is.

wildhagen

Meta
Internet

8 april 2025 17:01

Als je op deze manier handelt is dat weliswaar niet verboden (helaas...), maar geeft het op zijn minst wel een wat wrange nasmaak.

Heb je dan zo weinig vertrouwen in het normale product, dat je dit soort trucs moet uithalen om mensen te misleiden?

Wat was de echte score die hij dan wél haalde, met de gewone versie?

meowmofo 8 april 2025 17:21

Kijk, zo kwam mijn voorspelling van benchmark beïnvloeden zoals dat gebeurde met computer benchmarks al eerder uit dan ik dacht.

armageddon_2k1 8 april 2025 17:05

Wie had dat nou aan zien komen???!?!?!?!?!?!

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (17)

Sorteer op:

Weergave: