Meta heeft een aparte versie van Llama 4 gebruikt in een bekende benchmark, om zo hoger te scoren dan de versie waar het publiek gebruik van kan maken. Llama 4 kwam op LMArena op plek twee, maar hoorde daar eigenlijk niet.
De versie Llama-4-Maverick-03-26-Experimental was een versie gericht op het produceren van resultaten die mensen prefereren, zo claimt LMArena. Meta erkent dat het gaat om een aparte versie. Dat stond ook in de kleine letters bij het resultaat van de benchmark. Hoewel de benchmark daar geen expliciete regels tegen heeft, gaat LMArena de resultaten toch van een update voorzien.
Het valsspelen of misleiden bij benchmarks gebeurt al zo lang als benchmarks bestaan. Het is wel voor het eerst dat een groot bedrijf een aparte versie uploadt om hoger te scoren op benchmarks. Meta bracht Llama 4 afgelopen weekend uit.