Door Tomas Hochstenbach

Redacteur

AI-benchmarks van elf videokaarten

Taalmodellen, upscaling en imagegeneration getest

14-04-2025 • 06:00

110

Singlepage-opmaak

Taalmodellen: Gemma 3 en DeepSeek R1/Qwen

Voor het testen van taalmodellen heb ik gebruikgemaakt van LM Studio, een gemakkelijk te gebruiken gui voor llama.cpp. Llama.cpp is een populaire tool om lokaal inferencing uit te voeren op llm's, oftewel om te werken met vooraf getrainde taalmodellen.

Als benchmark voeren we het taalmodel de volledige tekst van onze Samsung Galaxy S25-review en vragen we om daarvan een samenvatting te maken. Die moet ongeveer 500 woorden tellen en uit lopende tekst bestaan, dus geen bulletpoints of lijstjes met plus- en minpunten.

Op elke videokaart hebben we deze benchmark uitgevoerd met vijf taalmodellen. Drie daarvan zijn varianten van Gemma 3, een open model gebaseerd op Googles Gemini 2.0. De varianten met 4, 12 en 27 miljard parameters worden steeds groter en zwaarder om te draaien, maar produceren ook betere resultaten. Daarnaast hebben we twee varianten van met DeepSeek R1 getrainde Qwen2.5-modellen getest, die voor het geven van een antwoord redeneren om tot een beter resultaat te komen.

Van ieder taalmodel hebben we de Q4_K_M-variant gebruikt. Dat betekent dat het model kleiner is gemaakt met 4bit-quantisation in een gguf-formaat. Q4_K_M wordt over het algemeen gezien als de beste balans tussen snelheid en accuraatheid met moderne hardware.

Bij de grafieken hieronder vind je steeds het gemiddelde aantal tokens per seconde, oftewel de snelheid bij het genereren van een antwoord, en de time to first token. Dit laatste geeft aan hoelang het taalmodel nodig had om de prompt te verwerken. Van de DeepSeek R1-gebaseerde modellen hebben we ook de duur van de denkfase opgenomen, wat laat zien na hoelang redeneren het model aan een antwoord begint.

  • Tokens per seconde
  • Time to first token

Het Gemma 3-model met vier miljard parameters is veruit het kleinste taalmodel dat we getest hebben. Zeker op de snellere kaarten vliegt het antwoord daarom op het scherm. De RTX 5090 slecht als enige de grens van 200 tokens per seconde, waarmee hij ruim 25 procent sneller is dan de RTX 4090 en RTX 5080. De eerste AMD-kaarten in de tabel zijn de RX 9070 en RX 9070 XT, die praktisch even snel zijn als de RTX 5070 van Nvidia. Dat is opvallend, want in games concurreert zeker de RX 9070 XT toch eerder met de 5070 Ti, maar die is hier duidelijk sneller.

De time to first token is bij alle Nvidia-kaarten zeer vlot, tussen de 0,1 en 0,2 seconde, en lijkt daarbinnen in willekeurige volgorde te staan. Alleen de 4070 Super is met 0,83 seconde duidelijk langzamer. De AMD-kaarten hebben relatief gezien veel langer nodig, maar doordat dit zo'n snel model is staat het eerste woord alsnog ruim binnen een seconde op het scherm.

  • Tokens per seconde
  • Time to first token

Hoewel de videokaarten ongeveer half zo snel zijn in het model met twaalf miljard parameters, lijkt de volgorde boven in de grafiek weinig anders. Dat verandert als je naar de RTX 4070 Super en RTX 5070 kijkt. Die hebben allebei maar 12GB vram en dat is te weinig om het volledige model inclusief overhead te kunnen cachen. Daardoor moet er uitgeweken worden naar het veel langzamere systeemgeheugen. De met 16GB vram uitgeruste RX 7800 XT van AMD, die bij het 4b-model nog stijf onderaan stond, heeft daarvan geen last: hij is opeens bijna dubbel zo snel als de RTX 5070. Wel is de time to first token bij de 7800 XT nog altijd het hoogst.

  • Tokens per seconde
  • Time to first token

Het 27b-model weegt ruim 17GB en dat betekent dat het vram van vrijwel alle kaarten te klein is om het model te cachen. Dat is catastrofaal voor de snelheid waarmee het kan worden gebruikt. Of je nou een RTX 5080 of RX 7800 XT gebruikt, de snelheid wordt beperkt tot zo'n 5 tokens per seconde, wat in feite onbruikbaar langzaam is.

De RX 7900 XTX en RTX 4090 hebben met 24GB vram wél genoeg, zou je misschien denken; toch is ook de snelheid op deze kaarten met 10 à 11 tokens per seconde niet om over naar huis te schrijven. Dat komt doordat een model overhead nodig heeft, bijvoorbeeld voor het contextwindow. Alleen de RTX 5090 met 32GB vram kan het 27b-model daardoor op volle snelheid draaien, met ruim 60t/s.

LM Studio geeft bij de downloadfunctie van taalmodellen overigens een indicatie van of een bepaalde versie niet, deels of volledig in het vram zal passen. Past een model net niet, dan kun je bijvoorbeeld overwegen om een heviger quantised variant te kiezen. Andersom kun je ook een versie met minder quantisation downloaden als ook die in je vram zal passen, wat betere resultaten oplevert.

  • Tokens per seconde
  • Time to first token
  • Thought for ...

Bij de op DeepSeek R1 getrainde Qwen-modellen hebben we een derde grafiek toegevoegd, die aangeeft hoelang het model heeft geredeneerd voordat het aan een antwoord begon. Deze fase, typerend voor DeepSeek R1 en inmiddels ook steeds meer nieuwe taalmodellen, gebruikt het model om tegen zichzelf te praten over welk antwoord het het beste kan geven.

Het 7b-model is nog geen 5GB groot en past dus in het vram van alle kaarten. De RTX 5090 is bij dit model maar liefst 37 procent vlotter dan de RTX 4090, een groter verschil dan we bij Gemma 3 zagen. Daarnaast valt op dat de RX 7900 XTX hier duidelijk wat sneller is dan de nieuwere RX 9070 XT.

De time to first token lijkt redelijk willekeurig, maar is op alle kaarten behalve de 7800 XT korter dan 1 seconde. De denktijd blijft alleen op de RTX 4090 en RTX 5090 onder de 2 seconden; op de langzaamste kaarten heeft het model ruim 5 seconden nodig voor deze stap.

  • Tokens per seconde
  • Time to first token
  • Thought for ...

Het grotere 14b-model is 9GB groot en past inclusief overhead niet volledig in het vram van de RTX 4070 Super en RTX 5070, net zoals het Gemma 3 12b-model dat we hierboven bespraken. De RTX 5090 leidt zoals gebruikelijk de grafiek met ruim 100t/s; de RTX 5080 en RTX 4090 zijn meer dan een kwart langzamer. De AMD RX 7900 XTX en de nieuwere RX 9070's halen rond de 50t/s, waarbij andermaal opvalt dat er in de antwoordsnelheid praktisch geen verschil is tussen de RX 9070 en de RX 9070 XT. De time to first token en de denktijd zijn juist wel duidelijk vlotter op de XT.