Lokale AI-benchmarks
Leuk, al die videokaartbenchmarks in games, maar hoe doen al die gpu's het in AI-workloads? Het is een vraag die regelmatig terugkomt onder onze reviews. Hem beantwoorden is alleen zo makkelijk nog niet. Voor dit artikel ben ik aan de slag gegaan met vier verschillende lokale AI-tools en maar liefst elf videokaarten van AMD en Nvidia, zowel van de huidige als de vorige generatie.
In de afgelopen twee jaar maakte AI een stormachtige opkomst mee. De resultaten gingen van lachwekkend en onbruikbaar naar soms bijzonder nuttig en creatief, waardoor AI-gebaseerde modellen de workflow van steeds meer mensen insluipen. Als je de afgelopen tijd AI hebt gebruikt, deed je dat waarschijnlijk vooral in de cloud, bijvoorbeeld met de online versies van ChatGPT of Googles Gemini. Het lokaal draaien van AI-modellen kan in theorie wel, zolang de maker ze vrijgeeft tenminste, maar is tot nu toe vooral iets voor de tweaker die ermee wil experimenteren. Het vereist immers krachtige hardware.
Testsysteem
Voor de tests in dit artikel maken we gebruik van ons standaard gpu-testsysteem, bestaande uit de volgende onderdelen.
Voor de videokaarten hebben we de referentiekaarten gebruikt, zoals de Nvidia Founders Editions. Van de RTX 5070 Ti bestaat er geen FE; voor die kaart hebben we daarom een MSI Ventus 3X OC-model getest. Hetzelfde geldt voor de RX 9070 en RX 9070 XT: daarvoor gebruiken we respectievelijk de Powercolor Hellhound en Red Devil. De drivers waren AMD Software 25.3.2 en Nvidia GeForce 572.83.
Toch begint lokale AI langzaam aan populariteit te winnen. Voor de bekende online AI-modellen is al een tijdlang een abonnement vereist, in elk geval als je ze onbeperkt en in de nieuwste iteraties wilt gebruiken. Daarnaast is een lokaal draaiende AI inherent privacyvriendelijker, wat zeker gezien de ontwikkelingen in de VS een grotere rol is gaan spelen voor veel mensen. Veel grote AI-modellen komen daarvandaan, met uitzondering van het populaire opensourcemodel DeepSeek, dat afkomstig is uit China.
De ontwikkeling van AI is nog pril en dat geldt eens te meer voor lokale AI. Er komen regelmatig nieuwe modellen beschikbaar en er valt nog veel te winnen met optimalisatie. Er worden pogingen gedaan tot standaardisatie, zoals ONNX en Microsofts DirectML, maar veel AI-tools gebruiken toch vendorspecifieke implementaties. Die zijn vaak veel sneller dan de standaardoptie; je wilt ze dus gebruiken, maar ze maken een-op-een vergelijken lastig.
Naast de elkaar snel opvolgende ontwikkelingen en de vendorspecifieke implementaties is er ook een fundamenteler probleem met het benchmarken van AI: er is niet één antwoord. Ook al geef je dezelfde opdracht, het resultaat kan telkens anders zijn. Sommige van de benchmarks in dit artikel maken gebruik van 'expected outputs' om al te grote afwijkingen te voorkomen; in andere gevallen beoordeel ik zelf of een resultaat ruwweg vergelijkbaar is. Als een niet al te geavanceerd taalmodel het opeens een goed idee vindt om een antwoord te geven in een andere taal of vijftig keer op rij hetzelfde woord neer te pennen, dan draaien we de test opnieuw.
Op de volgende pagina's proberen we te achterhalen welke hardware je nodig hebt om op je eigen pc aan de slag te gaan met lokale AI. Dat doen we zoals gezegd met elf videokaarten uit zowel de huidige als de vorige generaties van AMD en Nvidia. Hieronder vind je de specificaties van al die kaarten op een rij.
|
Architectuur |
Cores |
Geheugen |
Geheugen- bandbreedte |
Tdp |
Introductie |
Nvidia GeForce RTX 5090 |
Blackwell |
21760 |
32GB GDDR7 |
1792GB/s |
575W |
januari 2025 |
Nvidia GeForce RTX 5080 |
Blackwell |
10752 |
16GB GDDR7 |
960GB/s |
360W |
januari 2025 |
Nvidia GeForce RTX 5070 Ti |
Blackwell |
8960 |
16GB GDDR7 |
896GB/s |
300W |
februari 2025 |
Nvidia GeForce RTX 5070 |
Blackwell |
6144 |
12GB GDDR7 |
672GB/s |
250W |
maart 2025 |
Nvidia GeForce RTX 4090 |
Ada |
16384 |
24GB GDDR6X |
1008GB/s |
450W |
oktober 2022 |
Nvidia GeForce RTX 4080 Super |
Ada |
10240 |
16GB GDDR6X |
717GB/s |
320W |
januari 2024 |
Nvidia GeForce RTX 4070 Super |
Ada |
7168 |
12GB GDDR6X |
504GB/s |
220W |
januari 2024 |
AMD Radeon RX 9070 XT |
RDNA 4 |
4096 |
16GB GDDR6 |
640GB/s |
304W |
maart 2025 |
AMD Radeon RX 9070 |
RDNA 4 |
3584 |
16GB GDDR6 |
640GB/s |
220W |
maart 2025 |
AMD Radeon RX 7900 XTX |
RDNA 3 |
6144 |
24GB GDDR6 |
960GB/s |
355W |
december 2022 |
AMD Radeon RX 7800 XT |
RDNA 3 |
3840 |
16GB GDDR6 |
624GB/s |
263W |
september 2023 |
Taalmodellen: Gemma 3 en DeepSeek R1/Qwen
Voor het testen van taalmodellen heb ik gebruikgemaakt van LM Studio, een gemakkelijk te gebruiken gui voor llama.cpp. Llama.cpp is een populaire tool om lokaal inferencing uit te voeren op llm's, oftewel om te werken met vooraf getrainde taalmodellen.
Als benchmark voeren we het taalmodel de volledige tekst van onze Samsung Galaxy S25-review en vragen we om daarvan een samenvatting te maken. Die moet ongeveer 500 woorden tellen en uit lopende tekst bestaan, dus geen bulletpoints of lijstjes met plus- en minpunten.
Op elke videokaart hebben we deze benchmark uitgevoerd met vijf taalmodellen. Drie daarvan zijn varianten van Gemma 3, een open model gebaseerd op Googles Gemini 2.0. De varianten met 4, 12 en 27 miljard parameters worden steeds groter en zwaarder om te draaien, maar produceren ook betere resultaten. Daarnaast hebben we twee varianten van met DeepSeek R1 getrainde Qwen2.5-modellen getest, die voor het geven van een antwoord redeneren om tot een beter resultaat te komen.
Van ieder taalmodel hebben we de Q4_K_M-variant gebruikt. Dat betekent dat het model kleiner is gemaakt met 4bit-quantisation in een gguf-formaat. Q4_K_M wordt over het algemeen gezien als de beste balans tussen snelheid en accuraatheid met moderne hardware.
Bij de grafieken hieronder vind je steeds het gemiddelde aantal tokens per seconde, oftewel de snelheid bij het genereren van een antwoord, en de time to first token. Dit laatste geeft aan hoelang het taalmodel nodig had om de prompt te verwerken. Van de DeepSeek R1-gebaseerde modellen hebben we ook de duur van de denkfase opgenomen, wat laat zien na hoelang redeneren het model aan een antwoord begint.
- Tokens per seconde
- Time to first token
Het Gemma 3-model met vier miljard parameters is veruit het kleinste taalmodel dat we getest hebben. Zeker op de snellere kaarten vliegt het antwoord daarom op het scherm. De RTX 5090 slecht als enige de grens van 200 tokens per seconde, waarmee hij ruim 25 procent sneller is dan de RTX 4090 en RTX 5080. De eerste AMD-kaarten in de tabel zijn de RX 9070 en RX 9070 XT, die praktisch even snel zijn als de RTX 5070 van Nvidia. Dat is opvallend, want in games concurreert zeker de RX 9070 XT toch eerder met de 5070 Ti, maar die is hier duidelijk sneller.
De time to first token is bij alle Nvidia-kaarten zeer vlot, tussen de 0,1 en 0,2 seconde, en lijkt daarbinnen in willekeurige volgorde te staan. Alleen de 4070 Super is met 0,83 seconde duidelijk langzamer. De AMD-kaarten hebben relatief gezien veel langer nodig, maar doordat dit zo'n snel model is staat het eerste woord alsnog ruim binnen een seconde op het scherm.
- Tokens per seconde
- Time to first token
Hoewel de videokaarten ongeveer half zo snel zijn in het model met twaalf miljard parameters, lijkt de volgorde boven in de grafiek weinig anders. Dat verandert als je naar de RTX 4070 Super en RTX 5070 kijkt. Die hebben allebei maar 12GB vram en dat is te weinig om het volledige model inclusief overhead te kunnen cachen. Daardoor moet er uitgeweken worden naar het veel langzamere systeemgeheugen. De met 16GB vram uitgeruste RX 7800 XT van AMD, die bij het 4b-model nog stijf onderaan stond, heeft daarvan geen last: hij is opeens bijna dubbel zo snel als de RTX 5070. Wel is de time to first token bij de 7800 XT nog altijd het hoogst.
- Tokens per seconde
- Time to first token
Het 27b-model weegt ruim 17GB en dat betekent dat het vram van vrijwel alle kaarten te klein is om het model te cachen. Dat is catastrofaal voor de snelheid waarmee het kan worden gebruikt. Of je nou een RTX 5080 of RX 7800 XT gebruikt, de snelheid wordt beperkt tot zo'n 5 tokens per seconde, wat in feite onbruikbaar langzaam is.
De RX 7900 XTX en RTX 4090 hebben met 24GB vram wél genoeg, zou je misschien denken; toch is ook de snelheid op deze kaarten met 10 à 11 tokens per seconde niet om over naar huis te schrijven. Dat komt doordat een model overhead nodig heeft, bijvoorbeeld voor het contextwindow. Alleen de RTX 5090 met 32GB vram kan het 27b-model daardoor op volle snelheid draaien, met ruim 60t/s.
LM Studio geeft bij de downloadfunctie van taalmodellen overigens een indicatie van of een bepaalde versie niet, deels of volledig in het vram zal passen. Past een model net niet, dan kun je bijvoorbeeld overwegen om een heviger quantised variant te kiezen. Andersom kun je ook een versie met minder quantisation downloaden als ook die in je vram zal passen, wat betere resultaten oplevert.
- Tokens per seconde
- Time to first token
- Thought for ...
Bij de op DeepSeek R1 getrainde Qwen-modellen hebben we een derde grafiek toegevoegd, die aangeeft hoelang het model heeft geredeneerd voordat het aan een antwoord begon. Deze fase, typerend voor DeepSeek R1 en inmiddels ook steeds meer nieuwe taalmodellen, gebruikt het model om tegen zichzelf te praten over welk antwoord het het beste kan geven.
Het 7b-model is nog geen 5GB groot en past dus in het vram van alle kaarten. De RTX 5090 is bij dit model maar liefst 37 procent vlotter dan de RTX 4090, een groter verschil dan we bij Gemma 3 zagen. Daarnaast valt op dat de RX 7900 XTX hier duidelijk wat sneller is dan de nieuwere RX 9070 XT.
De time to first token lijkt redelijk willekeurig, maar is op alle kaarten behalve de 7800 XT korter dan 1 seconde. De denktijd blijft alleen op de RTX 4090 en RTX 5090 onder de 2 seconden; op de langzaamste kaarten heeft het model ruim 5 seconden nodig voor deze stap.
- Tokens per seconde
- Time to first token
- Thought for ...
Het grotere 14b-model is 9GB groot en past inclusief overhead niet volledig in het vram van de RTX 4070 Super en RTX 5070, net zoals het Gemma 3 12b-model dat we hierboven bespraken. De RTX 5090 leidt zoals gebruikelijk de grafiek met ruim 100t/s; de RTX 5080 en RTX 4090 zijn meer dan een kwart langzamer. De AMD RX 7900 XTX en de nieuwere RX 9070's halen rond de 50t/s, waarbij andermaal opvalt dat er in de antwoordsnelheid praktisch geen verschil is tussen de RX 9070 en de RX 9070 XT. De time to first token en de denktijd zijn juist wel duidelijk vlotter op de XT.
Image generation: Stable Diffusion 1.5 en XL
Voor het testen van de prestaties bij het genereren van afbeeldingen heb ik de Stable Diffusion-tests uit de Procyon-benchmarks gedraaid. Procyon is een benchmarksuite van UL, het bedrijf dat ook achter 3DMark en PCMark zit. Stable Diffusion is een van de populairste AI-modellen voor het lokaal genereren van plaatjes en is beschikbaar in meerdere varianten. Het SD 1.5-model is relatief licht en maakt plaatjes met een resolutie van 512 bij 512 pixels. Het SD XL-model is geschikter voor high-end videokaarten en hanteert een resolutie van 1024 bij 1024 pixels.
Met beide modellen genereren we zestien plaatjes volgens vaste prompts en rapporteren we de gemiddelde tijd die het genereren van een afbeelding kost. Nvidia-gpu's kunnen in deze test gebruikmaken van de TensorRT-implementatie. AMD-gpu's voltooien de test met de ONNX-runtime.
De prestaties in Stable Diffusion 1.5 lopen flink uiteen. Waar de RTX 5090 minder dan een seconde per plaatje nodig heeft, loopt dat bij de RTX 5070 al op naar meer dan 2 seconden. AMD-kaarten doen het aanzienlijk slechter dan hun concurrenten van Nvidia. De snelste AMD-kaart, de RX 9070 XT, is zelfs langzamer dan de RTX 4070 Super.
Opvallend is het grote verschil tussen de RTX 5070 en RTX 5070 Ti; blijkbaar is de 12GB aan vram van de RTX 5070 wat aan de krappe kant.
Het zwaardere SD XL-model heeft aanzienlijk langer nodig voor het genereren van afbeeldingen. Zelfs de RTX 5090 komt al uit op 5 seconden per plaatje. Wederom presteren de RTX 4070 Super en RTX 5070 vrijwel gelijk aan elkaar, wat erop duidt dat de hoeveelheid vram van die kaarten een beperkende factor is. De AMD-kaarten lopen met dit model nog verder achter op die van Nvidia. Vooral de RX 7800 XT is tranentrekkend traag: je bent per plaatje maar liefst 37 seconden aan het wachten, oftewel bijna tien minuten voor de volledige batch van zestien foto's.
Upscaling: Topaz Video AI
Een ander veelgebruikt doeleinde van AI is het slim opschalen van video. Daarvoor is lokale AI bij uitstek geschikt, omdat het vaak gaat om grote bestanden die je niet zo makkelijk uploadt en laat verwerken in de cloud als een stukje tekst. Bovendien zal niet iedereen staan te springen om privévideos van bijvoorbeeld vakanties met familie extern te laten upscalen.
Voor het in kaart brengen van de prestaties hierbij gebruik ik Topaz Video AI 6.1.3. Deze tool kan video's verbeteren met behulp van AI-modellen op de videokaart. Een deel van deze modellen kan op Nvidia-gpu's gebruikmaken van de Tensor-cores. De benchmarkoptie van Topaz Video AI is ook beschikbaar zonder betaalde licentie en gebruikt 1080p-standaardbeelden als input, dus je kunt de prestaties van je eigen systeem vergelijken met onze scores.
In totaal worden er 22 individuele tests gedraaid, die onder meer upscaling (tot vier keer de originele resolutie), frame-interpolatie, denoising, stabilisatie en het toevoegen van hdr uitvoeren. Daarvan berekenen we een meetkundig gemiddelde, zodat de absolute hoogte van de verschillende tests niet uitmaakt - bij een normaal rekenkundig gemiddelde zou een test met hoge fps veel meer invloed hebben op de totaalscore dan een test met lage fps.
Vlak voor publicatie van dit artikel kwam Topaz Video AI 6.2.0 beschikbaar, met als enige relevante wijziging een update voor TensorRT die de prestaties op RTX 50-videokaarten moet verbeteren. Ik heb met die update alle kaarten uit de 50-serie nog eens getest: die staan dus dubbel in de grafieken. Sanity checks met een kaart uit de 40-serie en een AMD-kaart leverden geen significante verschillen op.
Met softwareversie 6.1.3, tot vorige week vrijdag de nieuwste versie, ging opvallend genoeg niet de RTX 5090 maar de oudere RTX 4090 er nipt met de winst vandoor in deze tests. Hoewel de 50-serie al enkele maanden oud is, had Topaz zijn AI-modellen nog niet geoptimaliseerd voor de nieuwe serie. Dat verandert met de gloednieuwe 6.2.0-update, die wél optimalisaties voor de 50-serie bevat.
Daarmee doen de 50-serie kaarten het over het algemeen een stuk beter. De RTX 5090 haalt de 4090 nu wél duidelijk in met gemiddeld 20,1 tegenover 17,7fps. Je hebt dus in ieder geval wel wat aan je nieuwe kaart, al valt de prestatiewinst nog altijd wat tegen in vergelijking met wat we bij de taalmodellen en doorgaans ook in games zien.
Bij de RTX 5070 en RTX 5080 zien we eveneens een duidelijke prestatietoename na de update. De RTX 5070 Ti profiteert daarvan gek genoeg juist nauwelijks. De nieuwe AMD-kaarten doen het intussen best goed. De RX 9070 XT laat gemiddeld 15,6fps noteren en dat is iets sneller dan de RTX 4080 Super.
We zoomen nog even extra in op het resultaat van het veelgebruikte Gaia-model met 2x upscaling. De 50-serie deed het in deze test al relatief goed en dat verbetert nog eens met de update, vooral bij de RTX 5090. Maar ook AMD laat hier wederom keurige resultaten noteren, waaronder de RX 9070 XT, die de RTX 4090 weet te evenaren.
MLPerf Client: de eerste standaardtest?
Ik stipte al een aantal keer aan dat het benchmarken van AI-modellen minder eenvoudig is dan veel andere tests die we doen, bijvoorbeeld doordat er veel gebruik wordt gemaakt van niet eerlijk vergelijkbare, vendorspecifieke implementaties. MLCommons is een organisatie die daaraan wat probeert te doen. Onder meer AMD, Arm, Google, Intel, Meta, Microsoft en Nvidia werken in deze organisatie samen aan het ontwikkelen van AI-benchmarks.
MLPerf Client is de eerste op consumenten gerichte benchmark die door deze werkgroep is uitgebracht. De test maakt gebruikt van het Llama 2 7B-taalmodel (quantised naar int4) en meet de prestaties bij verschillende taken: het genereren van content, creatief schrijven en twee gradaties van samenvatten. Voor zowel AMD- als Nvidia-gpu's wordt de ONNX-runtime met DirectML gebruikt.
Voor de benchmark wordt de volledige test vier keer gedraaid. De eerste keer wordt gebruikt als opwarmronde; van de drie overige runs wordt een gemiddelde genomen als testresultaat. De accuraatheid van de resultaten wordt bevestigd aan de hand van aantallen 'expected output tokens'.
- Tokens per seconde
- Time to first token
In de overall score worden de prestaties in alle scenario's meegenomen, die we hieronder verder uitsplitsen. De Nvidia GeForce RTX 5090 is met 246t/s ruimschoots de snelste gpu: hij scoort maar liefst 39 procent beter dan de RTX 4090. De RX 7900 XTX van de vorige generatie is de snelste AMD-gpu met 132t/s, vermoedelijk vooral geholpen door zijn relatief grote vram van 24GB. De RX 9070 XT met 16GB volgt op 114t/s, waarmee hij net iets sneller is dan de RTX 5070.
Omdat dit 7B-model in absolute zin behoorlijk rap is, blijft de time to first token bij alle videokaarten ruim onder de seconde. Wel valt op dat de Nvidia-kaarten met maximaal 0,2 seconde aanzienlijk sneller zijn dan de AMD's, die er 0,3 tot 0,5 seconde voor nodig hebben.
- Tokens per seconde
- Time to first token
In contentgeneration is AMD relatief sterk: de RX 7900 XTX is even snel als de RTX 5070 Ti. Nvidia behoudt wel zijn voorsprong bij de time to first token, maar die is in deze test zo kort dat dat in de praktijk eigenlijk niet uitmaakt.
- Tokens per seconde
- Time to first token
Bij het creatief schrijven doet Nvidia het relatief wat beter. De RTX 5070 Ti en ook de RTX 4080 Super lopen hier wat verder uit op de RX 7900 XTX. Wederom zien we dat Nvidia het bij de time to first token duidelijk beter doet.
- Tokens per seconde
- Time to first token
Ook bij de Light-samenvatting doen Nvidia's kaarten het over het algemeen wat beter dan de vergelijkbare modellen van AMD. De langzaamste AMD-kaart heeft een drie keer zo lang time to first token als de langzaamste kaart van Nvidia.
- Tokens per seconde
- Time to first token
Bij de Moderate-samenvatting liggen de absolute prestaties vanzelfsprekend wat lager, maar aan de onderlinge verhoudingen verandert niet veel. De time to first token is in deze test het langst, omdat eerst de volledige tekst verwerkt moet worden. Het verschil tussen AMD en Nvidia wordt daar wel groter: bij de 7800 XT wacht je bijna 1,2 seconde op de eerste token, terwijl dat op de RTX 4070 Super maar 0,3 seconde is.
Voorlopige conclusie
In games presteren videokaarten meestal zoals je zou verwachten op basis van de naamgeving en specificaties. Natuurlijk is er soms een game die beter draait op AMD of juist Nvidia, maar heel extreem is dat zelden. Als je aan de slag gaat met het lokaal draaien van AI-toepassingen, kun je echter weleens voor verrassingen komen te staan.
Nvidia heeft een voorsprong
Om te beginnen werken veel AI-toepassingen wat vlotter op Nvidia-kaarten. Nvidia was er vroeg bij om het draaien van neurale netwerken op gpu's te helpen ontwikkelen, zowel met software-implementaties als met hardwarematige ondersteuning, zoals de sinds de RTX 20-serie aanwezige Tensor-cores. Daarvan plukt het groene kamp nu de vruchten, bijvoorbeeld doordat er Nvidia-specifieke runtimes zijn en AMD-videokaarten het moeten doen met minder efficiënte generieke implementaties.
Een taalmodel wordt onbruikbaar langzaam als het niet in het vram past.
Videogeheugen is koning
Daarnaast is de hoeveelheid en in mindere mate de snelheid van het videogeheugen erg belangrijk voor veel AI-toepassingen. Bij een taalmodel geldt in feite dat het onbruikbaar langzaam wordt als het niet in het vram past. Neem daarbij een flinke marge voor de overhead. Het Gemma 3-12b-it-model, dat 8,15GB groot is, draaide bijvoorbeeld al niet lekker op de kaarten met 12GB vram. Pas vanaf 16GB zag ik de prestaties die je zou verwachten gelet op de overige specificaties van de gpu.
Zelfs met een gpu die in theorie op elk vlak beter is haal je niet altijd betere prestaties. Bij upscaling in Topaz Video AI was de RTX 5090 bijvoorbeeld lange tijd niet sneller dan de RTX 4090, die minder cores, minder vram en een lagere geheugenbandbreedte heeft. Pas na een update met specifieke optimalisaties voor de 50-serie, die eind vorige week uitkwam, heb je iets aan je nieuwe kaart - maar daarop hebben gebruikers van die software dus wel bijna tweeënhalve maand moeten wachten.
Vuistregels voor goede AI-prestaties
Dan eindig ik een beetje waar ik dit artikel begon: het is hartstikke lastig om een oordeel te vellen over de AI-prestaties van videokaarten. Waar de onderlinge verhoudingen tussen gpu's in games vaak vergelijkbaar zijn, zie je in de ene AI-toepassing iets totaal anders dan in de andere. De ontwikkelingen gaan bovendien snel.
Kies een videokaart met veel vram en kies er bij voorkeur een van Nvidia.
Toch kan ik twee vuistregels meegeven: kies een videokaart met veel vram, en - hoe pijnlijk het ook is om dat te moeten schrijven - kies er bij voorkeur een van Nvidia. Voor gaming zijn kaarten als de RX 9070 XT hartstikke interessant, maar op AI-gebied is AMD's aanbod nog niet volwassen genoeg. Nvidia speelt bovendien een grotere rol in het topsegment, waar je op dit moment nu eenmaal moet zijn om de vaak erg zware AI-modellen soepel te kunnen draaien.
Juist omdat de prestaties tussen AI-toepassingen zo kunnen verschillen, is het echter nog belangrijker om specifieke benchmarkresultaten of gebruikerservaringen van jouw beoogde programma of model op te zoeken. Aan de beschikbaarheid daarvan draagt dit artikel in elk geval bij.
Redactie: Tomas Hochstenbach Eindredactie: Marger Verschuur