Door Tomas Hochstenbach

Redacteur

AI-benchmarks van elf videokaarten

Taalmodellen, upscaling en imagegeneration getest

14-04-2025 • 06:00

110

Multipage-opmaak

Lokale AI-benchmarks

Leuk, al die videokaartbenchmarks in games, maar hoe doen al die gpu's het in AI-workloads? Het is een vraag die regelmatig terugkomt onder onze reviews. Hem beantwoorden is alleen zo makkelijk nog niet. Voor dit artikel ben ik aan de slag gegaan met vier verschillende lokale AI-tools en maar liefst elf videokaarten van AMD en Nvidia, zowel van de huidige als de vorige generatie.

In de afgelopen twee jaar maakte AI een stormachtige opkomst mee. De resultaten gingen van lachwekkend en onbruikbaar naar soms bijzonder nuttig en creatief, waardoor AI-gebaseerde modellen de workflow van steeds meer mensen insluipen. Als je de afgelopen tijd AI hebt gebruikt, deed je dat waarschijnlijk vooral in de cloud, bijvoorbeeld met de online versies van ChatGPT of Googles Gemini. Het lokaal draaien van AI-modellen kan in theorie wel, zolang de maker ze vrijgeeft tenminste, maar is tot nu toe vooral iets voor de tweaker die ermee wil experimenteren. Het vereist immers krachtige hardware.

Testsysteem

Voor de tests in dit artikel maken we gebruik van ons standaard gpu-testsysteem, bestaande uit de volgende onderdelen.

Processor AMD Ryzen 7 9800X3D
Moederbord ROG Crosshair X870E Hero
Werkgeheugen G.Skill 32GB DDR5-6000
Ssd Silicon Power XS70 4TB
Voeding FSP Hydro PTM Pro 1200W
Koeling Alphacool custom 480mm
Testbench Streacom BC1 V2
Besturingssysteem Windows 11 Pro

Voor de videokaarten hebben we de referentiekaarten gebruikt, zoals de Nvidia Founders Editions. Van de RTX 5070 Ti bestaat er geen FE; voor die kaart hebben we daarom een MSI Ventus 3X OC-model getest. Hetzelfde geldt voor de RX 9070 en RX 9070 XT: daarvoor gebruiken we respectievelijk de Powercolor Hellhound en Red Devil. De drivers waren AMD Software 25.3.2 en Nvidia GeForce 572.83.

Toch begint lokale AI langzaam aan populariteit te winnen. Voor de bekende online AI-modellen is al een tijdlang een abonnement vereist, in elk geval als je ze onbeperkt en in de nieuwste iteraties wilt gebruiken. Daarnaast is een lokaal draaiende AI inherent privacyvriendelijker, wat zeker gezien de ontwikkelingen in de VS een grotere rol is gaan spelen voor veel mensen. Veel grote AI-modellen komen daarvandaan, met uitzondering van het populaire opensourcemodel DeepSeek, dat afkomstig is uit China.

De ontwikkeling van AI is nog pril en dat geldt eens te meer voor lokale AI. Er komen regelmatig nieuwe modellen beschikbaar en er valt nog veel te winnen met optimalisatie. Er worden pogingen gedaan tot standaardisatie, zoals ONNX en Microsofts DirectML, maar veel AI-tools gebruiken toch vendorspecifieke implementaties. Die zijn vaak veel sneller dan de standaardoptie; je wilt ze dus gebruiken, maar ze maken een-op-een vergelijken lastig.

Naast de elkaar snel opvolgende ontwikkelingen en de vendorspecifieke implementaties is er ook een fundamenteler probleem met het benchmarken van AI: er is niet één antwoord. Ook al geef je dezelfde opdracht, het resultaat kan telkens anders zijn. Sommige van de benchmarks in dit artikel maken gebruik van 'expected outputs' om al te grote afwijkingen te voorkomen; in andere gevallen beoordeel ik zelf of een resultaat ruwweg vergelijkbaar is. Als een niet al te geavanceerd taalmodel het opeens een goed idee vindt om een antwoord te geven in een andere taal of vijftig keer op rij hetzelfde woord neer te pennen, dan draaien we de test opnieuw.

Op de volgende pagina's proberen we te achterhalen welke hardware je nodig hebt om op je eigen pc aan de slag te gaan met lokale AI. Dat doen we zoals gezegd met elf videokaarten uit zowel de huidige als de vorige generaties van AMD en Nvidia. Hieronder vind je de specificaties van al die kaarten op een rij.

Architectuur Cores Geheugen Geheugen-
bandbreedte
Tdp Introductie
Nvidia GeForce RTX 5090 Blackwell 21760 32GB GDDR7 1792GB/s 575W januari 2025
Nvidia GeForce RTX 5080 Blackwell 10752 16GB GDDR7 960GB/s 360W januari 2025
Nvidia GeForce RTX 5070 Ti Blackwell 8960 16GB GDDR7 896GB/s 300W februari 2025
Nvidia GeForce RTX 5070 Blackwell 6144 12GB GDDR7 672GB/s 250W maart 2025
Nvidia GeForce RTX 4090 Ada 16384 24GB GDDR6X 1008GB/s 450W oktober 2022
Nvidia GeForce RTX 4080 Super Ada 10240 16GB GDDR6X 717GB/s 320W januari 2024
Nvidia GeForce RTX 4070 Super Ada 7168 12GB GDDR6X 504GB/s 220W januari 2024
AMD Radeon RX 9070 XT RDNA 4 4096 16GB GDDR6 640GB/s 304W maart 2025
AMD Radeon RX 9070 RDNA 4 3584 16GB GDDR6 640GB/s 220W maart 2025
AMD Radeon RX 7900 XTX RDNA 3 6144 24GB GDDR6 960GB/s 355W december 2022
AMD Radeon RX 7800 XT RDNA 3 3840 16GB GDDR6 624GB/s 263W september 2023

Taalmodellen: Gemma 3 en DeepSeek R1/Qwen

Voor het testen van taalmodellen heb ik gebruikgemaakt van LM Studio, een gemakkelijk te gebruiken gui voor llama.cpp. Llama.cpp is een populaire tool om lokaal inferencing uit te voeren op llm's, oftewel om te werken met vooraf getrainde taalmodellen.

Als benchmark voeren we het taalmodel de volledige tekst van onze Samsung Galaxy S25-review en vragen we om daarvan een samenvatting te maken. Die moet ongeveer 500 woorden tellen en uit lopende tekst bestaan, dus geen bulletpoints of lijstjes met plus- en minpunten.

Op elke videokaart hebben we deze benchmark uitgevoerd met vijf taalmodellen. Drie daarvan zijn varianten van Gemma 3, een open model gebaseerd op Googles Gemini 2.0. De varianten met 4, 12 en 27 miljard parameters worden steeds groter en zwaarder om te draaien, maar produceren ook betere resultaten. Daarnaast hebben we twee varianten van met DeepSeek R1 getrainde Qwen2.5-modellen getest, die voor het geven van een antwoord redeneren om tot een beter resultaat te komen.

Van ieder taalmodel hebben we de Q4_K_M-variant gebruikt. Dat betekent dat het model kleiner is gemaakt met 4bit-quantisation in een gguf-formaat. Q4_K_M wordt over het algemeen gezien als de beste balans tussen snelheid en accuraatheid met moderne hardware.

Bij de grafieken hieronder vind je steeds het gemiddelde aantal tokens per seconde, oftewel de snelheid bij het genereren van een antwoord, en de time to first token. Dit laatste geeft aan hoelang het taalmodel nodig had om de prompt te verwerken. Van de DeepSeek R1-gebaseerde modellen hebben we ook de duur van de denkfase opgenomen, wat laat zien na hoelang redeneren het model aan een antwoord begint.

  • Tokens per seconde
  • Time to first token

Het Gemma 3-model met vier miljard parameters is veruit het kleinste taalmodel dat we getest hebben. Zeker op de snellere kaarten vliegt het antwoord daarom op het scherm. De RTX 5090 slecht als enige de grens van 200 tokens per seconde, waarmee hij ruim 25 procent sneller is dan de RTX 4090 en RTX 5080. De eerste AMD-kaarten in de tabel zijn de RX 9070 en RX 9070 XT, die praktisch even snel zijn als de RTX 5070 van Nvidia. Dat is opvallend, want in games concurreert zeker de RX 9070 XT toch eerder met de 5070 Ti, maar die is hier duidelijk sneller.

De time to first token is bij alle Nvidia-kaarten zeer vlot, tussen de 0,1 en 0,2 seconde, en lijkt daarbinnen in willekeurige volgorde te staan. Alleen de 4070 Super is met 0,83 seconde duidelijk langzamer. De AMD-kaarten hebben relatief gezien veel langer nodig, maar doordat dit zo'n snel model is staat het eerste woord alsnog ruim binnen een seconde op het scherm.

  • Tokens per seconde
  • Time to first token

Hoewel de videokaarten ongeveer half zo snel zijn in het model met twaalf miljard parameters, lijkt de volgorde boven in de grafiek weinig anders. Dat verandert als je naar de RTX 4070 Super en RTX 5070 kijkt. Die hebben allebei maar 12GB vram en dat is te weinig om het volledige model inclusief overhead te kunnen cachen. Daardoor moet er uitgeweken worden naar het veel langzamere systeemgeheugen. De met 16GB vram uitgeruste RX 7800 XT van AMD, die bij het 4b-model nog stijf onderaan stond, heeft daarvan geen last: hij is opeens bijna dubbel zo snel als de RTX 5070. Wel is de time to first token bij de 7800 XT nog altijd het hoogst.

  • Tokens per seconde
  • Time to first token

Het 27b-model weegt ruim 17GB en dat betekent dat het vram van vrijwel alle kaarten te klein is om het model te cachen. Dat is catastrofaal voor de snelheid waarmee het kan worden gebruikt. Of je nou een RTX 5080 of RX 7800 XT gebruikt, de snelheid wordt beperkt tot zo'n 5 tokens per seconde, wat in feite onbruikbaar langzaam is.

De RX 7900 XTX en RTX 4090 hebben met 24GB vram wél genoeg, zou je misschien denken; toch is ook de snelheid op deze kaarten met 10 à 11 tokens per seconde niet om over naar huis te schrijven. Dat komt doordat een model overhead nodig heeft, bijvoorbeeld voor het contextwindow. Alleen de RTX 5090 met 32GB vram kan het 27b-model daardoor op volle snelheid draaien, met ruim 60t/s.

LM Studio geeft bij de downloadfunctie van taalmodellen overigens een indicatie van of een bepaalde versie niet, deels of volledig in het vram zal passen. Past een model net niet, dan kun je bijvoorbeeld overwegen om een heviger quantised variant te kiezen. Andersom kun je ook een versie met minder quantisation downloaden als ook die in je vram zal passen, wat betere resultaten oplevert.

  • Tokens per seconde
  • Time to first token
  • Thought for ...

Bij de op DeepSeek R1 getrainde Qwen-modellen hebben we een derde grafiek toegevoegd, die aangeeft hoelang het model heeft geredeneerd voordat het aan een antwoord begon. Deze fase, typerend voor DeepSeek R1 en inmiddels ook steeds meer nieuwe taalmodellen, gebruikt het model om tegen zichzelf te praten over welk antwoord het het beste kan geven.

Het 7b-model is nog geen 5GB groot en past dus in het vram van alle kaarten. De RTX 5090 is bij dit model maar liefst 37 procent vlotter dan de RTX 4090, een groter verschil dan we bij Gemma 3 zagen. Daarnaast valt op dat de RX 7900 XTX hier duidelijk wat sneller is dan de nieuwere RX 9070 XT.

De time to first token lijkt redelijk willekeurig, maar is op alle kaarten behalve de 7800 XT korter dan 1 seconde. De denktijd blijft alleen op de RTX 4090 en RTX 5090 onder de 2 seconden; op de langzaamste kaarten heeft het model ruim 5 seconden nodig voor deze stap.

  • Tokens per seconde
  • Time to first token
  • Thought for ...

Het grotere 14b-model is 9GB groot en past inclusief overhead niet volledig in het vram van de RTX 4070 Super en RTX 5070, net zoals het Gemma 3 12b-model dat we hierboven bespraken. De RTX 5090 leidt zoals gebruikelijk de grafiek met ruim 100t/s; de RTX 5080 en RTX 4090 zijn meer dan een kwart langzamer. De AMD RX 7900 XTX en de nieuwere RX 9070's halen rond de 50t/s, waarbij andermaal opvalt dat er in de antwoordsnelheid praktisch geen verschil is tussen de RX 9070 en de RX 9070 XT. De time to first token en de denktijd zijn juist wel duidelijk vlotter op de XT.

Image generation: Stable Diffusion 1.5 en XL

Voor het testen van de prestaties bij het genereren van afbeeldingen heb ik de Stable Diffusion-tests uit de Procyon-benchmarks gedraaid. Procyon is een benchmarksuite van UL, het bedrijf dat ook achter 3DMark en PCMark zit. Stable Diffusion is een van de populairste AI-modellen voor het lokaal genereren van plaatjes en is beschikbaar in meerdere varianten. Het SD 1.5-model is relatief licht en maakt plaatjes met een resolutie van 512 bij 512 pixels. Het SD XL-model is geschikter voor high-end videokaarten en hanteert een resolutie van 1024 bij 1024 pixels.

Met beide modellen genereren we zestien plaatjes volgens vaste prompts en rapporteren we de gemiddelde tijd die het genereren van een afbeelding kost. Nvidia-gpu's kunnen in deze test gebruikmaken van de TensorRT-implementatie. AMD-gpu's voltooien de test met de ONNX-runtime.

De prestaties in Stable Diffusion 1.5 lopen flink uiteen. Waar de RTX 5090 minder dan een seconde per plaatje nodig heeft, loopt dat bij de RTX 5070 al op naar meer dan 2 seconden. AMD-kaarten doen het aanzienlijk slechter dan hun concurrenten van Nvidia. De snelste AMD-kaart, de RX 9070 XT, is zelfs langzamer dan de RTX 4070 Super.

Opvallend is het grote verschil tussen de RTX 5070 en RTX 5070 Ti; blijkbaar is de 12GB aan vram van de RTX 5070 wat aan de krappe kant.

Het zwaardere SD XL-model heeft aanzienlijk langer nodig voor het genereren van afbeeldingen. Zelfs de RTX 5090 komt al uit op 5 seconden per plaatje. Wederom presteren de RTX 4070 Super en RTX 5070 vrijwel gelijk aan elkaar, wat erop duidt dat de hoeveelheid vram van die kaarten een beperkende factor is. De AMD-kaarten lopen met dit model nog verder achter op die van Nvidia. Vooral de RX 7800 XT is tranentrekkend traag: je bent per plaatje maar liefst 37 seconden aan het wachten, oftewel bijna tien minuten voor de volledige batch van zestien foto's.

Upscaling: Topaz Video AI

Een ander veelgebruikt doeleinde van AI is het slim opschalen van video. Daarvoor is lokale AI bij uitstek geschikt, omdat het vaak gaat om grote bestanden die je niet zo makkelijk uploadt en laat verwerken in de cloud als een stukje tekst. Bovendien zal niet iedereen staan te springen om privévideos van bijvoorbeeld vakanties met familie extern te laten upscalen.

Voor het in kaart brengen van de prestaties hierbij gebruik ik Topaz Video AI 6.1.3. Deze tool kan video's verbeteren met behulp van AI-modellen op de videokaart. Een deel van deze modellen kan op Nvidia-gpu's gebruikmaken van de Tensor-cores. De benchmarkoptie van Topaz Video AI is ook beschikbaar zonder betaalde licentie en gebruikt 1080p-standaardbeelden als input, dus je kunt de prestaties van je eigen systeem vergelijken met onze scores.

In totaal worden er 22 individuele tests gedraaid, die onder meer upscaling (tot vier keer de originele resolutie), frame-interpolatie, denoising, stabilisatie en het toevoegen van hdr uitvoeren. Daarvan berekenen we een meetkundig gemiddelde, zodat de absolute hoogte van de verschillende tests niet uitmaakt - bij een normaal rekenkundig gemiddelde zou een test met hoge fps veel meer invloed hebben op de totaalscore dan een test met lage fps.

Vlak voor publicatie van dit artikel kwam Topaz Video AI 6.2.0 beschikbaar, met als enige relevante wijziging een update voor TensorRT die de prestaties op RTX 50-videokaarten moet verbeteren. Ik heb met die update alle kaarten uit de 50-serie nog eens getest: die staan dus dubbel in de grafieken. Sanity checks met een kaart uit de 40-serie en een AMD-kaart leverden geen significante verschillen op.

Met softwareversie 6.1.3, tot vorige week vrijdag de nieuwste versie, ging opvallend genoeg niet de RTX 5090 maar de oudere RTX 4090 er nipt met de winst vandoor in deze tests. Hoewel de 50-serie al enkele maanden oud is, had Topaz zijn AI-modellen nog niet geoptimaliseerd voor de nieuwe serie. Dat verandert met de gloednieuwe 6.2.0-update, die wél optimalisaties voor de 50-serie bevat.

Daarmee doen de 50-serie kaarten het over het algemeen een stuk beter. De RTX 5090 haalt de 4090 nu wél duidelijk in met gemiddeld 20,1 tegenover 17,7fps. Je hebt dus in ieder geval wel wat aan je nieuwe kaart, al valt de prestatiewinst nog altijd wat tegen in vergelijking met wat we bij de taalmodellen en doorgaans ook in games zien.

Bij de RTX 5070 en RTX 5080 zien we eveneens een duidelijke prestatietoename na de update. De RTX 5070 Ti profiteert daarvan gek genoeg juist nauwelijks. De nieuwe AMD-kaarten doen het intussen best goed. De RX 9070 XT laat gemiddeld 15,6fps noteren en dat is iets sneller dan de RTX 4080 Super.

We zoomen nog even extra in op het resultaat van het veelgebruikte Gaia-model met 2x upscaling. De 50-serie deed het in deze test al relatief goed en dat verbetert nog eens met de update, vooral bij de RTX 5090. Maar ook AMD laat hier wederom keurige resultaten noteren, waaronder de RX 9070 XT, die de RTX 4090 weet te evenaren.

MLPerf Client: de eerste standaardtest?

Ik stipte al een aantal keer aan dat het benchmarken van AI-modellen minder eenvoudig is dan veel andere tests die we doen, bijvoorbeeld doordat er veel gebruik wordt gemaakt van niet eerlijk vergelijkbare, vendorspecifieke implementaties. MLCommons is een organisatie die daaraan wat probeert te doen. Onder meer AMD, Arm, Google, Intel, Meta, Microsoft en Nvidia werken in deze organisatie samen aan het ontwikkelen van AI-benchmarks.

MLPerf Client is de eerste op consumenten gerichte benchmark die door deze werkgroep is uitgebracht. De test maakt gebruikt van het Llama 2 7B-taalmodel (quantised naar int4) en meet de prestaties bij verschillende taken: het genereren van content, creatief schrijven en twee gradaties van samenvatten. Voor zowel AMD- als Nvidia-gpu's wordt de ONNX-runtime met DirectML gebruikt.

Voor de benchmark wordt de volledige test vier keer gedraaid. De eerste keer wordt gebruikt als opwarmronde; van de drie overige runs wordt een gemiddelde genomen als testresultaat. De accuraatheid van de resultaten wordt bevestigd aan de hand van aantallen 'expected output tokens'.

  • Tokens per seconde
  • Time to first token

In de overall score worden de prestaties in alle scenario's meegenomen, die we hieronder verder uitsplitsen. De Nvidia GeForce RTX 5090 is met 246t/s ruimschoots de snelste gpu: hij scoort maar liefst 39 procent beter dan de RTX 4090. De RX 7900 XTX van de vorige generatie is de snelste AMD-gpu met 132t/s, vermoedelijk vooral geholpen door zijn relatief grote vram van 24GB. De RX 9070 XT met 16GB volgt op 114t/s, waarmee hij net iets sneller is dan de RTX 5070.

Omdat dit 7B-model in absolute zin behoorlijk rap is, blijft de time to first token bij alle videokaarten ruim onder de seconde. Wel valt op dat de Nvidia-kaarten met maximaal 0,2 seconde aanzienlijk sneller zijn dan de AMD's, die er 0,3 tot 0,5 seconde voor nodig hebben.

  • Tokens per seconde
  • Time to first token

In contentgeneration is AMD relatief sterk: de RX 7900 XTX is even snel als de RTX 5070 Ti. Nvidia behoudt wel zijn voorsprong bij de time to first token, maar die is in deze test zo kort dat dat in de praktijk eigenlijk niet uitmaakt.

  • Tokens per seconde
  • Time to first token

Bij het creatief schrijven doet Nvidia het relatief wat beter. De RTX 5070 Ti en ook de RTX 4080 Super lopen hier wat verder uit op de RX 7900 XTX. Wederom zien we dat Nvidia het bij de time to first token duidelijk beter doet.

  • Tokens per seconde
  • Time to first token

Ook bij de Light-samenvatting doen Nvidia's kaarten het over het algemeen wat beter dan de vergelijkbare modellen van AMD. De langzaamste AMD-kaart heeft een drie keer zo lang time to first token als de langzaamste kaart van Nvidia.

  • Tokens per seconde
  • Time to first token

Bij de Moderate-samenvatting liggen de absolute prestaties vanzelfsprekend wat lager, maar aan de onderlinge verhoudingen verandert niet veel. De time to first token is in deze test het langst, omdat eerst de volledige tekst verwerkt moet worden. Het verschil tussen AMD en Nvidia wordt daar wel groter: bij de 7800 XT wacht je bijna 1,2 seconde op de eerste token, terwijl dat op de RTX 4070 Super maar 0,3 seconde is.

Voorlopige conclusie

In games presteren videokaarten meestal zoals je zou verwachten op basis van de naamgeving en specificaties. Natuurlijk is er soms een game die beter draait op AMD of juist Nvidia, maar heel extreem is dat zelden. Als je aan de slag gaat met het lokaal draaien van AI-toepassingen, kun je echter weleens voor verrassingen komen te staan.

Nvidia heeft een voorsprong

Om te beginnen werken veel AI-toepassingen wat vlotter op Nvidia-kaarten. Nvidia was er vroeg bij om het draaien van neurale netwerken op gpu's te helpen ontwikkelen, zowel met software-implementaties als met hardwarematige ondersteuning, zoals de sinds de RTX 20-serie aanwezige Tensor-cores. Daarvan plukt het groene kamp nu de vruchten, bijvoorbeeld doordat er Nvidia-specifieke runtimes zijn en AMD-videokaarten het moeten doen met minder efficiënte generieke implementaties.

Een taalmodel wordt onbruikbaar langzaam als het niet in het vram past.

Videogeheugen is koning

Daarnaast is de hoeveelheid en in mindere mate de snelheid van het videogeheugen erg belangrijk voor veel AI-toepassingen. Bij een taalmodel geldt in feite dat het onbruikbaar langzaam wordt als het niet in het vram past. Neem daarbij een flinke marge voor de overhead. Het Gemma 3-12b-it-model, dat 8,15GB groot is, draaide bijvoorbeeld al niet lekker op de kaarten met 12GB vram. Pas vanaf 16GB zag ik de prestaties die je zou verwachten gelet op de overige specificaties van de gpu.

Zelfs met een gpu die in theorie op elk vlak beter is haal je niet altijd betere prestaties. Bij upscaling in Topaz Video AI was de RTX 5090 bijvoorbeeld lange tijd niet sneller dan de RTX 4090, die minder cores, minder vram en een lagere geheugenbandbreedte heeft. Pas na een update met specifieke optimalisaties voor de 50-serie, die eind vorige week uitkwam, heb je iets aan je nieuwe kaart - maar daarop hebben gebruikers van die software dus wel bijna tweeënhalve maand moeten wachten.

Vuistregels voor goede AI-prestaties

Dan eindig ik een beetje waar ik dit artikel begon: het is hartstikke lastig om een oordeel te vellen over de AI-prestaties van videokaarten. Waar de onderlinge verhoudingen tussen gpu's in games vaak vergelijkbaar zijn, zie je in de ene AI-toepassing iets totaal anders dan in de andere. De ontwikkelingen gaan bovendien snel.

Kies een videokaart met veel vram en kies er bij voorkeur een van Nvidia.Toch kan ik twee vuistregels meegeven: kies een videokaart met veel vram, en - hoe pijnlijk het ook is om dat te moeten schrijven - kies er bij voorkeur een van Nvidia. Voor gaming zijn kaarten als de RX 9070 XT hartstikke interessant, maar op AI-gebied is AMD's aanbod nog niet volwassen genoeg. Nvidia speelt bovendien een grotere rol in het topsegment, waar je op dit moment nu eenmaal moet zijn om de vaak erg zware AI-modellen soepel te kunnen draaien.

Juist omdat de prestaties tussen AI-toepassingen zo kunnen verschillen, is het echter nog belangrijker om specifieke benchmarkresultaten of gebruikerservaringen van jouw beoogde programma of model op te zoeken. Aan de beschikbaarheid daarvan draagt dit artikel in elk geval bij.

Redactie: Tomas Hochstenbach Eindredactie: Marger Verschuur

Reacties (110)

110
108
63
5
0
34
Wijzig sortering
@Tomas Hochstenbach gaaf artikel! Dank je!
Ik ben benieuwd naar de prestaties in verhouding tot twee 3090 modellen met link.

Ik kom relatief veel mensen tegen die bij die set-up zweren voor llm modellen, omdat het de laatste consumenten gpu is met nvidia link.

Kun je ook de TOPS per GPU en de breedte van de geheugenbus (128bits, 192bots, 256bots etc.) voor de gebruikte kwantificering melden? Als het goed is is er een relatie tussen de bus-breedte. Zou een 2070S sneller zijn dan een 5060 met 8GB geheugen - bijvoorbeeld.

Overigens wordt llama3.1 ook veel gebruikt.
En https://stable-diffusion-art.com/flux-forge/ voor beeld generatie.
Flux.1 [dev] en Flux.1 [schnell] komt van Europese bodem (Duitsland).
Forge WebUI is sneller dan de standaard UI. Het maakt dus ook erg uit welke UI (/configuratie) je gebruik, hoe snel een model is.

Voor Qualcomm X Elite moeten - net zoals je aan geeft voor nieuwe Nvidia architecturen - modellen ook geoptimaliseerd worden, die vindt je onderandere https://github.com/quic/a...ain/qai_hub_models/models en https://aihub.qualcomm.co...es=Snapdragon+X+Elite+CRD en ze bieden een gratis cloud dienst om modellen die nog niet geoptimaliseerd zijn, om te zetten. De upload snelheid heeft veel weg van het modem tijdperk, dus hou daar rekening mee in je planning, werkt verder prima.

[Reactie gewijzigd door djwice op 14 april 2025 07:17]

Forge draait niet op amd hardware onder windows. Pytorch ondersteunt geen rocm dan.

Forge is imo ook niet de moeite waard meer nu comfy ui de norm is.
Het zou inderdaad de moeite waard zijn om benchmarks toe te voegen van multi gpu setups. Voor taalmodellen is daarbij zelfs geen nvidia link nodig wanneer gebruik wordt gemaakt van llama.cpp (waar onder andere LM Studio en Ollama op draaien). Llama.cpp kan het model zeer efficiënt verdelen over meerdere gpu’s. Zou interessant zijn om dit ook mee te nemen in de tests. Vermoed dat AMD dan interessanter wordt qua prijs/prestatie, omdat je met twee oudere, relatief goedkope gpu’s, 32gb (of meer) vram beschikbaar kan hebben voor beduidend minder dan de prijs van één RTX 5090.
dat zou inderdaad heel interessant zijn.

om een voorbeeldje te noemen, wat als je een setje 1050s voor laten we zeggen 50 per stuk kun kopen, met 200 euro heb dan dus 4 kaarten met 4gb elk en een stroom gebruik van ongeveer 200w de goedkoopste 3060 (met maar 12gb) die ik kan vinden in de V&A moet al 10% meer kosten en ik vraag me maar af of ie wel op kan tegen 4 kaartjes. en 30% meer vram.

als zo'n runner de workload inderdaad over verschillende kaarten zou kunnen verdelen dfan zou dat volgens mij een heel nieuwe dimentie kunnen geven aan het hergebruiken van oudere videokaarten. tot op het punt dat zelfs GTX 1xx0 en rtx20x0 kaarten weer een nuttige taak kunnen krijgen. buiten de afvalbak.
De 1050 is waarschijnlijk te oud vanwege gebrek aan support voor de minimale versie van Cuda die nodig is voor huidige builds van llama.cpp (iets van 11.7 als ik het goed heb). Maar mogelijk dat 20xx kaarten wel werken.

Ik zou wel eerder naar kaarten met 8gb of meer kijken. Ik heb zelf oa een AMD Vega 64 met 16GB vram, en die kan prima een 14b q4 model draaien (mede dankzij het HBM2 geheugen). Prima voor dagelijks gebruik als coding assistant bijvoorbeeld.

[Reactie gewijzigd door wunderBar_ op 14 april 2025 14:00]

tot op het punt dat zelfs GTX 1xx0 en rtx20x0 kaarten weer een nuttige taak kunnen krijgen. buiten de afvalbak.
De gevoelens van mijn GPU’s die nog steeds nuttig werk verzetten werden niet gespaard :Y)
Eens, ik had graag een 4 x 3060 12GB vergelijking gezien. Die koop je al voor onder de 1200 euro.
Graag gedaan! Helaas hebben we geen twee 3090's, dus daar kan ik je niet mee helpen. In de tabel op p1 staat de geheugenbandbreedte, in de berekening daarvan is de geheugenbus meegenomen (naast de snelheid van het geheugen). Aantallen tops zijn puur theoretisch en niet per se goed vergelijkbaar tussen verschillende fabrikanten (net als tflops), zeker in een artikel met echte benchmarks denk ik dat je daar veel beter naar kunt kijken.
Dank je. Bij LLM zie je dat uit maakt hoe snel data bij een computer unit van de gpu is, als de geheugenbandbreedte hoog is maar de geheugenbus klein, is bij gelijke bandbreedte die met de grotere bus typisch sneller, bij gelijke architectuur.

Om dat te ontkrachten of te bevestigen leek mij die bus er bij zetten interessant, vandaar. Typisch zie je (dan) dat bij een LLM de cores niet volledig worden benut.

En in dat geval worden het aantal TOPS dat ie kan uitvoeren dus ook niet gebruikt. Vandaar dat ik dacht, wellicht ook relevant om het aantal TOPS en het gebruikte aantal TOPS te melden, voor elk model, zelfs elke kwantificering van een model is wat een token is, anders. Dus kun je het aantal tokens per seconde niet onderling vergelijken (alleen voor dezelfde kwantificering van het zelfde model). Als we zien hoe effectief de tokens per seconde ook alle tops gebruiken kunnen we zien hoe efficiënt het model gebruik kan maken van de architectuur. Als de geheugenbandbreedte dan volledig wordt uitgenut is er niet veel te optimaliseren, is ook die niet 'vol' dan heb je kans dat er nog optimalisaties gedaan kunnen worden in de toekomst.

Althans dit is mijn beeld, maar dat kan ik ook verkeerd begrepen hebben.
Dit is een mooie eerste stap van Tweakers om hardware te testen voor L-AI.

Zoals al eerder hier opgemerkt zou het meenemen van video generatie een mooie opmaat zijn naar een wat meer serieuze en bredere benchmarking, alhoewel ik denk dat dit qua posities in de charts niet heel veel verschil zal maken in de kern is het immers de tijd van 1 plaatje x aantal fps x lengte van het filmpje (zeer summiere omschrijving)

Zat zelf nog even te twijfelen tussen AMD en nVIDIA, maar blij dat ik de 5080 gekozen heb, ruim 50% goedkoper dan de 5090/4090 en gemiddeld maar zo'n 33% langzamer.

Als je complete systemen voor AI wilt testen zou je ook de load model tijd mee moeten nemen, zeker met Flux kan dit op systemen met langzamer en minder geheugen wat langer duren voor de eerste keer, en serieuze workflows in comfyUI kan meerdere modellen bevatten die het al geladen model dan weer offloaden naar RAM.

Ikzelf merk dat met SDXL en Flux 32GB ram (dus niet Vram) echt minimaal is en 64 of 128GB eigenlijk een must is.

Temperatuur is ook een leuke, in AI zie ik vaak de 5080 op 100% GPU staan, maar de temp blijft dan nominaal rond de 37 graden, met gamen is dit vaak 100% en zo'n 65 graden, die 100% met AI lijkt mij dan voornamelijk de tensor cores te zijn.

Overclocken lijkt geen (duidelijke) impact te hebben op AI, dit heb ik echter niet serieus getest.
Ik kwam laatst een interessant YouTube filmpje tegen waarin wordt uitgelegd dat de performance van AMD videokaarten onder Windows komt door slechte drivers. Performance onder Linux schijnt veel beter te zijn.

Hier is het filmpje: Is AMD Actually Competing with NVIDIA in local AI? The Real Story

Admin-edit:Ai content verwijderd. Zie onze huisregels.

[Reactie gewijzigd door Bor op 14 april 2025 19:06]

Wendel van Level1Techs heeft een video gemaakt over hoe je Rocm kunt installeren op Linux en gaat ook in op hoe je met oudere GPU's nog prima met AI kan werken.

@Tomas Hochstenbach Begrijpenlijk dat niet elke videokaart getest kan worden, maar zou het niet toff zijn een generatie of 2 terug zoals de AMD RX 6000 series of de Nvidia 3000 series mee te nemen in zo'n vergelijk? Wellicht ook een Intel B580?
Dat zijn kaarten die men al geïnstalleerd heeft.
Nieuwe hardware is natuurlijk leuk, maar het is nog leuker als je er ook direct mee aan de slag kunt.
En natuurlijk gaan die het niet halen bij wat een nieuwe generatie kan presteren dat is helder.

Zelf draai ik
AMD Ryzen 7 5800X met 48GB geheugen en een AMD RX 6800 met 16 GB.
Ollama (bare metal) + open webui (op docker) voor algemene vragen.
Visual Studio Code + Continue (plugin)
Op Ubuntu 24.04.2 LTS met Kernel Linux 6.11.0-21-generic

Resultaten zijn vooral afhankelijk van het model wat je gebruikt.
Hoe groter het model hoe langzamer, maar ook gedetailleerder de antwoorden.

Overigens heb ik niet met Rocm hoeven stoeien om dit aan de praat te krijgen.
Ollama geïnstalleerd
Model gedownload
Open Webui in Docker Desktop geladen
En Continue in VS Code geïnstalleerd

Zou het bijna "works out of the box" willen noemen.
Draait prima en ook razend snel (afhankelijk van het model en de grote hiervan).

Een video of artikel waarin de vergelijking gemaakt word en/of een how-to je dit zelf kunt opzetten zou ook erg leuk zijn, zeker met een videokaart die je mogelijk al in huis hebt, c.q. niet perse het nieuwste van het nieuwste. :)
Klopt wel. Ik heb een behoorlijk snelle AMD kaart en die werkt onder Linux inderdaad ongeveer even snel als mijn 4090 met ollama <3 qua tokens per seconde . Met name omdat op de AMD van een paar jaar oud wel snel HBM2 geheugen zit. (En die kaart kostte me maar 300 euro nieuw *O* ). Helaas nu niet meer verkrijgbaar anders had ik er nog wel eentje gekocht.

[Reactie gewijzigd door Llopigat op 14 april 2025 10:07]

Je hebt het vast al overwogen of je hebt iets specifiekers nodig, maar je kan er nog een paar vinden op V&A: categorie: Videokaarten
Oh nee niet overwogen maar het zou idd wel kunnen als optie. Bedankt!

Maar ik heb er nu al een 3060 12GB naast gezet vanwege sommige modellen die niet op ROCm kunnen (faster-whisper bivoorbeeld). En er passen er niet meer in. Bovendien als je een groot model inlaadt dan ben je ook wat meer beperkt door de PCIe bus helaas.

[Reactie gewijzigd door Llopigat op 14 april 2025 12:12]

Waarom alleen maar dedicated GPU's en geen iGPU's? Ik vind dit een hele rare test. Dedicated GPU's kunnen vaak alleen hele kleine taalmodellen draaien! Dat benoemen jullie hier ook, VRAM is king. Waarom dan juist bij taalmodellen dedicated GPU's gebruiken die daar bij uitstek ongeschikt voor zijn???
Ik zou juist hebben meegenomen, de:
M4 Pro: 64GiB
M4 Max: 128GiB
M3 Ultra: 512GiB
Al Max+ 395: 128GiB
De AI Max+ 395 is nog niet wijd verkrijgbaar - er is slechts 1 laptop in de uitvoering met 128GiB aangekondigd en er is bij mijn weten nog nergens een review van dus ik gok dat de toestellen nog niet aan klanten geleverd wordt. Het gaat om de HP ZBook Ultra G1a, en het lijkt er op dat het toestel in 128GB uitvoering meer dan 8000 euro gaat kosten.

Ik denk niet dat het redelijk is om te verwachten dat Tweakers een toestel als dit nu al in hun testarsenaal heeft, en die Macs zijn ook best aan de prijs.
Een framework moederbord met 128 GB kost 1979 euro. Kassie eromheen, voeding erin en klaar!
Kortom het is "betaalbaar". Wel inmiddels een wachtlijst. Levering pas in Q3, maar misschien dat de Amerikaanse bestellingen geannuleerd worden ivm. het Tariff beleid van Trump.
sterker nog, je kunt het kassie daar bestellen met voeding. Overigens komen de moederborden van AMD zelf, wellicht dat je ze kunt mailen of je ze direct kunt kopen.
Ja maar zoals je zelf al aangeeft, is deze hardware nog niet te verkrijgen. Dus kan Tweakers die nog niet meenemen in de test toch?
Tarrifs zijn heffingen.
Ook al 2 of 3 mini PC's. Van de Framework zijn volgens mij al de eerste batches uitgeleverd. De GMKtec is ook al te bestellen (al zie ik dat presales nu even stop zijn gezet, dus wellicht is de eerste batch uitverkocht), geen idee wanneer ze precies beginnen te leveren, in ieder geval binnenkort. Er was nog een derde aangekondigd, maar dit wat een onbekende speler, dus er zijn/waren twijfels of dit wel echt is.

Oh en de Asus ROG Flow Z13 niet vergeten, dat was de eerste.

Het is wel een dure oplossing, had gehoopt dat de prijs voor een laptop met de Max+ 395 onder de 2000 EURO zou liggen, niet dus...
Mja en dan kun je de geïntegreerde GPU's van Intel en AMD chips ook nog mee nemen. Lijkt mij wel een interessante case inderdaad.
Intel hun chips worden door de meeste AI bibliotheken niet of slecht ondersteund. Je kan LLMs ook op Vulkan laten draaien met llama.cpp, maar in mijn ervaring werkt dat niet zo snel en loop je snel tegen geheugenlimieten aan.
Ik draai af en toe lokaal Ollama op een ROG Ally met een embedded 780m en dat draait 'acceptabel'. Maar mjin 3060ti desktop loopt er rondjes omheen uiteraard.

Ligt maar net aan wat je ermee wil doen, voor huis, tuin en keuken gebruik werkt het verbazingwekkend prima vond ik zelf. Op 18w TDP zelfs. Zuinige AI kan best wel.
Toevallig heeft Tweakers een tijdje terug eens op het topmodel van de MAC studio, de M3 Ultra, wat tests uitgevoerd: review: Apple Mac Studio (2025) met M3 Ultra - Wat moet je met een Mac van 15...

Wat daaruit klip en klaar blijkt is dat je een zeer groot model kunt draaien maar vervolgens dat met prestaties draait waar je in de praktijk niet veel aan hebt. Kortom een interessante 'omdat het kan hier heb je anders een GPU cluster voor nodig' exercitie maar tegelijkertijd blijkt dus dat juist dat GPU cluster nodig is om dergelijke grote modellen op een in de praktijk bruikbare snelheid te draaien.

De RTX 6000 PRO van NVidia wordt natuurlijk met 96GB ram geleverd met net zoals de RTX5090 een GB202 chip maar dan volledig ingeschakeld. Ik vermoed dat dat qua hoeveelheid geheugen en de prestaties die de GPU kan leveren wel ongeveer het optimum zal zijn voor het draaien van grotere AI modellen.
Dit artikel gaat specifiek over AI-benchmarks op videokaarten, dus complete systemen waren nu out of scope.

In onze review van de Mac Studio met M3 Ultra hebben we uitgebreid aandacht besteed aan de AI-prestaties, waaronder zelfs van het volledige 671b-DeepSeek-model die in de 512GB (v)ram van de M3 Ultra past.

Aan een review van het eerste apparaat met Ryzen AI Max-cpu wordt as we speak gewerkt, en daar zullen we ook AI-benchmarks in meenemen :)
Op zich een interessante, maar dan zit met je met het probleem dat de rest van de hardware niet gelijk is. Nu is er een vergelijking gemaakt met identieke hardware, met alleen de videokaart (en driver) als variabele.

Op het moment dat je Apple hardware erbij gaat pakken, dan moet je eigenlijk gaan vergelijken met andere AIO-desktops en die 'af-fabriek' test. Maar dan test je dus echt wat anders dan een videokaart.
Waarom is Intel niet meegenomen?
De langzaamste kaart in dit artikel is nog altijd zo'n tweederde duurder dan een Arc B580, dus dat zou een weinig eerlijke vergelijking zijn. Dan zou je eigenlijk ook nog meer goedkopere AMD/Nvidia gpu's moeten testen als vergelijkingsmateriaal.

Als dit artikel goed wordt ontvangen kunnen we dat zeker nog eens doen, voor deze eerste kennismaking met AI-benchmarks op videokaarten waren deze elf even de selectie.
Voor een volgende vergelijking zou ik verzoeken om ook zoiets als LTX Video of HunyuanVideo of zo te testen waar je videos kunt genereren vanuit een prompt/afbeelding en niet enkel videos kunt opscalen zoals met Topaz. Afbeeldingen genereren is leuk maar dat is al weer 'yesterday's news', Video is is 'where it's at'. :)

Heb zelf nog niet zo een taalmodel gedraaid, erg interessant dat die naast het model zelf zo veel overhead behoeven! :o

[Reactie gewijzigd door Ayporos op 14 april 2025 07:22]

zoiets als LTX Video of HunyuanVideo of zo te testen waar je videos kunt genereren vanuit een prompt/afbeelding
Dit kan toch alleen nog via ComfyUI? Ik dacht te lezen dat AMD kaarten daar niet zo goed mee overweg kunnen...
Volgens mij kunnen beiden ook gewoon via CLI (neem ik toch wel aan).. maar zo niet dan zou ook dat natuurlijk een interessante bevinding zijn.
Of een graka wel of niet (goed) met de huidige (offline) AI programmas/interfaces overweg kan is natuurlijk ook een interessant stukje kennis net zo zeer als al die graka benchmark suites/programmas/games die men normaliter runt om ze te vergelijken.

[Reactie gewijzigd door Ayporos op 14 april 2025 16:01]

Er is bijv. deze ComfyUI-fork voor AMD kaarten:
https://github.com/patientx/ComfyUI-Zluda
Begrijp niet zo goed waarom afbeeldingen genereren yesterday's news zou moeten zijn aangezien de meeste AI ontwikkelaars nog steeds bezig zijn om hun modellen te verbeteren vanwege het feit dat de huidige modellen nog niet optimaal genereren, er zijn bij bepaalde (zeker bij de technische) prompts nog veel te veel afbeeldingsfouten. En wanneer het bij een afbeelding nog niet goed lukt dan lukt het bij een video al helemaal niet goed.
Eerst de basis op orde hebben, dan volgt de rest vanzelf denk ik maar.
Je hebt gedeeltelijk gelijk.
Het is zeer zeker waar dat er op het gebied van afbeeldingsgeneratie nog genoeg te verbeteren valt, maar dat geldt net zo goed voor tekst generatie.. en ook uiteraard voor video generatie.
Dat heeft echter niks te maken met of het wel of niet de moeite waard is om ook andere/nieuwe(re) zaken mee te pakken.

Mijn punt was meer het idee van: Als je dan toch besluit AI te gaan reviewen/benchmarken, doe het dan goed en pak meteen ook de nieuwste AI smaak(jes) mee.
Anders voelt het voor mij net alsof je de playstation 1 en 2 gaat reviewen (want je besluit iets nieuws te doen en consoles te benchmarken) maar de playstation 3, die inmiddels ook al uit is, totaal negeert.
Weinig eerlijk? Gemma 27b, haal ik makkelijk 12 tokens/s op 2x 3060 Ti's, maar heb ik ook mijn KV cache gekwantificeerd voor genoeg context; dit zakt wel nadat mijn context vol raakt. (Wat trouwens (voorlopig) niet lukt met Gemma 12B en buitengewoon veel vram eist.)

Geheugen bandbreedte van een Arc A770 is een stuk beter dan "budget" nVidia kaarten, met ipex-llm zijn Intel kaarten zeer competitief. (Had ik misschien voor mezelf moeten houden, tot ik een paar A770 op de kop kan tikken op V&A.)

Verder zou ik de toekomst gewoon op linux testen en even uitzoeken hoe iedere architectuur het best uit de hoek kan komen. (en zoals iedereen wachten op HIP support voor AMD 9070 reeks.)

[Reactie gewijzigd door Mijiru op 14 april 2025 07:58]

Goede onderbouwde recentie. Dankjewel. Blij dat de kaarten niet meer enkel voor gamers worden bekeken.
Graag gedaan!
een kaart die bijna 2x duurder is het laten opnemen tegen die arc - en wat is daar dan mis mee.

als ik jou 150 euro betaal tov je collega van 100 euro verwacht ik ook 50% meer inzet en kennis cq expertise etc. dus als die collega 10 artiekeltjes kan schrijven verwacht ik er 15 van jou (diepgang en complexiteit even buiten beschuwing gelaten).

als jij dan vervangen kan worden door 2 personen die elke 70 euro kosten en 8 artiekeltjes kunnen schrijven dan heb ik dus 10 euro bespaard en 1 artiekeltje gewonnen.

maar nu is er ineens recessie en gaat alles niet zo lekker, in plaats van 15 of 16 artiekeltjes heb ik nu nog maar 11 artieletjes te schrijven.

jouw collega van 100 (en 10 artiekeltjes) kan dat helaas niet aan, maar jij vraag 150 en je gaat dan elke dag een paar uur zitten neuspeuteren. dus als die dus nu zoe ik iemand die 12 artikeltjes schrijft voor 130 euro.

strikt genomen ben ik dan duurder uit maar op mijn balans staan toch echt lagere loonkosten.

als die arc voor een lager powerbudget zou zorgen en een lagere aanschafprijs en de wachtijd per qeury blijft binnen de perken van wat je 'productief' zou kunnen nomen dan lijkt me dat helemaal geen gekke vergelijking.
Mis toch de RTX 4070 Ti Super in het rijtje.
Ik vraag me af of de software wel geoptimaliseerd is voor RDNA4 lijkt van niet. Voor AI is deze architectuur net als die van nVidia veel sneller voor AI bewerkingen. Bv de Fp16 test als je daar matrix zou kunnen gebruiken kan RDNA4 2x zo veel werkweken en int4/8 bewerkingen kunnen tot 8x sneller dan RDNA3. Hier is echter maar weinig van terug te zien.

Of de software gebruikt dit soort bewerkingen niet of amper of het is allemaal meer een geheugen test. Echter scoren de nVidia kaarten met weinig geheugen vaak veel beter wat dan toch doet denken aan optimalisatie problemen.

Niet raar gezien nVidia het meest gebruikt wordt in de zakelijke markt.
het antwoord is er al:

https://www.tomshardware....es-to-lack-rdna-4-support

maarja als ze hier op tweakers review al beginnen met win11 dan stopt het verhaal op zich al. Goed voor de consumenten die hier rondlopen, dat merk je al meteen aan de reacties. Buikgevoel en spielerei.

[Reactie gewijzigd door d3x op 14 april 2025 09:32]

A.i. is ook niet voor de gemiddelde consument. Daarvoor zijn cloud abonnementen die gewoon werken.
Wil je A.I. goed laten draaien lokaal dan moet je Linux gebruiken, alleen dan haal je het onderste uit de kan.

En ook dan zijn er heel veel optimalisaties die er wekelijks bijkomen die je kan implementeren in bijvoorbeeld Comfyui, dit scheelt echt minuten generatietijd op Huan / Wan2.1 filmpjes.

Alleen Comfui is voor een niet 'nerd' niet echt Comfy te noemen :+ en dus totaal ongeschikt voor de 99% van de consumenten.
een hobby zou willen hebben waarbij ai een rol kan spelen dan kan ik daar inderdaad 20 euro per maand voor gaan betalen bij openAI maar als ik in 12 maanden tijd al een leuke kaart in v&a had kunnen vinden voor dat bedrag dan ben ik toch gek om daar niet eens naar te kijken.

bovendien er zijn meer dan genoeg docker-initiatieven om thuis je eigen ai te kunnen draaien zonder dat je daarvoor heel moeilijk hoeft te doen. dat ze het dus onder windows hebben gedraait en niet gewoon op een dockerhost is best raar.

ik draai op mijn thuisservertje bijvoorbeeld unraid en het installeren van de nodige plugins voor drivers en de benodigede docker images is werkelijk een peulenschil.

ik wacht alleen nog op een leuke vakantiegeld deel om de hardware eens een opfrisser te geven zodat ik wat meer ruimte heb om ermee te aan experimenteren. mijn huidige build kan de benodige kaart niet (goed) kwijt.
Ik denk niet dat die "consumenten" de moeite nemen om hier in de comments te zetten dat ze het een interessant artikel vinden; die paar "AI deskundologen" die hun neus ophalen voor Win11 laten daarentegen vaak geen moment onbenut om hun deskundigheid te etaleren. TLDR; prima eerste artikel, interessant leesvoer, maar wellicht niet de diepgang en setting waar iemand die professioneel met de generatoren aan de gang is iets aan heeft.
Ah dat had ik inderdaad al voorbij zien komen maar was dat weer vergeten.
Het is duidelijk dat de AI capability's van RDNA4 in de eerste instantie gericht zijn op gamers en dan gok ik vooral voor FSR4, Image Sharpening 2.1, Frame gen ect. Die features hebben namelijk wel een grote stap vooruit gemaakt in beeldkwaliteit.

Ben benieuwd wat deze kaarten qua prestaties gaan doen als er wel ondersteuning is. Ik ga er zelf denk ik weinig gebruik van maken ik gebruik vooral de gaming features. Maar ben wel benieuwd hoe deze architectuur zich verhoud tot wat nVidia gebruikt.

Ik ben ook benieuwd wat UDNA gaat brengen en of RDNA5 nog wel uit komt. Bij UDNA gaan ze terug naar een architectuur en die zal voorlopig dan wel AI/Compute focused zijn. Dus ik gok dat AMD dan net als nVidia meer op FSR/Raytracing gaat leunen om winst te laten zien. Dat gezegd hebben heb je maar x performance nodig om die upscaling te doen op een gegeven moment heb je er maar weinig aan en heb je traditionele compute nodig om je spel sneller te laten draaien.

Ik ben ook wel benieuwd hoe ze het qua ray tracing gaan doen in UDNA. Nu zit dat in de CU's maar voor een datacenter kaart heb je niets aan die hardware. Dus wellicht dat ze dat dan toch anders oplossen. Denk dat je dan toch een gaming specifieke die nodig hebt waar bepaalde features in zitten en een voor datacenters waar al die overbodige dingen uit zijn.

Andere optie is natuurlijk chiplets gebruiken en die RT hardware en media engine in een andere chiplet onder brengen.
Ik ben benieuwd naar het stroomverbruik tijdens het draaien van de verschillende modellen/applicaties - lijkt mij bijster interessant!

Overigens zeker interesse in de Intel kaarten gezien hun relatief lage prijsniveau.
Reken maar op 100% belasting tijdens genereren, ik heb zelf wat met Stable Diffusion geklooid op een 3090 en heb gezien dat de kaart in principe 100% belast werd tijdens de actie, het zal niet anders zijn met de nieuwe/AMD kaarten
@Tomas Hochstenbach Voor een volgende test misschien ook het opgenomen vermogen meenemen? Van de videokaart of misschien zelfs de hele pc. Allicht zit er nog verschil in hoe welke kaart de rest van de pc belast/offload - geen idee of dat onzin is of niet hoor)

Publiceren jullie ook nog de testmethode? (Dus de prompts/configuraties/enz.)
Dat zou inderdaad wel een interessante toevoeging zijn, al zijn stroommetingen wel vrij tijdrovend (en het gaat hier toch om een heel aantal individuele tests x 11 videokaarten).

Op de pagina van de individuele tests staat beschreven hoe we de tests hebben uitgevoerd. Is er nog iets specifieks wat je zou willen weten/hebben?
De afconfiguratie van de tools (prompts en settings.) Het risico bestaat natuurlijk dat je dan discussies krijgt over 'wat de beste settings' zouden moeten zijn, en dat leidt allicht af van het verhaal.

Ook vind ik het wel jammer dat er weer echt een 'benchmarktool' is gebruikt die ook 'door al die anderen' gebruikt wordt. (Je ziet dit bij heel veel vergelijkingen van andere platformen, waardoor het allemaal een beetje eenheidsworst wordt.)

Het had me ook interessant geleken om bijvoorbeeld voor beelden een tool als ComfyUI met een bepaalde flow en configuratie te pakken.
En ironische genoeg is het Nvidia die nog steeds kleine vram hoeveelheden op de kaarten soldeer.

Dus in het lage segment toch maar voor AMD gaan dan?

Nee aan dat de texture compressie en Ai niks toevoegde voor Ai model dus niet die performance boost geeft zoals bij games.
Sorry, reactie was eigenlijk voor @Scriptkid maar ik klikte reageren op jou

De "beste CPU en beste GPU voor alle workloads" is gewoon niet meer.
Er is een duidelijke markt voor gamers die geen "pro hardware for business" prijzen willen betalen en dus een markt voor deze toepassingen.
De 9950x3D is nog een mooie hybride IMO.

Zie wel voordelen in zo'n split tussen gamers én toegespitst op andere taken.
Denk dan bijvoorbeeld aan de prijs tussen beiden.
Het feit dat prosumers en volk voor bepaalde workloads geen hardware wegtrekken van de gamers.
Ook nadelen.
Zoals bijvoorbeeld simpelweg dat het geen en/en meer is voor "gamer prijzen".

Denk dat het meer die richting op gaat tenzij we en masse de prijzen en het verbruik er voor mee willen blijven betalen.
De performance van de hardware op dit moment zijn op zich prima voor een mogelijkheid van lichtere lokale AI toepassingen in de toekomst én development maar niet genoeg om mee te komen met de professionele vraag.
Het moet mijn inziens haast wel meer die richting op gaan.

[Reactie gewijzigd door lariekoek op 14 april 2025 08:27]

5060 ti met 16 gb dan?
Super goed, was hier al een tijd vragende partij voor.

Ik zou voor een vervolg ook zeer geïnteresseerd zijn een vergelijking te zien met systemen met unified memory. Je hebt daarbij makkelijk veel meer geheugen en kunt grotere modellen draaien, maar dat geheugen is wel minder snel, evenals de geïntegreerde gpu.

Op dit item kan niet meer gereageerd worden.