Intel brengt AI-tool uit om beeldkwaliteit in games te meten

Intel heeft in juni een opensourcetool beschikbaar gemaakt die gebruikers in staat stelt om de beeldkwaliteit in moderne games objectief te meten. Computer Graphics Visual Quality Metric (CGVQM) is op GitHub beschikbaar als een PyTorch-programma onder de Apache-2.0-licentie.

De tool kan twee video's vergelijken en zien hoeveel slechter de vervormde versie is. CGVQM geeft niet alleen een score, maar laat ook de gebieden zien waar de verstoringen zich voordoen. De tool is geoptimaliseerd voor CUDA-gpu's, maar ook cpu's worden ondersteund.

Veel moderne games kunnen gebruikmaken van upscalingtechnologieën als DLSS, FSR en XeSS. Daardoor kunnen zich problemen voordoen als ghosting en aliasing. Deze beeldverstoringen worden vaak wel met het oog gezien, maar waren moeilijk objectief meetbaar, omdat oudere technieken als peak signal-to-noise ratio (psnr) en structural similarity index measure (ssim) minder geschikt zijn voor nieuwe renderingmethodes. Deze oudere technieken werken vooral goed voor traditionelere vervormingen, zoals onscherpte en wazig beeld door compressie. Zij missen echter de gevoeligheid voor fouten die worden veroorzaakt door moderne upscalingmethodes.

Intel besprak de tool al in een whitepaper. Het bedrijf schrijft dat er genoeg datasets zijn voor video- en beeldkwaliteit voor natuurlijke video's en traditionele vervormingen, maar dat de data rond synthetische content en moderne renderingartefacten nog tekort schiet. Daarom heeft Intel een AI-model getraind aan de hand van de input van twintig deelnemers. Zij beoordeelden de kwaliteit van de video's die gebruikmaakten van de renderingtechnieken ten opzichte van de originele video's. Deze dataset komt 'binnenkort' beschikbaar, schrijft Intel op zijn GitHub-pagina. Een precieze datum is niet bekend.

Door Imre Himmelbauer

Redacteur

17-07-2025 • 15:06

27

Reacties (27)

27
27
16
0
0
6
Wijzig sortering

Sorteer op:

Weergave:

Intel’s CGVQM-tool lijkt een nuttige stap voorwaarts voor objectieve beeldkwaliteitsmeting in gaming, vooral bij technieken zoals DLSS en FSR. Dat Intel hier een AI-model voor heeft getraind op basis van beoordelingen van twintig mensen is interessant, al heb ik dan wel al vragen over de representativiteit en schaal van de dataset. Zolang die dataset niet openbaar is, is onafhankelijke validatie lastig. Wel goed dat de tool zelf open source is en op zowel CPU als CUDA-GPU’s draait.

[Reactie gewijzigd door TheProst op 17 juli 2025 15:24]

Hoe objectief kan dit zijn? Het is als een slager die zijn eigen vlees keurt.
Hoe objectief kan dit zijn?
Het kan alle kanten op.
Het is als een slager die zijn eigen vlees keurt.
Leuk als spreekwoord maar het is geen vaststaand feit dat een bedrijf niet kritisch naar zijn eigen producten kan zijn!

Overigens is dit een tool van Intel, niet Intel zelf die de video keurt...

[Reactie gewijzigd door watercoolertje op 17 juli 2025 17:24]

Het klopt dat het geen vaststaand feit is. Echter, en dat is de reden dat het spreekwoord überhaupt bestaat, is dat objectiviteit lastig wordt wanneer je, je eigen producten gaat keuren. En dan heeft je keuring dus geen enkele waarde.
Geen enkele waarde? Ben toch blij dat ik vroeger een testteam achter me had staan. Of hebben we hier weer te maken met het nadruk leggen door te overdrijven? Je kan toch wel degelijk objectieve maatstaven hanteren en een test uitvoeren?

Vergeet niet dat de grootste experts bij dit soort bedrijven rondloopt, dus soms weten ze nou eenmaal meer van een productgroep dan anderen. En natuurlijk, als jouw product minder afhankelijk is van post-processing dan kunnen objectieve maatstaven en testen ook interessant zijn; ze zullen het inderdaad niet voor niets hebben gemaakt.
Het is geen interne test tool. Het is een uitgebrachte test tool. En geen enkele zichzelf respecterende tester gebruikt die tool om iets te testen.
Waarom niet? Als deze test tool doet wat geadverteerd wordt zal het wel degelijk ingezet worden door zichzelf respecterende testers.
Exact dit! LPIPS bijvoorbeeld is ook zo een metriek die (mede) ontworpen is door Adobe Research en OpenAI als aanvulling op PSNR en SSIM, én die tegenwoordig veel gebruikt wordt binnen bepaalde domeinen.

Zonder context kan je daar ook van zeggen:
Het is als een slager die zijn eigen vlees keurt.
Realiteit is dat dit gewoon een objectieve metriek is. Weliswaar met zijn eigen gebreken, net als PSNR en SSIM. Daarom dat er nood is aan aanvullende/alternatieve metrieken.

Van wie de metriek afkomstig is boeit niet zozeer, zolang het maar inzichtelijk en reproduceerbaar is én geschikt is voor de beoogde toepassing.
Er zit een paper achter met ik weet niet hoeveel referenties, naar allerlei universitaire onderzoeken naar de verschillende manieren om de kwaliteit te testen. Er is dus ook voldoende ruimte voor review. Dit soort mensen gooit echt niet zomaar hun reputatie te grabbel binnen de onderzoekswereld, en als je wilt kijken of de source doet wat het paper zegt dat het doet dan heb je met open source alle kans om de verschillen te zoeken.
Dat moet je toch echt onderbouwen.
Waarom dan niet? Ik kan me geen reden voorstellen waarom men dit ding niet zou gebruiken exact waar het voor gemaakt is.
De tool is weliswaar van Intel, maar hij is open source en de dataset wordt binnenkort gepubliceerd. Daardoor kunnen anderen het controleren en eventueel verbeteren. Zolang dat nog niet is gebeurd, blijft het inderdaad deels zelfkeuring.
Zoals aangegeven is het inderdaad open-source, dus kan deze tool ook geïnspecteerd worden door wie het wil. Dat maakt dat het erg lastig is om de tool Intel-kaarten te bevoordelen, zonder dat in het oog springt.. Hoewel dit bij mijn weten de eerste tool is die beeldwaliteit op zo'n manier meet, dus in dat opzicht is misleiden makkelijker, je kunt de resultaten niet checken met een vergelijkbare test.
Zie de bron:
it compares a ground-truth reference to a distorted version (e.g. blurry, noisy, aliased).
Dat zijn allemaal effecten die je met je eigen ogen kan zien zonder eerst een studie te moeten volgen.
  1. De tool kan twee video's vergelijken en zien hoeveel slechter de vervormde versie is.
  2. De tool is geoptimaliseerd voor CUDA-gpu's ( NVIDIA )
  3. Intel heeft in juni een opensourcetool beschikbaar gemaakt
Als er Intel staat is het altijd fout. ^^
Hmmmmm, dat weet ik zo nog niet.

Wat je dan ook weer kunt krijgen is dat gamemakers bepaalde dingen niet meer doen omdat deze simpelweg slechter werken met de techniek.

Iets wat minder details of kleurvariaties heeft neigt het bijvoorbeeld enorm veel beter te doen met zaken als upscaling. Denk aan cartoonish of simplistische 3D renders tegenover zo realistisch mogelijke.

Dit soort scores gaan dan waarschijnlijk weer meetellen in marketing, zoals alles tegenwoordig doet, wat er voor kan zorgen dat makers gaan kiezen voor simpliciteit over complexiteit, puur voor hogere scores.
Ik vind het verschil tussen DLSS en FSR eigenlijk best subjectief, inmiddels. DLSS is een beetje wazig, maar weet een heel stabiel beeld neer te zetten. Alle aliasing is eruit, inclusief dingen die MSAA niet zou pakken.

FSR3 daarentegen heeft de beperkingen van TAA, inclusief wat ghosting, maar is wel haarscherp. En voor beiden geld hetzelfde op 100% resolutie (wat Nvidia DLAA noemt).


Ik denk dat deze tool eerder bedoeld is voor onderzoekers die aan upscalers werken. Handig om het geautomatiseerd te kunnen testen.

[Reactie gewijzigd door Wolfos op 18 juli 2025 10:27]

Veel moderne games kunnen gebruikmaken van upscalingtechnologieën als DLSS, FSR en XeSS. Daardoor kunnen zich problemen voordoen als ghosting en aliasing.
Maar als dit de insteek is, dan hebben spellen toch altijd wel ghosting en aliasing? In de basis leunen de meeste moderne spellen op TAA. Dat is uiteraard geen foutloze ground truth, en toont genoeg problemen bij lage resoluties en framerates. Iets als DLAA (en zeker met het huidige transformer model) levert in vrijwel alle gevallen een betere beeldkwaliteit op dan native rendering + TAA. Dus wat wordt nu gezien als ground truth? Dat zou ik wel willen weten.
Render eerst op dubbele resolutie (4x aantal pixels) of 4dubbele (16x aantal pixels) en downscale dit dan naar de gewenste resolutie.

Dan heb je het beste referentie beeld. Vergelijk dit dan met de moderne upscalingstechnieken.

Persoonlijk vind ik zelfs de nieuwste DLSS met transformer model op Quality nog steeds blurry, zeker bij details in de verte of bij bewegingen. Maar behalve dat is het wel de beste AA die ken.
Lijkt me dat je dan alsnog het temporele aspect mist, toch? Want dat is juist de reden waarom ''we'' massaal zijn overgestapt op TAA. Technieken zoals MSAA en SSAA kunnen slecht om met miniscule (sub)pixel veranderingen tussen frames, met problemen zoals shimmering tot gevolg. Elk frame wordt apart behandeld, in plaats van alles als ''een'' geheel. Maar misschien denk ik er wel te diep over na, en is een statische 16K ground truth ook prima in dit geval.
Persoonlijk vind ik zelfs de nieuwste DLSS met transformer model op Quality nog steeds blurry, zeker bij details in de verte of bij bewegingen. Maar behalve dat is het wel de beste AA die ken.
Daarom benoem ik specifiek DLAA. Dat is native rendering, zonder upscaling, met alleen het AA-aspect van de DLSS suite. Dat is momenteel de beste temporal AA-methode.

[Reactie gewijzigd door IlIlIllII op 17 juli 2025 16:20]

"Maar misschien denk ik er wel te diep over na, en is een statische 16K ground truth ook prima in dit geval."

Eigenlijk vind ik dat je daar wel een punt hebt. Durf zelf niet te zeggen wat het beste beeld geeft:

SSAA x4, DLAA, of misschien wel beide samen? :)
De tool is geoptimaliseerd voor CUDA-gpu's, maar ook cpu's worden ondersteund.
Dit is uiteraard voornamelijk iets wat vanuit PyTorch afkomt, maar alsnog een gemiste kans voor Intels eigen GPUs te promoten, vooral als het aankomt op Intel oneAPI support.
Waarom zou ik dat willen meten. Wat levert dat mij op.

Ik zie wat ik zie en geen meting gaat dat veranderen. Laat Intel zich maar bezig houden met hun core business, daar valt nog heel wat te doen.

Bovendien is iets subjectiefs als beeldkwaliteit mijns inziens niet meetbaar, want voor de 1 zal een klein meetbaar verschil een hoge visuele impact hebben. terwijl voor de ander het een onbelangrijk verschil zal zijn.
Bovendien is iets subjectiefs als beeldkwaliteit mijns inziens niet meetbaar, want voor de 1 zal een klein meetbaar verschil een hoge visuele impact hebben. terwijl voor de ander het een onbelangrijk verschil zal zijn.
Je kan prima verschillende aspecten bv een waarde geven op een schaal van 1-10:
bv:
ghosting: 5
scherpte: 8

Ieder kan dan voor zich bepalen welke aspecten belangrijk zijn en waar de numerieke grens zit voor wat acceptabel is.
Je beschrijf precies waarom die waarden subjectief niet relevant zijn.

De 1 zou het een 3 geven de ander een 8 dat, is waarom het niet te meten is.
Dit is net super belangrijk!

Hoe kan je immers benchmarkresultaten in reviews vergelijken waar AMD werkt met FSR, nVidia met DLSS en intel met Xess?

Degene met de snelste fps heeft misschien ook de slechtste beeldkwaliteit en dan koop ik liever de andere optie.

Een dergelijke objectieve tool gaat er hopelijk ook voor zorgen dat er meer nadruk is op beeldkwaliteit en minder op fps.


Het gaat hier overigens niet over de beeldkwaliteit die een game biedt, maar over de beeldkwaliteit wanneer men upscalers gebruikt.
Moet het nuttig zijn voor u om bestaansrecht te hebben? Dit is eerder een tool voor onderzoekers en game-ontwikkelaars dan voor gamers of consumenten.

Deze tool levert net objectieve metingen tussen een beeld/video die als ground-truth dient en een (met truukjes - upscaling, AA, denoising) gerenderd beeld. Met behulp van die tool - of eerder metriek - kunnen rendertechnieken net verbeterd worden. Die metingen hebben dus wel degelijk impact op "wat jij ziet".

Metrieken zoals PSNR (vernoemd in het artikel) worden al tijden gebruikt om de kwaliteit van o.a. video- en beeldcompressie te meten. Zo kan je testen en meten of algoritme A betere compressie (kwaliteit ifv compressiefactor) geeft dan algoritme B. Op een gelijkaardige manier kan CGVQM ingezet worden voor rendertechnieken.
Dat wat ik zie is per definitie subjectief, dus persoonlijk.

Ik vraag me dus ook persoonlijk af of dit zinvol is voor mij.

Ik denk van niet want cijfertjes kunnen mijn persoonlijk visuele ervaring nml niet weergeven.

Ik ben bang dat dit dus ook zal gelden voor genoemde doelgroep. Ik denk dat het beter is een panel het visuele aspect te laten evalueren en daaruit de nodige conclusies te trekken.

Op dit item kan niet meer gereageerd worden.