Goed nieuws voor hen die zich aan parallel rekenwerk willen wagen: nVidia heeft een publieke bèta van Cuda, zijn C-compiler voor de G80-core, vrijgegeven. Daarmee kunnen bepaalde berekeningen die normaliter voor de cpu zijn, aanzienlijk worden versneld.
In het Cuda-model wordt de gpu als coprocessor van de cpu opgevat, en kunnen numerieke problemen welke zich ertoe lenen om in stukjes gehakt te worden en parallel te worden uitgevoerd, aan de gpu worden uitbesteed. Gezien er met de GeForce 8800-serie pieken tot 520 gigaflops gehaald kunnen worden, wordt een teraflopssysteem met twee exemplaren in sli-opstelling haalbare kaart voor de gewone sterveling. Dit is te danken aan het feit dat programmeurs de unified shaders van de gpu als onafhankelijke rekenaars kunnen benaderen. Met de GeForce 8800 GTX komen zo 128 1,1GHz-cores beschikbaar, waarmee parallele problemen aanzienlijk sneller kunnen worden opgelost. Voorbeelden van dergelijke getalkrakerij zijn te vinden in de bioinformatica, neurale netwerken en voorspellingsmodellen voor complexe systemen zoals financiële markten en het weer. Volgens productmanager Andy Keane zijn bepaalde taken waar een pc op de cpu een dag voor nodig heeft, in een kwartier met de gpu uit te voeren.
Gpu's zijn zo ontworpen dat er meer transistors bezig zijn met dataverwerking dan met caching en het beheer van instructies - aangezien er bij het renderen van beeld vaak dezelfde procedure wordt aangeroepen voor verschillende stukjes data. Van de mogelijkheid om een gpu ook met andere getallen te laten werken dan die die het pc-beeld op moeten bouwen, werd al eerder melding gemaakt. Zo bekeken onderzoekers van de University of North Carolina anderhalf jaar geleden het effect van het gebruik van de gpu op het sorteren van grote hoeveelheden getallen. Daartoe schreven ze echter een 'GPUSort'-programma, wat een pijnpuntje illustreert: veel problemen waarvoor code wordt geschreven, zijn op zich betrekkelijk eenvoudig te paralleliseren, maar meestal wordt de klassieke Von Neumann-architectuur aangewend, waarbij maar één waarde tegelijk ter berekening aan de processor wordt aangeboden. De hoop is dat de beschikbaarheid van de compiler, in combinatie met de lage kosten van een gpu in vergelijking met een supercomputer, de ontwikkeling van libraries voor parallele probleemoplossing stimuleert. Nvidia denkt met Cuda overigens ook een framework in huis te hebben waarmee krachtige physicslibraries voor games kunnen worden gebouwd.
