Eindelijk weer
Aan Nvidia viel dit jaar de eer de Computex met zijn keynote te openen en dat het de openingskeynote na een Computex-hiaat van drie jaar betrof, viel te merken. Voor de afgeladen zaal presenteerde een bijna uitgelaten Jensen Huang, de ceo van Nvidia, waar zijn bedrijf de afgelopen tijd mee bezig is geweest, en waar het de komende tijd mee gaat komen. Het zal, gezien de ontwikkelingen van de laatste tijd, weinigen verbazen dat AI daarbij een hoofdrol speelde. Vrijwel alles wat Nvidia liet zien, had namelijk tot doel AI te faciliteren of te benutten.
Daarbij speelde de consumentenmarkt maar een kleine rol. Niet zo gek, want Nvidia had op dat vlak zijn kruit natuurlijk al goeddeels verschoten met de introductie van de RTX 4060 Ti nog geen week eerder. Wij als consumenten merken alle ontwikkelingen die bijna als revolutie gepresenteerd werden natuurlijk wel, op allerlei vlakken, van gaming tot softwaregebruik, en misschien zelfs wat onze gezondheid en de manier waarop we werken betreft.
Consumenten
Nadat Jensen had benadrukt hoe snel Nvidia's gpu's en met name raytracing zijn geworden, werd de 4060 Ti nog eens getoond. Dat bleek de opmaat naar Nvidia ACE, een framework om AI-karakters voor games te maken. Collega Daan schreef daar een uitgebreid nieuwsbericht over. In het kort komt het erop neer dat generatieve AI gebruikt wordt om karakters in games te maken waarmee je op een natuurlijke manier moet kunnen interacteren.
/i/2005803092.png?f=imagenormal)
Na dit gaming-uitstapje richtte Jensen zich op accelerated computing en generative AI. Volgens hem komt accelerated computing en generative AI op precies het juiste moment, als traditionele scaling en Moore's Law steeds langzamer gaan. Met de juiste workloads is een gpu-cluster veel efficiënter dan hetzelfde op traditionele cpu's berekenen. Een large language model, bouwsteen van bijvoorbeeld ChatGPT, doorrekenen, is veel sneller met 10 miljoen dollar aan gpu's dan hetzelfde bedrag voor cpu's. Ook volgens andere metrics, zoals energiegebruik, zijn gpu's veel efficiënter dan cpu's. Ten slotte kun je met slechts een fractie van de investering, 400.000 dollar, hetzelfde rekenwerk aan het llm verrichten als met die 10 miljoen dollars aan cpu's.
Het datacenter
Met dat in het achterhoofd liet Huang de datacenterline-up zien. De eerste daarvan is de H100, die al in productie en gebruik is. Die bestaat uit 8 Hopper-gpu's onder grote, zware koelblokken en werd door Jensen aangeprezen als de duurste computer ter wereld. Een enkele module kost namelijk 200.000 dollar, maar vervangt veel meer hardware.
Het optimisme en de superlatieven over deep learning zijn wat aangedikt, met uitspraken als 'it can basically predict almost anything that you have data for', maar met hard- en software die speciaal erop gemaakt en ontwikkeld wordt, is duidelijk dat Nvidia er vol op inzet. Ook de overname in 2019 van Mellanox, een producent van snelle interconnects, noemde Jensen als extreem nuttige investering. Ook MagnumIO, wat Jensen het besturingssysteem voor distributed computing in datacentra noemt, benoemde hij als cruciaal element. Daarnaast noemde hij de cadans van twee jaar voor de ontwikkeling van accelerator-architecturen en hun interconnects. De recentste daarvan zijn respectievelijk Hopper en Quantum uit 2022, die in 2024 door 'Hopper Next' en 'Quantum Next' zullen worden opgevolgd.
Met steeds snellere hardware kan volgens Jensen voldoende data verwerkt worden om die data te begrijpen, of dat nu tekst, moleculen of natuurkunde is. Dat zou de weg vrijmaken om feitelijk de hele wereld te digitaliseren en als data te representeren. Dat zou elke industrie kunnen beïnvloeden en leiden tot een nieuwe generatie computers. Daar zou niet eens nieuwe software voor nodig zijn, want ook oude toepassingen zouden profiteren, bijvoorbeeld met helper-plugins voor bestaande software.
Superchips
Er is wel nieuwe hardware voor nodig, allereerst in de vorm van de Grace Hopper 'superchip'. Dat is een compute unit met een accelerated gpu die over 576GB gpu-geheugen (waaronder 96GB snel HBM3-geheugen) beschikken, aangestuurd door een cpu met 72 Arm-cores en een interconnect tussen die twee van 900Gbps. De gpu beschikt over 132 streamprocessors en 528 Tensor-cores. Grace Hopper, of GH200, is in productie en systemen met de module moeten later dit jaar verschijnen. Naast neurale netwerken zou GH200 ook uitermate geschikt zijn voor designtools als eda- en sda-tools, pcb-ontwerpen, vloeistofanalyses en eiwitsynthese.
/i/2005803094.png?f=imagenormal)
Om nog veel grotere datasets door te rekenen zonder de data te versnipperen, kan GH200 worden gecombineerd tot grotere clusters. Zo kunnen er 8 bij elkaar in een pod geplaatst worden, en daarvan kunnen weer 32 gecombineerd tot een enkele 'giga-gpu'. De volledige 144TB geheugen daarvan is gedeeld tussen de gpu's en het geheel wordt onderling verbonden door NVLink-switches. Dat alles levert een 'transformer' op met een rekenkracht van 1Exaflops, al zou dat 'slechts' met FP8 in plaats van FP16 of FP32 zijn.
/i/2005803096.png?f=imagenormal)
Nvidia kondigde verder een nieuwe serverfamilie, MGX, aan, die meer geschikt is voor allerlei accelerator-configuraties. En om alle onderdelen te verbinden, kondigt Nvidia een Spectrum-X-switch met 51,2Tbps aan bandbreedte aan, die met 64 800G-poorten of 128 400G-poorten kan worden uitgerust. In een behuizing met ondersteunende hardware heeft Spectrum-X de Spectrum4-switch. De switch werkt met Bluefield 3-nic, die een 400G-netwerkpoort heeft.
Digital twins
Ten slotte sprak Jensen Huang over digital twins, of gedigitaliseerde versies van fysieke objecten. Dat kunnen eenvoudige robotarmen, maar ook complete fabrieken zijn. Zo zouden fabrieken een digital twin kunnen krijgen, die dankzij generatieve AI en grote datamodellen geautomatiseerd kunnen worden. Nvidia noemt zijn techniek Nvidia Omniverse Cloud en stelt bedrijven onder meer in staat fabriekshallen te simuleren, optimaliseren en zelfs generatieve AI's aan fabrieksopstellingen te laten werken. Dat moet de tijd tussen bouwen en ingebruikname verkorten en de productie optimaliseren. Omniverse zou ook gebruikt kunnen worden om representaties van fysieke objecten in AI-generated omgevingen te plaatsen, een techniek waar de grootste advertentieproducent WPP, nu al gebruik van maakt.
/i/2005803098.png?f=imagenormal)
In de laatste demo werd een digital twin van een Pegatron-fabriek in Omniverse gemaakt en gesimuleerd. Leuk detail daarbij is dat de Arduino Uno in het voorbeeld werd geproduceerd. Als uitsmijter kondigde Nvidia een mobiel robotplatform, Nvidia Isaac AMR, aan. Dat is een reference design met Orin-chips, algoritmes, software en andere lagen, waaruit klanten kunnen kiezen. Zo kan een kant-en-klare oplossing met de complete stack gekozen worden, of slechts de Orin-chip of ander onderdeel uit de stack. Nvidia heeft zelfs een Nova Orin referentie-AMR ontwikkeld, die klanten als basis voor hun eigen robot kunnen nemen. Het robotplatform is al vanaf juni dit jaar voor bepaalde klanten beschikbaar.
/i/2005803100.png?f=imagenormal)
Kortom, Nvidia staat met zijn volledige gewicht achter AI, en dan met name de generatieve AI die met ChatGPT bekend is geworden. Het noemt zijn hardware inmiddels transformers, omdat ze data van de ene vorm naar de andere transformeren, van bijvoorbeeld tekst naar spraak. Voor consumenten speelt AI een grote rol in gaming, maar voor de zakelijke klant valt geld te verdienen met het beschikbaar stellen van de benodigde rekenkracht. Hardware als Grace Hopper of GH200 en de al beschikbare H100 moeten daarvoor zorgen, samen met de onderliggende infrastructuur als de Spectrum-switches en BF3-nics. Ook de softwarestack, van algoritmes tot frameworks, besturingssystemen en complete cloudoplossingen, lijken allemaal ingericht op wat Nvidia de nieuwe generatie computing noemt. Zelfs zware industrie die vele miljarden euro's groter is dan de computerindustrie, kan volgens Nvidia volledig digitaal nagebootst worden. Het bedrijf belooft bovendien nog steeds toenames in rekenkracht die Moore's Law ver voorbij gaan, dus de toekomst kan interessant worden.