Behalve dat de gpu van de RTX 4090 op een kleiner productieprocedé is gemaakt, veel meer transistors bevat en op hogere kloksnelheden kan werken, is AD102 uiteraard ook opgebouwd rondom een nieuwe architectuur. Die architectuur is vernoemd naar Ada Lovelace, de Britse wiskundige die wordt gezien als de ontwerpster van het eerste algoritme voor de mechanische computer.
Shader Execution Reordering
Een van de grootste vernieuwingen in de RTX 40-serie is Shader Execution Reordering, of SER. Met deze techniek probeert Nvidia efficiënter gebruik te maken van de beschikbare rekenkracht op de gpu door verschillende typen rekentaken te sorteren en te herordenen om ze gegroepeerd te laten verwerken. Met (grote) hoeveelheden uniforme taken werkt een gpu immers op zijn best. Om dit zo goed mogelijk te laten verlopen, zegt Nvidia de SM en het bijbehorende geheugen voor SER te hebben aangepast. De fabrikant stelt zelf dat deze feature voor de gpu net zo'n grote innovatie is als out-of-order execution was voor processors.
SER moet in raytracingtaken een flinke prestatiewinst geven. Dat komt doordat de rays na een eerste hit heel verschillende kanten uitgaan, en opvolgende berekeningen voor deze rays bij een tweede en derde hit erg inefficiënt en serieel uitgevoerd worden. Indirecte belichting en reflecties zijn hier voorbeelden van. Met SER legt Nvidia wel een verantwoordelijkheid bij ontwikkelaars neer, want de scheduling wordt door middel van een api aangestuurd voor specifieke workloads. Wel wordt inzicht in het gebruik mogelijk gemaakt door Nvidia's graphics shader profiler genaamd NSight.
Nieuwe generatie RT-cores
Op Ada Lovelace vinden we de derdegeneratie-RT-cores van Nvidia. Deze zijn volgens de fabrikant twee keer zo snel in intersection throughput en alpha traversal. Daarmee worden zowel de meest voorkomende rekentaken bij raytracing als de complexere gevallen sneller afgehandeld. Vooral halftransparante objecten, zoals glas maar ook vuur, en gedetailleerde objecten die licht niet volledig blokkeren, zoals boombladeren, kunnen door de verbeterde alpha traversal sneller worden berekend.
Organisch gevormd materiaal was op voorgaande generaties ook een uitdaging om te renderen, omdat de complexiteit van de vorm tot gevolg had dat het lang duurde voordat was bepaald op welk deel van het object licht werd geblokkeerd en op welk deel niet. Om dit op te delen in kleinere subtaken, is de Opacity Micromap Engine toegevoegd. Daarmee kan een virtuele mesh van deze kleinere micro-triangles opgesteld worden om veel eenvoudiger en daardoor efficiënter te bepalen welke delen van een object doorzichtig en welke ondoorzichtig zijn.
DLSS 3
De komst van SER, zoals we hierboven al bespraken, wordt met de introductie van de RTX 40-serie wat ondergesneeuwd door de veel zichtbaardere verbetering die DLSS 3 met zich meebrengt. De techniek van Deep Learning SuperSampling bestaat al enige tijd en heeft sinds de introductie een hoop updates en verbeteringen gehad. Specifieke rekenkernen op de gpu maken het mogelijk om met deep learning op een slimme manier beelden te upscalen naar een hogere resolutie.
Met DLSS 3 maakt Nvidia het op de RTX 40-serie mogelijk om de informatie van het voorgaande en huidige gerenderde frame te gebruiken om niet alleen te upscalen, maar een geheel nieuw frame aan de reeks toe te voegen. Dit noemt Nvidia dan ook DLSS Frame Generation, wat dus gecombineerd kan worden met DLSS Super Resolution-upscaling. Omdat deze gegenereerde AI-frames niet verwerkt hoeven te worden door de cpu of gpu, maar gecreëerd worden door de losse Tensor-cores en Optical Flow Accelerator, kan de framerate zelfs in cpu-beperkte scenario's verhoogd worden. Kortgeleden publiceerde Tweakers al een artikel over hoe DLSS 3 precies werkt.
AV1 decoding en encoding
Net als bij de Ampere-generatie maakt Nvidia op de RTX 40-serie gebruik van de vijfdegeneratie-Nvdec-hardwaredecoders. Die hebben uiteraard ondersteuning voor H.264, H.265, VP8 en VP9, maar ook voor AV1. Hierin verschilt de RTX 4090 dus niet van zijn voorganger, al zijn er op de AD102-gpu wel drie van dit soort decoders aanwezig, waarvan er op de RTX 4090 slechts een is ingeschakeld.
Bij de encoderkant komen we grotere veranderingen tegen. Met Ada Lovelace wordt de Nvenc-hardware-encoder van de achtste generatie geïntroduceerd, met voor het eerst hardwarematige ondersteuning om AV1 ook te kunnen coderen. Daarmee is bijvoorbeeld het opnemen van gameplay met een veel hogere kwaliteit mogelijk, vooral als in de vergelijking met oudere codecs een gelijke bitrate wordt aangehouden.
Ook van deze encoders komen we drie stuks tegen op de AD102-gpu, waarvan er op de RTX 4090 twee actief zijn. Die twee encoders kunnen elk hun eigen taak uitvoeren, maar ook parallel aan één stream werken, waarbij ze automatisch het werk verdelen en tot twee keer zo snel werken. Deze dual encoding kan gebruikt worden op H.265 en AV1. Nvidia stelt verder dat de achtstegeneratie-Nvenc H.264 tot 40 procent efficiënter kan comprimeren.
Opvallend afwezig: PCIe 5.0 en DisplayPort 2.0
In de specificaties vallen tussen alle nieuwe features en verbeteringen twee zaken op. Allereerst het ontbreken van PCI-Express 5.0-ondersteuning en daarnaast de afwezigheid van DisplayPort 2.0.
Nvidia stelt in zijn presentatie de RTX 4090 voor als de ultieme high-end videokaart van de nieuwste generatie. Daarbij verwacht menige hardwareliefhebber wellicht een PCIe 5.0-verbinding. Aan de processorkant is deze ondersteuning immers al even aanwezig, Intels twaalfdegeneratie-Core-processors hebben het en de pas geïntroduceerde Ryzen 7000-processors van AMD ondersteunen het ook. Nvidia geeft in een reactie aan dat de bandbreedte die PCIe 4.0 levert, al ruimschoots voldoende is voor de RTX 4090 en er dus geen enkele reden was om het ontwerp van de kaart onnodig ingewikkeld te maken puur om PCIe 5.0 op het specificatielijstje te kunnen krijgen.
In een reactie geeft Nvidia aan dat DisplayPort 2.0 niet aanwezig is op Ada Lovelace omdat het simpelweg niet op tijd klaar was. Dat is een opvallende verklaring, aangezien DP 2.0 al in juni 2019 officieel is uitgebracht. Deze standaard maakt het dankzij een hogere snelheid mogelijk om een 4k-scherm met 144Hz of meer zonder compressie aan te sturen, terwijl dit bij de aanwezige DisplayPort 1.4-aansluiting op de RTX 4090 in dat scenario beperkt is tot 120Hz bij een 8bit-kleurdiepte per kanaal en zelfs 97Hz bij 10bit. In de praktijk zal dit niet zo snel een probleem vormen, omdat gebruikgemaakt kan worden van display stream compression. Met dsc wordt compressie toegepast om bandbreedte te besparen zonder daarbij een visueel waarneembare achteruitgang te introduceren. Momenteel zijn er ook nog geen monitors met DP 2.0 op de markt, maar de verwachting is dat dit in het komende jaar gaat veranderen. Omdat DisplayPort 1.4 dankzij DSC langer bruikbaar is, zal het ontbreken van een 2.0-aansluiting in de praktijk geen al te groot probleem vormen. Wel is het opmerkelijk dat voor een flagship-videokaart, die wordt gepresenteerd als supergeschikt voor zeer hoge resoluties en dito framerates, een oudere generatie DisplayPort-aansluiting is gebruikt.