Afgelopen maandag introduceerde Intel de naam waaronder het in 2022 gamingvideokaarten op de markt gaat brengen: Arc. Tijdens zijn Architecture Day maakte de fabrikant meer informatie wereldkundig over de achterliggende Xe HPG-architectuur en de nog krachtigere Xe HPC-architectuur die voor nog krachtigere datacenter-gpu's zal worden gebruikt.
Software: XeSS als DLSS-concurrent
Voor het aan de hardware begon, wilde Intel eerst nog even een update geven over de bijbehorende software. De afgelopen tijd heeft Intel de volledige kern van zijn gpu-driver opnieuw ontworpen, inclusief het geheugenmanagement en de compilers. Naar eigen zeggen moet dit ervoor zorgen dat de toekomstige Xe-videokaarten én bestaande igpu's beter presteren in situaties waarin de cpu een bottleneck vormt. Bovendien zouden de laadtijden van games erop vooruitgaan.
De grotere aankondiging was echter XeSS, wat staat voor Xe Super Sampling. Zoals uit de naam al blijkt, gaat het hier om een concurrent voor slimme supersampling-technieken als Nvidia DLSS en AMD FSR. Net als bijvoorbeeld TAA gebruikt XeSS voorgaande frames en de beweging van objecten om het beeld te upscalen met een zo laag mogelijke prestatie-impact.
Volgens Intel is de beeldkwaliteit van een met XeSS naar 4k-resolutie geüpscaled 1080p-beeld vergelijkbaar met een native 4k-beeld. Dat kan met behulp van de DP4A-instructies die al deel uitmaken van de bestaande Xe-LP-architectuur, maar nog sneller met de Xe Matrix eXtensions, een soort tensorcores die pas voor het eerst gebruikt zullen worden in de losse videokaarten.
XeSS en de bijbehorende sdk worden open source. De sdk verschijnt nog deze maand. De techniek werkt optimaal met Intel-hardware met Intels eigen XMX, maar kan ook door andere gpu-fabrikanten ingezet worden met de DP4A-instructies.
Xe HPG: Intel Arc Alchemist op TSMC's 6nm-node
De eerste generatie Intel Arc-videokaarten, die in het eerste kwartaal van 2022 het levenslicht moet zien, heeft de naam Alchemist gekregen. De daarop volgende generaties zullen Battlemage (Xe2 HPG), Celestial (Xe3 HPG) en Druid (Xe Next HPG) heten. Bij wie ingevoerd is in Dungeons & Dragons, zal er een belletje zijn gaan rinkelen.
Tot nu toe waren we gewend om het aantal rekeneenheden in Intel-gpu's aan te duiden met eu's, maar omdat Intels eu-ontwerp steeds groter wordt en misleidend kan zijn in een vergelijking met shadercores bij AMD of Nvidia, wil Intel die naamgeving overboord gooien. De nieuwe basiseenheid is een Xe-core, bestaande uit zestien 256bit-vectorengines en zestien 1024bit-matrixengines. In feite is een Xe-core daarmee gelijk aan zestien oude eu's.
De Xe-cores worden per vier gegroepeerd in een render slice, samen met evenzoveel raytracingcores. Die kunnen onder meer het bvh-algoritme dat wordt gebruikt voor realtime raytracing versnellen, net als bij de rt-cores van AMD en Nvidia het geval is. Een gpu kan vervolgens weer uit maximaal acht slices bestaan, resulterend in een totaal van 32 Xe-cores oftewel 512 eu's. Ter vergelijking: de krachtigste geïntegreerde Xe-gpu van Intel heeft 96 eu's en is overigens alleen in laptops te vinden.
De Alchemist-gpu's worden geproduceerd op TSMC's N6-procedé, een geoptimaliseerde versie van het N7-proces waarvoor in beperkte mate euv wordt gebruikt. De dichtheid van dit proces ligt ongeveer 20 procent hoger dan die van N7. De gpu zal worden gecombineerd met GDDR6-videogeheugen.
Xe HPC
Voor servers in het datacentersegment werkt Intel aan een nog krachtigere variant van de Xe-architectuur, die Xe HPC gaat heten. Het meest tot de verbeelding sprekende product op basis hiervan is tot nu toe Ponte Vecchio, een 'videokaart' die in totaal uit meer dan 100 miljard transistors zal bestaan. De verschillende chips die deel uitmaken van Ponte Vecchio, worden in totaal op vijf verschillende productieprocessen van TSMC en Intel zelf gemaakt.
Blijkbaar waren de Intel-technici hun net bedachte naamgeving alweer zat, want de definitie van een Xe-core is bij Xe HPC verwarrend genoeg weer anders dan bij Xe HPG. Eén Xe HPC-core beschikt over acht vector-engines die met 512bit-instructies kunnen werken, plus acht matrix-engines die geschikt zijn voor 4096bit-berekeningen. De load-store-units kunnen 512bit per kloktik verwerken.
Ook Xe HPC kent slices, die uit 16 Xe-cores met in totaal 8MB L1-cache bestaan. Die komen dan weer samen in stacks, opgebouwd uit vier slices met in totaal 64 Xe-cores, een media-engine, vier HBM2e-controllers en acht Xe-links.
Vervolgens kunnen er op diverse manieren nog grotere gpu-configuraties worden gebouwd. Het is mogelijk om twee gpu's te stapelen en te verbinden met emib, waardoor je in totaal acht slices krijgt. Via Xe Link kunnen bovendien maximaal acht gpu's aan elkaar worden gekoppeld. Deze high-speedfabric zorgt ervoor dat elke gpu direct kan communiceren met elke andere gpu in de opstelling, waardoor het totale aantal verbindingen dus stijgt als je bijvoorbeeld van vier naar zes gpu's gaat.
De Xe HPC-gpu voor Ponte Vecchio heeft acht Xe-cores per compute-tile, waarvan er zestien aanwezig zijn voor een totaal van 128 Xe-cores. Deze compute-tiles worden gefabriceerd op TSMC's 5nm-proces en staan met elkaar in verbinding via Intels 3d-integratietechniek Foveros. Daarvoor wordt een bumppitch van 36 micron gebruikt.
De (letterlijk) onderliggende basetiles rollen uit Intels eigen fabrieken, op het Intel 7-proces. Deze twee chips meten in ieder 640mm² en bevatten onder meer de HBM2e-controllers, een PCI Express 4.0-controller en 144MB L2-cache.
Vervolgens zijn er nog twee Xe Link-tiles gemaakt op TSMC's N7-node, elf emibtiles, acht rambocachetiles (Intel 7) en acht HBM2e-stacks, voor een duizelingwekkend totaal van 47 tiles voor de complete Ponte Vecchio-kaart. In totaal biedt Ponte Vecchio daarmee een singleprecisionrekenkracht van 45Tflops, een geheugenbandbreedte van 5TB/s en externe communicatie van 2TB/s.