Inleiding
Toen Qualcomm vorig jaar zijn Snapdragon X Elite-processors op de markt bracht, was dat een grote stap voor de Amerikaanse chipontwerper. Qualcomm staat vooral bekend om zijn mobiele socs, maar brak in de jaren daarvoor nooit echt door op de laptopmarkt. Met de introductie van Snapdragon X en zijn zelfontworpen Oryon-cores moest het bedrijf eindelijk een goede optie bieden voor de Windows-gebruiker.
De volgende generatie staat voor de deur en moet daar op voortborduren. Qualcomm kondigde in september al zijn Snapdragon X2 Elite-processors aan. Met een nieuw productieproces, meer cpu-cores, een grotere igpu en de nodige wijzigingen in de architectuur moet Qualcomm meer dan ooit de concurrentie kunnen aangaan met AMD, Intel en misschien zelfs Apple.
Hoewel de release van de Snapdragon X2-serie nog even op zich laat wachten, nodigde Qualcomm nu al selecte media uit om de architectuur van zijn komende chips uitgebreid toe te lichten. Journalisten van over de hele wereld reisden deze maand af naar Qualcomms thuisbasis in San Diego voor een exclusief kijkje onder de motorkap van de komende processors, gepaard met uitgebreide demo's op het hoofdkwartier van de chipmaker.
Het is voor het eerst dat Qualcomm zo'n uitgebreid tipje van de sluier licht. In dit artikel zetten we de wijzigingen in de architectuur van Qualcomms X2-socs uiteen, die op ieder front moeten leiden tot een flinke stap vooruit op efficiëntie- en prestatiegebied.
:strip_exif()/i/2007906870.jpeg?f=imagenormal)
Het platform: drie modellen op 3nm
Eerst een korte samenvatting. De Snapdragon X2-line-up bestaat in eerste instantie uit drie modellen, allemaal in het hoogst gepositioneerde Elite-segment. De chips worden ditmaal gebakken op het N3P-procedé van TSMC, waar de voorgaande generatie nog gebruikmaakte van een 4nm-node. De chips bestaan volgens Qualcomm uit meer dan 31 miljard transistors, hoewel de fysieke omvang nog niet bekend is.
De drie varianten komen beschikbaar in twee coreconfiguraties: twee modellen krijgen 18 cores, terwijl de 'instap'-soc er twaalf krijgt. Geheel nieuw is de Elite Extreme-variant, die geldt als het absolute topmodel in de reeks. Hoewel deze, net als de 'middenmoter', achttien cpu-cores tot zijn beschikking krijgt, biedt het Extreme-model hogere kloksnelheden en een hogere geheugenbandbreedte.
:strip_exif()/i/2007907306.jpeg?f=imagenormal)
| Qualcomm Snapdragon X2 Elite-line-up |
| Processor |
Snapdragon X2 Elite Extreme |
Snapdragon X2 Elite |
Snapdragon X2 Elite |
| Modelnummer |
X2E-96-100 |
X2E-88-100 |
X2E-80-100 |
| Cpu-cores |
18 (12x Prime, 6x Performance) |
18 (12x Prime, 6x Performance) |
12 (6x Prime, 6x Performance) |
| Max. kloksnelheden multicore |
Prime: 4,4GHz Performance: 3,6GHz |
Prime: 4,0GHz Performance: 3,4GHz |
Prime: 4,0GHz Performance: 3,4GHz |
| Boostclocks (Prime-cores) |
Singlecore: 5,0GHz Dualcore: 5,0GHz |
Singlecore: 4,7GHz Dualcore: 4,7GHz |
Singlecore: 4,7GHz Dualcore: 4,4GHz |
| Cache totaal |
53MB |
53MB |
34MB |
| Geheugen |
Lpddr5x-9523 |
Lpddr5x-9523 |
Lpddr5x-9523 |
| Geheugenbus |
192bit |
128bit |
128bit |
| Geheugenbandbreedte |
228GB/s |
152GB/s |
152GB/s |
| Max. hoeveelheid geheugen |
128+GB |
128GB |
128GB |
| Gpu |
X2-90 (1,85GHz) |
X2-90 (1,70GHz) |
X2-85 (1,70GHz) |
| Npu |
80Tops |
80Tops |
80Tops |
Cpu, gpu, npu en meer
Wat dieper ingezoomd, bestaat de soc intern (uiteraard) uit meerdere 'eilanden'. Zo zijn er meerdere clusters met cpu-cores, een gpu en een npu, maar bijvoorbeeld ook een securityeiland en een Sensing Hub die dient als een energiezuinig always-on alternatief voor de 'gewone' npu. Al die eilanden beschikken over verbeterde architectuur ten opzichte van de vorige generatie, waar we straks dieper op ingaan.
Al deze clusters maken gebruik van een gedeelde lastlevelcache van 9MB, dat beschikt over een 70 procent hogere bandbreedte dan het llc in de Snapdragon X1-socs. Die cache wordt dynamisch gedeeld tussen de verschillende componenten; tijdens het gamen kan meer van deze cache bijvoorbeeld toegewezen worden aan de gpu, terwijl de npu meer cache krijgt tijdens het uitvoeren van AI-rekenwerk op de npu.
Het gaat hier verder om een 'monolithische' chip, en dus niet om een soc die is opgebouwd uit meerdere losse chiplets. Desgevraagd bevestigt Qualcomm dat het bedrijf de noodzaak van een chipletopbouw 'iedere generatie bestudeert', maar dat het daar vooralsnog geen reden toe zag; de prestatie- en efficiëntiedoeleinden konden gewoon gehaald worden met een simpeler monolithisch ontwerp.
:strip_exif()/i/2007907308.jpeg?f=imagenormal)
Sneller geheugen, nu eventueel upgradebaar
De chips worden eventueel bijgestaan door maximaal 128GB aan on-package Lpddr5x-9523-geheugen. In het geval van het Elite Extreme-topmodel draait dat geheugen op een 192bit-geheugenbus, die ditmaal een fors hogere bandbreedte van 228GB/s levert; 69 procent hoger dan het geheugen van de voorgaande Snapdragon X-chips. Bij de twee lager gepositioneerde modellen valt de geheugenbus terug naar 128bit, met bandbreedtes tot 152GB/s.
Daarbij bevestigt Qualcomm tegenover journalisten dat de Snapdragon X2-chips ook geleverd kunnen worden zonder geïntegreerd ram. Laptopfabrikanten kunnen er dan ook voor kiezen om het geheugen vast te solderen op het moederbord, hoewel het bedrijf ook officieel bevestigt dat de soc overweg kan met modulaire Lpcamm2-geheugenmodules.
Desgewenst kunnen oem's straks dus Snapdragon X2-laptops gaan produceren met upgradebaar geheugen, hoewel moet blijken of dat in de praktijk ook daadwerkelijk gaat gebeuren. Er zijn vooralsnog immers nog geen concrete Snapdragon X2-laptops aangekondigd, aangezien ze nog zeker enkele maanden op zich laten wachten.
:strip_exif()/i/2007907310.jpeg?f=imagenormal)
Uitbreidingen: M.2 en USB4
Los daarvan biedt het Snapdragon X2-platform ook de nodige uitbreidings- en connectiviteitsopties. Zo biedt de chip ondersteuning voor drie USB4-poorten, ieder met een maximale bandbreedte van 40Gbit/s. Voor de opslag biedt de chip verder ondersteuning voor twee NVMe-ssd's via de PCIe 5.0-interface, hoewel hij ook met UFS 4.0-opslag overweg kan.
Qua connectiviteit krijgt de soc tot slot geïntegreerde Wi-Fi 7-ondersteuning via Qualcomms FastConnect 7800-systeem; diezelfde module biedt ook Bluetooth 5.4 met ondersteuning voor zaken als Bluetooth LE Audio. Optioneel kan de Snapdragon X2‑serie voorzien worden van 5G-ondersteuning via een Snapdragon X75-modem, waarbij dan gebruikgemaakt zal worden van een M.2-module op een PCIe 3.0-interface.
:strip_exif()/i/2007907314.jpeg?f=imagenormal)
Oryon-cpu krijgt twee soorten cores
Met de vorige Snapdragon X1-serie maakte Qualcomm voor het eerst de overstap naar custom cpu-cores, in plaats van kant-en-klare Arm Cortex-ontwerpen. Deze eigen cores, genaamd Oryon, vonden hun oorsprong in een start-up met de naam Nuvia. Dat bedrijf, opgericht door voormalige Apple-chipontwerpers, werkte aan Arm-cpu's voor het datacenter totdat Qualcomm ze in 2021 overnam. De cores van Nuvia werden daarop geïmplementeerd in Snapdragon.
Sindsdien heeft het team bij Qualcomm niet stilgestaan. De tweede Oryon-generatie werd al geïntroduceerd in een mobiele chip, en de derde generatie verschijnt binnenkort in de aanstaande Snapdragon X2-socs. De tweede generatie wordt dus volledig overgeslagen in de laptopwereld.
Elke Snapdragon X2 Elite-chip beschikt over twee of drie verschillende cpu-clusters, afhankelijk van de sku, ieder met zes cores. Het maximumaantal cpu-cores wordt deze generatie dan ook opgehoogd naar achttien, waar dat er voorheen maximaal twaalf waren.
:strip_exif()/i/2007907316.jpeg?f=imagenormal)
Meerdere soorten cores: Prime en Performance
Dat is niet het enige grote verschil. In de vorige Snapdragon X-generatie maakte Qualcomm gebruik van een enkel type core in al zijn cpu-clusters. Dat is bij de X2-generatie niet langer het geval; iedere cpu beschikt over een mengelmoes van zogeheten Prime- en Performance-cores.
De 18-coremodellen van Qualcomm beschikken daarbij over twee Prime-clusters voor maximale rekenkracht en een Performance-cluster met een focus op efficiëntie. Het lager gepositioneerde 12-coremodel beschikt over een enkel Prime-cluster en een Performance-eiland.
Volgens Qualcomm levert die combinatie van twee coretypes betere prestaties per watt op ten opzichte van zijn vorige Snapdragon X1-chips, die over slechts één type core beschikten (bovendien in kleinere clusters van vier). De nieuwe Prime-cores doen het zware werk, terwijl de kleinere Performance-cores bedoeld zijn voor rekenwerk op de achtergrond en langere 'sustained' workloads.
Anders dan in Qualcomms eigen smartphonechips en bijvoorbeeld Intels laptopprocessors, koos de chipmaker er echter niet voor om ook extra zuinige Efficiency-cores te introduceren. Desgevraagd zei Pradeep Kanapathipillai, cpu-architect en vp of engineering bij Qualcomm, dat dit voor deze generatie niet nodig werd geacht.
"We bepalen het aantal cores voor een bepaald product door te kijken naar de verschillende gebruiksscenario’s, in dit geval client computing", aldus Kanapathipillai. "Je stelt dan vragen als: hoeveel prestatiethreads heb je nodig in vergelijking met backgroundthreads? Toen we keken naar de mogelijkheden van onze cores, concludeerden we dat we geen extra coretype nodig hadden om onze prestatie- en efficiëntiedoelstellingen te halen."
:strip_exif()/i/2007907318.jpeg?f=imagenormal)
Oryon Prime: de eerste Arm-cores die boosten tot 5GHz
De socs doen het dus met Prime- en Performance-cores; in smartphonechips de twee performantste soorten cores. Hoewel de twee in grote lijnen dezelfde microarchitectuur delen, verschillen ze toch enigszins wat opbouw betreft.
De Prime-clusters zijn ontworpen voor de hoogst mogelijke prestaties en gebruiken daarom ook meer stroom. Iedere Prime-cluster heeft zes cores, met een baseclock van 4,4GHz en een boostclock van maximaal 5,0GHz op een enkele core in het geval van het topmodel.
De Snapdragon X2 Elite Extreme is daarmee 's werelds eerste Arm-cpu die de 5GHz-grens heeft bereikt, hoewel dat slechts op één core per cluster gehaald kan worden. Aangezien een soc over twee Prime-clusters beschikt, kunnen dus maximaal twee cores tegelijkertijd de 5GHz aantikken.
Zodra meerdere cores in een cluster beginnen te boosten, worden de boostclocks namelijk wat verder teruggeschroefd. Binnen een Prime-cluster kunnen twee cpu-cores tegelijkertijd tot 4,8GHz boosten. Dat loopt steeds iets verder terug naarmate een workload meer cores tegelijkertijd gebruikt, tot een minimale boost van 4,45GHz.
:strip_exif()/i/2007907320.jpeg?f=imagenormal)
Wijzigingen in de front- en backend
Volgens Kanapathipillai is de nieuwe Prime-core daarnaast voorzien van vele wijzigingen in de microarchitectuur, die gezamenlijk deze prestatieverbeteringen mogelijk maken, in combinatie met het nieuwere productieproces, de hogere kloksnelheden en meer.
Tegelijkertijd vertonen de frontend en backend van de nieuwe Oryon Gen 3-cores, puur uitgaande van de presentatie in San Diego, in de praktijk grote gelijkenissen met de eerste Oryon-generatie uit de Snapdragon X1-serie. Het zal dus vooral gaan om veel kleine wijzigingen aan de details van de cores, die samen tot een groot resultaat leiden.
Zo is in ieder geval duidelijk dat de decode-eenheden, die cpu-instructies decoderen en uitspuwen als micro-ops om daadwerkelijk uitgevoerd te worden in de backend, ditmaal 9-wide zijn in plaats van 8-wide (met een soortgelijke wijziging aan de register rename om overeen te komen met de decodebreedte). Ook lijkt Qualcomm ondersteuning voor meer pagesizes in de L1-itlb toe te voegen. De chipmaker spreekt daarnaast van verbeteringen aan de branchprediction, load-store, prefetching en meer achtergrondzaken.
Meer L2-cache en een nieuwe Matrix Engine
Een andere grote wijziging vind je in het midden van de Prime-cluster: de L2-cachepool is namelijk gegroeid. De zes cores omringen een relatief grote pool van 16MB, een toename van een derde ten opzichte van de 12MB in de Snapdragon X1-clusters. Doordat de cores direct tegen de L2-cache aanzitten, moet de latency bovendien relatief laag zijn.
De L2-pool opereert ditmaal bovendien in hetzelfde klokdomein als de cpu-cores zelf. Volgens Qualcomm is die wijziging gedaan omwille van de snelheid, met speciale focus op een zo laag mogelijke L1-miss-L2-hit-latency, waarbij data niet wordt aangetroffen in het L1-cache en vervolgens wordt gezocht en gevonden in de L2-cache.
De cpu-cores worden daarnaast bijgestaan door een geheel nieuwe Matrix Engine binnen de cpu-clusters. Deze worden, zoals de naam doet vermoeden, gebruikt voor matrixberekeningen die vaak worden toegepast in AI-workloads.
Ieder cluster heeft een enkele Matrix Engine die wordt gedeeld door de zes cpu-cores. Daar staat tegenover dat iedere engine over zes threads beschikt, waardoor het lijkt alsof iedere core over zijn eigen matrixrekeneenheid beschikt. De engine ondersteunt verschillende zwevendekomma- en integerdatatypes, die vooral interessant voor machinelearning en AI-rekenwerk.
Ook de Matrix Engine heeft volledig toegang tot de gedeelde L2-cache binnen het cpu-cluster, hoewel deze engine wél in een apart klokdomein van de cpu zit. Volgens Qualcomm is dat op die manier uitgevoerd voor betere controle over het stroomgebruik en de warmteproductie, zonder dat de engine negatieve invloed heeft op de kloksnelheid van de cpu-cores.
De Performance-cores: kleiner en efficiënter
De Performance-cores zijn wat minder krachtig. Ze halen bijvoorbeeld lagere kloksnelheden met baseclocks van 3,6GHz. Bovendien beschikken ze over iets minder L2-cache, namelijk 12MB per cluster. De microarchitectuur is verder in grote lijnen gelijk aan de Prime-cores; de Performance-cluster telt gewoon weer zes kernen en een eigen matrixengine, hoewel deze wel wat minder 'breed' is met bijvoorbeeld minder executionpipelines in de backend.
De exacte architecturele wijzigingen zijn op dit moment niet bekend, maar volgens Qualcomm zitten de meeste verbeteringen aan de Prime-core ook in hun Performance-tegenhangers. De wijzigingen die het niet hebben gehaald, zouden de prestaties per watt hebben aangetast.
De cores zijn daarbij ook fysiek kleiner – al geeft Qualcomm geen concrete afmetingen – en zitten ook op een iets lagere locatie binnen de soc, wat verder weg van de geheugeninterface ten opzichte van de Prime-clusters.
Qualcomm heeft echter, in ieder geval tijdens zijn persevenement van vorige week, nog geen concrete prestatiecijfers gedeeld voor zijn Performance-cores. Wel zegt het bedrijf dat deze cores beter presteren dan hun Prime-tegenhangers wanneer ze zeer weinig stroom gebruiken. Als je de Prime- en Performance-cores bijvoorbeeld beide minder dan 2W voert, zou de Performance-variant betere cijfers neerzetten.
:strip_exif()/i/2007907322.jpeg?f=imagenormal)
Cpu-prestaties en de accuduur
Al met al gaan deze wijzigingen gepaard met de nodige prestatieverbeteringen. Zo claimt Qualcomm dat specifiek de Prime-cores tot 39 procent beter presteren in singlethreaded workloads, met een 43 procent lager stroomgebruik bij hetzelfde prestatieniveau als de vorige generatie. Voor de volledige soc spreekt de fabrikant over een algemene stijging van 50 procent wanneer alle cores worden ingezet.
:strip_exif()/i/2007907324.jpeg?f=imagenormal)
Benchmarks en prestaties per watt
We konden de Snapdragon X2-serie eerder eens zelf benchmarken, waarbij we op cpu-niveau inderdaad grote vooruitgangen opmerkten. Korte samenvatting: in Cinebench was de soc in de multithreadedtest bijna dubbel zo snel als de vorige generatie, terwijl ook de M4 Pro van Apple werd verslagen. Vergeleken met desktop-cpu's zat de Snapdragon X2 Elite Extreme iets boven de AMD Ryzen 9 9900X.
Qua prestaties per watt claimt Qualcomm nu dat de X2 Elite Extreme het ook fors beter doet. In een curve tussen de grofweg 10 en 100W doet de soc het beter dan de concurrerende Ryzen AI 300- en Intel Core Ultra 200-cpu's van AMD en Intel, uitgaande van de Cinebench 24 MT-benchmark.
Qualcomm deed deze metingen met een maatstaf die het idle-normalized platform power noemt. Het is een rekenmethode die het volledige platformstroomgebruik in acht neemt, en dus niet alleen de soc. Voor de methode meet Qualcomm eerst het idlegebruik van een platform, waarbij de schermhelderheid zo laag mogelijk wordt gezet, er geen apps actief zijn en alle connectiviteit als wifi en bluetooth wordt uitgeschakeld. Vervolgens wordt het stroomgebruik gemeten tijdens een workload, in dit geval dus Cinebench, waarna het idlegebruik er vanaf wordt getrokken.
Deze methode maakt het volgens Qualcomm vooral mogelijk om zo nauwkeurig mogelijk te vergelijken met andere Windows-platforms; de socs van andere chipmakers worden immers geleverd in een kant-en-klare laptop, waardoor enkel het socgebruik niet zomaar gemeten kan worden.
:strip_exif()/i/2007907330.jpeg?f=imagenormal)
Prestaties op de accu
Nu zijn al deze tests uiteraard gedaan in een onverhinderde omgeving, waarbij de referentielaptop bovendien aan een oplader hangt. Laptops die op een accu werken, moeten zuiniger met hun stroom omgaan, aangezien je de accuduur zo lang mogelijk wilt oprekken. Toch claimt Qualcomm zelf dat de prestaties op de accu redelijk overeenkomen met de ingeplugde prestaties.
In de benchmarkcijfers die Qualcomm ons verstrekte tijdens het evenement, blijven de prestaties op de accu in de meeste gevallen tussen de 97 en 99,5 procent van de ingeplugde prestaties hangen, met de Procyon Office-benchmark als enige duidelijke uitschieter naar beneden. We konden dit tijdens een aparte benchmarksessie slechts beperkt testen, maar de beperkte 3DMark-runs die we konden doen, leken dat beeld op het eerste gezicht te bevestigen.
Uitgaande van die resultaten zou Qualcomm op dit gebied relatief goed presteren. Onze laptoptests omvatten een test waarin we de relatieve prestaties op de accu testen. De best presterende modellen scoren daar gemiddeld rond de 93,7 procent van de ingeplugde prestaties, maar het gros van de laptops scoort een gemiddelde van 70 tot 84 procent. Nu zal onze testmethode niet exact overeenkomen met die van Qualcomm, dus we zullen bij de release zien of dat beeld in stand blijft.
:strip_exif()/i/2007907332.jpeg?f=imagenormal)
Accuduur
Dan resteert de vraag wat voor effect dit heeft op de accuduur van de Snapdragon X2-laptops. Tijdens ons eerdere benchmarkartikel werd bevestigd dat de Snapdragon X2 Elite Extreme gemiddeld zo'n 80W gebruikte, met uitschieters naar de 100W. Hoewel dat stroomgebruik zal verschillen per laptop – Qualcomm geeft geen vaste tdp-ranges voor zijn chips – is het stroomgebruik daarmee iets hoger dan de Snapdragon X Elite met zijn maximum van 80W.
Qualcomm mikt zelf op een accuduur die in simpele workloads 'gelijkwaardig' is aan de voorgaande Snapdragon X1-serie. Denk daarbij aan idlegebruik en het lokaal afspelen van videobestanden. Op softwareniveau heeft de fabrikant enkele optimalisaties doorgevoerd, die ook het stroomgebruik tijdens het gamen moeten verminderen. Tegelijkertijd deelt Qualcomm geen accutargets voor dergelijke zwaardere workloads; dat zal dan ook in de praktijk moeten blijken zodra de eerste Snapdragon X2-reviews ergens volgend jaar verschijnen.
Adreno X2-igpu: modulaire opbouw uit 'slices'
Ook de gpu van de Snapdragon X2-serie is flink op de schop gegaan. Op hoog niveau gaat het om de achtste generatie van Qualcomms Adreno-gpu-architecturen, die zijn oorsprong vinden in de smartphonesocs van het bedrijf, die op hun beurt weer afkomstig zijn uit een overname van ATI.
Qualcomm zegt een paar jaar geleden al te zijn begonnen met het ontwikkelwerk van deze nieuwe Adreno X2-gpu, nog voordat de eerste Snapdragon X Elite-chips op de markt verschenen. Het bedrijf heeft niet alleen de cores herontworpen voor betere prestaties, maar de gehele gpu ook fysiek groter gemaakt en voorzien van hogere kloksnelheden.
Het gpu-gedeelte zit rechts onderin de X2-soc. Het is wederom modulair opgebouwd, hoewel dat ditmaal op een andere manier gebeurt. In de X1-serie werden de gpu's opgedeeld in meerdere shaderprocessors, die samen een enkele frontend deelden. Dat is niet langer het geval.
:strip_exif()/i/2007907334.jpeg?f=imagenormal)
Schaalbare gpu op basis van slices
In plaats daarvan is de Adreno X2-gpu opgebouwd uit meerdere slices. Je kunt iedere slice zien als een soort mini-gpu met een geheel eigen frontend. Door meerdere van die slices aan elkaar te plakken, kun je een steeds krachtigere gpu maken, als een soort LEGO-blokjes. Het grote voordeel daarvan is dat de gpu nóg makkelijker wordt om te schalen. Een smartphone of iot-apparaat kan eenvoudig een kleinere gpu met een klein aantal slices krijgen, terwijl een laptopchip juist extra slices kan krijgen voor betere prestaties.
Iedere gpu-slice heeft 512 alu's voor het uitvoeren van fp32-rekenwerk, dat vaak wordt gebruikt voor het renderen van games. Het topmodel in de Snapdragon X2-serie heeft vier van die slices, wat gelijkstaat aan 2048 fp32-rekeneenheden, ieder op maximaal 1,85GHz. Volgens Qualcomm de hoogste kloksnelheid die het bedrijf ooit in een laptop-gpu heeft gebruikt. Het Snapdragon X2-topmodel krijgt daarmee bovendien een gpu die 33 procent groter is dan de huidige Snapdragon X Elite, die een gpu met maximaal 1536 fp32-alu's heeft.
In theorie zou Qualcomm nóg grotere gpu's kunnen maken met nog meer slices, hoewel dat vooralsnog niet is terug te zien in concrete producten. Hoewel de chipmaker geen prestatiecijfers in Tflops deelt, claimt het bedrijf wel dat dit alles zorgt voor tot 2,3 keer betere prestaties ten opzichte van de Adreno X1, uitgaande van de 3DMark Steel Nomad Light-benchmark, met een tot 125 procent betere efficiëntie in Time Spy.
Ter illustratie: de voorgaande Adreno X1 haalde 4,6Tflops aan fp32-rekenkracht. Vermenigvuldig dat met 2,3 keer en je zou uitkomen op 10,6Tflops. Daarmee zou de Adreno X2-gpu tussen de RTX 3050- en 3060-desktopvideokaarten van Nvidia in zitten. Natuurlijk is dit slechts wat ruw rekenwerk op een bierviltje; mogelijk wijkt de werkelijke rekenkracht hiervan af.
:strip_exif()/i/2007907336.jpeg?f=imagenormal)
Architectuurwijzigingen en HPM
Die verbeteringen komen, naast de grotere gpu, ook voort uit verschillende onderdelen van de gpu. Denk aan een renderfrontend die ditmaal dubbel zo snel is in triangle setup en rasterization per klokcyclus, naast een verdubbelde hoeveelheid gedeelde L2-cache van 2MB. Ook is de gpu fors sneller in het verwerken van geometrie in games (denk daarbij ook aan technieken als Nanite in Unreal Engine 5), met maximaal viermaal hogere primitive rates.
Ook nieuw is een extra type geheugen aan boord van de gpu, genaamd Adreno High-Performance Memory (AHPM). Iedere slice heeft 5,25MB van dit geheugentype, voor een totaal van maximaal 21MB. Het HPM is volgens Qualcomm vooral bedoeld om de efficiëntie te vergroten tijdens het renderen van games; de gpu hoeft voor bepaalde data dan niet het gewone geheugen te benaderen, wat een stroombesparing moet opleveren.
Anders dan de L2-caches binnen de X2-socs, is het HPM-gedeelte overigens niet coherent. Het betekent dat dit cachetype niet benaderd kan worden door andere componenten binnen de chip; het is puur en alleen bedoeld voor het ondersteunen van de gpu in zijn rekenwerk.
Het HPM biedt een bandbreedte van 4TB/s naar de shaderprocessors en kan gebruikt worden voor allerlei rekentaken. Het topmodel met 21MB moet bijvoorbeeld in staat zijn om de rendertargets voor bepaalde resoluties volledig intern op te slaan, zonder uit te wijken naar het dram. Denk bijvoorbeeld aan qhd, hoewel het bedrijf ook erkent dat 4k-renderen waarschijnlijk deels buiten het HPM zal gebeuren. In die gevallen kan de igpu uiteraard ook gewoon het dram van de soc benaderen en daarbij profiteren van het snellere Lpddr5x-9523-geheugen en de bredere 192bit-bus die we eerder al uitlichtten.
:strip_exif()/i/2007907338.jpeg?f=imagenormal)
Raytracing en software
De gpu uit de Snapdragon X1 ondersteunde al hardwarematige raytracing, al liet de implementatie volgens het bedrijf nog 'te wensen over'. Dat kwam onder andere door gebrekkige softwareondersteuning; de Snapdragon X1-gpu ondersteunde DirectX 12.1, maar haalde daarmee niet de volledige DirectX 12 Ultimate-featureset.
Het betekende dat bepaalde features ontbraken, waaronder volledige ondersteuning voor raytracing. De chips konden het in theorie wel, maar alleen via Vulkan, iets wat in Windows een stuk zeldzamer is dan de DXR-implementatie van Microsoft.
De X2-serie voldoet wél aan de DirectX 12 Ultimate-featureset en daarmee ook DXR 1.1, met hardwarematige ondersteuning voor ray box intersections en het doorlopen van BVH-structuren. In theorie kunnen de nieuwe Snapdragon X2-socs daarmee overweg met vrijwel alle raytracingtitels voor de pc (mits ze draaien op Arm, uiteraard), waarbij ook de prestaties beter moeten zijn. Dankzij de ondersteuning voor DirectX 12.2 Ultimate kan de gpu nu bovendien ook (beter) overweg met functies als meshshading en vrr.
:strip_exif()/i/2007907340.jpeg?f=imagenormal)
Over software gesproken: Qualcomm gaf tijdens zijn gpu-deepdive ook een update over zijn eerder aangekondigde Snapdragon Control Panel. Het bedrijf kondigde die app − die gebruikers bijvoorbeeld hun gpu-drivers automatisch laat updaten − vorig jaar al aan, maar sindsdien bleef het stil.
De fabrikant bevestigt dat Snapdragon Control Panel nu verschijnt. Het zou onder andere betekenen dat eigenaren van een Snapdragon X-laptop niet langer hun gpu-drivers handmatig moeten downloaden via de Qualcomm-website. De app kan daarnaast de instellingen van games optimaliseren en moet daarbij automatisch Steam-games en andere titels detecteren. Daarbij wil Qualcomm op termijn overstappen naar maandelijkse driverreleases voor zijn Snapdragon X-gpu's, in plaats van een release per kwartaal. Dat is vooralsnog echter een intern doel; het is niet bekend of en wanneer dat doel precies gehaald wordt.
:strip_exif()/i/2007907342.jpeg?f=imagenormal)
Prestaties in games
Al met al moeten deze verbeteringen zorgen voor prestaties die fors hoger liggen dan de Snapdragon X Elite van vorig jaar. Qualcomm toonde cijfers van twintig verschillende games, met wisselende grafische intensiteit, en kwam tot een gemiddelde fps‑toename van 2,3 keer. De tests werden daarbij gedaan in 1080p met de Medium-presets, zonder upscaling.
Daarbij claimt de chipmaker dat zijn nieuwe igpu tot 50 procent sneller is dan de Xe2-igpu in Intels Core Ultra 9 288V-cpu uit de Lunar Lake-serie en tot 29 procent beter presteert dan de igpu in de AMD Ryzen AI 9 HX 370, uitgaande van 27 titels met dezelfde Medium-presets en resoluties als hiervoor besproken.
Tijdens een aparte demosessie toonde Qualcomm ook een stel referentielaptops met een Snapdragon X2 Elite-soc met vier gpu-slices, waarop verschillende games draaiden en waar journalisten vrij gebruik van mochten maken. De laptops draaiden titels als Fortnite, maar ook zwaardere games als Cyberpunk 2077 en Ratchet & Clank: Rift Apart.
Ook die laatste twee draaiden in de praktijk redelijk soepel. Ratchet & Clank haalde ruim boven de 60fps, zij het met AMD FSR 3.0-upscaling ingeschakeld (zonder framegeneration). Cyberpunk 2077 haalde met een mengelmoes aan instellingen gemiddeld 70fps in zijn ingebouwde benchmarktool, ook weer met FSR 3.0 in de Performance-modus − in de slides zonder upscaling sprak de chipmaker van gemiddeld 53fps in Cyberpunk.
Tegelijkertijd blijft softwareondersteuning een aandachtspunt. Qualcomms chips zijn immers gebaseerd op de Arm-instructiesetarchitectuur, terwijl Windows traditioneel een x86-platform is. Zo zullen niet alle titels altijd draaien, zeker wanneer ze gebruikmaken van anticheatsoftware op kernelniveau; dergelijke anticheat kan immers niet geëmuleerd worden, hoewel Qualcomm daarvoor wel samenwerkt met de ontwikkelaars van onder andere Easy Anti‑Cheat, Denuvo en BattlEye. Het bedrijf mikt naar eigen zeggen op een respectabel speelbaarheidspercentage van 90 procent van de populairste games, hoewel zo'n percentage natuurlijk helemaal niet aan de orde is op een x86-platform.
Hexagon-npu: AI-rekenwerk tot 80Tops
Zo'n beetje iedere cpu die tegenwoordig verschijnt, moet natuurlijk ook een npu voor AI-rekenwerk aan boord hebben. Zo ook de Snapdragon X2, die gebruikmaakt van inmiddels de zesde generatie Hexagon-npu. Ooit begonnen als een signaalverwerker voor met name audio, is de npu inmiddels uitgegroeid tot een rekeneenheid die op relatief efficiënte wijze bepaalde lokale AI-workloads mogelijk maakt. Die van Qualcomm behaalt inmiddels de 80Tops, waarmee het – op papier – de snelste laptop-npu op de markt moet worden.
De Hexagon-npu bestaat uit drie primaire compute-elementen, die geschikt zijn voor verschillende typen berekeningen: scalar, vector en matrix. Die eerste is verantwoordelijk voor het orkestreren van het geheel, zo vertelt Lucian Codrescu, vp of technology bij Qualcomm. Dan heb je de vectoreenheden die general-purpose rekenwerk uitvoeren, gevolgd door de matrixcores die bijvoorbeeld van pas komen bij AI-workloads en het draaien van llm's. Alle drie die elementen krijgen deze npu-generatie een forse verhoging van de throughput, allemaal door wijzigingen in de onderliggende architectuur.
:strip_exif()/i/2007906488.jpeg?f=imagenormal)
Scalar-verbeteringen en een grotere busbandbreedte
Beginnend bij de scalarunit heeft Qualcomm deze generatie het aantal threads verdubbeld van zes naar twaalf. Dat moet er vooral bij helpen om de rest van de npu-pipeline gevoed en druk te houden, vertelt Codrescu. Daarbij is ook het aantal DDR-masterports verdubbeld; oftewel het aantal interfaces tussen de npu en het dram van de soc. Volgens Qualcomm kwam dat uit noodzaak door de hogere geheugenbandbreedte in de Snapdragon X2-soc zelf; met meer masterports kan de npu daar effectief van gebruikmaken.
Los daarvan heeft Qualcomm de adress space van de Hexagon-npu naar het geheugen verhoogd naar 64bit. De npu zelf is traditioneel een 32bit-processor, maar Qualcomm liep rond de opkomst van generatieve AI tegen problemen door een te krappe 32bit-DMA (Direct Memory Access). In de vorige generatie moesten grote graphs bij AI-workloads daardoor in stukjes worden gehakt, om vervolgens weer aan elkaar geplakt te worden.
Dat leidt natuurlijk tot de nodige inefficiëntie. Bij deze nieuwe generatie wordt de address space daarom opgehoogd naar 64bit, waardoor de npu efficiënter met grotere modellen kan praten. De npu zelf blijft overigens wel gewoon 32bit. Het eindresultaat van dit alles is een toename van 143 procent in de scalarthroughput en een toename van 127 procent in de busbandbreedte.
:strip_exif()/i/2007906482.jpeg?f=imagenormal)
Vectorunit krijgt fp8-ondersteuning
Ook de vectorunit haalt een hogere throughput, onder meer door ondersteuning voor nieuwe dataformaten. De architectuur van het vectorgedeelte heeft acht losse engines, die ieder vier SIMD-registers van 1024bit ondersteunen. In één zo'n SIMD-register kun je meerdere datapunten – denk aan fp32 of int8 – combineren totdat die 1024bit vol zit, en daar vervolgens in één keer een instructie op uitvoeren.
Verdeeld over acht engines, ieder vier breed, kun je dus 32 van die 1024bit-registers tegelijkertijd verwerken, ieder met meerdere datapunten. De vectorunit heeft dus al een flinke rekencapaciteit. Nu is dit op zich niet nieuw; de vorige generatie had dezelfde opstelling.
Ditmaal krijgt het vectorgedeelte echter ondersteuning voor nieuwe datatypes om de throughput verder te verhogen. Het gaat dan specifiek om fp8 en bf16. Daarbovenop zullen dieper onder de motorkap vast ook wat kleinere tweaks zijn doorgevoerd. Al met al is de vectorthroughput deze generatie met 143 procent gestegen, zegt Qualcomm.
:strip_exif()/i/2007906484.jpeg?f=imagenormal)
Matrix: 2bit-weights en een losse powerrail
Diezelfde verbeteringen worden doorgevoerd in de matrixeenheid, die het interessantst is voor lokale AI-workloads. Qualcomm voegt ook daar ondersteuning voor fp8- en bf16-dataformaten toe deze generatie. Daarbij ondersteunt de matrixunit in de X2-npu ook native 2bit-weights. Volgens het bedrijf passen steeds meer oem's en bedrijven dergelijke weights in de praktijk toe om hun llm's te verkleinen en efficiënter te maken.
De matrixunit heeft nu ook een losse powerrail met eigen kloksnelheden en spanning, gescheiden van de rest van de npu. Volgens Qualcomm is die wijziging vooral gedaan omwille van de efficiëntie. Bij workloads die voornamelijk uit AI-rekenwerk bestaan, heeft de npu immers minder scalar- en vectorrekenkracht nodig. Met de afzonderlijke powerrail kan de npu minder stroom naar die onderdelen sturen.
Dat werkt uiteraard ook andersom. Codrescu noemt de decodeerfase van een llm als voorbeeld: je leunt dan vooral op het geheugen, maar er wordt weinig berekend. De spanning van de matrixunit kan dan verlaagd worden, terwijl die van het scalargedeelte in stand blijft. Dat levert je een stroombesparing op. Al met al is de matrixthroughput gestegen met 78 procent, meldt Qualcomm.
:strip_exif()/i/2007906486.jpeg?f=imagenormal)
Npu-prestaties
Al die verbeteringen moeten dan ook betere prestaties mogelijk maken, waarbij Qualcomm zich, zoals anno 2025 de norm, met name richt op AI-rekenwerk. We schreven het net al: de Snapdragon heeft een 80Tops-npu, bijna twee keer zo snel als die in de Snapdragon X1. Hij heeft daarmee de hoogste AI-rekenkracht onder de cpu's die inmiddels zijn aangekondigd of beschikbaar zijn.
Huidig recordhouder AMD zit op 55Tops met zijn Ryzen AI 300-cpu's en ook Intels aanstaande Panther Lake-chips komen niet in de buurt van de 80. Apple deelt die cijfers minder concreet voor zijn M5-soc, hoewel de Neural Engine van de M4 zo'n 38Tops haalde en de M5-variant tot 30 procent sneller zou zijn (exclusief de matrixengines in de gpu).
Nu zijn Tops slechts een enkele prestatiemaatstaf, puur gericht op matrices; dat geeft niet per se een alomvattend beeld van alle usecases die een npu in het wild tegenkomt. Denk daarbij aan het toepassen van effecten in Premiere Pro, het maken van modellen in Blender, transcriberen van Zoom-vergaderingen, het genereren van code in Visual Studio Code, of zelfs het lokaal draaien van llm's.
:strip_exif()/i/2007906906.jpeg?f=imagenormal)
Qualcomm gaf in San Diego bijvoorbeeld een uitgebreide demo van Sarvam AI, een lokaal llm met 24 miljard parameters dat draait op de npu van de Snapdragon X2. Dat taalmodel, dat gebruikt werd om documenten samen te vatten en te vertalen tussen Engels en meerdere Indiase talen, haalde 17 tokens per seconde op de npu.
De praktijkverbeteringen kunnen dus afwijken van de hierboven genoemde 78 procent, uiteraard afhankelijk van de workload. In twee AI-benchmarktools die Qualcomm demonstreert – Geekbench AI 1.5 en Procyon AI Computer Vision – haalt de Snapdragon X2 Elite bijvoorbeeld ruim 5 keer hogere scores dan een Core Ultra 9 285H-cpu van Intel, hoewel die beschikt over een sterk verouderde 13Tops-npu.
In vergelijking met relevantere concurrentie, zoals Intel Lunar Lake, AMD's Ryzen AI 300-cpu's en de Apple M4 zijn de verschillen kleiner, hoewel de Snapdragon X2 ook in deze benchmarktools beter presteert in vergelijking met deze processors. Let wel: er zijn geen vergelijkende cijfers beschikbaar van de Apple M5.
In de genoemde tools haalt de Snapdragon X2 Elite Extreme 69,7 en 95 procent hogere scores. Kijkend naar de prestaties per watt is de X2 Elite Extreme volgens Qualcomm tot 80,9 procent efficiënter in vergelijking met een Intel Lunar Lake-cpu; er zijn hier geen cijfers van de M4 beschikbaar. In de getoonde benchmarks liet Qualcomm bovendien geen X1 Elite zien, hoewel de fabrikant wel claimt dat zijn npu tot 60 procent beter presteert bij hetzelfde stroomgebruik (beide 5W, in een EDSR Super-Resolution-workload).
De rest van het platform: micro-npu's, Snapdragon Guardian en meer
Dan zijn er nog de overige 'eilanden' die een Snapdragon X2-soc beslaan. Die zijn niet zo groot als de cpu-clusters, igpu of de npu, maar vervullen ieder specifieke functies, zoals het verwerken van videoweergave of het aansturen van schermen.
Sensing Hub met micro-npu's
Interessant is de Sensing Hub, die Qualcomm ook wel het low-power island noemt. Dit energiezuinige blok staat altijd aan, ook in Modern Standby, en maakt bepaalde workloads mogelijk met inputs uit de verschillende sensoren, zoals camera's, microfoons, wifi, bluetooth en locatie. De Sensing Hub heeft daarnaast twee kleine extra npu's aan boord voor simpele 'AI'-workloads, wederom zonder invloed op de accuduur. Dat moet gebeuren zonder dat het enige invloed heeft op de accuduur van het apparaat in kwestie.
Qualcomm toonde in San Diego verschillende gebruiksgevallen van de Sensing Hub, zoals stemactivatie van een laptop, waarbij het apparaat alleen aangaat wanneer de stem van de eigenaar wordt herkend. Op datzelfde eiland kan bijvoorbeeld ook stemisolatie worden uitgevoerd tijdens videogesprekken, waarbij achtergrondgeluiden en -gesprekken worden gedempt; de verschillen waren tijdens een demonstratie duidelijk hoorbaar. Volgens Qualcomm kost dat rekenwerk op de Sensing Hub slechts enkele milliwatt.
Op Qualcomms hoofdkwartier toonde het bedrijf ook een demo waarbij de Sensing Hub de vibraties van een laptop corrigeerde bij het afspelen van audio via de ingebouwde luidsprekers, voor een betere audiokwaliteit. De verschillen waren ook hier duidelijk hoorbaar en ook dit zou amper stroom gebruiken.
:strip_exif()/i/2007907344.jpeg?f=imagenormal)
Snapdragon Guardian
Ook nieuw is een Snapdragon Guardian-subsysteem. Het biedt de basis voor een gelijknamige dienst waarmee gebruikers op afstand de locatie van hun laptop kunnen volgen, en het apparaat ook kunnen troubleshooten of zelfs vergrendelen en volledig wissen via een app. In een demo liet het bedrijf ook zien hoe het openen van bepaalde apps op de laptop via Snapdragon Guardian beperkt kan worden via geofencing, waarbij ze alleen gestart kunnen worden op een bepaalde locatie als een kantoor of overheidsgebouw.
De dienst zal gebruikmaken van een backend in de cloud, waarmee de laptop verbinding kan maken via wifi of een 4G- of 5G-verbinding, bijvoorbeeld via een e-sim. Qualcomm bevestigt op navraag van Tweakers dat het om een betaalde dienst gaat, die overigens ook beschikbaar zal komen voor consumenten. Het bedrijf gaat deze echter niet direct aanbieden, maar zal gebruikmaken van andere kanalen.
Het bedrijf verwacht dat de verkoop voor particulieren bijvoorbeeld zal lopen via retailers, zoals (volledig hypothetisch) een Best Buy in de VS. Voor bedrijven zou het mogelijk beschikbaar komen via oem's of distributeurs. Wat de Snapdragon Guardian-dienst precies gaat kosten, is nog niet bekend, hoewel Qualcomm tegenover Tweakers referentieprijzen van 15 tot 30 dollar per maand noemde. Die staan overigens nog absoluut niet vast.
:strip_exif()/i/2007907346.jpeg?f=imagenormal)
Display, video en de isp
Dan zijn er nog de beeldgerelateerde eilanden, beginnend met de display processing unit (dpu). Deze maakt het mogelijk om beeldschermen aan te sturen met de soc, en biedt ditmaal ondersteuning voor maximaal vier schermen. De fabrikant spreekt bijvoorbeeld over maximaal vier 4k-schermen op 144Hz of vier 5k-schermen op 60Hz. Daarbij bevestigt Qualcomm dat 144Hz de maximale refreshrate zal zijn voor externe monitoren, ook als de resolutie lager dan 4k uitvalt.
De Adreno video processing unit (vpu) neemt het encoderen en decoderen van videobestanden op zich. Volgens de fabrikant ondersteunt de Snapdragon X2-serie hiermee het encoderen van een 8k-stream op 30fps, terwijl het ook twee 8k30-streams tegelijkertijd kan decoderen.
De vpu beschikt over een losse AV1-encoder, biedt verbeterde 10bit-hdr-ondersteuning en kan ook overweg met de APV-codec. Dat laatste zal vooral interessant zijn voor de creatievelingen; het moet 10bit-4:2:2-kleuren ondersteunen en 'visueel lossless' zijn, terwijl het 10 procent kleinere bestanden moet opleveren dan Apple ProRes. Verschillende platforms steunen het APV-initiatief, waaronder YouTube, Adobe, Blackmagic Design en Dolby.
Dan is er nog de geïntegreerde Spectra-isp, die verantwoordelijk is voor het aansturen van camerasensoren. Deze maakt ook functies als aanwezigheidsdetectie mogelijk, waarbij de laptop vergrendelt als de gebruiker wegloopt en met gezichtsherkenning weer ontgrendeld kan worden wanneer deze weer voor het apparaat gaat zitten.
Stroomvoorziening
Tot slot moet het geheel nog van stroom worden voorzien. Qualcomm maakt daarvoor gebruik van een ontwerp in twee fasen. Dat begint met een stel preregulators, die systeemspanning van de accu of oplader omzetten naar een output van 3,3V.
Die output gaat vervolgens naar verschillende pmic's, die de stroom verdelen over de individuele powerrails voor de cpu, gpu, npu en zo verder. De stroomvoorziening wordt daarbij per 'blok' geoptimaliseerd; de gpu kan tijdens het gamen bijvoorbeeld meer stroom krijgen.
Het stroomvoorzieningssysteem zit om de soc heen, waarbij de verschillende pmic's zo dicht mogelijk gepositioneerd zijn bij de cores waar ze de stroom naartoe moeten sturen. Volgens Qualcomm gaat er bij deze opstelling minder stroom verloren.
:strip_exif()/i/2007907354.jpeg?f=imagenormal)
Voorlopige conclusie
We concludeerden het eerder al: de Snapdragon X2-serie lijkt een gedegen concurrent te worden voor de huidige x86-cpu's van AMD en Intel en kan zich redelijk meten met Apple. Op cpu-niveau maakt Qualcomm een gezonde sprong, met singlethreaded prestaties die tot 39 procent stijgen en multithreaded prestaties die verder toenemen dankzij een toename in het aantal cores. Voeg daar ook nog de dubbel zo snelle igpu en een fors verbeterde npu aan toe, en de volgende Snapdragon X-generatie lijkt een mooie stap vooruit te zetten.
We plaatsen daar wel dezelfde kanttekening bij als in september: de processors verschijnen pas in de eerste helft van 2026, waarbij de exacte releasedatum nog niet bekend is. De X2-cpu's zien er vooral goed uit in vergelijking met de huidige Intel Arrow Lake-, Lunar Lake- en AMD Zen 5-processors.
Inmiddels heeft Intel zijn Panther Lake-cpu's uit de doeken gedaan, en werkt ook AMD achter de schermen door aan zijn aanstaande Zen 6-processors. We moeten nog zien hoe ze zich kunnen meten aan de volgende generaties van die twee chipmakers. Dat zullen we uiteraard dichter bij de release uitgebreid aan de kaak stellen.
Redactie: Daan van Monsjou • Eindredactie: Monique van den Boomen
:strip_exif()/i/2007906890.jpeg?f=imagenormal)