Chiplets: de grote toekomst van kleine chips

De afgelopen vijf jaar hebben aangetoond dat chiplets in opkomst zijn. Uiteraard heeft AMD daar een behoorlijke rol in gespeeld met de introductie van zijn eerste EPYC-processors in 2017, die beschikten over vier losse cpu-chiplets met ieder 8 cores. Sinds 2019 gaat AMD daarin een stapje verder, zowel in zijn enterpriseprocessors als in zijn consumenten-cpu's.

AMD Zen: chiplets voor cpu en i/o

Vanaf de Zen 2-architectuur en de bijbehorende EPYC Rome- en Ryzen 3000-cpu's deelt AMD namelijk zijn processors op in chiplets met cpu-cores en L3-cache, en een losse i/o-die. Daarin worden onder meer PCIe-lanes en geheugenkanalen verwerkt. Dat heeft als voordeel dat de cpu-chiplets gemaakt kunnen worden met een geavanceerder productieproces, wat leidt tot hogere kloksnelheden en lagere spanningen. Bij de i/o-die letten de prestaties minder nauw. Die dies worden daarom gemaakt op een oudere 12- of 14nm-node, wat de complexiteit en productiekosten beperkt.

EPYC Naples naast EPYC Rome — Rome is niet in één dag gebouwd, EPYC Rome ook niet: EPYC 7001 (Naples) en EPYC 7002 (Rome) naast elkaar

Deze chiplets communiceren met elkaar via AMD's eigen Infinity Fabric-protocol. Opvallend is dat AMD de verbindingen daarvoor direct op een substraat plaatst en dus geen geavanceerdere packagingtechnieken zoals interposers inzet. Dat terwijl AMD als een van de eerste bedrijven interposers commercieel inzette om zijn Radeon R9 Fury-gpu's te verbinden met HBM-geheugenstapels.

AMD verduidelijkt die keuze in een researchpaper die door de chipontwerper tijdens ISCA 2021 werd gepresenteerd. Het bedrijf schrijft daarin dat het heeft gekozen voor routing op het substraat, omdat de communicatie-eisen van zijn EPYC- en Ryzen-chiplets relatief bescheiden zijn. Point-to-pointlinks op het substraat zijn meer dan voldoende voor de benodigde bandbreedte, schrijft AMD. Het bedrijf zegt ook dat de maximale lengte van de interposerverbindingen beperkt is en dat de chiplets daarom dicht op elkaar geplaatst moeten worden. Voor bandbreedte en stroomverbruik is dat gunstig, maar wat ruimte betreft in dit geval niet. Als AMD een interposer zou inzetten, zouden daar maximaal vier Ryzen-ccd's en een i/o-die op passen. De recentste EPYC-cpu-generaties hebben acht ccd's en een i/o-die op het substraat.

AMD geeft details over Zen 2-architectuur — AMD scheidt sinds Zen 2 zijn cpu-chiplets en i/o-die.

Intel: Kaby Lake-G, Lakefield en fpga's

Intel achtste generatie Core-processor met Radeon Graphics — Intel Kaby Lake-G met
Radeon-gpu (links) en cpu-chip

Ook Intel is geen vreemde met chiplets, hoewel dat bedrijf vooralsnog vooral monolithische chips bakt. In het verleden introduceerde die fabrikant bijvoorbeeld een serie van zes Kaby Lake-G-laptopprocessors. Die chips combineerden een cpu-chip met een losse gpu, opvallend genoeg een Radeon RX Vega-gpu van AMD. Ze behoorden bovendien tot de eerste producten waarvoor Intel zijn EMIB-verbinding inzette. Kaby Lake-G bleek echter geen succes; in de praktijk werden de chips in slechts een beperkt aantal laptops gebruikt. In 2019 liet Intel dan ook weten dat het alle zes de Kaby Lake-G-cpu's met pensioen zou sturen.

Het bedrijf maakte ooit ook een geïntegreerde Iris Pro 5200-gpu, die werd gebruikt in bepaalde Haswell-laptopprocessors. Daarbij combineerde Intel een geïntegreerde gpu met een stapel van 128MB aan 'eDRAM', wat neerkwam op L4-cache. Daarop werden bijvoorbeeld cpu- en gpu-requests gecachet. Die cachestapel werd op dezelfde package als de chip geplaatst, maar was niet on-die. Het bedrijf noemde dat Crystalwell. Het gaf daarbij weinig details over de verbinding tussen de cache en de chip, maar zei wel dat de verbinding goed was voor 50GB/s aan bidirectionele bandbreedte.

Intel bracht in 2019 ook Lakefield uit, een van de eerste commercieel beschikbare, 'gestapelde' processors die gebruikmaakten van de eerdergenoemde Foveros-packagingtechniek. De package van die chip bestond uit een base-die, die werd geproduceerd op 22nm. Die basislaag functioneert als interposer, maar beschikt bijvoorbeeld ook over i/o-elementen zoals PCIe- en USB-controllers. Via een tussenlaag van microbumps werd daarbovenop een 10nm-compute-chip geplaatst, met daarop onder meer verschillende cpu-cores, Lpddr4-geheugen en een geïntegreerde gpu. Ook Lakefield werd echter geen succes en is inmiddels uit de handel gehaald.

Daarbij produceert Intel ook nog bepaalde fpga's die kunnen bestaan uit verscheidene chiplets. De Stratix 10-fpga's hebben bijvoorbeeld een chipletontwerp. Die fpga's bestaan uit een monolithisch fpga-blok dat via EMIB kan worden uitgebreid met transceivers of controllerchiplets voor zaken als PCIe en ethernet.

Apple: M1 Ultra met UltraFusion-interconnect

Onlangs kwam ook Apple met een soort soc met verscheidene chips. De M1 Ultra-soc die het bedrijf introduceerde in de Mac Studio, bestaat als het ware uit twee losse M1 Max-processors, die op zichzelf grote, monolithische chips zijn. Die twee chips zijn via een eigen die-to-die-interconnect met elkaar verbonden en functioneren als een enkele chip. Apple schrijft dat de M1 Max-dies aan elkaar verbonden worden met een interposer waar 10.000 die-to-dieverbindingen doorheen lopen. In een video lijkt het echter dat Apple gebruikmaakt van een kleinere brug van silicium, zoals EMIB, LSI of EFB.

Apple M1 Ultra UltraFusion — Apples UltraFusion-interconnect

Deze interconnect is volgens Apple goed voor een bandbreedte van 2,5TB/s tussen de twee chips. Het is niet duidelijk of dit geaggregeerde cijfers zijn, wat zou betekenen dat bandbreedte in beide richtingen bij elkaar is opgeteld. Zelfs dan zou het erop neerkomen dat Apple een bandbreedte van 1,25TB/s in beide richtingen heeft, wat in de buurt komt van de bandbreedte van verbindingen in monolithische chips. Apple noemt deze interconnect 'UltraFusion' en zegt dan ook dat deze aanpak zo snel is dat er geen merkbaar verschil is met monolithische chips.

Het zal duidelijk zijn dat de M1 Ultra van Apple een enorme chip is. Tijdens een teardown bleek dat de package van de M1 Ultra ongeveer drie keer zo groot is als die van een Ryzen-cpu en daarmee eerder overeenkomt met het formaat van een EPYC-processor. Dat is overigens inclusief geïntegreerd systeemgeheugen; bij Zen-cpu's worden uiteraard losse DDR4-dimms gebruikt.