Nvidia is al jaren de dominante partij in de verkoop van chips voor datacenters en specifiek voor de training van AI-modellen. Door de geopolitieke situatie ruikt Huawei mogelijk zijn kans in China. Kunnen de chips van de Chinese fabrikant echter mee met die van Nvidia?
De levering van Nvidia-gpu's aan China is al jaren een complex verhaal. Dat begon al onder het presidentschap van Joe Biden, die in oktober 2022 uitgebreide beperkingen oplegde op de export van geavanceerde chips naar China. Nvidia kwam daarom uiteindelijk met de H20-chip, die op verschillende manieren werd beperkt om te voldoen aan de beperkingen.
In april van dit jaar werd ook de export van die chips beperkt en in juli hief de overheid die beperking weer op in ruil voor een deel van de omzet die Nvidia behaalt op de Chinese markt. De Chinese overheid riep echter op om de chip niet te gebruiken, omdat Peking zich zorgen maakt over de veiligheid en mogelijke backdoors. Het gebruik van de RTX Pro 6000D, die al weinig positief werd ontvangen in China, is zelfs helemaal verboden voor techbedrijven als ByteDance en Alibaba.
Dat heeft effect op de toeleveringsketen van Nvidia. Het bedrijf zou meerdere leveranciers hebben opgeroepen de productie van de H20 stop te zetten. Waarom Nvidia dit doet is niet helemaal duidelijk. Het bedrijf ging niet specifiek in op de berichtgeving rond de H20, maar zegt zijn toeleveringsketen te beheren om 'in te spelen op de marktomstandigheden'. Reuters schrijft daarnaast dat Nvidia te positieve verwachtingen had van de vraag naar de RTX 6000D, waardoor de fabrikant waarschijnlijk met een overschot aan gpu's blijft zitten.
:strip_exif()/i/2007748864.jpeg?f=imagenormal)
Naar verluidt werkt het bedrijf ook aan een datacenterchip die krachtiger is dan de H20. Deze B30A-gpu is net als de RTX 6000D gebaseerd op de Blackwell-architectuur en zou ongeveer de helft zo krachtig zijn als de aankomende Blackwell Ultra GB300. De H20 maakt nog gebruik van de oudere Hopper-architectuur. De Amerikaanse overheid moet echter nog toestemming geven voor de export van de B30A naar China.
Huawei probeert de macht te pakken
Intussen lijkt Huawei te kunnen profiteren van de onzekerheid. Onder meer Z.ai kondigde in augustus aan dat zijn nieuwe GLM-modellen getraind zijn op chips van Huawei. Ook Alibaba en Baidu zijn volgens The Information begonnen met training van AI-modellen op Chinese chips. Alibaba gebruikt daarvoor zijn eigen chips, terwijl Baidu zijn modellen traint op chips van Kunlunxin, waarin Baidu een groot aandeel heeft.
Een woordvoerder van Nvidia erkende in reactie op die berichtgeving dat de concurrentiestrijd 'onmiskenbaar' is begonnen: "De wereld zal de beste technologiestack kiezen voor het draaien van de populairste applicaties en opensourcemodellen. Om de AI-race te winnen, moet de Amerikaanse industrie de steun krijgen van ontwikkelaars wereldwijd, inclusief China."
De chips vergeleken: kan Huawei meekomen?
De adoptie van Huawei-chips zal vooral afhangen van de kwaliteit van de chips ten opzichte van die van Nvidia. Het Chinese bedrijf heeft een aantal belangrijke uitdagingen ten opzichte van Nvidia.
Ten eerste mag TSMC door de exportbeperkingen niet leveren aan Chinese bedrijven, waaronder Huawei. Daarom is het bedrijf voor de productie van zijn Ascend-chips, die gebruikt worden voor AI-training en -inferentie, aangewezen op het Chinese SMIC. De nieuwste Ascend-chip, de 910C, wordt geproduceerd op het 7nm-procedé ‘N+2’. Het N4-procedé waarop de H20-chip wordt geproduceerd en de N4P-node die naar verluidt gebruikt wordt bij de productie van de B30A-gpu, zijn procedés die bij TSMC onder de 5nm-familie vallen.
Naast de grotere transistors zijn ook de lage yields, oftewel het aantal bruikbare chips na het hele productieproces, een groot nadeel van het productieproces van SMIC. Het bedrijf heeft geen toegang tot de euv-machines van ASML en kan daardoor geen gebruikmaken van euv-technologie. Daardoor moet SMIC gebruikmaken van multipatterning, waarbij waferlagen meerdere keren belicht moeten worden. Dat zorgt niet alleen voor meer productiestappen, maar vergroot ook de kans op fouten, aangezien de verschillende belichtingen precies op elkaar moeten aansluiten.
Daardoor zijn de yields bij SMIC een stuk lager dan bij TSMC, dat op zijn N4-procedé yields van rond de tachtig procent haalt. De yields van de 910C lagen eind vorig jaar volgens Reuters op slechts 20 procent. In februari meldde de Financial Times overigens dat de yields van de Ascend 910C waren gestegen naar 40 procent, dus er lijkt schot in de zaak te zitten.
:strip_exif()/i/2007748862.jpeg?f=imagenormal)
Daarnaast is ook de rekenkracht van de Huawei Ascend 910C nog enigszins een vraagteken, doordat Huawei daarover een stuk minder prijsgeeft dan Nvidia. De Ascend 910C is volgens Reuters in feite een combinatie van twee 910B-chips, vergelijkbaar met hoe de GB300 twee B300-gpu's combineert. The Register beweert dat de 910C 752Tflops aan fp16-rekenkracht levert en acht HBM-clusters heeft met een totale capaciteit van 128GB en een bandbreedte van 3,2TB/s. De verbinding tussen chips zou een snelheid van 540GB/s hebben. Daarmee heeft de chip naar verluidt minder fp16-rekenkracht, HBM en geheugenbandbreedte dan de twee jaar oude H200 van Nvidia: die biedt 1979Tflops aan fp16-compute en 141GB HBM3e met een bandbreedte van 4,8TB/s.
De H20 is echter behoorlijk beperkt en heeft een fp16-rekenkracht van 148TFlops, een stuk minder dus dan de Ascend 910C van Huawei. Ook heeft de H20 32GB minder HBM dan de Ascend-chip. De NVLink is met 900GB/s echter groter dan de interconnect van de Huawei-chips en ook de bandbreedte van 4TB/s is hoger dan die van de chip van Huawei. Daarmee lijkt de Ascend 910C-chip het op pure rekenkracht ruim te winnen van de H20, maar door de hogere interconnect en bandbreedte heeft de H20 alsnog belangrijke voordelen ten opzichte van Huawei's product.
De RTX Pro 6000D, die geproduceerd wordt op TSMC's N4-node, is een nog zwakkere chip dan de H20 en is vooral bedoeld voor inferentie. De chip heeft volgens DigiTimes helemaal geen HBM en maakt in plaats daarvan gebruik van GDDR7 met een bandbreedte van 1,1TB/s. De NVLink is niet bekend.
De aankomende 'China-chip' van Nvidia, de B30A, is volgens Reuters in feite een 50 procent minder krachtige versie van de aankomende Ultra GB300. Waar die laatste chip gebruikmaakt van twee B300-gpu's, zou de B30A slechts een enkele die bevatten. De B300-chip beschikt over 288GB HBM3E-geheugen en een geheugenbandbreedte van 8TB/s. De fp4-rekenkracht bedraagt maximaal 20 petaflops en de NVLink is 1,8TB/s. De B30A zou dan beschikken over 144GB HBM3E-geheugen, een geheugenbandbreedte van 4TB/s, een NVLink van 900GB/s en maximaal 10 petaflops aan fp4-rekenkracht. Aangezien deze chip niet voldoet aan de exportbeperkingen, moet Nvidia toestemming krijgen van de overheid om deze naar China te exporteren. Krijgt het bedrijf die, dan heeft het meteen de krachtigste chip voor de Chinese markt in handen, die ook de 910C van Huawei ver overtreft.
Ook op softwaregebied loopt Huawei achter op Nvidia. Nvidia's CUDA-platform bestaat al bijna twintig jaar en is zo ongeveer de industriestandaard geworden in AI-ontwikkeling. De populairste machinelearningframeworks, zoals PyTorch en TensorFlow, zijn ontworpen om naadloos samen te werken met CUDA. Huawei heeft zijn eigen softwareplatform, genaamd CANN (Compute Architecture for Neural Networks). Het bedrijf besloot die software vorige maand opensource te maken, volgens de South China Morning Post om beter tegenwicht te kunnen bieden aan Nvidia en zijn closedsource CUDA-ecosysteem. Daarmee pakt Huawei een van de grootste frustraties van het CUDA-platform aan: het gebrek aan CUDA-ondersteuning buiten Nvidia's eigen hardware. Het opensource maken van CANN zal ongetwijfeld meer ontwikkelaars trekken, maar de vraag is in hoeverre ontwikkelaars uiteindelijk tijd zullen steken in het optimaliseren van hun software voor een nog onbewezen computeplatform.
Is de strijd al gestreden?
Door de voordelen die Nvidia ten opzichte van Huawei heeft, lijkt de strijd om AI-chips op het eerste oog misschien al gestreden. Dat ligt echter wat genuanceerder. Chipanalist Lennart Heim erkent dat de prestaties per chip bij Huawei 'niet indrukwekkend' zijn en meerdere generaties achterlopen. Het Chinese ecosysteem heeft echter meerdere unieke voordelen ten opzichte van de VS. Zo is het door de grotere macht van de staat makkelijker om de rekenkracht van het Chinese bedrijfsleven te centraliseren, waar in Amerika de compute over veel verschillende bedrijven is verdeeld. Hij verwacht daardoor concurrerende modellen vanuit China.
:strip_exif()/i/2007011178.jpeg?f=imagenormal)
China kan de beperkingen bovendien te boven komen door simpelweg meer chips te gebruiken, ook als die minder krachtig zijn. Huaweis CloudMatrix 384 zou bijvoorbeeld meer fp16-rekenkracht, geheugenbandbreedte en HBM hebben dan de NVL72 van Nvidia, doordat de supernode van Huawei 384 npu's aan elkaar verbindt, waar Nvidia's product bestaat uit 72 gpu's.
Dat Huawei echter nog stappen te zetten heeft, bleek in augustus door berichtgeving van de Financial Times. De Chinese autoriteiten zouden DeepSeek hebben aangemoedigd om zijn R2-model te trainen met Huawei-chips. Dat lukte echter niet goed, waarna het bedrijf besloot de release van het model uit te stellen en toch over te stappen op Nvidia-chips voor de training. De Ascend-chips kampten naar verluidt met stabiliteitsproblemen, tragere connectiviteit tussen chips en inferieure software, en worden nu gebruikt voor de inferentie van het model. Door veel chips aan elkaar te koppelen, kan Huawei de rekenkracht van Nvidia's aanbod evenaren. De vraag is echter of het bedrijf op tijd de andere problemen kan oplossen voordat Nvidia (nog meer) feitelijk de standaard wordt onder de AI-bedrijven.
Redactie: Imre Himmelbauer • Eindredactie: Marger Verschuur