SemiAnalysis claimt dat DeepSeek al meer dan 500 miljoen dollar heeft gespendeerd aan AI-hardware om het V3-taalmodel te trainen. Volgens het analysebureau geeft DeepSeek enkel het kostenplaatje van de officiële training vrij, zonder de aanverwante kosten te hebben vermeld.
SemiAnalysis schrijft in een blogpost dat het zogenaamde budget van DeepSeek van ongeveer 5,6 miljoen dollar om het V3-model te trainen verwijst naar een specifiek deel van het totale kostenplaatje: de pretrainingsfase. Dit deel zou volgens het analysebureau echter niet representatief zijn voor de totale kosten van de ontwikkeling van het V3-taalmodel. Er zouden volgens de onderzoekers ook nieuwe ideeën en nieuwe architecturen getest moeten worden, alvorens tot de definitieve versie van een taalmodel te komen. "Zowel de onderzoeks- en ontwikkelfase als de total cost of ownership worden niet vermeld", klinkt het.
SemiAnalysis claimt ook dat DeepSeek toegang heeft tot ongeveer 50.000 Nvidia-gpu’s met Hopper-architectuur. Het betreft volgens het bureau daarbij niet alleen Nvidia H100-gpu’s. Het analysebureau verwijst bijvoorbeeld naar de verschillende varianten van de H100 die voor de Chinese markt zijn bestemd, zoals de Nvidia H800- en H20-datacenter-gpu’s. DeepSeek zou ongeveer 10.000 stuks van elk van deze modellen ter beschikking hebben en ook nog aanzienlijke bestellingen hebben lopen bij Nvidia voor de H20-gpu’s. Om hoeveel exemplaren het precies gaat, is niet duidelijk.
De totale investeringskosten van de servers van DeepSeek ligt volgens SemiAnalysis op ongeveer 1,6 miljard dollar. Dit bedrag omvat alle kosten die het AI-bedrijf al heeft gemaakt om zijn AI-serverhardware en andere infrastructuur aan te schaffen en te laten draaien, en dus niet enkel voor het trainen van het V3-taalmodel. DeepSeek kan voor de financiering van zijn projecten rekenen op de financiële middelen van High-Flyer. Dat is een Chinees investeringsfonds en AI-bedrijf. DeepSeek was volgens SemiAnalysis tot in 2023 onderdeel van High-Flyer, maar groeide uit tot een aparte spin-off die zich kon focussen op de ontwikkeling van zijn eigen AI-technologie, zoals het recent geïntroduceerde V3-taalmodel.
De Chinese start-up kwam onlangs in het nieuws omdat de DeepSeek-app midden januari op nummer één in de Amerikaanse App Store kwam te staan. Het betreft een app met ingebouwde AI-chatbot die gebruikmaakt van het DeepSeek V3-taalmodel. DeepSeek claimt dat hun taalmodel kan concurreren met de nieuwste taalmodellen van OpenAI en stelt het hele systeem te hebben getraind op Nvidia H800-chips voor minder dan 6 miljoen dollar. Deze claims zijn niet onafhankelijk geverifieerd. Het bedrijf heeft ook opensourceversies van dit taalmodel uitgebracht variërend van 1,5 tot 70 miljard parameters. Tweakers schreef onlangs een achtergrondartikel over DeepSeek en het V3-taalmodel.
Update, 16.49 uur - In het artikel stond aanvankelijk dat het ging om DeepSeeks R1-taalmodel. R1 is weliswaar gebaseerd op V3, maar het is iets anders.