Op de schaal die nodig is om een AI model op die schaal te trainen kan je niet zomaar de GPUs afnemen bij AWS of Azure. Daarvoor zal je honderden tot duizenden GPUs nodig hebben. Voor het trainen van Llama 2 70B heeft Meta 1.720.320 GPU uren gebruikt. En dat was alleen nog maar voor de 70B model, met de anderen erbij hebben ze meer dan 3.3 miljoen GPU uren geboekt voor Llama 2.... Je hebt duizenden GPUs nodig.
Dat is dan alleen nog voor training, dus die zijn dan maanden niet beschikbaar. Verder heb je nog onderzoeksapparatuur nodig. Nou laten we het houden op 3000 H100 GPUs voor training (omdat je dat parallel wilt doen en lekker snel, ook zegt het feit dat Llama 2 tot 70B parameters gaat niks over wat ze intern doen, Claude 2 heeft >130B parameters) en laten we er dan nog 2000 bij gooien voor intern onderzoek en dat is inclusief good measure. Meta heeft in hun RSC 760x DGX A100 systemen, voor >6000 A100 GPUs. Laten we de listprice nemen voor de DGX A100, dat is $199.000. Goed, dat is dus eventjes een koele $151.240.000. Dit is overigens niet de volledige schaal van Meta's RSC, die moet veel groter worden dan dit volgensmij.
Daarna personeel. Volgens Wikipedia hebben ze 160 werknemers (source is gecite, LinkedIn geeft de range 51-200 werknemers, dus dat is fine). Elke werknemer krijgt gok ik zo'n $100.000 gemiddeld per jaar, dat is wel fair voor AI researchers op dit moment. De markt is vol competitie en andere bedrijven zouden je graag willen, dus een gemiddelde van $100.000 lijkt me fair. Snelle Google searches bevestigen dit, met getallen ergens tussen de $45.000 tot $200.000, en sommigen claimen medians van $350.000, maar dat lijkt me wel hoog, hoewel ook niet onrealistisch. Als we uitgaan van 160 x $100.000 dan heb je $160.000.000 uitgegeven aan salaris PER JAAR. Goed dat bovenop je systeem aanschafkosten is 3/10de, ~310 miljoen als je meerekent.
Nu moet je ze nog allemaal ergens kwijt!! Nou dat krijg je nooit kwijt in een co-locatie aanbieder, dus daarvoor moet je je eigen gebouw hebben. Ik kan dat echt niet precies zeggen, maar laten we dat gewoon eventjes zetten op 200 miljoen voor het gebouw plus de extra troep als vervoer, installatie, koelingssysteem. Amazon geeft blijkbaar miljarden uit voor een nieuw AWS datacentrum, maar dat is natuurlijk veel meer dan enkel 6000 GPUs plus servers. We zitten nu op $500 miljoen. Ik denk dat dit trouwens een lowball is voor het datacentrum, maar sure.
Goed je hebt nu je datacentrum en mensen. Nu moet je die mensen laten onderzoeken en trainen. Elke H100 GPU gebruikt 400 watt. Het is zonde om infrastructuur ongebruikt te laten liggen, dus laten we zeggen dat 70% van de GPUs voor 80% van de tijd op volle 400 watt staan te draaien (je wilt niet je aanschafkosten verspillen door ze ongebruikt te laten). Dat is 80% per jaar. De andere 30% is voor onderzoekers en draait 100% van de tijd tijdens werktijden, anders staan deze uit (zonde, maar dat is voor de low estimate). We gaan nu uit van 8766 uren per jaar, daarvan 80% is zo'n 7013 uren. Dat is 7013 uur per jaar per GPU, dus dat is 70% van de GPU's ofwel 4200 GPUs ofwel 29.454.600 GPU uren per jaar voor de fulltime partij. Dan nog de uren voor de onderzoek GPU's. Een jaar werken laten we dat stellen op 1800 uren. ChatGPT berekend dat de gemiddelde Amerikaan 1900 uur per jaar werkt, maar deze onderzoekers zullen wel betere arbeidsvoorwaarden hebben (waarschijnlijk niet, maar low estimate yada yada). Goed dus dat is 1800 uur voor 1800 GPUs ofwel 3.240.000 uren per jaar voor de rest (zie je hoe zonde??) en dat is bij elkaar 32.694.600 uren per jaar. Voor 400 watt is dat 13.077.840 kWh, en met een gemiddelde prijs voor stroom in Californie (ik heb niet zoveel tijd om op te zoeken, ergens tussen de 20 en 30 cent, best hoog, dus laten we het op 20 cent houden.) is dat $2.615.569 aan stroom voor de GPUs alleen. Vergeet de koeling, plus de rest van de servers niet, en het internet, en whatever else.
We zitten nu nog rond de $500 miljoen. Ik durf te wedden dat de rest van de equipment in het datacentrum nog VEEEEL meer kost dan mijn kleine estimate van slechts een kleine $200 miljoen.
Mijn punt is: je gaat wel door een miljard heen in een jaar als je dit moet kopen lmaooo
PS. Zo... Weer iemand op het internet verteld waar het op staat... Goed, terug naar het werk.. Oh het is 5 uur. Mooi tijd om naar huis te gaan! Weer een harde productieve dag gehad!
[Reactie gewijzigd door Pokemoneuro op 24 juli 2024 22:33]