Onderzoeksbedrijf: DeepSeek V3-model heeft meer geld gekost om te trainen

SemiAnalysis claimt dat DeepSeek al meer dan 500 miljoen dollar heeft gespendeerd aan AI-hardware om het V3-taalmodel te trainen. Volgens het analysebureau geeft DeepSeek enkel het kostenplaatje van de officiële training vrij, zonder de aanverwante kosten te hebben vermeld.

SemiAnalysis schrijft in een blogpost dat het zogenaamde budget van DeepSeek van ongeveer 5,6 miljoen dollar om het V3-model te trainen verwijst naar een specifiek deel van het totale kostenplaatje: de pretrainingsfase. Dit deel zou volgens het analysebureau echter niet representatief zijn voor de totale kosten van de ontwikkeling van het V3-taalmodel. Er zouden volgens de onderzoekers ook nieuwe ideeën en nieuwe architecturen getest moeten worden, alvorens tot de definitieve versie van een taalmodel te komen. "Zowel de onderzoeks- en ontwikkelfase als de total cost of ownership worden niet vermeld", klinkt het.

SemiAnalysis claimt ook dat DeepSeek toegang heeft tot ongeveer 50.000 Nvidia-gpu’s met Hopper-architectuur. Het betreft volgens het bureau daarbij niet alleen Nvidia H100-gpu’s. Het analysebureau verwijst bijvoorbeeld naar de verschillende varianten van de H100 die voor de Chinese markt zijn bestemd, zoals de Nvidia H800- en H20-datacenter-gpu’s. DeepSeek zou ongeveer 10.000 stuks van elk van deze modellen ter beschikking hebben en ook nog aanzienlijke bestellingen hebben lopen bij Nvidia voor de H20-gpu’s. Om hoeveel exemplaren het precies gaat, is niet duidelijk.

De totale investeringskosten van de servers van DeepSeek ligt volgens SemiAnalysis op ongeveer 1,6 miljard dollar. Dit bedrag omvat alle kosten die het AI-bedrijf al heeft gemaakt om zijn AI-serverhardware en andere infrastructuur aan te schaffen en te laten draaien, en dus niet enkel voor het trainen van het V3-taalmodel. DeepSeek kan voor de financiering van zijn projecten rekenen op de financiële middelen van High-Flyer. Dat is een Chinees investeringsfonds en AI-bedrijf. DeepSeek was volgens SemiAnalysis tot in 2023 onderdeel van High-Flyer, maar groeide uit tot een aparte spin-off die zich kon focussen op de ontwikkeling van zijn eigen AI-technologie, zoals het recent geïntroduceerde V3-taalmodel.

De Chinese start-up kwam onlangs in het nieuws omdat de DeepSeek-app midden januari op nummer één in de Amerikaanse App Store kwam te staan. Het betreft een app met ingebouwde AI-chatbot die gebruikmaakt van het DeepSeek V3-taalmodel. DeepSeek claimt dat hun taalmodel kan concurreren met de nieuwste taalmodellen van OpenAI en stelt het hele systeem te hebben getraind op Nvidia H800-chips voor minder dan 6 miljoen dollar. Deze claims zijn niet onafhankelijk geverifieerd. Het bedrijf heeft ook opensourceversies van dit taalmodel uitgebracht variërend van 1,5 tot 70 miljard parameters. Tweakers schreef onlangs een achtergrondartikel over DeepSeek en het V3-taalmodel.

Update, 16.49 uur - In het artikel stond aanvankelijk dat het ging om DeepSeeks R1-taalmodel. R1 is weliswaar gebaseerd op V3, maar het is iets anders.

DeepSeek

Door Jay Stout

Redacteur

03-02-2025 • 09:55

132

Lees meer

Reacties (132)

132
132
65
7
0
53
Wijzig sortering
Natuurlijk interessant om te zien, maar ze vallen wel een soort stroman aan. DeepSeek heeft nooit geclaimed dat het maar 5 miljoen heeft gekost. Hun claim staat hier: https://arxiv.org/html/2412.19437v1#S1.T1
Lastly, we emphasize again the economical training costs of DeepSeek-V3, summarized in Table 1, achieved through our optimized co-design of algorithms, frameworks, and hardware. During the pre-training stage, training DeepSeek-V3 on each trillion tokens requires only 180K H800 GPU hours, i.e., 3.7 days on our cluster with 2048 H800 GPUs. Consequently, our pre-training stage is completed in less than two months and costs 2664K GPU hours. Combined with 119K GPU hours for the context length extension and 5K GPU hours for post-training, DeepSeek-V3 costs only 2.788M GPU hours for its full training. Assuming the rental price of the H800 GPU is $2 per GPU hour, our total training costs amount to only $5.576M. Note that the aforementioned costs include only the official training of DeepSeek-V3, excluding the costs associated with prior research and ablation experiments on architectures, algorithms, or data.
Dus 5 miljoen is de trainingsuren die het gekost heeft vermenigvuldigd met een huurprijs voor die gpu's. En dan dus exclusief al het andere. Alleen al die cluster die ze in zelfde alinea noemen als van zichzelf (2000*h800) kost om te kopen een leuke duit meer dan dat.
Het is droevig dat dit bericht als zijnde nieuws wordt gepresenteerd. Het is een vaag onderzoek wat helemaal niets bewijst en vooral bedoelt lijkt om de publieke opinie van Chinese AI te beïnvloeden.
Beetje een aparte framing, en het stukje dat de titel onder uit haalt is een weggemoffeld midden in de tekst.
Dit bedrag omvat alle kosten die het AI-bedrijf al heeft gemaakt om zijn AI-serverhardware en andere infrastructuur aan te schaffen en te laten draaien, en dus niet enkel voor het trainen van het R1-taalmodel. DeepSeek kan voor de financiering van zijn projecten rekenen op de financiële middelen van High-Flyer. Dat is een Chinees investeringsfonds en AI-bedrijf.
Highflyer is een bedrijf wiens core business niet AI betreft maar wel deze GPU's gebruikt. Zij hebben deze investering al gedaan en zijn vervolgens een side business begonnen om DeepSeek te ontwikkelen. Om dat te framen alsof de volledige investering nodig is om deze AI te ontwikkelen is onzinnig. Natuurlijk is de infra nodig om wereldwijd de service aan te bieden, maar het model was zeker niet zo duur. Berkeley heeft het concept na kunnen maken voor $30, daarmee proberen te bewijzen dat DeepSeek wel degelijk voor een prikkie mogelijk is https://techstartups.com/...0-claims-and-controversy/.

Hun paper klopt. DeepSeek werkt. De US en EU moeten aanpoten. Dit artikel is een nothing burger.

[Reactie gewijzigd door IamGrimm op 3 februari 2025 10:47]

$30?

Dan ben jij diegene die essentiële informatie weglaat. Namelijk, dat is voor een model wat gelijk scoort aan Deep Seek op een "arithmetic-based challenge". Een modern LLM kan echter héél veel meer dan dat. En als je een rekenmachine wil, dan is een LLM niet de beste oplossing.

Nee, die Berkeley onderzoekers hebben een clickbait claim gedaan.
Ik snap niet waarom je +2 krijgt. De $30 waar IamGrimm over spreekt is, dat de onderzoekers aangetoond hebben dat je met Reinforcement Learning, een model dat maar een paar B parameters heeft, tot de staat van self analyze kunt krijgen.

Ze ontdekten dat met DS hun technique, een 1.5B model zelf tot self reasoning kon komen. En het kosten hun maar $30 aan 10 uur H100 tijd, om bestaande model, self reasoning te geven. Wat dan weer de accuracies van het model enorm verbeterend. De sweet spot zit hem rond de 7B parameters.

Voor DS uitkwam met deze aanpak, was het idee dat je puur rekenkracht moest smijten op self reasoning o1 achtige model te komen. Dat is niet clickbait en all hun testen, data en source is vrij beschikbaar.

Is grappig dat je onderzoekers clickbait noemt, wanneer ze letterlijk hun data en bewijzen openlijk publiceren.

------

En om terug te komen op de topic over dat onderzoekbedrijf, ze hebben daar nogal veel spullen door elkaar gehaald. Ja, het kost niet 5Miljoen om R1 te verkrijgen, die 5 Miljoen was hun V3 model.

De kracht van DS hun aanpak zit hem juist dat ze een grote accuracies konden behouden, met kleinere modellen en er nog eens self reasoning bijkregen.

De hoeveelheid GPUs is niet de issue, en ik snap niet waarom er zoveel focus is op dat. Komt mij over als damage control.

Eerst was het "nee, ze hebben openAI hun data gebruikt", "nee, ze hebben meer betaald", ... Dat maakt allemaal geen zak uit. Wat uitmaakt is de tech/software idee erachter, en dat is verdoemt indrukwekkend + feit dat het open soruce is.

Feit dat ik hier een self reasoning model kan draaien van 14b parameters op een AMD 6800, met 36 token/s ... En een 30b model tegen 5 token/s (te weinig geheugen op men 6800).

Waar is men o1, a, nee, dat is zwaar betaald en niet open source.

Ja, wil je de exacte accuracies als DeepSeek R1 600b param model, dat je een ~3K moet betalen voor een deftige PC setup (700GB+ geheugen is een must). Maar weeral, je kan het zelf draaien als je de kennis en wil hebt. Het is open source, je kan het downloaden en draaien.

Feit is, dat DeepSeek zojuist een enorme boost gegeven heeft voor bedrijven dat niet biljoenen hebben, om te innoveren op deze tech. En we zien dat volop, zoals de onderzoekers dat wilde zien hoe snel een model self reasoning werd.

Wat een gracht was rondom OpenAI, is nu ineens een enorm probleem geworden voor OpenAI, want DS hun release van modellen en knowhow in the publiek domain, gaat heel wat concurrentie teweeg brengen. Een maand geleden dacht iedereen, nee, self reasoning is iets dat enkel grote bedrijven kunnen doen dat er miljarden opsmijten. DS komt uit, onderzoekers proberen de technieken, en yep, for $30 in gehuurde H100's verkregen ze self reasoning models. _/-\o_

Nu is er hun 7B image generation and image recognition model. Ja, de image generation is "funky" maar dat is pvd maar 7B model, de OCR is echt indrukwekkend, de herkenning van je text voor de image generation is ook indrukwekkend.

Gouden tijden zeg ik voor open source / home AI.
"De hoeveelheid GPUs is niet de issue, en ik snap niet waarom er zoveel focus is op dat. Komt mij over als damage control. "

Ik denk omdat dat de NVidia beurskoers hard raakte.
Verder helemaal eens hoor, maar voor het volledige model die 700GB+ wordt het eerder € 300k dan 3K. Je krijgt niet met tweedehands kaartjes van vorige generaties zoveel bij elkaar in één systeem. Multi-node kent weer extreem hoge netwerk vereisten. Wil je die ondergrens van 5 tokens per seconde aanhouden, dan moet je namelijk zoveel bandbreedte hebben dat je wel de volle multiple experts hun eigen memory toch zo vaak per seconde compleet kan draaien/syncen tussen nodes. Volgens mij ca. 30-40GB per expert van de totale 700-1400GB DeepSeek V3/R1 modellen.
De bandbreedte tussen nodes zou dan al snel tientallen GB/s moeten zijn, ofwel netwerkkaarten van 100 Gbps of meer. Nu heeft Nvidia voor datacenters allemaal moois van zelfs 400 en 800 Gbps, echter dat heb je niet thuis zo even voor elkaar, laat staan voor € 3K. Een Mac M4 Pro/Max met 128-192GB RAM is nog redelijk kosten effectief, en zulke hoeveelheden VRAM krijg je op 2e hands oude datacenter kaartjes ook nog wel bij elkaar in een enkele build, maar bewijs me graag het tegendeel, meer dan 40GB VRAM per kaart en daarmee meer dan 240GB VRAM per node wordt toch een andere en veel duurdere aanpak nodig?
Verder helemaal eens hoor, maar voor het volledige model die 700GB+ wordt het eerder € 300k dan 3K.
https://digitalspaceport....locally-on-2000-epyc-rig/

> can hit between 4.25 to 3.5 TPS (tokens per second) on the Q4 671b full model.

Het grote probleem is vooral de combinatie van alles in het geheugen en geheugen snelheid. Ja, 4.25/3.35 is niet enorm, maar we spreken van het volledige model op een 2k setup... En dan zijn er nog tweaks zoals memory latency dat veel kunnen helpen enz.

Mensen kijken zich blind op de GPUs maar als je echt het meest accurate model wilt, en beetje geduld hebt, ... 2k. Ik zie mensen de boel nog naar onder brengen van 300b parameters, aka verdoemt hoge accuracies (zeker tegen de 14b model dat je in een GPU kan draaien) en dan verdubbel je vaak je performance naar een 8T/s.

De race is open naar de beste oplossingen voor bang/performance ;)
Dat is wel echt respect voor wat die zo bouwt met tweedehands server spul zeg! Hij haalt 2,91 tokens per seconde in die video. Op een Q4 model dus nog altijd wel quantized, daardoor ook minder RAM nodig. Als je alle tips toepast en komt op 4,25 dan heb je natuurlijk ook wel al bijna de 5 tps in zicht. Toch blijft dat onder de ondergrens, algemeen houd je zelfs aan vanaf 10 tps is redelijk werkbaar interactief. Alles daaronder is batch processing.

Of je genoeg hebt aan een distilled model is een heel valide discussie. Je kunt nooit iets betaalbaars draaien dat bij de accuratesse hiervan ook maar in de buurt komt. Dus inderdaad kiezen voor kwaliteit in batch processing, of lagere kwaliteit en wel (veel) meer interactief.
Die laatste klinkt als een interessante ook van 8T/s, dat is al prima langzaam maar interactief te noemen.

Je kunt nog een quantized 32B model kwijt op een enkele GPU, 18GB VRAM nodig, daar houdt het voorlopig ook wel echt op inderdaad, maar tegelijk heb je dan heel andere snelheden, dan vliegt de tekst over het scherm met die GPU's. Om uit 32B Q4 wel kwaliteit te halen moet je in ruil daarvoor meer prompt engineering doen, en sommige complexere vragen blijven buiten bereik, dan moet je zelf de opdracht in stukken opdelen ipv de LLM één grote opdracht te geven.

De race is open inderdaad, en het jaar is nog jong :Y)
Zeker niet, als proof of concept is het duidelijk dat het voor een stuk minder geld kan dan OpenAI. De challenge is de output en het gaat hier om de input. Het lijkt er op dat je voor weinig zo'n model in elk geval klaar kan stomen om reasoning toe te passen. Wederom is de code gewoon beschikbaar, dus laat het vooral los op iets anders.

Ze hoeven niet het volledige model na te bouwen, ze hoeven alleen aan te tonen dat het concept klopt. Dat lijkt inderdaad zo.

Daarnaast was dat meer een bewijsstuk voor de rest van m'n post dan daadwerkelijk het punt. Als dit specifieke datapunt misschien niet klopt hoor ik graag het tegendeel voor de rest van de claim.

Edit: Even nagelezen en toegegeven, het lijkt alsof ik de claim wil maken dat ze het volledig hebben nagemaakt voor die prijs. Dat is niet zo en zal ik even aanpassen.

[Reactie gewijzigd door IamGrimm op 3 februari 2025 10:49]

Het softwaregedeelte is gebaseerd op de open source van OpenAI. Daar zitten de kosten niet in. Of dat nu $30,- of het 1000-voudige is doet er bij deze bedragen niet echt toe.
Voor de training is toegang tot veel hardware nodig. Het gemene zit in het woordje "toegang". Men hoeft dus niet zelf alle hardware te kopen, maar kan dat ook lenen, leasen of men kan toegang krijgen tot hardware elders. Het is sterk afhankelijk van de relatie met de volkspartij, maar als die relatie goed is kan de toegang gewoon gevorderd worden. Met een goede relatie met de volkspartij is een flinke korting op de energierekening ook niet ondenkbaar.
Ik weet niet in hoeverre oude mining kaarten geschikt zijn voor training van AI modellen, maar daarvan slingeren er nog vele duizenden in China rond.

DeepSeek zegt zelf ook de training te hebben geoptimaliseerd. Het is niet ondenkbaar dat DeepSeek het trainingsalgoritme 25% (of meer) efficiënter hebben kunnen maken. Alleen al de volgorde waarin teksten worden toegevoegd kan al veel uitmaken. DeepSeek zal vermoedelijk begonnen zijn met Chinese (Mandarijn) teksten. Daar de opbouw van die taal eenvoudiger is dan het Engels kan dat al best veel schelen in de hoeveelheid benodigde hardware en energie. Doordat Mandarijn een karakter taal is, is de stap naar het herkennen en interpreteren van afbeeldingen kleiner en vermoedelijk efficiënter.

De gerapporteerde kosten kunnen in China gemakkelijk afwijken van de werkelijke kosten doordat er heel veel met een gesloten portemonnee geregeld wordt.
Het gaat in dit geval niet om de $30 maar dat ze het "aha moment" (reasoning) konden bereiken met $30 aan GPU credits. Ten minste voor een specifiek ondewerp.

Hier een interessante video er over: YouTube: DeepSeek R1 Replicated for $30 | Berkley's STUNNING Breakthrough Spa...
...en zelfs al zou je de volledige prijs zo tellen om het model te maken, dan nog spreken we over een fractie van de prijs van zowat ieder ander model.

In het midden gelaten dat hier een claim weerlegt wordt die DeepSeek nooit heeft gemaakt.

[Reactie gewijzigd door Loller1 op 3 februari 2025 10:25]

Nee, dat klopt fundamenteel niet. Het is niet alsof je een model van $30 kunt combineren met een ander model van $40, om zo voor $70 een gecombineerd model te krijgen dat beide taken kan doen. En dat is het grote probleem voor LLM's: ze worden beoordeeld op hoe goed ze het doen over een vrijwel onbeperkt domein. "Hoeveel A's zitten er in aardbei, wat is de hoofdstad van Nigeria en schrijf een sinterklaasgedicht".
Echter dat is exact wat deepseek revolutionair maakt. Ze gebruiken de vorige veries om de huidige te trainen, en op die manier een stuk minder mensenlijke input nodig te hebben (en makkelijker en dus goedkoper) te trainen
En dat is het grote probleem voor LLM's: ze worden beoordeeld op hoe goed ze het doen over een vrijwel onbeperkt domein. "Hoeveel A's zitten er in aardbei, wat is de hoofdstad van Nigeria en schrijf een sinterklaasgedicht".
Waarom is dat een probleem en geen uitdaging? Als je een "AI" enkel en alleen specifiek wilt trainen op één ding, dan noemen ze dat (al decennialang) simpelweg een algoritme. Dat heeft niks te maken met wij wij als 'artificial intelligence' beschouwen.
Nope. De klassieke AI is een schaakcomputer. 1 domein, maar AI en bepaald niet 1 algoritme. Goede kans dat die AI meerdere algoritmes gebruikte, zoals Alpha Beta Pruning.
Het is inderdaad niet zo sensationeel als het artikel het doet lijken. Maar gezien het feit dat de lage kosten het speerpunt was van de innovatie van DeepSeek is deze informatie zeker een interessante aanvulling om een beter beeld te krijgen van het het complete plaatje.
Dit "nieuws" is vooral bedoeld om de schade op de beurzen proberen te beperken.
Berkeley betreft wel een 3b parameter model.
Natuurlijk zal het volledige model nabouwen duurder zijn dan $30. Ze hebben dit gedaan om het concept te testen. Het is goedkoop genoeg om het model tekenen van reasoning te laten vertonen, dus het lijkt niet een absurde claim dat DeepSeek relatief goedkoop is.
Ja, het concept en de paper zijn denk ik niet omstreden.
Maar de tijd zal het leren wat betreft de kosten.
Voorlopig blijf ik bij Qwen 2.5 Coder.
Die trekt na wat pushen het meeste wat ik vraag wel. Wel traag, Maar goed.. lokaal.

[Reactie gewijzigd door MrMonkE op 3 februari 2025 16:27]

Waarom highflyer de investering gedaan heeft is niet eens van belang. Van belang is dat de hardware ter beschikking is gesteld van DeepSeek om het model te kunnen bouwen en trainen. Simpelweg zeggen dat die kosten niet in rekening gebracht mogen worden is ook gewoon foutief.

En Berkley bouwt weer verder op dat werk. Het is niet alsof zij ineens voor slechts $30 een heel model hebben ontworpen en getraind. Neen, ook daar is de kost een stuk hoger geweest. Voor $30 heb je niet eens een manuur betaald.
Stel deepseek maar een paar vragen over Taiwan het resultaat is eerst niks en daarna lijkt het op een ban.
Asmongold is er mee aan de gang geweest.

YouTube: So I Tried DeepSeek..
Je doet je naam eer aan. Wat maakt dat uit in deze discussie?
Highflyer is een bedrijf wiens core business niet AI betreft maar wel deze GPU's gebruikt. Zij hebben deze investering al gedaan en zijn vervolgens een side business begonnen om DeepSeek te ontwikkelen. Om dat te framen alsof de volledige investering nodig is om deze AI te ontwikkelen is onzinnig.
Als ik een auto koop als taxibedrijf en er vervolgens zelf mee naar Frankrijk rijd, kan ik toch ook niet zeggen dat de investering in die auto niet nodig was geweest om naar Frankrijk te rijden?
Je kan dan niet beweren dat je de hele fabriek hebt gebouwd en betaald om die ene auto te bouwen.
Een hit piece lijkt me? Volgens mij is het Westen bang dat China snel goedkope modellen kan blijven uitbrengen en dus investeringen mislopen die nu naar China zullen gaan en dus de AI-race en dus ook de machtspositie aan het verliezen is in de wereld.

[Reactie gewijzigd door freektech op 3 februari 2025 15:22]

Tja, je staat met ontwikkeling op de schouders van anderen. Als je een stoel in elkaar timmert dan geef je de kosten voor materialen op en de uren, maar niet de kleren die je op dat moment aan hebt, of de ledlampen die je erbij gebruikt, de stenen waarmee de ruimte waarin je werkt gebouwd is etc. Hoever terug moet je de kosten doorberekenen voordat je een kloppend antwoord hebt?

Waar leg je de baseline. Iemand met een een open source weights model kan deze verder trainen dmv reinforcement learning en de reasoning is dan een 'emerging' eigenschap van het resultaat. Maar ja er kan miljarden gespendeerd zijn om het initiële model te trainen. Neemt niet weg dat een gebruiker deze modellen kunnen gebruiken mits deze onder een licentie model vallen die dat toestaan, en veel van dat soort licenties staan dat toe.

Dat DeepSeek de eerste is die gebruik maakt van data van modellen die ze niet zelf hebben ontwikkeld, is slechts bijzaak.
Het bepalen van de kosten van DeepSeek is sowieso erg lastig omdat ze onder meer ChatGPT hebben gebruikt. Zonder die, en een aantal andere diensten, had DeepSeek niet kunnen bestaan. Dus directe kosten zijn wellicht relatief laag, de indirecte kosten niet.
We are confident that....
Het stuk is gebouwd op aannames zonder harde onderbouwing. Dat geven ze zelf ook duidelijk aan.
De waarheid zal ergens in het midden liggen zonder meer gegevens.
De media haalt er alleen de ´smakelijk stukjes´ uit zonder de context.

Lijkt me primair een goeie zet van SemiAnalysis haarzelf op de kaart te zetten en daarnaast de beurswaarde van Nvidia omhoog te pushen. En dat heeft zij hierbij prima gedaan.

Bron:
https://semianalysis.com/2025/01/31/deepseek-debates/
Hoe "veilig" is dat DeepSeek aangezien het Made in China gevalletje is? Niet dat ik de Amerikanen zo veel meer vertrouw hoor maar ja gewoon een vraag aan de meer technische mensen hier :)
Model is open source. Het model van onze Amerikaanse vriendjes is closed source.
Wat betreft publieke AI diensten moet je wel mee uitkijken.
Het model wel, de data die erin zit niet. Daarnaast heb je núl garantie dat de code die zij in de cloud draaien dezelfde is als dat je bekijkt.
Tot de 70 miljard parameters is gewoon te downloaden, en thuis offline te draaien
Dus het model en de data is opensource.

[Reactie gewijzigd door amigob2 op 3 februari 2025 10:12]

Sowieso is het niet opensource, want de trainingsdata is niet beschikbaar. Het is self-hostable, dat is wat anders.
Dat AI-techbros het woord open-source in hun belang proberen te her-definieren dat mag, maar het is gewoon niet waar.
Je haalt dingen door elkaar. Open source betekent dat de programmacode vrij beschikbaar is. Dat staat los van de data. Zie het als dat LibreOffice open source is (het programma), maar de documenten die je er mee maakt van jou zijn en niet meegeleverd worden bij anderen die het programma installeren. Zolang de code beschikbaar is, is het dus wel waar. Je moet nog steeds je eigen data er in stoppen. Het model komt helemaal leeg.
Die vergrlijking gaat maar deels op. Spellingscontrole en grammaticale controles worden meegeleverd in een gekozen taal. Dat is de tegenhanger vwb trainingsdata van een tekstverwerker.
Het punt bij 'open-source' LLMs is dat de weights gepubliceerd zijn.

Dit betekent dat jij zelf het model kan aanpassen naar eigen wens, zonder dat je het model zelf van de grond af helemaal moet opbouwen.

Een beetje zoals je dat kan met open source software...

Dat lijkt mij een redelijk standpunt.

Dat een model wel of niet self-hostable is heeft hier niks mee te maken verder.

[Reactie gewijzigd door ApexAlpha op 3 februari 2025 12:38]

Oh wacht de trainings data komt van het internet, dus ook open source. Je weet alleen niet welke.
En denk jij dat zij alle trainings data nog hebben, echt niet. ook niet bij ChatGPT

Dat is nu het probleem met copyright, als het met copy write data getraind wordt, kun je dat er niet meer uithalen. Dan kun je dus alleen nog maar filters toepassen op de vragen of de antwoorden
Oh wacht de trainings data komt van het internet, dus ook open source.
De broncode van Microsoft Windows is ook open source, want hij bestaat uit woorden die je op het internet kunt vinden, je weet alleen niet in welke combinatie...

En dat is nog er van uitgaande dat hij op alleen maar openbare (afhankelijk van de licentie is dat niet altijd open source) bronnen is gebaseerd. Als ze hem zelf hadden gemaakt zouden de communistische pamfletten wel een zwaardere weegfactor hebben gekregen, als ie op ChatGPT is gebaseerd dan is dat geen open source-data.
Broncode bij een model werkt niet helemaal hetzelfde. Met software kan je eenvoudig broncode zelf lezen, begrijpen wat het doet en het aanpassen. Dat kan niet bij zo'n model als je alleen de weights hebt - al zijn er wel technieken om bijvoorbeeld. afgeleide modellen te maken.

Als je zelf een nieuwe versie van het model wil maken, heb je de trainingsdata nodig, de methodologie en trainingscripts om het model te trainen. Dat is hier niet het geval. Alleen het model is beschikbaar.

Open source is dus niet echt de juiste term bij deze AI-modellen. Het is ook niet helemaal gelijk aan alleen een executable binary verspreiden. Open weights zou je het wel kunnen noemen.
Hoezo niet helemaal gelijk? het is naar mijn mening exact hetzelfde als de computerspelletjes van vroegah. Niets opensource, gewoon closed source met wat .ini files die je kan aanpassen. Leuk dat het tegenwoordig json's zijn maar conceptueel zie ik weinig verschil
Ja, feitelijk zijn het beide instructies voor een machine om iets uit te voeren.

Maar er zijn wel wat verschillen, bijvoorbeeld model distillation is mogelijk met LLMs, maar niet met software. En deassembly/decompiling en reverse engineering is mogelijk met executables/binaries (niet altijd toegestaan), maar niet met LLMS. Vandaar mijn 'niet helemaal gelijk'.
Precies. En misschien is het model wel gelijk, maar de implementatie van de API (vooral de responses natuurlijk) en alle scrubbing van antwoorden is zeker niet open source, naast de manier hoe ze daar om zullen gaan met data. Het model en de implementatie in de app/website/api is echt iets heel anders, en daar weten helaas teveel mensen niet het onderscheid tussen.
De meeste mensen zullen gewoon via de website/app gebruik maken van Deepseek en daarbij kun je ervan uitgaan dat de data bij Deepseek opgeslagen wordt. Er is een goede reden waarom er in verschillende landen (Incl NL) gewaarschuwd wordt voor het gebruik van Deepseek ivm privacy
Prima, maar de VS moeten we net zo min vertrouwen als China. Zeker met de huidige politieke ontwikkelingen wereldwijd.
Er is ook niemand die dat ontkent.
Ons social media en merendeels van ons IT infrastructuur zit in Amerikaanse handen.
Handen, maar gegevens worden niet altijd op Amerikaans grondgebied opgeslagen. Bij Microsoft kun je als bedrijf daarvoor kiezen. Dit om te zorgen dat de Amerikaanse overheid geen toegang heeft tot je (cloud) informatie.
Onder Patriot Act is alles mogelijk.
Patriot act is al een klein poosje niet actief.
Ga je eens afvragen waarom je dat dacht en waarom. Wie heeft je dat op de mouw gespeld en wat waren hun motieven.

[Reactie gewijzigd door dez11de op 3 februari 2025 13:11]

Het buitenland is fair game voor de inlichtingendiensten in de VS. Dat is al heel lang zo en het is ook al lang zo dat er op grote schaal data wordt verzameld dan wel toegang wordt verkregen tot data van diensten van Microsoft, Google, Facebook, etc. Dat is breed gepubliceerd.

In de EU sluiten we hiervoor de ogen (Schrems II arrest).

Ik zie geen noodzaak om te zoeken naar samenzweringstheoriën. Occam's razor.
Hij/zij bedoelt de Cloud Act. Verder klopt het, Amerikaanse overheid kan data opvragen van Amerikaanse bedrijven, zelfs als het in een Europees datacenter zit.
Ze zouden ook moeten waarschuwen voor ChatGPT / CoPilot etc. Ik vind al die data naar Amerika sturen minstens zo een groot risico als het naar China sturen.
Mogelijks niet zo publiek, maar dat gebeurt ook, zeker ChatGPT is nogal een "gevaarlijke" supplier. Microsoft daar hangt iedereen toch al aan ... mogelijks zijn ze in dat opzicht ook wat "veiliger".
DeepSeek is in realiteit niet "open source", eerder te beschouwen als "open weight".

Veelal zijn, ook de Amerikaanse modellen, vorm van "open weight", onafgezien van modellen van Open AI.
Dit dus. Geen enkel model is open-source, want niemand weet hoe ze werken. :) Dat wil zeggen dat we niet weten wat voor bagger gelijk welk model zou kunnen uitspuwen, alleen dat we kunnen constateren dat het soms goeie dingen uitspuwt.
En niemand weet welke rauwe data het op getraind is, buiten het bedrijf zelf.
Zoals al eerder hier langs kwam, niet heel veilig. is zo lek als een mand
nieuws: Beveiligingsonderzoekers ontdekken openstaande database van DeepSeek
Is gefikst dus nu is het wel veilig of niet ?
Ik denk dat je veiligheid eerder als reputatie moet zien, zo'n problemen tonen hoe intern omgegaan wordt met veiligheid. Niet bijster goed dus.
Ja, dit probleem is opgelost. Maar veiligheid is een kwestie van beleid. En een database open laten staan is toch wel een teken van zeer slecht veiligheidsbeleid.
Het is open source beschikbaar en dat is voor veel toepassingen heel mooi.

De app is niet GDPR-compliant en ze geven ook geen garanties over wat ze doen met de prompts die jij opstuurt, dus logging van alles dat je doet is waarschijnlijk en ze kunnen dat in de toekomst voor training gebruiken. Wellicht verandert dit in de toekomst maar nu moet je daar rekening mee houden.
Ze doen exact het zelfde als alle andere AI. Pakken wat je pakken kan. En het liefste gratis.
En waar de AI draait of wie de eigenaar is maakt daarbij niet uit.
De vraag was of het veilig is. Veel licenties geven wel degelijk garanties dat jouw data niet voor training gebruikt wordt en tools die in Europa worden aangeboden horen ook gewoon GDPR-compliant te zijn.

Ik ben het er mee eens dat er een reeks aan ethische overwegingen zijn om de meeste grote modellen helemaal niet te gebruiken.
Te veel informatie hierover om in een kort comment te beschrijven maar in de volgende artikelen kun je aardig idee krijgen over de problematiek rondom DeepSeek:

https://blog.qualys.com/v...k-tests-by-qualys-totalai
https://www.euronews.com/...d-safety-gaps-study-warns
https://hiddenlayer.com/i...ity-risks-of-deepseek-r1/

Er zal ook wel een verschil zijn tussen het gehoste model waar de app in de meeste Appstores nu gebruik van maken en eventueel je eigen open source versie te gebruiken. Ik denk echter dat de realiteit is dat de meeste mensen niet een eigen versie gebruiken maar daar daarmee zou een groot gedeelte van de risico's kunnen wegvallen. Tegelijkertijd is waarschijnlijk een lokale versie daarintegen weer een stuk minder geavanceerd als de gehoste versie dus hoe dan ook moet daar een onderscheid in worden gemaakt.

[Reactie gewijzigd door banggun op 3 februari 2025 10:28]

Dit blijf ik lastige zaken vinden. Er wordt wezenlijk op zelfcensuur voor AI-modellen gemeten. Nou snap ik, dat het in de basis een goed idee is, om een publieke API niet makkelijk blogs te laten schrijven, over hoe geweldig het is om een mes in je geslachtsdelen te steken of over de verheerlijking van eetstoornissen en dit soort zaken.
Dit soort zaken kunnen voor serieuze problemen zorgen.

Maar de 'censuur-stand' (even bij gebrek aan betere term van mijn kant) staat bij sommige modellen wel heel erg strak afgesteld. Vooral op het moralistische vlak.

Ik was een tijdje terug bezig met ChatGPT om 'samen' een verhaal te schrijven. Even benieuwd wat door uit komt. Ik wilde een karakter een ander karakter manipuleren om iets te laten doen. (Dus ik (eerste persoon) manipuleer de tweede persoon, om de derde persoon iets te laten doen)). Dit liet het systeem niet toe. Het systeem stelde voor dat ik vertrouwensrelatie moest opbouwen met de tweede persoon om het dan maar netjes aan de derde persoon te vragen.

Het ging geen page-turner worden zegmaar ;) - Het blijft allemaal heel netjes en proper.

In mijn concrete voorbeeld. Is dit gewenst gedrag van een AI? Ook als ik het de opdracht geen of een stuk fictie te laten schrijven? En zo ja of nee, waar trek je de grens. Er zijn heel duidelijk zwartwitte vlakken, maar het grijze gebied is nog erg breed hierin, vind ik.

Op basis van mijn ervaring met ChatGPT heb ik bovenstaande bij meerdere modellen geprobeerd en ze doen het eigenlijk allemaal ongeveer hetzelfde. Het grappige is, is dat als je dezelfde modellen zelf thuis host, dat je dan kunt doen en laten wat je wilt. Je kunt de verwerpelijkste dingen laten schrijven, zonder enige vorm van harde tegenspraak.
Het lijkt er dus voornamelijk op dat het niet zozeer het taalmodel zelf is, maar de aansturende app die de beperkingen niet goed oplegt.
Je kunt het zelf draaien op je hardware, al is dat bij het echte R1 model nog niet voor consumenten weggelegd. Ik zou zeggen even veilig als andere modellen.
R1 is tot en met de 14 miljard parameters goed te draaien thuis
Dat is niet het echte R1 model, dat zijn andere moddelen getrained op de output van R1.
Het is opensource, er kunnen prima 'gerichte antwoorden' in zitten zoals andere het ook hebben (haha, Google), maar backdoors en dat soort zaken kan je gewoon zelf monitoren.
Dat laatste kan ook bij closed source.
Alles wordt gebruikt en opgeslagen voor training en kwaliteits doeleinden. Net als bij de Amerikanen.
Het model an sich is niks mis mee, buiten dat het model 'politiek correct' antwoord, vanuit een Chinese context. Als je het model lokaal draait is er niks aan de hand, buiten achtzaam zijn voor misinformatie (like usual met LLM's).
De webapplicatie zou ik niet gebruiken, daar jouw data die gebruikt wordt om de webapplicatie te draaien in China wordt opgeslagen. Dit zijn geen andere permissies dan bijv. voor een OpenAI ChatGPT, alleen de data (sessie informatie en prompts) worden in China opgeslagen.
Met elk systeem geld, het is zo veilig als wat je erin stopt en wat ze aangeven in hun algemene voorwaarden wat ze ermee doen.

Dus stop jij je medische dossier erin, en later duikt dat ergens anders op, dan kan dat vervelend zijn.
Vertel jij dat systeem alles over jezelf en vervolgens lekt dat en iemand gebruikt dat voor phishing, kan dat ook vervelend zijn.
Maar, dat geld voor elke partij die data over jou verzameld en gebruikt, of het nu China, de VS of ergens anders is.

Waarom zou China in theorie meer problemen geven, dat is als jij ideeën hebt die daar tegen de wetgeving is, die kans is kleiner met de wetgeving in de VS. Zou je vervolgens daarheen op vakantie willen kan het bijvoorbeeld een probleem met je visa kunnen opleveren. Of stop je er bedrijfsinformatie in kun je opeens een concurrent hebben die jou goede idee gekopieerd heeft.
Overigens verzamelen de Amerikanen ook dit soort informatie en gebruiken dat, hun tech biljardairs hebben niet voor niets 'toevallig' bijna alles in handen.

Kortom, denk na waar je iets voor gebruikt en wat ermee zou kunnen gebeuren als dat verder bekent wordt. Dan maakt het verder niet uit of je een dienst uit het ene of andere land gebruikt. Gebeten wordt je sowieso wel.
Het is net zo veilig of onveilig zoals je wilt. Zolang je niets vertrouwelijks in dat systeem propt kun je alles prima gebruiken.
Zelf gebruik ik beide voor Open Source ontwikkeling zoals ‘ hoe zat dat ook al weer met z’n JavaScript array en dan een map doen’ omdat ik weinig JS weet ik dat soort dingen vaak niet uit mijn hoofd. En meer voor dat soort dingetjes. Maar ik ga er niet mijn financiële situatie in doen, of bedrijfs geheimen. Beide OpenAI en DeepSeek zijn net zo onveilig…
Ps: ze zouden OpenAI nu eens moet hernoemennaar ClosedAI, dat zal wel niet zo lekker klinken….
dat de Amerikanen niet vertrouwen zijn heeft Snowden al bewezen. Als je deepseek lokaal draait is het 100% veilig. Dat zal wel een quantified model moeten zijn met minder parameters, tenzij je ergens een ton hebt liggen om hardware aan te schaffen die het volledige model kan draaien.
ik draai de 14B versie op een laptop.
Die ton heb je niet nodig hoor, zolang je genoeg ram hebt kom je een eind. Tuurlijk is het niet razendsnel, maar je draait dit prima op oudere server hardware met voldoende ram. Op internet al wat voorbeelden gezien van machines van 2-3k die hier geen moeite mee hadden.
Ermm, nee.
YouTube: Deepseek R1 671b Running LOCAL AI LLM is a ChatGPT Killer!

Als je de 671B parameterversie in ram op je cpu'tje gaat draaien ga je HEEL veel geduld nodig hebben. Toegegeven, het hoeft niet duur te zijn als je oude hardware gebruikt, maar tenzij je voor elke vraag een uur hebt om op het antwoord te wachten is het nutteloos.
Net als made in USA bedrijven verzamelt het grote hoeveelheden data (voor training.)
Hoe veilig zijn onze computers en smartphones aangezien alles made in China is?
Hoe "veilig" is dat DeepSeek aangezien het Made in China gevalletje is?
Tja, wat is "veilig".. Als je zeer gevoelige vragen stelt of antwoorden wilt, gezien de recente berichtgeving, zou ik dat niet direct als veilig beschouwen.
Gebruik je het louter voor onschuldige zaken, tja, wie boeit het zou ik dan denken.
Dit klinkt zo als afgunst. Omdat een chinees bedrijf dit heeft kunnen maken met minder budget/hardware, gaan ze maar op zoek om iets om ze op aan te merken/pakken.
Het is geen afgunst. De claim van DeepSeek over het budget gaat 1) over V3 en niet R1 en 2) zegt zelf (https://arxiv.org/pdf/2412.19437) dat het puur over de finale training gaat in een situatie waarbij de GPU's gehuurd zouden worden. De realiteit is dat alle ontwikkeling voorafgaand aan V3 (dus V1 en V2) ook meegewogen moet worden, de aanschaf en inrichting van een data-center, het inkopen van kennis en kunde en de ontwikkeling en training van R1 zelf ook, waarover geen gegevens naar buiten zijn gebracht. Het artikel doet een best-guess en doet dat best goed imho. Wat DeepSeek doet is impressive, maar dat ze daarvoor slechts 5,6 miljoen dollar nodig hebben gehad is een uit z'n verband getrokken cijfer dat nu overal geroepen wordt.
Waarom zou je een heel datacenter aanschaffen voor 1 training? Die kosten zijn uitgesmeerd over vele projecten en kan je dus niet volledig toekennen aan deepseek.
Je schaft ze ook niet aan voor 1 training. OpenAI heeft bijvoorbeeld alleen al 4o, o1 en o3 in 2024 getraind. En ook voor development-checkpoints en verschillende branches zul je moeten trainen en je zult moeten inference-testen, waardoor je eigenlijk permanent het cluster op volle kracht hebt draaien. DeepSeek heeft in 2024 ook 3 modellen getraind: V2, V3 en R1 en heeft daarvoor ook alle ontwikkeling gedaan. Volgens Semi Analysis delen ze de cluster met High-Flyer. Een cluster dat al voor de import-restricties grote investeringen heeft gedaan in de aankoop van Nvidia GPU's: https://semianalysis.com/...ebates/#the-gpu-situation.

[Reactie gewijzigd door mOrPhie op 3 februari 2025 15:26]

Of het Chinees bedrijf was niet helemaal eerlijk? Niet zo'n onvoorstelbare gedachte.
Of het Chinees bedrijf was niet helemaal eerlijk? Niet zo'n onvoorstelbare gedachte.
Of de VS is niet helemaal eerlijk? Niet zo'n onvoorstelbare gedachte.

We weten van allebei dat ze geen problemen hebben met wat leugens.

Ik zie/hoor dat de overheid van de VS, Microsoft en OpenAI allemaal zeggen dat DeepSeek getraind werd op hun modellen.
Maar is er hier eigenlijk bewijs voor geleverd? Want ik heb dat tot nu toe nergens gevonden.
Het enigste dat ik vind, is dat OpenAI gezegd heeft dat er wel "heel veel API calls" uit China kwamen, de laatste maanden.
Zonder bewijs, zonder aan te tonen dat die calls van DeepSeek servers kwamen.
Heeft er hier iemand beter bewijs voor gevonden?
Het één sluit het ander niet uit.
Zonder bewijzen is het allemaal maar gebakken lucht
Naja, Nvidia is er 546 miljard aan beurswaarde door kwijtgeraakt. Dus wat is dan de waarde van zo'n onderzoek hé 8)7
Tja, ten opzichte van wat? Ten opzichte van september staan ze nog altijd 300 miljard in de plus en ten opzichte van februari '24 zijn ze nog steeds verdubbeld. En dat alles terwijl in juli-augustus '24 ze ook een keer 30 dollar per aandeel verloren (bijna 400 miljard beurswaarde). Wat dat betreft is het aandeel van nvidia momenteel veel te volatiel voor dergelijke conclusies.
Nvidia is zijn huidige koerst al niet waard. Die 546 miljard is een correctie, maar niet een die hard genoeg is. Ergens ligt de verwachting dat we Nvidia nodig hebben in de toekomst, net zoals dat we dachten dat we voor eeuwig op walvissen zouden jagen.
Dus in totaal 2.1 miljard dollar tot nu toe..
Titel: DeepSeek R1-model heeft meer geld gekost om te trainen
Meer geld gekost dan wat? Dan eerder gecommuniceerd? Dan verwacht? Dan het gaat opleveren?
"Dan eerder gecommuniceerd"
Dan dat DeepSeek heeft geclaimt: https://arxiv.org/pdf/2412.19437.

Echter gaat de claim over V3 en -NIET- over R1.
Volgens het analysebureau geeft DeepSeek enkel het kostenplaatje van de officiële training vrij, zonder de aanverwante kosten te hebben vermeld.
Eh dat is ook wat in de paper vermeld wordt door DeepSeek zelf? Snap de ophef niet? Ongelofelijk hoe de propaganda op volle toeren draait zodat gebruikers geen DeepSeek kunnen gebruiken “met een goed gevoel”. Waarom wil men het gewoon niet accepteren dat deze slag (niet de oorlog) is gewonnen door de Chinezen? En nu weer door! Maar nee de Amerikanen zijn blijkbaar een stelletje crybabies die niet tegen hun verlies kunnen.
Ik heb DeepSeek geprobeerd en kreeg het idee dat het is getraind om ChatGPT (o.a.) te emuleren, en niet is gemaakt op dezelfde technologie. Merkte dat vooral toen de vragen wat ingewikkelder werden. Ook veel rare antwoorden. Bij één vraag kreeg ik een compleet antwoord uitgetypt en toen hij net klaar was verdween het en stond er "Laten we het over iets anders hebben."

Mooi en interessant, misschien dat er wat lessen uit te halen zijn maar het is duidelijk nog geen echte competitor. Over de kosten, het zal wel. Iedereen weet dat Chinese bedrijven het kwa (internationale) wetgeving veel makkelijker hebben met liegen dan Amerikaanse, die dat ook doen. Neemt niet weg dat Chinezen uiteraard succesvoller kunnen zijn. Er zijn een hoop binnenlandse voordelen die een Chinees bedrijf wel kan hebben t.o.v. "Westerse."

[Reactie gewijzigd door Arcticwolfx op 3 februari 2025 10:39]

Ook gezien. Vragen over Oeigoeren en Tianamen square worden gewoon voor je ogen verandert.
Net zoals chatGPT ook bepaalde "gevoeligheden" vermijdt.

Ze doen het allebei. Zeer irritant. Zeker als het over algemeen aanvaarde geschiedenis gaat.
Het lijkt lastig om het totale kostenplaatje te berekenen voor het trainen van het DeepSeek model.
Als het bedrijf achter DeepSeek wordt geholpen door de Chinese overheid (wat heel goed zou kunnen), dan zullen ze dit nooit toegeven. De Chinese overheid heeft er namelijk baat bij dat de reputatie en of betrouwbaarheid van Amerikaanse bedrijven zoveel mogelijk wordt geschaad. De AI markt is ook een propaganda oorlog tussen 2 grootmachten.
En jij denkt dat dat aan de amerikaanse kant anders is? Hoeveel miljarden de VS regering in OpenAI gestopt heeft voir defensie is ook niet bekend.
Je mist het punt. China doet er alles aan om de beeldvorming te creëren dat zij zelf alles beter/goedkoper kunnen doen dan de rest van de wereld. Niemand in de VS zal ontkennen dat de ontwikkeling van AI heel veel geld heeft gekost.

Op dit item kan niet meer gereageerd worden.