Beveiligingsonderzoekers ontdekken openstaande database van DeepSeek

Beveiligingsonderzoekers van Wiz hebben een openstaande database van DeepSeek ontdekt, waarin een miljoen regels aan data stonden met daarin onder meer geheime sleutels en chatgeschiedenis. De database is inmiddels offline gehaald.

Het Chinese bedrijf DeepSeek bracht eerder deze maand zijn R1-taalmodel uit, dat moet concurreren met het o1-taalmodel van OpenAI. Kort na de release van dit model besloot beveiligingsbedrijf Wiz om de beveiliging van DeepSeek te onderzoeken, schrijven de onderzoekers in een blog. "Binnen enkele minuten vonden we een publiek toegankelijke ClickHouse-database die was gekoppeld aan DeepSeek, die volledig open en niet-geverifieerd was en gevoelige gegevens openbaar maakte."

De database bevatte volgens de onderzoekers een miljoen regels aan data met daarin geheime sleutels en backenddetails. Daarnaast bevatte de database chatgeschiedenis van gebruikers met daarin dus ook prompts die gebruikers naar de AI-assistent gestuurd hebben. De onderzoekers stellen dat het misschien ook mogelijk was om plaintextwachtwoorden en lokale bestanden te achterhalen via een SQL-commando, maar dit hebben ze niet daadwerkelijk uitgeprobeerd.

Wiz heeft het probleem bij DeepSeek gemeld. Ami Luttwak, cto en medeoprichter van Wiz, zegt tegenover Reuters dat de database binnen een uur offline werd gehaald door DeepSeek. "Maar dit was zo eenvoudig te vinden, dat we niet denken dat wij de enigen zijn die het gevonden hebben." DeepSeek heeft nog niet op de bevindingen gereageerd.

Door Eveline Meijer

Nieuwsredacteur

30-01-2025 • 09:27

96

Submitter: Jerie

Lees meer

Reacties (96)

Sorteer op:

Weergave:

Iedereen doet hard hun best alles van Deepseek in diskrediet te brengen. Voor een “hobbyproject” hebben ze ongelofelijk goed werk geleverd en de hele industrie te kakken gezet.

Kleinigheidjes hou je toch :)

Zou overigens geen data delen met welke AI dan ook die je normaal ook niet zou delen met de wereld.
Hobby project? Geloof jij werkelijk het verhaal dat dit een side-project was? Ik wil best geloven dat er hele slimme mensen bestaan, ik wil best geloven dat één van die mensen in China het concept zelf verzonnen heeft en dat het conceptueel een andere insteek heeft maar:
  • Er zijn sancties op GPU's, als ze die omzeilen gaan ze dat echt niet verraden door het werkelijk aantal GPU's te vermelden (wat ze vertellen en wat is zijn twee verschillende dingen);
  • Het zou heel goedkoop zijn ontwikkeld, dat geloof ik ook wel omdat in China geen licenties/rechten hoeven te worden betaald;
  • Privacy in China is anders als in Europa dus het gebruik van enorme bronnen aan data, maken een nieuwe algoritme meteen heel wijs.
Prestige is voor China heel belangrijk, propaganda om de westerse wereld in diskrediet te brengen is een doel op zich. Geloof niet alles wat je leest.
Normaal zou ik je gelijk geven, maar hier is het jammergenoeg overduidelijk. Het model en de trainingsmethodes zijn open source, er is geen ding dat ze achterhouden waardoor het beter lijkt dan het is. Het enige wat ze achterhouden is de data waarop ze hebben getrained (dat doet iedereen op planeet aarde want het is zoveel data dat je sowieso miljoenen licenties schend). Je kan het louter nagaan en zien dat het correct is.
Het is sneller en goedkoper door echt intelligente beslissingen die niemand in heel het westen zich heeft kunnen voorstellen. Dat kun je NU nagaan door het model te downloaden en lokaal te runnen. Er is geen "hidden" methodologie, geen geheim dat ze achterhouden, geen NVIDIA GPUs waar ze niet over kunnen praten.

Maarja sorry voor je aandelen in NVIDIA, gaat zeer waarschijnlijk binnenkort weer hard omhoog hoor!
Geen ding?
review: Een Chinese AI-dienst, hoe werkt dat? - DeepSeek vs. ChatGPT o1 en Go...
De Chinese AI-dienst DeepSeek gaf uitgebreid antwoord op mijn vraag, een vraag waarvan iedereen weet dat die politiek gevoelig ligt in China.
Tuurlijk houden ze dingen achter, anders zouden ze niet actief monitoren; wat je niet weet betekent niet dat het niet zo is. China is een hoogontwikkeld land, wij plaatsen onszelf altijd op het hoogste podium en kijken naïef naar beneden; ik ben bang dat de werkelijkheid al omgekeerd is en dat de Chinezen op heel veel fronten ons allang voorbij zijn.

[Reactie gewijzigd door hamsteg op 30 januari 2025 10:27]

Dat kun je toch niet concluderen op basis van het model? Het model is een al samengesteld iets. Het gaat juist om de training, het samenstellen van het model. Vergelijk het met downloaden van source code versus een binary executable.

Maw hebben ze voldoende informatie vrij gegeven om onafhankelijk het zelfde model te trainen. Aangenomen dat je ongeveer dezelfde bron-data gebruikt.

Ik heb er niet voldoende verstand van, daarom is het ook meer een vraag dan een opmerking.
DeepSeek heeft geen miljoenen licentie-overeenkomsten, dus ze kunnen niet eens miljoenen licenties schenden.

Dit is een kritieke juridische misvatting. Copyright licenties beginnen met copyright als basis. Maar AI training is niet voorzien in de internationale verdragen over copyright. China kan simpelweg zeggen dat er geen licenties nodig zijn voor het trainen van AI, en dan hebben ze volgens de verdragen een punt.
Ik begrijp deze argumenten niet zo goed:
  • Het zou heel goedkoop zijn ontwikkeld, dat geloof ik ook wel omdat in China geen licenties/rechten hoeven te worden betaald;
  • Privacy in China is anders als in Europa dus het gebruik van enorme bronnen aan data, maken een nieuwe algoritme meteen heel wijs.
Want je doet nu net alsof OpenAI en andere gelijke oplossingen licenties/rechten en privacy wel hoog in het vaandel hebben staan. Terwijl volgens mij genoeg te doen geweest is over het feit dat deze bedrijven alles bij elkaar scrapen om die modellen maar te trainen.
Informatie - "leren" - daarvoor heb je bronnen nodig. In het Westen is het gebruik van bronnen aan regels onderhevig en moet je licenties moet betalen om gebruik te mogen maken van specifieke bronnen, China kent die regels niet.
Wij ook bijna niet. De westerse LLM-makers hebben ook alles gratis ingenomen: het internet in het algemeen (bijna elke tekst heeft auteursrecht en veel teksten bevatten persoonsgegevens), academische bronnen die niet voor commercieel gebruik waren, en bronnen uit piraterij zoals die grote verzamelingen van boeken. Ze nemen ook graag elkaars output over.

Pas later zijn bedrijven zoals OpenAI hier en daar licenties gaan afnemen bij content-producenten, toen die content-makers druk gingen zetten en het imago op het spel stond. Zelfs toen zijn de eerdere modellen en datasets niet verwijderd of gestopt, dus ook het westen heeft gewoon cowboytje gespeeld. En doet dat waarschijnlijk nog steeds grotendeels.

Dit kan dus geen sterk argument zijn tegen China of DeepSeek. De AI-hype heeft zoveel geld achter zich dat regels en normen overal aan de laars gelapt worden. En wanneer er wel boetes volgen, dan zijn die erg laat, en bijna altijd te laag om het gedrag echt te bestraffen of stoppen.

Scepsis lijkt mij de juiste instelling, zowel richting de Amerikaanse tech-sector als de Chinese. Deze hele AI-hype verpest de kwaliteit van het internet, zit vol fouten en misinformatie, lege hype en hysterie, en het energiegebruik is enorm. Per saldo is de toegevoegde waarde veel lager dan de schade. En als het plan helemaal slaagt dan zijn we allemaal onze baan kwijt zonder vervangend economisch model. Dus het is nadeel op nadeel voor het gewone volk en voor de wereld, zoals het nu gaat. Dat moet allemaal verbloemd worden met mooie praatjes; laten we er niet zomaar volledig in mee gaan.
Idd.
Toch bijzonder dat we bang zijn dat de AI ons zou kunnen 'overvallen' terwijl het zoals gewoonlijk, de big-tech is die het [=AI] gebruikt voor vooral haar eigen gewin (zonder daarvoor netjes te betalen - voorheen deden ze net zoiets met persoonsgegevens...) en als het ze lukt, dan zijn weer de gewone mensen de klos.

Het is dus niet de AI waar we bang voor moeten zijn maar degenen die het (nu) gebruiken. Ik vermoed dat het daarna overheden zullen zijn die AI zullen (mis)bruiken.
Het was inderdaad een wild-west toestand, simpelweg omdat copyright niet voorzag in AI. Copyright wetgeving verbiedt sommige acties, maar andere acties zijn toegestaan. Je mag een boek niet kopiëren maar wel lezen, ook zonder toestemming van de auteur. Valt "AI trainen" onder kopiëren of onder lezen?

Uiteindelijk is dat een beslissing voor rechters - meervoud. Chinese rechters hoeven niet tot dezelfde conclusie te komen als Europese rechters. Voor persoonsgegevens geldt dat evengoed.
Mijn punt is dat ChatGPT en vergelijkbare modellen ook niet getrained zijn op 100% gelicenseerde data. Je kan regels hebben maar daadwerkelijk handhaven zijn verschillende zaken. Dan kan je wel de moraalridder gaan uithangen maar concreet is er eigenlijk geen verschil tussen de situatie in China en die in het westen.

We moeten niet closed source westerse modellen de hemel in prijzen. Die zijn ook problematisch.
Nu leg je mij woorden in de mond, ik ben realist geen moraalridder en ik prijs nergens closed source aan dus doe dat ook niet voorkomen alsof. En er is wel degelijk een verschil tussen het Westen en China anders zouden we niet zo panisch op elkaar reageren.
En, in het westen kun je je eigendom via recht halen. Dat recht erkennen ze daar niet begreep ik
En, in het westen kun je je eigendom via recht halen. Dat recht erkennen ze daar niet begreep ik
Nah, zo zwart-wit moet je het niet zien. Ook in China is er gewoon eigendom en recht. Wel is het zo dat de prioriteiten en accenten nogal anders zijn. De wensen van Westerse bedrijven staan niet heel hoog op die prioriteitenlijst. Volgens mij is dat andersom niet veel anders. Kijk bijvoorbeeld hoe onze olie-industrie heeft huisgehouden in Nigeria. Bedrijven doen alles waar ze weg mee kunnen komen. Niet allemaal, maar er is altijd wel één dat wel te ver gaat.

Je recht halen is hier ook niet altijd eenvoudig. Grote bedrijven beinvloeden de wetgeving in hun eigen voordeel en kunnen de beste juristen betalen. De paniek over eigendomsrecht is vooral iets voor grote bedrijven die hun marktaandeel willen vasthouden in stabiele markten. In nieuwe markten maakt zich druk over eigendom of rechten want de markt groeit snel genoeg dat ze allemaal lekker verdienen. Dan ga je geen tijd en geld besteden aan juristen en rechtzaken die jaren duren. Mocht het nodig zijn dan betaal je achteraf de boete als je eenmaal rijk en succesvol bent.

Dat is precies wat ik de hele AI-markt zie doen. Iedereen wil snel mogelijk groeien en en neemt goede ideeen van elkaar over (met die aantekening dat universiteiten nog steeds de drijvende kracht zijn achter fundamenteel onderzoek in innovatie). Nu de eerste ronde voorbij is beginnen de winnaars van de eerste ronde te klagen over hun eigendom en hun rechten om de concurrentie van de markt te verdrijven.

In China gaat dat ook zo en komt er steeds meer aandacht voor "intellectueel eigendom" naarmate bedrijven groter worden en er minder ruimte is voor groei.

Er zijn zeker verschillen tussen China en het westen maar op dit gebied denk ik dat zakelijk opportunisme de beste verklaring is, meer dan culturele verschillen. Dat laatste is belangrijk omdat ik geen bedrijf ben. Als consument heb ik weinig aan rechten van bedrijven, die worden vooral tegen mij gebruikt. Ik ben niet tegen het idee dat je bescherming geeft aan innovatie en ontwikkeling zodat mensen hun leven daar aan kunnen wijden maar in praktijk staan we daar ver van af.` Ik voel dus weinig sympathie voor die bedrijven en hun rechten.
Ik doelde niet op jou persoonlijk. Het was gericht op het feit dat we om een of andere reden de westerse bedrijven aan een andere standaard houden dan die uit China.
Alle data van AI is gestolen. Er lioen talloze rechtzaken tegen open AI omtrent het gebruik van data zonder ervoor te betalen.
Precies - die lopen, en er is nog geen jurisprudentie dat er een licentie nodig is c.q. dat gebruik zonder licentie een schending is van copyright wetgeving.
Het is nog maar de vraag of en wat voor licenties er nodig zijn, het juridisch steekspel om dat te bepalen is nog in ontwikkeling.
(...)
Prestige is voor China heel belangrijk, propaganda om de westerse wereld in diskrediet te brengen is een doel op zich. Geloof niet alles wat je leest.
En dat niet alleen; ook het uit de markt drukken prijzen van concurrentie is haast een doel op zich. Vergelijk het maar met de markt voor smartphones, zonnepanelen, elektrische auto's, enz.
Het woord hobbyproiect staat niet voor niets tussen aanhalingstekens. Er mag dan wel veel geld en tijd in gestoken worden om bijvoorbeeld te verdienen, maar dat maakt het juist niet zomaar erg professioneel of geschikt voor handel en algemeen gebruik. Wat overigens wel voor meer situaties op gaat waar bedrijvigheid is. Er lekken dagelijks miljoenen aan gegevens en er worden ook dagelijks miljoenen gegevens door onwil en onkunde verwerkt om er vooral zelf waarde uit te halen.

[Reactie gewijzigd door kodak op 30 januari 2025 10:32]

Een hobbyproject is natuurlijk onzin, maar volgens mij zijn licenties/rechten van een llm maar een fractie van de kosten. Voor de echt grote taalmodellen van de grote spelers (gpt4, gemini ultra) gaat het gros van de kosten zitten in het trainen van het taalmodel, waar ontzettend veel dure hardware en tijd op die hardware voor nodig is. Denk in de orde van tienduizenden systemen met 4090 level GPUs die een paar maanden lang volle kracht staan te stampen. Dat kostenplaatje kan zomaar 100-200 miljoen dollar zijn.

En die training hebben ze bij Deepseek blijkbaar slimmer aan kunnen pakken. Ook hebben ze het uitvoeren van queries blijkbaar veel efficienter weten te maken. Ik vond de uitleg in deze video van Computerphile wel verhelderend en goed te begrijpen. Uiteraard baseren zij zich ook op de informatie die Deepseek zelf heeft gepubliceerd, dus we zullen wel moeten afwachten hoeveel van die claims echt waar zijn. Maar de principes lijken niet volledig nieuw, en het was een kwestie van tijd voor er spelers als Deepseek opstonden die het beter/slimmer/efficienter konden dan de 'brute force' methode van de huidige big tech llms, ergo 'we proppen gewoon 700 miljard parameters in een model en dan kan het elke vraag aan'.

[Reactie gewijzigd door PhWolf op 30 januari 2025 10:33]

Het kan best waar zijn, als je een enorme GPU farm hebt maar AI is niet je core business dan zijn er maar wat AI researchers die met je willen werken als je compute over hebt. Heb zelf een voorbeeld in het klein. Er is iemand wiens werkgever 8 A100's heeft. Heel soms in rustige periode mag hij dat cluster van zijn baas prive gebruiken zolang hij maar niets verstoord als ze het zakelijk nodig hebben. Daar zijn al meerdere kleinere finetunes uit ontstaan.

Dan ken ik weer een ander bedrijf welke aan mining GPU verhuur doet en een nieuwe site heeft gebouwd voor AI GPU verhuur. Want GPU's zijn nou eenmaal aantrekkelijk voor beide.

Een mining bedrijf die een AI devisie op zet is dan ook helemaal niet gek en de technieken die ze gebruiken zijn mij ook niet onbekend. Ze hebben naar mijn weten bestaande technieken gewoon goed gebruikt. MoE's hadden we al met Mixtral en RLHF is ook niet nieuw. Deepseek heeft die concepten gewoon heel goed ingezet en een grotere MoE gebouwd dan we hadden.

Dus geloof ik het? Ja het lijkt me best waarschijnlijk maar "hobby project" lijkt me niet de term. Eerder zuster tak van een niet AI bedrijf. AI was de core business niet, nu waarschijnlijk wel door hun success.
Je doet net alsof het westen niet alles doet om China in discrediet te brengen. Geloof niet alles wat je leest inderdaad.
In China specifiek vind ik het geloofwaardig, want daar leven echt letterlijk meer dan een miljard mensen. Uitstekende kans dat juist daar een talented mr. Ripley van vlees en een klein beetje bloed rondloopt.
Ik zie niet in waarom ze de industrie te kakken hebben gezet. Sterker nog: het is grotendeels gebaseerd op juist de andere grote taalmodellen. Zonder die eerste data had DeepSeek nooit kunnen zijn wat het nu is, en is het nog steeds niet de "beste" AI die er is.

Daarnaast zou het goed zijn al men toch wat meer behoudend zou zijn in het gebruik van Chinese producten en diensten. Want enerzijds roept iedereen hier moord en brand dat bedrijven zich aan de AVG moeten houden, maar nemen aan de andere kant doodleuk diensten (en/of producten) af in landen waarbij privacy geen enkele rol speelt.

[Reactie gewijzigd door Saven op 30 januari 2025 09:52]

Ik kom uit de tijd dat iedereen in het telefoon boek stond en alleen mensen die zich zelf heel bijzonder of belangrijk achten een geheim nummer hadden (en dus niet in het telefoonboek stonden). Die boeken werden iedere zo veel tijd in de brievenbus gepropt en je kon op basis van achternaam iedereen in de stad vinden met huis address en telefoon nummer.
Nu is dit soort data eventueel delen met een ander gevaarlijk en moet vooral voorkomen worden zeker als die entiteit uit een ander land komt en al helemaal als deze uit een ver weg land komt.

Ik ben het met je eens dat als je je heel erg graag aan de lokale wetgeving wil houden en je er op wil kunnen beroepen dat je dan niet van buitenlandse diensten gebruik moet maken omdat die zich nu eenmaal aan andere wetten moeten houden dan Nederlandse bedrijven.
Aan de andere kant als je je verstand gebruikt en niet je hele levensgeschiedenis deelt met een AI, geen wachtwoorden en andere geheimen deelt etc dan kan het echt geen kwaad om een buitenlandse AI te vragen om een openbaar document samen te vatten of de code uit een open source git repo uit te leggen bijvoorbeeld.

De beste AI bestaat niet, er zijn erg veel verschillende AI's en allemaal zijn ze praktisch het zelfde maar net even anders en zijn ze dus goed in verschillende dingen. Sommige zijn erg goed in het samenvatten van lange lappen text maar kunnen als het op code aan gaat nog wel eens de weg kwijt raken en andersom. Allemaal maken ze fouten en geen van alle zijn ze echt goed in begrijpend lezen om maar een voorbeeld te noemen. De beste is dus afhankelijk van wat je met het gebruik van de AI wil bereiken.

De reden dat ze de hele industrie te kakken hebben gezet, is dat ze met een stuk minder resources 50k H100's als ik het goed begrepen had een competitive AI hebben weten te bouwen. Wat ze hebben laten zien is dat je met veel minder resources toch instaat bent een AI model te bouwen dat wel erg dicht bij de huidige leider kan komen. Dit geeft de investeerders in het westen te denken omdat zij miljarden stukslaan op steeds maar meer en duurdere compute terwijl men in China dat veel goedkoper voor elkaar kan krijgen.
Een andere reden dat ze de industrie geschokt hebben is dat men in het westen dacht dat China minimaal een jaar of twee achter liep op het geen de Amerikanen doen. En schijnbaar uit het niets is daar op eens een nieuw model dat laat zien dat die aanname niet juist was.

Heeft men andere modellen gebruikt natuurlijk, dat doet iedereen. Had men zonder het gebruik van de andere modellen niet zo ver gekomen of in ieder geval niet zo snel ja natuurlijk. Maar dat is niet anders dan alle andere, als je geen model hebt en je wil snel een werkende oplossing dan gebruik je natuurlijk wat andere al gedaan hebben om je waar uit handen te nemen. Dat is precies waar die AI modellen voor bedoeld zijn dus waarom niet.

Ik denk dat de geconditioneerde afkeur van China in het westen een redelijk grote rol speelt in de manier waarop er door veel mensen naar DeepSeek gekeken wordt. Ja er zitten haken en ogen aan maar kijk voor de grap eens naar de manier waarop men in de UK met persoonlijke meningen omgaat of naar de data honger van de VS die echt niet alleen op zoek zijn naar leuke foto's en goede moppen als ze alles wat ze maar kunnen afluisteren.Ook de EU heeft een wel haast onstilbare data honger en luistert steeds meer mensen standaard af. Veel van dit soort projecten worden niet openbaar gemaakt of zijn alleen van toepassing op buitenlandse berichten en worden dan door de buurlanden met elkaar gedeeld om zo toch ook voor al de lokale bevolking in de gaten te houden.
Ik ben het helemaal met je eens dat in China de regels omtrent privacy niet best zijn, maar in de westerse landen waar ze vaak een stukje beter zijn hebben overheden meer dan voldoende loopholes gevonden en gemaakt om de regels te kunnen omzeilen als zij dat nodig achten of om weg te kijken als een bedrijf dat de regels overtreed en de nuttige data met hen deelt natuurlijk. (De NSA en Google zijn niet voor niets dikke vrienden, en luister maar eens naar wat Mr. Zuckerberg verteld over hoe zijn personeel door de overheid benaderd wordt)
Ik kom uit de tijd dat iedereen in het telefoon boek stond en alleen mensen die zich zelf heel bijzonder of belangrijk achten een geheim nummer hadden (en dus niet in het telefoonboek stonden).
Wat een arrogante sneer die nergens op slaat. Genoeg redenen om niet in het telefoonboek te willen staan. Mensen met een publieke functie bijvoorbeeld. Wij stonden er ook niet in omdat mijn vader rechercheur was.
Dat is geen sneer dat is dus gewoon een persoon die vond dat hij niet in het telefoonboek thuis hoorde omdat zijn baan hem in een klasse apart plaatste. Dat kan heel erg goed waar zijn maar het is altijd een persoonlijke keuze geweest. Mensen die vonden dat ze niet in het boek hoorde konden een geheim nummer aanvragen en dan dus niet in het boek verschijnen. Voor zo ver ik weet is er geen bedrijf of positie geweest waar mensen automagisch een geheim nummer toegewezen kregen omdat ze een bepaalde positie hadden of een bepaalde baan etc.

Sorry als het zo overkwam dat was niet zo bedoeld.
Ik kom uit de tijd dat iedereen in het telefoon boek stond en alleen mensen die zich zelf heel bijzonder of belangrijk achten een geheim nummer hadden (en dus niet in het telefoonboek stonden). Die boeken werden iedere zo veel tijd in de brievenbus gepropt en je kon op basis van achternaam iedereen in de stad vinden met huis address en telefoon nummer.
Nu is dit soort data eventueel delen met een ander gevaarlijk en moet vooral voorkomen worden zeker als die entiteit uit een ander land komt en al helemaal als deze uit een ver weg land komt.
Je doet hier heel wat aannames. Ik heb ooit last gehad van een telefonische stalker die op basis van mijn achternaam en woonplaats en wat trial & error mijn telefoonnummer had weten te achterhalen. Sindsdien geheim nummer. Had niets met bijzonder of belangrijk te maken. Als je een geheim nummer had, had je bovendien veel minder last van reclamepraatjes middels de telefoon. Want cold call werkt dan niet meer.

Je ziet het ook in de wereld van TCP/I{P IPv6 prive adres obscurity zorgt voor veel minder rotzooi in je SSH logs.
Het is hoe dan ook verstandig niet zomaar van diensten en producten van anderen gebruik ta maken wanneer die gegevens van jezelf en anderen 'nodig' hebben. Omdat je hoe dan ook niet zomaae nog controle hebt over wat anderen er mee doen, terwijl die gegevens en de controle daarover meestal waarde heeft.
Uiteraard niet. De "beste" gaat tenminste 20 jaar militaire eigendom zijn voordat je uberhaupt mag weten dat het bestaat. De modellen waar iedereen nu helemaal hyper van wordt zijn niet gisteren uit de boom komen vallen.
$100 miljoen vind ik niet echt een hobbyproject...
Voor $6000 heb je DeepSeek R1 lokaal draaien. bron: Twitter. Inclusief onderdelenlijst, handleiding enz. Resultaat is heel werkbaar. Geen GPU: snel toegang tot veel geheugen is cruciaal.
Dat is om het model te draaien ja. Om het te bouwen heb je meer hardware nodig, en dat is die $100+M.
Kleinigheidjes hou je toch :)
Op zich klopt dat natuurlijk, maar dit is niet bepaald een kleinigheidje te noemen.
ChatGPT kon je in het begin ook om zn certificaten vragen en meer dingen wat beter is om niet te delen :p

Tegen de collectieve creativiteit van de wereld kun je niet op beveiligen :9
Ik weet niet of we kunnen geloven dat ze een "hobby project" claimen te zijn. Kan ook een strategie zijn om de rest onderuit te brengen. Dat ze claimen zo goedkoop te zijn etc, het zijn hun woorden, dat hoeft niet "waar" te zijn.
Heb je daar ook enige onderbouwing voor?
dimmak in 'Beveiligingsonderzoekers ontdekken openstaande database van DeepSeek' Het bericht onder de mijne van Dimmak, denkt hetzelfde. Zelfde als het bericht van Oon Oon in 'Beveiligingsonderzoekers ontdekken openstaande database van DeepSeek'

[Reactie gewijzigd door SeenD op 30 januari 2025 13:20]

Ik denk dat DeepSeek het "hobbyproject" bewust klein houdt en het veel meer is dan dat. Achter het bedrijf zit een miljardenbedrijf en ik denk niet dat de beweringen overal even eerlijk zijn.
Iedereen doet hard hun best alles van Deepseek in diskrediet te brengen. Voor een “hobbyproject” hebben ze ongelofelijk goed werk geleverd en de hele industrie te kakken gezet.
Volgens mij zie je om de haverklap een bericht zoals dit voorbij komen, dat een bedrijf iets vind dat lek is, en dat het vervolgens opgelost is.
En daar lees ik niets in om dit bedrijf af te kraken, sterker nog, dat ze binnen een uur actie hebben ondernomen na de melding is juist een positief punt, wat de auteur ook weg had kunnen laten als het erom ging dit bedrijf in diskrediet te brengen.

Kijk uit voor tunnelvisie, er zal best door partijen iets negatiefs gezegd worden (vaak uit commercieel belang), maar daarmee is niet elk bericht of elke partij negatief.
Het is wel meer dan een hobbyproject, je mag er gerust vanuit gaan dat het totale budget van Deepseek te vergelijken is met al het geld dat OpenAI en Anthropic bij elkaar opgeteld hebben verbruikt in de afgelopen jaren.
Een jaar geleden werd iets zoals wat nu gebeurt door een medewerker van google al voorspeld, de open source wereld probeert met minder middelen hetzelfde of meer te bereiken en dat lukt stees beter. De groten zaten met hun manier van werken al aan hun grenzen.
Mee ens. Wie als opdrachtnemer te maken krijgt met (artificiele) limitaties, moet heel wat creatiever aan de slag om de opdracht uit te voeren.

Zoals in dit specifieke geval: simpelweg meer hardware naar het probleem slingeren, zorgt voor afstomping. En als dat lang genoeg de gang van zaken is, dan wordt die afstomping permanent. Aangezien er steeds meer bergen met geld naar AI bedrijven gaat/ging, heeft men bij dezelfde AI bedrijven te lang aan afstomping gedaan.

Dan is het wel een soort van frisse wind als er een bedrijf komt met een LLM, welke nagenoeg gelijk presteerd, met 10 keer lagere kosten. Zo'n verschil geeft namelijk aan dat de AI bedrijven uit het Westen efficientie op een veel te laag pitje hadden staan.

Dit is geen lofzang naar China toe. Maar het is ook wel goed dat de "Westerse" AI gedwongen wordt om nu toch echt eens aan efficiency te gaan werken, want dat is en blijft altijd een heikel punt, wat zij maar al te graag onder de mat schuiven.
Het valt mij juist op hoe sommigen de vraagtekens die er zijn bij dit project zo makkelijk wegwuiven. "if things seem to good to be true they usually are" denk ik dan maar. Dat het geen "hobbyproject" is is wel duidelijk en veel van de beweringen die Deepseek zelf doet zijn niet te controleren. Een bepaalde kritische houding daarover is niet verkeerd.
Ai vragen alles zelf prive te houden kon men niet even bedenken. Klinkt misschien onzin maar je kan het ook leren te beveiligen en te pentesten.
Of zet dat dan juist skynet aan het denken dat de mens het beveiligings lek is misschien.
Nee, dat kun je dus niet (zomaar) :)

De meeste LLM (Large language model) zijn niet zo heel slim. Ze weten welke woorden er achter elkaar moeten zodat wij, de mens, de info begrijpen. Zelf weten ze niet echt wat ze zeggen.

Stel ik leer jou phonetisch een paragraaf Pools (of als je dat kan, een taal die je niet kent) en leer je dat je dat moet antwoorden als iemand vraagt "Jaki kolor zasłon będzie najlepszy do pokoju na poddaszu?". Je hebt geen idee wat je zegt, maar het is wel goed. Zo ongeveer werkt een LLM.

In praktijk is het wel iets ingewikkelder dan dat, maar dit is de basis AFAIK. Jij weet niet of je geheimen aan het verklappen bent, dus we kunnen je het ook niet aanleren wanneer je iets niet mag zeggen.

Dan kun je nog doen dat bepaalde keywords oid niet mogen, bijvoorbeeld "private key" mag niet. Maar dan vraag je als mens "het bestand waarmee je versleuteld". We komen daar dus makkelijk omheen (zie alle voorbeelden van DeepSeek die niet titamen square wilt zeggen, tenzij je m vraag een spatie tussen elke letter te plaatsen).

[Reactie gewijzigd door Martijn.C.V op 30 januari 2025 10:42]

Dit is wel een beetje kort door de bocht.

Het klopt dat oudere LLM’s vooral goed waren in het slim voorspellen van woorden zonder echt begrip. Maar de nieuwste generaties hebben allerlei mechanismes ingebouwd om context wél goed te snappen. Zo is er het Attention Mechanism (onderdeel binnen ML) wat helpt om te focussen op de relevante delen van een tekst. Een ander voorbeeld is Chain-of-Thought reasoning. Hierdoor kan een model een complexe gedachtegang stap voor stap uitschrijven, wat veel dichter bij menselijk redeneren komt (bijvoorbeeld bij wiskundeproblemen of logische redeneringen). Dit zie je heel duidelijk bij DeepSeek's R1 en het is ook best leuk om te lezen. Daarnaast zijn er nog veel meer mechanismes zoals RAG, finetuning en instruction training die helpen om vragen en opdrachten in de juiste context te plaatsen en die zorgen dat LLM's beter begrijpen wat ze doen.

Vergeet niet dat LLM's inmiddels al achterhaald zijn, het gaat steeds vaker over LMM's - Large Multimodal Models. Die zijn inmiddels veel slimmer dan je stelt.

En over bewustzijn: dat is sowieso een vaag begrip, want er is geen harde, universele definitie van wat dat precies is (zeker als we het hebben over subjectieve ervaringen). Maar er zijn inmiddels meerdere peer-reviewed papers die laten zien dat hoe wij bewustzijn definiëren, best aardig overeenkomt met hoe sommige LLM’s werken. Ze vertonen bepaalde kenmerken die verrassend dicht in de buurt komen.
Dat goed "snappen" valt nog mee. Een mooi voorbeeld hier:

https://www.eoswetenschap...t-moet-op-ontwenningskuur

ChatGPT praat heerlijk mee over een voetbalwedstrijd. Alleen heeft die nooit plaatsgevonden. Het wordt gewoon ter plekke verzonnen, inclusief geloofwaardige elementen over de "bal" en "rode kaart". Dat past immers in de context van voetbal.

Sorry, ChatGPT is in feite een hele slimme autocomplete. En daarmee kan je prima teksten laten herschrijven, samenvatten, etc (die je alsnog moet controleren op misinterpretatie), maar je kan er geen beslissingen mee maken. Het snapt niets, maar raad wat je graag wilt horen.

[Reactie gewijzigd door YaPP op 30 januari 2025 13:36]

De link gaan over de resultaten van een mooi huis-, tuin- en keukenonderzoekje. Ik ben al bijna twee jaar bezig met LLM's implementeren binnen security processen bij enkele enterprises in Europa, heb meerdere data scientists in mijn team gehad die al jarenlang bezig waren met ML en heb ook nog eens een onderzoeksproject afgerond samen met Lund University in Zweden. Het feit dat je denkt dat ChatGPT een slimme autocomplete is, laat zien dat je helemaal geen goed beeld hebt bij de mogelijkheden en vooral niet over de huidige staat van LLM's.

Daarnaast zoom je alleen in op ChatGPT, heb je een beeld bij open-source LLM's getraind op eigen data en bijbehorende mogelijkheden?
binnen security processen
Procesmatig zal deze AI ook heel goed zijn inderdaad. Maar dat betekent toch niet dat @YaPP ongelijk heeft?
De mogelijkheden van een auto-complete wordt toch ook niet hem beperkt?
.. om context wél goed te snappen...
Nou, echt "snappen", dat valt over te debatteren... het zijn mijns inziens meer trucjes en mechanismen die bepaalde gedrag reproduceren. Echte intelligentie is het (nog) niet.
De vraag is natuurlijk: wat is intelligentie en "snappen", maar dat is een filosofische discussie waar je boeken over vol kan schrijven.
Wat dat betreft is AI eigenlijk de perfect term, Artificial Intelligence, het zal intelligentie nabootsen, en wordt daar steeds beter is, maar het is nog altijd artificial. Mimicry, het wordt gebouwd met een bepaal doel voor ogen: om menselijk over te komen. Maar het is niet dat dit evolueert uit een natuurlijk proces, waaruit mechanismen ontstaan uit noodzaak, overleving, survival of the fittest, het hele evolutie riedeltje. Net zo goed dat hoe mooi en realistisch je een schilderij kan maken, het zal nooit het zelfde zijn als de realiteit, het is enkel een afspiegeling, een recreatie, aan artistieke impressie, maar zonder de bouwstenen wat het daadwerkelijk realiteit maakt. AI is niet anders, het is en blijft een machine dat simpelweg instructies uitvoert aan een lopende band.
Ze vertonen bepaalde kenmerken die verrassend dicht in de buurt komen.
Ja, dat is dan ook de bedoeling, om zo over te komen. Veelal van deze dingen profileren zichzelf als een chatbot, om als een geloofwaardige chatpartner over te komen.
Is dat echte intelligentie, bewustzijn, een ziel, of whatever? Nee, hard disagree. Je zou het hele script van zo'n ai uit kunnen printen op een stapel papier en met de hand uit gaan zitten rekenen om hetzelfde resultaat te krijgen als een computer die het uitvoert (hypothetisch voorbeeld uiteraard, zoiets zal ondoenlijk zijn in de realiteit), is er dan een vorm van bewustzijn gaande tussen je pen en papier terwijl je het uit zit te werken?

Maar valt inderdaad genoeg over te debatteren
... het zijn mijns inziens meer trucjes en mechanismen die bepaalde gedrag reproduceren...
Grappig, ik doe exact hetzelfde, alleen dan bij mijn kinderen ;)

Ik snap uiteraard wat je bedoelt. Wat ik beschreef zijn voornamelijk trucjes om de output van neurale netwerken zodanig te vervormen dat het enkele 'bewuste' keuzes maakt. Dat het vervormen van neurale netwerken sterk overeenkomt met het netwerk van neuronen in onze hersenen, laat wat mij betreft zien dat we wel die richting op gaan. Maar bewustzijn zoals een deel van de mensheid dit is, dat is natuurlijk nog geen onderdeel van de huidige staat van specifieke LLM's.
Afgezien van de filosofische discussies, kun je ook stellen dat heel veel mensen ook niet verder komen dan het reproduceren van wat geleerd is of hebben gezien. Volgens mij kun je sowieso stellen dat het merendeel van wat de mens doet ook reproduceren is en daar komt maar een klein beetje creativiteit bij kijken.
Zodra ik 'begrijpen' en 'AI' lees, dan denk ik...nope.

Wat jij beschrijft zijn aparte mechanismen die het idee geven van 'begrijp' maar het is hetzelfde als in het voorbeeld van @Martijn.C.V erbij zeggen: zodra je "najlepszy" leest dan moet je daar de hoogste prioriteit aan geven.
Ander voorbeeld:
Daarom 'snapt' / 'weet' een hond ook dat je boos bent zeg maar - want dan verhef je jouw stem. Maar eigenlijk snapt hij dus niet zo heel veel - hij leest een enkele variabele uit en trekt daaruit een conclusie. Begrijpt de hond dus waarom je boos bent? Nee toch? En dan heeft een hond wel degelijk de mogelijkheid om iets te begrijpen en een bewustzijn. Toch speelt deze - net zoals de AI - een beetje vals bij de communicatie.

Bewustzijn mag dan een moeilijk begrijp zijn - we kunnen echt wel stellen dat deze AI niets begrijpt. Begrip imiteren is wat de ontwikkelaars nu inbouwen. En die beseffen dus ook maar al te goed dat het geen echt begrip of bewustzijn impliceert.

Alleen al het feit dat in eerste instantie wiskunde absoluut niet goed ging en een aparte module nodig heeft, zegt ook al wat. De AI lijk dus wel taalkundig te zijn maar wiskunde 'snapte' deze dus niet. Wij [de mens] gebruiken toch geen aparte modules als we iets proberen te begrijpen? Al is dat ook weer moeilijk te bewijzen....
Werkt een menselijk brein ook niet met allemaal aangeleerde, geconstrueerde modellen en patronen?

Ik hoor vaak genoeg mensen informatie 'papegaaien' over complexe systemen zoals het menselijk lichaam, terwijl ik weet dat ze het systeem an sich niet snappen of goed kennen. Ik ben zelf daar niet beter in en ik papegaai ook maar wat over hoe ik denk dat een compiler werkt, terwijl ik eigenlijk geen idee heb.
Werkt een menselijk brein ook niet met allemaal aangeleerde, geconstrueerde modellen en patronen?
Tja, dat is dus een andere vraag - die ik helaas ook niet kan beantwoorden. Maar is dat alles wat het menselijk brein doet?
De grap is namelijk wel: wij hebben bewustzijn - deze AI heeft dat duidelijk niet. Het gaat mij dan ook niet om de overeenkomsten (die zijn er zeker) maar om de verschillen.
Het zijn super geavanceerde chatbots maar op dit moment kunnen AIs nog niet nadenken of redeneren of nieuwsgierig zijn. Het kan er op lijken dat ze dit soms doen maar zo ver zijn we nog lang niet.

Intelligentie is wat mij betreft nog steeds een misnomer.
Ook LMM’s hebben geen bewustzijn, al lijken ze context te ‘snappen’. Het grote probleem zit ‘m in het gebied waarin context juist ontbreekt. Daar blijven ze hangen in de bekende kennis
LLMs zijn niet meer dan onze poging om een computer te leren spreken, zoals een baby.
Uiteindelijk zullen ze meer kunnen, maar momenteel zijn we al blij als ze een zin kunnen construeren.
Kan iemand met verstand van zaken uitleggen wat dit voor Database moet zijn geweest? De prompts van sommige gebruikers? Welk deel dan? En wat bedoelen ze met het vage 'backend details'? Is dat gewoon een manier om te zeggen dat dat deel klein bier is?
ClickHouse: ClickHouse is a fast open-source column-oriented database management system that allows generating analytical data reports in real-time using SQL queries.

Dus die database bevatte dus oa prompts van users waarop dus rapportages gedraaid konden worden. Helaas zonder enige beveiliging. Dat krijg je als je developers 'hun gang' laten gaan 'om snel even iets te testen' en voor je het weet draait het productie en was je vergeten dat security ook een ding is.
Duidelijk dat "Security as the basis" niet daar is
Blokkeert de 'Great Firewall' van China die toegang dan niet?

Of iets wat daarop lijkt, zullen ze daar bij DeepSeek hebben gedacht. :+
Ik vraag me meer af hoe ze zonder functionaliteit te schrappen deze database zo snel offline konden brengen. Was het testdata? Of is het systeem nu omgeleid naar een andere database, die misschien wel net zo slecht beveiligd is.
Prompts zijn vragen en antwoorden van gebruikers die het systeem terug serveert.
Hier kunnen dus prive zaken in zitten die dus publiekelijk te benaderen was.
Backend details zijn gegevens over waar hun software op draait. Op welk OS bijvoorbeeld, hoe dat geconfigureerd is, welke accounts daarvoor gemaakt en gebruikt zijn.
Dit is absoluut geen klein bier. Dit is een serieus lek.
Het is bijzonder. Dit lek was eerder geconstateerd door een andere security onderzoeker die dit onder de 'responsible disclosure' voorwaarden heeft gemeld, en na onderling overleg dit niet gepubliceerd. Nu heeft Wiz dit ook gevonden en heeft hier lak aan, en publiceert het zonder dat hier toestemming van Deepseek, puur voor commercieel gewin.

Ben benieuwd hoe Wiz reageert als responsible disclosure meldingen bij haar klanten direct dezelfde dag nog worden gepubliceerd.
Zover ik hier zie hebben ze ook eerst contact gehad met DeepSeek, en die hebben binnen een uur de DB onbereikbaar gemaakt. Dat Wiz daarna publiceert snap ik, daar zijn ze voor, en er kan geen verdere data lekken. Wel krijgt DS nu publiek de wind van voren, en terecht.
'na onderling overleg niet gepubliceerd' interpreteer ik als "we hebben ze voldoende onder druk gezet/betaald om het stil te houden", en dat is kwalijk.
Als iedereen de Amerikaanse AI tegen betaling beter vindt, gebruik de gratis deepseek dan niet. AI is voor mij wel iets waar ik gebruik van maak om meer abstracte dingen te onderzoeken. Iedere AI zal zijn eigen filters hanteren om problemen te voorkomen met hun eigen overheid. Kijk maar eens in de VS waar per 20 januari ineens de grote jongens er andere filters zijn gaan gebruiken zodat de samenleving nu ineens heel andere meningen krijgt te zien.
Belangrijk is en blijft om het verschil tussen censuur en bias van een model te begrijpen. Daarnaast biedt DeepSeek momenteel geen gebruikersvoorwaarden die in lijn zijn met de GDPR, heeft het zeer ernstige en eenvoudige beveiligingsproblemen en potentieel getraind op een gestolen datamodel.

Dat laat onverlet dat wat ze inhoudelijk gedaan hebben met hun V3 en R1 model innovatief is, alleen de proof of concept die iedereen nu als 'chatgpt'-vervanger aanziet zou ik dus nog niet in productie gebruiken. Denk dat ze zelf ook niet verwacht hadden dit dat zo'n vlucht zou nemen.
Oeps, daar komt de eerste grote fuckup van gehaast iets live zetten!
Gisteren ook steeds performance problemen. Misschien toch niet zo efficiënt als in eerste instantie werd gezegd.
Als de halve wereld als een soort tsunami over je servers heen walst is het niet gek dat je niet voorbereid bent. ChatGPT kende ook problemen met performance in het begin.
is dit performance-related?....
Als reactie op dat er performance problemen waren wel ja.
diagonaal lezen had ook perfomance :-P
Ik heb 2 foto's geüpload, de eerste van gras: Dit was een product te verkrijgen in een Chinese supermarkt? Het zou erg populair zijn.

De tweede van een fiets. Dit werd uitgelegd als een formule voor een wiskundige berekening.

Ik weet het zo nog niet, met deepseek..
Dit gaan ze al tegenargument gebruiken wanneer Europese toezichthouders claimen dat data van EU burgers gebruikt is bij het trainen :D

"Kijk maar, het heeft geen idee wat een fiets is"
Tja, ze zullen alles proberen om onder regeltjes van anderen uit te komen ja, maar of dit gaat werken?
Ergens herinner ik dat er al 9 miljoen fietsen in Beijing zijn... maar of dat waar is? Ik ben ook een LLM :+

Ondertussen weten we nu wel a. dat ze alle prompts verzamelen, en b. dat hun security nogal eens gaatjes vertoont. Hebben ze ook ergens zo'n database met queries die ze op de prompts uitgevoerd hebben? Dat lijkt mij dan weer interessante data.
Ondertussen wordt een NL hobbyproject om iets met de NLse taal te doen lekker in de kiem gesmoord vanwege vermeend gebruik van de copyrighted data voor training van het model. nieuws: Ontwikkelaar haalt taalmodel GEITje offline na verzoek Stichting Brei...
Hier de LinkedIn post van de onderzoeker die het lek vond en de code die hij nodig had om 'in te breken'.

Na het vinden van een open poort en wat url enumeration vond hij een db server en typte vervolgens 'show tables'. Et voila.

Ondertussen is de lijst van dingen en dingetjes die niet echt goed geregeld zijn bij DeepSeek al redelijk lang aan het worden en dat in de 48 uur dat de wereld DeepSeek ontdekte. Belooft weinig goeds:

Zie mijn andere post voor de andere problemen:

NiGeLaToR in 'Een Chinese AI-dienst, hoe werkt dat? - DeepSeek vs. ChatGPT o1 en Google Gemini'
De onderzoekers stellen dat het misschien ook mogelijk was om plaintextwachtwoorden en lokale bestanden te achterhalen via een SQL-commando, maar dit hebben ze niet daadwerkelijk uitgeprobeerd.
Hebben ze dus gezien dat er een kolom in de database bestaat met plain-text wachtwoorden? Of hebben ze dat niet gezien?

Als ze het niet gezien hebben vind ik het niet correct dat dit dan zo gerapporteert wordt, lijkt me meer paniekzaaierij.
Als ethical hacker heb je je aan regels te houden dus kun je niet pauzeloos een gevonden lek proberen te misbruiken. Anders ga je al snel van ethisch naar onethisch en potentieel strafbaar.
Maar dan moet je ook niet stellen dat er misschien wel plaintextwachtwoorden zijn.
Leuk om groot uitgemeten te worden en de headlines te halen, maar blijf wel bij de feiten van wat je hebt gedetecteerd.
Je maakt zelf van antwoord op de ‘wat kun je er dan mee’-vraag een contextueel totaal ander iets.
Jij begrijpt mijn stelling, ik weet niet hoe ik mijn reactie beter kon verwoorden.

Wat NiGeLaToR zegt, begrijp ik.

Het klinkt gewoon te kort door de bocht om te roepen dat er waarschijnlijk plain-text wachtwoorden aanwezig zijn zonder dat je daar bewijs voor hebt. Het hoort andersom te zijn.

Op dit item kan niet meer gereageerd worden.