Anthropic gaat Claude trainen op data van gebruikers en klanten

Anthropic gaat zijn AI-model Claude trainen op gesprekken van zijn gebruikers en betalende klanten. De optie is wel uit te zetten. Iedere gebruiker en klant krijgt komende maand een pop-up. Die staat standaard aan.

De optie heet 'you can help improve Claude' en is gelijk of op elk willekeurig moment daarna via instellingen uit te zetten, zegt Anthropic. Het gaat om gebruikers van Free-accounts en betalende klanten met een Max- of Pro-abonnement. Anthropic gaat de data niet verzamelen bijh Claude for Work, Claude Gov en Claude for Education of klanten die werken via de api.

Behalve de dataverzameling verlengt Anthropic ook de termijn waarna het data verwijdert. Dat is nu standaard dertig dagen en dat wordt vijf jaar. Als gebruikers daar niet voor kiezen, blijft de retentie op dertig dagen. Anthropic gaat alleen nieuwe chats vanaf donderdag gebruiken. Dat geldt ook voor sessies met coding.

Claude gebruikt data
Claude gebruikt data

Door Arnoud Wokke

Redacteur Tweakers

28-08-2025 • 21:03

28

Reacties (28)

28
28
10
0
0
18
Wijzig sortering
Ik heb alvast geen popup gehad. De optie kun je nu al vinden onder Privacy. Die is ook lichtjes "obscured" door een kleine popup dat ze hun T&C hebben aangepast. Ik vind het persoonlijk niet zo netjes gedaan.

Het lijkt er op dat ze het zo obscuur mogelijk hebben willen houden om zo weinig mogelijk mensen het te laten afvinken. Best teleurstellend vind ik als je al voor een dienst betaald. Dat je dit voor nieuwe gebruikers standaard aanvinkt tot daar toe.

[Reactie gewijzigd door kayjay op 28 augustus 2025 21:10]

Ik had een halve popup, tekst was onzichtbaar.
Ik ook. Dankzij het artikel weet ik dus dat het geen reclame was voor het Atomium :+
Ik had de popup ook en uitgezet. Maar net nog even gecheckt en hij stond weer aan...
Ik dacht ik controleer het ook direct even. Kreeg in de App een pop-up die ongeveer driekwart van mijn scherm beslaat inclusief verder extra donkere achtergrond. Duidelijke titel en text. Supergrote slider om 'You can help improve Claude' uit te zetten (staat wel standaard op 'yes').
Ik ben benieuwd naar hoe de beveiliging is van dergelijke data, zoals code met database inloggegevens, en dat je via een slimme AI prompt daar achter kunt komen. Het 'programmeren' met een AI tool heeft al een naam, namelijk 'vibe coding', programmeren met prompts die code genereren, waarbij de prompt je programmeertaal is, en de code maar output. Je hebt ook al prompt generators die prompts van een A4tje voor je genereren waarbij aan veel instructies wordt gedacht om de juiste output te krijgen voor een heel project, dus met een dergelijke tool url's, gebruikersnamen en wachtwoorden achterhalen zal vast een keer fout gaan. Er zijn ook beschermde prompts om misbruik te voorkomen, maar die kan je soms weer omzeilen door spelfouten te gebruiken, waardoor de regex niet werkt om misbruik te voorkomen, maar de AI tool wel begrijpt wat je wil. Hoe dan ook, je speelt met een gigantische bak met data, wat heel mooi is voor heel veel dingen, maar zo nu en dan ook mis zal gaan. En als je data eenmaal erin staat, dan staat het er voor 5 jaar dus in.
Ik zou er maar van uitgaan dat die beveiliging bagger is, een after thought at best. Er zit te veel geld in AI om zich om zulke triviale zaken druk te maken: het moet slagen, kosten wat het kost.
Dit is niks nieuw. Vroeger was het zo dat gevoelige gegevens als "niet langer veilig" worden beschouwd als ze eenmaal in git belanden. Nu gaat gewoon hetzelfde gelden nog voordat ze in je git belanden, maar hoe dan ook... er zouden nooit dit soort gegevens in je code mogen staan. Als dat wel het geval is ben je echt iets totaal verkeerd aan het doen. (Niet dat het niet gebeurt overigens: er zouden wel meer dingen nooit mogen gebeuren.)
En hoe gaat dat met externe providers die claude gebruiken? bv windsurf of cursor of copilot?
Ik denk dat die uitgesloten zijn (uit de blogpost):
They do notapply to services under our Commercial Terms, including Claude for Work, Claude Gov, Claude for Education, or API use,
Die gebruiken de API, zoals ze hebben aangegeven wordt daar geen data verzameld voor trainingen.
Tja, ze moeten wel, want er wordt nu een stuk minder geplaatst op stackoverflow, reddit, github en andere plekken. Vooral een groot gebrek aan werkende oplossingen voor nieuwe versies van libraries en frameworks.
Ik gok dat ze prima aan de hand van de documentatie van zulke libraries en frameworks, zulke posts kunnen augmenteren en terug kunnen voeden aan hun model als ze het trainen. Het enige nadeel daarvan is dat Anthropic zelf in de gaten moet houden welke frameworks en libraries belangrijk genoeg zijn om dat voor te doen, en bij welke ze dat niet hoeven.
Ik denk dat een model trainen op documentatie niet werkt. Een model moet dan vanuit tekst leren hoe het code moet schrijven, doorgaans train je een model juist op code waarin het gebruikt word.

Sowieso is documentatie vaak beperkt en onvolledig. Je schets er een aantal scenario's en gaat er van uit dat iemand die het leest weet waar je het over hebt.

Ik ken een aantal veel gebruikte libraries waarvan de documentatie bestaat uit de readme pagina van github. De rest zoek je zelf maar uit aan de hand van code completion.

Met de fouten die modellen nog steeds maken weet ik vrij zeker dat die niet begrijpt wat er in tekst gedocumenteerd staat en hoe zich dat naar code vertaald in veel gevallen. Aangezien daar precies staat waarom het niet werkt.
Ik denk dat LLMs beter op de source code van de frameworks/libraries getrained kan worden, zo kun je ook niet gedocumenteerde functies terugvinden. En ik denk dat de meeste LLMs wel git en andere repos neemt om op te trainen. Cutting edge frameworks waren altijd al een zwak punt van LLMs die in principe op historische data wordt getrained. De meest gebruikte versie heeft doorgaans de bias dus als een framework de boel heeft omgegooid van ene versie naar de andere dan krijg je meestal voorbeelden van de 'oude' manier. Maar goed, het blijft lastig om 'best practice' te trainen bij LLMs, dat is wat je met name in stack overflow vaak wel op geattendeerd werd.
Heeft een taalmodel juist niet meer nodig dan puur documentatie? Documentatie is voornamelijk veel theorie met wat voorbeelden, terwijl user input juist het veel meer zou voeden met praktijk voorbeelden.

Documentie zou bijvoorbeeld 1 voorbeeld zijn, terwijl vroeger je 100 verschillende manieren kon vindennop stackoverflow voor het zelfde resultaat.
Je kunt een LLM juist gebruiken om die honderd voorbeelden te genereren en dié dan gebruiken om de volgende versie van je model te trainen.
In theorie zou dat kunnen, maar dan moet de techniek verder zijn dan nu. Vooralsnog genereert een AI veel foute en niet werkende code als het puur naar documentatie moet kijken.
Maar dan kan je dus een farm voor bouwen waarbij de AI z’n eigen code controleert dmv unit tests en efficiency.
Dus nog steeds veel minder praktijk voorbeelden om mee te trainen en een veel groter kans dat het traint op 100(of een aantal daarvan) niet werkende voorbeelden, omdat het model 'denkt' dat het werkt.
Terwijl de 100 voorbeelden van Stackoverflow (als voorbeeld) ook komen met context, reacties, votes en discussies etc.

Zelf 100 voorbeelden genereren kan leiden op trainen op basis van foute informatie. Daar wordt een model niet betrouwbaarder van.
Maar dit mag toch helemaal niet volgens de AVG/GDPR. Dit is een vorm van preticked boxes lijkt me


Bron: https://curia.europa.eu/juris/document/document.jsf?docid=218462&doclang=EN
Lijkt mij ook. Eerst contact zoeken, dan aangifte doen.
Doen ze aan Data Privacy Framework, of moet je de optie ‘don’t train’ expliciet uitzetten.
Bewaren "even" verlengen van 30 dagen naar 5 jaar, dat is maar 60x meer.

Was die 30 dagen ooit gebaseerd op "opslag kost geld" en dan nu er een verdienmodel is kan het wel bewaard worden.
Eerste stuiptrekkingen... langzaam voorwaarden aanpassen, meer data, meer geld... investors worden onrustig
Ik gebruik gewoon de API en gelukkig gebruiken ze die data niet voor training. Het is met mijn gebruik van Claude nog gunstiger ook. Ik loop vaak tegen de limieten van de free tier aan, maar 20 euro per maand betalen is ook wat overkill. Nu betaal ik weliswaar “on demand” (namelijk per input en output tokens), maar uiteindelijk ben ik vaak nog geen 10 euro per maand kwijt. En ik heb meer vrijheid qua instellingen (zoals temperature)
Onze developers gebruiken via de API meer dan 25 euro per dag, dus je bent dan een vrij rustige gebruiker :)
Wou net zeggen… ik brand er 50 euro per dag doorheen als ik een goede 8 uur bezig ben.


Om te kunnen reageren moet je ingelogd zijn