Gegevens van Australische burgers uitgelekt via ChatGPT-gebruik door overheid

Persoonlijke informatie van Australische burgers in de staat Nieuw-Zuid-Wales is uitgelekt door ongeautoriseerd gebruik van ChatGPT. Een aannemer van de staat uploadde in maart een Excel-spreadsheet naar de AI-chatbot van OpenAI, meldt de lokale overheid nu.

Het datalek betreft Australische burgers die zich hadden aangemeld voor het overheidsprogramma dat financiële steun biedt om woningen beter bestand te maken tegen overstromingen. Dit Resilient Homes Program (RHP) van de staat Nieuw-Zuid-Wales is voor de regio Northern Rivers. Het overheidsdepartement dat zich bezighoudt met herstelwerk na rampen had een aannemer in de arm genomen die zonder permissie ChatGPT gebruikte.

Dat ongeautoriseerde gebruik van een AI-tool blijkt een datalek te zijn, doordat de aannemer persoonlijke gegevens van burgers heeft geüpload. Het gaat om namen en adressen, e-mailadressen, telefoonnummers, gezondheidsinformatie en nog andere, niet nader gespecificeerde persoonlijke informatie. Deze data stond in een Excel-spreadsheet met tien kolommen en meer dan 12.000 rijen.

Elke rij van de geüploade spreadsheet is 'zorgvuldig doorgenomen om te begrijpen welke informatie mogelijk is gecompromitteerd', verklaart de lokale overheid. Dat heeft veel tijd gekost, net zoals het informeren van getroffen burgers, geeft de overheid van Nieuw-Zuid-Wales aan. Daarbij stelt zij ook dat er geen bewijs is dat de uitgelekte gegevens zijn geopenbaard. De cybersecurityafdeling van de lokale overheid monitort internet en het dark web op eventuele openbaarmaking.

Door Jasper Bakker

Nieuwsredacteur

09-10-2025 • 13:15

131

Submitter: Anonymoussaurus

Reacties (131)

131
131
51
11
1
64

Sorteer op:

Weergave:

Volgens mij zitten we hier echt al op een verkeerd niveau te kijken naar het lek hoor. De NSW RA is hier al veel te ver gegaan en in dat opzicht ligt het datalek eigenlijk al daar. Kijkend naar hoe we in Nederland een AVG zouden toepassen op een casus zoals dat zien we gewoon dat het echt al veel eerder fout is gegaan.

Medische gegevens van mogelijk 12 duizend mensen in een Excel sheet? Gaat het wel goed met je?

Op basis van onze AVG zijn er meerdere punten in deze casus waar je serieuze vraagtekens bij kunt zetten. Sterker nog: de discussie over ChatGPT is hier eigenlijk niet eens relevant, want het gaat daarvoor al fout.

De NSW Reconstruction Authority (RA) is in deze situatie de verwerkingsverantwoordelijke.

Onze Autoriteit Persoonsgegevens (AP) definieert een datalek als:
“Een inbreuk op de beveiliging die per ongeluk of op onrechtmatige wijze leidt tot vernietiging, verlies, wijziging, ongeoorloofde verstrekking van of ongeoorloofde toegang tot persoonsgegevens.”
Het gaat hier dus niet om de vraag of gegevens openbaar zijn gemaakt, maar of er sprake was van ongeoorloofde toegang of verwerking. Dat is precies wat hier aan de hand lijkt te zijn.

ChatGPT was in dit geval geen “geadresseerde”, het is niet zo dat gegevens van Pietje per ongeluk naar Klaasje zijn gestuurd. Maar OpenAI was evenmin een gemachtigde verwerker. Er was geen verwerkersovereenkomst tussen de RA en OpenAI, en de contractor had ook geen mandaat om een derde partij in te schakelen voor gegevensverwerking. Daarmee was het uploaden van deze data naar ChatGPT een onrechtmatige verwerking.

De echte vraag is echter fundamenteler: had de dienstverlener überhaupt toegang tot deze gegevens mogen hebben?

Als blijkt dat de RA een externe dienstverlener toegang heeft gegeven tot een Excel-bestand met persoonsgegevens van 12.000 mensen (waaronder namen, adressen, e-mailadressen, telefoonnummers en zelfs gezondheidsinformatie) dan is dat op zichzelf al een ernstige overtreding van de AVG.

Onder de AVG is de RA verantwoordelijk voor minimaal drie zaken:
  1. Er moet een verwerkersovereenkomst (art. 28 AVG) zijn waarin o.a. de doeleinden, aard, duur en beveiliging van de verwerking zijn vastgelegd, en waarin de verwerker niet zelfstandig mag beslissen over verdere verwerking.
  2. Toegang tot persoonsgegevens moet noodzakelijk zijn voor het uitvoeren van de overeengekomen taak(dataminimalisatie, art. 5(1)(c)).
  3. Er moeten passende technische en organisatorische beveiligingsmaatregelen getroffen zijn (art. 32 AVG).
Het is volstrekt ongeloofwaardig dat toegang tot de volgende gegevens noodzakelijk was voor de taak van deze dienstverlener:
  • Namen en adressen
  • E-mailadressen
  • Telefoonnummers
  • Persoonlijke en gezondheidsinformatie
Vooral dat laatste is problematisch: gezondheidsdata behoort tot de bijzondere categorieën van persoonsgegevens (art. 9 AVG). Dat zulke gegevens überhaupt in een exporteerbaar Excel-bestand konden belanden, is al een schending van privacy by design (art. 25 AVG) en van de beveiligingsplicht.

Met andere woorden: de kern van het probleem ligt niet bij de contractor die ChatGPT gebruikte, maar bij de NSW RA zelf, die haar datahuishouding niet op orde had.

Wanneer gezondheidsinformatie in Excel kan worden geëxporteerd, zonder exportrestricties, logging of toegangscontrole, is er feitelijk al sprake van een datalek.

Dat er “geen bewijs is dat informatie openbaar is gemaakt” zegt in dit kader weinig.

De AVG vereist geen openbaarmaking voor een datalek: de mogelijkheid van ongeoorloofde toegang is voldoende.

Deze zin uit de verklaring van de RA krijgt daardoor een andere lading:
“There is no evidence that any information has been made public, however, Cyber Security NSW will continue to monitor the internet and the dark web.”
De monitoring is begrijpelijk, maar het probleem zat al eerder in de keten: in de interne processen en toegangsmogelijkheden binnen de RA zelf.

Als een externe partij zonder noodzaak 12.000 records met persoonlijke en gezondheidsgegevens geëxporteerd kan krijgen naar een Excelbestand, dan is het datalek al ontstaan voordat er één byte naar ChatGPT werd gestuurd.
Lekker kort door de bocht, dan vinden we leuk hier op Tweakers.
Realiseer je dat "gezondheidsinformatie" nogal een ruim begrip is.
Als een aannemer opdracht krijgt om ergens een traplift te installeren omdat de eigenaar van de woning slecht ter been is, dan is er al sprake van gezondheidsinformatie.

Dus dit roepen:
Het is volstrekt ongeloofwaardig dat toegang tot de volgende gegevens noodzakelijk was voor de taak van deze dienstverlener:
is echt veel te kort door de bocht.

Ik denk dat er een aanzienlijke kans is dat er geen gezondheidsinformatie nodig was om die huizen beter te beschermen tegen overstromingen.
Maar tegelijkertijd sluit ik niet uit dat er een valide reden was om enige gezondheidsinformatie te verstrekken voor de opdracht.
Bepaalde maatregelen maken wellicht een huis minder toegankelijk voor rolstoelen, waardoor je dan voor die huizen een duurdere oplossing moet gebruiken. Dus dat een aannemer informatie heeft ontvangen voor welke huizen die oplossing gebruikt mag worden is niet ongeloofwaardig.

Jouw mooie lange reactie is puur gebaseerd op een aanname die je niet kunt onderbouwen.
Dan nog. al zouden ze de informatie wel nodig hebben is excel niet de juiste manier om dat te doen. Daar zit namelijk geen enkele mogelijkheid in om te kunnen controleren wie er toegang heeft.

En ja je kunt er een wachtwoord opzetten, maar het is ontzettend triviaal om dat er weer af te krijgen zonder dat je het wachtwoord überhaupt weet. Daar zijn gewoon services voor: https://www.password-find.com
Realiseer je dat "gezondheidsinformatie" nogal een ruim begrip is.
Als een aannemer opdracht krijgt om ergens een traplift te installeren omdat de eigenaar van de woning slecht ter been is, dan is er al sprake van gezondheidsinformatie.
Oke, je moet je even realiseren dat "contractor" hier het originele woord is. Contractor is een ander woord dan het Nederlandse aannemer. Een contractor is een zelfstandige partij. Zoals wij een ZZP-er hebben. Het is een dienstverlener en niet per se een aannemer zoals wij dat woord gebruiken.

De kans dat deze partij überhaupt iets moest bouwen voor 12.000 woningen is erg klein. Dat is namelijk niet te doen. Zelfs als het 0,5 dag kost, ben je ongeveer 20 jaar verder voor je klaar bent. Nee er wordt dan ook niet genoemd wat de aard van de werkzaamheden van de dienstverlener was.
Lekker kort door de bocht, dan vinden we leuk hier op Tweakers.
Realiseer je dat “gezondheidsinformatie” nogal een ruim begrip is.
Mee eens dat “gezondheidsinformatie” breed kan zijn, maar onder de AVG is het juridisch niet zomaar een “ruim begrip”. Het is een wettelijk gedefinieerde bijzondere categorie van persoonsgegevens (art. 9 AVG).

Dat omvat alle informatie over de lichamelijke of geestelijke gezondheid van een persoon, waaruit informatie over diens gezondheidstoestand kan worden afgeleid.

Dus ja, het feit dat iemand een traplift nodig heeft of slecht ter been is valt daar ook onder. Dat lijkt triviaal, maar juridisch is dat “bijzondere persoonsgegevens” met een zwaardere beschermingsplicht.

Het punt in mijn reactie was niet dat elke verwerking daarvan per se verboden is, maar dat zulke gegevens alleen verwerkt mogen worden als:
  1. er een expliciete wettelijke grondslag of toestemming is (art. 9 lid 2),
  2. en er privacy by design-maatregelen zijn genomen om te zorgen dat ze niet onnodig verspreid of geëxporteerd worden.
En dáár ging het in dit geval mis.
Als een aannemer opdracht krijgt om ergens een traplift te installeren omdat de eigenaar slecht ter been is, dan is er al sprake van gezondheidsinformatie.
Klopt, maar dan is de aannemer in dat geval direct betrokken bij de uitvoering van die voorziening. In de casus van NSW RA gaat het echter om een programma voor woningherstel na overstromingen, niet om individuele medische voorzieningen.

Het ging om een Excel-bestand met 12.000 rijen aan gegevens van deelnemers aan een subsidieprogramma. Er is geen enkel scenario waarin een individuele aannemer of externe consultant al die data zou moeten inzien om zijn taak uit te voeren. Dat iemand toegang had tot NAW-gegevens én gezondheidsinformatie van duizenden mensen om “een berekening of analyse” te maken, is dus onnodig ruim en dat is precies de dataminimalisatie-overtreding waar ik op wees.
Dus dat een aannemer informatie heeft ontvangen voor welke huizen die oplossing gebruikt mag worden is niet ongeloofwaardig.
Dat zou waar zijn als:
  • er één aannemer was,
  • en hij enkel toegang had tot de adressen waarvoor hij verantwoordelijk was,
  • en de gezondheidsinformatie beperkt was tot dat doel.
Maar het lek ging om een gecentraliseerd Excel-bestand dat zonder technische beperkingen geëxporteerd kon worden. Daarin zat gezondheidsinformatie van alle deelnemers. Dat is een compleet andere schaal en context.

Onder de AVG is het niet relevant dat er misschien een reden was voor een subset, het probleem is dat alle data beschikbaar was voor iemand die daar niet noodzakelijk toegang toe had.

Dat is juridisch het verschil tussen “gerechtvaardigde verwerking” en een “inbreuk op de beveiliging”.
Jouw mooie lange reactie is puur gebaseerd op een aanname die je niet kunt onderbouwen.
Integendeel: mijn reactie volgt de AVG-logica en de informatie die de NSW RA zelf heeft vrijgegeven.

De RA heeft bevestigd dat:
  • er gezondheidsinformatie in het bestand stond;
  • het bestand door een contractor buiten de organisatie is geüpload;
  • en dat er geen toestemming of contractuele basis was voor gebruik van een AI-tool.
Dat impliceert automatisch dat er onvoldoende toegangsbeperkingen en beveiliging aanwezig waren.

Dat is geen aanname, dat is letterlijk wat de RA zelf rapporteerde en wat onder de AVG als structurele tekortkoming geldt.
Bij oude versies van Excel was het password inderdaad makkelijk te verwijderen.
Bij de nieuwe versies niet. En de encryptie is AES256 met de nodige maatregelen om bruteforcen te vertragen.
Dat geeft die website ook gewoon aan. En de manier waariop ze er dan doorheen komen zijn dictionairy attacks en beschrijvingen die je zelf aangeeft van hoe je wachtwoord er uit zag.
Dat is dus absoluut niet triviaal om eraf te krijgen en net zo veilig als wanneer je de excel in een password beveiligd zip bestand stopt met AES256 encryptie.

Ik heb niet de engelse tekst bekeken.
Aannemer is een hele slechte vertaling van contractor en deze context dan zeer misleidend.
Maar als ze het hebben over een contractor bij de overheid, dan kan het ook zeer goed iemand zijn die tijdelijk is ingehuurd bij de overheid, maar daarbij dan een account krijgt van de overheid en een laptop van de overheid. Dus in weze gelijk is als een ambtenaar bij de overheid, maar alleen een tijdelijk contract heeft.
Dat is een situatie waarin de term contractor heel veel gebruikt word.
En dat betekent vooral dat al jouw aannames nog minder waarschijnlijk zijn dan ze al waren.
Er is geen enkel scenario waarin een individuele aannemer of externe consultant al die data zou moeten inzien om zijn taak uit te voeren.
Ook dat is weer een aanname.
Maar aangezien contractors ook heel vaak binnen de overheid gebruikt worden, valt die aanname al helemaal in het water. Want het kan dus gewoon een contractor zijn die op de betreffende afdeling van dat overheidsdepartement werkt. En dan zijn er dus talloze scenarios waarbij die contractor die data moet inzien om zijn taak uit te voeren.
En daarmee doen al jouw aannames en scenarios niet ter zake.

Het is nogal zinloos om te fantaseren wat er mogelijk gebeurd is en wat er in die gefantaseerde situatie dan allemaal mis is gegaan.
We hebben gewoon te weinig informatie over die contractor om over die situatie zinnige uitspraken te doen.
Maar aangezien contractors ook heel vaak binnen de overheid gebruikt worden, valt die aanname al helemaal in het water. Want het kan dus gewoon een contractor zijn die op de betreffende afdeling van dat overheidsdepartement werkt. En dan zijn er dus talloze scenarios waarbij die contractor die data moet inzien om zijn taak uit te voeren.
Worden ze zeker. Ik ben zelf ook een van die dienstverleners. Punt is dat er niet talloze scenario’s zijn waarbij je bij deze gegevens moet, en ook nog eens de optie hebt om bij een chatGPT te kunnen.

Als je met zulke data werkt hoort dit

A) simpelweg gewoon niet in excel. Dit is niet de hoofddatabase en een export van een ander systeem. Iets wat in beginsel al niet had moeten kunnen.

B ) op een machine van desbetreffende overheid inclusief beveiliging dat deze gegevens dus alleen onder strikte audit geraadpleegd kunnen worden

C) met dusdanige endpoint protection dat dit gewoon niet kan. ChatGPT installeren of überhaupt de site bezoeken zou dan gewoon geen optie moeten kunnen zijn. En ja iets als Cisco umbrella kan dat gewoon afdwingen en zelfs inhoudelijk afvangen
Aannemer is een hele slechte vertaling van contractor en deze context dan zeer misleidend.
Absoluut mee eens.
Dat is dus absoluut niet triviaal om eraf te krijgen en net zo veilig als wanneer je de excel in een password beveiligd zip bestand stopt met AES256 encryptie.
En dan nog is dat is ook niet veilig genoeg, want iemand met het wachtwoord kan dit wachtwoord ook weer eraf halen en dan het bestand weer verder delen zonder beveiliging. Dit is dus nooit voldoende om aan de AVG te kunnen voldoen, zeker niet met dit type gegevens.

Sorry, maar er zijn echt zoveel fouten gemaakt in de basis dat het uploaden naar ChatGPT echt niet het grootste probleem is in de data beveiliging. Daar moet jij het toch ook wel mee eens zijn?

Dan kun je zeggen, er kan een password op excel zitten, maar het feit dat je die data zonder audit uit een subsidieiaanvraagsysteem kunt trekken en dat er dan geen belletjes gaan rinkelen is al een probleem.

Dat het kennelijk triviaal is om een excel export te kunnen maken (is er een export knop voor?) is al een probleem. Dat kun je al niet staven met de AVG als er ook medische gegevens bij gemoeid zijn.

Het kunnen maken van de export an sich is al op meerdere vlakken een probleem.
Tja... er zit een groot verschil tussen hoe het zo horen en hoe het in de praktijk werkt.
In principe heb je gelijk met al je punten, maar ik ben bang dat het meer uitzondering dan regel is.
En dan zal in een ziekenhuis waar ze veel met gezondheidsgegevens werken het veel beter geregeld zijn. Maar bij een overheidsafdeling die in het algemeen waarschijnlijk weinig of geen gezondheidsgegevens verwerkt denkt men er niet over na dat je dat soort gegevens niet wil laten exporteren in een bestand waar je er dan verder geen controle meer over hebt.
En als er dan een privacy officer daar wat over zegt, dan word die heel vervelend gevonden. Ook in Europa met de GDPR.
Tja... er zit een groot verschil tussen hoe het zo horen en hoe het in de praktijk werkt.
Helaas wel ja, dat ben ik zeker met je eens.
Maar bij een overheidsafdeling die in het algemeen waarschijnlijk weinig of geen gezondheidsgegevens verwerkt denkt men er niet over na dat je dat soort gegevens niet wil laten exporteren in een bestand waar je er dan verder geen controle meer over hebt.
En als er dan een privacy officer daar wat over zegt, dan word die heel vervelend gevonden.
Dan nog komt deze informatie uit een extern systeem. Een systeem waar dus een export mogelijk in is gebouwd. Dit kan een of-the-shelf systeem zijn of maatwerk, maar die export functionaliteit is kennelijk aanwezig. Dat an sich is al op zoveel mogelijke manieren een probleem dat is niet grappig.

Kijken we dan vanuit dat oogpunt naar deze casus dan zien we dat het verhaal nog veel complexer is en dat er echt een gegronde reden is waarom ik roep dat het al bij de NSW RA fout ging en dat het ChatGPT verhaal an sich nog niet eens het probleem is. Dit is alleen wat er aan overtredingen gezien zou kunnen worden puur door het hebben van de optie om alles te exporteren:

Art. 5(1)(c) Dataminimalisatie
Als een systeem toelaat dat álle persoonsgegevens geëxporteerd kunnen worden, is er geen beperking tot wat “noodzakelijk” is voor het doel.

Art. 5(1)(f) Integriteit en vertrouwelijkheid
De mogelijkheid om gevoelige data ongecontroleerd te exporteren betekent dat er onvoldoende bescherming tegen ongeoorloofde toegang of verwerking is.

Art. 25(1)–(2) Privacy by design & by default
Er had technische beperking moeten zijn die voorkomt dat gebruikers meer data kunnen exporteren dan noodzakelijk. Ontbreekt die, dan is het ontwerp niet AVG-conform.

Art. 32(1) Beveiliging van verwerking
Onbeperkte exportmogelijkheid zonder logging, encryptie of autorisatie is een tekortschietende beveiligingsmaatregel.

Art. 24(1) Verantwoordingsplicht van de verantwoordelijke
De RA moet kunnen aantonen dat beveiliging en privacy-principes in het systeem verankerd zijn. Een open exportfunctie is daar bewijs van het tegendeel van.

En dan hebben we het nog niet eens gehad over het wel of niet aanwezig zijn van een DPIA, Internationale doorgifte (chatGPT is US based) en überhaupt het mogen verwerken van gezondheidsdata (Art. 9(1)) gezien het volledig ontbreken van goede beveiligingsmaatregelen (want dan kun je onder lid 2 en haar subleden nog wel weer wat voor elkaar krijgen). Onder 2(h) en 3 zou je dit namelijk nog wel kunnen doen (sociale diensten verlenen), maar dan moet je ook wel daadwerkelijke ambtelijke processen door zijn gegaan (dus dingen zoals eed afleggen).
En dan zal in een ziekenhuis waar ze veel met gezondheidsgegevens werken het veel beter geregeld zijn.
Was het maar zo'n feest. Ik heb de GGD ook op hun donder gegeven toen ik een werkinstructie van ze vond op het internet waar de export functionaliteit werd uitgelegd. Soortgelijk voor een GGZ zorgverlener die een mail met een verbeterpunt voor de software 1-op-1 had doorgestuurd naar de leverancier. Een bedrijf waar ik net 3 dagen daarvoor een solicitatiegesprek had gevoerd. Thanks!

Het is gewoon bar slecht gesteld in alle bedrijven waar data wordt verwerkt omdat het vaak te moeilijk en restrictief wordt gevonden, maar dat is JUIST omdat het gewoon NIET MAG.
Waarom krijgt een aannemer voor woningbouw persoonlijke informatie van die bewoners inclusief medische gegevens ????

Lijkt me hier dan toch ook wel zeker een zeer grote fout begaan bij de overheidsmedewerker die deze data in de eerste plaats verschaft heeft aan de aannemer ???
Dit is de essentie:
Dat ongeautoriseerde gebruik van een AI-tool blijkt een datalek te zijn, doordat de voormalige aannemer persoonlijke gegevens van burgers heeft geüpload.
maar de gegevens zijn niet met iemand anders per ongeluk gedeeld dan met ChatGPT. Dus de actie opzich wordt bestempeld als datalek, maar het is eigenlijk een symantische discussie of er echt sprake is van een lek. Want ik zat even te lezen wat is hier nu aan de hand.

Ik zou haast zeggen, pas als OpenAI gehacked wordt en die gegevens naar buiten komen, dan zou je feitelijk kunnen spreken van een lek.

[Reactie gewijzigd door loewie1984 op 9 oktober 2025 13:20]

Het is helemaal geen symantische discussie. Het is een keiharde feit.

Onze AP schrijft het volgende:
Een datalek is bijvoorbeeld:

Persoonsgegevens die aan een verkeerde geadresseerde zijn verstuurd;
Verderop staat dit:
Inbreuk op de vertrouwelijkheid: persoonsgegevens zijn openbaar gemaakt of er is toegang geweest tot persoonsgegevens. Dit is gebeurd door iemand die daartoe niet bevoegd is. Of dit is per ongeluk gebeurd. 
Er staat niet dat gegevens 'naar buiten moeten komen'. Een verloren USB stick is óók een datalek, ongeacht of iemand die vindt.

Bron: https://www.autoriteitpersoonsgegevens.nl/themas/beveiliging/datalekken/wat-is-een-datalek
Stel als je de Ai tool ziet als een verbrandingsoven, is het ook een lek als je per ongeluk een usb stick hebt verbrand?

De voorbeelden die je schetst hebben duidelijk kans dat iemand het in kan zien. Als de Ai tool deze data niet deelt of opslaat, is het dan ook een lek?

Verder overigens eens dat dit niet ok is, maar dit gebeurt op dit moment waarschijnlijk aan de lopende band.
verlies van data is ook een datalek
Maar dan moet je het dus weer over de definitie van verlies hebben....

Als alle persoonsgegevens door een brand worden vernietigd, zal niemand hoeven worden ingelicht dat ze misschien de gegevens zullen misbruiken.

Als verlies echter betekent: "de data is nu ook (of alleen) elders dan bij de partij die die gevens beheerd" dan moeten er mensen worden ingelicht.

En bij data is er dus iets vreemds t.o.v. fysiek goed; je kan het verliezen zonder het zelf kwijt te raken.... :P
"Inbreuk op de beschikbaarheid: de organisatie waar het datalek is (geweest) kan niet meer bij de persoonsgegevens komen. Of de gegevens zijn vernietigd. Dit is gebeurd door iemand die daartoe niet bevoegd is. Of dit is per ongeluk gebeurd. "

https://autoriteitpersoonsgegevens.nl/themas/beveiliging/datalekken/wat-is-een-datalek
Mooi voorbeel:
een usb stick met een kopie van gevoelige gevenes per ongeluk door de schredder halen waar de oude diskdrives doorheen moeten. hij is dus veilig vernietigd maar omdat de data niet alleen op die stick stonden (maar ook op een afgeschermde sharepoint bijv) zijn de gegevens niet vernietigd en is ook de beschikbaarheid niet geraakt.
dus dan is dus zoals gesteld de vraag is hier nu sprake van een data lek?

de grote vraga in dit voorbeeld heeft chatGPT nu dede data of verwijderen ze die automatisch. indien het laatste geval dan ook weer de vraag is er nu sprake van een lek? de data is nog steeds volledig beschikbaar binnen de organisatie, is niet aangetast, en is niet in verkeerde handen gevallen. Dan word het dus een semantiek discussie of de korte tijd dat de data bij chatGPT verwerkt is een lek is. En als het dat formeel al is hoe ernstig is het daadwerkelijk?
AVG technisch is dit in de puurste vorm nog steeds een lek, want:
  • Er moet een doelbinding zijn waarom deze USB-stick bestaat (anders is het backuppen op de USB-stick een ondoelmatige verwerking en dat is niet toegestaan).
  • Als het niet de bedoeling was dat de (doelmatige) USB-stick vernietigd werd, is het per ongeluk wel vernietigen ervan dus een ondoelmatige verwerking en dus een datalek.
Oke, maar nu even in de echte wereld.

Is er nu sprake van inbreuk op de beschikbaarheid? Nee.
Zijn de gegevens vernietigd? nee
was diegene niet bevoegd? nee.


Dus is dit echt een issue waar de gevolgen nog niet van bekend zijn? Nee

Had die aannemer dit moeten doen? Zonder verwerkingsovereenkomst niet.
Diegene (ChatGPT) was niet bevoegd tot de data en heeft deze wel verwerkt. (Datalek)

De oorzaak daarvan lag dus bij de medewerker van de aannemer, die inderdaad bevoegd was.

De gevolgen van deze actie zijn niet bekekend, want er is niet bekend of deze data ooit via ChatGPT weer beschikbaar komt.
Het data lek zit al veel eerder in de keten. Dat is namelijk de NSW RA zelf al die gegevens van 12.000 mensen in een excelletje rondmailt. Dat kan gewoon niet. Zeker niet als daar ook nog medische gegevens in staan.
De privacy wet in Australië is minder streng dat de AVG/GDPR.
Maar ook in de AVG/GDPR staat geen verbod voor het opslaan van medische gegevens in een Excel document.

Maar je het hebt wel gelijk dat het datalek waarschijnlijk al eerder in de keten zat. Want waarom heeft de aannemer toegang nodig tot medische gegevens?
Zeker als het gaat om het bestand maken van woningen tegen overstromingen.

Als een aannemer aanpassingen moet maken een woningen voor minder validen, dan is het logisch dat er enige medische gegevens in staan. Het feit dat je een aanpassing maakt voor een minder valide is al een medisch gegeven.
Maar zou een woning op een andere bestand gemaakt moeten worden tegen overstromingen als er een minder valide woont?
Maar ook in de AVG/GDPR staat geen verbod voor het opslaan van medische gegevens in een Excel document.
Zeker wel. Je heb namelijk helemaal geen access controls en encryptie op file niveau. Medische gegevens mag je niet buiten een beveiligde omgeving hebben/gebruiken, want je het 0 access control.

het is niet expliciet excel nee, maar wel datgene wat excel allemaal niet kan bieden. Medische gegevens kun je nooit veilig in excel hebben. Dat strookt niet met de AVG.
De privacy wet in Australië is minder streng dat de AVG/GDPR.
Dat klopt, maar als we het toetsen aan onze AVG (en ook aan logisch nadenken) dan is het probleem niet de dienstverlener en ChatGPT, maar simpel het ontbreken van accesscontrols en doelmatigheid van het opslaan van gegevens.
Je kan prima access control op een excel file toepassen. Tegenwoordig is de password functionaliteit wel goed en je kunt ook Microsoft rights management toepassen op een excel bestand.

En uiteraard telt de bescherming van de lokatie waarin je het excel bestand opslaat ook mee.
Maar als jij denkt dat dat niet zo is, dan hoor ik graag in welk artikel van de wet dat dan zou staan.

Uiteraard geeft de wet aan dat medische gegevens goed beschermd moeten worden. Maar de wet gaat niet in zo'n detail in op hoe je dat wel of niet zou mogen doen.
Je kan prima access control op een excel file toepassen. Tegenwoordig is de password functionaliteit wel goed en je kunt ook Microsoft rights management toepassen op een excel bestand.
Zodra je die file uit handen geeft dan niet meer. Een derde partij kan er daarna mee doen en laten wat ie wil.

En dat is dus precies wat hier fout is gegaan.
En uiteraard telt de bescherming van de lokatie waarin je het excel bestand opslaat ook mee.
Zeker! en dat is nu dus aantoonbaar niet goed aanwezig geweest.
Uiteraard geeft de wet aan dat medische gegevens goed beschermd moeten worden. Maar de wet gaat niet in zo'n detail in op hoe je dat wel of niet zou mogen doen.
Uiteraard ontbreekt dat detail, dat is ook het punt niet. Je hebt helemaal gelijk dat de combinatie van lagen hetgeen is wat uiteindelijk de beveiliging maakt of breekt, maar dat was hier gewoon niet goed gegaan.
Wederom allemaal aannames.
Nu je hebt aangegeven dat het over een contractor gaat (bedankt) zijn er talloze situaties denkbaar waarin het volledig valide is dat die contractor toegang moet hebben tot de informatie in het excel bestand.
En dat het dus ook niet zo hoeft te zijn dat de beveiliging daarvan slecht was.

Tenzij je meeneemt dat de beveiliging had moeten voorkomen dat de contractor dit kon uploaden naar chatgpt.
Wij blokkeren bv toegang tot chatgpt en andere publieke AIs.

Maar een contractor kan gewoon iemand zijn die tijdelijk ingehuurd is bij de overheidsafdeling en dus dezelfde rechten en toegang heeft als de andere ambtenaren op die afdeling. In de betreffende Engelse tekst over het lek is dat niet vast te stellen.

Wel bijzonder hoe ze eerst praten over "some people"
The NSW Reconstruction Authority (RA) is aware of a data breach involving personal information belonging to some people who applied for the Northern Rivers Resilient Homes Program (RHP).
Aan het eind pas vermelden dat het er minstens 3000 zijn. (sinds wanneer is dat "some"?)
En het gaan om een bestand met 12000 rijen en 10 kolommen. Het lijkt me extreem waarschijnlijk dat er 1 rij per persoon/huis was.
Maar een contractor kan gewoon iemand zijn die tijdelijk ingehuurd is bij de overheidsafdeling en dus dezelfde rechten en toegang heeft als de andere ambtenaren op die afdeling.
Ik denk ook zeker dat dit het geval is.
Nu je hebt aangegeven dat het over een contractor gaat (bedankt) zijn er talloze situaties denkbaar waarin het volledig valide is dat die contractor toegang moet hebben tot de informatie in het excel bestand.
En dat het dus ook niet zo hoeft te zijn dat de beveiliging daarvan slecht was.
Zoals ik net in een andere reactie al aangaf komt de data uit een subsidieaanvraag systeem. Het feit dat het kennelijk triviaal is om een “export all” te doen va die data zodat het in excel komt is al niet goed.

zodra er medische gegevens om de hoek komen kijken moet je gewoon een audit-trail kunnen tonen van het systeem en zodra daar in de log staat “Jantje exported everything to CSV” ben je al nat. Ik zal zo wel even een volledige analyse geven waar het fout gaat, welke AVG artikelen daar nog problematisch zijn en waarom dit op geen enkele manier goed te praten valt.

Mijn initiële reactie was kort door de bocht, maar niet omdat ik niet al de onderliggende issues al had bekeken. Er gaat gewoon te veel fout.


Maar laten we dat gesprek ook even consolideren op die andere thread. Dat praat wat makkelijker.

[Reactie gewijzigd door supersnathan94 op 10 oktober 2025 16:03]

Ik snap ergens niet dat ChatGPT niet zelf al (in de UI) een check doet om te zien of ergens (overduidelijk) persoonlijke gegevens in staan. Er zijn genoeg libraries die bijvoorbeeld namen of social security nummers kunnen herkennen in tekst.

Alleen al een extra waarschuwing van "Hee, het lijkt er op dat je persoonlijke gegevens van iemand deelt. We hebben deze nog niet ontvangen, dus als je op STOP klikt voorkom je een datalek" zou opzich wel een blijk van goed gebaar zijn van OpenAI (en Google, en Antrophic, etc).
Best een goed idee eigenlijk, met de kanttekening dat dit goodwill van de ontvangende partij is, terwijl de verantwoordelijkheid bij de zender ligt.

Jouw idee kan ook eigenlijk alleen maar als die check gegarandeerd (en verifieerbaar) client-side wordt uitgevoerd, vóórdat de data daadwerkelijk wordt geupload. Anders heb je formeel gezien nog steeds een datalek, omdat de data al bij OpenAI is aangekomen (ook al deleten ze het voordat er wat mee gebeurt).
Deze persoon wilde sowieso al iets doen met die gegevens anders upload hij het niet naar ChatGPT en die zal dus gewoon op Ja klikken. Want hij weet ook wel dat hij eigenlijk ChatGPT niet mag gebruiken met deze gegevens, dat staat immers in de policy waar hij al van af weet.

Die popup is gewoon een extra klik op Ja om zijn doel te bereiken.

Je kan hooguit zeggen dat de overheid een tool zou moeten hebben (DLP) die opmerkt dat jij een bestand upload die persoonsgegevens bevat en daarop het uploaden blokkeerd. Dan voorkom je namelijk niet alleen een datalek naar een willekeurige chatbot die misschien een functie heeft het te checken, maar ook naar een chinese bot die dat niet heeft of het uploaden naar een persoonlijke google drive zodat ze er thuis aan kunnen werken.

[Reactie gewijzigd door SunnieNL op 9 oktober 2025 16:04]

Want hij weet ook wel dat hij eigenlijk ChatGPT niet mag gebruiken met deze gegevens, dat staat immers in de policy waar hij al van af weet.
De overheid weet ook dat het persoonlijke gegevens niet een een excel sheet moet mailen naar een 3e partij, maar dat hebben ze ook gewoon gedaan. Wat dat betreft geef ik die dienstverlener verder de schuld niet. Het ging al fout bij de NSW RA.
Deze persoon wilde sowieso al iets doen met die gegevens anders upload hij het niet naar ChatGPT
Of deze persoon heeft niet juist gekeken en het verkeerde bestand geselecteerd. Of wist niet dat er op de tweede tab persoonsgegevens stonden. Of plakte het per ongeluk in ChatGPT in plaats van de interne chatagent die ze wel mogen gebruiken en er hetzelfde uit ziet.
In jouw voorbeeld is de verbrandingsoven hetzelfde als een usbstick laten vallen op de grond en direct oprapen. Dat is niet verliezen, dat is vernietigen.

En ja, als hier data op staat die niet elders is, dan is óók dat een datalek.

Ik quote de AP weer:
Of de gegevens zijn vernietigd.
Ik weet net zo min of een verloren USB stick gelezen wordt als dat ik weet of ChatGPT de data kan reproduceren.


In 2017 is de patiëntenfederatie een HDD verloren met data van 25.000 personen. Dit is ook een datalek. Tot op de dag van vandaag is niet duidelijk of deze gevonden, uitgelezen of misbruikt is.

Bron: https://www.security.nl/posting/543934/Pati%C3%ABntenfederatie+verliest+harde+schijf+met+data+25_000+personen

Ook als je een Bitlocker protected device kwijtraakt en je zeker weet dat niemand de data kan lezen: datalek.


Het gaat er niet om of iets zelfs ook maar een extreem kleine kans maakt om gevonden of misbruik te worden. Het verliezen alleen al is een datalek - basta.
Duidelijk, dank voor de uitleg.
Maar het moedwillig slopen van een datadrager onder ISO / IEC 21964 is dat absoluut niet.

Dus een HDD de verbrandingsoven in yeeten is niet per se een datalek. Als je maar kunt aantonen dat er geen reconstructie mogelijk is.

Een kopie vernietigen is ook geen datalek (anders kan databasenormalisatie nooit meer).
Als je dat proces beschreven hebt en uitgevoerd hebt volgens je policies, is het inderdaad geen datalek.

Als het ongeauthoriseerd is gebeurd, is het dat wel.
Wat betreft een verloren encrypted USB stick is het een beetje onduidelijk.
Er zijn 3 soorten datalekken:
https://www.autoriteitper...atalek#soorten-datalekken
- Inbreuk op vertrouwelijkeheid
- Inbreuk op integriteit
- Inbreuk op de beschikbaarheid.

Op het moment dat de data encrypted is, dan is er uiteraard geen sprake meer van een inbreuk op de vertrouwelijkheid.

De AP geeft aan:
Inbreuk op de beschikbaarheid: de organisatie waar het datalek is (geweest) kan niet meer bij de persoonsgegevens komen. Of de gegevens zijn vernietigd.
Als die USB stick de enige plek is waar de persoonsgegevens staan, dan is er duidelijk sprake van een inbreuk op de beschikbaarheid.
Maar als er op die encrypted USB stick alleen een kopie van de data staat. Is er dan sprake van een inbreuk op de beschikbaarheid? Als je naar deze omschrijving kijkt niet, want de organisatie kan nog steeds bij de persoonsgegevens.

Op dezelfde pagina geeft de AP voorbeelden van datalekken:
het verlies van een USB-stick met niet-versleutelde persoonsgegevens;
Dit suggereert dat het verlies van een USB-stick met wel versleutelde persoonsgegevens geen datalek is.
Ja, er is nog steeds spraken van een lek. De data is toegestuurd aan en verwerkt door een partij waarvan dit niet de bedoeling was.
Maar een Ai tool is geen verbranding oven did info kan worden opgeslagen en gebruikt worden.
Stel dat je de Ai tool ziet als een sinaasappel, is het dan een sinaasappel?
En hoe zit dat met postnl pakketjes waarvan je bij de pakketpunten zo alle gegevens van klanten kan zien omdat die gegevens op het verzendlabel staan?
edit:
Ik doel op dat klanten van de winkel de gegevens op het label al kunnen inzien. En ik begrijp niet zo goed waarom dit een 0 krijgt en alle reacties eronder +1.

[Reactie gewijzigd door moonlander op 9 oktober 2025 14:18]

Als PostNL gewoon een verwerkingsovereenkomst heeft met die pakketpunten en er niet meer data wordt opgeslagen dan nodig, is dat geen datalek.
Tenzij het rek met pakketjes zichtbaar is voor klanten?
Dan is er sprake van reguliere verwerking van data volgens de gebruikers voorwaarden van de pakket diensten
Voor de medewerkers wel.

Als andere klanten de adresgegevens kunnen lezen, is er in principe een datalek.
Als je op de medewerkers van de postverwerking\pakketpunt doelt, die hebben een grondslag. Voor post zal dit of een wettelijke verplichting zijn, gerechtvaardigd belang of simpelweg een (koop)overeenkomst.

Die van PostNL kan je hier nalezen: https://www.postnl.nl/privacy-verklaring/

Wat is een grondslag? Lees dit hier: https://www.autoriteitpersoonsgegevens.nl/themas/basis-avg/avg-algemeen/grondslagen-avg-uitgelegd


Als je bedoeld dat mensen in de openbare ruimte labels kunnen lezen van pakketten die onafgeschermd zichtbaar liggen, dit zal niet mogen verwacht ik. Hier kan je dan een klacht over indienen.
In principe is dit een datalek!

Als jij als klant de naam/adres van andere klanten kan lezen op opgeslagen pakketjes, is dit niet de bedoeling van de dataverwerking van het pakketpunt.

Dat een medewerker dit kan, is natuurlijk onderdeel van het proces.
Simpele taal,

Je hebt een bak met 11 potloden netjes naast elkaar, je gaat weg en je komt en vindt er maar 10 potloden in je bak. Dan is er sprake van 'datalek'.

Ook al vind je naast de bak, op de grond, half in de bak, of zelfs aangeraakt. Dat is al fout.

Je hebt taal die wij gebruiken en taal die gebruikt worden in de rechtzaal is vaak anders.
Nouja, op basis van onze AVG zijn er natuurlijk ook al andere zaken waar je vraagtekens bij kunt zetten. Laten we beginnen bij het feit dat beiden van jouw punten hier niet eens relevant zijn. Het gaat daarvoor al fout.

NSW RA is de verwerkingsverantwoordelijke.
Onze AP schrijft het volgende:
[...]
Niet van toepassing, ChatGPT was niet een geadresseerde. Het is niet dat de gegevens van Pietje per ongeluk naar Klaasje zijn verstuurd.

Nee OpenAI was hier een subverwerker.

[...]
Er staat niet dat gegevens 'naar buiten moeten komen'. Een verloren USB stick is óók een datalek, ongeacht of iemand die vindt.
Ook niet relevant op die manier, want er is geen openbaarmaking. De gegevens zijn niet ineens publiekelijk toegankelijk (en zullen ook niet ineens op "the darkweb" terechtkomen). Het probleem is dat deze gegevens al beschikbaar zijn in een extern systeem. Maar dat is nog voordat het in ChatGPT kwam al.
Het enkel hebben van een onbeveiligde kopie met persoonsgegevens buiten de gecontroleerde omgeving kan al een inbreuk op de beveiliging vormen.

(Bron: AP, uitleg datalekken 2023)
Het gaat hier om rechtmatigheid mbt verwerking. Had de aannemer de bevoegdheid een 3e partij in te schakelen voor gegevens verwerking (cq. was er een officiële dataverwerkingsovereenkomst met de overheid) en had de aannemer ook een dataverwerkingsovereenkomst met OpenAI waarmee geborgd werd dat die data ook vertrouwelijk blijft (zoals je met Azure wel kunt hebben als je de data binnen je tenant houdt bijvoorbeeld).

Zoals hieronder ook gesteld wordt over beschikbaarheid is er ook niks aan de hand. De aannemer had per definitie een kopie en niet het origineel.

De vraag is wat mij betreft of de aannemer al deze gegevens al had mogen hebben. Voor de werkzaamheden zou hij deze waarschijnlijk helemaal niet allemaal nodig hebben. Het gaat immers om 12.000 rijen met gegevens. Deze aannemer gaat niet al die mensen aanschrijven of bezoeken. Wat mij betreft ligt het lek dan ook al veel eerder in de ketting en heeft de RA helemaal niet de afweging gemaakt of deze onderaannemer wel al deze gegevens nodig had. En puur gekeken naar wat er daadwerkelijk is gebeurd, aannemer in deze conext kan daadwerkelijk een bouwer zijn, maar het kan ook gewoon een bepaald bureautje zijn wat iets uit moest rekenen. Een "contractor" is in die zin gewoon een externe dienstverlener.

Medische gegevens in een Excel bestand is gewoon altijd een no-go.


Ik denbk dat ik het hier wat beter verwoord: supersnathan94 in 'Gegevens van Australische burgers uitgelekt via ChatGPT-gebruik door overheid'

[Reactie gewijzigd door supersnathan94 op 9 oktober 2025 18:09]

@Triblade_8472 en alle anderen hieronder.
Ik zal het niet proberen recht te praten, en tuurlijk volgens de AVG wetgeving is het feitelijk een datalek.

Maar het zou af kunnen hangen van wat de opdrachtgever heeft opgeschreven in zijn beleid over het gebruik van AI of ChatGPT in het bijzonder. Hebben ze expliciet opgeschreven dat het gebruik van ChatGPT niet geoorloofd was, hebben ze dit gecommuniceerd aan hun opdrachtgevers, was er een verwerkersovereenkomst opgesteld tussen opdrachtgever en opdrachtnemer die de privacy details van de te verwerken van data bevat. Is de AVG of andere wet in Australië identiek aan die van NL (Wet is wet uiteraard, maar nog steeds ruimte voor interpretatie, toevoegingen of het overrulen van wetgeving van een hoger orgaan, zoals bijv. in Europa, daar schrijft de EU de NIS2 voor en NL de Cyberbeveiligingswet)

De aannemer zou 'tijdelijke chat' aan kunnen hebben staan gehad, of het vinkje in de instellingen dat gegevens niet met OpenAI gedeeld mag worden.

Dat zal wel allemaal niet, en is ook te veel detail om in een nieuwsbericht naar buiten te brengen en mogelijk brengt het de eigen organisatie misschien in verlegenheid. Maar deze nuance mis ik toch in het verhaal. Laat ik het dan zo stellen, dat er sprake is van een datalek is duidelijk, maar de vraag is: wie is de veroorzaker.
Er is ongeauthoriseerd (persoonlijke)data waar de lokale overheid verantwoordelijk voor was verwerkt in een externe tool die deze data eventueel kan opslaan en/of hergebruiken.

Volgens diverse wetgevingen is dit wel degelijk een datalek.

Dit is een van de redenen waarom bedrijven veel strikter moeten kijken naar (gratis) tools die werknemers gebruiken en deze proactief blokkeren.
"verwerkt in een externe tool die deze data eventueel kan opslaan en/of hergebruiken."

In zekere zin is dit nieuwsbericht vreemd. Het verwerken van data in een externe tool die deze data eventueel kan opslaan en/of hergebruiken gebeurt natuurlijk constant. Dat is ook het geval wanneer iemand iets in een Google-zoekopdracht invoert, of wanneer iemand een plugin gebruikt in de browser die toegang heeft tot de informatie op het scherm. Dit nieuwsbericht is in zekere mate dan ook een voorbeeld van selectieve verontwaardiging, want ‘AI’, dus ‘eng’.
Het nieuwsbericht is niet vreemd.

Wat jij zegt klopt namelijk.

Pas wanneer een bedrijf een DPIA (Data Protection Impact Assessment) heeft gedaan en een DPA (Data Processing Agreement) met het bedrijf/de tool heeft, mag een tool gebruikt worden in een bedrijf.

Dit zijn de regels waaraan bedrijven zich moeten houden volgens de GDPR.

Als data subject (jouw gegevens), moet je nameijk bij elk bedrijf kunnen opvragen op welke wijze en met welke tools en welk doel, jouw data verwerkt wordt.

In principe verwerk je met Google data. Als je dit doet met persoonlijke data, moet je dit volgens de GDPR vastleggen, traceerbaar hebben etc. Ik betwijfel echter of veel bedrijven dit voor Google hebben.
"Ik betwijfel echter of veel bedrijven dit voor Google hebben"


Dit is precies mijn punt; hier hoor ik niemand over, terwijl het feitelijk niet minder kwalijk is. De nieuwswaardigheid van het geval in dit niewsbericht wordt beschreven is dus discutabel.
Nee, de nieuwswaardigheid is juist heel groot. Wij burgers (datasubjects), maar ook (medewerkers van) bedrijven moeten veel meer weten over dit onderwerp.
Ik snap je uitgangspunt wel, maar ten eerste speelde dit zich af aan de andere kant van de wereld. En ten tweede; dit gebeurd waarschijnlijk tientallen of wellicht honderden (duizenden?) keren per dag in ons eigen land.
Ze hoeven nietper sé gehackt te worden. Jouw ingevoerde gegevens toevoegen aan hun trainingsdata is voldoende.

Daarom is transparantie over wat er met ingevoerde gegevens gebeurt belangrijk.
Er is een opt-out optie in chatgpt, zodat je data niet gebruikt voor trainingsdoeleinden. Het wordt dan ook niet gebruikt door chatgpt, of opgeslagen. Daarbij zijn nog opties om de chat te wissen.

Nu is de vraag, of hij die opt-out heeft aangezet, om de data niet te gebruiken voor training. Standaard staat die namelijk wel aan.

Is het een datalek, als je er vanuit mag gaan, dat als je opt-out heb gekozen, dat de data niet verder gebruikt wordt? En dat lijkt mij niet een datalek. Netzomin als je online excel gebruikt of word. Is het een datalek als je een document opent in de cloud? Lijkt mij niet.

Zelfde overigens met adobe. Daar kunnen ze ook content-analyse doen. En daar ook weer een opt-out optie. En staat het uiteraard standaard aan. Dus als je een pdf-je online opent, kan je dan spreken van een datalek? Wel als je niet gekozen hebt voor die opt-out.
Ik vermoed dat de medewerker ChatGPT helemaal niet mag gebruiken. Ook als je dan dat opt-out vinkje zet (wat zover ik weet alleen in de betaalde versies kan), dan is er sprake van een datalek. Je geeft de data immers aan niet geauthoriseerde verwerkers. Dat zou in europa een schending van de GDPR zijn als deze niet genoemd staat als gegevens verwerker.

Voorbeeld:

Bij mijn gemeente is er een gegevensverwerkingsovereenkomst met Microsoft. Die wordt ook genoemd als 3rd party die gegevens van mij verwerkt (o.a. zaaksysteem op sharepoint). Dan zou de medewerker het ook in copilot mogen gebruiken, mits dat door de gemeente is toegestaan (AI policy). In geen geval zou deze gegevens van mij mogen gebruiken in ChatGPT, ook niet als ze een betaald account hebben en de opt-out doen. Dat zou alleen mogen als ChatGPT als gegevensverwerker wordt genoemd van de gemeente.
Bij een werkgever zag ik dat gevoelige data via Slack verstuurd wordt, na bevestigde ontvangst wordt het uit de chat verwijderd, maja is het dan wel echt weg?
Nee, het is dan niet echt weg.. Ook bij Microsoft niet.

Er is niets mis met gevoelige data via Slack versturen, mits de werkgever dit beschreven en gedocumenteerd heeft als dataverwerking. . (en een DPIA heeft uitgevoerd op de tool).
Ook als er gebruik is gemaakt van een opt-out zou het nog steeds om een datalek gaan. Het gaat er namelijk niet om wat de partij waarmee gegevens gedeeld wordt doet of mag doen met die gegevens, maar of het delen van die gegevens met die partij geautoriseerd is.
Je weet niet wat Chatgtp er mee doet, als die dat weer gaat gebruiken in antwoorden naar andere gebruikers lijkt me dat een lek. Maar als Chatgtp dat niet doet is het dan een lek? Want dan is het altijd een lek als je een clouddienst gebruikt (teams? outlook365, elke loodgieter met een hotmail adres?)
Wat Chatgpt ermee doet is lijkt me irrelevant, ook als ze daar niets mee doen is het nog steeds een datalek. Het is een datalek omdat de data ongeautoriseerd is gedeeld, en dan maakt het niet uit met wie dat gebeurd. Want anders zou je het ook geen datalek hoeven te noemen zolang een hacker die de gegevens steelt er vervolgens niets mee besluit te doen.
Dus mogen ze geen Google, Apple, Microsoft meer gebruiken en geen enkele clouddienst. Ook geen systemen meer aan het internet.
Dat vind ik niet. Op het moment dat het gebruik van een clouddienst is geautoriseerd en de wijze van verwerking van de gegevens voldoet aan de voorwaarden die de privacywetgeving stelt dan is er natuurlijk geen sprake van een datalek.
Ik ging gewoon in op je eigen tekst. misschien zo duidelijker:

Wat de Clouddienst ermee doet is lijkt me irrelevant, ook als ze daar niets mee doen is het nog steeds een datalek. Het is een datalek omdat de data ongeautoriseerd is gedeeld, en dan maakt het niet uit met wie dat gebeurd. Want anders zou je het ook geen datalek hoeven te noemen zolang een hacker die de gegevens steelt er vervolgens niets mee besluit te doen.
Dat slaat alleen nergens op. Het gaat erom om de gegevensverwerking is geautoriseerd en in overeenstemming is met privacy-wetgeving. Dat gaat dus in dit geval niet op voor chatgpt. Ik maak het even op jouw manier duidelijk:

Je beweert in feite dat deze twee beweringen dezelfde strekking hebben:

1) "Wat een dief doet met gestolen waar is irrelevant, ook al geeft hij het aan een voedselbank het blijft diefstal"

2) "Wat een consument doet met gekochte waar is irrelevant, ook al geeft hij het aan een voedselbank het blijft diefstal"
En wat als de dienstverlener de API had gebruikt? Dan zegt ChatGPT expliciet niets te doen met de toegestuurde data en prompt. Dus als zij zelf een bepaalde verwerkingspipeline hebben die de API gebruikt, zijn ze dan in overeenstemming met privacy wetgeving?
Ook al stelt ChatGPT dat het niets doet met de toegestuurde data dan is er nog steeds geen toestemming om de data met ChatGPT te delen. Dus de term datalek is ook dan van toepassing, alleen kun je wellicht wel stellen dat de kans op misbruik laag is in vergelijking met bijvoorbeeld een datalek als gevolg van een phishing aanval. Dat wordt ook onderkent in dit geval:
What does the breach mean for me?

We believe the risk of misuse is low, however, we recommend staying alert for any suspicious emails or messages that ask for your personal details.
Heel eerlijk, het maakt al geen zak uit, want het is daar voor al compleet verkeerd gegaan. Er was al sprake van een datalek voordat er ook maar 1 Byte naar OpenAI was gestuurd.

supersnathan94 in 'Gegevens van Australische burgers uitgelekt via ChatGPT-gebruik door overheid'
however, we recommend staying alert for any suspicious emails or messages that ask for your personal details.
Dit komt niet als aanbeveling omdat het nu bij ChatGPT ligt kan ik je vertellen, Die hebben echt schijt aan die data en als ze het wel zouden gebruiken en ze slim zijn hebben ze het al weer verwijderd, want nu met dit nieuws is dit gewoon "tainted data". Levert alleen maar negatieve publiciteit voor ze op.

Nee de daadwerkelijke waarschuwing hier komt voort uit het feit dat het ging om een EXCEL sheet met medische data. ChatGPT is daarin echt de minst kwalijke zaak.
Dit is inderdaad de essentie!

Pas wanneer een bedrijf een DPIA (Data Protection Impact Assessment) heeft gedaan en een DPA (Data Processing Agreement) met het bedrijf/de tool heeft, mag een tool gebruikt worden in een bedrijf.

Dit zijn de regels waaraan bedrijven zich moeten houden volgens de GDPR.

Als data subject (jouw gegevens), moet je nameijk bij elk bedrijf kunnen opvragen op welke wijze en met welke tools en welk doel, jouw data verwerkt wordt.

Klinkt overdreven en veel gedoe he? Is het ook als bedrijf zijnde.
Als je per ongeluk een mailtje verkeerd adresseert, kan er al sprake zijn van een datalek. Dus upload naar AI is dat zeker ook.
Ook als "gebruik mijn data" uit staat? Zoals vroeger standaard bij (betaalde) Claude? Ik bedoel, je mail staat ook bij Microsoft, maar daarom is het nog geen lek. In dit geval vind ik het ook vreemd dat alleen de upload een "lek" is. Het gaat van de MS365 cloud naar die van OpenAI. Met allebei heb je bepaalde afspraken, maar het ene is ene lek en het andere niet? Het belangrijkste zijn dan toch die afspraken? Maar daar wordt met geen woord over gerept...
Als bedrijf hoor je in ieder geval onder de AVG dan een verwerkingsovereenkomst te sluiten met in dit geval Microsoft als daar je mail gehost wordt en/of OpenAI. Als je dat met Microsoft wel heb maar met OpenAI niet is er dan dus sprake van een datalek.

[Reactie gewijzigd door Ozzie op 9 oktober 2025 13:48]

Ik zou haast zeggen, pas als OpenAI gehacked wordt en die gegevens naar buiten komen, dan zou je feitelijk kunnen spreken van een lek.
Ligt eraan of OpenAI de input gebruikt voor het trainen/verfijnen van modellen. In dat geval zouden de gegevens (indirect) opgenomen worden.

[Reactie gewijzigd door vickypollard op 9 oktober 2025 13:22]

Dat de data bij een ongeautoriseerde partij terechtgekomen is, irrelevant of dit een individu of organisatie is, kwaadwillend of legitiem, is een datalek.
Ik zou haast zeggen, pas als OpenAI gehacked wordt en die gegevens naar buiten komen, dan zou je feitelijk kunnen spreken van een lek.
De data is wel degelijk weggelekt naar een andere service. GPT verwerkt het bestand en moet het daar lokaal opslaan om er iets met te doen. Dus je lekt el effectief data buiten om beveiligde omgeving. We weten allemaal dat GPT opgeladen data ook gebruikt om hun model te trainen.
De gegevens mochten niet gedeeld worden met OpenAI, dat is wel gebeurd. Dan is het toch een datalek? Dat de gegevens (nog) niet publiek beschikbaar zijn (geworden), maakt volgens mij verder niet uit.
Zoals veel andere schrijven, technisch gezien is het een datalek. Praktisch gezien, is er natuurlijk absoluut niks aan de hand. En door zulke verwateringen van definities neemt straks niemand het meer serieus.
Er is natuurlijk absoluut wel wat aan de hand.
Kun jij garanderen dat die data op geen enkele manier naar buiten kan komen? Nee!
Dus een datalek.
Het scheelt dat je dat nooit kan garanderen. Dus met die definitie kan je weinig.

Laat ik het zo stellen: Als jij straks ChatGPT gebruikt, en perongeluk het verkeerde copy paste, je BSN, zou jij dan extra gaan opletten de komende maanden voor identiteitsdiefstal? Of hell als jij perongeluk je e-mail wachtwoord erin gooit, verander je die dan direct?

[Reactie gewijzigd door Sissors op 10 oktober 2025 13:12]

Nee, dat is een rotsmoesje.

Als data encrypted is dan is dat voldoende beveiligd om te stellen dat de kans zo klein is dat het naar buiten komt dat er dan geen datalek is.
Ook dat is niet gegarandeerd, want in theorie kan die encrypted data gekraakt worden. Maar o kijken we er niet naar. We kijken naar wat realistisch is.

Maar dat is niet waar sprake van is in dit geval. Die data is in ChatGPT gekomen en wellicht meegenomen in de training. In dat geval is er absoluut een realistische kans dat die data naar buiten kan komen.

Kun jij met droge ogen beweren dat wanneer die data is meegenomen om het model te trainen dat er geen realistische kans is dat (een deel van) die data naar buiten komt?

Nee! Dus een datalek.
Als data encrypted is dan is dat voldoende beveiligd om te stellen dat de kans zo klein is dat het naar buiten komt dat er dan geen datalek is.
Ook dat is niet gegarandeerd, want in theorie kan die encrypted data gekraakt worden. Maar o kijken we er niet naar. We kijken naar wat realistisch is.
Kan jij dan garanderen dat de decryptie keys niet ook naar buiten zijn gegaan? Dat is het hele probleem vaak bij encrypted data: Leuk dat het encrypted is, maar om te gebruiken moet het toch ontsleuteld worden, en om dat werkbaar te houden zal dat automatisch bij de server vaak al gebeuren.
Maar dat is niet waar sprake van is in dit geval. Die data is in ChatGPT gekomen en wellicht meegenomen in de training. In dat geval is er absoluut een realistische kans dat die data naar buiten kan komen.

Kun jij met droge ogen beweren dat wanneer die data is meegenomen om het model te trainen dat er geen realistische kans is dat (een deel van) die data naar buiten komt?
Ja dat laatste kan ik probleemloos met droge ogen beweren. De kans dat dat gebeurd is zo verschrikkelijk klein. Ze hebben in oude modellen net wat fracties van compleet random trainingsdata naar buiten weten te krijgen.

En ik snap nog steeds dat het juridisch gezien een datalek is. Maar wat ik eerder had toegevoegd aan mijn post, als ik straks perongeluk eigen privé data in ChatGPT gooi, maak ik me absoluut nul zorgen erom dat het dan zou uitlekken.
Kan jij dan garanderen dat de decryptie keys niet ook naar buiten zijn gegaan?
Ja!
Je probeert wel leuk uitvluchten te verzinnen, maar er is een goede reden waarom de hele wereld vertrouwt op encryptie.
Ja dat laatste kan ik probleemloos met droge ogen beweren. De kans dat dat gebeurd is zo verschrikkelijk klein.
Dus dat alle bedrijven ter wereld met gevoelige data zich grote zorgen maken dat hun werknemers data in publieke AI stoppen is allemaal grote onzin. Want Sissors weet dat het totaal onzin is om je daar zorgen over te maken.
Gelukkig dat we het grote orakel Sissors hier op tweakers hebben die er meer verstand van heeft dan al die ontelbare hoeveelheid specialisten wereldwijd.
Ja!
Je probeert wel leuk uitvluchten te verzinnen, maar er is een goede reden waarom de hele wereld vertrouwt op encryptie.
Voor bepaalde toepassingen ja! Maar er zitten gewoon duidelijke limieten aan. Jij kan niet garanderen dat decryptie sleutels niet naar buiten gaan. Dan kan je doen voor one-way encryptie (lees: Wachtwoorden hashen en dergelijken). Niet voor iets waarbij je gewoon de data moet kunnen gebruiken.

Hoe denk je dat die aannemer de data in de eerste plaats heeft gekregen! Via een versleutelde overdracht. Inclusief de sleutels om het te ontsleutelen, anders had hij niks ermee gekund.
Gelukkig dat we het grote orakel Sissors hier op tweakers hebben die er meer verstand van heeft dan al die ontelbare hoeveelheid specialisten wereldwijd.
Leuk vooral dat je kiest voor de persoonlijke aanval en niet ingaat op mijn punten. Daarmee laat je zeker zien dat je een heel goede argumentatie hebt!
Via een versleutelde overdracht. Inclusief de sleutels om het te ontsleutelen, anders had hij niks ermee gekund.
Nee. Zonder de sleutel om het te ontsleutelen.
Dat is nou juist het concept van asymetrische encryptie. De sleutel om te ontsleutelen hoeft niet verstuurd te worden. Die houd je altijd zelf.
Je stuurt alleen een public key uit voor het versleutelen.
Blijkbaar weet je niet hoe dat concept werkt. Google maar eens op public key en private key.
https://sectigostore.com/...ate-key-how-do-they-work/
https://www.geeksforgeeks...ivate-key-and-public-key/
Leuk vooral dat je kiest voor de persoonlijke aanval en niet ingaat op mijn punten
Je hebt geen punten genoemd. Dus er was niks om op in te gaan.
Je hebt alleen jouw mening genoemd dat jij denkt dat de kans onrealistisch klein is, maar zonder enige onderbouwing daarvan.
Daar kan niemand wat mee.

Maar als je wel punten hebt om dat de onderbouwen, neem dan even contact op met de Australische overheid. Ze zullen ongetwijfeld heel blij zijn om te horen dat ze zich geen zorgen hoeven te maken.
Blijkbaar weet je niet hoe dat concept werkt. Google maar eens op public key en private key.
Dat ligt er maar aan. Bij verzenden inderdaad klopt dat. En hoef je inderdaad niet de sleutels mee te versturen, maar je moet alsnog de sleutels opslaan zelf, en die kunnen dus ook weer lekken, want anders kan je zelf de data niet onsleutelen!

En als je het niet over versturen hebt maar over opslaan, dan heb je gewoon symmetrische encryptie nodig. Google maar eens hoe dat werkt in bijvoorbeeld Bitlocker...
Je hebt geen punten genoemd. Dus er was niks om op in te gaan.
Right, nog een keertje lezen misschien. Als jij perongeluk data plakt in je ChatGPT die daar niet in hoort, gewoon je eigen privé data, ga jij dan direct het behandelen alsof het voor iedereen beschikbaar is? Of toch niet...
Maar als je wel punten hebt om dat de onderbouwen, neem dan even contact op met de Australische overheid. Ze zullen ongetwijfeld heel blij zijn om te horen dat ze zich geen zorgen hoeven te maken.
Het lijkt mij heel onwaarschijnlijk dat ze zich daadwerkelijk zorgen maken. Zoals ik al meerdere keren schreef, het hoorde niet te gebeuren natuurlijk, en ja het is een extra risico. Maar wel een hele kleine.
Dat ligt er maar aan. Bij verzenden inderdaad klopt dat.
Fijn dat je blijkbaar de sites bekeken hebt en dat nu geleerd hebt. Want in je vorige reactie zei je nog het tegenovergestelde.
OpenAI is een onbevoegde derde partij voor wie de data niet is bestemd. Als de aannemer een lokale AI had draaien die de data niet gebruikt ter analyse o.i.d. dan was het geen probleem geweest.
Wat is het verschil met alles zetten in de cloud? Microsoft en Google spannen hier de kroon.

je kan niet zonder infrastructuur. Dan moet bedrijven opnieuw beginnen investeren in local infrastructuur, en local ai, dat kost geld, tijd, en veel ICT-ers.
Dat, neem Copilot van Microsoft bijvoorbeeld, de data die je hier in stopt niet gebruikt wordt voor het trainen van openbare modellen. Je data blijft binnen je eigen organisatie.

Zie ook: https://learn.microsoft.com/en-us/copilot/microsoft-365/enterprise-data-protection
Your data is private: We won’t use your data except as you instruct. Our commitments to privacy include support for the General Data Protection Regulation (GDPR), the EU Data Boundary[3], ISO/IEC 27018, and our Data Protection Addendum.
Ofwel, het is belangrijk of je een ""gratis"" product afneemt, of betaald.

Gratis = openbare modellen kunnen getraind worden op je invoer

Betaald = Wel even de voorwaarden lezen, maar de kans is groot dat je invoer niet gebruikt wordt voor training voor openbare modellen.
Echter, als jij Microsoft vervolgens niet opgeeft als gegevensverwerker en er geen overeenkomst mee afsluit, maar wel copilot betaald gaat gebruiken met de protectie aan, heb je nog steeds een datalek als je persoonsgegevens van anderen daar in plaatst.

note: De kans dat dit gebeurd is zeer klein. Met Microsoft is vrijwel altijd een overeenkomst gesloten.

[Reactie gewijzigd door SunnieNL op 9 oktober 2025 15:59]

Afspraken over wat er met die data gebeurt.

Als ik een bestand zet in een door mijn bedrijf afgenomen cloudomgeving met duidelijke afspraken, dan is dat geen datalek.

[Reactie gewijzigd door vickypollard op 9 oktober 2025 13:34]

Over het algemeen wanneer iets in de cloud (Microsoft 365, Google Workspace etc..) wordt geplaatst valt de data onder het beheer en toezicht van de organisatie.

Echter mocht een persoon deze gegevens naar zijn persoonlijke Onedrive uploaden dan is er ook spraken van een datalek. De organisatie heeft hier dan geen controle meer over de data, het wordt opgeslagen buiten het beheer en zicht van de organisatie. Er is dan ook geen garantie meer dat de data wordt verwerkt zoals dat de organisatie dat aan zijn klanten heeft belooft, zo kan er bij een consumentendienst, in tegenstelling tot de omgeving waar de organisatie gebruik van maakt, de data worden verwerkt om modellen op te trainen of profielen op personen te bouwen.

[Reactie gewijzigd door Omega op 9 oktober 2025 13:41]

Daar dacht ik dus ook aan, wij gebruiken ook teams en outlook 365, en er rijden zo veel busjes rond met een hotmail adres er op. Wat is het verschil?

Tenzij Chatgtp die data gaat gebruiken in antwoorden naar andere gebruikers dan is het wel totaal anders.
De zakelijke voorzieningen van Microsoft en Google zijn anders dan de gratis applicaties die ze ook aanbieden. Ten eerste betalen bedrijven en overheden er (doorgaans flink) voor en dus is er geen reden voor Microsoft of Google om de data van de gebruikers te gelde te maken. Daarnaast zijn er allerlei contractuele afspraken die nagekomen moeten worden, zoals het veilig houden van de data. Vindt er door de schuld van Microsoft of Google tóch een datalek plaats, dan kost hen dat klauwen vol geld. Het is hen er dus alles aangelegen om te zorgen dat die data veilig blijft.

Dat eenmanszaken hun communicatie via Hotmail laten verlopen, is vooral vanwege het gemak. Henk de loodgieter ging niet moeilijk doen met het registreren van een domeinnaam en opzetten van een server. Die had daar helemaal geen tijd voor, geen verstand van en geen zin in. Destijds was een e-mailadres alleen dat: een e-mailadres. Dat de aanbieder vanwege veranderde voorwaarden tegenwoordig alles scant wat los en vast zit wat er bij Henk binnenkomt, realiseert Henk zich helaas niet.
De overheid mag dus al die gegevens rondsturen in een Excel maar als je die Excel ontvangt en je steekt hem in ChatGPT, pas dan is het een datalek?
Als de overheid die gegevens verstuurd via Excel binnen de organisatie is er niet direct iets aan de hand (of het handig is om het te doen is een 2de). Echter, als ze die per ongeluk naar iemand anders sturen die het niet hoort te ontvangen is het wel een datalek.
Ze hadden met Chat GPT toch even een verzendlijst kunnen maken?

Wel jammer dat een onderaannemer even een shortcut pakt en mogelijk schade voor burgers veroorzaakt
Ik weet niet of ze die onderaannemer voldoende hebben geïnformeerd dat ze hem data sturen die hij niet mag in ChatGPT gebruiken.


Ze hebben hem medische gegevens gestuurd.

Wat is hun overeenkomst? Weten we niet denk ik
Als je met een overheid in Nederland zaken doet, dan krijg je eerst een hoop papierwerk. Dat zal in Australie waarschijnlijk niet anders zijn.
In België wel anders.


Het is heel realistisch dat je van een administratief medewerker van een gemeente een bestand krijgt toegestuurd met veel te veel informatie.

Bijvoorbeeld heb ik nog Excels gekregen waar de personeelsdienst kolommen had verborgen door ze onzichtbaar smal te maken.
Dit gebeurt in Nederland (en Australie) ook hoor. De oplossing zit hem niet in afspraken, maar in AI geletterdheid. Weet de ambtenaar of leverancier genoeg van AI en LLM om daar verantwoord mee om te gaan? En daar kun je natuurlijk wel weer afspraken over maken ;)
Denk dat de eerste stap moet zijn waarom die aannemer überhaupt een excel document heeft met de persoonlijke gegevens van 12.000 mensen. Dan vraag je erom dat het een keer fout gaat.
Dit is niet zo gek als het lijkt. Aannemers moeten stakeholders (waaronder bewoners) benaderen en informeren over plannen en werkzaamheden. Bij een beetje groot gww-project loopt dat zo in de duizenden.
1 van heeeeeeeeel veel nog te volgend met de luxe dat het ontdekt wordt.

Ik wil niet eens weten hoeveel van zulke data inmiddels in ChatGPT gegooid is, of het nu bedrijf is, prive, per ongeluk of met opzet, maar nog even en je hoeft niet eens meer moeite te doen ergens wat data te stelen, zet gewoon een AI bot op en je krijgt het bijna in de schoot geworpen.
Niet handig, en zeer waarschijnlijk het topje van de ijsberg van datalekken aan chatgpt.

Tenzij ik het mis heb berust de drijfveer om het te melden vooral op een gevoel voor van verantwoordelijkheid. Risico dat data gevonden wordt door anderen is klein, terwijl gevolgen van melden lek erg groot zijn. Ondanks ethische en zelfs wettelijke aspecten zullen de meeste personen die lekken niks melden, en zelfs als ze het melden zullen eindverantwoordelijken er soms voor kiezen om dit in de doofpot te stoppen.
Ik wist niet dat het zo lek als een mandje was dat ChatGPT. Sterker nog. Alles wordt in de gaten gehouden zo te lezen. Voorbeeld: https://dailybuzz.nl/buzz/13-jarige-opgepakt-na-chatgpt-vraag-hoe-leg-ik-m-n-klasgenoot-om.html


Om te kunnen reageren moet je ingelogd zijn