Gegevens van Australische burgers uitgelekt via ChatGPT-gebruik door overheid

Persoonlijke informatie van Australische burgers in de staat Nieuw-Zuid-Wales is uitgelekt door ongeautoriseerd gebruik van ChatGPT. Een voormalige aannemer van de staat uploadde in maart een Excel-spreadsheet naar de AI-chatbot van OpenAI, meldt de lokale overheid nu.

Het datalek betreft Australische burgers die zich hadden aangemeld voor het overheidsprogramma dat financiële steun biedt om woningen beter bestand te maken tegen overstromingen. Dit Resilient Homes Program (RHP) van de staat Nieuw-Zuid-Wales is voor de regio Northern Rivers. Het overheidsdepartement dat zich bezighoudt met herstelwerk na rampen had een aannemer in de arm genomen die zonder permissie ChatGPT gebruikte.

Dat ongeautoriseerde gebruik van een AI-tool blijkt een datalek te zijn, doordat de voormalige aannemer persoonlijke gegevens van burgers heeft geüpload. Het gaat om namen en adressen, e-mailadressen, telefoonnummers, gezondheidsinformatie en nog andere, niet nader gespecificeerde persoonlijke informatie. Deze data stond in een Excel-spreadsheet met tien kolommen en meer dan 12.000 rijen.

Elke rij van de geüploade spreadsheet is 'zorgvuldig doorgenomen om te begrijpen welke informatie mogelijk is gecompromitteerd', verklaart de lokale overheid. Dat heeft veel tijd gekost, net zoals het informeren van getroffen burgers, geeft de overheid van Nieuw-Zuid-Wales aan. Daarbij stelt zij ook dat er geen bewijs is dat de uitgelekte gegevens zijn geopenbaard. De cybersecurityafdeling van de lokale overheid monitort internet en het dark web op eventuele openbaarmaking.

Door Jasper Bakker

Nieuwsredacteur

09-10-2025 • 13:15

93

Submitter: Anonymoussaurus

Reacties (93)

Sorteer op:

Weergave:

Volgens mij zitten we hier echt al op een verkeerd niveau te kijken naar het lek hoor. De NSW RA is hier al veel te ver gegaan en in dat opzicht ligt het datalek eigenlijk al daar. Kijkend naar hoe we in Nederland een AVG zouden toepassen op een casus zoals dat zien we gewoon dat het echt al veel eerder fout is gegaan.

Medische gegevens van mogelijk 12 duizend mensen in een Excel sheet? Gaat het wel goed met je?

Op basis van onze AVG zijn er meerdere punten in deze casus waar je serieuze vraagtekens bij kunt zetten. Sterker nog: de discussie over ChatGPT is hier eigenlijk niet eens relevant, want het gaat daarvoor al fout.

De NSW Reconstruction Authority (RA) is in deze situatie de verwerkingsverantwoordelijke.

Onze Autoriteit Persoonsgegevens (AP) definieert een datalek als:
“Een inbreuk op de beveiliging die per ongeluk of op onrechtmatige wijze leidt tot vernietiging, verlies, wijziging, ongeoorloofde verstrekking van of ongeoorloofde toegang tot persoonsgegevens.”
Het gaat hier dus niet om de vraag of gegevens openbaar zijn gemaakt, maar of er sprake was van ongeoorloofde toegang of verwerking. Dat is precies wat hier aan de hand lijkt te zijn.

ChatGPT was in dit geval geen “geadresseerde”, het is niet zo dat gegevens van Pietje per ongeluk naar Klaasje zijn gestuurd. Maar OpenAI was evenmin een gemachtigde verwerker. Er was geen verwerkersovereenkomst tussen de RA en OpenAI, en de contractor had ook geen mandaat om een derde partij in te schakelen voor gegevensverwerking. Daarmee was het uploaden van deze data naar ChatGPT een onrechtmatige verwerking.

De echte vraag is echter fundamenteler: had de dienstverlener überhaupt toegang tot deze gegevens mogen hebben?

Als blijkt dat de RA een externe dienstverlener toegang heeft gegeven tot een Excel-bestand met persoonsgegevens van 12.000 mensen (waaronder namen, adressen, e-mailadressen, telefoonnummers en zelfs gezondheidsinformatie) dan is dat op zichzelf al een ernstige overtreding van de AVG.

Onder de AVG is de RA verantwoordelijk voor minimaal drie zaken:
  1. Er moet een verwerkersovereenkomst (art. 28 AVG) zijn waarin o.a. de doeleinden, aard, duur en beveiliging van de verwerking zijn vastgelegd, en waarin de verwerker niet zelfstandig mag beslissen over verdere verwerking.
  2. Toegang tot persoonsgegevens moet noodzakelijk zijn voor het uitvoeren van de overeengekomen taak(dataminimalisatie, art. 5(1)(c)).
  3. Er moeten passende technische en organisatorische beveiligingsmaatregelen getroffen zijn (art. 32 AVG).
Het is volstrekt ongeloofwaardig dat toegang tot de volgende gegevens noodzakelijk was voor de taak van deze dienstverlener:
  • Namen en adressen
  • E-mailadressen
  • Telefoonnummers
  • Persoonlijke en gezondheidsinformatie
Vooral dat laatste is problematisch: gezondheidsdata behoort tot de bijzondere categorieën van persoonsgegevens (art. 9 AVG). Dat zulke gegevens überhaupt in een exporteerbaar Excel-bestand konden belanden, is al een schending van privacy by design (art. 25 AVG) en van de beveiligingsplicht.

Met andere woorden: de kern van het probleem ligt niet bij de contractor die ChatGPT gebruikte, maar bij de NSW RA zelf, die haar datahuishouding niet op orde had.

Wanneer gezondheidsinformatie in Excel kan worden geëxporteerd, zonder exportrestricties, logging of toegangscontrole, is er feitelijk al sprake van een datalek.

Dat er “geen bewijs is dat informatie openbaar is gemaakt” zegt in dit kader weinig.

De AVG vereist geen openbaarmaking voor een datalek: de mogelijkheid van ongeoorloofde toegang is voldoende.

Deze zin uit de verklaring van de RA krijgt daardoor een andere lading:
“There is no evidence that any information has been made public, however, Cyber Security NSW will continue to monitor the internet and the dark web.”
De monitoring is begrijpelijk, maar het probleem zat al eerder in de keten: in de interne processen en toegangsmogelijkheden binnen de RA zelf.

Als een externe partij zonder noodzaak 12.000 records met persoonlijke en gezondheidsgegevens geëxporteerd kan krijgen naar een Excelbestand, dan is het datalek al ontstaan voordat er één byte naar ChatGPT werd gestuurd.
Dit is de essentie:
Dat ongeautoriseerde gebruik van een AI-tool blijkt een datalek te zijn, doordat de voormalige aannemer persoonlijke gegevens van burgers heeft geüpload.
maar de gegevens zijn niet met iemand anders per ongeluk gedeeld dan met ChatGPT. Dus de actie opzich wordt bestempeld als datalek, maar het is eigenlijk een symantische discussie of er echt sprake is van een lek. Want ik zat even te lezen wat is hier nu aan de hand.

Ik zou haast zeggen, pas als OpenAI gehacked wordt en die gegevens naar buiten komen, dan zou je feitelijk kunnen spreken van een lek.

[Reactie gewijzigd door loewie1984 op 9 oktober 2025 13:20]

Het is helemaal geen symantische discussie. Het is een keiharde feit.

Onze AP schrijft het volgende:
Een datalek is bijvoorbeeld:

Persoonsgegevens die aan een verkeerde geadresseerde zijn verstuurd;
Verderop staat dit:
Inbreuk op de vertrouwelijkheid: persoonsgegevens zijn openbaar gemaakt of er is toegang geweest tot persoonsgegevens. Dit is gebeurd door iemand die daartoe niet bevoegd is. Of dit is per ongeluk gebeurd. 
Er staat niet dat gegevens 'naar buiten moeten komen'. Een verloren USB stick is óók een datalek, ongeacht of iemand die vindt.

Bron: https://www.autoriteitpersoonsgegevens.nl/themas/beveiliging/datalekken/wat-is-een-datalek
Stel als je de Ai tool ziet als een verbrandingsoven, is het ook een lek als je per ongeluk een usb stick hebt verbrand?

De voorbeelden die je schetst hebben duidelijk kans dat iemand het in kan zien. Als de Ai tool deze data niet deelt of opslaat, is het dan ook een lek?

Verder overigens eens dat dit niet ok is, maar dit gebeurt op dit moment waarschijnlijk aan de lopende band.
verlies van data is ook een datalek
Maar dan moet je het dus weer over de definitie van verlies hebben....

Als alle persoonsgegevens door een brand worden vernietigd, zal niemand hoeven worden ingelicht dat ze misschien de gegevens zullen misbruiken.

Als verlies echter betekent: "de data is nu ook (of alleen) elders dan bij de partij die die gevens beheerd" dan moeten er mensen worden ingelicht.

En bij data is er dus iets vreemds t.o.v. fysiek goed; je kan het verliezen zonder het zelf kwijt te raken.... :P
"Inbreuk op de beschikbaarheid: de organisatie waar het datalek is (geweest) kan niet meer bij de persoonsgegevens komen. Of de gegevens zijn vernietigd. Dit is gebeurd door iemand die daartoe niet bevoegd is. Of dit is per ongeluk gebeurd. "

https://autoriteitpersoonsgegevens.nl/themas/beveiliging/datalekken/wat-is-een-datalek
Mooi voorbeel:
een usb stick met een kopie van gevoelige gevenes per ongeluk door de schredder halen waar de oude diskdrives doorheen moeten. hij is dus veilig vernietigd maar omdat de data niet alleen op die stick stonden (maar ook op een afgeschermde sharepoint bijv) zijn de gegevens niet vernietigd en is ook de beschikbaarheid niet geraakt.
dus dan is dus zoals gesteld de vraag is hier nu sprake van een data lek?

de grote vraga in dit voorbeeld heeft chatGPT nu dede data of verwijderen ze die automatisch. indien het laatste geval dan ook weer de vraag is er nu sprake van een lek? de data is nog steeds volledig beschikbaar binnen de organisatie, is niet aangetast, en is niet in verkeerde handen gevallen. Dan word het dus een semantiek discussie of de korte tijd dat de data bij chatGPT verwerkt is een lek is. En als het dat formeel al is hoe ernstig is het daadwerkelijk?
Oke, maar nu even in de echte wereld.

Is er nu sprake van inbreuk op de beschikbaarheid? Nee.
Zijn de gegevens vernietigd? nee
was diegene niet bevoegd? nee.


Dus is dit echt een issue waar de gevolgen nog niet van bekend zijn? Nee

Had die aannemer dit moeten doen? Zonder verwerkingsovereenkomst niet.
Ik snap ergens niet dat ChatGPT niet zelf al (in de UI) een check doet om te zien of ergens (overduidelijk) persoonlijke gegevens in staan. Er zijn genoeg libraries die bijvoorbeeld namen of social security nummers kunnen herkennen in tekst.

Alleen al een extra waarschuwing van "Hee, het lijkt er op dat je persoonlijke gegevens van iemand deelt. We hebben deze nog niet ontvangen, dus als je op STOP klikt voorkom je een datalek" zou opzich wel een blijk van goed gebaar zijn van OpenAI (en Google, en Antrophic, etc).
Best een goed idee eigenlijk, met de kanttekening dat dit goodwill van de ontvangende partij is, terwijl de verantwoordelijkheid bij de zender ligt.

Jouw idee kan ook eigenlijk alleen maar als die check gegarandeerd (en verifieerbaar) client-side wordt uitgevoerd, vóórdat de data daadwerkelijk wordt geupload. Anders heb je formeel gezien nog steeds een datalek, omdat de data al bij OpenAI is aangekomen (ook al deleten ze het voordat er wat mee gebeurt).
Deze persoon wilde sowieso al iets doen met die gegevens anders upload hij het niet naar ChatGPT en die zal dus gewoon op Ja klikken. Want hij weet ook wel dat hij eigenlijk ChatGPT niet mag gebruiken met deze gegevens, dat staat immers in de policy waar hij al van af weet.

Die popup is gewoon een extra klik op Ja om zijn doel te bereiken.

Je kan hooguit zeggen dat de overheid een tool zou moeten hebben (DLP) die opmerkt dat jij een bestand upload die persoonsgegevens bevat en daarop het uploaden blokkeerd. Dan voorkom je namelijk niet alleen een datalek naar een willekeurige chatbot die misschien een functie heeft het te checken, maar ook naar een chinese bot die dat niet heeft of het uploaden naar een persoonlijke google drive zodat ze er thuis aan kunnen werken.

[Reactie gewijzigd door SunnieNL op 9 oktober 2025 16:04]

Want hij weet ook wel dat hij eigenlijk ChatGPT niet mag gebruiken met deze gegevens, dat staat immers in de policy waar hij al van af weet.
De overheid weet ook dat het persoonlijke gegevens niet een een excel sheet moet mailen naar een 3e partij, maar dat hebben ze ook gewoon gedaan. Wat dat betreft geef ik die dienstverlener verder de schuld niet. Het ging al fout bij de NSW RA.
Deze persoon wilde sowieso al iets doen met die gegevens anders upload hij het niet naar ChatGPT
Of deze persoon heeft niet juist gekeken en het verkeerde bestand geselecteerd. Of wist niet dat er op de tweede tab persoonsgegevens stonden. Of plakte het per ongeluk in ChatGPT in plaats van de interne chatagent die ze wel mogen gebruiken en er hetzelfde uit ziet.
In jouw voorbeeld is de verbrandingsoven hetzelfde als een usbstick laten vallen op de grond en direct oprapen. Dat is niet verliezen, dat is vernietigen.

En ja, als hier data op staat die niet elders is, dan is óók dat een datalek.

Ik quote de AP weer:
Of de gegevens zijn vernietigd.
Ik weet net zo min of een verloren USB stick gelezen wordt als dat ik weet of ChatGPT de data kan reproduceren.


In 2017 is de patiëntenfederatie een HDD verloren met data van 25.000 personen. Dit is ook een datalek. Tot op de dag van vandaag is niet duidelijk of deze gevonden, uitgelezen of misbruikt is.

Bron: https://www.security.nl/posting/543934/Pati%C3%ABntenfederatie+verliest+harde+schijf+met+data+25_000+personen

Ook als je een Bitlocker protected device kwijtraakt en je zeker weet dat niemand de data kan lezen: datalek.


Het gaat er niet om of iets zelfs ook maar een extreem kleine kans maakt om gevonden of misbruik te worden. Het verliezen alleen al is een datalek - basta.
Duidelijk, dank voor de uitleg.
Maar het moedwillig slopen van een datadrager onder ISO / IEC 21964 is dat absoluut niet.

Dus een HDD de verbrandingsoven in yeeten is niet per se een datalek. Als je maar kunt aantonen dat er geen reconstructie mogelijk is.

Een kopie vernietigen is ook geen datalek (anders kan databasenormalisatie nooit meer).
Ja, er is nog steeds spraken van een lek. De data is toegestuurd aan en verwerkt door een partij waarvan dit niet de bedoeling was.
Maar een Ai tool is geen verbranding oven did info kan worden opgeslagen en gebruikt worden.
Stel dat je de Ai tool ziet als een sinaasappel, is het dan een sinaasappel?
En hoe zit dat met postnl pakketjes waarvan je bij de pakketpunten zo alle gegevens van klanten kan zien omdat die gegevens op het verzendlabel staan?
edit:
Ik doel op dat klanten van de winkel de gegevens op het label al kunnen inzien. En ik begrijp niet zo goed waarom dit een 0 krijgt en alle reacties eronder +1.

[Reactie gewijzigd door moonlander op 9 oktober 2025 14:18]

Als PostNL gewoon een verwerkingsovereenkomst heeft met die pakketpunten en er niet meer data wordt opgeslagen dan nodig, is dat geen datalek.
Tenzij het rek met pakketjes zichtbaar is voor klanten?
Dan is er sprake van reguliere verwerking van data volgens de gebruikers voorwaarden van de pakket diensten
Als je op de medewerkers van de postverwerking\pakketpunt doelt, die hebben een grondslag. Voor post zal dit of een wettelijke verplichting zijn, gerechtvaardigd belang of simpelweg een (koop)overeenkomst.

Die van PostNL kan je hier nalezen: https://www.postnl.nl/privacy-verklaring/

Wat is een grondslag? Lees dit hier: https://www.autoriteitpersoonsgegevens.nl/themas/basis-avg/avg-algemeen/grondslagen-avg-uitgelegd


Als je bedoeld dat mensen in de openbare ruimte labels kunnen lezen van pakketten die onafgeschermd zichtbaar liggen, dit zal niet mogen verwacht ik. Hier kan je dan een klacht over indienen.
Simpele taal,

Je hebt een bak met 11 potloden netjes naast elkaar, je gaat weg en je komt en vindt er maar 10 potloden in je bak. Dan is er sprake van 'datalek'.

Ook al vind je naast de bak, op de grond, half in de bak, of zelfs aangeraakt. Dat is al fout.

Je hebt taal die wij gebruiken en taal die gebruikt worden in de rechtzaal is vaak anders.
Nouja, op basis van onze AVG zijn er natuurlijk ook al andere zaken waar je vraagtekens bij kunt zetten. Laten we beginnen bij het feit dat beiden van jouw punten hier niet eens relevant zijn. Het gaat daarvoor al fout.

NSW RA is de verwerkingsverantwoordelijke.
Onze AP schrijft het volgende:
[...]
Niet van toepassing, ChatGPT was niet een geadresseerde. Het is niet dat de gegevens van Pietje per ongeluk naar Klaasje zijn verstuurd.

Nee OpenAI was hier een subverwerker.

[...]
Er staat niet dat gegevens 'naar buiten moeten komen'. Een verloren USB stick is óók een datalek, ongeacht of iemand die vindt.
Ook niet relevant op die manier, want er is geen openbaarmaking. De gegevens zijn niet ineens publiekelijk toegankelijk (en zullen ook niet ineens op "the darkweb" terechtkomen). Het probleem is dat deze gegevens al beschikbaar zijn in een extern systeem. Maar dat is nog voordat het in ChatGPT kwam al.
Het enkel hebben van een onbeveiligde kopie met persoonsgegevens buiten de gecontroleerde omgeving kan al een inbreuk op de beveiliging vormen.

(Bron: AP, uitleg datalekken 2023)
Het gaat hier om rechtmatigheid mbt verwerking. Had de aannemer de bevoegdheid een 3e partij in te schakelen voor gegevens verwerking (cq. was er een officiële dataverwerkingsovereenkomst met de overheid) en had de aannemer ook een dataverwerkingsovereenkomst met OpenAI waarmee geborgd werd dat die data ook vertrouwelijk blijft (zoals je met Azure wel kunt hebben als je de data binnen je tenant houdt bijvoorbeeld).

Zoals hieronder ook gesteld wordt over beschikbaarheid is er ook niks aan de hand. De aannemer had per definitie een kopie en niet het origineel.

De vraag is wat mij betreft of de aannemer al deze gegevens al had mogen hebben. Voor de werkzaamheden zou hij deze waarschijnlijk helemaal niet allemaal nodig hebben. Het gaat immers om 12.000 rijen met gegevens. Deze aannemer gaat niet al die mensen aanschrijven of bezoeken. Wat mij betreft ligt het lek dan ook al veel eerder in de ketting en heeft de RA helemaal niet de afweging gemaakt of deze onderaannemer wel al deze gegevens nodig had. En puur gekeken naar wat er daadwerkelijk is gebeurd, aannemer in deze conext kan daadwerkelijk een bouwer zijn, maar het kan ook gewoon een bepaald bureautje zijn wat iets uit moest rekenen. Een "contractor" is in die zin gewoon een externe dienstverlener.

Medische gegevens in een Excel bestand is gewoon altijd een no-go.


Ik denbk dat ik het hier wat beter verwoord: supersnathan94 in 'Gegevens van Australische burgers uitgelekt via ChatGPT-gebruik door overheid'

[Reactie gewijzigd door supersnathan94 op 9 oktober 2025 18:09]

@Triblade_8472 en alle anderen hieronder.
Ik zal het niet proberen recht te praten, en tuurlijk volgens de AVG wetgeving is het feitelijk een datalek.

Maar het zou af kunnen hangen van wat de opdrachtgever heeft opgeschreven in zijn beleid over het gebruik van AI of ChatGPT in het bijzonder. Hebben ze expliciet opgeschreven dat het gebruik van ChatGPT niet geoorloofd was, hebben ze dit gecommuniceerd aan hun opdrachtgevers, was er een verwerkersovereenkomst opgesteld tussen opdrachtgever en opdrachtnemer die de privacy details van de te verwerken van data bevat. Is de AVG of andere wet in Australië identiek aan die van NL (Wet is wet uiteraard, maar nog steeds ruimte voor interpretatie, toevoegingen of het overrulen van wetgeving van een hoger orgaan, zoals bijv. in Europa, daar schrijft de EU de NIS2 voor en NL de Cyberbeveiligingswet)

De aannemer zou 'tijdelijke chat' aan kunnen hebben staan gehad, of het vinkje in de instellingen dat gegevens niet met OpenAI gedeeld mag worden.

Dat zal wel allemaal niet, en is ook te veel detail om in een nieuwsbericht naar buiten te brengen en mogelijk brengt het de eigen organisatie misschien in verlegenheid. Maar deze nuance mis ik toch in het verhaal. Laat ik het dan zo stellen, dat er sprake is van een datalek is duidelijk, maar de vraag is: wie is de veroorzaker.
Er is ongeauthoriseerd (persoonlijke)data waar de lokale overheid verantwoordelijk voor was verwerkt in een externe tool die deze data eventueel kan opslaan en/of hergebruiken.

Volgens diverse wetgevingen is dit wel degelijk een datalek.

Dit is een van de redenen waarom bedrijven veel strikter moeten kijken naar (gratis) tools die werknemers gebruiken en deze proactief blokkeren.
Ze hoeven nietper sé gehackt te worden. Jouw ingevoerde gegevens toevoegen aan hun trainingsdata is voldoende.

Daarom is transparantie over wat er met ingevoerde gegevens gebeurt belangrijk.
Je weet niet wat Chatgtp er mee doet, als die dat weer gaat gebruiken in antwoorden naar andere gebruikers lijkt me dat een lek. Maar als Chatgtp dat niet doet is het dan een lek? Want dan is het altijd een lek als je een clouddienst gebruikt (teams? outlook365, elke loodgieter met een hotmail adres?)
Wat Chatgpt ermee doet is lijkt me irrelevant, ook als ze daar niets mee doen is het nog steeds een datalek. Het is een datalek omdat de data ongeautoriseerd is gedeeld, en dan maakt het niet uit met wie dat gebeurd. Want anders zou je het ook geen datalek hoeven te noemen zolang een hacker die de gegevens steelt er vervolgens niets mee besluit te doen.
Dus mogen ze geen Google, Apple, Microsoft meer gebruiken en geen enkele clouddienst. Ook geen systemen meer aan het internet.
Dat vind ik niet. Op het moment dat het gebruik van een clouddienst is geautoriseerd en de wijze van verwerking van de gegevens voldoet aan de voorwaarden die de privacywetgeving stelt dan is er natuurlijk geen sprake van een datalek.
Ik ging gewoon in op je eigen tekst. misschien zo duidelijker:

Wat de Clouddienst ermee doet is lijkt me irrelevant, ook als ze daar niets mee doen is het nog steeds een datalek. Het is een datalek omdat de data ongeautoriseerd is gedeeld, en dan maakt het niet uit met wie dat gebeurd. Want anders zou je het ook geen datalek hoeven te noemen zolang een hacker die de gegevens steelt er vervolgens niets mee besluit te doen.
Dat slaat alleen nergens op. Het gaat erom om de gegevensverwerking is geautoriseerd en in overeenstemming is met privacy-wetgeving. Dat gaat dus in dit geval niet op voor chatgpt. Ik maak het even op jouw manier duidelijk:

Je beweert in feite dat deze twee beweringen dezelfde strekking hebben:

1) "Wat een dief doet met gestolen waar is irrelevant, ook al geeft hij het aan een voedselbank het blijft diefstal"

2) "Wat een consument doet met gekochte waar is irrelevant, ook al geeft hij het aan een voedselbank het blijft diefstal"
En wat als de dienstverlener de API had gebruikt? Dan zegt ChatGPT expliciet niets te doen met de toegestuurde data en prompt. Dus als zij zelf een bepaalde verwerkingspipeline hebben die de API gebruikt, zijn ze dan in overeenstemming met privacy wetgeving?
Ook al stelt ChatGPT dat het niets doet met de toegestuurde data dan is er nog steeds geen toestemming om de data met ChatGPT te delen. Dus de term datalek is ook dan van toepassing, alleen kun je wellicht wel stellen dat de kans op misbruik laag is in vergelijking met bijvoorbeeld een datalek als gevolg van een phishing aanval. Dat wordt ook onderkent in dit geval:
What does the breach mean for me?

We believe the risk of misuse is low, however, we recommend staying alert for any suspicious emails or messages that ask for your personal details.
Heel eerlijk, het maakt al geen zak uit, want het is daar voor al compleet verkeerd gegaan. Er was al sprake van een datalek voordat er ook maar 1 Byte naar OpenAI was gestuurd.

supersnathan94 in 'Gegevens van Australische burgers uitgelekt via ChatGPT-gebruik door overheid'
however, we recommend staying alert for any suspicious emails or messages that ask for your personal details.
Dit komt niet als aanbeveling omdat het nu bij ChatGPT ligt kan ik je vertellen, Die hebben echt schijt aan die data en als ze het wel zouden gebruiken en ze slim zijn hebben ze het al weer verwijderd, want nu met dit nieuws is dit gewoon "tainted data". Levert alleen maar negatieve publiciteit voor ze op.

Nee de daadwerkelijke waarschuwing hier komt voort uit het feit dat het ging om een EXCEL sheet met medische data. ChatGPT is daarin echt de minst kwalijke zaak.
Er is een opt-out optie in chatgpt, zodat je data niet gebruikt voor trainingsdoeleinden. Het wordt dan ook niet gebruikt door chatgpt, of opgeslagen. Daarbij zijn nog opties om de chat te wissen.

Nu is de vraag, of hij die opt-out heeft aangezet, om de data niet te gebruiken voor training. Standaard staat die namelijk wel aan.

Is het een datalek, als je er vanuit mag gaan, dat als je opt-out heb gekozen, dat de data niet verder gebruikt wordt? En dat lijkt mij niet een datalek. Netzomin als je online excel gebruikt of word. Is het een datalek als je een document opent in de cloud? Lijkt mij niet.

Zelfde overigens met adobe. Daar kunnen ze ook content-analyse doen. En daar ook weer een opt-out optie. En staat het uiteraard standaard aan. Dus als je een pdf-je online opent, kan je dan spreken van een datalek? Wel als je niet gekozen hebt voor die opt-out.
Ik vermoed dat de medewerker ChatGPT helemaal niet mag gebruiken. Ook als je dan dat opt-out vinkje zet (wat zover ik weet alleen in de betaalde versies kan), dan is er sprake van een datalek. Je geeft de data immers aan niet geauthoriseerde verwerkers. Dat zou in europa een schending van de GDPR zijn als deze niet genoemd staat als gegevens verwerker.

Voorbeeld:

Bij mijn gemeente is er een gegevensverwerkingsovereenkomst met Microsoft. Die wordt ook genoemd als 3rd party die gegevens van mij verwerkt (o.a. zaaksysteem op sharepoint). Dan zou de medewerker het ook in copilot mogen gebruiken, mits dat door de gemeente is toegestaan (AI policy). In geen geval zou deze gegevens van mij mogen gebruiken in ChatGPT, ook niet als ze een betaald account hebben en de opt-out doen. Dat zou alleen mogen als ChatGPT als gegevensverwerker wordt genoemd van de gemeente.
Bij een werkgever zag ik dat gevoelige data via Slack verstuurd wordt, na bevestigde ontvangst wordt het uit de chat verwijderd, maja is het dan wel echt weg?
Ook als er gebruik is gemaakt van een opt-out zou het nog steeds om een datalek gaan. Het gaat er namelijk niet om wat de partij waarmee gegevens gedeeld wordt doet of mag doen met die gegevens, maar of het delen van die gegevens met die partij geautoriseerd is.
Als je per ongeluk een mailtje verkeerd adresseert, kan er al sprake zijn van een datalek. Dus upload naar AI is dat zeker ook.
Ook als "gebruik mijn data" uit staat? Zoals vroeger standaard bij (betaalde) Claude? Ik bedoel, je mail staat ook bij Microsoft, maar daarom is het nog geen lek. In dit geval vind ik het ook vreemd dat alleen de upload een "lek" is. Het gaat van de MS365 cloud naar die van OpenAI. Met allebei heb je bepaalde afspraken, maar het ene is ene lek en het andere niet? Het belangrijkste zijn dan toch die afspraken? Maar daar wordt met geen woord over gerept...
Als bedrijf hoor je in ieder geval onder de AVG dan een verwerkingsovereenkomst te sluiten met in dit geval Microsoft als daar je mail gehost wordt en/of OpenAI. Als je dat met Microsoft wel heb maar met OpenAI niet is er dan dus sprake van een datalek.

[Reactie gewijzigd door Ozzie op 9 oktober 2025 13:48]

Ik zou haast zeggen, pas als OpenAI gehacked wordt en die gegevens naar buiten komen, dan zou je feitelijk kunnen spreken van een lek.
Ligt eraan of OpenAI de input gebruikt voor het trainen/verfijnen van modellen. In dat geval zouden de gegevens (indirect) opgenomen worden.

[Reactie gewijzigd door vickypollard op 9 oktober 2025 13:22]

Dat de data bij een ongeautoriseerde partij terechtgekomen is, irrelevant of dit een individu of organisatie is, kwaadwillend of legitiem, is een datalek.
Ik zou haast zeggen, pas als OpenAI gehacked wordt en die gegevens naar buiten komen, dan zou je feitelijk kunnen spreken van een lek.
De data is wel degelijk weggelekt naar een andere service. GPT verwerkt het bestand en moet het daar lokaal opslaan om er iets met te doen. Dus je lekt el effectief data buiten om beveiligde omgeving. We weten allemaal dat GPT opgeladen data ook gebruikt om hun model te trainen.
De gegevens mochten niet gedeeld worden met OpenAI, dat is wel gebeurd. Dan is het toch een datalek? Dat de gegevens (nog) niet publiek beschikbaar zijn (geworden), maakt volgens mij verder niet uit.
Zoals veel andere schrijven, technisch gezien is het een datalek. Praktisch gezien, is er natuurlijk absoluut niks aan de hand. En door zulke verwateringen van definities neemt straks niemand het meer serieus.
OpenAI is een onbevoegde derde partij voor wie de data niet is bestemd. Als de aannemer een lokale AI had draaien die de data niet gebruikt ter analyse o.i.d. dan was het geen probleem geweest.
Wat is het verschil met alles zetten in de cloud? Microsoft en Google spannen hier de kroon.

je kan niet zonder infrastructuur. Dan moet bedrijven opnieuw beginnen investeren in local infrastructuur, en local ai, dat kost geld, tijd, en veel ICT-ers.
Dat, neem Copilot van Microsoft bijvoorbeeld, de data die je hier in stopt niet gebruikt wordt voor het trainen van openbare modellen. Je data blijft binnen je eigen organisatie.

Zie ook: https://learn.microsoft.com/en-us/copilot/microsoft-365/enterprise-data-protection
Your data is private: We won’t use your data except as you instruct. Our commitments to privacy include support for the General Data Protection Regulation (GDPR), the EU Data Boundary[3], ISO/IEC 27018, and our Data Protection Addendum.
Ofwel, het is belangrijk of je een ""gratis"" product afneemt, of betaald.

Gratis = openbare modellen kunnen getraind worden op je invoer

Betaald = Wel even de voorwaarden lezen, maar de kans is groot dat je invoer niet gebruikt wordt voor training voor openbare modellen.
Echter, als jij Microsoft vervolgens niet opgeeft als gegevensverwerker en er geen overeenkomst mee afsluit, maar wel copilot betaald gaat gebruiken met de protectie aan, heb je nog steeds een datalek als je persoonsgegevens van anderen daar in plaatst.

note: De kans dat dit gebeurd is zeer klein. Met Microsoft is vrijwel altijd een overeenkomst gesloten.

[Reactie gewijzigd door SunnieNL op 9 oktober 2025 15:59]

Afspraken over wat er met die data gebeurt.

Als ik een bestand zet in een door mijn bedrijf afgenomen cloudomgeving met duidelijke afspraken, dan is dat geen datalek.

[Reactie gewijzigd door vickypollard op 9 oktober 2025 13:34]

Over het algemeen wanneer iets in de cloud (Microsoft 365, Google Workspace etc..) wordt geplaatst valt de data onder het beheer en toezicht van de organisatie.

Echter mocht een persoon deze gegevens naar zijn persoonlijke Onedrive uploaden dan is er ook spraken van een datalek. De organisatie heeft hier dan geen controle meer over de data, het wordt opgeslagen buiten het beheer en zicht van de organisatie. Er is dan ook geen garantie meer dat de data wordt verwerkt zoals dat de organisatie dat aan zijn klanten heeft belooft, zo kan er bij een consumentendienst, in tegenstelling tot de omgeving waar de organisatie gebruik van maakt, de data worden verwerkt om modellen op te trainen of profielen op personen te bouwen.

[Reactie gewijzigd door Omega op 9 oktober 2025 13:41]

Daar dacht ik dus ook aan, wij gebruiken ook teams en outlook 365, en er rijden zo veel busjes rond met een hotmail adres er op. Wat is het verschil?

Tenzij Chatgtp die data gaat gebruiken in antwoorden naar andere gebruikers dan is het wel totaal anders.
De zakelijke voorzieningen van Microsoft en Google zijn anders dan de gratis applicaties die ze ook aanbieden. Ten eerste betalen bedrijven en overheden er (doorgaans flink) voor en dus is er geen reden voor Microsoft of Google om de data van de gebruikers te gelde te maken. Daarnaast zijn er allerlei contractuele afspraken die nagekomen moeten worden, zoals het veilig houden van de data. Vindt er door de schuld van Microsoft of Google tóch een datalek plaats, dan kost hen dat klauwen vol geld. Het is hen er dus alles aangelegen om te zorgen dat die data veilig blijft.

Dat eenmanszaken hun communicatie via Hotmail laten verlopen, is vooral vanwege het gemak. Henk de loodgieter ging niet moeilijk doen met het registreren van een domeinnaam en opzetten van een server. Die had daar helemaal geen tijd voor, geen verstand van en geen zin in. Destijds was een e-mailadres alleen dat: een e-mailadres. Dat de aanbieder vanwege veranderde voorwaarden tegenwoordig alles scant wat los en vast zit wat er bij Henk binnenkomt, realiseert Henk zich helaas niet.
Denk dat de eerste stap moet zijn waarom die aannemer überhaupt een excel document heeft met de persoonlijke gegevens van 12.000 mensen. Dan vraag je erom dat het een keer fout gaat.
Dit is niet zo gek als het lijkt. Aannemers moeten stakeholders (waaronder bewoners) benaderen en informeren over plannen en werkzaamheden. Bij een beetje groot gww-project loopt dat zo in de duizenden.
1 van heeeeeeeeel veel nog te volgend met de luxe dat het ontdekt wordt.

Ik wil niet eens weten hoeveel van zulke data inmiddels in ChatGPT gegooid is, of het nu bedrijf is, prive, per ongeluk of met opzet, maar nog even en je hoeft niet eens meer moeite te doen ergens wat data te stelen, zet gewoon een AI bot op en je krijgt het bijna in de schoot geworpen.
Waarom krijgt een aannemer voor woningbouw persoonlijke informatie van die bewoners inclusief medische gegevens ????

Lijkt me hier dan toch ook wel zeker een zeer grote fout begaan bij de overheidsmedewerker die deze data in de eerste plaats verschaft heeft aan de aannemer ???
Niet handig, en zeer waarschijnlijk het topje van de ijsberg van datalekken aan chatgpt.

Tenzij ik het mis heb berust de drijfveer om het te melden vooral op een gevoel voor van verantwoordelijkheid. Risico dat data gevonden wordt door anderen is klein, terwijl gevolgen van melden lek erg groot zijn. Ondanks ethische en zelfs wettelijke aspecten zullen de meeste personen die lekken niks melden, en zelfs als ze het melden zullen eindverantwoordelijken er soms voor kiezen om dit in de doofpot te stoppen.
De overheid mag dus al die gegevens rondsturen in een Excel maar als je die Excel ontvangt en je steekt hem in ChatGPT, pas dan is het een datalek?
Als de overheid die gegevens verstuurd via Excel binnen de organisatie is er niet direct iets aan de hand (of het handig is om het te doen is een 2de). Echter, als ze die per ongeluk naar iemand anders sturen die het niet hoort te ontvangen is het wel een datalek.
Ik wist niet dat het zo lek als een mandje was dat ChatGPT. Sterker nog. Alles wordt in de gaten gehouden zo te lezen. Voorbeeld: https://dailybuzz.nl/buzz/13-jarige-opgepakt-na-chatgpt-vraag-hoe-leg-ik-m-n-klasgenoot-om.html
Tsja, het is dom. Aan de andere kant werkgevers die vinden dat mensen 2x zoveel kunnen doen 'want AI'. Ergens gaat dat fout natuurlijk en is niet alleen maar de schuld van degene die het in ChatGPT stopte vind ik.
Natuurlijk wel, dat is je eigen verantwoordelijkheid. Als je het zo belangrijk vindt een LLM te kunnen gebruiken, dan vraag je je baas om toegang tot een beveiligde variant in plaats van op eigen houtje een rivier aan data te dumpen.
Ik heb, weliswaar niet op feiten gebaseerd, ook mijn bedenkingen over die zogenaamde beveiligde varianten van publieke LLM's. Voor zover ik begrijp worden sommige abonnementen aangeboden met de opmerking dat het model dan geen data zal toevoegen aan de grote berg komend vanuit de vraagstellingen die jij met je geabonneerde organisatie maakt.

Maar wie controleert dat? En hoe? Op geen enkele manier krijg je de garantie die beloofd wordt.
Alles rondom IT is uiteindelijk een kwestie van vertrouwen.

Dat gezegd hebbende, als een bedrijf zegt je informatie niet te verwerken en later blijkt dat dat wel gebeurd dan heb je kans op ernstige problemen. Je klanten lopen weg en je wordt aangeklaagd. Zeker in de zakelijke/overheidsmarkt.

[Reactie gewijzigd door oef! op 9 oktober 2025 14:40]

"Vertrouwen is goed, controleren is beter". Vertrouwen in IT was vroeger vooral gebaseerd op onschuldige naïviteit en gebrek aan precedent. Nieuwe wetgeving en controleermechanismen ontstaan bij vervelende incidenten en de wens die incidenten voortaan te voorkomen. Tegenwoordig is er daarom niet alleen vertrouwen, maar ook governance rondom beheerstructuren en het afleggen van verantwoordelijkheid - al dan niet via certificeringen en audits. De mogelijke gevolgen van het ontbreken daarvan stip je zelf ook aan.

Het uitvoeren van audits op basis van afgesproken certificeringen (die op hun beurt weer invulling geven aan controle op wet- en regelgeving) is een van die mechanismen waarop je vertrouwen kunt afdwingen en verantwoordelijkheid kunt beleggen, omdat organisaties dan aantoonbaar en controleerbaar te werk gaan. Maar dit mechanisme ontbreekt nu totaal bij LLM's, en/of de onderliggende organisaties zijn juridisch too big to fail (dit speelde al bij Google en Facebook voorafgaand aan bestaan van publieke LLM's) of volgens nationaal recht moeilijk aanspreekbaar. Deze organisaties spinnen garen bij de situatie en gaan vooralsnog vrijuit bij incidenten, want: ze zijn niet controleerbaar.

Maar ooit zal ook hier wet- en regelgeving bij afgedwongen worden. Alleen dat volgt op incidenten en is traag, en bij snelle technieken als deze zijn de gevolgen hiervan groots en snel. Dan is de schade al op grote schaal geleden.
Dat is een heel redelijke vraag om je af te stellen. Daar moet je je bij elke dienst wel druk om maken. Bij clouddiensten kun je meestal terugvallen op certificaten (internationale standaarden) en audits (partij die hun organisatie en/of instance onder de loep neemt van binnen en/of buiten).

Ik kan me ook voorstellen dat je bij grote namen op imago af kunt gaan:Er zijn wel meer grote partijen, maar volgens mij staan die niet zo zeer bekend omwille van hoe ze omgaan met privacy.
dan moet je daar wel de kennis/kunde voor hebben om die specificatie te kunnen maken en laten we wel wezen. De meeste mensen zijn er niet heel erg goed mee bezig. Als dat wel zo was waren zaken als Facebook ea niet zo groot geworden. De meeste mensen willen gewoon dat het werkt en als het dat doet gebruiken ze het.
Ik zie niet in waarom een zelfgehoste chat.mijnoverheid.nl niet zou kunnen werken. Ze hoeven niet een nieuw model uit te vinden, hè.

En als een werkgever dat te veel en te lastig vindt, dan kunnen ze uren investeren in training. De medewerker wist iets niet gedaan te krijgen in Excel en gooide het geheel daarom maar in ChatGPT. Je kunt ook altijd als alternatief een meer privacy-gezinde aanbieder opzoeken. Het zijn allemaal chats met een frontend, dus dat werkt dan gewoon en je zoekt de uitvoering die het meest bij je werkzaamheden past.
Daar gaat mijn reactie niet over. Mijn reactie is op:
dan vraag je je baas om toegang tot een beveiligde variant in plaats van op eigen houtje een rivier aan data te dumpen.
De meeste gebruikers zijn helemaal niet bezig met of iets veilig is of niet. Het is niet hun vakgebied, niet hun interessegebied en het zal hun een rotzorg zijn. Er zal iets of iemand in de organisatie moeten zijn die hier scherp op is. En dat zou de werkgever kunnen zijn echter hebben de meeste werkgevers er ook de ballen verstand van.
Je hebt gelijk, maar dan zijn die mensen onvoldoende getraind voor hun functie. Als je omgaat met persoonlijke data van (veel) mensen, dan is een van je taken daar verantwoord mee om te gaan. Dat is hetzelfde principe als dat je niet de HR-doos met alle personeelsdossiers niet op de lunchtafel zet en wegloopt. Daarvoor hoef je jezelf niet op te leiden tot slotenmaker, het gaat om gezond verstand dat deels ook moet aanleren.

Het is niet altijd even makkelijk, maar we leven nou eenmaal in het digitale tijdperk. Dat betekent dat we ook digitale kennis dienen te hebben op ten minste een basaal niveau. Een klein bedrijfje met een werkgever die er inderdaad ook niks van snapt, die moet dat hebben van collega's, kennissen, dat millennial-neefje-met-ICT-kennis of eens iemand freelance/student inhuren voor advies. Maar zij werken normaal gesproken ook niet met veel persoonlijke gegevens.

Als iemand niet snapt dat je niet een Excel-bestand met gevoelige gegevens van 12.000 mensen bij ChatGPT moet uploaden, dan snapt diegene niet dat het onveilig is om die doos met dossiers achter te laten in een willekeurige winkel. Misschien zal het ze een rotzorg zijn, maar die onverschilligheid kan zorgen tot problemen op persoonlijke titel voor 12.002 mensen, dus ze moeten het maar hun zorg maken.

Ik denk overigens dat wij als tweakers de behoedzaamheid van ook mensen zonder enige IT-kennis onderschatten. Misschien hebben ze niet door dat ze niet zomaar alles in ChatGPT moeten gooien, maar ze begrijpen ook wel dat er enge datalekken zijn. Tot een miljoen vrouwen ontvangen een brief dat hun persoonlijke medische gegevens zijn gelekt. Dat dringt een samenleving wel door hoor. Langzaam maar zeker druppelt er ook bij digibeten wat algemene kennis binnen, maar voor hen doen we als samenleving lang niet genoeg.

[Reactie gewijzigd door Blizz op 9 oktober 2025 15:38]

We zijn het wat dat betreft helemaal eens dat wanneer je met mensen werkt je daar tegenwoordig ook moet nadenken over wat zijn persoonsgegevens en hoe worden die gebruikt in de tools die je tot je beschikking hebt. Dat is inderdaad training.
Ik denk overigens dat wij als tweakers de behoedzaamheid van ook mensen zonder enige IT-kennis onderschatten. Misschien hebben ze niet door dat ze niet zomaar alles in ChatGPT moeten gooien, maar ze begrijpen ook wel dat er enge datalekken zijn.
Die twee aan elkaar knopen is echter lastig. Men ziet dit soort lekken nog te vaak als losstaande gevallen
Dan kan je als werkgever ook zorgen dat men 'veilig' kan werken met AI, bijvoorbeeld door een afgeschermde omgeving op te zetten en aan je werknemers te biedden als alternatief. Maar alles begint imho natuurlijk bij voorlichting/instructie hoe de gemiddelde werknemer hier mee om moet gaan (whishfull thinking, i know)
Er zijn bedrijven die elk kwartaal een verplichte interne veiligheidstraining hebben voor alle(!) medewerkers, daaronder valt ook software, internet, LLM's en het gebruik daarvan. Zo'n training duurt een uurtje. Dus voor vier uur per jaar kan niemand meer beweren dat ze niet weten dat ze iets verkeerd doen.

Een andere dan, in de olie- en gassector hebben ze allerlei varianten op dit voorbeeld, ik hoorde over een organisatie, die elke dag iedereen in teamverband verplicht om te luisteren naar een 'presentatie' van tien minuten over het onderwerp veiligheid, iedereen in het team moet regelmatig iets vertellen aan de anderen hierover of een situatie bespreken die is opgemerkt. Nu is dat natuurlijk een sector met veel risico, maar met deze voorbeelden erbij kan men misschien geinspireerd worden om iets aan de status-quo van onwetendheid te gaan doen.
Het kan wel, maar dan moet je als bedrijf de buidel tasten en een stevige machine neerzetten en een goed model lokaal draaien. Een lokale LLM die je kan gebruiken voor je bedrijfszaken.


Om te kunnen reageren moet je ingelogd zijn