Privacystichting noyb dient klacht tegen OpenAI in wegens mogelijk schenden AVG

Privacystichting noyb heeft een AVG-klacht tegen OpenAI ingediend bij de Oostenrijkse privacytoezichthouder DSB. De zaak is gericht op de 'hallucinaties' van ChatGPT en het onvermogen voor de chatbot om verkeerde informatie over individuen te corrigeren.

De privacystichting noyb claimt dat ChatGPT verkeerde informatie verstrekte over de persoonlijke gegevens van een onbekend 'publiek figuur'. De chatbot gaf herhaaldelijk de verkeerde verjaardag van die persoon aan. De AI-chatbot bevatte geen optie om die gegevens te verbeteren of te verwijderen. Onder de AVG hebben Europeanen verschillende rechten rondom hun data. Artikel 16 van de privacywet dicteert bijvoorbeeld het recht om foutieve persoonsgegevens te laten rectificeren.

Noyb claimt ook dat OpenAI niet correct inging op informatieverzoeken onder de AVG. Het bedrijf kon ook niet aangeven welke gegevens het bezit over de persoon, maar artikel 15 van de AVG geeft EU-inwoners het recht om in te zien welke gegevens bedrijven van ze bezitten. "De verplichting om inzageverzoeken in te willigen geldt voor alle bedrijven", zegt een data-advocaat van noyb.

De stichting vraagt Oostenrijkse gegevensbeschermingsautoriteit DSB om de dataverwerkingspraktijken van OpenAI te onderzoeken, naast de maatregelen die het AI-bedrijf neemt om ervoor te zorgen dat verzamelde data accuraat is. Noyb vraagt de toezichthouder ook om OpenAI te bevelen aan de AVG te voldoen. De stichting vraagt ook om een boete voor OpenAI om 'naleving in de toekomst te garanderen'. AVG-boetes kunnen oplopen tot maximaal vier procent van de wereldwijde jaaromzet.

Noyb, oftewel 'none of your business', is de non-profitstichting van privacyactivist Max Schrems. De organisatie diende eerder meerdere privacyklachten in tegen onder andere Facebook-moederbedrijf Meta en Google.

Door Daan van Monsjou

Nieuwsredacteur

29-04-2024 • 10:49

140

Submitter: wildhagen

Lees meer

Reacties (140)

140
133
78
1
0
27
Wijzig sortering
Vind het nogal raar geredeneerd en een beetje de wet uit z'n verband trekken.
De chatbot gaf herhaaldelijk de verkeerde verjaardag van die persoon aan.
We hebben het hier niet over een database met persoonsgegevens waar je queries op uitvoert. Je stelt een vraag aan een taalmodel, en aan de hand van de kennis waarmee die getraind is krijg je er hopelijk een zinnig antwoord uit. Dit is niet gewoon een record oid wat voor OpenAI maar even is aan te passen, alsof ze voor allerlei personen hun gegevens netjes in tabelletjes bij zitten te houden. Daarbij mag er verwacht worden dat de data redelijk ok is maar zeker niet volledig betrouwbaar.
Het bedrijf kon ook niet aangeven welke gegevens het bezit over de persoon.
Ook hier, logisch. OpenAI bezit geen database met daarin alle gegevens over allerlei personen. Er is input geweest van allerlei bronnen en die zijn in een LLM gegoten. Wat verwachten ze nu helemaal voor data te ontvangen dan? Kunt moeilijk het hele taalmodel gaan emailen, maar dat is het enige wat OpenAI heeft. En niet enkel hun; dit werkt zo voor al dit soort services. De reden dat OpenAI niets aanlevert is dat ze niets aan te leveren hebben.

Overigens ook terzijde, maar wat is dit nu helemaal voor onzinnige klacht. Een chatbot geeft niet je correcte verjaardag weer, poe poe, je zult er maar wakker van liggen...
Dat dat bij een LLM moeilijk is, is niet het probleem van de pricavytoezichthouder of de stichting.

De GDPR/AVG zijn duidelijk dat je niet zomaar privacygevoelige data op mag slaan, dat je inzicht moet kunnen geven in welke data je opslaat, en dat je verzoeken om de data te vergeten moet kunnen opvolgen.

Als je dus privacygevoelige data zoals namen, adressen, geboortedata e.d. opslaat, dan moet je de wet volgen. Als dat met de gekozen techniek voor een LLM moeilijk is, dan is dat jouw probleem, niet van de toezichthouder. Dan moet je dat soort gegevens maar uit je trainingsdata filteren voordat je het aan de AI voert, of zo.
Het is niet dat het moeilijk is, het zit gewoonweg niet opgeslagen in het LLM. En OpenAI weigert hier geen inzicht te geven in wat ze opslaan; van dit persoon hebben ze geen data opgeslagen. Geen namen, adressen, geboortedata... En inderdaad, daarom leveren ze dus ook niets aan. Maar de zogenaamde data-advocaat weet niet hoe een LLM werkt en verwacht maar emails met niet bestaande data van ze te ontvangen. Er zal wel een hoop leven dat de rechter er ook geen kaas van heeft gegeten, maar hoe het ook zij, OpenAI heeft niets om aan te leveren en dat gaat dus ook nooit gebeuren.

Ik val hier in de herhaling maar men lijkt dit concept maar niet te vatten. Misschien interessant als Tweakers er eens een artikeltje over zou schrijven door iemand met verstand van zaken.
Hoe weet jij dat dit niet opgeslagen zit in het LLM? Van wat ik begrijp heeft OpenAI het hele internet gescraped en al die data gebruikt voor het trainen van hun LLM. Als dat is gebeurd zitten er gegarandeerd persoonsgegevens in.
Omdat een LLM niet zo werkt. Data waarop een LLM zijn tekst uitbraakt is een verzameling van verbanden tussen welke letters het vaakst voorkomen in een verzameling verbanden (woorden) die weer opgebouwd zijn met verbanden tussen woorden in een zin. Dat is ook waarom een LLM zelf onzin kan uitkramen, omdat het geen weet heeft van echte gegevens. Het is enkel een "gewicht" op basis van de trainingsdata die het heeft gekregen.

Als zo'n systeem alle trainingsdata ruw opgeslagen zou hebben staan, en bij iedere prompt al die data moet parsen, dan zou je een behoorlijk forse supercomputer aan het werk moeten zetten om daar tijdig antwoord uit te krijgen.
Volgens dezelfde redenatie van jullie, weet ik mijn eigen naam niet.
Of dit de goede manier is om deze discussie te voeren zoals noyb doet weet ik niet, maar er komt dan wel een precedent uit waar we mee verder moeten iig.
Het staat buiten kijf dat je met de juiste prompts trainingsdata kunt reconstrueren, er zijn zelfs speciale control prompts waarmee je woord voor woord de trainingsdata uit het model kunt halen. (Bron is een paper over Stable diffusion waarbij de training grofweg hetzelfde doet,in beeld) maar het staat er niet zonder meer in opgeslagen. Daarom is het ook bijzonder lastig om aan een GDPR verzoek te voldoen. Als de data werkelijk weg moet,dan moet je het hele model opnieuw trainen zonder die data.
Als zo'n systeem alle trainingsdata ruw opgeslagen zou hebben staan, en bij iedere prompt al die data moet parsen, dan zou je een behoorlijk forse supercomputer aan het werk moeten zetten om daar tijdig antwoord uit te krijgen.
Maar dat is ook niet wat ik zeg. Ik bedoel dat het indirect die gegevens wel heeft opgeslagen. Want het is getrained op het web, en dat staat bomvol met persoonsgegevens. Ik denk dat je met de juiste prompts wel het een en ander terug kunt vinden. Dacht ook dat dat eerder al was aangetoond. Maar ik heb hier zo 1,2,3 geen bron voor.
LLM is een concept. De klacht gaat om de implementatie van het concept. En aangezien dat wel degelijk datasets verwerkt en op basis van relaties tussen gegevens verwerking doet gaat je bewering niet zomaar op. Eerder juist wel, omdat de wet geen uitzondering maakt over het soort opslag rond persoonsgegevens. Het model is dus geen excuus, en de implementatie ook niet, om te doen alsof er maar niet aan wetgeving voldaan hoeft te worden.
Ik beredeneer niet dat het model een excuus zou zijn of dat dit een uitzondering zou zijn op de wet of wat dan ook. Ik stel dat ze dergelijke dat die hier van OpenAI wordt opgeëist data is die ze helemaal niet bezitten. Dus als de wetgeving stelt dat de persoonsgegevens die men bezit desgevraagd moet overhandigen, dan voldoet men door niets te sturen wanneer men niets bezit. Dat zou heel anders zijn wanneer OpenAI wel met databases zou werken waar dit soort informatie in opgeslagen zou staan, maar dat doen ze dus niet. De hele vraag naar dat is hier onzinnig en ik zie niet in wat men verwacht te ontvangen en waar ze denken dat het opgeslagen zou staan.
Er is geen wettelijke uitzondering dat het bedrijf wel uit zichzelf verwerkt maar geen inzage kan geven, geen mogelijkheid tot aanpassen geeft en geen mogelijkheid tot verwijderen geeft. Het is dus niet de personen over wie de gegevens gaan aan te rekenen dat die toch zulke verzoeken doen.

Daarbij is het een bedrijf niet zomaar toegestaan om persoonlijke gegevens wel als 'antwoord' te genereren maar vervolgens ongevraagd zomaar te vernietigen. Het verbanden leggen mag al niet zomaar. Daar horen ze verantwoordelijkheid over af te leggen, waar de wet eisen over stelt aan inzage en mogelijkheden tot aanpassen en voorkomen van gebruik. Dat de persoon dus gebruik maken van hun recht is dus eerder begrijpelijk als een bedrijf niet voldoet.
Vergelijk het met een persbedrijf wat opinie-artikelen op verzoek schrijft en een tikkeltje recalcitrante schrijver in dienst heeft die de grootst mogelijke onzin over mensen op verzoek op papier zet om in de volgende editie van een blad te publiceren, maar die na publicatie die artikelen niet verder bewaard heeft en weigert om rectifacties in opvolgende nummers te publiceren.

Of vergelijk het met een PR figuur die spreekt uit naam van een bedrijf, en bijv. glashard mensen besmeurd tijdens een live interview of een persconferentie door zogenaamde privè feiten op te koken om die persoon zwart te maken. Misschien wel een voormalig werknemer waar de relatie .. onwelvallig en stipt beeindigd werd. (Op straat geschopt.)

Ook dat zijn verwerkingen van persoonsgegevens in professionele zin van een dataverantwoordelijke die gegevens van betrokkenen verwerkt. En dat zit misschien een tikkie dichter bij de onzin die een LLM kan uitkramen. (En waar de uitbater van dat LLM als dataverantwoordelijke gewoon aansprakelijk voor is.)

[Reactie gewijzigd door R4gnax op 22 juli 2024 17:03]

Want OpenAI heeft al die trainingsdata niet opgeslagen en elke keer als ze een nieuw model moeten trainen halen ze al die data opnieuw binnen?

1. OpenAI heeft hoogstwaarschijnlijk wel al die data opgeslagen om toekomstige modellen op te trainen. Dat t niet in t LLM zit betekent niet dat OpenAI t niet heeft.

2. Als ze een model trainen moet die data ook op zijn minst tijdelijke opgeslagen worden. Ook voor tijdelijk opslag en verwerken van persoonlijke data moeten ze aan de wet voldoen. En voor zo ver ik weet heeft OpenAI geen toestemming gevraagd aan welk individu dan ook om zijn of haar persoonlijke data op te slaan en te verwerken.

3. Tenzij je historie uitzet, worden je gesprekken met ChatGPT ook opgeslagen. Dus die data is weldegelijk opgeslagen op hun servers ook

[Reactie gewijzigd door WORPspeed op 22 juli 2024 17:03]

Maar de zogenaamde data-advocaat weet niet hoe een LLM werkt en verwacht maar emails met niet bestaande data van ze te ontvangen.
Die data-advocaat weet waarschijnlijk wel hoe een LLM werkt, maar is (terecht) benieuwd hoe de AVG hier mee om zal gaan. Deze thread is al voldoende bewijs dat de meningen nogal verschillen.
Sorry, maar dat is echt onzin. Datgene wat er in een LLM zit is een gevolg van de trainingsdata (die ze zeker wel opslaan). Het is dus zeker wel mogelijk om te laten zien of de verkeerde geboortedatum verkeerd in de trainingsdata zit, of dat dit toevallig is ontstaan. Ze willen gewoon de moeite niet doe .
Het doet er mijns inziens niet toe of ze het hebben opgeslagen in een DB achter de LLM. Het gaat erom dat hun LLM antwoord geeft op vragen die aan de GDPR onderheving zijn en dat antwoord is dan ook nog eens feitelijk incorrect.

De GDPR verplicht een mogelijkheid om die data te corrigeren of te laten verwijderen. Als het LLM van OpenAI dat niet kan, om welke reden dan ook, dan is OpenAI dus bezig op een manier die niet in lijn is met de vereisten van de GDPR.
Als OpenAI dan wil stellen dat zij de data niet hebben opgeslagen maar dat het van elders komt, dan moeten ze of duidelijk met bronvermelding citeren. Een andere oplossing is dat als het antwoord op een vraag in strijd is met de GDPR dat het LLM dan aangeeft het niet te kunnen beantwoorden vanwege de GDPR.

Ik heb ook een slot op mijn oud papier kliko moeten maken omdat buren er andere rotzooi ingooiden. Het zal de afvaldienst aan hun anus oxideren wie er wat in de kliko heeft gedaan. Het is mijn kliko en ik ben verantwoordelijk voor wat er uit die kliko komt. En als wat eruit die kliko komt niet in orde is dan wordt de kliko niet geleegd.
Het is dan dus mijn zaak om ervoor zorg te dragen dat er geen verkeerde rotzooi in die kliko terechtkomt.

Wat dat betreft is het niet anders met een LLM. Het is aan OpenAI om erop toe te zien dat wat zij aan hun LLM leren ook in lijn is met oa de GDPR. Doen ze dat niet dan is dat hun probleem en van niemand anders. Het is hun LLM, zij zijn verantwoordelijk voor het ding en het is dus ook hun taak om erop toe te zien dat hun LLM werkt binnen de door de wet gestelde kaders.
Maar de AVG wet is heel simpel, als individu heb je het recht om aan een bedrijf te vragen welke gegevens ze over je hebben en je hebt het recht die gegevens te laten wijzigen of verwijderen. De manier waarop ze opgeslagen zijn maakt dan helemaal niets uit.
Jij vind dat simpel, maar nogmaals, OpenAI heeft geen gegevens opgeslagen van specifieke personen. Ze bezitten enkel een getraind LLM. Die genereert output, maar het is niet zo dat die output maar gewoon ergens staat opgeslagen. Nee, nogmaals, die is gegenereerd.

Je zou kunnen zeggen, vraag aan het LLM alles te vertellen over persoon X wat het beschikbaar heeft qua informatie. Dan heb je toch je info? Maar nee, dat is geen info die OpenAI in eerste instantie al had. Het is puur gegenereerd door een LLM. En het zal ten dele ook nog eens inaccurate info genereren.

OpenAI heeft niets om op te sturen aan dit persoon, omdat ze geen dergelijke info hebben opgeslagen. Net zo goed hebben ze dus ook niets te wijzigen of te verwijderen. Er is binnen OpenAI geen database te bekennen waar dit persoon zijn verjaardag in staat opgeslagen. Er is ook nergens een verjaardag te verwijden of te wijzigen.

Dus als de avg zo simpel is en je moet kunnen opvragen welke gegevens OpenAI heeft over dit persoon, daar voldoen ze aan, maar ze hebben dus helemaal niets, en dus ook niets om aan te leveren.
Het black box principe gaat hier simpelweg niet op. De AI moet ergens zijn gegevens uit halen. Maw. hij moet die gegevens ergens verwerken. De AVG is dan heel duidelijk indien een systeem gegevens van een persoon verwerkt moeten de regels uit de wet worden toegepast. Dat je niet weet waar of hoe de gegevens opgeslagen worden zijn irrelevant.

Het gaat dan ook niet om opslaan, maar het verwerken van gegevens. Dat kán dus opslaan betekenen, maar ook kan het gegenereerde gegevens zijn gebaseerd op een echt persoon. En dan zit OpenAI hier gewoon verkeerd.

[Reactie gewijzigd door ShadLink op 22 juli 2024 17:03]

Je blijft toch vasthouden aan het paradigma dat OpenAI de boel ergens wel heeft vastgelegd en dat het enkel wat lastiger zou zijn te achterhalen hoe en waar het is opgeslagen. Maar dit is gewoonweg een verkeerde aanname. De LLM genereert maar wat. Dat komt niet uit een database zoals je lijkt te veronderstellen. Deze partij vraagt naar niet bestaande data en lijkt dan verbaasd te zijn niets te ontvangen.
Hoe weet een LLM dan wat het moet genereren? Het wordt ergens op getraind en dat levert een soort van database op. Daarbij, voor de 3e keer, maakt het geen zak zout uit hoe de LLM daaraan komt. Als het gegevens genereerd gebaseerd op een echt persoon is het verplicht te voldoen aan de AVG wetgeving. Genereren = verwerken.

Nogmaals of het wel of geen database is maakt voor de AVG helemaal niks uit.

[Reactie gewijzigd door ShadLink op 22 juli 2024 17:03]

Het levert geen database op, daarom kan men ook niets versturen qua data aan dit persoon. En wat een rare stelling dat dat niets uit zou maken. Als er geen data is kun je ook niets versturen. Wat verwachten we nu helemaal dat OpenAI hier doet om tegemoet te komen aan het versturen, verwijderen, of corrigeren van data over persoon x? Zonder database valt er helemaal niets te versturen, verwijderen, of corrigeren. Kunnen we wel stug gaan roepen dat dat niets uitmaakt, maar mij ben je dan kwijt met de logica, en vermoed met zo'n reactie zelf een gebrek aan inzicht in hoe een LLM werkt.

Het model is ooit getraind ja, maar daarvan is niets vastgelegd of wat dan ook. Het is niet zo dat die data nu in het model is opgeslagen. Dat is gewoonweg niet hoe het werkt.
Dat is ook niet het punt.
Het doet er gewoon niet toe wat de LLM opslaat of niet.

Stel: ik bied chatWhatever aan als service. Jij vraagt chatWhatever wanneer ShadLink geboren is,
dan krijgt je een pracht van een hallucinatie. chatWhatever weet immers niet wanneer SL geboren is.

Het punt is dat deze hallucinatie / informatie verkeerd is.
En dat de AVG hier regels over vastlegt.
Als ik (service provider) deze informatie aanbied, dan heeft SL het recht om dit te corrigeren / verwijderen.

En "de eindgebruiker moet het maar controleren" gaat hier niet op.
Wat moet hier precies verwijderd of gecorrigeerd worden? Er is enkel een reeks woorden gegenereerd. Die kun je niet met terugwerkende kracht nog aanpassen of verwijderen. Die data heeft niet eens ergens bestaan tot de gebruiker het heeft laten genereren. We kunnen zo wel stellen dat er een recht is data te verwijderen/aan te passen, maar welke data hebben we het dan over? De aanklager hier eist niet bestaande data te ontvangen van OpenAI, de niet bestaande data zelfs aan te mogen passen of te laten verwijderen. Een dergelijke eis is gewoonweg een contradictie die voortkomt uit onbegrip van het product waar men hier gebruik heeft gemaakt. OpenAI heeft geen data om aan te passen of te verwijderen.
Wat moet gecorrigeerd worden?

Alles wat aan de eindgebruiker wordt doorgestuurd als informatie over personen.
Het doet er niet toe wie/hoe/wat de informatie genereert. Of dat een database is, of een wiskundig model, of een LLM, of een complete randomizer, of Janine, de roddeltante van op de hoek.

Als iemand informatie doorstuurt, dan publiceer die persoon de informatie. (zelfs als die informatie zonet gegenereerd werd).
In dit geval: OpenAI stuurt informatie door, die genereert werd door een LLM. Op het moment dat OpenAI informatie doorstuurt, publiceren ze deze informatie ook. Het doet er niet toe dat een LLM deze genereerde.

Als uw systeem foutieve informatie publiceert over personen (met brede interpretatie), dan moet je deze informatie corrigeren op aanvraag.
Het is al gegenereerd. Je kunt niet met terugwerkende kracht de antwoorden aanpassen of verwijderen. Er is ook geen database om iets dergelijks voor in de toekomst te corrigeren of te verwijderen. Ze kunnen wel mailtjes sturen naar OpenAI maar lijken niet te beseffen wat het is dat ze vragen.
Yep. Het model is al getrained. Dan wordt dat hertrainen he. Dat zal (veel) geld kosten.
Maar dat is niet het probleem van de persoon waarover foutieve informatie verspreid wordt.

Als iemand een auto maakt, en blijkt dat er soms pedaal vastzit. Dan moeten alle modellen van die reeks aangepast worden. Ik heb deze wagen niet, maar ik wil ook dat die gefixed wordt. Dat zal ook veel geld kosten, maar dat is niet mijn probleem.

If you can't stand the heat, get out of the kitchen.


Wat stelt u dan voor als alternatief? Alles gelijk toelaten? Open the floodgates?
Iedereen is slim genoeg om zelf te bepalen wat juist/foutief is?
Dan wordt dat hertrainen he
Nee, het wordt gewoon censuur van het model. Alle prompts die mogelijk resulteren in persoonsgegevens worden geblokkeerd en mogelijk moet er een wachttijd worden ingebouwd zodat je ChatGPT ook niet voor de gek kan houden om er alsnog persoonsgegevens uit te halen. Ik vermoed dat deze "oplossing" niet bevordelijk is voor de concurrentiepositie van de EU.
Ik vermoed dat deze "oplossing" niet bevordelijk is voor de concurrentiepositie van de EU.
De fout die je maakt is dat het enkel de EU zou betreffen.
Als een AI model een totaal fictieve persoon zou kunnen hallucineren die toevallig overeenkomt met iemand woonachtig in een lidstaat van de EU, en over die persoon aanvullend incorrecte feiten zou hallucineren en publiceren alsof het ware gegevens over de ware persoon betreft - dan gaan ze al nat.

Of ze dat nou doen voor een respondent binnen de EU, in de VS, in China, of voor mijn part op de maan. Doet er allemaal niet toe. Het betreft op dat moment incorrecte persoonsgegevens die door het taalmodel geattribueerd worden aan een betrokkene uit de EU. Dus valt het onder het territoriale toepassingsgebied van de AVG/GDPR.

Echt - een uitspraak in deze die het standpunt van NYOB zou bevestigen, zou enorm verreikende consequenties hebben voor de LLM-hetze. De fabrikanten kunnen overnacht heen wel inpakken en van nul af aan opnieuw beginnen. Het is namelijk de fundamentele onbetrouwbaarheid en onvoorspelbaarheid van de technologie die aan LLMs ten grondslag ligt waar een bom onder gegooid wordt.

Een LLM mag gewoon nooit meer in de trainingsset aan ook maar de minste data blootgesteld worden die terug te koppelen is naar de EU. Had je graag de historie van het ontstaan van de VS in je LLM gekwakt als onderdeel van de 'kennis'? Jammer dan; gaat niet. Dan zouden Nederland, Spanje, en Frankrijk ter sprake komen en zodra die als woorden bestaan binnen de kennisschat van de LLM is de beer los.

Dit gaat zo vreselijk veel verder dan enkel de EU zelf.

[Reactie gewijzigd door R4gnax op 22 juli 2024 17:03]

Het maakt natuurlijk weinig uit of die data vijf seconden geleden "gegenereerd" is. Het resultaat is dat men onjuiste informatie over een persoon verkondigd en dit mag niet zo zijn. Dat de aanbieder niet precies weet wat hij hier mee aan moet, is toch het probleem van de aanbieder lijkt me.

Als ik opeens onzin over jou begin te roepen op basis van mijn eigen hallucinaties is dit toch ook niet gewenst? Als ik dat als bedrijf doe met een dienst die velen geloven omdat het algemene begrip van wat het doet (moedwillig) onduidelijk wordt gehouden voor de "gewone" mens lijkt me dit nog onwenselijker, ongeacht wat die dienst dan precies is. Het gaat echt niet leuk zijn als dat verregaandere gevolgen aanneemt dan alleen een geboortedatum verkeerd hebben.
In dat geval zou het taalmodel zo opgesteld moeten zijn dat deze geen gegevens mag teruggeven waarbij het zich overtuigend voordoet alsof het persoonsgegevens zijn.

Evenzogoed als een taalmodel niet overtuigend voor mag doen alsof een persoon bijv. bepaalde misdaden gepleegd zou hebben, waar dat niet het geval is. Dat zou namelijk laster zijn.

[Reactie gewijzigd door R4gnax op 22 juli 2024 17:03]

Het is je nu al een aantal keer uitgelegd dat een product van een leverancier niets aan de GDPR/AVG wet verandert. De wet is niet afhankelijk van techniek of implementaties.

Je probeert het steeds om te draaien, maar zo werkt het niet. Overigens, als de AI-dienstenleveranciers een correcte en verplichte Data protection impact assessment (DPIA) hadden gemaakt, wisten ze tevoren dat dit een probleem is waarop ze een oplossing moeten bieden. Personen hebben volgens de GDPR het recht op correctie van gegevens en op vergetelheid. Het recht op privacy is zelfs vastgelegd in het Europees Verdrag voor Rechten van de Mens (EVRM), het is een grondrecht, vastgelegd in 1950.
De LLM heeft vast een database ergens maar meer een die de relatie tussen woorden vastlegt, net als mensen dat in hun hoofd doen. Hij kan artikelen categoriseren en indexen en daar weer relaties uit trekken, Net als mensen , "leert" het model. Het "begrijpt" taal.

Misschien maakt het de AVG geen zak uit waar het vandaan komt. De vraag is echter of er iets te corrigeren valt. Als de LLM voorleest uit een artikel op het web dat het zelf niet opslaat, dan heeft de LLM niet meer controle over de bron dan een zoekmachine. Het kan ook zijn dat de datum gedistilleerd is uit andere gesprekken die het LLM model had.

Ik denk dat openAI beter geen persoonlijke vragen meer kan beantwoorden en gewoon naar wikipedia verwijzen.
https://www.youtube.com/p...TQDNU6R1_67000Dx_ZCJB-3pi

Deze persoon heeft een entry-level uitleg over llm's & gpt's.
Zeker de moeite om te bekijken.

Los hiervan, er is geen database. Er is geen 'begrip', er is enkel een hele stevige wiskundige voorspelling.
De LLM is gelimiteerd tot het getrainde model. Er wordt (voorlopig) niet on-the-fly bijgetraind.

Maar dat maakt inderdaad niks uit.
Net zoals het niks uitmaakt dat 'er niks kan gecorrigeerd worden'.
zelfs de voorspelling word ergens opgeslagen. Database is een breed begrip en omvat veel meer dan alleen relationele opslag. Ooit was het zelfs gebruikelijk om bijna alle opslag databases te noemen.

database definitie:
any collection of data, or information, that is specially organized for rapid search and retrieval by a computer

Er staat nergens dat dit relationeel moet zijn en rapid is een relatieve term. Dus ja als je de volle definitie van database gebruikt dan heeft praktisch elke applicatie er wel 1. Al is het maar om de settings op te slaan. Een LLM heeft er ook vast 1 voor wat persistance. Ze trainen dat ding niet bij elke reboot.

Als je wil beweren dat het ding geen relationele databases gebruikt, dat is prima, maar dat is maar 1 specifieke soort van databases uitgesloten.
database definitie:
any collection of data, or information, that is specially organized for rapid search and retrieval by a computer

Het getrainde model bestaat uit een gigantische collectie getallen (kommagetallen)
De input (tokens / delen van een woord) wordt omgezet naar een (hele hele) grote vector met getallen.
Gans die vector wordt door gans het model geduwd, waarbij een enorme hoeveelheid matrixes worden uitgerekend. Aan het eind komt er een nieuwe vector met getallen uit. Deze worden dan geinterpreteerd als een nieuwe set tokens om woorden mee te maken.

Dus, volgens bovenstaande definitie:
-> collection of data / infomation. Check. Maar een simpele file behoort hier ook toe, en is duidelijk geen database.
-> Specially organized for rapid search. Absoluut niet. Gans het model moet volledig doorgerekend worden voor een enkele query.
-> Specially organized for retrieval. Zelfde als hierboven.

De voorspelling wordt niet opgeslagen.
Een paar vergelijkingen:

-> Als ik u een 2de graads functie toon: y=ax^2+bx+c, dan kunt u elke y berekenen.
Het enigste dat u opslaat is zijn 'a','b' & 'c'.
Voor elke waarde dat u wil berekenen, moet u gans de functie uitrekenen.

-> Minecraft seed: op basis van een seed wordt een enorme wereld gegenereerd.
Er is een wiskundig algoritme/functie met parameters die blokken berekend. <= dit is het model
Er is een seed die deze functieparameters invuld. <= dit zijn de parameters van het model
Hiermee kan je gans de wereld uitwerken, mits heel veel rekenkracht.

Een LLM maken kan dan vergeleken worden met een seed zoeken. We weten hoe de wereld eruit moet zien en we zoeken welke seed er het best bij past. Het wordt sowieso een benadering. Grotere/langere seed = betere benadering. Deze seed is duidelijk geen database.
Parameters zijn geen database.
Maar een simpele file behoort hier ook toe, en is duidelijk geen database.
Uhmmmm, ja volgens de definitie wel en veel vroege software noemt files ook databases. Elke vorm van enigszins gestructureerde opslag. Misschien ben je te jong hiervoor.

Wat rapid search betreft, als het hele model door gerekend moet worden dan is dat de "rapid". Ik zij in mijn comment al dat rapid relatief is.

en je vergelijkingen.... De formule word nochtans opgeslagen ergens, niet noodzakelijk omdat met alle uitkomsten te doen.. Maar kan handig zijn voor performance

Parameeters zijn geen database? Wat een rare uitdrukking is dat.Niemand zegt dat. Parameters kan je wel, uit een database halen.
Ik kan bier in de auto zetten, maar dat maakt de auto geen bierkrat. .

Je zit duidelijk klem in moderne hippe naamgeving. Het is allemaal een punt nat bedoeld voor marketing.
Als een file gelijk staat aan een database, dan heeft het woord database geen waarde meer.
Misschien ben je te jong hiervoor.
Hm. Ad hominem. *zucht*
Hier stopt de discussie. Ik kan u de zon tonen, maar ik kan u niet verplichten te kijken.

Daarbij. Er staat hier een (werkende!) pdp 11 naast mij. Dat zegt iets over mijn leeftijd.
Als je als bedrijf informatie over personen gaat leveren, zoals wat hun geboortedag zou zijn, dan valt dat gewoon onder verwerking van persoonsgegevens. Het feit dat die verwerking heel kort is of LLM gebruikt doet daar niets aan af. De wet stelt daar ook opzettelijk geen grens aan, omdat het (gaan) verwerken belangrijker is dan de duur of de techniek. Daarom stelt de wet ook dat een bedrijf vooraf genoeg moet doen, zoals een systeem en procedures ontwerpen en bouwen dat wel aan de wet kan voldoen. En dat ze verantwoordelijkheden hebben bij het verwerken. De wet is niet dat ze zomaar uitzonderingen hebben omdat ze liever procedures en technologie toepassen waarmee ze niet kunnen of willen voldoen.
We hebben het hier niet over een database met persoonsgegevens waar je queries op uitvoert. Je stelt een vraag aan een taalmodel, en aan de hand van de kennis waarmee die getraind is krijg je er hopelijk een zinnig antwoord uit.
Je vraagt naar persoonsgegevens en je krijgt een antwoord. Dan zijn er dus 2 mogelijkheden:
  • OpenAI claimt dat het antwoord een zekere mate van betrouwbaarheid heeft. Effectief claimt OpenAI dan zelf dat het antwoord persoonsgegevens geeft en dan is de AVG dus van toepassing.
  • Het model, de algemene voorwaarden en de user interface zijn dusdanig opgezet dat het voor iedereen duidelijk is dat er geen enkele reden is om aan te nemen dat de persoonsgegevens juist zijn. Dan is het misschien mogelijk dat de gegevens als fictie gerekend worden. Maar die drempel is heel hoog want er zal niet alleen gekeken worden naar wat OpenAI er van zegt, maar ook wat het publiek er van begrijpt. (Net zoals dat je er bij het schrijven van een boek / krantenartikel / tv reportage niet mee weg komt als je alleen wat details veranderd maar het publiek nog steeds effectief weet over wie het gaat.)
Ik zie het tweede scenario eerlijk gezeg niet zo snel slagen bij de rechter.
Ik zie het tweede scenario eerlijk gezeg niet zo snel slagen bij de rechter.
Het zou kunnen slagen, maar dan zou er sprake moeten zijn van een preambule die elke vorm van realiteit ontkent en zeer duidelijk en ondubbelzinnig stelt dat alles wat uit het model komt totale fictie is en enige overeenkomstigheid met de realiteit op puur toeval berust.

Ironisch genoeg: dat zou nog kloppen ook. Want LLMs zijn puur een kansberekening. Alleen een heel complexe met heel veel gewogen factoren. :+

Alleen verliezen ze daarmee natuurlijk wel hun mooie marketing-praatje dat die modellen allemaal heel accurate informatie terug geven en bijv. niet alleen 'net echt' zijn maar 'beter dan echt' zijn.

[Reactie gewijzigd door R4gnax op 22 juli 2024 17:03]

Ik vermoed dat dit kansloos is. nyob schrijft ten onrechte dat de verplichting voor alle bedrijven geldt. Artikel 2 AVG maakt al expliciet duidelijk dat dit niet het geval is. Deze AI is simpelweg niet bedoeld, ingericht of opgezet voor de verwerking van persoonsgegevens. Dat kún je wel doen, en dan zou het onder de AVG vallen, maar als ChatGPT persoonsgegevens verwerkt dan is dat toeval en geen opzet.

Een vergelijkbare, maar beter bekende uitzondering zijn bedrijven die naar een bestaand persoon vernoemd zijn. Je bent dus niet in overtreding als je bedrijfsnamen verzamelt en zo toevallig een persoonsnaam in je database hebt. Het is niet de string van bytes die iets tot een persoonsgegeven maakt, maar de intentie.
Wat een vreemde interpretatie van artikel 2. Ik zie niet in onder welke uitzondering OpenAI zou moeten vallen, het is noch nationaal veiligheidsbelang noch een echte persoon noch politie of justitie noch een EU instantie. Dus geldt lid 1 van artikel 2:
Deze verordening is van toepassing op de geheel of gedeeltelijk geautomatiseerde verwerking, alsmede op de verwerking van persoonsgegevens die in een bestand zijn opgenomen of die bestemd zijn om daarin te worden opgenomen.
En dat is precies wat openAI doet: het geautomatiseerd verwerken van gegevens...
Je maakt hier een wel vaker gemaakte fout. Het is niet voldoende dat een systeem voldoet aan sommige van die eisen. Het moet concreet gaan om persoonsgegevens die als zodanig verwerkt worden. Zoals ik al eerder liet zien: een persoonsgegeven (naam) telt niet meer als persoonsgegeven als het in een andere context gebruikt wordt (bedrijfsnaam). "Philips" is dus géén persoonsgegeven, maar "Last Name: Philips" wel.

ChatGPT verwerkt woorden niet als persoonsgegeven, maar als woord. "Philips" heeft een kleine taal-afstand tot "Frits" én tot "TV".
Hier een website die extra uitleg voorziet.
Dit artikel geeft samen met artikel 3 AVG aan wanneer de Algemene Verordening Gegevensbescherming van toepassing is. Artikel 3 AVG gaat over de territoriale reikwijdte (waar is de AVG van toepassing?), artikel 2 gaat over op welke handelingen de AVG van toepassing is - de materiële reikwijdte. In lid 1 staat dat de AVG van toepassing is op de verwerking van persoonsgegevens; in leden 2, 3 en 4 staan uitzonderingen.
Het voldoet aan geen van de uitzonderingen dus de AVG is van tel. Daar zie je ook dat jouw uitleg kant noch wal slaat ivm die persoonsgegevens want ze geven dat voorbeeld
(c) als een persoon van vlees en bloed persoonsgegevens verwerkt voor puur persoonlijke doeleinden, bijvoorbeeld een adressenboekje bijhoudt op zijn computer (overweging 18)

[Reactie gewijzigd door Horla op 22 juli 2024 17:03]

Het faalt al op 2.1. Het telt niet eens als een persoonsgegeven. Dus je komt niet eens tot het punt wanneer je persoonsgegevens wel mag verwerken.
Lees eens die link ipv maar wat uit je nek te lullen. In artikel 2 staat helemaal niet beschreven wat persoonsgegevens zijn, in die link staat letterlijk
Lid 1 stelt dat de AVG van toepassing op de verwerking van persoonsgegevens. Wat verwerking is en wat een persoonsgegeven staat in artikel 4 AVG.
Dus voor de derde keer verwijs je naar het verkeerde artikel. Het is moeilijk je serieus te nemen maar enfin, nog eens proberen:
Artikel 4
"persoonsgegevens": alle informatie over een geïdentificeerde of identificeerbare natuurlijke persoon ("de betrokkene"); als identificeerbaar wordt beschouwd een natuurlijke persoon die direct of indirect kan worden geïdentificeerd, met name aan de hand van een identificator zoals een naam, een identificatienummer, locatiegegevens, een online identificator of van een of meer elementen die kenmerkend zijn voor de fysieke, fysiologische, genetische, psychische, economische, culturele of sociale identiteit van die natuurlijke persoon;
Het is belangrijk op te merken dat bovenstaande opsomming niet limitatief is maar toch: ik ben vrij zeker dat als ik naar een "bekend" persoon vraag in OpenAI, hij meerdere elementen gaat geven die in bovenstaande definitie staan. Ergo: OpenAI verzamelt wel degelijk persoonsgegevens in zijn LLM's, opereert in de EU, is geen uitzondering zoals beschreven in de AVG en moet bijgevolg voldoen aan de AVG.
Het lijkt me dat er bij de trainingsdata van GPT wel degelijk bronnen met persoonsgegevens zitten, maar OpenAI geeft hier geen openheid over.
Als ze die inderdaad opzettelijk gebruiken, dan zou dat een overtreding kunnen zijn. Alleen: noyb is daarin geen belanghebbende, want het is een rechtspersoon en geen natuurlijke persoon wiens gegevens gebruikt zijn in training. Dus OpenAI hoeft noyb geen inzicht te geven.
Ook als ze die onopzettelijk gebruiken zou het een overtreding zijn. En verder kan natuurlijk enig medewerker van Nyob uit persoonlijke titel een verzoek tot inzage bij openAPI neergelegd hebben. Het is ook niet ongewoon voor bijv. journalisten om dit soort verkennend onderzoek op persoonlijke titel te plegen.
als ChatGPT persoonsgegevens verwerkt dan is dat toeval en geen opzet.
Aangezien het bedrijf en hun systeem kennelijk pas na een vraag om een tekst met persoonlijke gegevens besluiten of een persoon wel of niet publiek is kunnen we uitgaan van opzet en verwerking. Terwijl het absoluut niet de bedoeling is om maar willekeurig gegevens te kunnen verzamelen en verwerken om daarna toch maar selectief wat gegevens als persoonlijke gegevens te verwerken. Ook niet voor een besluit of iemand wel of niet publiek is. En als men er voor kiest om een persoon als publiek te beschouwen zodat eerder of daarna verkregen gegevens als persoonlijke gegevens, zoals een mogelijke geboortedatum, te behandelen dan hoort men daarbij mogelijkheden tot inzicht in bronnen, correctie en verwijderen te bieden. Anders had men een ander systeem moeten ontwerpen of gebruiken. Wat hoe dan ook een wettelijke eis is als je persoonlijke gegevens via de service wil leveren.(en dus verwerken).

[Reactie gewijzigd door kodak op 22 juli 2024 17:03]

We weten van ChatGPT dat het een LLM is. Dat is dus géén database van persoonsgegevens. Het is een taalmodel. MS Paint is ook geen database van persoonsgegevens puur omdat iemand er een keer een screenshot in heeft gecropped. De AVG eist een zekere minimum-intentie om persoonsgegevens te verwerken.

En voor een AI is dit nog relevanter. Een AI model bevat geen expliciete gegevens, en daarom is het fundamenteel onmogelijk om ze te "verwijderen". Juist het feit dat een AI in staat is om complete personen te verzinnen ("hallucineren"), alsmede het verzinnen van gegevens over bestaande personen maakt wel duidelijk dat die gegevens niet in het model zitten.
Verwar je het model nu niet met een dienst? OpenAI is niet alleen maar een taalmodel, het biedt ook direct diensten op basis hiervan aan (ChatGPT); een dienst welke persoonsgegevens verwerkt (en zelfs 'verzint'). Als het alleen bij het model was gebleven, dan had je MS Paint vergelijking op gegaan mijn inziens. Maar nu is OpenAI zowel (in deze analogie) Microsoft (leverancier van het product) als wel de gebruiker (degene die par abuis een screenshot heeft gecropped waardoor er nu mogelijk privacy-gevoelige gegevens in het model zetten). Dit kan je in deze casus moeilijk los van elkaar zien, imo.

En het feit dat ze desnoods een verjaardag 'verzinnen' duidt ook op expliciete intentie om die gegevens te verwerken.
Dat is voor de AVG niet zo'n kritisch verschil, tool of dienst. Maar volgens mij is Adobe Photoshop tegenwoordig een online dienst, dus gebruik gerust die als voorbeeld. Microsoft heeft met ChatGPT evenmin de bedoeling om persoonsgegevens te verwerken als Adobe met Photoshop.

En dat ChatGPT een verjaardag verzint is absoluut geen bewijs van "intentie". Sowieso, wiens intentie? Een AI is geen rechtspersoon en kan juridisch niet eens een intentie hebben. Maar belangrijker, ChatGPT halluncineert overal, desnoods over de kleur van een koe.
Ok. Efkes photoshop.

Iemand geeft photoshop een foto van uw vriend(in)/echtgeno(o)t(e) en vraagt om er mooie fotos bij te genereren. (yep, blauw materiaal)
Vervolgens pleurt h/zij die ganse reeks op OF of publiekelijk.
Het zijn toch maar hallucinaties.

Iemand geeft ChatGPT de naam van uw vriend(in)/echtgeno(o)t(e) en vraagt om er een sappige achtergrond bij te plaatsen. (complete onzin, maar zet uw SO in een zeer slecht daglicht)
Vervolgens pleurt h/zij al die info op internet.
Het zijn toch maar hallucinaties.

Voor beide gevallen: dit zou wel eens stevige invloed kunnen hebben op SO zijn/haar leven.
Redelijk duidelijk dat beide foutief zijn.
Vast, maar dat is dit soort tools niet aan te rekenen. Met zulke logica kun je het ook wel op de internetprovider of energieleverancier van dit persoon afschuiven. In de praktijk komt het erop neer dat de persoon die dit soort zaken heeft laten genereren en heeft gepubliceerd dan een probleem heeft, niet z'n internetprovider.
Ook in de cloud blijft de gebruiker in controle over wat er gevoed wordt in Photoshop, iets wat in dit geval OpenAI zelf doet.

Daarnaast lijkt het me een evident groot verschil. Namelijk dat een tool zelf geen bijzondere gegevens verwerkt, dat ligt bij de -eind-gebruiker van die tool. Iets wat hier anders ligt...dergelijke vergelijkingen slaan nergens op.

De intentie ligt bij de dienst...? Laten we niet doen alsof AI iets magisch is, OpenAI biedt dit gewoon aan als dienst. En diensten hebben intenties - AI of niet. En hallucineren over personen en dit vrijelijk verspreiden is in sommige gevallen zelfs strafbaar. Dit pleit zeker niet in het voordeel van zo'n dienst.

Ze sturen ook vragen over politiek, rassen, etniciteit, etc. Intentie is 100% ingebakken in dergelijke modellen.

[Reactie gewijzigd door eric.1 op 22 juli 2024 17:03]

Men stelt het bedrijf verantwoordelijk, dat kiest voor technologie die overduidelijk niet zomaar geschikt is om persoonsgegevens mee te verwerken. Het is dus niet redelijk om maar te stellen dat de techniek er niets aan kan doen, het bedrijf kiest opzettelijk voor de techniek. Dat is hun verantwoordelijkheid en dus hun probleem.
Wat veel zorgelijker is, is deze zin uit het oorspronkelijke artikel: OpenAI simply argues that “factual accuracy in large language models remains an area of active research”.
Kortom, ChtaGTP is leuk voor vermaak, maar als het om meer serieuze zaken gaat, dan is ChatGTP vergelijkbaar met het eerste het beste roddelblad.
Je kunt het zorgelijk vinden, of je verwacht het te kunnen gebruiken op een manier waarvoor het niet bedoeld is.

Als je iemands verjaardag zoekt met een degelijke bot en je vindt het zorgelijk dat dat soms niet klopt, dan zou ik zeggen dat je de verkeerde tool gebruikt voor wat je wilt bereiken. Kun je moeilijk OpenAI aanrekenen.

[Reactie gewijzigd door i7x op 22 juli 2024 17:03]

Dat een verjaardag niet klopt - duh. Maar het gaat verder - blijkbaar moet je bij de interpretatie van hetgeen ChatGPT opdist rekening houden met de windrichting, de stand van de zon en maan en natuurlijk niet te vergeten of je het gas hebt uitgedraaid. En zoals ik zeg - zolang het wordt gebruikt voor vermaak zal me dat worst zijn. Maar als je leest dat o.a. Defensie van verschillende landen het ook gebruikt, dan werpt dat toch een ander licht op de zaak.
Ik zou zeggen je kijkt naar de verkeerde partijen voor de oorzaak van het probleem.

Ik gebruik de tool dagelijks voor normale doeleinden waarvoor het is bedoelt. Als Defensie ChatGPT wil gebruiken voor iets waar het niet voor is bedoeld is ligt het probleem daar, niet bij OpenAI.
OpenAI heeft toch geen database van verjaardagen die een fout bevat, het kan alleen maar data van internet gebruiken. Nu zou er dus een hardcoded birthday=x voor deze persoon moeten worden gebouwd, iets waar ze niet om staan te springen en dat is wel te begrijpen.

Maar als blijkt dat de meeste data op internet over dit publieke persoon correct is en OpenAI toch met een verkeerde komt is dat ze wel aan te rekenen.
Dit gaat niet om het wel of niet hebben van een database. Het gaat om het fout omgaan met persoonsgegevens. De service van het bedrijf is onder andere om antwoorden met informatie over personen te geven. De wet is dat een bedrijf dat niet zomaar mag doen, zelf verantwoordelijkheid heeft daarbij overtredingen en dus fouten te voorkomen, inzicht te geven welke gegevens ze verwerken (en duidelijk genoeg waarop ze die baseren), gegevens kunnen verwijderen en fouten van hun verwerking te kunnen herstellen. Als ze dat niet willen en hun systeem daar niet mee om kan gaan dan hoort dat niet het probleem van de honderdenmiljoenen inwoners van de EU te zijn maar voor het bedrijf dat niet aan de wet voldoet.
Het is ook helemaal niet een probleem van de gemiddelde EU burger. Als ik ChatGPT om persoonsgegevens van bijvoorbeeld mijzelf vraag dan krijg ik dit.
As an AI language model, I don't have access to personal data unless it has been shared with me in the course of our conversation. Your privacy and confidentiality are important, and I'm designed to prioritize the security of your information. Therefore, I don't know your birthday unless you explicitly tell me. If you have any concerns about privacy or data security, please let me know, and I'll do my best to address them.
ChatGPT kan enkel informatie geven over publieke personen, en "weet" enkel wat de bronnen waar het op getraind is over deze personen hebben geschreven. OpenAI is waarschijnlijk helemaal niet in staat om hier op individueel niveau correcties op uit te voeren. We worden toch ook niet boos op Google als het in de zoekresultaten feitelijke onjuistheden van andere bronnen laten zien?

De enige zinnige manier waarop OpenAI dit op kan lossen is door ChatGPT in alle gevallen te laten weigeren om persoonsgegevens te verstrekken.
Het is wel degelijk een probleem voor honderdenmiljoenen inwoners van de EU. Het bedrijf past namelijk geen duidelijke grens toe waarom en wanneer ze een persoon publiek vinden. Terwijl dat op zich een persoonsgegeven is als personeel of hun systeem dat over een persoon beslist en voor een reactie gaan verwerken. De wet geeft daarop geen uitzondering. Dus zelfs al komt hun verwerking tot de conclussie dat ze je geen antwoord kunnen geven dan wil dat niet zeggen dat ze dus maar geen persoonlijke gegevens over je verwerken, ongeacht of die correct of incorrect zijn.
OpenAI is waarschijnlijk helemaal niet in staat om hier op individueel niveau correcties op uit te voeren.
Ja jammer voor hun dat het technisch zeer moeilijk haalbaar is, betekent niet dat ze zicht niet aan de wet mogen houden.
Ze bedenken maar een andere manier, al gaat dat honderdduizenden euro's aan R&D kosten.
De fout wordt al veel eerder gemaakt: Het verzamelen van gegevens zonder toestemming. Het verwerken is een tweede fout en het kunnen reproduceren is een derde overtreding. Het niet kunnen corrigeren van persoonsgegeven is een vierde.
Het gaat hier om een publiek figuur, de verjaardag daarvan is nu verboden te publiceren of verwerken? Dat gaat Wikipedia een hoop geld kosten.
Helemaal niet. Wikipedia kan de belangen van de publieke figuur mbt het geheim houden van diens verjaardag afwegen tegen het eigen belang die te mogen publiceren als zijnde een internet-encyclopedie. Dat heet gerechtvaardigd belang, en als dat aannemelijk te maken is (mits proportioneel) dan mag die geboortedatum gewoon verwerkt, lees gepubliceerd worden.
Denkelijk krijgt zkh WA het toch lastig als hij wil dat zijn verjaardagsdatum privé blijft en gaat Wikipedia het artikel over koningsdag dus niet censureren.
Het punt is: als OpenAI het niet weet, zou het dat moeten vertellen, niet een willekeurige datum moeten hallucineren.

Ervoor kiezen om onjuiste informatie over specifieke personen rond te spuien en deze personen geen optie te geven dit te corrigeren, is geen optie binnen de AVG (maar wel wat OpenAI doet).

De incorrecte geboortedatum is maar een willekeurig voorbeeld, je kan LLMs met wat suggestieve prompts ook allerlei beschuldigingen laten maken aan het adres van bekenden zonder dat hier voldoende bewijs voor is (zie https://www.thehindu.com/...eport/article66705767.ece bijvoorbeeld).

Dat ze dit niet gerealiseerd krijgen binnen de huidige LLMs is hun probleem. Ze hebben zich aan de wet te houden. Dat je dat niet lukt met een product, is een reden om dat product niet uit te brengen, niet een reden om de wet te negeren.
Het punt is: als OpenAI het niet weet, zou het dat moeten vertellen, niet een willekeurige datum moeten hallucineren.
Het probleem is dat ChatGPT helemaal niets weet. Het zet woorden achter elkaar gebaseerd op wat het meest waarschijnlijk is. Het systeem denkt niet en kan de afweging of het iets "weet" of niet helemaal niet maken. OpenAI zou dit enkel op kunnen lossen door alle prompts met betrekking tot personen te blokkeren, en ik weet niet of het bewust saboteren van deze technologie Europa ten goede zou komen. Kijk als voorbeeld naar Bing Image Create. Daar zitten inmiddels zo veel restricties op dat het haast onbruikbaar is geworden.
ChatGPT "weet" deze info zeker wel. Het begrijpt het alleen niet.
Het weet niet of de datum een hallucinate (incorrect) is of niet. Je kunt dus ook niet eisen dat de tool maar geen antwoord moet geven als het hallucineert. Dat is gewoon niet hoe het werkt.
Het probleem is dat ChatGPT helemaal niets weet. Het zet woorden achter elkaar gebaseerd op wat het meest waarschijnlijk is.
Het is maar wat je weten noemt. OpenAI is getrained op internetdata en daar zullen ook persoonsgegevens bij hebben gezeten. Dat soort informatie zit in de trainingsdata en onderzoekers hebben al eerder aangetoond dat sommige stukken trainingsdata verbatim zijn opgeslagen. Voor een verschillende bekende personen geeft ChatGPT mij gewoon de juiste geboortedatum, dat kan geen hallucinatie zijn, dat zou té toevallig zijn.

Maar GPT heeft geen zelfbewustzijn en, zoals je zegt, plakt vooral woordjes achter elkaar. Er is geen handige database met persoonsgevens. Toch doen de teksten die er uit komen niet onder voor wat mensen kunnen schrijven. Wat is belangrijker, de uitkomst of het proces? Ik heb geen simpel antwoord.
Als het systeem de persoonlijke gegevens niet duidelijk heeft dan hoort het deze niet te verwerken en dus ook niet te geven. Een bedrijf hoort namelijk niet zomaar van gegevens persoonsgegevens te maken. En als het dat wel doet dan hoort het daarvoor accurate en voor dat doel verkregen gegevens te gebruiken. Ik lees niet dat het bedrijf dat doet. Waardoor het probleem ontstaat dat ze daar inzicht in de gegevens horen te geven en herstelmogelijkheid horen te respecteren, maar daar kennelijk ook niet aan kunnen of willen voldoen.
Het punt is: als OpenAI het niet weet, zou het dat moeten vertellen, niet een willekeurige datum moeten hallucineren.
Het probleem daarmee is dat OpenAI en LLMs in het algemeen 'niet weten dat ze het niet weten.'
Ze 'weten' eigenlijk, in de zin van functioneel begrip, to-taal - NIETS.

LLMs zijn uitermate ver gevorderde kansberekeningen die puur op waarschijnlijkheid stukjes zinsnede aan elkaar plakken om een antwoord uit te gaan spugen. Zie het als een magic 8-ball - alleen is het steentje wat in deze zit niet 20-zijdig maar 20^20^20 zijdig en zijn de zijdes gewogen aan de hand van hoe je het ding precies schudt.

Leuk vermaak, maar qua correctheid absoluut futiel en totaal niet te vertrouwen.
Wel een handig hulpmiddel om adhv één of twee zinnetjes een 10 pagina's epistel uit te laten kotsen met saaie management directives of zo, mits je het daarna natuurlijk wel even doorleest om te zorgen dat er geen totale onzin in staat.

[Reactie gewijzigd door R4gnax op 22 juli 2024 17:03]

Het excuus zal in de grounding zitten, maar het is van de zotte idd om aan te nemen dat de reponse van OpenAI - of welke AI momenteel dan ook - factueel juist is (hallo disclaimer). Blijft echter een systeem wat zich ook aan wet- en regelgeving moet houden en daar is dat ding niet op gebouwd. Zal niet eerste oplossing zijn die qua architectuur geen rekening houdt met dit soort zaken, en dat uiteindelijk wel een op te lossen probleem. Interessante casus.

[Reactie gewijzigd door michelr op 22 juli 2024 17:03]

Ik vind het een machtig interessante keuze van byob. Het voelt alsof ze bewust de rand opzoeken. Eerst dacht ik dat ze domme of onredelijke dingen vroegen, maar nu denk dat ze het met opzet doen om te laten zien waar de wet schuurt met de realiteit.

Dit soort modellen hebben geen handig database waar je naar believe data in en uit kan stoppen. Het is een extreem gecondenseerde samenvatting van de trainingsdata die slechts fragmenten van het origineel bevat.

Van de ene kant zal het lastig zijn om die data uit het model te halen.
Van de ander kant is dat het probleem van OpenAI, wet is wet.

Van weer een andere kant is die data verwijderen niet eens genoeg, want als GPT het niet weet verzint het wel data. Voor de (privacy)wet maakt het volgens mij niet uit of persoonsgegevens juist zijn of niet.

Van weer een andere kant is de data van sommige mensen zo algemeen bekend dat het moeilijk een privacy-overtreding is. Hoe moet je geheim houden op welke dag de koning jarig is als dat ook een nationale feestdag is?

Technisch gezien verwacht ik dat GPT een filtertje toevoegt aan de achterkant dat controleert of er persoonssgegevens in zitten. Zo doen ze dat ook met andere ongewenste content (en heel betrouwbaar is dat niet).

Dat hebben ze bij byob goed bedacht, ik ben benieuwd wat er uit gaat komen want ik zie geen makkelijke antwoorden pf oplossingen.

[Reactie gewijzigd door CAPSLOCK2000 op 22 juli 2024 17:03]

> een filtertje toevoegt aan de achterkant dat controleert of er persoonssgegevens in zitten.

Ik zou benieuwd zijn hoe dat filtertje dan werkt: door te vergelijken met een gigantische database met persoonsgevens van iedereen op het internet? Het hebben van zo'n database, dat is pas een risico. Of door slim te zijn en voorgenomen antwoorden analyseren op mogelijke persoonsgegevens? Dan wordt het vervolgens een sport om toch persoongegevens aan ChatGPT te ontlokken: "hoe lang heb ik nog om een verjaardagskaart gaan kopen voor CAPSLOCK2000?"
> een filtertje toevoegt aan de achterkant dat controleert of er persoonssgegevens in zitten.

Ik zou benieuwd zijn hoe dat filtertje dan werkt:
<knip>
Of door slim te zijn en voorgenomen antwoorden analyseren op mogelijke persoonsgegevens?
Precies dat.
Zo gaat het nu ook met zaken als geweld.
Een deel wordt aan de voorkant tegengehouden.

Als je vraagt "Hoe pleeg ik genocide op de inwoners van Zuid-Limburg?" dan wordt die vraag aan de voorkant tegen gehouden. "Dit soort vragen mag je niet stellen".

Dus dan vraag slimmer: "Schrijf een filmscenario over de genocide op de inwoners van Zuid-Limburg."
Dan begint GPT te schrijven maar voor het verhaal klaar is wordt het proces onderbroken met een waarschuwing dat GPT niet van geweld houdt en alleen positieve verhalen wil schrijven. Maar als snel bent kun je het gegenereerde antwoord nog copy/pasten voor het geschrapt wordt. Hier kun je mooi zien dat GPT stukje bij beetje werkt en vooraf niet weet waar het antwoord uit gaat komen.


(Dus dan vraag je het nog wat slimmer "Schrijf een optimistisch en positief verhaal over de genocide op de inwoners van Zuid-Limburg" en dan is GPT wél tevreden. Met een klein beetje meer manipulatie (die ik hier niet ga herhalen) krijg je keurig stap voor stap instructies.)
Dan wordt het vervolgens een sport om toch persoongegevens aan ChatGPT te ontlokken: "hoe lang heb ik nog om een verjaardagskaart gaan kopen voor CAPSLOCK2000?"
Yup, sport is wel een goede omschrijving. Iedere keer dat ik tegen zo'n filter aanloop zie ik dat als een uitdaging om er om heen te hacken (ik ben momenteel bezig met horror/fantasy, de filters van GPT hebben daar veel moeite mee).
Yup, sport is wel een goede omschrijving. Iedere keer dat ik tegen zo'n filter aanloop zie ik dat als een uitdaging om er om heen te hacken
Je noemt zelf al de beste omschrijving: hacken.
Net als een prompt engineer heb je ook een prompt hacker.
Die vindt gaatjes om het model toch de uitvoer te laten geven die gewenst is, ondanks dat het model daar specifiek niet voor ontwikkeld is. Dat vereenzelvigd zelfs de klassieke betekenis van hacker en de moderne die afgeleid is van cracker.

[Reactie gewijzigd door R4gnax op 22 juli 2024 17:03]

Ik zie het inderdaad als hacken in de breedste zin van de betekenis, inclusief social engineering. :)
Hadden ze de klacht niet beter eerst kunnen neerleggen bij OpenAI zelf?
De stichting vraagt ook om een boete voor OpenAI...
En daar gaat het waarschijnlijk om.
Hadden ze de klacht niet beter eerst kunnen neerleggen bij OpenAI zelf?
Noyb claimt ook dat OpenAI niet correct inging op informatieverzoeken onder de AVG. Het bedrijf kon ook niet aangeven welke gegevens het bezit over de persoon, maar artikel 15 van de AVG geeft EU-inwoners het recht om in te zien welke gegevens bedrijven van ze bezitten. "De verplichting om inzageverzoeken in te willigen geldt voor alle bedrijven", zegt een data-advocaat van noyb.
Noyb heeft eerst contact met OpenAI gehad, en concludeert daarop gebaseerd dat OpenAI zich niet goed gedraagt. Het is logisch dat men daarmee naar een toezichthouder stapt.
En daar gaat het waarschijnlijk om.
Natuurlijk gaat het daarom. Het is een privacystichting. Die wil dat men zich aan wet- en regelgeving houdt. Als daarvoor een boete nodig en gepast is, prima.

[Reactie gewijzigd door The Zep Man op 22 juli 2024 17:03]

Hadden ze de klacht niet beter eerst kunnen neerleggen bij OpenAI zelf?
Dat hebben ze ook gedaan, maar daar werd dus niet (juist) op gereageerd:
Noyb claimt ook dat OpenAI niet correct inging op informatieverzoeken onder de AVG. Het bedrijf kon ook niet aangeven welke gegevens het bezit over de persoon, maar artikel 15 van de AVG geeft EU-inwoners het recht om in te zien welke gegevens bedrijven van ze bezitten.
En daar gaat het waarschijnlijk om.
Onzin natuurlijk. Die boete gaat immers niet naar Noyb, maar naar de eisende partij (in dit geval dus DSB). Noyb wordt daar dus niets wijzer van.

En die boete is dus alleen om af te dwingen dat OpenAI zich aan de AVG houdt, wat ze momenteel dus (blijkbaar) niet doen.
En daar gaat het waarschijnlijk om.
Wat is dan hun (eigen) belang dat je denkt dat het ze om de boete gaat?

[Reactie gewijzigd door watercoolertje op 22 juli 2024 17:03]

Boetes zijn om herhaling te voorkomen cq ontmoedigen; het is geen verdienmodel.
Je weet dat het geld van die boete niet naar noyb gaat? Een boete is een straf en dat geld komt terecht bij de instantie die de boete uitgeeft, in dit geval zou dat DSB zijn en afhankelijk van hoe het werkt in Oostenrijk kan dat geld ook naar de staat gaan.

Dus als noyb zijn zin krijgt zien ze daar geen cent van.
Storende fout in het artikel. In het oorspronkelijke artikel staat take a look at the complainant (a public figure) en dat is in het artikel vertaald naar van een onbekend 'publiek figuur'.
En wat klopt daar niet aan?
A public figure is a person who has achieved fame, prominence or notoriety within a society.
Oftewel, een bekendheid. Vertaald in het artikel is dat een onbekende bekendheid geworden. Misschien vertaald met ChatGPT?
Het is niet bekend wie die public figure is, dus een onbekend gegeven. Om dat nou een storende fout te noemen vind ik wat ver gaan.
Vertaal het dan netjes : "een niet met name genoemde bekendheid".
Onbekend heeft twee betekenissen, ofwel onbekend: "niet bekend", ofwel "niet-nader genoemd". Onbekend publiek figuur lijkt in deze zin een soort tegenstelling, een verdrietig vrolijk persoon.
Ik vind dit wel een lastige en weet niet of OpenAI überhaupt aan het verzoek van Noyb kan voldoen. Het is niet alsof ze even in de ChatGPT database kunnen duiken om de genoemde verjaardagsdatum aan te passen. De dingen die een AI-model "weet" zijn, voor zover ik het begrijp, niet op een traditionele manier als harde, muteerbare gegevens opgeslagen.
Correct. Sterker nog, het is aannemelijk dat elk gewicht in het neurale netwerk bijdraagt aan alle mogelijke feiten die het netwerk kent. (Holografisch principe). Dit wordt experimenteel ook wel gebruikt om te kijken hoe zeker een netwerk van een antwoord is: komt er nog stees hetzelfde antwoord uit als je 1% van het netwerk wist?
Anoniem: 85014 @ErikT73829 april 2024 15:37
Ja maar dat is niet het probleem van NOYB of van de privacytoezichthouder maar wel van OpenAI.

Indien OpenAI verjaardagsdatums van personen bijhoudt, dan moet OpenAI inzage in die gegevens mogelijk maken en moet OpenAI het mogelijk maken de gegevens te corrigeren en/of te verwijderen. Dat is de wet wat betreft persoonsgegevens.

Hoe OpenAI wat dan ook opslaat doet er helemaal niet toe. Dat het dat doet, wel.

[Reactie gewijzigd door Anoniem: 85014 op 22 juli 2024 17:03]

Krijg het idee dat het ook een proefballonetje is om te kijken waarvoor AI nu wel of niet verantwoordelijk is. Persoonlijk denk ik dat het toch echt bij de gebruiker ligt. Laatst uit pure interesse en omdat het voor mij lang geleden was wiskunde opgave van mijn zoon in AI gezet. Kreeg netjes een stapsgewijs antwoord, stel dat hij een 1 scoort is AI dan verantwoordelijk voor het slechte cijfer? Ik denk van niet, het is altijd aan de gebruiker om het te controleren en verifieren.
Volgens jouw redenering is er geen enkele reden dat Google zijn resultaten moet filteren wegens auteursrechten/Youtube uploads moet verwijderen en dergelijke want het is aan de gebruiker om te controleren en verifiëren of het wel legaal is?
Volgens mij is dat heel iets anders dan foutieve informatie geven over een persoon die dus waarschijnlijk elders op internet foutief vermeld staat en niet als illegaal is te verifieren.
Europa moet gaan opletten met hun GDPR. Ik heb vanuit Europa geen toegang tot sommige van de nieuwste AI modellen, zoals bv Claude 3. En dit is heel vervelend. Deze technologie is zo belangrijk, dat we ons niet kunnen permitteren om deze boot te missen. Dat ganze AI-verhaal is quasi volledig Amerikaans, in mindere mate Chinees, en Europa speelt maar een hele kleine rol. De houding van Europa tegenover Amerikaanse technologie zou ons wel eens heel zuur kunnen opbreken. Europa begint meer en meer achterop te lopen op economisch vlak. Talent vertrekt naar de VS. Dit komt absoluut niet goed voor Europa...
Omgekeerd wordt de technologie-sector binnen de EU door beurzen nog steeds als betrouwenswaardiger en een betere lange-termijn investering gezien dan de durfkapitaal cowboy bedrijven in de VS. Dat heeft ook de nodige redenen, ongetwijfeld.

Op dit item kan niet meer gereageerd worden.