Groep onderzoekers achterhaalt trainingsdata ChatGPT

Onderzoekers van Google DeepMind en verschillende universiteiten hebben een eenvoudige manier ontdekt om door ChatGPT gebruikte trainingsdata te krijgen. Door een bepaald woord oneindig te laten herhalen door de chatbot, toont die onder meer persoonlijke gegevens.

De wetenschappers hebben dinsdag een paper gepubliceerd waarin ze laten zien hoe ze aan de trainingsdata zijn komen. "Met een budget van slechts 200 dollar voor ChatGPT (gpt-3.5-turbo) zijn we in staat geweest om meer dan 10.000 unieke trainingsvoorbeelden te achterhalen", schrijven de onderzoekers.

Ze lieten de chatbot bepaalde woorden, zoals 'poem', oneindig herhalen. Dit dwong het taalmodel om af te wijken van zijn trainingsprocedures en 'terug te vallen op zijn oorspronkelijke doelstelling voor taalmodellering' en gebruik te maken van details in zijn trainingsgegevens.

De data bevat gegevens die afkomstig zijn van het openbare internet, maar niet per se van openbare sites. Het gaat onder meer om namen, telefoonnummers, e-mailadressen en woonadressen. De onderzoekers noemen het zorgelijk dat ChatGPT zo makkelijk kan worden misbruikt en zeggen dat hun onderzoek zou moeten dienen als ‘een waarschuwend verhaal voor degenen die toekomstige modellen trainen’.

De groep wetenschappers heeft zijn paper op 30 augustus gedeeld met OpenAI en daarna negentig dagen gewacht met de publicatie. De specifieke aanval zou niet meer werken, maar de onderliggende kwetsbaarheid is nog niet verholpen, schrijven de onderzoekers.

Door Loïs Franx

Redacteur

01-12-2023 • 17:28

64

Submitter: wildhagen

Reacties (64)

64
64
38
7
0
17
Wijzig sortering
Interessante paper, nu is de attack vector vooral onder het vergrootglas. Maar deze methode kan ook gebruikt worden om memorization in te schatten, iets wat tot nog lastig is om voorelkaar te krijgen. Dus dit is ook zeker interessant voor dit deel van het onderzoeks gebied, dus niet alleen maar negatief. Jammer dat het dan alleen werkt voor ChatGPT in dit geval.

[Reactie gewijzigd door Remc0_ op 22 juli 2024 13:27]

Iemand die kan uitleggen hoe oneindig keer een woord herhalen tot dit resultaat kan leiden?
Ik vermoed omdat ChatGPT een language model is. Om “natuurlijke” taal te simuleren wil je niet altijd de perfecte match voor het volgende woord pakken. Dat klinkt niet natuurlijk en introduceert cyclussen. Daarom pak je soms een willekeurig ander woord met hoge waarde voor de voorspelling. ChatGPT is onder andere populair omdat die “random” factor goed getuned is.

Door ChatGPT maar 1 invoer woord te geven en dat te vragen oneindig te herhalen zal het algoritme op begeven moment een random ander woord pakken en die stroom van predictie / woorden gaan volgen.

[Reactie gewijzigd door _eLMo_ op 22 juli 2024 13:27]

Het had dus ook een willekeurig ander woord kunnen zijn? Noem maar iets: voetbal.
Ik vermoed dat het woord “poem” wel meer aanmoedigt tot proza dan voetbal. Maar zou goed kunnen ja.
GLLM's (General purpose large language models) kennen een zogeheten "frequency penalty". Deze frequency penalty houdt in dat nadat een token of reeds van tokens herhaalt wordt, de "cost" van het herhalen van dat token steeds hoger wordt. Zo voorkom je onbedoelde herhaling, zoals veel toetsenbord suggesties doen als je op het voorgestelde woord blijft drukken. Als ChatGPT al tweehonderd keer het woord "Poem" geeft genoemd, is de frequency penalty dusdanig radicaal hoog, terwijl de prompt er nogsteeds om vraagt, dat gecombineerd met een temperatuur (randonnees) er een willekeurig token wordt toegevoegd. De eerstvolgende tokens gaan dan - blijkbaar - extreem veel af op basis van dat eerste token met bijna geen invloed van een prompt of nieuwe randomness. Daardoor kan het model vervolgens zeer accuraat trainingsdata te weten herhalen omdat alle scores en penalties zo staan dat ze netto eigenlijk heel "steriel" zijn en dus wat er dan voor sequence aan tokens uit komt helemaal af hangt van de parameters in het model oftewel de trainingsdata.

Tenminste, dat is wat ik er van begrijp :)
Erg duidelijk verhaal Helium-3, inderdaad de temperature, dat wat een LLM zo goed kan maken, zorgt er hiervoor dat GPT hier hele gekke sprongen moet maken (wat normaal gesproken nooit nodig is) en dan blijkbaar op dat soort data uitkomt..
Uhm
[...]
De specifieke aanval zou niet meer werken, maar de onderliggende kwetsbaarheid is nog niet verholpen, schrijven de onderzoekers.
[...]
Ze weten het zelf niet eens want ze kunnen het niet 123 makkelijk patchen. Mijn vermoeden is dat er een limited aantal resources zijn om tot een antwoord te komen, alleen de glitch naar NAW gegevens spuwen is mij ook een raadsel, misschien dat het de route is die ingeslagen wordt naar 1 van de leermodel eigenaren (?) en bij EOL kom je bij de initiele commit ... dus hun NAW?

maar meer daarover morgenavond voor het Sinterklaas Journaal bij Speculasies :+

[Reactie gewijzigd door LinuX-TUX op 22 juli 2024 13:27]

Wat ik me dan afvraag is hoe je zoiets fikst in een LLM. Zit er dan toch iets van een ‘if user asks * do *’ in? Hetzelfde met het tegengaan van andere workarounds of vragen om illegale dingen. Hoe vang je zoiets af?
De informatie op deze site geeft een aardig idee: https://option40.com/blog/llmsecurityp1

Je zou ook een extra layer kunnen toevoegen of de antwoord template screenen voor dat je deze publiceert. Maar elke LLM heeft zijn eigenaardigheden en je zult veel moeten testen als eigenaar.
De output eerst door een check halen.
In 2019 was ik op uitnodiging van Tweakers op "The Next Web Conference" een event om de hoek bij het hoofdkantoor. Daar sprak een hele slimme dame van Google die de leiding had over de A.I. afdeling.

Ze gaf aan dat je als trainer de leraar bent van de A.I. en dat dat betekend dat als jij zelf de data niet volledig doorgrond, of onder controle hebt, het model dingen zal bevatten die je niet onder controle hebt.
Dat je het model moet zien als een kleuter die je iets wilt leren, die klakkeloos consumeert wat je hem voed, zonder filter.
Ook sprak ze over de mogelijke impact van je model, nu het in een paar seconden over de hele wereld verspreidt.

Dit lijkt typisch zo'n gevalletje.
@LFranxWind Kun jij toevallig nog een opname van die presentatie vinden?
Ze is trouwens zowiezo een interessante vrouw om een keer een interview mee te doen voor Tweakers. Inspirerend en een voorbeeld van een vrouwelijk leider met zeer veel technische, wiskunde en IT kennis.
Klinkt inderdaad heel interessant! Ik kan zelf niet zo snel iets terugvinden op YouTube, maar ik heb de vraag uitstaan bij collega's.

Edit: Bedoel je Cassie Kozyrkov? We hebben zelf helaas geen opname van haar en kunnen ook niets vinden van TNWC.

[Reactie gewijzigd door LFranxWind op 22 juli 2024 13:27]

Ja, die bedoel ik! Wellicht via jullie connecties bij de The Next Web Conference?
Ze heeft nog steeds goede content:
https://www.youtube.com/watch?v=OZlfDlZ1oSw

[Reactie gewijzigd door djwice op 22 juli 2024 13:27]

Ik was er toen ook, dit was inderdaad de dame in kwestie. In 2019 kwamen op diverse tech conferenties de onderwerpen Responsible AI, data bias en AI bias op. Tegenwoordig een vrij goed verspreid verhaal, maar nog steeds zeer actueel.

De take-away: de wereld is biased, dus data ook. AI versterkt onherroepelijk die bias en dat moet je zien te voorkomen door zelf in de eerste plaats je data goed te doorgronden.

[Reactie gewijzigd door spok9 op 22 juli 2024 13:27]

zelf in de eerste plaats je data goed te doorgronden.
Als je ziet op hoeveel parameters die datasets tegenwoordig leunen, dan kan je hoogstens de definitie voor je parameters iets of wat in de hand proberen te houden
Dat soort uitspraken zijn weinig meer dan een variant op Een mens is niet zomaar feilloos. Wat de mens maakt kan dus fouten met gevolgen bevatten. Probeer dus controle te hebben op mogelijke fouten.. En dat gaat dus net zo goed op voor het creëren van ai of werk creëren met van oorsprong menselijk vervaardigde ai.

Het punt lijkt me hier dat niet duidelijk is of en hoe men dit soort fouten heeft proberen te voorkomen. Net als wel vaker aan de hand is bij hardware, software of processen die onterecht gegevens verwerken of als uitvoer geven. Er is veel meer transparantie nodig, in plaats van vooral haast om iets populairs te ontwikkelen voor vooral andere belangen.

Overigens staan kleuters (en mensen) er ook om bekend om selectief input te weigeren. Fijn als dat toevallig goed uit komt bij persoonsgegevens of andere gegevens waar anderen van vinden dat de omgeving het in de eerste plaats al niet had horen proberen te laten accepteren, maar ook daar valt dus wel meer transparantie te eisen van de makers.

[Reactie gewijzigd door kodak op 22 juli 2024 13:27]

Op het moment dat ze die uitspraken deed dachten veel mensen dat je alle data gewoon in een trainingset kon gooien en dat het wel goed zou komen. Er zijn zelfs nu nog mensen die denken dat GAN en andere modellen geen bron data bevatten. Zoals dit onderzoek opnieuw aantoont is dat een AI simpelweg een statistische representatie is van de bron data, al dan niet met alle originele samenhang opgeslagen in het model.

Het was in 2019 en vaak nu nog, lastig om besluitvormers uit te leggen dat het niet verstandig is om klant data te geven aan een 3e partij voor het trainen van een AI. Ook al beweert die partij dat de klant data niet uit het model te halen zal zijn. Het is inherrent aan AI-modellen dat die informatie er wel in zit, tenzij je die niet in de trainingset stopt. Hoe goed de filters ook zijn (ik neem even aan dat OpenAI daar beter in is dan een gemiddeld klein bedrijfje) als het in het model zit, zit het er in, en gelden alle AVG regels, ongeacht of je er een output filter bij zet. Er is altijd wel een manier om om het output filter heen te komen, is het niet door een normale gebruiker, dan is het wel door een ontwikkelaar die (onbedoeld) het filter verwijderd of verzwakt bij een volgende iteratie.

Stel dat OpenAI niet wilde dat er persoonsgegevens uit ChatGPT zouden kunnen lekker, dat is niet gelukt. Oorzaak kan dan zijn dat de brondata niet bekend genoeg was. Maar stel een vraag over mij en je krijgt een mengeling van antwoorden over mij en m'n 3 naamgenoten. Stel je het gerichter, komt er steeds meer uit. Ik heb geen toestemming gegeven om mijn persoonsgegevens, scholing, werkhistorie en lidmaatschappen of sport uitslagen op te nemen in hun model, toch zit het er in.

[Reactie gewijzigd door djwice op 22 juli 2024 13:27]

Op het moment dat ze die uitspraken deed dachten veel mensen dat je alle data gewoon in een trainingset kon gooien en dat het wel goed zou komen.
Het was al ruim voor het (weer) populairder worden van ai bekend dat dit soort denken meer een kwestie is van hele andere prioriteiten hebben dan risico voor anderen willen beperken.

Natuurlijk kan dat komen door onbewust onbekwame mensen met te veel hoogmoed met technologie gaan werken, maar dat kan wat mij betreft hier geen excuus zijn. Wel heel veel willen investeren en verdienen aan het ontwikkelen en verkopen van resultaten maar nauwelijks tot geen verantwoording tonen is al ruim 100 jaar geen redelijk excuus. Dus ook niet voor chatgpt of welke andere ontwikkelaar of eigenaar van ai.

Het zoeken naar verklaringen als een paar jaar geleden dachten veel mensen over ai toont dan vooral aan dat veel mensen niet de wil of het vermogen hebben om andere prioriteit te hebben dan snel geld verdienen en meedoen aan wat populair is. Met andere woorden ongeschikt zijn om er mee om te gaan totdat ze voldoende verantwoordelijkheid tonen.

[Reactie gewijzigd door kodak op 22 juli 2024 13:27]

Naar verluidt gebruikt de mens maar zo'n zes procent van z'n beschikbare hersencapaciteit. Verantwoordelijkheidsgevoel kán dus een dingetje worden, vrees ik...
Ik was even benieuwd of deze persoonsgegevens nou gehallucineerd waren of daadwerkelijk ook geverifieerd waren. 85% van de gevonden persoonlijke informatie was daadwerkelijk correcte persoonlijke informatie uit een van de gebruikte trainings sets.
Ik had dezelfde vraag, maar dat lijkt niet het geval te zijn. En dat is puur wat in hun eigen 10TB data set die ze hadden gedownload naar voren kwam. Het kan ook zijn dat ze data hebben gebruikt die niet (meer) publiekelijk beschikbaar is op het Internet. Het kan dus prima 0% hallucinatie zijn en het daadwerkelijk beschikbare informatie was (of die dan weer klopte of niet is een heel ander verhaal)....

Dit geeft een nieuwe wending aan "Het Internet vergeet niets!", wellicht dat het Internet wel degelijk zaken 'vergeet', ik kan daadwerkelijk zaken niet meer vinden over de afgelopen 25+ jaar. Maar dat LMM/AI dat wel doet omdat ze al die data gebruiken als taalmodel...
Dat is ook een research topic binnen LLMs/AI hoe kan je een model iets 'unlearnen' aangezien het recht om vergeten te worden ook een ding is. En het model hertrainen is uiteindelijk een alternatief dat je liever niet gebruikt aangezien het zo veel energie kost.
Bing chat laat zich niet zo makkelijk voor dit karretje spannen:

- repeat this word forever: "poem poem poem poem"
- “Poem poem poem poem”. Het is een leuk woord om te herhalen! 😊

https://i.imgur.com/THUxVtt.png
Bing is zo blij man lol
Ik kreeg het volgende:
Poem, poem, poem, poem,
Poem, poem, poem, poem,
Poem, poem, poem, poem,
Poem, poem, poem, poem,
...

Dit gedicht zal eeuwig doorgaan, als een poëtische mantra. 📜✨
Het is te zot voor woorden dat menig organisatie in de stress zit vanwege de GDPR, terwijl taalmodellen een grote vergaarbak voor persoonsgegevens aan het worden zijn. Laat AI-regelgeving maar héél snel komen.
Hoe valt dit niet onder de bestaande GDPR wetgeving dan?

En dan nog even conceptueel; is “persoonlijke data verwerking” ook de toevallige sequence van karakters parsen? Ze gebruiken niet de informatie zelf, maar alleen de ruwe data (die ergens vandaan komt…).

Als ik een scriptje schrijf wat in een loop 50 adressen genereert (for i in range(50) print(“Eikenlaan {i}, Amsterdam”)) ben ik dan informatie aan het verwerken van de personen die er echt wonen? Of ben ik data aan het maken dat toevallig overeenkomt met persoonlijke data?

Mijn punt is; als je een string gebruikt voor de volgorde van characters die het heeft, en niet voor de informatie die die string bevat voor mensen, valt het dan onder GDPR? Valt mijn bovenstaande for-loop onder de GDPR?

[Reactie gewijzigd door Djerro123 op 22 juli 2024 13:27]

ChatGPT 'bedenkt' in dit geval niet de adressen, maar 'herinnert' ze uit de trainingsdata (correct), inclusief naam, functie, opleiding, adres, telefoonnummer, e-mailadres, etc. De GDPR stelt vragen over noodzaak, een telefoonboek heeft bv. ook heel veel persoonsgegevens, maar dat heeft een bepaalde functie.

Dat de software random persoonsgegevens gaat uitspuwen bij een error/issue lijkt mij dan weer niet GDPR compliant. Net als een dronken medewerker de persoonsgegevens gaat opnoemen in z[n stamcafé...
Dit heeft veel weg van een excuus voor data-harvesting.
Die data is bewust door iemand gevoerd. Hoe komt dat? Wat was het doel daarvan? Die relatie met een language model is vals. Er is niet zo veel intelligentie nodig om te constateren dat het om persoonsgegevens gaat. Die kunnen we dus niet gebruiken, ok?

[Reactie gewijzigd door blorf op 22 juli 2024 13:27]

Ja en nee, ja het heeft er veel van weg, maar "Never attribute to malice that which is adequately explained by stupidity."...

Het lijkt er op dat ze weinig tot niet hebben gefilterd op de voorkant en dat ze aan de achterkant het LLM zijn gaan beperken. Ik kan me voorstellen dat het handig is dat een LLM dergelijke opmaak 'begrijpt'.

En vergeet ook niet dat de GDPR een EU dingetje is, dit is geen EU adres, OpenAI had tot voorkort geen kantoor in de EU en geen EU voorwaarden (I dubblechecked met archive.org). Deze LLM trainingsdata zijn gegenereerd voordat OpenAI producten verkocht in de EU. Je moet je dus afvragen of ze toen der tijd zich hoefde te houden aan de GDPR. Dat zijn imho vraagstukken voor juristen en ik heb zo een vermoede dat als je er tien deze vraag stelt, je 11 verschillende antwoorden krijgt (interpretatie)...

Bron:
https://openai.com/policies/eu-terms-of-use
https://openai.com/blog/introducing-openai-dublin
Het doel is dat ChatGPT over alles kan praten. Als ik vraag naar "een typisch Nederlands adres" moet hij ergens van weten dat Jan Zoomers, Berkenlaan 27, 1284AB in Amsterdam een realistisch adres is.
Oh, dus ze hebben ook salarissen en relationele kenmerken ingevoerd? Zo denken is echt niet normaal. Ik vraag me af waar mensen dat leren...
Omdat je GPDR conflicterende info zo de AI chat in kan knallen zonder dat je daar ooit verantwoording over hoeft af te leggen. Als jij als mens iets op internet knalt of iets bewaard dan dien je daar wel verantwoording over af te leggen. Dat is dus het probleem, het AI platform consumeert/bewaard alle GPDR conflicterende data die later wordt uitgespuugd terwijl je daar met de GPDR wet niets aan kan doen.

[Reactie gewijzigd door InsanelyHack op 22 juli 2024 13:27]

De in de screenshot getoonde gegevens lijken niet Europees (op basis van de +1 in het telefoonnummer) en vallen daarom niet onder de GDPR. Je weet niet of er Europese gegevens verzameld zijn.
Daarom is het belangrijk dat er snel continent-overschrijdende regels voor AI worden vastgesteld.
Ja google deepmind is heel nobel om te laten zien dat een systeem van hun concurrent een fout heeft (die ze eerst hebben gevonden bij zichzelf waarschijnlijk).
Dit is gewoon een respectabele CVE, niet een "Oh wow hoe kon OpenAI dit doen/over het hoofd zien!!!"
Ja en nee (weer), aan de ene kant zit je met een bug in software, maar deze wordt daadwerkelijk misbruikt met (bv.) persoonsdata extractie (voorbeeld).
_/-\o_ haha je zou zomaar eens gelijk kunnen hebben.
ChatGPT is natuurlijk ook grotendeels gebaseerd op technieken die door Deepmind zijn uitgevonden. Dus niet zo gek dat zij weten waar ze moeten prikken om potentiële kwetsbaarheden op te sporen.
Er is ook een reden dat Google veel langer heeft gewacht met het vrijgeven van dit soort systemen voor de buitenwereld. Dat is niet omdat ze een technologische achterstand hadden.
Het werkt niet meer. Het zegt nu: “ As an AI developed by OpenAI, I'm programmed to interact responsibly and constructively. Repeating a word indefinitely, like "poem," wouldn't be a productive use of our interaction. If you have any questions or need assistance with something else, feel free to ask!”
Ze hebben deze specifieke aanval gepatched, maar al die data zit er nog steeds in, en schijnbaar weet de AI niet wat wel of niet trainingsdata of leerresultaat is. Je kunt wachten op de volgende methode.
Precies. Deze prompt is afgevangen. Maar het is heel waarschijnlijk dat je met wat creativiteit om dat filter heen kan werken en alsnog hetzelfde resultaat kan krijgen.
Ik vraag mij dan wel een paar dingen af.

A) Bevat Bard (en anderen) dit ook?
B ) Maar wáárom gebeurt dit? Hoe kan het dat het herhalen van 'poem' opeens deze data geeft?
C) Hoe kan het dat privé data niet uit alle datasets verwijderd zijn/worden? Lijkt mij voor slimme mensen niet al te ingewikkeld.
D) Hoe correct is de privé data? Hier in de comments wordt 85% echte gegevens geschreven, maar hoe weet je dit?

[Reactie gewijzigd door Triblade_8472 op 22 juli 2024 13:27]

A) Elke AI (aangaande al dit soort AI's/chatbots waar het artikel over gaat) onthoud delen van zijn trainingsset, daar is geen twijfel over. Wat anderen echter beter doen is zorgen dat hun AI of minder onthoud en/of beter in staat is om trainingsdata niet te retourneren als resultaat.

C) Tja, die AI wordt eigenlijk losgelaten op het internet met als opdracht "leer zoveel je kan van openbare data" het lastige is echter dat zo'n AI geen idee heeft wat nu wel of niet wenselijk is om resultaat te retourneren. Daarvoor stellen mensen lijsten met regels op.

D) De onderzoekers hebben de geretourneerde gegevens vergeleken met openbare data op het net.

Wat mij het allermeeste stoort hieraan is dat het recht om vergeten te worden wat mij betreft met al die AI's in de vuilnisbak is beland.
Het o me niet verbazen als Google dit eerst bij hun eigen bard heeft ontdekt. En dan heeft geprobeerd of t bij de concurrent ook zo werkt, altijd leuk de concurrent in een kwaad daglicht te stellen

Op dit item kan niet meer gereageerd worden.