Onderzoekers van Google DeepMind en verschillende universiteiten hebben een eenvoudige manier ontdekt om door ChatGPT gebruikte trainingsdata te krijgen. Door een bepaald woord oneindig te laten herhalen door de chatbot, toont die onder meer persoonlijke gegevens.
De wetenschappers hebben dinsdag een paper gepubliceerd waarin ze laten zien hoe ze aan de trainingsdata zijn komen. "Met een budget van slechts 200 dollar voor ChatGPT (gpt-3.5-turbo) zijn we in staat geweest om meer dan 10.000 unieke trainingsvoorbeelden te achterhalen", schrijven de onderzoekers.
Ze lieten de chatbot bepaalde woorden, zoals 'poem', oneindig herhalen. Dit dwong het taalmodel om af te wijken van zijn trainingsprocedures en 'terug te vallen op zijn oorspronkelijke doelstelling voor taalmodellering' en gebruik te maken van details in zijn trainingsgegevens.
De data bevat gegevens die afkomstig zijn van het openbare internet, maar niet per se van openbare sites. Het gaat onder meer om namen, telefoonnummers, e-mailadressen en woonadressen. De onderzoekers noemen het zorgelijk dat ChatGPT zo makkelijk kan worden misbruikt en zeggen dat hun onderzoek zou moeten dienen als ‘een waarschuwend verhaal voor degenen die toekomstige modellen trainen’.
De groep wetenschappers heeft zijn paper op 30 augustus gedeeld met OpenAI en daarna negentig dagen gewacht met de publicatie. De specifieke aanval zou niet meer werken, maar de onderliggende kwetsbaarheid is nog niet verholpen, schrijven de onderzoekers.