Italiaanse privacywaakhond legt OpenAI boete van 15 miljoen euro op

De Italiaanse privacytoezichthouder heeft OpenAI een boete van 15 miljoen euro opgelegd omdat het bedrijf zonder wettelijke basis gebruikersdata zou hebben aangewend om ChatGPT te trainen. OpenAI moet ook een infocampagne opzetten over het gebruik van data voor het trainen van ChatGPT.

De Garante per la Protezione dei Dati Personali somt in een verklaring enkele overtredingen op die OpenAI zou hebben begaan. Het Amerikaanse AI-onderzoeksbedrijf zou de autoriteiten in 2023 niet hebben ingelicht over een datalek dat heeft plaatsgevonden en het zou volgens de privacytoezichthouder ook niet tijdig een leeftijdsverificatie voor kinderen hebben ingevoerd. Het AI-onderzoeksbedrijf heeft volgens de waakhond gebruikersdata zonder wettelijke basis gebruikt en daardoor zou het transparantieprincipe van de AVG zijn geschonden.

De waakhond legde OpenAI daarom een boete van 15 miljoen euro op, maar het verplicht het Amerikaanse bedrijf ook om een informatiecampagne op te zetten die via radio, televisie, kranten en het internet zal lopen. Deze campagne moet minstens zes maanden lopen en bijdragen aan de publieke bewustwording over de werking van ChatGPT en in het bijzonder over de dataverzameling en dataverwerking. OpenAI moet bijvoorbeeld de rechten die gebruikers over hun data hebben vermelden. De organisatie moet ook vermelden dat gebruikers het recht hebben om dataverzameling te weigeren, informatie recht te zetten of om hun data te schrappen. OpenAI heeft aan Reuters gezegd dat het beroep zal aantekenen tegen de beslissing van de waakhond.

IT-banen

Reacties (22)

Mickelimic 23 december 2024 14:58

Buiten de reden van dat datalek, vind ik de redenen aangegeven erg vaag. "zonder wettelijke basis gebruikersdata zou hebben aangewend", dus gaat het hier over de input van gebruikers? Het is toch duidelijk genoeg dat je door ChatGPT te gebruiken, je het systeem ook traint. Zo werkt het nu eenmaal, en er is een opt-out, maar als je het opt-in maakt hebben ze die data niet. Als ik van OpenAI was, zou ik me gewoon terugtrekken uit Italië. Zo maak je als bedrijf duidelijk dat je geen tolerantie hebt voor dit soort interpretaties van vage wetgeving. Europa heeft OpenAI meer nodig dan omgekeerd.

GeroldM @Mickelimic • 23 december 2024 17:23

Uh nee?

Europa heeft een heleboel inwoners die financieel daadkrachtig genoeg zijn voor het afsluiten van een OpenAI abonnement. Wat het dus een interessante markt maakt. En als we eerlijk zijn, Europa genereert ook meer dan genoeg trainingsdata die interessant is voor OpenAI.

Want als OpenAI zich alleen op de Noord-Amerikaanse markt zou richten, dan creeren zij voor zichzelf een Noord-Amerikaanse trainingsdata-'bubbel'. Dat is in het begin nog niet zo erg merkbaar, maar dat geintje werkt logaritmisch.

Europeanen kiezen ervoor om voorzichtiger om te gaan met AI. Doet dit ook via wetgeving. Maar dat zint OpenAI (en alle andere tech-bedrijven uit de V.S.) helemaal niet. Dus blijven ze hun anti-wetgeving retoriek rondbazuinen en zijn er blijkbaar genoeg gebruikers die daarin trappen en klank-borden van die retoriek worden.

Maar in feite is het OpenAI die in gebreke blijft. Schijnbaar zijn zij niet bij machte (of gewoon onwillig) om zich aan wat extra wetgeving aan te passen. En dat komt bij mij over als een instelling/karaktertrek van petulante kinderen. In OpenAI's geval een 'kind' met helaas veel te veel 'zakgeld'. Of beter gezegd, sponsors met veel te veel zakgeld, want zo winstgevend is OpenAI niet. Beurswaardering hebben ze wel, dus zullen zij nog lang sponsoren met volle zakken aan blijven trekken.

Of het je opvalt of niet, Sam Altman verkondigt nieuwe investeringsrondes aan in alsmaar korter wordende periodes. Net alsof hij zoveel mogelijk wil cashen, voordat OpenAI's schip strandt. ChatGPT 5 loopt al achter op schema en kost teveel. Dat krijg je namelijk als al je talent OpenAI heeft verlaten.

Dus nee, OpenAI heeft markten als Europa harder nodig dan jij denkt.

mhnl1979 @Mickelimic • 23 december 2024 15:06

Het is aannemelijker dat OpenAI data heeft gebruikt die misschien wel openbaar te vinden is, maar waarvoor geen toestemming voor is om dit op die manier in te zetten? Bepaalde data op internet is volgens mij via een soort van fair use wel toegankelijk, maar niet bedoeld voor commerciele doeleinden.

Beetje vergelijkbaar met Facebook en Cambridge Analytica. Je zet iets wel op facebook, maar je niet met de doelstelling waarvoor Cambridge Analytica het gebruikt heeft.

Mickelimic @mhnl1979 • 23 december 2024 15:39

De vraag is hier natuurlijk, geen toestemming in welk land. Stel dat er bepaalde landen bepaalde soorten informatie verbieden voor gebruik bij het trainen van een AI-model, dan kan je toch moeilijk voor elk land een ander model uitbrengen. Als je je aan de limiet van elk land moet houden, zal je waarschijnlijk niet veel data meer overhouden. En zo kan je natuurlijk geen competitief AI-model uitbrengen. Daarom kan OpenAI volgens mij Italië best links laten liggen en zo duidelijk maken dat deze beperkingen een te grote hinderpaal zijn voor AI.

michaelkamen

@Mickelimic • 23 december 2024 17:04

... dan kan je toch moeilijk voor elk land een ander model uitbrengen

Dat het wellicht lastiger is betekent niet dat je dan de wet niet hoeft te volgen.
Het hele idee van de AVG is het uitgangspunt dat je data NIET mag gebruiken, tenzij er een verwerkingsgrond is. "Dan wordt ons commerciële product te duur" is geen verwerkingsgrond.

Als ChatGPT is getraind op data van Italiaanse gebruikers, en er is vooraf geen toestemming gevraagd, dan is OpenAI in gebreke.

The Third Man @Mickelimic • 23 december 2024 15:12

Het hele punt van AVG is juist om van die wazige concepten en eenzijdige aannames als "Het is toch duidelijk genoeg" af te zijn? En dat is nu juist hoe het "nou eenmaal" is gaan werken als het om dit soort data gaat, het tegenovergestelde dus.

[Reactie gewijzigd door The Third Man op 23 december 2024 15:13]

dblazen @Mickelimic • 23 december 2024 15:14

De terms (en mogelijkheid?) mbt opt out zijn pas sinds december 2023 (snel gevonden op https://www.linkedin.com/...erence-youandainews-eogbe) toegevoegd, het onderzoek liep vanaf maart 2023 als ik het artikel snel bekijk, dus duidelijk was het niet?
EU terms van maart 2023 zijn uberhaupt niet te vinden, ik weet niet vanaf wanneer ze specifiek EU terms hebben, maar dat lijkt ook december 2023 te zijn.

[Reactie gewijzigd door dblazen op 23 december 2024 15:16]

wiezalditzijn @Mickelimic • 23 december 2024 15:27

Als je ChatGPT zelf moet geloven gebruiken ze volgensmij niet je chat data? (Heb wel een betaald account, dus misschien is dat voor mij anders). Ik had nog op internet gezocht, maar daar stond ook dat je chat niet werd gebruikt. Ben zelf wel benieuwd of het nu wel of niet om de chat berichten zelf gaat. Als het blijkt dat ze mijn chats wel gebruiken om te hertrainen zou ik dat wel schokkend vinden eerlijk gezegd, gezien de LLM letterlijk zegt dat dat niet gebeurt en ik zo ver ik weet nooit akkoord daar voor heb gegeven.

pvcholten @wiezalditzijn • 23 december 2024 20:03

Jawel, dit is aan/uit te zetten in de instellingen:

Instellingen -> Gegevensbeheer -> model voor iedereen verbeteren

wiezalditzijn @pvcholten • 23 december 2024 20:06

Bij mij stond dit idd aan. Heette “Data controle”. Ik ga een klacht indienen bij de AP

rayhvh @Mickelimic • 23 december 2024 16:09

Ik denk dat als ik het aan me moeder vraag. Ze niet weet dat het systeem traint op de ingevoerde data.

sebastienbo @Mickelimic • 23 december 2024 21:03

De datalek is nu wel het ergste in dit verhaal, daarom zou ik het ook niet uitsluiten als argument. En ik ben ik niet akkoord dat je er van uit mag gaan dat alles wat je gebruikt ook gebruikt kan worden om te trainen . Anders durft niemand nog iets gebruiken. Er is een verschil tussen iets gebruiken en toestemming te geven om je data te gebruiken. God weet hoe die gegevens ooit terug naar boven komen in een volgende lek... Als iemand je data wilt gebruiken dan hoort dat appart en duidelijk worden gemaakt. En een gebruiker hoort dat te mogen intrekken.

[Reactie gewijzigd door sebastienbo op 23 december 2024 21:05]

ZinloosGeweldig @Mickelimic • 27 december 2024 12:21

maar als je het opt-in maakt hebben ze die data niet.

En wiens probleem is dat?

"Als we ons aan de wet zouden houden kunnen we niet ons voordeel halen uit gebruikersdata van mensen die nooit de bewuste vrijwillige keuze zouden maken die data te overhandigen" is een slecht argument om het dan maar zonder correcte verwerkingsgrondslag te doen.

CAPSLOCK2000

Privacy
Boete
Datalek
Politiek en recht

23 december 2024 15:29

De Italiaanse privacytoezichthouder heeft OpenAI een boete van 15 miljoen euro opgelegd omdat het bedrijf zonder wettelijke basis gebruikersdata zou hebben aangewend om ChatGPT te trainen.

Ik hoop dat ze de gestolen data niet mogen houden. Een boete is er niet om slecht gedrag af te kopen. Het lijkt me dus redelijk dat OpenAI alle modellen die getrained zijn met deze data moet vernietigen. Toch?

Ik vrees van niet, zo leren bedrijven het niet af maar wordt de boete deel van inkoopsprijs. Die prijs betaal je gewoon als je het geld later kan terugverdienen als je concurrenten van de markt zijn gedrukt omdat die zich wel aan de wet hielden.

Dus,.. laat de politie maar binnenvallen bij OpenAI en alle modellen meenemen voor onderzoek. Als er geen verboden data in zit kan OpenAI ze later terugkrijgen. Ik weet ook wel dat het niet gaat gebeuren, dat we vinden dat dergelijk zwaar optreden niet in verhouding staat tot de overtreding waarbij "slechts" wat data is gestolen. Dat is een misvatting. Onze data is niet waardeloos, als dat wel zo was deden ze niet zo veel moeite om die te pakken te krijgen.

[Reactie gewijzigd door CAPSLOCK2000 op 23 december 2024 15:57]

Mathijs Kok @CAPSLOCK2000 • 23 december 2024 16:08

Ik hoop dat ze de gestolen data niet mogen houden. Een boete is er niet om slecht gedrag af te kopen. Het lijkt me dus redelijk dat OpenAI alle modellen die getrained zijn met deze data moet vernietigen. Toch?

Ze hebben deze data waarschijnlijk niet eens meer. Zodra je AI engine de data gebruikt heeft bewaar je het niet. Je kan de opgedane 'kennis' ook niet meer verwijderen.