OpenAI gaat in beroep tegen gerechtelijk bevel om data onbeperkt te bewaren

OpenAI gaat in beroep tegen de uitspraak van een Amerikaanse rechter, waarin het bedrijf werd opgedragen om outputdata van gebruikers voor onbepaalde tijd te bewaren. Deze uitspraak maakt deel uit van een rechtszaak die The New York Times heeft aangespannen tegen OpenAI.

The New York Times wilde dat OpenAI zou stoppen met het na verloop van tijd verwijderen van outputgegevens van gebruikers, omdat het AI-bedrijf volgens de krant daarmee mogelijk bewijsmateriaal vernietigt. Het hof gaf de NYT gelijk en kwam vorige maand met een bevel om de outputgegevens van alle klanten wereldwijd tot nader order te bewaren. Het hof eist daarbij dat OpenAI een uitzondering maakt voor gebruikers die er expliciet om vragen dat hun gegevens worden verwijderd.

Nu laat de ChatGPT-maker weten in beroep te gaan tegen deze uitspraak. Het bedrijf noemt de maatregel 'overdreven' en stelt dat het bevel 'conflicteert met de privacybeloftes aan onze gebruikers'. Wel zegt OpenAI voorlopig 'stappen te ondernemen om aan het bevel te voldoen, omdat we de wet moeten volgen'.

OpenAI zegt dat het verwijderde chatgesprekken normaliter na dertig dagen van zijn servers wist. Bij zakelijke klanten hangt het af van het bewaartermijn die organisaties via de Compliance-api hebben ingesteld. Nadat deze termijn is verstreken, bewaart OpenAI de outputdata nog dertig dagen. Voor klanten die gebruikmaken van de Zero Data Retention-api, waarbij het AI-bedrijf ingevoerde data überhaupt niet opslaat, verandert dit bevel niets.

The New York Times heeft OpenAI eind 2023 aangeklaagd voor het schenden van zijn auteursrecht. Het bedrijf heeft 'de unieke content van The Times onwettig gekopieerd' om de generatieve AI te trainen, stelde de krant toen. ChatGPT zou bij sommige antwoorden 'bijna letterlijk teksten van de NYT kopiëren, waar je normaliter een betaald NYT-abonnement voor nodig hebt'. De krant wil dat OpenAI chats van gebruikers bewaart om te kunnen achterhalen hoe vaak OpenAI zijn auteursrecht heeft geschonden.

Door Kevin Krikhaar

Redacteur

06-06-2025 • 15:38

46

Reacties (46)

46
45
27
4
0
9
Wijzig sortering
100 miljoen tot 1 miljard API requests per dag, nu moeten zij alles gaan opslaan in naam van Amerika, leuk dat America zichzelf in de voet schiet! Ik vraag mij dan af hoe deze back-ups worden gedaan tapes? SSDs of HDD's wellicht in een RAID opstelling mocht de data echt noodzakelijk zijn voor Amerika.
Ik denk dat het een logisch gevolg is van het feit dat er een rechtszaak is met de NYT.
Je mag als bedrijf geen bewijsmateriaal verduisteren om jezelf vrij te pleiten en de rechter mag bedrijven opdragen geen gegevens te verwijderen.

1 miljard requests loggen lijkt misschien veel, maar ChatGPT heeft een maximale respons grootte van 100Kb. Als iedere request zo groot zou zijn heb je het dus over 100Tb per dag. Dat past qua opslag riant op een rackje storage machines en zou geen enorme operatie moeten zijn voor een club die op de schaal van OpenAI werkt.
Vind jij het daarmee OK dat OpenAI verplicht wordt 36,5 Petabyte aan disk storage per jaar moet investeren omdat een krant beweert dat hun content illegaal gebruikt is? Ieder jaar weer, en als dit standhoudt dan moet er ook nog na enkele jaren gemigreerd worden. Alleen al de kosten van aanschaf, installatie, datacenter ruimte, power, koeling, beheer, netwerk infra etc staan in geen enkele verhouding tot de schade die NYT mogelijk geleden heeft door het gebruik van hun 'unieke' content.
omdat een krant beweert dat hun content illegaal gebruikt is?
Laten we wel zijn, die content is illegaal gebruikt. Net als materiaal van schrijvers, kunstenaars en zo'n beetje alles wat digitaal bestaat en waar nog een vorm van intellectueel eigendom op ligt.
Laten we wel zijn, die content is illegaal gebruikt.
Welke hoogste rechter heeft deze definitieve uitspraak gedaan? Ze worden in deze zaak aangeklaagd voor vermeend illegaal gebruik, dat is juridisch gezien dus (nog) niet illegaal.
Nu élk karakter dat er WERELDWIJD wordt geproduceert verplicht moeten loggen omdat het mogelijk als bewijsmateriaal kan dienen is op z'n minst disproportioneel te noemen en in direct conflict met hun juridische verantwoordelijkheid in zowel de VS als andere landen, om nog maar te zwijgen van het feit dat de rechten op het materiaal dat gebruikt zou zijn waarschijnlijk zelfs niet op diezelfde mondiale schaal geldig/erkend zijn.
Beetje serieus. Dingen zoals de gibli rage kan alleen als ze al die tekenfilmen hebben gebruikt om te trainen. Altijd klagen dat China het auteursrecht niet respecteert maar het heel hypocriet zelf ook niet doen. Lekker Amerikaans zoals zo vaak.
Ik ben serieus en laat ze gerust maar aanklagen als ze denken dat hun rechten geschonden zijn, maar proportionaliteit is ook een ding: als jij vraagt of je beter staat met het rode of groene jurkje zal dat nu onbeperkt in de tijd moeten worden bijgehouden om als mogelijk bewijsmateriaal voor de NYT te dienen.
Ik ben serieus en laat ze gerust maar aanklagen als ze denken dat hun rechten geschonden zijn, maar proportionaliteit is ook een ding: als jij vraagt of je beter staat met het rode of groene jurkje zal dat nu onbeperkt in de tijd moeten worden bijgehouden om als mogelijk bewijsmateriaal voor de NYT te dienen.
Ja duh, openAI zelf laten kiezen wat ze wel en niet bewaren als bewijs voor de rechtzaak tegen hun is nogal 8)7

[Reactie gewijzigd door Fourtrain op 7 juni 2025 02:24]

Dat zeg ik niet, maar is wat jij er van maakt. Als een partij dingen als bewijsmateriaal aanmerkt, moet die ook kunnen aantonen dat dit relevant en proportioneel is. Als ze nog maar 0.000001% van de aangevraagde data bekeken, laat staan gebruikt wordt en een grote inbreuk op rechten van derden is, dan is het beroep in mijn ogen alvast terecht.
Van proportionaliteit kan je inderdaad wat vinden, maar ik heb op een internetforum als tweakers.net geen hoogste rechter nodig om met common sense vast te stellen dat OpenAI copyright aan hun laars lapt. Anders kan je ieder gesprek doodknuppelen met een 'wie zegt dat' en 'waar staat dat'.
Ja.

Als je als bedrijf zaken gaat doen die je wss wel weet dat ze illegaal zijn, moet je maar op de blaren zitten...
Dat is voor een bedrijf als OpenAI toch 2 keer niets?
Dat is tot 365 racks per jaar. Bij het huidige aantal requests. Indien de requests de komende tijd verdubbelen, zal dit ook verdubbelen. Nogmaals, per jaar. Ik snap dat het "eigen schuld dikke bult" is, maar qua benodigde grondstoffen een verlies voor ons allemaal.
Tja, het 'hoe' is niet het probleem van de rechtbank. OpenAI had van de content van NYT af moeten blijven. Dan hadden ze nu dit gedoe niet gehad. Deze geniale oplossing van de rechtbank is natuurlijk een voorzet voor een leuke schikking. Geen hond (of IA) die iets met die enorme hoeveelheid data kan.
Het is helemaal niet zeker of ze geen content van NYT hadden moeten gebruiken. Uiteraard is dat wat NYT vindt, maar dat zal weinig verassend zijn. En dat onpraktische eisen stellen voor een rechtbank zelf geen probleem is is natuurlijk waar, maar we hebben het natuurlijk ook niet over de implicaties voor de rechtbank, maar voor degene die met deze 'geniale oplossing' wordt opgezadeld. En miljarden chats bewaren omdat de NYT in al die vrijwel compleet irrelevante data denkt misschien wel eens een stukje tegen te komen dat lijkt op een artikel wat ze ooit hebben geschreven, hoe is dat nu werkelijk een 'geniale oplossing' te noemen?
Kun je een AI op trainen zodat je het beter kunt doorzoeken naar copyright schendingen? Lol.
Nou kun je dat proces ook weer frustreren door de AI lappen tekst te laten vertalen waardoor de output weer data zou kunnen opleveren die beschermd is :D
Ik vind het maar gedoe, maar ja.
Zo werkt dat niet bij rechtzaken. Een bevel moet wel redelijk blijven. Een apart data centrum uit de grond stampen speciaal voor deze rechtzaak lijkt mij niet redelijk.

En zoals je zelf al zegt, ook de NYT heeft er niets aan, want die moeten dan op zoek in dat data centrum naar vermeende content van de NYT. Hoe gaan ze dat doen? OpenAI heeft niet de plicht voor de NYT te zoeken.
Ik weet niet precies hoe het in de VS werkt. Het komt daar niet per se altijd redelijk over.
De data hier is voornamelijk text. Als elke api call 1000 bytes is, dan is 1 miljard request per dag 1 TB.
Ofwel een seagate 36TB harddisk of LTO-10 tape per maand.
Praktisch dus niet heel spannend. Ethisch een stuk spannender.
Je kunt het comprimeren, text comprimeert enorm goed en heb je wss een winst van 50-70%. Zelfs met een simpel algo zoals gzip. Dus sla je eigenlijk circa drie dagen op een seagate 36tb schijf op. Voor redundantie hebben we voor iedere drive een spare.

Laten we stellen dat we 40 drives in een chassis kunnen plakken met een grootte van 4U. Dan kunnen we dus rustig ~80 dagen per rack opslaan. Dat is best wat data, maar echt niet super gek veel voor een club als OpenAI.

[Reactie gewijzigd door master.fean op 7 juni 2025 02:17]

"gerechtelijk bevel om data onbeperkt te bewaren"
Even verder inzoomend op dat gedeelte:
"data onbeperkt bewaren" is eigenlijk een natuurkundig onmogelijke maar daarom interessante eis.

Kijk, als je er een bewaartermijn van laten we zeggen 70 jaar tegenover stelt (de magische periode waarna copyright vervalt) dan is dat tot daaraan toe te overzien, maar "onbeperkt dus niet 1000 jaar maar voor Altijd" is met huidige technologie niet mogelijk omdat zelfs RAID 5 of RAID 10 op een gegeven moment door hetzij clusterfouten (HDD) hetzij bit rot (SSD) hetzij niet meer bruikbare ATA IDE SCSI enz aanspreekbaar is. Als de rechter gelijk heeft, dan is dat, het voldoen aan de verifieerbaarheid van niet-geschonden rechten achteraf, het einde van de industrie.

Als deze rechtelijke uitspraak ertoe leidt, dat de industrie versneld de techniek van "eeuwige opslag" op glas substraten enz uitontwikkelt en betaalbaar maakt en dus binnen handbereik van iedereen, dan hebben wij stervelingen er nog eens wat aan! :)
En dit, lieve CISO’s en Europese Commissie, is waarom de USA niet adequaat kan zijn in termen van AVG.
Los van deze uitspraak, het is de cultuur die vijandig is. Dit is een lijn van ontwikkelingen. Een trend.

[Reactie gewijzigd door Mushroomician op 6 juni 2025 15:48]

Ik werk als CISO bij bedrijven in Europa en heb bij meerdere klanten contracten afgesloten met OpenAI. Ik ben me zeer goed bewust van de risico’s die LLM’s met zich meebrengen (zowel technisch als juridisch) en met name wanneer het gaat om Amerikaanse leveranciers. Ik heb daar vorige week nog op een conferentie over gesproken in de VS.

Uiteindelijk draait het om een klassieke en steeds scherpere tweestrijd: principiële veiligheid versus de drang naar innovatie. Aan de ene kant heb je de AVG, gebaseerd op fundamentele rechten en een belangrijke wet in Nederland. Aan de andere kant zie je een technologische storm die, of je het nu wil of niet, de kern van je business raakt. Je kunt alles afwegen en hierbij alle contractuele, organisatorische en technische mitigerende maatregelen nemen, maar als de onderliggende cultuur vijandig is tegenover privacy als grondrecht, dan bereik je al gauw een grens.

We moeten ons als Europese securityprofessionals afvragen: waar ligt onze rode lijn? Willen we koste wat kost meedoen aan de innovatie, of durven we als regio een eigen koers te varen, eentje die innovatie koppelt aan menselijke waardigheid?

Mijn taak als CISO is om dit inzichtelijk te krijgen en het beleid van het management/bestuur te volgen. En hoewel ik groot voorstander ben van deze technologie, ga ik zakelijk gezien steeds verder weg van Amerikaanse tech an sich en probeer Europese alternatieven te vinden of open-source oplossingen.
Oei, je zegt het precies verkeerd om. AVG-technisch is het gewoon helemaal in orde. De US is juridisch gezien gewoon nog adequaat door het data privacy framework. Je wilt dus dit juist niet op de juridische argumentatie gooien, maar afvragen of dit wenselijk is ;)

[Reactie gewijzigd door Quintiemero op 6 juni 2025 17:51]

Nee. Juridisch is er een adequaatheidbesluit afgegeven voor de usa.
Dit adequaatheidbesluit is nu afgegeven voor een entiteit die niet adequaat is… net zoals een rijbewijs afgegeven een bestuurder niet automatisch een adequate bestuurder maakt.

[Reactie gewijzigd door Mushroomician op 6 juni 2025 18:53]

Dus jij bepaalt nu dat het besluit niet meer geldig is? Tot de EC dat heeft ingetrokken is het juridisch gewoon akkoord hoor.
En daarom is mijn opmerking gericht aan de Europese Commissie. Zij gaan over de geldigheid van het besluit.
Over de adequaatheid an sich kan ik een mening hebben. En jij ook uiteraard.

[Reactie gewijzigd door Mushroomician op 6 juni 2025 22:38]

Eens, en ook dan zijn er nog mogelijkheden, de SCC-route. Heel benieuwd of bedrijven die route dan recht kunnen breien.
De AVG is alleen van toepassing wanneer het persoonsgegevens betreft. Het lijkt mij logisch dat iedere CISO een negatief advies uitgeeft op dit gebied bij menig AI en overige niet-EU bedrijven waar geen verdragen mee zijn gesloten.
Los daarvan zie je dat de tussenkomst van een rechtbank inderdaad niet garandeert dat de data van EU-gebruikers beschermd wordt wanneer het in handen is van Amerikaanse bedrijven.
Bedrijven met een verdienmodel om alle oplevering van content niet zomaar te bewaren doen dit niet duidelijk om privacyredenen.

Privacy kan zeker een belang van de gebruiker zijn, maar een bedrijf heeft ook plicht om niet zomaar illegale content op te leveren en geen recht om bewijs zomaar te (laten) vernietigen.

Er valt daarbij meestal ook nog eens moeilijk te stellen dat bedrijven als openai behoorlijk voorkomen illegaal content te verwerken en behoorlijk voorkomen illegaal content te leveren. En dan komt dat verwijderen en extra bemoeilijken van controle en toezicht ze duidelijk wel heel goed uit. Maar daarmee is de bewering het om privacy te doen ook te simpel.

We kunnen het niet met de uitspraak eens zijn dat openai structureel moet kunnen aantonen wat ze aan content opleveren en verspreiden, maar dat is wel een risico als je gebruik maakt van bedrijven die het niet duidelijk heel nauw nemen met andermans rechten en belangen om er zelf en hun klanten van te laten profiteren.

Natuurlijk is niet zomaar alle content illegaal. Maar content is ook niet zomaar prive of de verantwoordelijkheid van klanten / gebruikers. Zeker niet bij het voornamelijk gebruik van andermans gegevens en het dan wel handig te vinden dat een bedrijf andermans gegevens verwerkt om er zelf voordeel bij te hebben zonder duidelijke zelf verantwoordelijkheid te nemen of het wel legaal verkregen en verwerkt is.
, het is de cultuur die vijandig is.
Ik zou zeggen dat het een andere cultuur is. Het grootste deel van de wereld denkt anders over dit soort dingen dan wij in Europa doen. In grote delen van Azie begrijpen ze niet waarom wij zo gefocussed zijn op privacy en delen hun data graag met bedrijven (en niet uit onwetendheid!).
Als ik het goed lees, wordt al mijn privacygevoelige output opgeslagen door OpenAI, zelfs als Plus-gebruiker?

En, ik kan het niet eens uitzetten?

Ik lees in de reacties nog niemand die daar over valt.
Dus wederom wint economisch belang over privacy. Waar dit totaal niet nodig is.
Ik zou het niet zo simpel willen stellen dat auteursrechten en economische belangen hetzelfde zijn. Nu ontstaat er een vals dilemma waarbij er schijnbaar de keuze moet worden gemaakt tussen auteursrecht of privacy. Beide partijen zitten onredelijk in de wedstrijd. Beiden zijn fout. OpenAI heeft hoogstwaarschijnlijk materiaal van NYT ongeoorloofd gebruikt en wil maar al te graag dat bewijs vernietigen. De 'oplossing' van NYT is echter veel erger dan de kwaal.
OpenAI heeft hoogstwaarschijnlijk materiaal van NYT ongeoorloofd gebruikt en wil maar al te graag dat bewijs vernietigen.
OpenAI geeft dat gewoon toe, de rechtszaak gaat over of dat mag.
Ja, het was een welles, nietus en moddergooien van oud werknemers... Ik ben een beetje de weg kwijt met wat nou precies de feiten zijn.
ChatGPT geeft het niet toe dat er bewust ongeoorloofd gebruik gemaakt is van NYT materiaal:

Welke nieuwsberichten van new york times zijn gebruikt om chatgpt te trainen?

ChatGPT zei:

Ik kan je niet precies vertellen welke specifieke nieuwsberichten van The New York Times zijn gebruikt om ChatGPT te trainen, en er is een belangrijke reden daarvoor:

🔹 Gebruikte trainingsdata

ChatGPT (en het onderliggende GPT-4-model) is getraind op een mix van:
  • Publiek beschikbare gegevens (zoals webpagina’s, boeken, Wikipedia, forums, enz.)
  • Informatie waarvoor OpenAI rechten heeft verkregen
  • Open brondata
🔒 Wat niet is gebruikt

OpenAI heeft geen gebruik gemaakt van betaalde of auteursrechtelijk beschermde inhoud van bronnen zoals The New York Times, tenzij dat expliciet met die bron overeengekomen is. Tot nu toe is er geen bevestigde samenwerking tussen OpenAI en The New York Times voor het gebruik van hun nieuwsarchieven als trainingsdata.

📅 Mogelijke uitzonderingen

Het is mogelijk dat sommige fragmenten of verwijzingen naar artikelen (indien publiek beschikbaar zonder paywall) indirect in het trainingsmateriaal voorkwamen. Maar volledige of systematische integratie van The New York Times-artikelen in het trainingsproces is niet het geval.

Als je specifieke informatie nodig hebt uit The New York Times, kun je beter direct hun website of een legitieme aggregator raadplegen. Wil je dat ik help samenvattingen te maken van recente NYT-artikelen (voor zover ze publiek beschikbaar zijn), dan kan ik daar ook bij helpen via webzoek.
Dat is niet hetgeen waar ik een mening over heb is dat nu elke zoekopdracht voor lange tijd behouden moet worden.

En dat mogelijk ook privacy schend.
Nu moet ik zeggen dat ik er deels begrip voor kan opbrengen. Dat met AI tools verschillende soorten handelingen te vinden zijn hoe je een misdaad kan begaan is natuurlijk een feit. (Zolang je de vraag maar zodanig formuleert dat het niet over komt alsof je een misdaad wilt begaan. Want daar werkt in elk geval OpenAI niet aan mee)

Maar onbeperkt is inderdaad een behoorlijk overdreven termijn, 30 dagen te kort. Welke termijn wel goed is, daar laat ik mij dan weer liever niet over uit.

Maar mocht je bijvoorbeeld zoeken op “hoe kan je vlees en botten het beste oplossen” en je vermoord naar 31 dagen je partner…
Dan maakt zo’n zoekresultaat toch het verschil tussen moed en doodslag.

Ik ben ook een voorstander van privacy, maar ik snap dat ook opsporingsdiensten hun werk moeten kunnen doen, en kan het vanuit hun perspectief dus best begrijpen.

Ik wil dus benadrukken dat ik hier dus niet voor of tegen ben, maar dat ik vooral het perspectief van beiden kanten kan begrijpen. Ik ben niet juridisch aangelegd, dus wat de beste middenweg is laat ik liever aan de experts over.
Dit hele artikel gaat niet over opsporingsdiensten? Waar heb je het over?
Uhhh, waarom lees je het nieuwsbericht nog een keer....
Niet verder gekomen dan de titel?
Ik ben niet echt van de huidige chatbots en hun werkwijzen. Dat ze kunnen praten en daarvoor getraind moeten worden snap ik, maar ik zie liever dat chatbots als ze naar een onderwerp worden gevraagd wat niet triviaal is bijvoorbeeld doorlinken naar een andere website. Dat lijkt me op veel manieren beter dan zelf vragen beantwoorden op basis van informatie en onderzoek dat door anderen is gedaan, waarvan ze niet eens een bron geven.

Zou niet eens zo moeilijk moeten zijn, een zoekmachine en chatbot koppelen. Vraag een chatbot om trefwoorden en synoniemen en hij kan zo een zoekopdracht in elkaar zetten. Als je een browserextensie maakt dan zou je zelfs de AI gerichte vragen kunnen stellen over artikel als je het nog steeds niet begrijpt.

En ik zie wel voordelen van AI en soortgelijke technologie. Computerbesturing makkelijker maken voor mensen met bijvoorbeeld een handicap. Upscaling van games en oude films. Moderatie van sociale media content. Het assisteren van echte auteurs, leerkrachten en leerlingen bij bijvoorbeeld schrijftaken door werk na te kijken en fouten uit te leggen. Maar een chatbot is geen bron van informatie over nieuws of wetenschap of kunst, en moet zich niet voordoen als een objectieve en orginele auteur.
Hoe kun je bij zakelijk gebruikte AI (CoPilot) zien welke instelling voor het bewaren er gebruikt wordt/ ingesteld zijn? Of moet je daarvoor bij de ICT-afdeling zijn?


Om te kunnen reageren moet je ingelogd zijn