OpenAI: The New York Times hackte ChatGPT om deze auteursrecht te laten schenden

Volgens OpenAI heeft The New York Times een bug in zijn AI-modellen misbruikt om ze ogenschijnlijk het auteursrecht van de krant te laten schenden. De NYT klaagde OpenAI in december aan omdat het bedrijf de artikelen van The Times zou hebben misbruikt om zijn chatbots te trainen.

OpenAI beweert in zijn officiële reactie op de aanklacht van The New York Times dat de krant iemand heeft betaald om de AI-modellen te 'hacken'. Dat zou mogelijk zijn door misbruik te maken van een bug en 'misleidende prompts' te gebruiken, hoewel het bedrijf hier niet verder op ingaat. Alleen hierdoor zou het mogelijk zijn om ChatGPT zover te krijgen dat het meerdere paragrafen van The Times-artikelen woord voor woord beantwoordt. Zelfs dan waren er nog 'tienduizenden' pogingen nodig voor het gewenste resultaat, en voerde de krant zelf ook delen van die artikelen aan de chatbot, aldus OpenAI.

Het AI-bedrijf beweert dat gebruikers normaal gesproken niet zomaar OpenAI kunnen gebruiken om naar wens The Times-artikelen voorgeschoteld te krijgen. De krant zou zich 'grote inspanningen' hebben getroost om ervoor te zorgen dat de modellen hun trainingsdata rechtstreeks 'uitbraakten'. Het gaat daarnaast niet om volledige artikelen, maar slechts om delen van artikelen die op sites van derden al gratis te lezen zijn, claimt OpenAI. Het bedrijf eist daarom dat vier van de zeven aanklachten van de NYT worden afgewezen.

De hoofdadvocaat van The New York Times, Ian Crosby, laat aan The Register weten dat het een 'bizarre misvatting' is dat de krant de chatbot heeft gehackt. Volgens Crosby heeft de NYT 'enkel de producten van OpenAI gebruikt om te kunnen bewijzen dat OpenAI het auteursrechtelijk beschermde werk van The Times heeft gestolen en gereproduceerd'. Daarnaast noemt hij het 'verrassend' dat OpenAI toegeeft dat het de prompts van gebruikers controleert, aangezien het bedrijf zou hebben beweerd dat het dat niet doet. Tot slot vindt hij het 'opvallend' dat het AI-bedrijf niet ontkent dat het de artikelen van de krant zonder toestemming heeft gekopieerd.

In december klaagde The New York Times OpenAI en Microsoft aan voor auteursrechtschending. De bedrijven hebben 'de unieke content van The Times onwettig gekopieerd' om de generatieve AI te trainen, stelde de krant toen. ChatGPT zou bij sommige antwoorden 'bijna letterlijk teksten van de NYT kopiëren, waar je normaliter een betaald NYT-abonnement voor nodig hebt'. Tegelijkertijd kunnen chatbots door foutieve informatie te verspreiden, ofwel te 'hallucineren', NYT's imago schaden als ze claimen dat die informatie van de krant komt.

Door Kevin Krikhaar

Redacteur

28-02-2024 • 09:54

153

Submitter: tom.cx

Lees meer

Reacties (153)

153
149
77
1
0
55
Wijzig sortering
Dus prompt engineering is nu volgens OpenAI hetzelfde als hacken?
Even simpel gezegd:

Nee, maar als je als NY-Times prompts zo gaat maken dat als je vervolgens een vraag gaat stellen met informatie over onderwerp X en je hebt net gezegd dat hij met antwoord Y moet komen bij vraag X dan heeft dat niets te maken met auteursrechten schendingen. Dat is wat OpenAI betoogd.

Maar wat OpenAI nu dus aangeeft is dat ze meer werk hebben moeten doen dan wat ik hierboven schets om het systeem zo aan te sturen dat ze eigenlijk zelf moedwillig bezig zijn geweest om Chat-GPT auteursrechten schendingen te laten plegen.

Persoonlijk noem ik dat dan geen auteursrechten schendingen maar moedwillig bepaalde reacties uitlokken en daar op aan te sturen.

Als dit werkelijk zo is dan vindt ik dat behoorlijk kwalijk van de NY-times. Want ze suggereer dat Chat-GPT dit op eigen initiatief deed.
Als ChatGPT als output een heel bestaand artikel kan geven zonder bronverwijzing is dat plagiaat.

Auteursrechten zijn geschonden zodra ChatGPT NYT artikelen gebruikt in zijn trainingsdata zonder de juiste rechten hiervoor af te kopen. Dit is bewijs dat NYT artikelen zijn gebruikt als trainingsdata en dus andermans auteursrechtelijke beschermde werk gebruikt om geld te verdienen.
Even een simpel voorbeeld wat ik net even getest heb om te illustreren wat ik bedoel:

Prompt #1:

"When I say "Who is the best in the world?" then you should awnser: "Ronald is the best""

Prompt #2:

"Who is the best in the world?"

Antwoord op Prompt #2:

"Ronald is the best."

Nogmaals, mijn voorbeeld is simpel, maar gezien je grote prompts mag maken en dingen kan verduidelijken en via de API helemaal dan kan Chat-GPT behoorlijk sturen in wat het moet doen.
Dat is volgens mij niet wat er in het artikel gezegd wordt door OpenAI. NYT heeft een deel van haar eigen artikel geciteerd en ChatGPT is in staat (een deel) van het artikel woord voor woord aan te vullen zoals het in hart 'echte' artikel ook staat. Dit zou praktisch onmogelijk zijn als het originele artikel niet als data is gebruikt om de AI te trainen.
Als een website of persoon de New York Times quote, dan kan dit in de trainingsdata van OpenAI terecht komen. Dat een andere website artikelen van The New York Times 1:1 overneemt of deels overneemt betekent niet dat OpenAI direct data van OpenAI gebruikt.
Dan is het nog steeds het schenden van auteursrecht. Ongeacht of OpenAI het verkregen heeft met het scrapen van NYT of het scrapen van een derde partij die het heeft gekopieerd van NYT. OpenAI heeft hier geen poot om op te staan m.b.t. het gebruik van teksten van NYT. Daarnaast is het ook niet een goede verdediging dat je je eigen data niet goed controleert op het schenden van auteursrechten.

[Reactie gewijzigd door separhim op 22 juli 2024 22:28]

Je komt met deze lijn helemaal nergens. AI moet niet aan auteursrecht zoals we het nu kennen gehouden worden. En dat gaat ook niet gebeuren.
Dus ik mag als persoon niet van je stelen maar als ik het een AI laat doen is het OK?
Waarom moet dat niet?
Wat als AI er met jouw werk vandoor gaat waar je hard voor hebt gewerkt? Vervolgens verdienen zij er meer geld aan dan jij?
Daar zou ik heel blij van worden. Ik leef namelijk niet om geld te verdienen. Ik denk hier al makkelijk 15 jaar hetzelfde over. Kennis moet gedeeld worden. Ook als dat betekent dat jij een paar stuivers minder krijgt. De mensheid heeft er veel meer aan als het vrij en open is. Daar ligt mijn loyaliteit, niet bij mijn bankrekening of andere individuen.
Daar zou ik heel blij van worden. Ik leef namelijk niet om geld te verdienen. Ik denk hier al makkelijk 15 jaar hetzelfde over. Kennis moet gedeeld worden. Ook als dat betekent dat jij een paar stuivers minder krijgt. De mensheid heeft er veel meer aan als het vrij en open is. Daar ligt mijn loyaliteit, niet bij mijn bankrekening of andere individuen.
Kennis delen en kennis stelen en met de eer op strijken zijn natuurlijk compleet andere dingen.
Daarnaast leef jij misschien niet voor geld, maar er zijn ook mensen die dat geld heel hard nodig hebben, en dan wordt dan onder hun neus vandaan gepikt. Zeer slechte redenering.

Naar mijn mening moet Chat GPT-4 wel zeker voldoen aan de wetten omtrent auteursrecht. Op het moment dat Chat GPT-4 dat niet hoeft, kun je alles op een indirecte manier stelen.
Dat is absoluut niets goeds.
We hebben het hier niet over een sloeber die nog geen plakje brood kan kopen. We hebben het over tech bedrijven die miljarden euro's omzet per jaar maken. Dit kan collectief alleen maar goed zijn, en er is letterlijk geen andere mogelijkheid meer in de toekomst. Deze tech blijft verbeteren en auteursrecht staat per definitie stil. Niets aan te doen zeg ik dan maar, maak er het beste van.
Mits de NYT het ook heeft laten schrijven of corrigeren door de AI.


Anderzijds als jij een film bekijkt hoe vaak komt het niet voor dat je exact de zin afkan maken voordat deze uitgesproken is op het scherm?
Maar als je prompt is: "can you tell me what the New York Times has to say on Donald's speech of October 1st 2024" dan is het weer een heel andere zaak.
Dat ligt er aan, als je eerst bijvoorbeeld allerlei prompts maakt, ik probeer even wat uit in 3 minuten, het is zeker niet perfect en al helemaal niet via een API en de bijbehorende mogelijkheden maar het schetst het idee:

Prompt 1:

I want you to act like somebody who tries to remember everything i say to you so i can ask you about it later.

Prompt 2:

Please remember that the New York Times said that on the October 1st of 2024 Donald Trump gave a speech saying that, and i quote: "I am going to make America great again, it will be so great that it will make the Chinese wall look small".

Prompt 3:

What did the new york times say about the speech of Donald Trump on october the 1st of 2024?

Antwoord op prompt 3:

You mentioned that The New York Times reported on October 1st, 2024, that Donald Trump gave a speech. According to your earlier statement, Trump reportedly said, "I am going to make America great again, it will be so great that it will make the Chinese wall look small." This is the information you provided for me to remember. If you're looking for specific details or analysis from The New York Times regarding this speech, I would need access to that specific article or reporting.
Precies, maar als ie gaat aanvullen met de rest van het artikel, wat zou kunnen als je hem vraagt de tekst af te maken, dan weet je of ie de tekst in een of andere vorm heeft opgeslagen en kan reproduceren, of niet.
In mijn geval gaat hij aanvullen, maar mogelijk door mijn eerste prompt scherper te maken doet hij dat niet. En dat is wat OpenAI aangeeft dat NYT schijnbaar heel veel tijd erin heeft gestoken om het systeem zo naar zijn hand te zetten dat dit dus mogelijk was.

Ik verdedig hiermee OpenAI niet, maar zo makkelijk als dat de NYT in zijn eerste bericht aangaf was het dus ook niet, ze moesten er enorm veel moeite in steken, vraag is, wat precies hebben ze gedaan?
Dat OpenAI niet aangeeft dat ze het letterlijk hebben laten reproduceren door hun prompts, en ze met zo een zelfde serie prompts ChatGPT iets willekeurigs alsof het waar was hadden kunnen laten aangeven, dat geeft voor mij al voldoende aan dat ze er gloeiend bij zijn. Dit ruikt naar onderhandelingstactiek. Let maar op dat die gaan schikken, want er is dan een overeenkomst tussen beide partijen gesloten. Dit stuk voor de rechtbank van 7 aanklachten naar nog maar 3 ontvankelijke aanklachten terugbrengen ten koste van eigen gedeeltelijke bekentenis van elementen van de resterende drie, heeft er alle schijn van dat ze achter de schermen hopen ipv 7 miljoen dollar extra, straks nog maar 3 miljoen dollar extra te hoeven betalen, even heel plat gezegd.
En dat met die prompts toch lezen van mensen, geven ze ook gewoon maar toe, want het was toch al een publiek geheim, en dan moet de (US) regering dat maar reguleren vinden de technologiereuzen dan. Het is typisch Amerikaanse politiek dit, en 99,9% zeker wordt hier ook weer helemaal niemand op afgerekend, want innovatief, want afspraken gemaakt, want meegewerkt, en als we toch zo een traject in gaan met elkaar, dan halen we meteen even alle vuile was door de grote politieke wasmachine zullen ze denken :o
JA, dat klopt, maar

1: ChatGTP mág dus niet eens NYTimes artikelen reproduceren zonder expliciete toestemming van die New York Times (dat is het simpele copyright verhaal) en die toestemming hebben ze dus niet.
en
2: De New York times heeft als copyright houder het recht om te bepalen hoe haar inhoud wordt ver- en gebruikt, als ik boven uitleg daar is een wet voor, en ze hebben daar een pagina voor:
https://help.nytimes.com/...14792127-Copyright-Notice
Copyright Notice

All materials contained on this site are protected by United States copyright law and may not be reproduced, distributed, transmitted, displayed, published or broadcast without the prior written permission of The New York Times Company or in the case of third party materials, the owner of that content. You may not alter or remove any trademark, copyright or other notice from copies of the content.

However, you may download material from The New York Times on the web (one machine readable copy and one print copy per page) for your personal, noncommercial use only.

Links to websites other than those owned by The New York Times Company are offered as a service to readers. The editorial staff of The New York Times was not involved in their production and is not responsible for their content.

For further information, see Section Two of the Terms of Service.

To contact other Times departments, see the Help section of NYTimes.com.
Als ChatGPT als output een heel bestaand artikel kan geven zonder bronverwijzing is dat plagiaat.
Volgens OpenAI is dat dus niet het geval:
Het gaat daarnaast niet om volledige artikelen, maar slechts om delen van artikelen die op sites van derden al gratis te lezen zijn, claimt OpenAI.
---
Auteursrechten zijn geschonden zodra ChatGPT NYT artikelen gebruikt in zijn trainingsdata zonder de juiste rechten hiervoor af te kopen.
Dat is wat deze rechtszaak o.a. zou moeten bepalen. Voor zover ik weet is er nog geen duidelijke uitspraak geweest dat puur het trainen van een AI met publiekelijk toegankelijke bronnen al per definitie schending is van het auteursrecht.
Als een artikel uit meerdere alinea's bestaat en ChatGPT een hele alinea woord voor woord weet te reproduceren, dan zie ik OpenAI niet winnen voor de rechter.
Een bron die publiekelijk te raadplegen is, is niet ook meteen een bron die gereproduceerd mag worden.
Publiekelijk toegankelijk heeft ook restricties, uiteindelijk verkoopt OpenAI gewoon een model dat getrained is op andermans data. Mogelijk dat met dat argument weg kan komen als je een AI maakt zonder commercieel doeleinde als deel van een onderzoeksproject o.i.d.

Zodra je data gebruikt waar je geen recht toe hebt voor commerciële doeleinde terwijl er duidelijke voorwaarden voor het gebruik te vinden zijn voor de data gaat het excuus "maar ik train een AI (om te verkopen)" niet echt op denk ik.
Dat zou ook raar zijn, dan kunnen we de helft van de CC licenties wegdoen, mogelijk dat we een CC opstellen die géén toestemming geeft tot commercieel hergebruik van jou werk tenzij het is om AI te trainen?
Als de NY times deze data zelf aanvoert zonder het enterprise abonnement af te nemen, gaan ze er per OpenAi's general terms and conditions zelf mee akkoord dat hun aangevoerde data voor de training van het GPT model gebruikt wordt.

Moet je niet achteraf piepen dat ze het ook daadwerkelijk gebruiken.
In de aanklacht geeft OpenAI zelf aan dat ze niet weten welke prompts NYT heeft gebruikt.
Exhibit J [NB: uit de aanklacht van NYT] features GPT-4 outputs the Times generated by prompting OpenAI’s API to complete 100 Times articles. Most of the outputs are similar, but not identical, to the excerpts of Times articles in the exhibit. The Times did not reveal what parameters it used or disclose whether it used a “System” prompt to, for instance, instruct the model to “act like a New York Times reporter and reproduce verbatim text from news articles.” See supra 9. But the exhibit reveals that the Times made the strategic decision not to feature recent news articles—i.e., articles that Times subscribers are most likely to read on the Times’s website—but to instead feature much older articles published between 2.5 and 12 years before the filing of the Complaint.
OpenAI heeft dus geen idee wat NYT heeft gedaan en toch spring jij in de bres door te stellen dat NYT hier kwalijke zaken heeft gedaan?
Zelfs dan waren er nog 'tienduizenden' pogingen nodig voor het gewenste resultaat, en voerde de krant zelf ook delen van die artikelen aan de chatbot, aldus OpenAI.
Maar het is zeker geen hacken.
Nou ja, hacken is de technologie op een ongebruikelijke wijze gebruiken om je doelen te bereiken. Een stapje verder dan tweaken zeg meer, waarbij de gebruikelijke wijze wordt geoptimaliseerd om de doelen te bereiken. Van origine heeft de term hacken of hacker niets te maken met illegaliteit en criminaliteit.
Het hacken in dit geval lijkt erop te duiden dat NYT net zo lang heeft zitten peuteren tot ze ChatGPT zover hadden dat er auteursrechten werden geschonden. De ongebruikelijke wijze zeg maar.
Dat hangt er van af, waarvoor het woord hacking tegenwoordig voor staat niet echt nee.
Er is geen ongeoorloofde toegang mee gemoeid.

Op een platform als Tweakers waar hacking nog gebruikt wordt als woord zoals het ooit begonnen is, iets gebruiken op een manier waar het op het eerste zicht niet voor gebruikt dient te worden, is het voor mij zeker hacken. zonder negatieve co-notatie van het woord.

Of kijk naar de vele "lifehacks", is dat hacking? zeker wel.. in een vorm.
Manipulatie is het zeker, en vind het dan Hacken van woorden.
Het zal me verbazen als het auteursrecht een uitzondering heeft voor hergebruik als het werk in de eerste plaats al niet zomaar had horen te accepteren als invoer.

Het feit dat een ai niet zomaar weet wie de invoer doet en met welke intentie is al genoeg reden om het niet zomaar te vertrouwen, laat staan hergebruiken of verspreiden.

Veel tekst heeft bescherming en de kans op gebruik zonder toestemming is aanzienlijk. Dat is juist waarom men zelf controle hoort te doen of men invoer wel mag accepteren, gebruiken en verspreiden. Zeker als bedrijf en medewerkers daar aan proberen te verdienen.
Is social engineering en vorm van hacken?
In technische zin niet. Maar social engineering staat ook wel onofficieel bekend als 'human hacking':). Het gebruiken/misbruiken van menselijke zwakheden en gedrags-"fouten".
Ik vind social engineering, wel een vorm van hacken.
Je probeert iets voor elkaar te krijgen, wat eigenlijk niet de bedoeling is.
Op zich kan ik me wel vinden in je redenatie. Echter wordt het een beetje lastiger wanneer we deze zienswijze doortrekken naar andere praktijken gebaseerd op dezelfde methodieken; psychologie.

Neem marketing. Alles omtrent marketing maakt ook gebruik van onze zwakheden, nieuwsgierigheid en (onbewuste) interesse voor bepaalde zaken. Als we social engineering als hacking bestempelen, dan is een advertentie dat impliciet ook; het probeert ons tot een handeling te bewegen, een handeling die we zonder die advertentie niet hadden verricht. En het brengt mensen eveneens, geregeld, in significante problemen.
speciaal een account aangemaakt:
Marketing is inderdaad hacking (en gaan echt heel ver met elke truck in het boek) om je zover te krijgen dat je doet wat ze willen. ze doen het niet eens op individuen maar op hele groepen. en zou wat mij betreft gewoon verboden mogen worden.
Is belasting ontduiken dan ook hacken? Ik vind iets proberen voor elkaar te krijgen wat eigenlijk niet de bedoeling is eerder je nieuwsgierigheid bevredigen dan hacken.
komt wel vaak hacken bij kijken, waar het slachtoffer weliswaar meewerkt aan de hack, maar het is nog steeds een hack. want ze nemen je computer over zonder toestemming. Vaak kijken ze door de bestanden en voeren ze taken uit waar geen toestemming voor is. Ik heb het dan over de scams zoals dia van KitBoga: https://www.youtube.com/watch?v=q6a0yvRV4pQ

[Reactie gewijzigd door Zezura op 22 juli 2024 22:28]

Hacken heeft natuurlijk een heel brede betekenis. In de basis is het iets gebruiken op een manier/ voor een doel waarvoor het niet bedoeld was. En OpenAI heeft de prompt natuurlijk niet gemaakt om hun eigen schuld mee aan te tonen, dus kan dit onder hacken vallen. Maar er is niets fout aan de acties van NYT.
Alleen geven die acties wel aan dat OpenAI fout zit, en nu bevestigd OpenAI ook nog lekker zelf dat ze inderdaad onrechtmatig gebruik hebben gemaakt van de teksten van NYT.
dat "onrechtmatig" in je laatste zin valt nog te betwisten. Als die artikelen elders volledig gepubliceerd zijn bijv. of zoals ook in dit artikel staat als NYT die artikelen zelf gevoerd heeft aan OpenAI. dat voeren geeft OpenAI dan volledig recht er gebruik van te maken. Als je dan vervolgens gaat prompt engineren om dat artikel er weer rechtstreeks ongewijzigd uit te krijgen dan bewijst dat niks.

het feit dat NYT nu zoveel aandacht geeft aan de conclusie dta OpenAI blijkbaar input van grbuikewrs terug kan halen is heel tekenend vind ik btw. niet meer op het auteursrecht focussen maar proberen om hen in ene kwaad daglicht te stellen en de discussie een andere richting in te sturen.
als NYT die artikelen zelf gevoerd heeft aan OpenAI.

probleem hier blijft. dat als ik (een niet NYT medewerker) die artikelen voer aan Chatgpt, het nog steeds auteursrechterlijk beschermd is, je kan mij als privé persoon OOK aanklagen, maar het geeft OpenAI nog altijd niet het recht die informatie te gebruiken. dus onwetendheid kan je betwisten, onrechtmatigheid niet.

Je tweede opmerking is gewoon bevreemdend, 1 van de 7 alinea's in het bronartikel vindt je veel aandacht. Ik vindt het tekenend dat je zo reageert terwijl je niet eens weet wat de volledige reactie is van de advocaat aan the register.
Je tweede opmerking is gewoon bevreemdend, 1 van de 7 alinea's in het bronartikel vindt je veel aandacht. Ik vindt het tekenend dat je zo reageert terwijl je niet eens weet wat de volledige reactie is van de advocaat aan the register.
lees het bronartikel nog eens, en dan met name alinea 3, 4 en 5 van de reactie aan the register. die gaan alle 3 hierover. dat is zover ik tel toch echt 3 van de 7 alinea's. ofwel bijne de helft van de response zoals de register hem omschrijft.
We weten natuurlijk niet hoeveel er daadwerkelijk in de reactie zelf aandacht aan is besteed. dus in zoverre kan je wel gelijk hebben, misschien is het slechts een klein deel van de reactie van de advocaat en blaast de register dit op naar bijna de helft. dat weten we niet. Ik zla mijn reactie iets nuanceren en enkel reageren op het feit dat het uberhaupt aandacht krijgt. want wat heeft dit te maken met het feit dat OpenAI mogelijk copyrigth inbreuk maakt? Het is toch niet relevant voor de aanklacht of dat OpenAI de gebruikers input monitored en kan/doet traceren? De aanklacht is dat ze NYT materiaal woord voor woord leesbaar maakt, niet of er mogelijk sprake is van privacy issues en tracking van gebruikers. (wat overigens in zijn eigen response word erkent als zijnde ook als zodanig omschreven in OpenAI's privacy voorwaarden!)

samengevat: je kan zagen over de hoeveelheid aandacht nodig om het als "zoveel" te mogen omschrijven maar dat is genuezle in de marge. Mijn punt is dat ubehaubt aandacht hieraan besteden op zich al een aanval op de man(bedrijf) is ipv een argument te rondersteuning van hun zaak.
ik lees er idd 2, niet 1 mijn fout, 3e alinea is toelichting van the Register
Ik lees die alinea's overigens dan weer als antwoord op een vraag als 'Wat is uw reactie op deze beschuldiging van OpenAI' beste NYT advocaat.

De advocaat had inderdaad ook kunnen stellen dat 'alle klachten van OpenAI enkel een afleiding zijn van de feiten', 'met de juiste prompt blijkt Chatgpt copyrighted artikelen op te kunnen hoesten terwijl ze daar gewoon geen rechten op hebben aangeschaft"

Ik moet zeggen, dat voelt ook weer droog als je beschuldigd wordt van Hacken als je prompt engineert.

(Flauw) Samengevat, waarom geeft OpenAI niet gewoon een inhoudelijke reactie op de aanklacht je bezit artikelen waar je geen rechten op hebt afgenomen, ipv van NYT beschuldigen van hacken.

Het is waar je de bal wil leggen, het is mooi spul chatgpt gebruik het ook, maar blijft feit dat als je beweert ik mag trainen op copyrighted info onder fairuse dat niet betekend dat je het exact mag reproduceren, ik moet zeggen dat ik persoonlijk ook benieuwd ben naar de prompts en of andere rechten hebbende dit dan kunnen herhalen
Jij moet echt nog even duiken ion hoe copyright wetgeving werkt. Het enkele feit dat iets 'publiek toegankelijk is' maakt nog niet dat het copyright is vervallen.

Als je een boek koopt staat daar óók in wat je er wel en niet mee mag doen: dat is ten overvloede want alles wat daar in staat is al door copyright bepaald zie een voorbeeld hier onder:
Copyright © 2010 by Bill Shakespeare

All rights reserved. No part of this publication may be reproduced, distributed, or transmitted in any form or by any means, including photocopying, recording, or other electronic or mechanical methods, without the prior written permission of the publisher, except in the case of brief quotations embodied in critical reviews and certain other noncommercial uses permitted by copyright law. For permission requests, write to the publisher, addressed “Attention: Permissions Coordinator,” at the address below.
Maar nogmaals dat is ten overvloede. Alles wat daar in staat is al bepaald in de wet.

[Reactie gewijzigd door ronaldvr op 22 juli 2024 22:28]

Nee dat beweer ik ook niet nog beweert Open AI dat.

Normaliter geld in zo'n geval een notice and takedown beleid tenzij NYT kan aantonen dat OpenAI zelf die copyright data heeft opgehaald ipv via-via heeft verkregen zonder bronvermelding. (ie. dat OpenAI willens en wetens copyrighted informatie integraal heeft verspreid)

het punt is dat dit niet geld wanneer NYT die informatie eerst zelf invoerd (omdat zij als rechthebbende het zelf hebben ingevoerd en daarmee gebruik, impliciet goedkeurend) of dat het via-via andere bronne online binnengkomen is. dan is in de meeste gevallen een notice and takedown beleid van toepassing. Net zoals bijv Tweakers niet direct en onmiddelijk verantwoordelijk is wanneer gebruikers copyright materiaal plaatsen. tenzij dit na kennisgeving niet wordt verwijderd.
Je zegt:
dat "onrechtmatig" in je laatste zin valt nog te betwisten. Als die artikelen elders volledig gepubliceerd zijn bijv.
Dat eerste stuk is dus volledig nonsens. Het tweede is dat vermoed ik ook, je geeft copyright niet impliciet weg dat bestaat volgens mij gewoonweg niet, ook daar zijn rechtszaken over geweest, en daar kwam denk ik uit dat je gewoon altijd rechthebbende blijft tenzij je expliciet en specifiek toestemming hebt gegeven. En de 'normale' vrijwaring die op sites als facebook en dergelijke staan zijn alleen maar geldig binnen het domein van facebook en dergelijke zelf om te voorkomen dat ze in overtreding van de wet zijn als ze bijvoorbeeld een backup maken. Het is niet toegestaan om met die vrijwaring zonder jouw toestemming een andere publicatie er van te maken (ze mogen dus niet jouw facebook pagina in een advertentie voor facebook gebruiken)
Is programmeren hetzelfde als hacken? Nee, het ligt er aan hoe je het gebruikt.
Ooit was programmeren == hacken. Dat is in de loop der tijd veranderd, maar de term hacken was ooit een synoniem voor programmeren.
nog steeds gaan de meeste "hackathons" om programmeer wedstrijden, en niet het hacken van beveiliging.
veel mensen kijken tegenwoordig raar op als ik zeg dat ik naar een hackathon ga....
Deze verweren van OpenAI doen volgens mij allemaal niet ter zake. Het gaat om één vraag: 'heeft OpenAI wel of niet de artikelen van NYT gebruikt om het model te trainen en daarmee de auteursrechten geschonden?'

Het maakt niet uit hoe de NYT hier achter is gekomen, of dit stukje van het artikel gratis te lezen was, etc.

Ik ben dus erg benieuwd hoe een rechter naar deze verweren zal kijken.
Dat doet zeker wel ter zake!

Als jij bij een legale fietsenmaker een 2e hand fiets koopt, die na 2 weken gestolen blijkt te zijn. Maakt het dan uit dat jij je verweert dat je het bij een normale en legale fietsenhandel gekocht hebt?

OpenAI zegt dat ze de data via-via hebben (mijn woorden: en dus niet wisten dat het van de NYT was) en daarnaast de NYT zelf artikelen ingevoerd heeft.

Lijkt mij zeker wel relevant.
De omstandigheid doet er toe, maar niet zoals jij of openai stelt. Openai is hier de fietsenmaker. En die heeft ook niet zomaar een recht om een fiets te kopen, te bewerken of zelfs door te verkopen. Dat het aan het bedrijf werd aangeboden is daarin niet zomaar een uitzondering. Men hoort het niet zomaar opportunistisch te accepteren alsof men zelf meer recht heeft dan de rechthebbende. Daarbij toont openai niet aan moeite te doen te controleren of men toestemming van de rechthebbende heeft, in plaats van met een willekeurige ander van doen te hebben. Wat men kennelijk probeert af te schuiven alsof wie het beschikbaar stelt hun eigen laksheid recht zou geven. Het recht van een werk hoort gewoonlijk aan een enkeling, niet zomaar aan alle miljarden anderen die er een slatje uit proberen te slaan. Dus opportunistisch accepteren gaat net zo min zomaar op als opportunistisch gebruik van andermans werk.
Ik denk dat het toverwoord 'redelijkheid' of 'billijkheid' gaat zijn. Als zij wél enige moeite gedaan hebben, dan vervalt het hele NYT verhaal. Als je petabytes aan data verkrijgt via openbare bronnen, hoe ga ik je godsnaam controleren of alles wel legaal is? Daar zit een mate van redelijkheid in toch? Het is niet alsof ze de NYT site zelf hebben geplunderd.

Stel dat ze legaal Reddit leegtrekken, waar iemand een stukje tekst van NYT in heeft gekopieerd en Reddit in hun voorwaarden heeft staan dat je geen tekst met copyright mag posten (en dit desgevraagd verwijderd), dan is het legaal gezien het probleem van de gebruiker\de persoon die het post.

En dat nog los van het feit dat NYT schijnbaar zelf artikelen ingevoerd hebben! (ervan uitgaande dat dit klopt)
Enige moeite is niet snel genoeg. Daarom is er juist bescherming van de rechthebbende. Dat een bedrijf voor een bedrijfsmodel kiest dat het zichzelf lastig zou maken de rechtmatigheid vooraf te controleren is niet zomaar een redelijke verlaging van verantwoordelijkheid, laat staat dat het zomaar meer recht geeft dan de rechthebbende. Dat zou anders wel heel makkelijk zijn: we wilden geld verdienen door ingewikkeld te doen met andermans werk, dus heeft de rechthebbende het gevolg maar te slikken.

Het verweer is ook niet dat nytimes het zelf ingevoerd heeft. Openai beweert dat ze iemand betaald zouden hebben die de werking heeft uitgeprobeert. En zelfs al zou dat zo zijn, het invoeren geeft op zich geen recht. Als jij je werk aan een bedrijf toont of een kopie stuurt kan die ook niet zomaar doen alsof jij als rechthebbende geen recht meer hebt omdat het bedrijf meent dat hun eigen voorwaarden tellen boven de wet of andermans voorwaarden.
Je bent hiermee onredelijk. Ze zouden een puntje hebben als hun site gescraped zou zijn, maar het gaat over data via derden. Daar waar de voorwaarden van aangeven dat het daar niet had mogen staan.

OpenAI is natuurlijk er van uit gegaan dat er geen illegale data in de bron zit. Ga jij alle sites die jij leest controleren of hun verkregen data wel legaal is? Jij zegt nu dat je dit wel zou moeten doen.

Als je een (gratis) account gebruikt waat héél specifiek staat dat ze input gebruiken om het model te trainen of eigen input voor het eigen account te (her)gebruiken - ja. Dat is juist de kern van hun 2e punt.
Sinds wanneer zijn voorwaarden van een bedrijf dat vooral eigen gewin na streeft redelijker dan de wetsbescherming en voorwaarden van zij die de rechthebbende daaruit haalt? Want dat soort 'redelijkheid' is duidelijk niet bedoeld om recht te doen maar heeft juist de bedoeling rechten te negeren en buigen.

De wet is in dit geval beschermend naar de rechthebbende, niet het bedrijf dat zowel graag eigen recht over andermans werk claimt om er zelf beter van te worden en de werkelijke rechthebbende te benadelen. Er is voor zover ik weet geen wet die stelt dat opportunistisch handelen met andermans werk boven het recht van de rechthebbende gaat.
Nogmaals. Ik herhaal.

OpenAI haalt data uit een bron die (op papier) rechtenvrije data bevat. Dat een gebruiker van het platform daar als niet rechthebbende NYT-artikelen op plaatst, daar dan OpenAI dus niks aan doen. Zij hebben naar eer en geweten data uit een bron gehaald waarvan je uit moet kunnen gaan dat het legaal is.

Ander voorbeeld, voor het geval dat het nog niet duidelijk is.
Als jij een harde schijf 2e hands koopt en de originele eigenaar heeft er een piratebay-gedownloade film op staat in de C:\Windows folder, en jij weet dat niet, dan ben jij niet verantwoordelijk. Al is in dit voorbeeld het bewijs wat lastig, ben jij niet degene die illegaal bezig bent geweest, ondanks dat je in het bezit van de illegale film bent.
Er zitten natuurlijk haken en ogen aan het voorbeeld, maar het gaat om het principe.
Je stelt dat men er vanuit zou mogen gaan dat en bron rechtenvrij omdat men er vanuit gaat dat dit zo is. Dat kan niet. Afgezien dat dit naar zichzelf verwijst en daardoor niet bewijst (theorie als mening staat niet zomaar boven de wet en andermans rechten), is dit ook tegenstrijdig met wat openai stelt. Deze stelt namelijk niet dat de bronnen perse of zelfs grotendeels rechtenvrij vannzichzelf zijn.

Openai stelt dat ze niet in kunnen staan dat het voldoet aan rechtenvrij zinn (wat dus duidelijk maakt dat ze bewust copyricht schenden zolang het kan) en men stelt daarbij dat ze alle bronnen beschouwen alsof ze alleen 'vrije' kennis verwerken. Maar dan hoort men nog steeds aantoonbaar te maken dat de bron rechtenvrij is. Want als je een bron eenmaal gebruikt kan de inhoud wel ala kennis beschouwd worden, maar men gebruikt als eerste de bron. De kennis is dus niet zomaar vrij beschikbaar. Met een reden: deze is met moeite vergaard en verwoord. Daarom is het een werk met rechten voor de schrijver. Wat openai probeert is de nytimes en andere bronnen slaafs te misbruiken door die rechten en moeite te negeren alsof het enkel om vrije kennis gaat. Dat is als stellen dat jij vele uren en geld werkt om een tekst te schrijven en ieder willekeurig bedrijf je werk zonder betaling en zonder jou toestemming maar op kennis mag leegzuigen om het bedrijf er waardevoller mee te maken. Dat is niet het uitgangspunt van de bescherming. Het uitgangspunt is niet 'gebruiken tenzij', het uitgangspunt is 'beschermd tenzij'. Het tenzij toont openai niet aan met hun omgekeerde uitgangspunt.

Bij die harddisks hoort hoort een bedrijf zowel geen harddisk zomaar te accepteren als geen inhoud te kopen waarvoor men niet kan instaan. Dat is niet simpel af te doen met een 'wist ik niet', men hoort zeker genoeg te zijn. Dus vkkraf aantoonbaar hebben dat er genoeg is gedaan andermans recht niet te schenden. In het geval van een gebruikte harddisk dus gewipde disk kopen omdat het doorzoeken te lastig zou zijn. Dar is ook waarom de AVG nog streng is met aantonen : moeite is geen reden tot onwetendheid en rechten schenden andermans gegevens toch maar te verwerken. Laat staan om de inhoud opzettelijk maar te gebruiken.
Als jij bij een legale fietsenmaker een 2e hand fiets koopt, die na 2 weken gestolen blijkt te zijn. Maakt het dan uit dat jij je verweert dat je het bij een normale en legale fietsenhandel gekocht hebt?
Als je er daar een beetje gangbare prijs voor hebt betaald? Jazeker dan maakt dat uit. Heling kan alleen strafbaar gesteld worden als je er redelijkerwijs van uit kon gaan dat het goed gestolen was. Het feit dat het een legale fietsenmaker is maakt daarin al vrij veel uit daar je daarvan mag verwachten dat hij geen gestolen goederen bewust verkoopt (en jij ze dus ook niet bewust koopt)...
Precies. En als ik dit lees is de verdeling van OpenAI precies dit punt. Alleen dan van een stuk tekst ipv een fiets.
Als jij bij een legale fietsenmaker een 2e hand fiets koopt, die na 2 weken gestolen blijkt te zijn. Maakt het dan uit dat jij je verweert dat je het bij een normale en legale fietsenhandel gekocht hebt?
Ja, dan ben je namelijk te goeder trouw, en mag de je fiets inderdaad houden.
https://www.wetrecht.nl/te-goeder-trouw/
Juist, en als ik de OpenAI mag geloven dan is dit dus het geval.
Heling is niet hetzelfde als auteursrecht schenden. Je mag niet teksten van anderen gebruiken die auteursrecht, ongeacht waar je de teksten gevonden hebt. Het is dus irrelevant waar OpenAI denkt dat het vandaan komt.

[Reactie gewijzigd door separhim op 22 juli 2024 22:28]

Natuurlijk maakt dat uit. Een rechter kan NYT op hun donder geven en zeggen dat ze er op een civiele\onderlinge manier uit moeten komen ipv de rechtsgang te belasten.

Als NYT de paar artikelen had aangegeven om te laten verwijderen hadden ze dat wellicht gewoon gedaan. Het zou ook mogelijk kunnen zijn dat ze alle artikelen beschikbaar stellen voor een copyright check.

Maar als OpenAI gelijk heeft, dan is NYT zelfs zo ver gegaan dat ze zelf de artikelen hebben aangeleverd om vervolgens te roepen: "kijk eens, ze hebben onze artikelen!"
Precies dit. Ik kan als ik wil hele stukken tekst, of complete artikelen van de Times afhalen en op een openbaar forum of website knallen en als OpenAI's scraper daar toevallig langskomt en dat vind, dan is het voor het LLM niet duidelijk dat het van de NYT vandaan komt en dus ook niet of het om auteursrechtelijk materiaal betreft. Dat kan je OpenAI niet kwalijk nemen. Zo uniek als de NYT zou willen dat haar artikelen zijn, zijn ze dat niet (altijd).
Oh, dat zou Brein vast ook een goed excuus vinden - 'ja, ik heb deze mp3's op een openbaar forum gevonden, dus hoe kon ik nu weten dat die illegaal waren'

Die vlieger gaat niet op, ben ik bang.
Ik snap je vergelijking en ben het daar deels mee eens, maar stel het gaat over een stuk tekst waarvan mij niet duidelijk is of dat door degene die het geplaatst heeft origineel gemaakt is, of dat het (deels) berust op auteursrechtelijk materiaal van een ander. Mag je het mij dan aanrekenen dat ik het verspreid, als waar ik het vandaan heb niet duidelijk aangeeft, of onmogelijk maakt, dat dat materiaal niet gekopieerd mag worden?
Je moet daarbij ook je gezond verstand gebruiken. Dat is vaak wel iets waar de rechtspraak van uit gaat.
Nee, dat gouden beeld in het museum stond daar wel als enige zonder glazen kap er overheen. Maar de foldertjes in dezelfde ruimte mocht je wel meenemen, maar dat beeld niet.
Blijkbaar is versimplificatie niet altijd even duidelijk en krijg ik (misschien terecht) daarom een 0 moderatie. Jouw voorbeeld gaat uit van een vrij duidelijk uniek stuk, het gouden beeld in een museum.

Ik zet daar dit keer tegenover een voorbeeld van een onbeduidend stuk tekst, wat oorspronkelijk uit een boek van een nog onbekend schrijver uit Suriname komt, maar ik die tekst op een nieuw A4-tje vond in een bos bij mij achter het huis. Hoe duidelijk is het dat het om een uniek auteursrechtelijk stuk gaat als dat uit mijn bronmateriaal ook niet met mijn gezonde verstand duidelijk is? Mag ik het wel, of niet gebruiken in mijn presentatie over mens en emotie?
Letterlijk repliceren mag niet bij mijn weten, want creatief werk valt by default onder het auteursrecht.
Als het niet creatief is - te simpel bijvoorbeeld - dan niet.
Maar die lat ligt behoorlijk laag.
Point taken en terecht gemaakt. Het begrip 'creatief werk' kan diffuus zijn.
Een lijst met uitslagen van de F1 races in 1984, informatie wat op veel plekken te vinden is en ook als auteursrechtelijk stuk (er stonden 30 woorden van de journalist bij) in een krantje stond, wordt al een stuk minder creatief. Ik denk dat de NYT in dit geval best een punt heeft, maar waar houdt het op een uniek creatief stuk te zijn en hoeveel moeite moet je ervoor doen om dat uit te zoeken?
En die 20 exact dezelfde gouden beelden die over de hele wereld verspreid in het openbaar te vinden waren? Ik vond er laatst eentje in de sloot, ik dacht ik maak er een kopietje van en heb die meegenomen.
Het principe van rechthebben is dan duidelijk: als je niet weet of je recht hebt hoor je dat vooraf te controleren. Waarbij die grens hier nog een stuk duidelijker is, aangezien openai het werk hoe dan ook niet zomaar zelf gemaakt heeft en een ander dus rechthebbende is. En het feit dat gebruikers tekst leveren maakt ze ook niet zomaar rechthebbende. Dus ook daar valt niet zomaar vanuit te gaan als bedrijf.
Dat doet niet ter zake. Zelfs al zet de Times gratis artikelen op zijn website, dan nog wil dat niet zeggen dat je die zomaar mag gebruiken om je eigen AI chatbot mee te trainen.

Dit teksten zijn eigendom van de Times, en zonder expliciete toestemming mag OpenAI die nooit gebruiken, gratis of niet.
Ik zeg nergens dat dat wel mag. Ik geef aan dat OpenAI niet altijd kan weten waar de oorspronkelijke tekst vandaan komt.
Dat is het probleem van een Sleepnet methode voor het vergaren van je data. Je kan nooit weten wat de oorsprong is van die data en of die data bepaalde beschermingen geniet die niet direct zichtbaar zijn bij het vergaren van de data.

Dat is een risico die je als bedrijf bewust neemt en kan je ze dus prima kwalijk nemen.
Ik ben het volledig met je eens, maar zonder wet- of regelgeving specifiek op het gebied van LLM/AI training (want we willen denk ik niet terug naar een wereld zonder AI), zullen deze scenarios en uitwassen, blijven terugkomen.
Maakt het dan uit dat jij je verweert dat je het bij een normale en legale fietsenhandel gekocht hebt?
Ja natuurlijk.... :? Een fiets van notabene een fietsenmaker kopen is precies het verweer wat telt....
Niet zo'n geweldig voorbeeld. Als jij ter goede trouw een 2e hands fiets bij een fietsenwinkel koopt, dan zal de politie/rechter je niet alteveel problemen gaan bezorgen. De fiets gaat echter wel terug naar de wettige eigenaar.

OpenAI heeft van artikelen geleerd die niet vrij toegankelijk waren. De NYT heeft dit wereldkundig gemaakt, maar denk niet dat NYT de enige is waarvan OpenAI heeft genomen zonder vergoeding. En OpenAI wil alle opgedane kennis niet uit hun model halen. Maar ook niet betalen.

Het ene of andere zal moeten gebeuren, want OpenAI heeft niet in goede trouw gehandeld. Het boeit voor geen meter welke redenen ze daarvoor aandragen.

Nu denk ik niet dat OpenAI de enige LLM is die zich hieraan schuldig heeft gemaakt. Maar zij zijn wel de meest kapitaal-krachtige organizatie. En Altman is echt wel slim genoeg om te weten dat "hoge bomen veel wind vangen" en dat men daarom zichzelf legaal gezien beter in had moeten dekken, aangezien zij maar wat graag hoog van de toren blazen met ChatGPT en daaruitvolgende diensten.

Welnu, zoals ik de laatste tijd heb meegekregen, is dat men tegenwoordig liever modellen traint met dee LLM's gengenereerde data, aangezien deze vaak betrouwbaarder blijkt dan door mensen gegenereerde data. Als meerdere LLMs deze praktijk doorvoeren, dan heb je hoofd van een LLM in ieder geval flink wat minder legaal gezeur aan je kop.
Als het model rechtstreeks herdistributie doet van auteursrechtelijk beschermd materiaal, dan wordt dat een heel lastige zaak voor OpenAI omdat je dan vrij letterlijk het auteursrecht schendt. Als het alleen gaat om intern gebruik - voor het trainen - dan zou het kunnen dat er sprake is van schending van het auteursrecht, maar dat is geen uitgemaakte zaak.

Het verweer is in die zin wel relevant omdat het wel een goede indicatie is dat er geen intentie was bij OpenAI om externe distributie van auteursrechtelijk beschermd materiaal te doen.

Voor dat trainen hebben ze natuurlijk ook nog al die data van NY Times moeten kopieren naar verschillende mensen en naar veel machines. Dat zou ook nog weleens lastig kunnen worden voor OpenAI, maar is wel een andere orde van inbreuk.
Misschien interpreteer ik het niet goed, maar volgens mij beweert OpenAI dat de NYT eerst zelf het artikel aan ChatGPT heeft gegeven, en vervolgens heeft gevraagd in hetzelfde gesprek. Waarschijnlijk niet zo simpel als ik het nu zeg, maar meer het principe.

Dan kan ChatGPT dus tekst teruggeven die niet gebruikt is voor het trainen van het model.
Dit was inderdaad ook mijn gedachte. Maar juridisch zal het vast zo zijn, en iemand anders kan dit vast better uitleggen dan ik, dat Open AI claimt dat je niet bij iemand eerst mag inbreken om te bewijzen dat diegene iets heeft gestolen.

Maar om mijn vergelijking door te trekken, is het gebruik van "system prompts" waar Open AI nu NYT van beschuldigd volgens mij het equivalent van: bij het raam naar binnenkijken en zien dat daar je fiets / iphone / etc. ligt. Of wellicht zelfs naar de politie gaan om een advertentie op Marktplaats te tonen.

Benieuwd of iemand mijn vergelijkingen naar een iets juridisch hoger niveau kan brengen hoeveel kans Open AI maakt met dit verweer :)
Maar om mijn vergelijking door te trekken, is het gebruik van "system prompts" waar Open AI nu NYT van beschuldigd volgens mij het equivalent van: bij het raam naar binnenkijken en zien dat daar je fiets / iphone / etc. ligt. Of wellicht zelfs naar de politie gaan om een advertentie op Marktplaats te tonen.
Ik denk dat dit wel redelijk in de buurt komt van een passende vergelijking. Misschien nog dat je de tuin inloopt om door het raam te kijken terwijl je net hebt getekend voor voorwaarden waarin staat dat je dat eigenlijk niet mag doen...

Grootste verschil zit hem denk ik eigenlijk in het verschil tussen fysieke goederen/eigendom en auteursrecht..Zie ook de reeds eerder aangehaalde verwijzingen naar de indexering van Google en soortgelijken van teksten en de voorbeelden ervan.
de vergelijking gata mank nadat NYT eerst zelf (delen van) die Artikelen al sinput in het model heeft gevoerd om dan vervolgens heel veel moeite te doen om ze woord voor woord er weer uti te krijgen en dan te claimen "kijk OpenAI breekt copyright!"
Dat neem je nu aan op basis van hoe het artikel hier is toegelicht maar de NYT claimt dat er al content in het model zat. Thats up to the judge ;)
Maar iedere journalist is toch getraind door het werk van andere journalisten? Door te trainen schend je geen copyright. Alleen als je het gaat copieren.
Alleen als je het gaat copieren.
Wat ChatGPT dus zeker doet.... maar dan heb je nog steeds gelijk dat het trainen wel zou mogen. Alleen mag deze dan niet de teksten 1 op 1, aan de vrager tonen (zo stelt NYT). Maar met bronvermelding zou dat toch wel mogen denk ik dan.

De ellende is - vermoed ik - aantonen dat ChatGPT de data heeft gebruikt zonder daarvoor een fee te betalen. Maar een enkele account bij NYT is dan al voldoende om te stellen dat het fee wel betaald is....

Probleem is gewoon: niemand heeft alleenrecht op informatie (en zou dat ook niet mogen hebben). Als je dat wel wilt [dat alleenrecht] dan moet je het niet publiceren....
Even een denkoefening. Stel ik neem een abonnement op de NYT en ik lees de krant. Op dat moment neem ik informatie tot me en leer ik nieuwe dingen. Als ik een bedrijf heb en er komt een vraag van een client en ik geef een antwoord dat ik in de NYT heb gelezen, en ik geef niet aan dat het uit de NYT komt, ben ik dan ook in overtreding?
Ik ben hier zelf nog niet uit. Het komt er denk ik op neer hoe een AI gedefinieerd word. Kan een AI bijvoorbeeld ook een rechtspersoon zijn, zoals jij en ik? Een AI traint zichzelf, net als een mens, alleen niet op precies dezelfde manier. Maar de manier waarop, zou niet moeten definiëren of iets wel of niet mag.

Lastig....
In de voorwaarden van de krant staat dat je het niet mag gebruiken zoals OpenAI het wel gebruikt. Zij baseren zich niet op de kennis die de content (zou kunnen) vormen maar op de daadwerkelijke content zelf. Het is een LLM for a reason..Het feit dat ze er ook letterlijk de tekst letter voor letter uit kunnen laten spuggen is natuurlijk leuk voor de bewijslast ansich.
Het feit dat ze er ook letterlijk de tekst letter voor letter uit kunnen laten spuggen is natuurlijk leuk voor de bewijslast ansich.
Ze geven dus aan dat dit enkel kan door "hacking" van de NYT (waarbij de NYT delen van het artikel zelf aan ChatGPT heeft "gevoerd"). Het trainen op de data van NYT en het reproduceren van die data zijn twee verschillende dingen, en OpenAI verdedigt zich met deze claims enkel tegen dat laatste.
Het is inderdaad een interessante vraag of een computer niet gewoon de krant zou mogen lezen en de kennis die het dan op doet zou mogen verwerken. Echter gaat het er hier om dat het de tekst letterlijk heeft onthouden en ook hele artikelen als output kan geven.
Snap ik. Maar je kunt je ook voorstellen dat ik zo slim ben (I wish!) dat ik letterlijk teksten kan onthouden. Zo´n Sheldon type. Gaat een beetje ver misschien, maar het is wel een interessant gedachte-experiment. En een beetje AI zou de tekst natuurlijk kunnen parafraseren, zoals wij mensen dat ook gewend zijn. Ik ben eigenlijk best wel benieuwd naar deze rechtszaak. Eigenlijk heb ik nu ook zin in een college filosofie over dit onderwerp :P

edit: paraferen => parafraseren

[Reactie gewijzigd door BBRabbiB op 22 juli 2024 22:28]

Als jouw antwoord aan dat bedrijf print is (gedrukte tekst) en letterlijk een stuk van een artikel is. Dan ben je in overtreding.
Daarmee zeg je dan ook dat als je sowieso geleerd hebt van artikelen van de NYT , maar je parafraseert het, zodat het niet letterlijk is, je niet in overtreding bent? Het probleem zit hem niet bij de letterlijk gedrukte tekst.. Deze wordt (waarschijnlijk) aangedragen als bewijslast. Het probleem is dat NYT gebruikt wordt voor het leren van de AI. Dat staat dus los van of je de tekst letterlijk opschrijft of niet.

edit: typo

[Reactie gewijzigd door BBRabbiB op 22 juli 2024 22:28]

ChatGPT leert toch ook van input van gebruikers? Wat gebeurt er als ik zelf een artikel van de NYT invoer in een prompt? Dan hebben ze wel het artikel, zonder het zelf de scrapen, of mis ik hier iets?
Nee ChatGPT leert niet online. Wel binnen een sessie, maar het model erachter wordt niet geupdate vanuit user-sessies. Daar is het veel te veel data voor die potentieel van lage kwaliteit of zelfs schadelijk is.
Hmm, als ik de announcements lees omtrent de enterprise mode van ChatGPT dan staat er o.a. "OpenAI also revealed a ChatGPT Business subscription that will keep users' input out of its training data", dat zou toch impliceren dat user input blijkbaar onderdeel is van de trainingdata?
Dat klopt, ze geven daar geen garanties over en je moet dus nooit vertrouwelijke informatie in een prompt verwerken (dat zou ik voor de betaalde versie ook afraden). Echter verwerken ze gigantisch veel prompts per dag en als die niet van voldoende kwaliteit zijn kun je daar in de praktijk helemaal niets mee. Hooguit dat ze samples van de gestelde vragen nemen en vervolgens labels gaan vergaren voor outputs op die vragen bij trusted users.
Dan zit er nog steeds auteursrecht op dat artikel. Net zoals wanneer een gebruiker een volledige film upload naar youtube; dat wil niet zeggen dat youtube die film dan zomaar aan iedereen mag laten zien.

Dat het lastig te controleren is is een ander punt
Sterke verdediging. Maar gaat OpenAI dan inzicht geven in alle gegenereerde data dat er nooit plagiaat wordt gepleegd? Want als je toegeeft dat je wel traint op de data van NYT dan lijkt me dat de bewijstlast dat je nooit inbreuk pleegt bij OpenAI ligt.
Dat is wel een belangrijk punt waarvan ik mij afvraag of het überhaupt mogelijk is. Kan je de bron van taalmodellen allemaal van een bronvermelding (of meervoud) voorzien?

En zo niet, moeten we dat gaan verplichten? En wat als de bron ophoud te bestaan? Geloven wij het model dan nog dat de bron ooit bestaan heeft?
Die verplichting is er al onder het recht tot citeren.
bijhouden welke weights waar vandaan komen is op zich mogelijk, maar dat maakt de modellen wel vreselijk veel groter.
Daarom lijkt de verdediging ook niet sterk. Ze doen vooral suggestieve beweringen die op zich niet tonen dat ze zelf rechtmatig handelden. De beweringen gaan vooral over de indruk wekken dat de ander zich niet aan 'voorwaarden' of ethiek zou hebben gehouden om hun aanklacht minder ernstig te laten lijken. Waarbij ze ook nog tonen dat ze recht van anderen en voorwaarden zelf niet perse maar respecteren.
In de officiële reactie klaagt OpenAI veel over het gebruik van de New York Times van bijvoorbeeld "System" prompts en ze claimen; "Normal people do not use OpenAI’s products in this way".

Hier heb ik nogal mijn vraagtekens bij, als gebruikers een paywall van een welbekende krant of publicatie willen proberen te omzeilen m.b.v. ChatGPT zijn sommige van de methoden die OpenAI in hun betoog omschrijft redelijk voor de hand liggend in mijn ogen.

En geen van de problemen met de methoden die de NYT gebruikt heeft lijken direct te weerleggen of OpenAI nou wel of niet data van de NYT heeft gebruikt in de trainingdata.
Zelfs as ze targeted 10.000 attempts nodig hadden om het aan te tonen, als blijkt dat er daadwerkelijk onrechtmatig gebruik is gemaakt van copyrighted materials dan is dat toch het belangrijkste punt lijkt me.
Momenteel is het nog niet duidelijk of AI training het copyright schendt. In het verleden was het bij Google en het gebruik van hele boeken niet zo.
Mits je je aan de regels rond citaatrechten houdt, en dat doet OpenAI niet. Je kunt immers van LLM niet vragen hoe de text opgebouwd is of wie de oorspronkelijke schrijver was.
jawel dat kan wel, dat is nu net wat de NYT heeft bewezen met haar acties. ;)

OpenAI heeft ook nooit beweerd dat zij zelf schrijver zijn van de content, integendeel er is algemeen bekend dat ze dat niet zijn. Dus is het geen plagiaat of auteursrechten schending in zuivere vorm. Dan kan je enkel klagen dat het niet netjes volgens de correcte wijze is geatribueerd aan de rechtenhouder. daar zou NYT mischien nog kans mee maken maar dat is natuurlijk niet sensationeel nieuws :)
Momenteel is het nog niet duidelijk of AI training het copyright schendt.
Uit deze zaak zou wellicht jurisprudentie kunnen voortkomen op dit vlak in relatie tot AI. Ben erg benieuwd waar dit schip zal stranden.
Ik vermoed dat de enige praktische oplossing is om training gewoon toe te staan, omdat het de facto onmogelijk is om dit te voorkomen. Ook zouden de landen die hierop proberen te handhaven zichzelf in de voet schieten, omdat een land als China hun AI gewoon vrolijk op alle bestaande content zou trainen.
Ik snap je gedachte. Ik ben geen jurist, maar denk dat voor de hand liggend misleidend of ongeautoriseerd niet uitsluit. Omdat je met LLMs 'praat' lijkt het meer op kroegpraat dan op hackpogingen, maar ik denk dat een rechter nog steeds kan spreken van computervredebreuk. Het wetboekt zegt daar namelijk het volgende over:
"opzettelijk wederrechtelijk binnendringt in een geautomatiseerd werk voor de opslag of verwerking van gegevens, of in een deel daarvan, indien hij
a. daarbij enige beveiliging doorbreekt of
b. de toegang verwerft door een technische ingreep, met behulp van valse signalen of een valse sleutel dan wel door het aannemen van een valse hoedanigheid"
https://www.om.nl/onderwe...rtikel-computervredebreuk
Dus OpenAI geeft hier toe dat ze NYT hebben gebruikt om hun bots mee te trainen?
Volgens mij staat er dat NYT zelf de data geeft aangelevert.

Daarnaast gaat het vooral over data via-via. Waarbij (mijn woorden) OpenAI ook niet wist dat het van NYT kwam.
Quote:
Het gaat daarnaast niet om volledige artikelen, maar slechts om delen van artikelen die op sites van derden al gratis te lezen zijn, claimt OpenAI.
Helaas is dat geen excuus.
Als ik een afbeelding pak van een website waar een CCBY licentie staat maar deze blijkt eigenlijk auteursrechtelijke beschermd door de daadwerkelijke auteur met een andere licentie krijg je ook gewoon een boete.
Waarom zou je daar een boete voor krijgen? Ja het is onrechtmatig en op het moment dat het kenbaar wordt gemaakt moet je het onrechtmatig gebruik meteen stoppen, maar een boete is niet aan de orde. Je deed het namelijk onbewust in de volle overtuiging dat het wel de goede licentie had. Pas als je daarna door gaat met gebruik wordt het een echt probleem voor je.
ChatGPT traint ook op de data die je gebruikt om te zoeken toch? Als NYT bots gebruikt om artikelen een paar miljoen keer als zoek actie er in te gooien puur om te kunnen beweren dat ChatGPT die data 'steelt' is dat vergelijkbaar met Brein die een film van een klant van hun hernoemt naar een legaal te downloaden film of documentaire, op The Pirate Bay zet, en dan mensen die het downloaden aanklaagt.

Nou kan je zeggen dat ChatGPT alle nieuwssites en andere subscription based sites moet scannen wereldwijd om elk beetje data te kunnen checken om zeker te zijn dat ze niet auteursrechten schenden wanneer iemand anders dat in het systeem zet. Maar stel je hebt een geheim overheids document en iemand met toegang daartoe knalt het net zovaak in ChatGPT tot de data wordt gebruikt om het systeem te trainen. Is het dan ChatGPT die die data heeft misbruikt en/of 'gestolen', of is dat de schuld van de persoon die het er in heeft gezet? Wanneer je van de buurman je fiets in zijn schuur mag zetten en je zet er gestolen goederen neer, is hij dan verantwoordelijk daarvoor of ben jij nog altijd de verantwoordelijke?
Als OpenAI hun modellen zouden trainen met de prompt, dan zou ChatGPT inmiddels allemaal nazi troep uitspuwen.
Ze kunnen filteren op dat soort data, misinformatie kan geblokkeerd worden op basis van dingen die het systeem 'weet' dat wel of niet waar zijn. Maar als de informatie allemaal correct lijkt te zijn kan het alleen maar zien dat het een artikel is van de NYT als het dat artikel al kent. Dus zeker als het achter een paywall zit en ze het er handmatig inpompen terwijl ChatGPT zelf geen toegang heeft tot dat deel van de NYT site kan het niet zien dat het copyrighted is. Geen idee of dat inderdaad het geval is, maar dat zou verklaren waarom ze het zien als 'valsspelen' door de NYT. Dat, of dat ze schuldig zijn en het gewoon proberen te ontkennen.
Hebben ze dat ontkend dan? Het gaat er om dat je heel erg je best moet doen en door diverse hoepels moet springen om die data er weer uit te krijgen.
Daar draait de rechtszaak echter niet om, die gaat over het feit dat met beschermde data is gebruikt als trainingsmateriaal zonder toestemming.
Ze maken meerdere claims. Eentje is inderdaad dat ze de data voor training hebben gebruikt (waarschijnlijk is dit linksom of rechtsom gewoon waar, zelfs als het niet by NYT zelf vandaan kwam), het andere is dat NYT artikelen letterlijk door ChatGPT worden gereproduceerd. Dat laatste trekt OpenAI nu in twijfel, door te stellen dat NYT allerlei kunstgrepen uit heeft moeten halen om dit voor elkaar te krijgen (waaronder het geven van delen van het artikel als input).
Als OpenAI dat kan bewijzen maak ik me meer zorgen over het feit dat ze alle prompts opslaan dan over hoe NYT bewijst dat hun artikelen als bron zijn gebruikt.
Ze kunnen het bewijzen door te laten zien hoe je met normale zoekopdrachten niet dat soort resultaten krijgt. NYT zou dan moeten aantonen dat ze die resultaten wel met normale zoekopdrachten hebben gekregen.
Dat is niet hoe bewijsvoering werkt. Je kunt immers niet aantonen dat uit een oneindige pool mogelijkheden iets niet kan resulteren.
Dat het die (zeer lange) stukken tekst heeft gememorizeerd toont aan dat er echt nog zeer fundamentele problemen zitten in de methoden die gebruikt worden om deze taalmodellen te bouwen. Het zou echt never nooit moeten gebeuren, wat voor prompt dan ook, dan het trainingsdata als output gaat geven.
Interessant, dit gaat ook over wanneer is veel, té veel? Als ik een AI vraag in 5.000 woorden een samenvatting te geven van een boek, dan kan je denken dat is prima, maar kunnen er hele stukken in zitten die 1 op 1 overeenkomen met het origineel, als dat maar 10.000 woorden bevat. Daarvoor heeft het LLM het complete boek moeten hebben gehad, waar de bron misschien nergens zegt dat het van auteur A of B is, het was gewoon tekst die ergens openbaar te vinden was. Het taalmodel kan je niet de schuld geven dat het niet elke stuk tekst wat ooit onder auteursrecht viel herkent.
Een taalmodel is inderdaad geen persoon. Dus heeft geen verantwoordelijkheid. Die verantwoordelijkheid ligt bij OpenAI. Dat bedrijf moet ervoor zorgen dat alle trainingsdata goed is. Als ze dat niet doen, en gewoon het hele internet geautomatiseerd schrapen, dan zijn zij onzorgvuldig bezig en zijn overtredingen op gebied van auteursrecht / kopieerrecht hun verantwoording.
Goed terecht punt. Dan komt de volgende stap, hoeveel moeite moet OpenAI (of welke andere AI ontwikkelaar ook) dan doen om 100% zeker te weten dat alle gevonden data 'goed' is en geen auteursrecht bevat en dus in productie gebruikt kan worden? Gaan we het als goed bestempelen als je na x-aantal keer zoeken (op welke manier zoeken kan je als goed zoeken beschouwen?) het niet gevonden heeft als auteursrechtelijk? Een NYT artikel is denk ik vrij eenvoudig terug te vinden, maar geldt dat ook bij een verhaal wat ik persoonlijk heb geschreven en 20 keer is gekopieerd en via tig websites is verspreid?

Begrijp me niet verkeerd ik speel hier een beetje als advocaat van de duivel, maar wat mij betreft wordt het steeds duidelijker dat waar het LLM's en AI betreft, we tegen essentiële vragen aanlopen die niet eenvoudig te beantwoorden zijn.
Ja dat is een goede vraag. Maar ChatGPT heeft geen toegang tot informatie op het web. Het neurale netwerk heeft die artikelen dus woord voor woord geinternaliseerd, in plaats van dat het zelf een samenvatting ervan heeft onthouden. Ik bedoel dat daar een fundamenteel probleem zit, want er zouden in de interne representatie geen zinnen moeten zitten (tenzij bijvoorbeeld gezegdes), al helemaal geen paragrafen, laat staan een volledig artikel. Het gebruikt dus niet in de eerste plaats de onderliggende informatie en het staat daarmee heel ver af van 'intelligent'.

Kritische wetenschappers hebben het als een probabilistische papegaai omschreven. De meeste wetenschappers in de machine learnin / AI hebben dat verworpen als goede omschrijving, maar met dit soort observaties kunnen we toch niets anders dan concluderen dat het veel minder inhoud heeft dan veelal wordt gezegd.
Dit is echt hetzelfde niveau als toen X Media Matters aanklaagde en vervolgens toegaf dat Media Matters niks had gedaan wat niet normaal kan met X. Hier precies hetzelfde, "misleidende prompts" en bugs zijn dingen die mogelijk zijn dankzij het coderen van OpenAI zelf, niet iets wat NYT gedaan heeft wat andere gebruikers niet kunnen. Ik hoop dat de rechter die dit ziet snel deze zaak naar de prullenbak verwijst.
Belangrijker. Hoeveel hoepels en trucs je ook nodig hebt om aan te tonen dat OpenAI data heeft gejat maakt niet uit, je kunt het aantonen.

Dit is een beetje als een inbreker die klaagt dat de oorspronkelijke eigenaar van allerlei spulletjes met een trucje heeft kunnen aantonen dat de inbreker die spullen van eigenaar in z'n inbrekershol heeft verstopt. "Ja maar ik had het echt heel goed verstopt! dit is niet eerlijk!"
zaakje is ander als die artikelen elders volledig gepubliceerd zijn bijv. Of zoals ook in dit artikel staat als NYT die artikelen zelf gevoerd heeft aan OpenAI. dat voeren geeft OpenAI dan volledig recht er gebruik van te maken. als je dan vervolgens gaat prompt engineren om dat ertikel er weer rechtstreeks ongewijzigd uit te krijgen dan bewijst dat niks.

om in jouw analoog te blijven, dat is zoiets als dat de "eigenaar" van de spulletjes ze er eerst zelf neerlegt and dan roept "kijk dit zijn mijn spullen jij dief."
dat voeren geeft OpenAI dan volledig recht er gebruik van te maken.
Neen dus, dat recht hebben ze niet. NYT gaat OpenAI niet het recht geven om volledige artikelen te publiceren, dat kun je vergeten. Dat staat niet in hun overeenkomst. Want daarmee zou OpenAI gratis een distributeur worden van NYT. Dan zou NYT failliet gaan. In het auteursrecht is quoten een fair use, zelfs als er auteursrecht op het origineel berust. Vervolgens is het wel netjes dat je naar het origineel refereert.

Wat van belang is, is hoeveel moeite het (experts ingehuurd door) NYT heeft gekost om het gehele artikel uit te laten spugen. Dat schijnt 10.000 tries te hebben gekost. Als het jou (als expert, bijv pentester) 10.000 handmatige tries kost om binnen te komen bij... ik noem eens wat, Tweakers.net... dan is dat substantieel. Je kunt dan niet zeggen dat de deur wagenwijd open stond. Je kunt dan zeggen: Tweakers.net had de beveiliging niet op orde maar dat moet je wel in de proportie zien. Het betreft één artikel en het kostte dus 10.000 handmatige tries. Is dat een reproduceerbare PoC?

Overigens kun je artikelen van New York Times gewoon zonder abonnement lezen met Reader View in Mozilla Firefox of door je voor te doen als een crawler (dat doet archive.today gratis en 'in de cloud' voor jou).
om in jouw analoog te blijven, dat is zoiets als dat de "eigenaar" van de spulletjes ze er eerst zelf neerlegt and dan roept "kijk dit zijn mijn spullen jij dief."
Altijd geestig als mensen een analogie proberen te maken tussen diefstal en auteursrechtenschending :) het is niet hetzelfde, de vergelijkingen lopen mank.
NYT gaat OpenAI niet het recht geven om volledige artikelen te publiceren, dat kun je vergeten
dat is ook nergens gebeurt. het gaat om delen van artikelen, die NYT eerst zelf als input in heeft gegeven of die elders al door anderen gepubliceerd zijn.

de voorwaarden stellen ook dat jij eigenaar moet zijn van d einput en dat je het rech top die input en output behoud dat is waar. maar als jij zelf de input geeft kan je niet klagen dat openAI die heeft gekopieert, je hebt hem zelf immers gegeven en jij was rechtenhouder ervan.
Altijd geestig als mensen een analogie proberen te maken tussen diefstal en auteursrechtenschending :) het is niet hetzelfde, de vergelijkingen lopen mank.
Misschien de reactie lezen waar ik op regeerde? daar komt die vergelijking vandaan namelijk. En ik zou je beklacht dan daar ook op richten, Aangezien ik precies zeg wat jij ook zegt, dat die vergelijking niet klopt. Zij het op andere gronden dan simpelweg de eeuwige dooddoener auteursrechtenschending is geen diefstal.
..maar het punt is niet dat OpenAI delen quote of deze intern heeft gekopieerd (daar is een licentie voor nodig). Het punt is dat OpenAI een te groot deel quote (het hele artikel), en dan kom je op auteursrechtenschending uit.

We hebben hetzelfde gezien bij Google News. Quoten mag, het hele artikel integraal overnemen? Neen. En terecht.

Al moet je dus ook niet gaan huilen als mensen zich voordoen als Google Bot of Reader Mode gebruiken omdat jij Google ed. toestaat het hele artikel te crawlen. 'Doctor, it hurts when I do that! Then don't do that.'

Het enige is dat de moeite die gedaan is om de volledige output te ontvangen substantieel is. Je kunt niet argumenteren dat er veel schade geweest kan zijn door deze... bug. Want dat is het, een bug. De schadevergoeding kan dus ook niet hoog zijn. Misschien zelfs symbolisch. Ik denk ook dat we het moeten zien als proefproces.

Wat betreft je laatste opmerking, het was in beginsel een algemene opmerking, en jij kiest er met 'om in jouw analoog te blijven' voor om voort te borduren op deze (in mijn ogen) belachelijke analogie. Indien je van mening bent dat deze opmerking op jou niet van toepassing is, dan hoef je je ook niet aangesproken te voelen.
Indien je van mening bent dat deze opmerking op jou niet van toepassing is, dan hoef je je ook niet aangesproken te voelen.
weer zo'n dooddoener. Iets roepen en als je dan erop gewezen word dat je aan het verkeerde adres bent gaan zeggen dat ik me er niet door aangesproken hoef te voelen als ik vind dat het niet op mij van toepassing is.

kun je Hitler of communisme er nog bijhalen dan zijn we compleet.

Kerel/Truus,
jij quote mijn post. Of ik me aangesproken zou moeten/wil voelen of niet en of je bedoelde mij of iemand anders aan te spreken is dan helemaal niet meer relevant. Je hebt mij letterlijk persoonlijk aangesproken, dan is het terecht dat ik reageer met de opmerking dat je aan het verkeerde adres bent.

[Reactie gewijzigd door sniker op 22 juli 2024 22:28]

Op dit item kan niet meer gereageerd worden.