OpenAI vindt rechtszaak die The New York Times aanspant 'ongegrond'

OpenAI heeft gereageerd op de aanklacht tegen het bedrijf door The New York Times. Het AI-bedrijf stelt dat de Amerikaanse krant 'niet het volledige verhaal vertelt'. OpenAI vindt de rechtszaak die de krant eind december 2023 aanspande dan ook 'ongegrond'.

De 'oprispingen' die The New York Times veroorzaakte, zijn volgens OpenAI afkomstig van 'jaren oude artikelen' die op diverse websites zijn verspreid. OpenAI zegt dat het erop lijkt dat er 'opzettelijk prompts zijn gemanipuleerd'. Bij het reproduceren van de prompts zouden de modellen niet reageren zoals The New York Times insinueert, stelt de ChatGPT-maker. In de blogpost is te lezen dat OpenAI vermoedt dat The New York Times selectief voorbeelden heeft gekozen die de claim van de krant ondersteunen, ook wel cherrypicking genoemd.

Eind december klaagde The New York Times OpenAI en Microsoft aan voor het schenden van het auteursrecht van de krant. De krant stelt dat de techbedrijven 'miljoenen' artikelen van The Times hebben misbruikt om hun chatbots te trainen. Eerder zei OpenAI al dat het in gesprek was met de krant. Hoewel de gesprekken niet tot oplossingen hebben geleid, zouden ze wel van 'constructieve' aard zijn. De rechtszaak was naar eigen zeggen dan ook een verrassing voor OpenAI.

Verder stelt OpenAI dat het trainen van AI-modellen met behulp van openbaar beschikbaar materiaal op internet gezien wordt als 'redelijk gebruik', wat zou zijn gebaseerd op 'breed geaccepteerde precedenten'. Desondanks biedt OpenAI een opt-out voor uitgevers, waardoor tools van de techgigant geen toegang hebben tot de sites van de uitgever. The New York Times heeft naar verluidt in augustus 2023 voor deze opt-out gekozen.

Door Sabine Schults

Redacteur

08-01-2024 • 20:29

61

Submitter: Muncher

Lees meer

Reacties (61)

61
57
31
5
0
24
Wijzig sortering
"Verder stelt OpenAI dat het trainen van AI-modellen met behulp van openbaar beschikbaar materiaal op internet gezien wordt als 'redelijk gebruik', wat zou zijn gebaseerd op 'breed geaccepteerde precedenten'. "
Los van het feit of rechters de klacht van "The New York Times" gegrond vinden, lijkt me het vrij normaal dat OpenAI het tegendeel beweert, alles anders beweren pleit niet voor hun bestaan.
"Breed geaccepteerde precedenten" vind ik dan weer van de pot gerukt over een technologie die sinds heel/heel kort algemeen gebruikt wordt en in de kinderschoenen staat en waar de rechtspraak nog niet weet in welke richting ze moet evolueren ( wat ook nog eens zal afhangen van in welk werelddeel waar men zich bevind) . Een beetje de far west nu, en toch ook een gokje voor bedrijven.
Ik ben zeker geen kenner maar Google scraped ook heel het web en ze verdienen er ook geld mee.

OpenAI zal ook wel op dezelfde mannier via Bing het net afgeschuimd hebben. Mogelijk via dezelfde databases als Google en Bing. Enkel de mannier waarop ze geld verdienen is iets anders maar vergelijkbaar.

Stel OpenAI moet toch een schadevergoeding betalen dan vraag ik me af of het ook een effect heeft op andere bedrijven zoals Google en honderden andere bedrijven die publieke data (incl NYT artikels) hebben gebruikt om geld te verdienen op andere manieren.

Mogelijk moet OpenAI zijn bronmateriaal tonen en dan is de doos van pandora open wat rechtzaken betreft. Als NYT een schadevergoeding zou krijgen dan staan er honderden andere in rij om op dat precedent hetzelfde te doen.

En wat met bedrijven die geld verdienen met diensten van chat GPT en consoorten.

Veel open vraagstukken. Ben benieuwd wat het resultaat zal zijn. Is mogelijk een proces van jaren.
Ik ben zeker geen kenner maar Google scraped ook heel het web en ze verdienen er ook geld mee.
Ja, maar Google linkt naar de originele content, en genereert niet automatisch concurrerende content waaraan alleen zijzelf verdienen. Ze citeren wel, met bronvermelding, en daarover is voldoende gesteggel, en ze betalen daarvoor zelfs aan sommige (grote...) media-bedrijven.
Enkel de mannier waarop ze geld verdienen is iets anders maar vergelijkbaar
Niet vergelijkbaar. OpenAI genereert ogenschijnlijk 'nieuwe' content, waarop geen auteursrecht rust (althans dat claimen zij), en waarmee alleen de gebruiker van OpenAI geld verdient, en niet de auteur(s) van de input. Ook is OpenAI-content (zeldzame uitzonderingen daargelaten) niet traceerbaar naar de bron. Bij Google zijn alle links e.d. wel direkt traceerbaar naar de bron...
Precies dat! Eigenlijk zou je dan ook veel meer rechtzaken verwachten want deze modellen zetten potentieel hele bedrijfstakken buitenspel, of zullen ineens meedelen met de winsten omdat ze afhankelijk zijn van een paar AI providers om efficiënt te kunnen werken.
Dit terwijl hun content gebruikt is om dit bedrijfsmodel te creëren.
Ik denk dat bedrijven eerder proberen om AI als middel in te zetten om hun concurrentie positie te verbeteren, in plaats van er tegen te procederen?
Maar een bedrijf als stackoverflow zal het toch heel moeilijk krijgen nu?
Vind trouwens het argument dat het huidige scrapen als precedent gebruikt wordt voor het gebruik voor AI ook wel erg zwak. Deze use case bestond helemaal niet en heeft veel meer impact. Maar geen idee of een rechter er ook zo naar kijkt 🤔

[Reactie gewijzigd door copi op 26 juli 2024 03:09]

En extra verschil is dat Google robots.txt honoreert én een active opt-out heeft.

Als The New York Times in augustus 2023 een opt-out kiest - ik weet niet zeker of dat überhaupt eerder beschikbaar/bekend was - en de content zit nu nog in de modellen, pleit dat niet voor OpenAI.

Aan de andere kant is de content van TNYT ook beschikbaar via andere sites, dus wellicht dat OpenAI het via die sites als bron heeft. En door TNYT niet te mogen schrapen niet kan valideren of het een tekst is van TNYT.
Mooi dat Google robots.txt honoreert én een active opt-out heeft. Echter, dat is de omgekeerde wereld! Voor zover mensen al weten dat dit er is, is het de vraag of ze het weten te vinden / implementeren (hoe simpel het voor somigen ook mag lijken, dat is het niet voor iedereen).

Het zou zo moeten zijn dat het opt-in is en dat de het niet aanwezig zijn van robots.txt een stopbord zou moeten zijn.
Ik ben het met je eens. Heel vroeger moest je je website zelf aanmelden bij de zoekmachine om gevonden te kunnen worden.

Dat is op een gegeven moment vervangen door alles wat gevonden kan worden geïndexeerd wordt.

Dat was eerst vinden via links op andere sites, maar nu zijn er meerdere bedrijven die "gewoon" regelmatig alle publieke IPv4 adressen af gaan. (waaronder Palo Alto Networks)
En er zijn bedrijven die alle Whois data verzamelen en verkopen (schending van voorwaarden, maar gebeurt amas). Opt-out accepteren die bedrijven alleen als ze een kopie van je onafgeschermde ID krijgen ... (Don't do it). Deze data wordt door anderen weer gebruiken alsof het een legale bron is.
En het zelfde geld voor sniffers op internet routers die alle SNI data vergaren.
Idem voor DNS servers.

Ongebreidelde verharing. Toen internet nog weinig commerciële toepassingen had, was het normaal dat je informatie refereerde, dat was het hele idee van internet.

Helaas zijn er ook bedrijven gekomen die de links commercieel doorverkopen, een artefact dat eigenlijk een soort puist is (geworden). Mensen laten betalen voor een doorverwijzing gaan een publiek beschikbare bron. Zonder toestemming van de bron. En door verleiding en misleiding en 'poppetje gezien kastje dicht', de zoeker het idee te geven dat het ze alleen door betaling die informatie vinden.
Zoals huur sites nu doen: schrapen andere sites, houden deel van de informatie achter, lagen foto's en postcode zien, en dan pop-over, zie je postcode niet meer, kun je ook niet meer bij. Moet je registreren. Dan na registratie geen contact info of link, moet je voor betalen. En dan betaal je en krijg je alleen een linkje naar publieke informatie. En blijkt de woning al verhuurd. Gewoon schandalige oplichting. En externe reviews op internet lijken sterk gemanipuleerd.

[Reactie gewijzigd door djwice op 26 juli 2024 03:09]

Net als de telefoonnummers die je, tegen forse betaling, doorverbonden met de bedrijven die je eigenlijk zocht. Het spel blijft zich herhalen, met dezelfde spelers op de achtergrond.

Wat betreft reviews op internet, die vertrouw ik nergens. Al helemaal niet als er geen negatieve reviews te vinden zijn. Het is zo goed als onmogelijk dat iedereen altijd tevreden is. Dat betekend dus eigenlijk per definitie dat je niet met grote(re) bedrijven in zee wilt gaan. Al helemaal niet met de Bol.com's en Amazons van deze wereld.
Ergens hebben ze ook wel gelijk, want het trainen van een AI op grote hoeveelheden publiek beschikbare data is iets wat al een tijdje bezig was. Het verschil is dat er nu geld mee verdient word, en bedrijven bang zijn hun verdienmodel kwijt te raken.
Zolang het academisch bleef kon dat inderdaad. Maar dat gaat eerder over proof of concepts.
De verdienste van OpenAI is het model maken en hoe dat model leert.
De verdienste van the New York Times is dat ze interessante data maakt die het model nodig heeft om te leren hoe een zinnige output te genereren, wat ook zijn verdienste is en waar OpenAI voor weigert te vergoeden terwijl ze zelf geld verdienen aan het eindproduct.

[Reactie gewijzigd door Terracotta op 26 juli 2024 03:09]

De kern van de vraag is dus inderdaad in hoeverre is de data van de Times terug te zien in de output die gegenereerd word door het model. Als dat een ding is dan zou je dus bijvoorbeeld per model moeten betalen om de input te kunnen gebruiken van degene die de data aanlevert. Maar daarmee is ook gelijk de kracht van de grote hoeveelheden data die er doorheen gepompt worden er vanaf.
https://arstechnica.com/i...out-copyrighted-material/

OpenAI geeft het zelf al aan: zonder dit scrapen van content van anderen, dat in academische kringen veel gebruikt werd en ook toegestaan werd om te leren een model te maken, kan een AI model niet voldoende getraind worden om commercieel succesvol te zijn.

In onze kapitalistische wereld betaal je voor een ander zijn product als je dat wil gebruiken om zelf een (al dan niet) commerciële activiteit uit te voeren of een product te leveren. OpenAI heeft voor haar onderzoeksdoeleinden dit rustig mogen doen vanwege een uitzondering die gemaakt werd voor onderzoeksdoeleinden, maar zit nu vast dat dit niet te commercialiseren is zonder de kwalitatieve teksten zoals van de NYT waar ze eigenlijk geen licentie voor hebben.

[Reactie gewijzigd door Terracotta op 26 juli 2024 03:09]

Dus de grote vraag is nu of dit inderdaad fair use is of niet.

Stel dat het niet zo is. Zou het dan een mogelijkheid zijn om het model zelf open source te maken, en de commerciële toepassingen die hiervan gebruik maken als betaalde service aan te bieden?
Het verschil is dat er nu geld mee verdient word, en bedrijven bang zijn hun verdienmodel kwijt te raken.
Niet alleen bedrijven. Alle makers van content: schrijvers, fotografen, schilders, muzikanten, componisten, artiesten, etc. Zelfs acteurs, presentatoren, etc. etc. Als AI's tegen lage kosten en in grote hoeveelheden pseudo-creatieve content kunnen genereren, die amper tot niet te herleiden is tot de oorspronkelijke content, dan zullen alle creatieve beroepen zwaar te lijden hebben. En dus zal er uiteindelijk weinig echt nieuwe content komen, omdat de creators amper meer beloond worden, en de AI slechts kan varieëren op de reeds bekende content. Totdat er een (wettelijke ?) manier gevonden wordt om creators toch te belonen zonder dat de AI met hun creatieve moeite aan de haal gaat.

En als dat niet lukt: dan krijgen we nog meer dan nu, dat we voor alles afhankelijk worden van een paar grote bedrijven, die alle (AI-gegenereerde) content in eigendom hebben, en die in zo grote mate produceren, en zo goedkoop, dat echte mensen daarmee niet kunnen concurreren, en sowieso ondersneeuwen in de bergen aan andere niet-menselijke content.
Trainen van AI bestaat inderdaad al heel lang (bv Leuven), commerciële toepassingen echter nog maar pas, Europa claimt dat ze voor gaan lopen op wetgeving welke ten vroegste van toepassing wordt in .... 2026. Tegen het huidig tempo van ontwikkelingen waarschijnlijk al achterhaald in 2024.
Rechtszaken zoals deze gaan waarschijnlijk de eigenlijke precedenten scheppen sneller als wetgeving, mag bv OpenAI hun huidig model nog gebruiken of komen er restricties op de gebruikte data, indien zo, hoe goed werkt het dan nog met een beperkte dataset. Wordt data vrijgeven voor een AI model een opt in of out bv Adobe, enz. Wat er ook beslist wordt, dit kan grote gevolgen hebben voor zowel bedrijven als content creators.
Wat ik me bij dergelijke rechtszaken vaak afvraag: is de kennis van de rechters wel adequaat genoeg om een juist oordeel te kunnen vellen? Er komen steeds meer van rechtszaken waar complexe materie aanbod komt.
Een rechter kan de figuur van de amicus curiae ('vriend van de rechter') inzetten. Dan vraagt de rechter deskundigen of vertegenwoordigers van organisaties met uiteenlopende visies over een onderwerp om advies over een principieel punt. Op die manier kan de rechter zich goed inlezen.
Dat is in Nederland een nieuw fenomeen. Hier een evaluatierapport van de Raad van State over de amicus curiae.
Het probleem bij dit soort vraagstukken is volgens mij meestal niet direct de kennis van de rechter van de materie, maar dat de materie nieuw is voor rechtszaken en daardoor meer inzicht van de rechter vereist en daardoor ook een grotere afhankelijkheid van desbetreffende rechter. Echter verwacht ik in zo’n zaak ook niet de eerste beste rechter.
Volgens mij is de rechter die je in eerste instantie krijgt vrij 'random', maar zodra je richting hoger beroep gaat heb je wel meer kans op een scherpe rechter. Sowieso heb ik het idee dat grote bedrijven en overheden by default beroep aantekenen, just because. Dan gaan ze daarna wel even kijken waar ze precies over willen zeuren.
Ik weet niet zo hoe het in Nederlands recht zit maar het is niet altijd zo, tenminste in de VS, dat een hoger beroep betekend dat je alles over doet. Vaak kun je alleen bepaalde dingen aanvechten, bijvoorbeeld de hoogte van de schadevergoeding (maar dat je moet betalen staat vast). Ik weet niet hoe dit precies werkt maar mijn gevoel is dat je toch best gelijk echt wint ;-)
De rechter hoeft de materie niet te begrijpen, het is aan de andere partijen hun standpunt duidelijk uit te leggen in de context van de wet. Als dat niet gebeurd is dat niet het probleem van de rechter.
Het is echter wel fijn als de rechter kennis van zaken heeft, zodat de BS-meter goed functioneert en de juiste vervolgvragen waar nodig gesteld worden. Al weet ik niet of dit een zaak met of zonder jury wordt, want dat maakt ook een wereld van verschil.
Wat moet een rechter dan meer weten of iets plagiaat is of niet dan?
Precies: volgens mij gaat het (vanuit The New York Times) vooral over auteursrecht.
Het lezen zelf lijkt mij geen probleem, of ik een artikel lees, of een AI maakt weinig verschil, echter wanneer het trainen resulteert in het reproduceren van teksten, dan kan het discutabel worden. Ik mag ook als ik een krantenartikel lees mijn interpretatie delen, maar ik mag niet zomaar hele stukken tekst uitmeet artikel delen.
Er bestaan nu al genoeg voorbeelden waarbij je moet betalen om informatie vast te krijgen waar jij een commercieel product mee kan maken. (lesboeken, cursussen etc...).
Er bestaan nu al genoeg voorbeelden waarbij je moet betalen om informatie vast te krijgen waar jij een commercieel product mee kan maken. (lesboeken, cursussen etc...).
En in niet één van die gevallen kan degene die je dat lesmateriaal en/of die cursus heeft verkocht zich omdraaien en een auteursrechtclaim doen zuiver op basis van het feit dat je de kennis via hen hebt opgedaan.

De NY Times had gewoon geld mogen vragen voor deze inhoud, maar ik zie niet in hoe je auteursrecht zou moeten kunnen claimen zonder dat je de werken waarop het recht rust reproduceert.
Ze hebben het ter beschikking gesteld voor fair use. Fair use is voornamelijk academisch en onderzoek gericht. In de gevallen van lessen betaalt ge net om skills aan te leren om iets te creëren/een dienst te leveren achteraf.

De fundamenten van het product van OpenAI zijn de teksten van o.a. The New York Times. OpenAI heeft een product dat daar op draait en betaalt niet voor de resource die zij nodig hebben. ChatGPT is geen fair use, probeer met chatgpt uit te halen wat zij met de teksten van The New York Times hebben gedaan zonder ChatGPT te betalen en ChatGPT zal snel eigendom eisen van uw producten. (ChatGPT mag bvb niet gebruikt worden om een andere AI te trainen btw...)
Ze hebben het ter beschikking gesteld voor fair use. Fair use is voornamelijk academisch en onderzoek gericht.
Je kunt niet iets ter beschikking stellen voor fair use. Fair use is één van de manieren waarop auteursrechtelijk beschermd materiaal gepubliceerd kan worden door iemand anders. In deze context kan fair use dus uitsluitend van toepassing zijn op publicaties van OpenAI en is het geen eigenschap van het werk van NYT.
De fundamenten van het product van OpenAI zijn de teksten van o.a. The New York Times. OpenAI heeft een product dat daar op draait en betaalt niet voor de resource die zij nodig hebben.
Wat is je punt hier precies? Of OpenAI betaalt is een functie van de voorwaarden waaronder de NYT deze beschikbaar stelt. Als de NYT zijn content niet aan OpenAI beschikbaar stelt dan kan OpenAI er niets mee. Het "probleem" wat de NYT heeft is dat ze ooit content beschikbaar hebben gesteld OpenAI en dat ze daar nu spijt van hebben. Dat mag best, maar ik zie nog steeds geen concrete aanleiding om te geloven dat het daarom moet neerkomen op een auteursrechtschending.
ChatGPT is geen fair use, probeer met chatgpt uit te halen wat zij met de teksten van The New York Times hebben gedaan zonder ChatGPT te betalen en ChatGPT zal snel eigendom eisen van uw producten. (ChatGPT mag bvb niet gebruikt worden om een andere AI te trainen btw...)
Nou en? Het simpele feit dat ChatGPT in gebruiksvoorwaarden dergelijk gebruik wel uitsluit wil niet zeggen dat ze het daarom zelf ook in zijn geheel niet zouden mogen doen.
Het is niet dat OpenAI naar the NYT is gegaan en deze teksten gevraagd heeft voor deze doeleinden. OpenAI heeft geen enkel contract afgesloten met the NYT voor dit gebruikt. OpenAI had er toegang toe en beweert deze teksten gebruikt te hebben onder onder fair use:
"In its most general sense, a fair use is any copying of copyrighted material done for a limited and “transformative” purpose, such as to comment upon, criticize, or parody a copyrighted work. Such uses can be done without permission from the copyright owner. In other words, fair use is a defense against a claim of copyright infringement. If your use qualifies as a fair use, then it would not be considered an infringement."

Gewoon documenten/teksten naar uw eigen servers overzetten is ook al kopiëren, een actie die ze sowieso gedaan moeten hebben voordat ze het aan het AI trainingsmodel gaven.
Nou en? Het simpele feit dat ChatGPT in gebruiksvoorwaarden dergelijk gebruik wel uitsluit wil niet zeggen dat ze het daarom zelf ook in zijn geheel niet zouden mogen doen.
Het is hypocriet van de bovenste plank: gebruik maken van iemand anders zijn product (zonder hun expliciete goedkeuring voor dit commercieel gebruik) en jezelf rechten toekennen die je aan een ander niet toelaat voor jouw product. Er is een reden waarom zij die artificiële barrières opleggen of zichzelf het recht geven er later meer op te leggen: je behaalt er een artificieel voordeel mee waarmee je zelfs met een inferieur product toch nog je markt kan domineren.
Het is niet dat OpenAI naar the NYT is gegaan en deze teksten gevraagd heeft voor deze doeleinden. OpenAI heeft geen enkel contract afgesloten met the NYT voor dit gebruikt. OpenAI had er toegang toe en beweert deze teksten gebruikt te hebben onder onder fair use:
"In its most general sense, a fair use is any copying of copyrighted material done for a limited and “transformative” purpose, such as to comment upon, criticize, or parody a copyrighted work. Such uses can be done without permission from the copyright owner. In other words, fair use is a defense against a claim of copyright infringement. If your use qualifies as a fair use, then it would not be considered an infringement."

Gewoon documenten/teksten naar uw eigen servers overzetten is ook al kopiëren, een actie die ze sowieso gedaan moeten hebben voordat ze het aan het AI trainingsmodel gaven.
Het is niet relevant voor wat ik zei, namelijk dat fair use een eigenschap is van het gebruik door OpenAI en niet van de content an sich. Sowieso is de definitie die je citeert (zonder aan te geven wie of wat je citeert, mind you) veel nauwer dan in de praktijk.
Het is hypocriet van de bovenste plank: gebruik maken van iemand anders zijn product (zonder hun expliciete goedkeuring voor dit commercieel gebruik) en jezelf rechten toekennen die je aan een ander niet toelaat voor jouw product. Er is een reden waarom zij die artificiële barrières opleggen of zichzelf het recht geven er later meer op te leggen: je behaalt er een artificieel voordeel mee waarmee je zelfs met een inferieur product toch nog je markt kan domineren.
Een claim op fair use is niks, alleen een rechter kan bepalen of iets fair is of niet. Juridisch gezien kan OpenAI ook niks uitsluiten wat de NYT niet ook zou kunnen uitsluiten, en andersom kan OpenAI niet besluiten dat ze rechten hebben die een ander niet heeft. Je kunt hypocrisie vervelend en een rotstreek vinden, maar dat is juridisch niet van waarde.
Zolang het ervan leert, wat is het verschil met een mens dat een nieuwsbron leest? LLM is geen nieuwsbron.
Een LLM gaat verder dan dat, die houdt zich bezig met het gebruik van een taal.

Het hypocriete dat je veelal ziet in dit soort zaken is dat bedrijven groot worden op basis van publiek beschikbare data, vrijgegeven door anderen, en vanaf ze kunnen gaan ze hun concurrentie niet toelaten hetzelfde te doen.

Disney is daar een voorbeeld van: groot geworden op andermans verhalen (vanuit het publieke domein), maar zelf de grootste beschermer van 'haar' intellectual property (ze hebben de wetten zelfs 2x kunnen laten aanpassen zodat de eerste versies van Mickey Mouse nu pas in het publiek domein zitten).

Hier gaat hetzelfde gebeuren: groot geworden want getraind op taalkundig interessante werken van The NY times, ze hebben er niet voor betaald en op een gegeven moment gaan ze het werk waar hun OpenAI essentieel is geweest, als het hunne beschouwen.
Aan de ene kant heb je een punt, nog afgezien van het feit dat veel 'journalisten' bedroevend weinig toevoegen, geen onderzoek doen, niet kritisch zijn, en eerder fungeren als een soort veredelde typ-apen, amper boven het niverau van ChatGPT zef.

Aan de andere kant: de AI kan slechts functioneren met input van door mensen geschreven content. De AI is zelf niet creatief, en zodra de door mensen geschreven creatieve content verdwijnt, dan is de AI ook niet meer in staat nieuwe content te genereren. Misschien dat toekomstige AI's wat dat betreft beter zijn, maar daar zijn we nog niet. Dat betekent dat de AI-gegenereerde content een soort re-hash is van door mensen geschreven auteursrechtelijk beschemd materiaal. Iets boven het niveau van plagiaat door iemand die teksten van anderen kopiëert, en wat triviale aanpassingen maakt, en dat publiceert als eigen werk.

Een fundamentele overweging is (dus), dat de AI-content afhankelijk is van door mensen geschreven content. De bedoeling van auteursrecht is om mensen te (kunnen) belonen voor hun creatieve moeite, zonder dat anderen ermee straffeloos aan de haal kunnen gaan, en de beloning opstrijken. Als we dat principe loslaten, dan zullen mensen geen content meer maken. Daarom is plagiaat ook niet toegestaan. Als AI-content als creatief wordt gezien, en als menselijke creators niet beloond worden als hun content als input wordt gebruikt voor AI, dan zullen echte mensen amper nog beloond kunnen worden voor hun creatieve moeite. De AI, na getraind te zijn op de onbetaalde beschikbare content van echte mensen, zonder significante moeite talloze vergelijkbare content kan genereren, dan raakt het werk van die echte mensen ondergesneeuwd, zowel in het volume van de AI-content, als in de prijs van die content. De financiële motivatie van mensen om content te creëren zal dan verdwijnen.

Dus als we het echte mensen willen blijven aanmoedigen om echte creatieve content te produceren, dan zullen we een manier moeten vinden om ze te belonen als hun creatieve uitingen gebruikt worden voor het genereren van concurrerende AI-content.

Een voorbeeld:
Stel dat een schilder bijzondere schilderijen maakt, die populair worden, waardoor die eindelijk geld begint te verdienen. Een AI kan dan pijlsnel getraind worden op zijn schilderijen, en er kunnen dan binnen korte tijd tientallen unieke werken gecreëerd worden 'in de stijl van' die schilder. Zonder auteursrecht van die schilder, want ze zijn uniek, en niet door hem gemaakt. Veel mensen zullen dan kiezen voor een werk 'in de stijl van'. Sommigen zullen dat soort werk zelfs vervalsen als 'origineel'. Maar ook afgezien van de vervalsingen zal de schilder minder verdienen omdat zijn werk minder uniek is. Als iedereen ineens een uniek schilderij in de stijl van van Gogh heeft hangen, voor een habbekrats gegenereerd door AI, dan zullen veel minder mensen de musea bezoeken om het echte werk te zien, want dat soort spul hebben ze al zo vaak gezien...

Edit: Ja, van Gogh is al lang dood. Ook verdiende hij tijdens zijn leven amper tot niet aan zijn werk.
Ik neem aan dat desondanks het voorbeeld nog steeds begrepen wordt. Zo niet: stel dat van Gogh niet dood was, en op dit moment een beroemde (levende) schilder. Of vervang van Gogh door elk ander voorbeeld van eigen keuze (schilder, of andersoortig bekend kunstenaar/artiest) die op dit moment wel leeft, en goed verdient aan eigen werk (nog wel...).

[Reactie gewijzigd door RJG-223 op 26 juli 2024 03:09]

. Dat betekent dat de AI-gegenereerde content een soort re-hash is van door mensen geschreven auteursrechtelijk beschemd materiaal. Iets boven het niveau van plagiaat door iemand die teksten van anderen kopiëert, en wat triviale aanpassingen maakt, en dat publiceert als eigen werk.
Hoe is dit anders dan 'analisten' die in kranten en op TV 'hun' samenvatting geven van situaties?

Het gaat vaak over gebeurtenissen in de wereld waar ze zelf nooit bij geweest zijn en alleen kennen uit (hopelijk) meerdere andere artikelen.
Soms wordt er een paragraaf geciteerd of een bron genoemd, (of zelfs een hele tweet zonder context voorgelezen), maar meestal 'schetsen ze de situatie' in hun eigen woorden.
Dus ongeveer hetzelfde als AI doet; veel lezen, bronnen op waarde schatten, en dan de beste informatie samenvoegen tot een verhaal.

Betalen dit soort analisten hiervoor extra royalties aan de kranten en andere bronnen die ze gebruiken? Zijn ze zich nog bewust welke artikelen ze hebben gelezen en gebruiken, als ze een onderwerp al jaren volgen?
Hoe is dit anders dan 'analisten' die in kranten en op TV 'hun' samenvatting geven van situaties?
De AI doet het goedkoper en massaler. En de AI is geen mens, en kan (vooralsnog) niet zonder menselijke input. En die input moet betaald, en dus beloond worden.

En, zoals ik zeg, als we mensen niet langer serieus betalen voor nieuwe gecreëerde content, dan wordt die content niet meer gemaakt. Dan krijg je alleen maar variaties op steeds hetzelfde thema...

Als laatste licht je er nu een extreem voorbeeld uit van mensen (en bedrijven) die inderdaad relatief weinig artistieke waarde toevoegen. Dat ben ik met je eens. Zie mijn eerste paragraaf. Het vinden van één enkel voorbeeld van mensen die weinig creativiteit toevoegen ontkracht nog niet de algemene strekking van mijn reactie. Kun je het dan nu misschien ook even hebben over fotografen, schilders, schrijvers, musici, etc. etc. etc. ?

En nog even over die nieuwsbedrijven: de waarde die ze wel toevoegen, is het verzamelen, samenvatten en selecteren van nieus, en het soms/vaak van commentaar voorzien. Vooralsnog moet dat nog door mensen gedaan worden. OpenAI kan echt geen artikel schrijven, of een nieuwsitem maken over een gebeurtenis waar het niets over weet. Dan krijg je gehallucineerde onzin. Wie gaat de informatie verzamelen, en er het eerst over schrijven/publiceren, als mensen het niet meer doen willen, omdat ze er niet voor betaald worden ? En als het bedrijven zijn die mensen in doenst hebben om dat soort nieuws te verzamelen uit originele bron, dan zullen die ongetwijfeld manieren bedenken om het trainen van AI met hun content te verbieden of te verhinderen, hetgeen mijn punt onderstreept dat mensen (en ook bedrijven) die content maken betaald moeten / willen worden, omdat ze het anders niet meer zullen doen.

[Reactie gewijzigd door RJG-223 op 26 juli 2024 03:09]

De AI doet het goedkoper en massaler. En de AI is geen mens, en kan (vooralsnog) niet zonder menselijke input. En die input moet betaald, en dus beloond worden.
En, zoals ik zeg, als we mensen niet langer serieus betalen voor nieuwe gecreëerde content, dan wordt die content niet meer gemaakt. Dan krijg je alleen maar variaties op steeds hetzelfde thema...
Grotendeels mee eens. Maar dat maakt het onder de huidige wetgeving niet opeens illegaal omdat het door een machine wordt gedaan.
Net zoals een printer niet illegaal was omdat er schrijvers werkloos door werden, of naaimachines , 3D printers etc.

Het zou leuk zijn als de voordelen van de techniek verdeeld worden over meer vrije tijd en een hoger loon voor journalisten, en meer winst voor nieuwsmedia.
Maar daarvoor zullen eerst nieuwe bedrijfsmodellen en wetsvoorstellen gemaakt moeten worden.

Kun je het dan nu misschien ook even hebben over fotografen, schilders, schrijvers, musici, etc. etc. etc. ?
Vast wel, als ik me er in verdiep. Maar waarom, het artikel gaat toch specifiek over nieuws uit kranten? Al zal daar in principe hetzelfde voor gelden, want de AI doet technisch hetzelfde. (Dat er tot nu toe weinig vraag was voor artiesten om een 'samenvatting' van het werk van Picasso in de stijl van Mondriaan te maken, is wat anders)

de waarde die ze wel toevoegen,
-het verzamelen, (database)
- samenvatten (AI)
-en selecteren (algoritme)
-van commentaar voorzien. (AI)
Vooralsnog moet dat nog door mensen gedaan worden. OpenAI kan echt geen artikel schrijven, of een nieuwsitem maken
Dat is nou net het probleem van de kranten; blijkbaar kan AI dat dus wel. Of in elk geval goed genoeg dat het ze problematisch lijkt.
over een gebeurtenis waar het niets over weet.
Dat kan een journalist ook niet. (En helaas lijkt dat noch een AI noch journalisten tegen te houden om het toch wel te doen).

Maar AI van video analyse begint ook al op gang te komen. Dus verslagen van voetbalwedstrijden, tweede kamer debatten en dat soort bronnen gaat komen. (En computers kunnen er een veel langere geschiedenis van uitslagen en wetswijzigingen naast houden als vergelijking. )

Ook kunnen computers theoretisch automatisch bieden op fotos, artikelen van schrijvers en andere nieuwsbronnen, net zoals ze nu al automatisch op aandelen bieden.
En ja, zonder inhoudelijke kennis gaat dat waarschijnlijk af en toe fout. Net zoals dat met aandelen misgaat als er te weinig 'echte' handelaren onderzoek doen. Ookal zitten die er gemiddeld vaker naast dan algoritmen.
De AI doet het goedkoper en massaler. En de AI is geen mens, en kan (vooralsnog) niet zonder menselijke input. En die input moet betaald, en dus beloond worden.
En, zoals ik zeg, als we mensen niet langer serieus betalen voor nieuwe gecreëerde content, dan wordt die content niet meer gemaakt. Dan krijg je alleen maar variaties op steeds hetzelfde thema...


Grotendeels mee eens. Maar dat maakt het onder de huidige wetgeving niet opeens illegaal omdat het door een machine wordt gedaan.
Net zoals een printer niet illegaal was omdat er schrijvers werkloos door werden, of naaimachines , 3D printers etc.
Dat klopt vermoedelijk. Mijn punt is ookniet dat het nu illegaal is. Dat kan ik niet beoordelen (ik ben geen jurist). Wel is mijn punt dat als we menselijke creators niet beschermen, dat ze zullen verdwijnen. En afgezien van dat er dan iets waardevols verdwijnt (misschien niet de nieuwslezers, maar wel artiesten, kunstenaars, etc), kunnen de AIs niet functioneren zonder die input van menselijke content. Als je AIs gaat trainen met AI-content, krijg je vermoedelijk al heel snel bagger (en vermoedelijk wordt dat sowieso een probleem waar de AI-bedrijven al zeer spoedig tegenaan zullen gaan lopen...)
Kun je het dan nu misschien ook even hebben over fotografen, schilders, schrijvers, musici, etc. etc. etc. ?
Vast wel, als ik me er in verdiep. Maar waarom, het artikel gaat toch specifiek over nieuws uit kranten? Al zal daar in principe hetzelfde voor gelden, want de AI doet technisch hetzelfde. (Dat er tot nu toe weinig vraag was voor artiesten om een 'samenvatting' van het werk van Picasso in de stijl van Mondriaan te maken, is wat anders)
Mijn reactie ging over het meer algemene probleem met AI, en expliciet ook over die andere beroepen. Jij reageert daarop, maar hebt het dan alleen over kranten en dergelijke media. Vandaar mijn vraag.
de waarde die ze wel toevoegen,
-het verzamelen, (database)
- samenvatten (AI)
-en selecteren (algoritme)
-van commentaar voorzien. (AI)
O ja ???

En wie neemt die gegevens waar ? Of bestaan er Robot-verslaggevers met camera-ogen die ter plekke de feiten kunnen gaan waarnemen en interpreteren, en dan beslissen hoe, wat en waar ze verder gaan met waarnemen ? Of denk je dat die gegevens vanzelf geregistreerd/opgenomen worden, en vanzelf in de computer komen, en daarna vanzelf in die database ?

En stel dat we dan een database van video's hebben uit bijv. Oekraine, is er dan een AI die die video's van een menselijke interpretatie en commentaar kan voorzien ? En zelf uit de 100en uren aan data de fragmenten kan selecteren die getoond gaan worden ? Nee. Die AIs bestaan allemaal niet. Misschien in de toekomst wel, maar nu in ieder geval nog niet.

Al dat werk wat een computer/AI nu (nog?) niet kan, moet door mensen gedaan worden. En die moeten / willen voor hun moeite betaald worden. Als we dat niet doen, dan zullen mensen dat werk dus niet meer willen doen, en dan kunnen de (huidige) AIs dus ook niet meer functioneren.
Vooralsnog moet dat nog door mensen gedaan worden. OpenAI kan echt geen artikel schrijven, of een nieuwsitem maken
Dat is nou net het probleem van de kranten; blijkbaar kan AI dat dus wel. Of in elk geval goed genoeg dat het ze problematisch lijkt.
Zeg, wie neem je nu in de maling ? Ik weet echt wel wat ik geschreven heb, en als je selectief een essentiëel deel van mijn zin weglaat, waardoor de betekenis van mijn zin fundamenteel verandert, dan kun je daar wel op reageren, maar dan reageer je niet op mijn argumenten.

Ik schreef: 'OpenAI kan echt geen artikel schrijven, of een nieuwsitem maken over een gebeurtenis waar het niets over weet'
Ik bestrijd dus NIET dat een AI een artikel kan schrijven over een gebeurtenis. Ik bestrijd wel dat een AI dat kan zonder over een of meer bronteksten over dat onderwerp te beschikken. En dus zal een echt mens die bronteksten moeten schrijven. En mijn punt is dat die mensen die die bronartikelen schrijven daarvoor beloond willen worden.

En het klopt dat een mens ook geen artikelen kan schrijven over een gebeurtenis waarover hij niets weet, maar een mens is wel in staat zelfstandig de informatie te vergaren, of bestaande oorspronkelijke bronnen te analyseren, zonder te beschikken over artikelen die door andere mensen geschreven zijn, en dan een zinvol artikel, of dergelijke, te produceren. De AI niet. Ook kan de mens menselijk gedrag en beweegredenen van andere mensen analyseren, en becommentariëren en de AI niet.

En inderdaad: misschien kan dat alles in de toekomst wel, maar daar zijn we nog niet. Op dit moment is de AI-gegenereerde content, voor nieuwsitems, maar ook voor beelden, etc. etc. een re-hash van bestaande menselijke content. De mensen die die content maken, moeten/willen daarvoor beloond worden. Daar moeten we dus voor zorgen.

En dan heb ik het dus nog amper gehad over artiesten, kunstenaars, e.d. die ook betaald willen worden. En nee, er is weinig behoefte aan een 'samenvatting' van Mondriaan (wat dat ook moge betekenen). Er is wel behoefte aan originele, creatieve kunst. Ik moet nog zien dat een AI die kan maken. Daarvoor zijn emoties en gevoelens nodig. Die zou een AI heel misschien kunnen beredeneren, maar het zou niet echt zijn, niet menselijk, want een AI voelt niet - wat een AI heeft geen hormonen, en andere biologische signaalstoffen die uitsluitend/voornamelijk/mede (?) de bron zijn van onze gevoelens en emoties. En een kunstenaar/ artiest die iets nieuws doet/maakt, die heeft, zonder beloning, in een wereld van AI geen schijn van kans omdat zijn stijl direkt en zonder moeite, gekopieëerd kan worden zonder daadwerlijk het werk te kopiéren, en dus zonder last te hebben van auteursrechten.

En nu zul je misschien zeggen dat mensen met behulp van AI wél geheel nieuwe, originele, creatieve kunst kunnen maken, en dat klopt, en dat is beslist waardevol, maar daar zijn er dus ook weer mensen voor nodig, en die willen beloond worden, zonder dat een groot bedrijf of zo hun stijl met behulp van dezelfde AI of een andere AI direkt kopiëert en het hun feiteijk onmogelijk maakt om geld te verdienen.
Als iedereen ineens een uniek schilderij in de stijl van van Gogh heeft hangen, voor een habbekrats gegenereerd door AI, dan zullen veel minder mensen de musea bezoeken om het echte werk te zien, want dat soort spul hebben ze al zo vaak gezien...
Slecht voorbeeld want er zit geen auteursrecht meer op het werk van Van Gogh. Hij is al meer dan 70 jaar dood. Dus wanneer jij morgen een 1000 kopieën wilt laten maken van de Sterrennacht om te verkopen, ga je gang!
De AI is zelf niet creatief, en zodra de door mensen geschreven creatieve content verdwijnt, dan is de AI ook niet meer in staat nieuwe content te genereren.
Dan lost dit probleem zichzelf toch op? Dan ontstaat er toch vanzelf ruimte voor nieuwe content gemaakt door mensen?

Ik heb bij deze discussie altijd het gevoel dat er een fundamentele tegenstrijdigheid in dit argument schuilt, namelijk dat we als consument superieure content (gemaakt door mensen) zouden prefereren maar dat inferieure content deze superieure content zou verdrukken in populariteit.
Dan lost dit probleem zichzelf toch op? Dan ontstaat er toch vanzelf ruimte voor nieuwe content gemaakt door mensen?
Ja. En als een mens dan echt innovatieve nieuwsoortige content maakt, en hoopt daar geld mee te verdienen, dan is er binnen no time een AI getraind om bergen gelijksoortige content te maken, en die tegen minimale prijzen te verkopen, waardoor de oorspronkelijke creator (bijna) niets verdient aan zijn creatieve idee.
Daar zal wel een nieuwe balans in gevonden worden dan, natuurlijk. Het klinkt wel logisch dat dergelijke content een stuk minder waard gaat worden. Dat is niet veel anders dan dat massaproductie van andere goederen heeft geleid tot prijsdalingen, ik zie het probleem niet zo.
Ik heb bij deze discussie altijd het gevoel dat er een fundamentele tegenstrijdigheid in dit argument schuilt, namelijk dat we als consument superieure content (gemaakt door mensen) zouden prefereren maar dat inferieure content deze superieure content zou verdrukken in populariteit.
Klopt, maar is dat per se tegenstrijdig?
Dat zien we nu toch ook met 'namaak' kleding en 'machinale' koekjes die zogenaamd 'minder' zijn. Maar zoveel goedkoper en goed genoeg om een doelgroep aan te spreken die het anders nooit zou kunnen veroorloven. Waardoor ook veel anderen zullen overstappen.

We kunnen niet, zoals Bezos en Murdoch, allemaal een krantenimperium kopen om, nieuws met onze eigen spin te publiceren. Maar we kunnen wel allemaal ChatGPT inhuren om een eigen selectie van nieuws op maat te laten schrijven in je eigen regionale dialect.
Klopt, maar is dat per se tegenstrijdig?
Dat zien we nu toch ook met 'namaak' kleding en 'machinale' koekjes die zogenaamd 'minder' zijn. Maar zoveel goedkoper en goed genoeg om een doelgroep aan te spreken die het anders nooit zou kunnen veroorloven. Waardoor ook veel anderen zullen overstappen.
Ik denk dat het vrij tegenstrijdig is, want in de praktijk verkiest iedereen die content die ze allemaal niet zouden willen toch boven de content die evident beter zou zijn. Er wordt alleen gekozen om het te presenteren alsof we straks met allemaal rommel zitten die we echt niet willen, terwijl het gevaar voor door mensen gemaakte content juist schuilt in het feit dat die andere content waarschijnlijk toegankelijker (als in beschikbaarheid) en goedkoper gaat zijn. Ik zie niet zo waarom dat wel een maatschappelijk probleem zou zijn, en het feit dat Ikea meubels goedkoper zijn dan als ik zaken op maat laat maken door een meubelmaker.
volgens mij gaat het hier niet om de data. Als antwoord op een vraag wordt tekst gegeven die letterlijk overgenomen is van een krant en die dus achter een paywall zit. Copyright en jatwerk dus.
Die voorbeelden die ze aanhalen dienen om aan te tonen dat chatgpt op hun teksten is gebaseerd, dit zonder hun toepassing. Het kunnen reproduceren ervan is niet het issue.
Er zijn procentueel maar weinig mensen die geld verdienen met datgene wat ze intypen op hun keyboard en wat dan ook nog eens is gerelateerd aan iemand die denkt hier auteursrecht op te hebben.
procentueel van wat? het aantal gekopieerde artikelen? het aantal toetsaanslagen? mensen acgter een toetsenbord? zinnen gekopieerd?
Als er op een tekst ergens copyright zit en je jat woordelijk de tekst dan kan dat dus niet.
Stel ik ben aan het chatten met m'n moeder en kopieer een stuk tekst van de Telegraaf en stuur dat naar haar toe. En stel je dan eens voor dat de Telegraaf dit te horen krijgt, en mij aanklaagt. Hoe groot is dan de kans dat de Telegraaf enige kans van slagen heeft?

- Gemiste inkomsten voor de Telegraaf? Nul komma niks
- Mijn inkomsten naar aanleiding van deze actie? Nul komma niks
- Is het door mij openbaar gemaakt? Nee

Er dan ook géén sprake van een overtreding.
Wie auteursrecht heeft op een werk beschikt over twee exclusieve rechten: het alleenrecht om het beschermde werk openbaar te maken en het alleenrecht om het te verveelvoudigen.
Als je het hebt gekopiëerd naar je moeder, heb je het verveelvoudigd...dus heb je inbreuk op dat alleenrecht van Telegraaf gemaakt. Lijkt me toch vrij duidelijk.

[Reactie gewijzigd door crossecter op 26 juli 2024 03:09]

Tegelijkertijd is het lastig want feitelijk is de website van de krant bezoeken ook de inhoud verveelvoudigen. Daarover is door middel van jurisprudentie min of meer gezegd: "Doe niet zo moeilijk want je snapt best wel wat we bedoelen", maar het voornaamste probleem in de AI-discussie is dat het allemaal zo evident niet is en je dus niet meer wegkomt met zo'n opmerking.
Stel ik ben aan het chatten met m'n moeder en kopieer een stuk tekst van de Telegraaf en stuur dat naar haar toe. En stel je dan eens voor dat de Telegraaf dit te horen krijgt, en mij aanklaagt. Hoe groot is dan de kans dat de Telegraaf enige kans van slagen heeft?
Als je het kopieert? 100%. Als je het nieuwsfeit leest en in andere woorden aan je moeder herhaalt? 0%.

edit: die 100% is natuurlijk wel een beetje gechargeerd, want ik denk dat de gemiddelde rechter niet bepaald geamuseerd gaat reageren op een rechtszaak omdat iemand één krantenartikeltje naar z'n moeder heeft gestuurd

[Reactie gewijzigd door Patriot op 26 juli 2024 03:09]

Staat het auteursrecht niet iets toe over delen in huizelijke kring?

Een krant fysiek delen in eigen huis mag namelijk ook, binnen de grenzen van het redelijke.
Raar voorbeeld. Volgens jou mag je dus een kopie van een game maken en aan je broer geven. gemiddeld nul komma niks effect. Gelukkig is een gemiddeld effect bij een overtreding niet bepalend!
Een beter voorbeeld zou zijn dat je
moeder enorm goed kan koken, je zet al haar recepten online en genereert daar inkomsten door, en je moeder krijgt daar geen erkenning door en ziet er geen rooie cent van terug.
Als je moeder copyright heeft op die recepten ben je strafbaar.
Het ging over het bijna woord-voor-woord reproduceren van artikelen. Maar een paar woorden waren anders en een bijzinnetje was weggelaten. Da's wel iets anders dan rechthebbende zijn van een taal.
Het gaat over meer dan dat. Zij hebben de data van de NYT naar hun eigen servers gekopieerd om daar dan een LLM op los te laten. De NYT kan dit aantonen doordat ChatGPT inderdaad bijna woord-voor-woord hun artikels reproduceert.

Het issue is niet dat ChatGPT die artikels reproduceert, het issue is dat ChatGPT die artikels als grondstof gebruikt om zinnige teksten te kunnen spuien en dat OpenAI weigert om voor deze grondstoffen te betalen.
heb je hier een link van?

Op dit item kan niet meer gereageerd worden.