New York Times klaagt OpenAI aan om misbruik artikelen voor trainen van AI

The New York Times heeft OpenAI en Microsoft aangeklaagd voor het schenden van NYT's auteursrecht. De krant claimt dat de twee bedrijven 'miljoenen' artikelen van de NYT hebben misbruikt om hun eigen chatbots te trainen.

De krant vraagt in de aanklacht niet om een specifiek bedrag, maar zegt dat de twee bedrijven 'verantwoordelijk gehouden moeten worden voor miljarden dollars aan schade'. Microsoft en OpenAI hebben 'de unieke content van The Times onwettig gekopieerd' om de generatieve AI te trainen. De bedrijven moeten van NYT ook alle chatbotmodellen en trainingsdata verwijderen als hiervoor NYT-materiaal is gebruikt.

Het mediabedrijf zegt in april contact te hebben gezocht met Microsoft en OpenAI om zijn zorgen uit te spreken over het vermeende misbruik van de auteursrechtelijk beschermde artikelen. Daarbij zegt NYT oplossingen zoals 'commerciële overeenkomsten en technologische vangrails' te hebben voorgesteld. Die gesprekken zouden niet tot oplossingen hebben geleid, aldus de krant. Een OpenAI-woordvoerder zegt juist dat de gesprekken constructief verliepen en dat de rechtszaak 'verrassend en teleurstellend is'.

Mediabedrijven en andere organisaties vinden dat generatieve-AI-bedrijven ongeoorloofd content gebruiken voor het maken van generatieve AI's, waarna ze geld verdienen aan de content zonder toestemming of terugbetaling naar de originele contentmaker of rechthebbende. Zo zou OpenAI's ChatGPT bij sommige antwoorden 'bijna letterlijk teksten van NYT kopiëren, waar je normaliter een betaald NYT-abonnement voor nodig hebt', aldus de krant. Daarbij zouden de chatbots niet linken naar de NYT-content. Tegelijkertijd kunnen chatbots door foutieve informatie te verspreiden, ofwel te 'hallucineren', NYT's imago schaden als ze claimen dat die informatie van de krant komt.

Door Hayte Hugo

Redacteur

28-12-2023 • 11:24

201

Submitter: wildhagen

Lees meer

Reacties (198)

198
196
68
9
0
101
Wijzig sortering
Ben erg benieuwd naar dit soort rechtzaken. Mijn gevoel zegt dat het niet kan wat openAI heeft gedaan hier, zeker omdat de content achter een paywall zat.

Maar volgens mij zolang het niet in je robots.txt staat mag je een website indexen. Nu zit er denk een verschil tussen indexen voor een zoekmachine en het kopiëren van de content. Zeker omdat een zoek machine helpt met het krijgen van verkeer naar je website.

Tegenwoordig kun je de robot van openAI blokkeren in je robots.txt maar dat doet niks voor de content zie ze al hebben. Ook zijn er andere kleine bedrijven die dat niet opvolgen en vervolgens de dataset ook weer verkopen.
We zijn op een nieuw kruispunt gekomen. Eigenlijk was het al heel vreemd wat zoekmachines doen: het indexeren van inhoud is ook kopiëren. Google indexeert al decennia miljarden teksten die bijna allemaal auteursrechtelijk beschermd zijn. Dit is normaal geworden omdat de contentmakers er voordeel van hebben: de content wordt in belangrijke mate bereikbaar gemaakt door die zoekmachines. Het was dus een soort win-win-situatie, waardoor er niet zoveel acht werd geslagen op het feit dat Google beschermde teksten overnam op hun resultatenpagina en in hun index.

Toen kwamen grote nieuwsmedia erachter dat ze ook geld misliepen door dit concept, omdat Google steeds meer inhoud liet zien op hun eigen pagina's (zoals Google Nieuws, of Google Zoeken waar het antwoord op de vraag direct zichtbaar is) waardoor er discussie kwam en een rechtszaak of twee. In sommige landen leidde dat tot betalingen door Google aan nieuwsmedia (zoals in Canada).

Nu gaat het een flinke stap verder: scraping voor een AI-leermodel. Hierbij is er geen doorverwijzing naar de bron, waardoor de contentmaker geen inkomen of publiek ontvangt uit het proces. De leermodellen kunnen zelf antwoord geven en nemen dus alleen content in. Als dat doorgaat dan zullen steeds minder mensen de bronpagina's hoeven te bezoeken, wat nodig is voor de advertentie- of abonnementsinkomsten van nieuwsmedia. Jezelf daar als nieuwsmedium buiten houden met robots.txt kan steeds meer alsnog een probleem worden, als AI-leermodellen steeds meer de standaard worden.

Ik hoop op een verbod op inname van auteursrechtelijk beschermd materiaal voor AI. Het zou beter zijn als AI-makers de content moeten kopen, in licentie moeten nemen, zelf moeten laten schrijven, of anderzijds. Dan zijn de inspanningen en de inkomsten beter verdeeld. Als dit betekent dat vele nu bestaande leermodellen verboden worden, inclusief GPT-4, Stable Diffusion enzovoort, dan is dat maar zo. Haastige spoed is zelden goed. Ben benieuwd hoe andere Tweakers daar tegenover staan.
Ik ben het op alle punten met je eens. En ik zou ook graag vergoedingen willen zien richting de makers van alle content.

Maar, het enige aanvullende punt waar ik me zorgen over maak is dat kwaliteitsinformatie steeds meer achter een betaalmuur komt (waar ik op individueel niveau geen probleem mee heb) LLMs steeds meer op vrij beschikbare onzin getraind wordt.

Er komt nu al een enorme beerput aan zelfverzonnen flauwekul, leugens en desinformatie uit de grote LLMs rollen. En dat is grotendeels uit een tijd dat er nog een beetje kwaliteitsinformatie in ging (naast natuurlijk ook veel flauwekul, opgezogen flauwekul, fan fiction, rascistische pamfletten, pseudowetenschap, verouderde wetenschap etc.). Moet je nagaan wat er gebeurt als LLMs grotendeels getraind worden op flauwekul die zelf weer uit een LLMs komt, andere lage kwaliteitsinformatie maar niet gebalanceerd wordt met kwaliteitsinformatie.

[Reactie gewijzigd door Maurits van Baerle op 23 juli 2024 22:35]

Ik denk dat dat probleem zou moeten meevallen. Ten eerste worden bots niet tegengehouden door betaalmuren; die zijn voor menselijke bezoekers. Ook gaat het niet om betaald versus gratis. Als er nieuwe regels zouden komen, dan zouden die moeten gaan over auteursrechtelijk beschermde werken in het algemeen; ook gratis content heeft auteursrecht dus betere regels zouden ook die content beschermen. AI-makers zouden deals moeten sluiten om data te bemachtigen of het nu gaat om betaald nieuws, gratis nieuws, een forumreactie of een marketingtekst op een bedrijfswebsite.

Systemen trainen op een grote hoeveelheid internet-content is waarschijnlijk sowieso al onverstandig, vanwege inderdaad de zeer uiteenlopende kwaliteit. Het is gedaan omdat het kon en omdat het snel resultaat geeft. Maar het verstoort bestaande markten en het materiaal is niet gekozen op waarheid of wat dan ook. Volgens mij lossen we dat juist op met betere regels: AI-makers gaan dan gedegen samenwerkingen aan met schrijvers, waardoor die betaald kunnen worden maar ook de inhoud beter kunnen labelen en dergelijke. Kwaliteit kan dan juist beter worden gewaarborgd dan nu.

[Reactie gewijzigd door geert1 op 23 juli 2024 22:35]

Mee eens, het was wel lekker makkelijk en goedkoop om copyrights content te kopiëren. Ellen Musk een voormalige oprichter van openai zei zelf tijdens een interview dat ze copyright materiaal gebruiken.
Het is nu toch al te laat voor dat.

Als een systeem eenmaal getraind is dan heb je die nieuwsmedia niet nodig. Daarnaast als europa of amerika nu ineens terughoudend gaan doen denk je dan dat China dat ook gaat doen ? omdat veel modellen nu ook al OpenSource zijn kan je echt niks tegenhouden.

Nee, deze geest gaat niet meer terug in de fles en de media zal moeten evolueren en veranderen om relevant te kunnen blijven.

Hoe meer problemen ze nu veroorzaken hoe meer ze uitgesloten gaan worden.

[Reactie gewijzigd door dutchruler op 23 juli 2024 22:35]

Het lijkt me niet te laat, behalve voor de nu bestaande modellen (en ik pleit ervoor om die te verbieden met terugwerkende kracht). Ondanks dat GPT-4 nu heel indrukwekkend is, zal deze over 5-10 jaar waarschijnlijk niet meer gebruikt worden. Dan zijn er wellicht nog veel slimmere of bredere systemen. Aangezien hier bijna zeker een verloop in zal zitten, heeft het wel zin om de regels te verbeteren. Want vroeg of laat worden er nieuwe modellen getraind.

Je argument dat andere landen niet netjes mee zullen doen met betere regels, daar zit wat in. Maar dat geldt voor heel veel zaken. Als er een regel zou komen dat trainingsdata voor leermodellen netjes betaald moet worden, en bijvoorbeeld China houdt zich daar niet aan, dan kan dat product in Europa geweerd worden. Dat hoeft geen probleem te zijn als westerse leermodellen ook goed werken, terwijl die de content op een redelijke manier hebben ingenomen. Zo gaat het nu ook al met vele producten waar elders minder regulering op zit; dat komt niet altijd zomaar de EU binnen.

En het uitsluiten van nieuwsmedia heeft nadeel voor deze modellen: AI gaat niet zelf kijken hoe het is op de grond in Palestina bijvoorbeeld. Nieuwsmedia doen veel meer dan schrijven; ze onderzoeken en doen verslag vanaf de grond. Een leermodel kan niks zeggen over het nieuws van vandaag zonder externe bronnen in te nemen. Die bronnen zullen geschreven moeten worden, en de redacties zullen moeten eten. AI is geen vervanger van die content, maar een dief ervan.

Betere regels zijn volgens mij nodig om het kortetermijndenken tegen te gaan.

[Reactie gewijzigd door geert1 op 23 juli 2024 22:35]

Nobel maar als uw oproep is om GPT4 te verbieden dan moet je heel dat zaakje opdoeken.

Het enige wat je dan bereikt is een onzeker investeringsklimaat in AI en de overgave aan chinese alternatieven. Die zijn natuurlijk niet dom. Het enige wat je kan doen in het betere regelen in de toekomst. Als westerse bedrijven elkaar kapot gaan maken en de grond in boren da blijven enkel goedkope, onbetrouwbare maar zeer complete niet-westerse alternatieven over.

Ik denk dat GPT4 en Microsoft best betaalde deals smeden met content makers voor exclusieve toegang tot kwaliteitsvolle data om zo te voorkomen dat China toch nog westerse data kan scrapen en GPT5 nog betere en recentere input krijgt.

Het handelen in data is een bestaande praktijk en daar moet een AI kader voor komen zodat je geld kan krijgen voor uw dataset.

Ik lees zelfs voorstellen op grootschalige AI gewoon te verbieden. Daar schiet je dus niets met op. Je graaft je eigen graf. Maar goed, er gaan meer stemmen op om de economische groei te stagneren. Dat past mogelijk in dat kader.
En dat is precies wat NYT heeft voorgesteld: geef een zak geld voor het gebruik voor onze artikelen. En daarop heeft OpenAI nee gezegd, met een zaak als gevolg
Stel ik maak een bedrijfje waar je een gepersonaliseerde krant krijgt die ik speciaal voor jouw schrijf, voor iedere klant een volledige nieuwe tekts (laat de fortos even terzijde) Om dit te doen heb ik een abbonement op 27 kranten die ik elke morgen lees. Als ik een persoon ben is dat ok maar als ik een AI ben dan kan dat niet ?
Het systeem kan ineens illegaal zijn. Ik denk dat OpenAI in zijn huidige model geen stand kan houden.
OpenAI is maar 1 van de bekendere spelers.

In china zijn er al modellen die even goed zijn als GPT4 en andere landen (rusland, emiraten, iran) staan ook niet stil.

Dit gaat de media echt niet winnen.
Het NYT bewijs van gebruik van hun content is niet aan te vechten. Als de rechtbank zegt dat het niet fair use is, is er waarschijnlijk geen OpenAI meer. NYT kunnen ze misschien nog afbetalen, maar de volgende class action zijn ze failliet.
En dan zal Google, Microsoft, Facebook, etc NYT weren van hun website en bloed NYT dood.
Nee dit gaat NYT nooit winnen. Het enige wat gaat gebeuren is dat ze hetzelfde gaan doen als met Axel Springer en een licentie afgeven.

Deze rechtszaak is puur een zet in een schaakspel
Als het geen fair use is maakt het niet uit wat NYT doet, de volgende class action nekt ze. Facebook en Google hebben hun LM nog niet gecommercialiseerd, de schade valt wel te overzien als ze de rechtbank niet tegen zich innemen. Met chantage bijvoorbeeld, dan zijn ze zwaar de lul.

Wat er gaat gebeuren als het geen fair use is is dat er een paar voorbeelden gemaakt worden van bedrijven die veel te ver zijn gegaan. Alle bestaande modellen gebaseerd op piraterij gaan de prullenbak in en alle training data voor nieuwe modellen word public domain of gelicenseerd.
Dit is veel te groot om genekt te kunnen worden. We hebben het hier over een grotendeelse herstructurering van onze en de wereld maatschappij.

Europa zal geen keus hebben vol in te gaan in deze voortgang, aangezien het alternatief zal zijn dat ze volledig buitengesloten gaan worden.

Als Europa AI niet accepteert dan zal al het werk wel in China, Bangladesh, India, etc gedaan worden.
Vrijwel al het cognitieve werkt kan door AI's gedaan worden. en de vergaande robotisering zal er voor zorgen dat het meeste handwerk ook door AI's gedaan wordt.

Welke werkgever zal nog concurreren als alles voor bijna gratis in het buitenland gemaakt wordt door AI en robots? Zal Europa dan zich moeten afsluiten van de wereldmarkt. Worden we dan net zoals noord korea en leven in onze kleine bubbel ?

Nee de enige weg is vooruit en vol in op AI gaan.
LM is vooralsnog autocomplete waarmee wat scholiertjes hun huiswerk doen en wat mensen op het kantoor hun nutteloze presentaties nog wat nuttelozer maken. Met af en toe wat komedie als een bedrijf het echt probeert toe te passen zonder een expert om het aan de hand te houden. De economie stort niet in als GPT offline gaat.

Voor beeld generatie hebben Adobe en Facebook al systemen zonder piraterij, jammer dan voor Midjourney.

Codepilot heeft al die piraterij niet nodig, met reddit, stack overflow, github en public domain kom je er wel (even aangenomen dat de github EULA genoeg toestemming geeft, nooit gecontroleerd).

Als de bedrijven geen fair use mandaat krijgen zullen ze gewoon moeten betalen aan Buma type bedrijven voor trainingsdata ipv lukraak jatten.
Over Buma types gesproken. Universiteiten vragen al jaren om een manier op legaal muziek te kunnen gebruiken voor academische toepassingen. Tot nu toe heb ik in de Music Information Retrieval (MIR) community nog niemand gehoord die een legale oplossing heeft gevonden, anders dan zelf de distribiteur zijn (Deezer, Spotify, Google, Apple, ...). Zelfs niet voor de ontwikkeling van niet generatieve algoritmes.

Ik ben daarom een model aan het bedenken dat minder data nodig heeft. De grote partijen gebruiken tussen de 800.000 en 5 miljoen liedjes, dat is voor de meeste onderzoekers simpelweg niet beschikbaar.

Ter indicatie
Ik heb enkele duizenden CD's dat zijn zo'n 40.000 unieke pop-liedjes.
Voor 800.000 liedjes heb je meer dan 40.000 CD's nodig, dat is 200 bananen dozen vol met unieke CD's.
Voor 5 miljoen liedjes heb je minimaal 1.250 bananen dozen vol met unieke CD's nodig [ opslag: zo groot als een woonkamer van 5.5 x 5 m² en 2.5m plafond] en minimaal 125 terabytes aan opslag voor de trainingsdata alleen.

[Reactie gewijzigd door djwice op 23 juli 2024 22:35]

Codepilot heeft al die piraterij niet nodig, met reddit, stack overflow, github en public domain kom je er wel (even aangenomen dat de github EULA genoeg toestemming geeft, nooit gecontroleerd).
Nou in ieder geval staat die EULA niet boven gekozen licenties in code repositories. En ik heb wel geluiden gehoord van mogelijke rechtzaken.
Adobe traint op werk van hun betaalde klanten. Over bespottelijke praktijken besproken. Artiesten trainen hun eigen vervanger.
Adobe heeft echter een contract met hun klanten die voor cloud opslag kiezen, je hebt kans dat het alsnog onaanvaardbaar word verklaart zonder expliciete toestemming ... maar ze staan sterker dan Midjourney.

Image gen is overigens geen echte vervanger, totdat AGI er is zal elk prompt waar niet gewoon 1:1 de compositie van een scene word gekopieert vol zitten met AI'isms. Iemand met artistiek inzicht moet het aan het handje houden, prompted inpainting zal de besten sneller maken.
gewoon moeten betalen aan Buma type bedrijven
Waar is de tijd gebleven dat Buma en consorten met de nek werden aangekeken... :|
Pure science fiction. Sorry jij begrijpt niet hoe LLMs werken en wat ze kunnen.
Wat
Pure science fiction. Sorry jij begrijpt niet hoe LLMs werken en wat ze kunnen.
Wat is precies science fiction en wat begrijp ik niet?

Wellicht heb jij een te hoge dunk over wat wij kunnen in plaats van wat de AIs kunnen ;-)
AI ok, maar binnen het wettelijke. Als "gewone" journalist mag je neem ik aan toch ook niet zomaar een artikel kopieren. Dat is ook gewoon copyright schending. Waarom er dan voor AI een uitzondering zou gemaakt moeten worden zie ik niet.

Denk dat je als artist, journalist of andere manier artistiek bezige bij tegenwoordig maar alvast in je licentie opneemt of ze wat met AI ermee mogen doen of niet :).

[Reactie gewijzigd door Powerblast op 23 juli 2024 22:35]

De vraag is eerst wat er precies is gebruikt voor de training. gaat het hier om volledige artikelen die achter een pay wall stonden of is dit informatie die gewoon door jan en allemaal geschrapt kan worden van een publieke web pagina.

Vergeet ook niet dat Ai's nu ook met video's getrained worden. dus veel nieuwsartikelen zal via meerdere wegen toch wel publiek staan ergens op het internet. Het is een erg grijs gebied om hier werk van te maken.

Daarnaast is het overgrote deel wat een "gewone" journalist doet ook kopiëren van ANP of Reuters of een vertaling van een buitenlandse nieuws artikel. Echt recherche werk word er weinig gedaan, maar dat is voor mij wel een van de weinige zaken waar de NYT een punt zou kunnen hebben. Maar goed betwijfel of dat ook zo is.
Het gaat niet over waar ze het doen, het gaat er over dat ze het doen zonder toestemming. Als ze zouden winnen dan zouden ze deze AI kunnen verbieden, een ai die je alleen maar in china of india mag gebruiken heeft een stuk minder waarde. Waarschijnlijk zijn ze al bezig om nieuwe ai's te trainen met andere imput data, maar ja het word wel steeds lastiger voor hun om data te vinden als steeds meer bedrijven hier tegen in gaan. Ze zullen geld moeten gaan betalen voor het gebruik van hun data.
een ai die je alleen maar in china of india gebruikt die hetzelfde werk doet als iemand hier in europa voor een fractie van het geld heeft een stuk minder waarde?

Vandaar dat al die callcenters en programmeurs ook naar india zijn gegaan. Niet omdat ze zo goed zijn, maar omdat ze goed genoeg zijn en het bakken geld scheelt voor de bedrijven.

Als mensen wat verder dan hun neus lang kijken zullen ze erachter komen dat er veel grotere dingen spelen dan een rechtzaakje tussen OpenAi en NYT.
Je stelt voor om alles opzij te zetten om maar verder te kunnen gaan met technologie. We hoeven niet meer te kijken of het wel eerlijk en rechtvaardig is, want het komt toch wel. "Moeilijk doen", daar moeten ze vooral mee ophouden. Is dat hoe we de AI-race moeten winnen? En nog veel belangrijker, is dat hoe we de AI-race willen winnen?

Als ik dit soort opmerkingen lees vraag ik me soms echt af in wat voor wereld je wil leven. We zijn er toch bij terwijl deze technologie gemaakt wordt? We kunnen toch invloed uitoefenen op hoe we AI een plek willen geven in de wereld?

Als we de "vol in op AI gaan" route volgen zoals je hem nu voorstelt eindigen we in alle doemscenario's die de afgelopen maanden door velen zijn verzonnen ben ik bang.
Dat soort reprecussies zijn *direct* machtsmisbruik en met een beetje pech een route naar het opsplitsen van bedrijven als Google et all.
Als je je machtspositie op search gaat misbruiken om bedrijven zoals de NYT onder druk te zetten hun copyright te laten varen voor een losse nieuwe dienst, dan zijn er nog maar weinig rechters die je hier niet voor zullen veroordelen.
niks repercussies. Het is een direct gevolg van de acties van de media die zichzelf buitenspel zet.
Search zou als jij nog voor je zien gaat toch verdwijnen.

Het is wat een AI model je voorgeschoteld en als je niet in hun services lijst zit dan doe je niet meer mee.

Media gaat gewoon veranderen naar pure content providers. Opinie stukken en eigen interpretaties worden een niche. Het is niet erg moeilijk om te zien welke kant we uit gaan.

Ik denk dat vrijheid van meningsuiting en mediavrijheid zeker tot het uiterste beschermt moet worden.
Maar dat betekent niet dat de media dezelfde macht zal houden die ze nu hebben. De media moet weer terug naar zijn roots en niet naar zoals nu worden geregeerd door advertenties en geld.
Ik kon m'n vinger er al niet helemaal opleggen, je leek een soort onderwater steek te geven aan 'main stream media', maar je post historie vertelt boekdelen.

Journalisten zijn slecht, opiniestukken zijn waardeloos, echte content moet je bij de bron halen (aka, doe zelf je onderzoek }:O )

Daarmee zijn je posts op deze pagina ook een stuk duidelijker op waarde te schatten, en stopt hierbij de discussie, schaken met een duif heeft namelijk geen zin,
Journalisten zijn zeker niet slecht. Je hebt gelijk dat de meeste opiniestukken waardeloos zijn.
echte content moet je bij de bron halen (aka, doe zelf je onderzoek }:O )
aka de AI doet het onderzoek voor je op basis van wat jij als gebruiker belangrijk vind.

Dat mijn post historie boekdelen verteld of dat ik een onderwater steek probeer te geven is jouw
eigen interpretatie.

Ik geef alleen mijn mening over waar ik denk waar we naar toe gaan. Dat jij dit ziet als "duif schaken" is aan jezelf. Laten we over een paar jaar nog maar een keer kijken waar we staan ;-)
AI doet juist niks van onderzoek maar gaat er gratis en voor niks mee op de loop. Is wat mij betreft helemaal niet waar je naar toe wilt. AI gaat er volgens mij voor zorgen dat er hele hopen informatie niet meer publiek beschikbaar komt, omdat ze er anders onder het mom van progress een AI model op gaan trainen.
Waarom zou dit machtsmisbruik zijn?

Men dwingt Google etc om te betalen om hun teksten te gebruiken. Als Google etc beslist we betalen niet meer en gebruiken de teksten en titels niet meer op ons platform?

Dan lijkt het mij dat de Krantenmedia hun hand heeft overspeelt en op de blaren moeten zitten.
Machtsmisbruik is als je een macht op 1 domein (zoekmachines) misbruikt om een ander domein te betreden en oneerlijke concurentievervalsing toepast.
De NYT of enig andere media onder druk zetten door ze uit je zoek-product (het monopolie-domein) te weren als ze je niet de content geven om een AI model mee te trainen (het nog te verwerven domein) is schadelijk voor de NYT, maar is ook een oneerlijke concurentiepositie tegenover andere partijen die een model willen bouwen, maar de NYT niet onder druk kunnen zetten. Heck, wellicht wil de NYT zelf wel een model trainen op hun data, maar zij hebben niet de mogelijkheden om andere kranten onder druk te zetten en de trainings-data op zo'n manier te bemachtigen.
Wel nee, want dat is censuur en daar zijn de overheden niet happig op.
Zeker omdat veel landen met alle plezier in de spaarpot van Google, Microsoft en Facebook willen graaien.

En dan bewijzen ze zelf ineens ook dat ze te machtig zijn geworden en uit elkaar getrokken moeten worden.
Het NYT bewijs van gebruik van hun content is niet aan te vechten.
Voorzover ik zie is er letter nul concreet bewijs.
Het letterlijk kunnen herhalen is op zichzelf al redelijk goed bewijs. zou je eventueel nog kunnen zeggen dat het door een derde op zijn website was gekopieerd maar samen met de access logs en de bekende trainingsset voordat OpenAI hund mond gingen houden is het een verloren zaak.
Tja, er zijn maar zoveel manieren om een zin te schrijven.
het gaat niet alleen om media.
Voor Dall-E wordt internet ook gescrapet. Zelfs mijn portfolio website-tje. Stel ik was professioneel fotograaf of artiest en OpenAI gebruikt mijn beelden om zijn miljoenen bedrijf op te bouwen, dan klopt er toch iets niet?

Op Have I Been Trained kun je een URl invullen om te zien of je beelden voorkomen in div. training sets.
https://haveibeentrained.com/
Het enige wat dit laat zien is hoe fragiel creative werken zijn.
Waarde wordt bepaald door wat mensen ervan vinden en hoe moeilijk het is te maken. Maar als dit door een AI moeiteloos in seconden of soms in real time gegenereerd kan worden dan verliest het zijn waarde.

Al deze beroepen zullen grotendeels verdwijnen of veranderen. Als mijn mobiel betere foto's kan maken met AI dan welke professionele fotograaf dan ook dan zal ik niet betalen voor een fotograaf. Het zelfde geld met de media. De enige waarde zit in de originele bron. En de rest wordt grotendeels overbodig.

Creative beroepen worden hobbies. En mensen doen het omdat ze het leuk vinden, maar niet meer om geld mee te verdienen.
Je mobiel kan geen betere foto's maken dan een professionele fotograaf kan met een goede setup. Je AI kan op beide toegepast worden en dan is de prof altijd beter dan jouw mobiele instagram kiekje.
Sterker nog je hebt geen camera meer nodig, AI doet straks alles zonder camera en verzint je foto met een goede prompt mits goed getraind.
het is maar wat je een "betere" foto noemt. De enige maatstaf voor artistieke producties is het publiek.
Je mobiel kan geen betere foto's maken dan een professionele fotograaf kan met een goede setup. Je AI kan op beide toegepast worden en dan is de prof altijd beter dan jouw mobiele instagram kiekje.
De echte vraag is ook niet wat beter is maar of het goed genoeg is.
Alles in de wereld kan altijd beter. Ook bij menselijke fotograven kun je kiezen tussen goede en slechte fotograven. Iedereen wil natuurlijk de beste maar die zijn duur. Daarom nemen de meeste mensen niet de beste fotograaf maar een fotograaf die goed genoeg is voor de prijs die ze rekenen.

Zo ook met foto's van mobiele telefoons, goed genoeg is goed genoeg. Er worden dagelijks miljoenen foto's gemaakt die goed genoeg zijn voor het doel dat ze dienen. Als het goed genoeg is én goedkoper dan zullen mensen voor de goedkope optie kiezen.
Het was een voorbeeld om mijn punt te maken dat de wereld aan het veranderen is.

Met de huidige technologie kan je via GAN gewoon 1 foto maken en daar een hele 3d VR scene van maken en die op je gemak in 3d terug kijken. Dat kan nu al. Al kan de kwaliteit nog wel wat beter.
Je kan al een 3d scène maken zonder foto, gewoon met prompt.
ja maar voor een bruiloft toch wel leuk dat het wel een afspiegeling is van de werkelijkheid.
Dus een foto is wel nodig denk ik.
Voor een bruiloft wil je sowieso geen AI. Gewoon alles met het handje.
Waarom zou je geen AI willen.

Je wilt dat het zo mooi en gedenkwaardig mogelijk wordt.
As er straks een wedding app is die van jouw foto's een 3d wereld kan generen waar je je hele bruiloft na kan spelen precies zoals je het zelf meegemaakt heb.

Wie zou dat niet willen ?

Of de geboorte van je kind bijvoorbeeld.

[Reactie gewijzigd door dutchruler op 23 juli 2024 22:35]

Nope, al dat AI is nep, nooit gebeurd. Dus bij belangrijke gebeurtenissen geen fake news.
In geval van uw 3D wereld: alles wat buiten de foto valt zal door de AI ingevuld moeten worden, simpelweg omdat het niet gekend is. Dat geldt voor alles buiten de FOV van de camera, maar ook alles dat zich achter zichtbare objecten bevindt. GAN's werken net omdat ze zaken verzinnen.

Leuk, zo een wedding app die een 3D wereld maakt met ongenode gasten. Of waarin ineens een extra bruid is toegevoegd. Die gigantische feestzaal is plots nog maar een paar vierkante meter groot. Zeer representatief voor die belangrijke dag.

Buiten het bijverzinnen van data: reconstructies van een enkele foto zijn nog altijd erg inaccuraat.

Niet veel mensen zitten te wachten op zo een misrepresentaties. Ze verkiezen liever een paar goede foto's die waarheidsgetrouw zijn, maar niet het geheel capteren, dan iets dat het geheel claimt te capteren maar gewoon nonsense toont.

Het valt mij de laatste jaren op hoe weinig inzicht en kennis sommige mensen hebben in technologie, maar er wel wilde claims over maken. Ze hebben eens een paar dingetjes gedaan met de technologie, wanen zich expert, maar hebben amper inzicht in de beperkingen van het systeem. Dit zagen we blij bitcoin, NFT's en nu ook bij AI.

Zeg ik dat AI waardeloos is? Absoluut niet! Bovengenoemde hypeguru's daarentegen...
Duidelijk verhaal. Men loopt net iets te hard weg met AI zonder enige kennis van zaken. Ben zelf meer van de pure fotografie en terughoudend met verbeter tooling. Ja topaz AI kan je foto scherper maken, maar je kan ook een goede lens nemen en scherpe foto's maken. Je kan nu alles aanpassen met een prompt, achtergrond vervangen, objecten verwijderen of toevoegen, vervormingen etc. Kijk je later terug dan weet je niet meer of het echt zo was of fake afbeelding is en dan hebben we het al helemaal niet over de jeugd met die snapchat filters. Die weten eigenlijk al helemaal niet meer beter...
Of de geboorte van je kind bijvoorbeeld.
En dan gevlagd te worden door de AI van eenderwelk bedrijf je gebruikte. Welke dan misschien ook je naam als 'person of interest' aanbied aan nationale of zelfs internationale opsporingsdiensten. Met alle gevolgen van dien.

Wat jij normaal vind, of generiek wat in Nederland als normaal, inoffensief of niet kwetsend word gezien, daar denken onze Amerikaanse vrienden (of uit welk ander land waarvan je de AI gebruikt) heel anders over. En reageren daar dan ook op.

Ik mag hopen dat je volledig bij zinnen bij de geboorte van je kind bent, want dan kan je dat binnen een oogwenk weer voor de geest halen met de AI die al in je harses is geintegreerd.
Een foto is geen afspiegeling van de werkelijkheid. Een foto is een representatie van je verwachtingen. Zelfs wat je ogen zien is niets meer dan een benadering van wat er werkelijk gebeurd.

Mijn linker oog is dermate beschadigd dat er een groot gitzwart web in mijn zicht zichtbaar was. Die zie ik al ruim een jaar niet meer. Niet omdat het er niet meer is, maar omdat mijn hersenen het zichtverlies invullen/aanvullen.
Of te wel. Werken met de middelen die je hebt :-)

Daarnaast is voor de meeste mensen een foto wel waardevol. Uitzonderingen zullen er altijd wel zijn.
Daar moeten we ons niet te veel druk over maken. Als een oplossing voor 95% van de mensen werkt dan hoeven we niet te stoppen omdat het voor 5% niet werkt.
Een foto camera vult helemaal niks aan en legt precies vast wat op dat moment gebeurd is conform de fysieke mogelijkheid van hardware. Wat jouw hersenen er van maken doet er verder niet toe. Niemand zit te wachten op AI interpretatie van wat er werkelijk gebeurd is bij dit soort belangrijke gebeurtenissen.
Nee lenzen vervormen. Een camera kan de werkelijke belichting niet benaderen. Diepte valt weg. Beelden worden nabewerkt. Kleuren wijken af. Niets aan een foto is hoe het echt is.
Ceci n'est pas un pipe, zeker weten. Maar een camera kan alleen maar waarnemen wat hij ziet, en gaat er niet zelf details bijverzinnen. Daarnaast proberen de fabrikanten wel een zo getrouw mogelijke weergave neer te zetten (anamorphic lenzen en fish-eyes daargelaten). Dat dat niet perfect lukt lijkt me logisch, maar het streven is er wel.
AI heeft daarintegen een ander streven, namelijk het genereren van informatie op basis van modellen.
Echt binnen de fysieke limieten. Niks verzonnen dus zoals AI dat doet.
Hmm. Er is een verschil tussen wat je hersenen vertalen uit beelden en tussen foto's. Je hersenen maken een beeld conform de getrainde verwachting. Dezelfde beelden zullen anders worden gezien door verschillende mensen en culturen. Foto's echter zijn gewoon de realiteit (als we de zuivere vorm nemen, dus een CCD chip die per pixel frequentie en sterkte wegschrijft naar file -én onbewerkt blijven na afloop) . Met natuurlijk de kanttekening dat we foto's altijd moeten omzetten naar waardebereiken die normaal zijn voor ons om waar te nemen. Daarom moeten we astrofoto's in UHF (rontgen) of ULF (infrarood) vertalen naar voor ons zichtbaar licht. We zien uiteindelijk maar een heel klein deel van het electromagnetisch spectrum.

[Reactie gewijzigd door oltk op 23 juli 2024 22:35]

Ik vrees ook dat in de toekomst een artistiek werk gewoon z'n waarde volledig verliest. Als je een schilderij (om even een voorbeeld te noemen) koop van een schilder, dan heb je er misschien een paar duizend euro voor over. Maar als zoals je zegt een AI het op vijf minuutjes doet, ja dan geef ik nog 5 euro. Denk dat het nut om een AI ervoor in te schakelen commercieel ook weer weg is.
Het gaat erg moeilijk worden want enerzijds is het super tof iets te hebben wat door echt mensenwerk is gemaakt en waar tijd en liefde is in gestopt, maar anderzijds is het niet meer na te gaan of een AI dit gedaan heeft of een mens.

Ze zullen vast wel een soort van NFT of crypto beveiliging willen bedenken om dat zeker te kunnen stellen, maar er zullen net zoveel criminelen hun best doen om die beveiliging weer te omzeilen.

Het is een vreemde tijd.
Ik vermoed dat er in de toekomst wel een label zal komen dat je wettelijk moet toevoegen of iets dergelijks. Generated by AI. No offence, maar anders is het gewoon boerenbedrog. Zelfde in mijn ogen als dat een echte van gogh wordt nagemaakt.
En je zal jarenlang genoten hebben van een schilderij zonder zo'n label om er dan uiteindelijk achter te komen dat de label cryptology gehackt was en het toch door AI gemaakt was.

Hoe zal je je dan voelen ?
Slecht :), daar mag je van op aan. Ik wil als consument gerust betalen voor iets dat AI maakt, maar ik wil het dan ook aan duidelijk aangegeven zien zodat ik het naar waarde kan schatten. Vervalsingen zijn van alle tijden, maar dat maakt het daarom niet beter.

Als je het echte spul denkt te kopen en daar ook voor betaald, dan verwacht je dat ook te krijgen.

[Reactie gewijzigd door Powerblast op 23 juli 2024 22:35]

Dus het wordt een interessante tijd die we tegemoet gaan komen.

Ik denk trouwens dat jouw mening en inzichten wel zullen verschuiven naarmate de technologie meer en meer verweven is in onze samenleving.

Dat had je met elektriciteit, de auto, internet, mobiel ook.
Hoezo? Door de opkomst van betaalbare cameras voor de consument is de echte fotograaf ook niet werkeloos geworden, en met alle mobieltjes in omloop, waardoor nu echt iedereen een camera in handen heeft, is ook de kunst-schilder niet uitgestorven. Het gaat erom dat je iets speciaals in handen krijgt, gemaakt met vakmanschap, en dat blijft.
Vermoedelijk gaan er ook getalenteerde AI-kunstenaars ontstaan (of ze zijn er al, maar ik ken ze niet), naast de bestaande kunstenaars.
Gemaakt met vakmanschap, daar sla je wat mij betreft de nagel op de kop. Veel vakmanschap zit er niet meer tussen vind ik, want het is een massaproduct geworden als een AI het voor je maakt. AI kunstenaar heb je wel een punt, dat zie ik er ook nog wel van komen. Gaat volgens mij dezelfde richting uit als de ambachtelijke bakker en het supermarktenbrood. Bij de ene betaal je maar, maar is het spul nog zelf gemaakt, bij de andere wat minder, maar krijg je een massaproduct. Het ene is niet slechter dan het andere daarom, maar ik weet wel graag waar ik voor betaal :).

Ik snap het nut van AI en ik zie er wel degelijk een toekomst in, ik vind gewoon dat het te gemakkelijk goed gepraat wordt dat het spul met alles en nog wat wordt getrained. Een wettelijk kader hiervoor is mijn inziens echt wel nodig. Want op dit moment doen ze maar wat. Zolang er geen duidelijke regels zijn ga je volgens mij dit soort rechtzaken ook blijven krijgen. Dus ook voor de ontwikkeling van AI lijkt mij duidelijk regels een voordeel, je weet wat wel en niet mag.

Wordt in ieder geval de komende 10j een leuke tijd om te zien welke richting het uit gaat. Zoals hierboven gezegd zal het voor iedereen aanpassen worden eens het meer verweven is.

[Reactie gewijzigd door Powerblast op 23 juli 2024 22:35]

Dan nog heb je te maken met copyright. Of iets moeilijk is of niet, dat is geen enkele discussie.
Verder als het zoals je zegt dingen zijn die moeiteloos in seconden te genereren is, dan zou AI het toch ook zonder dat voorbeeldmateriaal moeten kunnen?
Precies. Daarom denk ik ook dat de media zich in haar voet schiet hiermee door nu moeilijk te doen.

vooruitgang is toch niet tegen te houden
Dat is een interessante website! Ik zie dat 39 afbeeldingen van mijn website gebruikt werden. Dat had ik niet verwacht, aangezien het geen creaties zijn maar gewoon illustraties of foto’s bij artikels.
Welke systemen in China zijn dat dan?
Deze youtube opgenomen live stream geeft je wel een goed beeld.
https://www.youtube.com/watch?v=xTVmmegfijE&t=2522s
De gelinkte paper is een onderzoek van Apple onderzoekers. Niet bepaald een Chinese toko.
Gelinkte paper? wat bazel je nu weer.

Kijk gewoon de video en leer uwzelf.

Wist je dat "Choe Yun" de drukpers al had uitgevonden 150 jaar voor Johannes Gutenberg

bijna al het onderzoek zijn vervolgstappen van andere. Wees nou niet zo koppig en probeer een beetje mee te blijven ;-)
Nee, dat wist ik niet.
"The number of unique Chinese characters used through the ages, though the exact figure is unknown, is safely in excess of 100,000. "

Ik zou niet graag de 'zetter' zijn voor die drukpers.
Nee, dat wist ik niet.
"The number of unique Chinese characters used through the ages, though the exact figure is unknown, is safely in excess of 100,000. "
Die 100.000 zijn door de geschiedenis heen, niet tegelijkertijd. Chinees is niet eens 1 taal maar een groep van talen. Het is een beetje alsof je zegt dat het "Europees" wel 100.000.000 woorden heeft gehad sinds het onstaan van het Romijnse rijk. Dat klopt maar niemand kent daar ook maar 1% van en het Latijn van 2000 jaar geleden is onbegrijpelijk als je modern Frans of Italiaans spreekt (ook al zijn er best wat overeenkomsten). Een Italiaan van nu kan prima toe zonder ooit een woord Spaans te leren, laatstaan het Spaans van 500 jaar geleden of het Latijn van 2000 jaar geleden.
Zo ook voor "Chinees".

Een normale Chinees leert op school ongeveer 5000 karakters. Uiteraard zijn er grote verschillen tussen mensen afhankelijk van opleiding en intelligentie enzo.

Als je een keer goed hoofdpijn wil hebben moet je eens proberen een Chinees woordenboek te gebruiken (zonder AI beeldherkenning). Succes.

[Reactie gewijzigd door CAPSLOCK2000 op 23 juli 2024 22:35]

Dat is echt niet te doen. Er is maar 1 uitspraak mogelijk. Wat een ongelofelijkegeld er spilling is dit...... Allemaal geld wat ook gebruikt had kunnen worden voor oplossingen.
Ik weet niet of het te laat is. Als je zo’n LLM een beetje nuttig wil houden dan moet hij continue met actuele data gevoerd worden. Anders is het een soort tijdmachine naar de kennis en informatie van 2021. Grappig maar niet nuttig.
Er zijn twee aspecten hierin. De data die gebruikt is om het model te trainen en de informatie waar het getrainde model toegang tot heeft bij het formuleren van zijn antwoorden.

Het eerste hoeft maar 1 keer gedaan worden. En de data die nodig is om betere modellen te maken wordt wordt steeds beter van kwaliteit en minder van kwantiteit. Je hebt al modellen die gewoon op je mobiel werken en die al goed bruikbaar zijn voor vele taken.

Dan actuele data is waar de media en andere content providers een rol spelen. Want uiteindelijk is een LLM in basis maar een uit de kluiten gewassen autocomplete. Je hebt waarheden nodig om het ook daadwerkelijk goed te kunnen gebruiken.

Daarom zie je dat de grotere LLMs gebruik maken van plugins en webhooks.
Zo heb ik bijvoorbeeld een custom GPT gemaakt in openai die verbinding maakt met een webservice die ik geschreven heb om informatie uit onze ERP en CRM te halen.
Stel, je bent een leerling journalistiek.

Je neemt een abonnement op de NYT en leest artikelen voor de training van jezelf.

Later ben je journalist en schrijf je artikelen met de stijl van NYT. Wellicht zelfs stukjes, onbewust, hetzelfde.

Je bent commercieel bezig en een groot publiek ziet wat jij genereert.

Wat is het verschil met een taalmodel?

Daarnaast mist de NYT echt totaal geen inkomsten hierdoor. Ik ben zeer benieuwd hoe ze gaan bewijzen schade te hebben geleden. Lezen mensen geen krant meer omdat een Amerikaan poëzie vraagt aan ChatGPT? Zolang het niet 1:1 bij gebruikers voorgeschoteld wordt lijkt het mij geen gederfde inkomsten te zijn.

Daarnaast, vraag ik mij af of het om gratis te lezen teksten gaat of achter een paywall. Dat maakt voor mij wel een verschil. De een is vrij te consumeren (niet 1:1 doorgeven, maar wel lezen/trainen) en de ander moet je duidelijk betalen voor het consumeren.
Mensen die kennis innemen om later te gebruiken is van alle tijden; dat is inherent aan menselijk functioneren. We leren allemaal continu dingen uit wat anderen zeggen en schrijven. Een site als NYT schrijft de inhoud wetende dat het gelezen wordt door mensen met verschillende doelen; dat was vooraf bekend en toegestaan (na betaling abonnement). Maar een AI-leermodel is een commercieel product, geen mens, en dus zouden daar andere regels voor kunnen gelden. Vooral als dat beter is voor de economie en de samenleving als geheel. Dat inhoud publiek is wil niet zeggen dat iedereen er alles mee kan doen.

Er moet een norm tot stand komen met oog voor de verschillende stakeholders om te komen tot een goed werkbare situatie. Miljarden teksten innemen, niks betalen, en de contentmakers niet fatsoenlijk om toestemming vragen, is geen werkbare situatie.

NYT zet een paywal in, net als alle andere op abonnementen gebaseerde nieuwsmedia. Alleen robots krijgen die paywal niet te zien, want Google Search moet natuurlijk alle content kunnen indexeren voor vindbaarheid. Dus ook de scrapers voor AI-data komen door de betaalmuur. Dit is reden te meer dat er hier iets niet in de haak is.

Strengere regels zouden AI lang niet gelijk onmogelijk maken. Zou er bijvoorbeeld een verplicht contract moeten zijn tussen contentmakers en AI-makers, zodat er toestemming is en overeengekomen betaling, dan kunnen AI-makers nog steeds hun producten maken. Ze kunnen content licenseren of zelf laten produceren. Het is niet nodig om bestaande markten uit te buiten voor dit nieuwe ding.

[Reactie gewijzigd door geert1 op 23 juli 2024 22:35]

Net als het inherent aan taalmodellen is, toch? Nogmaals, wat is het verschil?

Beide hebben informatie nodig om te leren.

En dan snap ik dat teveel quoten, en zeker zonder bron, een ding kan zijn.

Misschien moeten we maar een copyright wet aanvulling maken dat openbare informatie vrij te gebruiken is, zolang het niet 1:1 herhaald wordt.

Sterker nog, bijna alle journalisten halen 'gratis' hun informatie op. Dat mag dus wel. Lekker verdien model.
Gratis info halen, verhaaltje ervan typen, drukken. En klagen als een ander gratis info haalt. Lol.
En ja, ik snap dat het typen en drukken geld kost. Maar ik vind dan ook dat ze hun bronnen altijd moeten betalen. Ook bij ongelukken, politici enz. Ben benieuwd of ze het dan nog raar vinden dat info niet gratis kan zijn.
Verslaggevers halen gratis informatie op, 'boots on the ground' journalisten in bijvoorbeeld oorlogsgebieden niet. Je hebt ook nog onderzoeksjournalistiek die daadwerkelijk onderzoek doen.

Je verward journalistiek met foxnews / hart van Nederland / crappy nieuws shit op npo wat weer mag.

Of denk je dat Bellingcat / Follow the Money hun nieuws van de internationale newsfeeds halen?
Wat is het verschil met een taalmodel?
Dit punt wordt heel vaak aangehaald. Dan verwijs ik graag naar de uitvinding van de drukpers en de oorsprong van copyright.

Hoezo is een gigantische schaalvergroting niet een verschil?
Streamen is gewoon dvds versturen maar dan op het internet

Tractors zijn hetzelfde als paarden maar dan iets sneller

De drukpers is gewoon monniken die boeken overschrijven maar dan iets sneller
Auteursrecht onstond pas echt toen de drukpers het noodzakelijk maakte, omdat daarvoor grootschalig boeken kopiëren niet een ding was.

Ik denk dat LLMs evengoed zo'n grote verandering zijn.
De DMCA en EUCD geven zoekmachines vrijstelling en daarvoor gaf de traditie van robots.txt ze een schild (er was een impliciete licentie) en het argument van fair use was veel sterker.

LMs waren nieuw, dus robots.txt of afwezigheid daarvan is geen impliciete licentie en het fair use excuus is zwak.
Het verschil lijkt me niet dat eigenaren van leermodellen het nu pas gebruiken, maar dat de hoeveelheid gebruik samen met de financiële risico's merkbaar voor de eigenaren van de content is toegenomen dat ze er nu pas een probleem van maken.

Digitale scraping voor leermodellen lijkt me al te bestaan sinds systemen voor optical character recognition en vertaalsystemen ontwikkeld en gebruikt worden, wat ook al in de vorige eeuw ook werd gedaan. De zoekmachines hebben dus hooguit eerder meer aandacht gekregen, niet dat ze er perse eerder waren.

Het lijkt me dus vooral een herhaling van weinig tot geen aandacht voor risico's van uitdelen van gegevens hebben en opportunistisch andermans gegevens nemen en gebruiken zolang het kan. De persoon of het bedrijf dat ze nogal vrij weg geeft komt achteraf pas tot de conclussie dat een ander er te veel voordeel bij heeft omdat de nemers en gebruikers de belangen van de eigenaar minder vinden dan hun eigen belang. Zo onbelangrijk dat ze vaak weigeren eerst redelijk te onderhandelen over de waarde.

[Reactie gewijzigd door kodak op 23 juli 2024 22:35]

Ik hoop op een verbod op inname van auteursrechtelijk beschermd materiaal voor AI. Het zou beter zijn als AI-makers de content moeten kopen, in licentie moeten nemen, zelf moeten laten schrijven, of anderzijds. Dan zijn de inspanningen en de inkomsten beter verdeeld. Als dit betekent dat vele nu bestaande leermodellen verboden worden, inclusief GPT-4, Stable Diffusion enzovoort, dan is dat maar zo.
Dit houdt in de praktijk in dat enkel bedrijven als Google, Facebook of Disney een (legaal) AI model kunnen maken, omdat minder kapitaalkrachtige partijen niet in staat gaan zijn alle auteursrecht-houdende partijen te compenseren (de bijbehorende administratie alleen is al genoeg om veel partijen uit te sluiten). Ook zullen landen die het niet zo nauw nemen met Westerse regelgeving gewoon doorgaan met het ontwikkelen van hun eigen AI modellen. Met jouw voorgestelde maatregelen zouden we onszelf enkel in de voet schieten.
Als je de licentiekosten niet kan betalen is het wellicht niet handig om een bedrijf te beginnen? Dit geldt toch ook voor muziek en films?
met terug werkende kracht.
want anders zit je chatgpt alleen recht te geven en kunnen andere niks meer dan toe kijken.
maar off dat echt slim is weet ik niet zo.
want andere landen die helemaal niks om die wetgeving geven zullen alleen meer van profijt krijgen.
Ben benieuwd hoe andere Tweakers daar tegenover staan.
Je hebt mensen die tweaken, en je hebt tweakers. Om de vraag vanuit een "science en technology studies"-benadering te beantwoorden: tweakers steunen over het algemeen alles wat de autonomie van technologische systemen t.a.v. sociale systemen versterkt. Dit op basis van retorieken van onvermijdelijkheid ("Het is nu toch al te laat voor dat.") en het inroepen van onwenselijke gevolgen ("... breekt het internet"). Technologie is voor tweakers nooit historisch, cultureel en economisch contingent. Technologie is God, en de mens mag slechts die ruimte innemen die God hem toestaat in te nemen, steeds meer in de marge van de technologische schepping.

Dus wanneer de enshittification van technologie, die in de nabije toekomst geassocieerd zal worden met het ruimer toepassen van praktijken die men als "A.I." zal branden, er voor zorgt dat jou baan op de helling komt te staan, dan is dat brute pech. "Het is onvermijdelijk, en je bent toch niet tegen Vooruitgang? Als het aan jou lag zouden we nog allemaal in grotten wonen, en weet je toch dat nieuwe technologie altijd voor nieuwe banen zorgt?" Dat laatste valt trouwens niet te bewijzen, je moet gewoon maar hopen dat dat zo zal zijn. Wat men ook vergeet er bij te zeggen is dat de nieuwe banen vaak deskilled zijn en existentieel vervreemdender (ergo meer zielsdodend) dan de banen die ze vervingen.
Je voert eigenlijk alleen maar drogredenen aan die vanuit een management en politiek standpunt opgevoerd worden om maar door te gaan op de ingeslagen weg, niet vanuit een tweakers standpunt.

Zal wel gevoed zijn vanuit je 'science en technology studies' standpunt.
Goed punt. Maar als een persoon kennis opdoet via de NYT en daarmee geld verdient. Moet die persoon dan ineens geld gaan geven aan NYT? En moet de NYT geld gaan geven aan al hun nieuwsbronnen omdat zij er geld mee verdienen?
Ik zou hier zeggen: voor individuele personen is het oké, maar voor massale datasystemen niet. Dat is een mening - we zullen zien hoe wetgevers en rechters er tegenaan kijken de komende jaren.

Een brede set nieuwsmedia en contentmakers zijn nodig voor een geïnformeerde samenleving wat mij betreft, en als de leermodellen te veel ruimte krijgen dan krijgen die bronnen het te lastig.

Leermodellen zullen naar mijn idee toch al verschuiven naar op maat gemaakt trainingsmateriaal - een groot net uitwerpen op internet levert wel veel, maar niet het beste materiaal op. Het vereist nu ook al veel toevoeging en afwerking om te komen tot trainingsdata.

Als AI-makers een redelijke afdracht zouden moeten betalen om auteursrechtelijk beschermd werk in te nemen betekent dat niet direct hun einde. Allerlei markten hebben te maken met kosten aan leveranciers of royalties - de vroege AI-makers willen wat mij betreft iets te veel de normaal bepalen in hun voordeel.
Dat je een website mag indexeren betekent niet dat je alles mag doen met de inhoud wat je maar wil. Er kan nog steeds auteursrecht op die inhoud rusten. OpenAI toont soms de letterlijke inhoud van NY Times artikelen, inhoud waarvoor lezers een abonnement zouden moeten nemen. De krant vindt dat inbreuk op haar auteursrecht en ondermijning van haar business model.

[Reactie gewijzigd door Blaise op 23 juli 2024 22:35]

Maar wat als ik een review op Tweakers lees en op basis daarvan (al dan niet in combinatie met informatie van andere bronnen) iemand een email stuur met het advies om dat te kopen (of juist niet te kopen), mag dat dan wel? En als we het beperken tot informatie waar je voor moet betalen: mag ik niets met de kennis doen die ik op doe via mijn abonnement op de NRC? Het is best wel een grijs gebied. Waar leg je de grens van wat nog wel mag en wat niet? Je zou nog kunnen beargumenteren dat er een verschil is tussen prive/amateur gebruik en professioneel/commercieel gebruik, maar ook dat is lastig. Dan zou iedere journalist, schrijver of wetenschapper alles zelf moeten uitzoeken en geen kennis uit bestaande content mogen gebruiken.
Maar wat als ik een review op Tweakers lees en op basis daarvan (al dan niet in combinatie met informatie van andere bronnen) iemand een email stuur met het advies om dat te kopen (of juist niet te kopen), mag dat dan wel?
Jij als mens? Prima.

Jij als AI? Dat is een punt van discussie. Mogelijk moet je naast de aankomende wet- en regelgeving ook de voorwaarden van T.net erop naslaan.
Ik heb geen uitgesproken standpunt in deze discussie, en volg het met interesse, maar er is wel iets wat AI onderscheidt van traditionele computertechnologie. AI "leert", vindt patronen en combineert die "kennis" en patronen tot output. Op een vergelijkbare manier dat een mens leert en informatie combineert.

Dus als ik boeken en artikelen lees en nieuws kijk en ik combineer al die info tot nieuwe inzichten of ik reproduceer feiten in mijn eigen woorden, ben ik als mens dan ook aan het plagieren? Moeten bijvoorbeeld experts aan talkshowtafels ook geld afdragen aan hun bronnen?

Ik zeg niet dat AI 100% hetzelfde is als het leren van een mens. En zeker als er een verdienmodel achter zit moeten de spelregels duidelijk zijn, maar het is naar mijn mening niet hetzelfde als het kopiëren en delen van beschermde content om daar geld mee te verdienen. Maar wat dan wel mag en of daarvoor betaald moet worden is nu gewoon onduidelijk omdat de wet achterloopt op de mogelijkheden van de technologie.
Dus als ik boeken en artikelen lees en nieuws kijk en ik combineer al die info tot nieuwe inzichten of ik reproduceer feiten in mijn eigen woorden, ben ik als mens dan ook aan het plagieren?
Je vergelijkt nu een mens met een hedendaagse 'AI'. Dat is appels met konijnen vergelijken.

Een hedendaagse 'AI' is niets anders dan een computer die data verwerkt. Niet alle data mag je voor elke reden (in bulk, geautomatiseerd) verwerken.

De mooiste oplossing zou wetgeving zijn die de herkomst van elke AI-interactie inzichtelijk maakt, zodat duidelijk is welke data onder welke licentie gebruikt is.

[Reactie gewijzigd door The Zep Man op 23 juli 2024 22:35]

Je vergelijkt nu een mens met een hedendaagse 'AI'. Dat is appels met konijnen vergelijken.
Waarom?
Ik vind het een heel terechte vraag wat nu echt het verschil is tussen een mens en een machine?
Een hedendaagse 'AI' is niets anders dan een computer die data verwerkt. Niet alle data mag je zomaar (in bulk) verwerken.
Welke wetgeving heb jij in gedachte? Ik ken die term eigenlijk alleen vanuit de surveillance hoek (de sleepnetwet) maar ik vind die wet niet heel relevant in deze situatie, die wet gaat vooral over privacy en de relatie burger-staat.
De mooiste oplossing zou wetgeving zijn die de herkomst van elke AI-interactie inzichtelijk maakt, zodat duidelijk is welke data onder welke licentie gebruikt is.
Ik zie niet hoe dat zou moeten werken met LLMS. Bij ieder antwoord krijg je dan miljarden bronnen die allemaal voor 0.001% zijn gebruikt waarvan het allergrootste deel niks met het onderwerp te maken heeft.

We zien soms complete stukken trainingsdata uit LLMs komen die aan 1 bron te koppelen zijn maar dat zijn fouten in het systeem. Je kan er normaal gesproken niet van uit gaan dat de antwoorden van een LLM aan een bron te koppelen zijn.


Ik wil hier even een stapje terug doen naar de vraag waar ik mee begon: Wat is het verschil tussen een mens en een AI? En waarom doet dat er toe?

Onze wetgeving rond kennis, leren en copyright is deels gebaseerd op hoe mensen werken. Als we iets horen, zien of lezen dan onthouden onze hersenen dat vanzelf en kunnen dat deels reproduceren en dat mag. Het is niet mogelijk om het te verbieden of te reguleren want we hebben er geen controle over en kunnen ook niet in het hoofd van mensen kijken om te zien wat ze denken. We zijn zelfs jaren van ons leven bezig met lesboeken lezen en de kennis daarvan ons eigen maken en we geven er zelfs subsidie op. Je mag daarna zelf je eigen boeken schrijven met precies dezelfde kennis er in zolang je het maar in je eigen woorden doet. Waarom wordt het anders als een computer dat doet?

In het geval dat een LLM een exacte kopie van de bron geeft dan kunnen we dat wel beoordelen met de huidige copyrightwetgeving maar wat NYT wil gaat veel verder. NYT wil betaald krijgen omdat artikelen van NYT gebruikt zijn om de AI te trainen. Mijn eigen hersenen zijn ook getrained op krantenartikelen. In mijn leven heb ik er duizenden gelezen, geschreven door professionele journalisten en redacteuren die me niet alleen kennis over de wereld hebben gegeven maar ook over taal en communicatie.
Alles wat ik hier op Tweakers schrijf is op in zekere mate beinvloed door alles wat ik ooit heb gelezen. Gelukkig krijg ik geen rekening voor iedere post hier op Tweakers omdat ik in 1993 ooit een keer een Volkskrant heb gelezen.

Vanuit menselijk oogpunt is dat helemaal redelijk en normaal maar de logica is vooral gebaseerd op "zo werkt het menselijke lichaam nu eenmaal". Zodra techniek een rol begint te spelen wordt het lastiger. Dan wippen we heen en weer tussen de logica die gebaseerd is op het menselijke lichaam en andere (vooral financiele) belangen.

Als we zeggen "zo werkt de mens nu eenmaal" zouden we ook kunnen zeggen "zo werken computers nu eenmaal". Of dat redelijk of wenselijk is laat ik even in het midden maar ik vind dat er een hoop moeilijke vragen zijn die nog geen bevredigend antwoord hebben. (Even afgezien van circulaire redeneringen als: "computers zijn anders omdat de wet zegt dat er een verschil")
Vragen als:
Wat is het verschil tussen mens en machine?
Wat is het verschil tussen leren en kopieren?
Wat is het verschil tussen menselijk leren en machinaal leren?
Is er uberhaupt een verschil?
Wat is het verschil tussen iets zelf doen of iets met een hulpmiddel als een computer of een bril of een samenvatting te doen?
In welke gevallen is ons menselijke lichaam de maatstaf en wanneer/waarom niet?
[...]

Waarom?
Ik vind het een heel terechte vraag wat nu echt het verschil is tussen een mens en een machine?
Juridisch gezien is verwerking door een natuurlijk persoon en verwerking door een computer iets anders. Waarom dat is mag je aan rechtsfilosofen vragen. Ik ben niet bezig met navelstaren. Dat laat ik aan experts over.
Juridisch gezien is verwerking door een natuurlijk persoon en verwerking door een computer iets anders. Waarom dat is mag je aan rechtsfilosofen vragen. Ik ben niet bezig met navelstaren. Dat laat ik aan experts over.
Top, dan zorg ik voor dat dat deel. :)

Technisch gezien heb je helemaal gelijk maar ik vind het eigenlijk niet zo interessant wat er precies in de wet staat. Alle wetten zijn menselijke constructies die gemaakt zijn met een bepaald doel. De wet is zelf geen doel op zich. Wetten moeten met de wereld meebewegen. Dat kan alleen als je snapt waarom wetten zijn zoals ze zijn. Het blind toepassen van wetten met geen ander doel dan de wet uitvoeren zien we als sociaal dieptepunt, dan krijg je een "toeslagenschandaal". Autoritaire systemen zijn daar dol op. Daarom is het belangrijk om steeds de vraag te blijven stellen waarom wetten zijn zoals ze zijn en of die onderbouwing nog stand houdt.

Ik vind het een beetje jammer dat je het als "navelstaren" omschrijft terwijl nadenken over het doel en de rechtvaardigheid van wetten juist de kern is van de rechtstaat. Maar goed, ieder z'n ding ;)
Dat laatste, explainable AI, is oa bij LLM's onmogelijk. Dat ligt aan de manier waarop een neuraal netwerk "leert".
https://youtu.be/PcfXjfyPDgE?si=cTne4lhl4wlYKiVe

Edit: typo

[Reactie gewijzigd door Polydeukes op 23 juli 2024 22:35]

Dat laatste, explainable AI, is oa bij LLM's onmogelijk. Dat ligt aan de manier waarop een neutraal netwerk "leert".
Het is bij het geven van een antwoord mogelijk om een overzicht van alle datasets en bijbehorende licenties te tonen waarmee een AI-model getraind is, ongeacht welke data binnen die datasets is gebruikt. Als alle data die gebruikt is om een AI te trainen legaal is, dan kan het antwoord van de betreffende AI enkel op legale data gebaseerd zijn.

[Reactie gewijzigd door The Zep Man op 23 juli 2024 22:35]

In het geval van LLM's zoals GPT van OpenAI zal dat een enorme lijst zijn. Hoe zie je dat voor je?
In het geval van LLM's zoals GPT van OpenAI zal dat een enorme lijst zijn. Hoe zie je dat voor je?
Aan de kant van OpenAI goed administreren, en de administratie op een gestructureerde manier aan abonnees (of openbaar) aanbieden.

[Reactie gewijzigd door The Zep Man op 23 juli 2024 22:35]

Maar toch acht ik dat niet haalbaar. Óf je krijgt áltijd een lijst met álle bronnen (cq het hele internet), óf de lijst is een wilde gok. In een neural network weet je gewoon niet welke bronnen bijdragen aan de output. Dat heeft niks met administratie te maken, maar met hoe zo'n netwerk werkt.
Maar toch acht ik dat niet haalbaar. Óf je krijgt áltijd een lijst met álle bronnen (cq het hele internet), óf de lijst is een wilde gok.
De kans is groot dat toekomstige AI-modellen niet meer vrij getraind mogen worden met data van het internet en dat bestaande modellen daarom niet meer gebruikt mogen worden, want geen licentie en geen fair use. Dit lijkt mij dus geen probleem.

En als het dan toch nog niet haalbaar is (wat twijfelachtig is, gezien een OpenAI gewoon gebruikte datasets kan bijhouden), dan is het alternatief om dergelijke modellen niet meer te gebruiken.

[Reactie gewijzigd door The Zep Man op 23 juli 2024 22:35]

Allemaal prima, maar dat neemt niet weg dat bij een neuraal netwerk niet te achterhalen is hoe de output tot stand komt. Alleen vanwege achterhaalde auteursrechtenwetgeving het daarom verbieden is imho wel erg drastisch en werkt innovatie tegen.
Alleen vanwege achterhaalde auteursrechtenwetgeving het daarom verbieden is imho wel erg drastisch en werkt innovatie tegen.
Als je met innovatie 'illegaal gebruik maken van de data van anderen voor een commercieel doel' bedoelt, dan is het niet erg dat daar een stokje voor wordt gestoken.
Maar is het illegaal? De wet houdt geen rekening met "plagiaat" door een "machine". Daar gaat een rechter zich nu dus over buigen...
Maar is het illegaal?
Nog niet. Komt waarschijnlijk wel. Het gaat om geld, en geld verdienen aan het de inhoud van hey werk van een ander zonder compensatie wordt niet positief tegenaan gekeken.
Een zoekmachine mag ook niet alles weergeven volgens mij, en dat is ook een machine.
Als je het Bing model gebruikt dan krijg je meestal gewoon een lijst met referenties hoor. Dat zal met ChatGPT 4.0 wel niet kunnen, maar onmogelijk is anders.
In de praktijk krijg je dan een half A4 tje als antwoord op je vraag, en honderden paginaś aan bronverwijzingen, geen mens die dat allemaal gaat lezen of interessant gaat vinden, behalve dan op geld beluste advokatenkantoren.
In de praktijk krijg je dan een half A4 tje als antwoord op je vraag, en honderden paginaś aan bronverwijzingen, geen mens die dat allemaal gaat lezen of interessant gaat vinden, behalve dan op geld beluste advokatenkantoren.
Als die honderden pagina's op te vragen zijn met een druk op een knop en dat voorkomt dat aan illegale data verdient wordt: prima.

Die honderden pagina's hoeven er geen honderden te zijn wanneer enkel gerefereerd wordt naar (legale) datasets. Een dataset is bijvoorbeeld wat gebruikers zelf aanleveren, en waar ze akkoord mee gaan dat dat gebruikt wordt om een AI te trainen. Dat is een enkel zinnetje. Een ander zinnetje kan zijn dat enkel public domain data is gebruikt, met een link naar een regelmatige dump van bronnen. Nog een zinnetje kan zijn dat data ABC gebruikt is onder licentie XYZ. Dan ben je al een eind op weg.

Ja, dat is verantwoording afleggen. Eng, maar nodig. ;)

[Reactie gewijzigd door The Zep Man op 23 juli 2024 22:35]

Ze claimen dat openAI de inhoud heeft overgenomen. Dit is gewoon een interesante use case om te bekijken hoever openAI kan gaan en wat grote(re) bedrijven tegen de claims aan kunnen.

Ik hoop niet dat ze bedacht hebben om content mee te nemen die achter een paywall staat. Lijkt me niet de meest handige oplossing. Wel handig als de new york times hun eigen bot ermee maakt.
Als ze dat claimen kunnen ze ongetwijfeld meerdere OpenAI resultaten laten zien die 1 op 1 hetzelfde zijn als wat in the NYT heeft gestaan. Maar wat als ze dan netjes een referentie op geven. Ik mag op mijn werk ook quoten uit kranten, boeken etc. Zolang ik maar aangeef dat het een citaat is en aan bronvermelding doe. En omdat OpenAI het doet zegt het nog niets over het bereik van die informatie. Dan kan zelfs veel beperkter zijn dan als iemand een artikel of boek schrijft.
Opt-out is sowieso niet hoe het zou moeten werken. Copyright is automatisch. Er is toestemming nodig voor gebruik. OpenAI zal hooguit fair use kunnen claimen maar gezien het commerciële oogmerk zal dat ongetwijfeld lastig worden.

[Reactie gewijzigd door Wolfos op 23 juli 2024 22:35]

En toch werkt indexering op het internet zo al heel lang. Niet alleen is het opt-out, het is ook nog eens aan de indexer om te bepalen of ze die opt-out respecteren.
Zoekmachines leveren een dienst aan de contentmaker, namelijk vindbaarheid. Mede daarom is dit gezien als fair use. Voor AI-leermodellen is die wederkerigheid er niet, waardoor alleen een opt-out met robots.txt erg mager is. Dat is geen gedegen toestemming, geen licentie, geen verdienmodel, maar puur scraping.

Leermodellen kunnen wel tekst overnemen, maar kunnen het nieuws van vandaag niet schrijven. Daarvoor zijn voeten op de grond nodig, handwerk, onderzoek, interviews, enz. Dat gebeurt door redacties en die zullen moeten eten. Leermodellen die die inhoud innemen en er niks voor teruggeven zijn dus niet alleen een gevaar voor contentmakers maar ook voor de AI-bedrijven zelf. AI-makers helpen de markt om zeep die ze hard nodig hebben voor nieuwe feiten en cijfers. Dit is kortetermijndenken ten top.

[Reactie gewijzigd door geert1 op 23 juli 2024 22:35]

Dat is sinds die tijd ook regelmatig over gebotst in rechtzaken. Conclusie: je mag best indexeren (mits het niet om een databank gaat, dan gelden er andere regels), Je mag ook best stukjes overnemen, maar dan moet het onder citaatrecht vallen, dus korte delen tonen, of verkleinde afbeeldingen met een link naar de bron zodat de auteur de daadwerkelijke bezoeker kan verwelkomen..
Met indexeren is het de bedoeling om met een (zoek)term een link naar dat artikel te krijgen.
Dat hele artikel tonen mag alleen met toestemming van de auteur. Zelfs voor kleine stukken tekst die iets meer dan citaat zijn, moet dat al. Voor Google en Meta betekende dit dat ze overeenkomsten moesten aangaan, geld moesten betalen en niet de hele content overnemen. Want ze zaten op het randje van wat mag mbt copyright.

Nu is het bij AI wat lastiger te bepalen. Daar hebben ze hele teksten overgenomen. Nu zeggen ze dat het "fair use" is, omdat het model niet de tekst 1-op-1 bevat. Maar het kan wel die tekst genereren aan de hand van de (zoek)term. Dus dat zit er toch (op een bepaalde manier) wel zo in. En vanwege de ouput die een volledige kopie lijkt te zijn, kun je stellen dat de copyright is geschonden.
Daarbij bevat de output ook geen referenties naar de bron. De NYT heeft dus een partij die hun teksten overneemt en opnieuw kan genereren, geen belang omdat er een link naar hun wordt getoond en krijgt voor het gebruik van hun content geen vergoeding.

En dus doen ze nu wat elke contenteigenaar doet als iemand er misbruik van maakt; aanklagen en betaling eisen.
Om the beginnen robots.txt is een indicatie van de intentie het is geen bindende afspraak tussen de auteur van de website en welke andere partij dan ook. Dus ongeacht wat er in de robots file staat mag je de site gewoon indexeren al is het niet beleeft het is zeker niet verboden.

Daar naast, tenzij NYT in hun gebruikers overeenkomst expliciet heeft vermeld dat de content alleen door mensen gelezen mag worden en in geen enkele situatie gebruikt mag worden om geld mee te verdienen door derde partijen is de kans heel erg klein dat ze een poot hebben om op te staan.
Immers OpenAI/Microsoft openbaren de content niet nog delen ze het met derde, dus er is geen sprake van copyright schending in dat opzicht. En een verbod op het inzien van de content door een automatisch systeem is voor zo ver ik weet niet opgenomen in de gebruikersovereenkomst. Nu zou er misschien een verbod kunnen zijn op het commercieel gebruiken van de content of delen er van maar dan is het heel erg de vraag of de content gebruikt wordt. Ingezien ja zeker, maar niet opgeslagen in de traditionele manier, gebuikt om te leren en verbindingen te maken of te versterken maar niet zo zeer opgeslagen of beschikbaar voor publicatie.

Ik vraag me heel erg af wat de uitkomst hier van gaat worden want als het nu ook al verboden gaat worden om een digitaal systeem de content te laten bekijken waar je voor betaald hebt dan vraag ik me af wat het nut van de content dan is in een moderne samenleving waar we meer en meer naar digitale assistenten toe gaan die content voor ons verwerken tot een samenhangend geheel zodat we niet alleen de denkbeelden van een klein aantal redacteuren hoven te consumeren maar de feiten voor ogen krijgen zonder de politieke kleur van een redactie of de machthebbers in het land waar we toevallig wonen.
Maar goed het is een dode bomen bedrijf dat NYT dus het zou me niets verbazen als ze ook nu weer de richting van de isolatie en elitaire geldsmijters kiezen om hun content aan te slijten.
Ooit was de krant voor iedereen die kon lezen tegenwoordig zijn de kranten er alleen nog maar voor mensen die bereid zijn om te betalen voor de beangstigende ultra linkse drab die de redactie van de elite club uit poept veel al lang na dat de feiten die men claimt te kennen alweer achterhaald zijn door de werkelijkheid omdat het schrijven en verwerken van artikelen nu eenmaal veelal te lang duurt om de laatste informatie te kunnen verwerken in het verhaal.

Voor mij zin dit de laatste stuiptrekkingen van een industrie die al heel erg lang niet meer echt levensvatbaar is.
Voor de gebruiker telt de output.
Als die een kopie van een NYT artikel getoond krijgt en de bron heeft dat artikel ooit als input gebruikt, dan maakt het niet uit hoe het (in het AI model) is opgeslagen.
Als jij een kopie van de NYT website maakt, dan maakt het ook niet uit of je het op SSD, HDD, papier, etc opslaat en of dat in bitjes, hiërogliefen chinees is. Jij hebt de NYT content gebruikt, jij toont weer de NYT content en dus is het een overtreding van de copyright.
Uiteraard wordt de content wel gedeeld met de AI gebruikers. De content zit immers opgeslagen in het model. Alleen vermeldt AI momenteel niet welk trainingsmateriaal gebruikt is om de gevraagde output te genereren.
Dat is het punt waarom het gaat.
In dat geval is dat niet anders bij een ieder die ooit een les heeft gevolgd of een artikel bijvoorbeeld hier op tweakers heeft gelezen en op basis van die informatie bijvoorbeeld verteld dat NYT OpenAI en Microsoft aanklaagt en waarom.
Als informatie die niet als zo danig opgeslagen wordt maar wel gebruikt wordt om bijvoorbeeld een vraag te beantwoorden ook al onder een copyright kan vallen dan zullen we helaas moeten stoppen met informatie delen omdat alle vormen van informatie op de een of andere manier gebruikt worden om te leren. Soms om simpel weg tot de conclusie te komen dat de auteur geen idee heeft waar hij/zij het over heeft en soms om tot nieuwe inzichten te komen en ideeen te vormen. Als we bij al die dingen een logboek moeten bijhouden van hoe en waarom we dankzij welke teksten, beelden, audio en video tot een bepaald denkbeeld gekomen zijn dat vervolgens weer resulteert in een antwoord op een vraag van een collega of tijdens een les zodat we alle relevante partijen kunnen voorzien van een afdoende vergoeding dan kunnen we wel stoppen met het delen van informatie.
En ja als dat geld voor een aantal bedrijven dan zou dat voor alle bedrijven moeten gelden en dan dus ook voor de medewerkers van deze bedrijven ook als ze toevallig van vlees en bloed zijn en niet van chips en disks.

Het grote probleem van de NYT en om het even welke andere krant dan ook is dat er steeds minder lezers van dode bomen zijn. Online is er zo veel gratis content te vinden die veel al meer up to date informatie bied dat het ook daar erg moeilijk is voor een relatief duur concept als een "digitale krant" met een flinke redactie en een eigen journalistiek team. Adverteren wil niet echt lukken dus een paywall dan maar en dat beperkt het aantal lezers want gratis competitie te over.
Dus NYT en andere kranten pogen door de copyright wetgeving zo ruim mogelijk te interpreteren toch nog voldoende geld binnen te halen om het voortbestaan zeker te stellen. Dit soort extreme claims als leren van artikelen waar je voor betaald hebt mag niet zomaar als je die kennis die je hebt opgedaan met te veel mensen deelt. In dat geval moet je er voor betalen want bijvoorbeeld de mensen die een vraag over het conflict in het midden oosten beantwoordt krijgen waar een heel klein deel van dat antwoordt ontstaan is door kennis opgedaan uit een artikel van de krant hadden anders natuurlijk een abonnement op de krant genomen of zo.
Je kan prima door de paywall heen, 9/10 kan dat door je useragent aan te passen en anders kan je altijd nog betalen om toegang te krijgen.

[Reactie gewijzigd door watercoolertje op 23 juli 2024 22:35]

Hoe kan het eigenlijk dat dit niet onder cloaking valt? Een index bot hoort toch eigenlijk net als iedereen netjes een betaal scherm te krijgen? Zou ik denken.
Neen, want dan kunnen zoekmachines het niet indexeren.
De kranten willen uiteraard dat jij wel betaalt, als je via een zoekmachine op een interessant artikel botst.
Ja, maar dan word je artikel niet meer gevonden als iemand iets zoekt in een zoekmachine, gezien deze dan geen index kan maken van het artikel af alleen gevoed wordt door index woorden die jij opgeeft (en automatisch zorgt dat je lager in de ranking valt omdat zoekmachines dat niet leuk vinden)
robots.txt is geen contract of wettelijk middel. Nu kan het wel gebruikt worden in rechtszaken, maar of het met zoiets is gebruikt is nog maar de vraag.

Stel ik lees een NYT artikel achter een paywall, jij vraagt wat aan mij en ik geef bijna letterlijk de tekst zoals in het NYT artikel. Kan ik dan worden vervolgt omdat ik in mijn brein heb getrained om het NYT artikel, waarom bieden ze het dan te koop aan (paywall) als mensen het niet zouden mogen lezen (dus zichzelf 'trainen' met de NYT tekst). Ja, maar zal je nu zeggen, mens vs. computer! Dat is leuk, maar staat dat ook zo in de wet gedefinieerd? We hebben gezien dat dit het geval was voor patenten, maar geld dat ook voor andere zaken?

Daarnaast vraag ik me ook af of bv. een hash waarde infringement is op het item waarvan het een hash heeft opgeleverd. Het is immers niet een directe vertaling, het is slechts een uitkomst van een complexe formule, maar niet uniek is gekoppeld aan de bron. Ik zie zo een LLM als niet meer als een zeer complexe formule waarbij afhankelijk van de input, je een bepaalde output krijgt.

Bron:
https://www.robotstxt.org/faq/legal.html
Maak OpenAI alleen beschikbaar voor betalende klanten en compenseer op deze manier de NYT en andere bronnen. Is het meest eerlijke in dit geval.
Google is geen AI. Dus nee.
Google indexeert hetzelfde en meer, dus ik vind dat @Blokker_1999 wel een punt heeft. Een LLM is tenslotte een veredelde zoekmachine met een laagje 'natuurlijke taal' er bovenop, de onderliggende geïndexeerde data komt op hetzelfde neer.
Google heeft met zijn nieuws pagina ook veel bezoekers van nieuwswebsites weg gehaald. Dus waarom zou dat daar niet opgaan en bij OpenAI bijvoorbeeld wel? Gebruiken we de LLM vandaag ook niet vooral als een vorm van veredelde zoekmachine, we stellen een vraag en verwachten een antwoord.

En waar we bij Google voor complexere dingen nog moeten doorklikken naar een pagina, wanneer de samenvatting die Google maakt onvoldoende is, kan een Chat-GPT of CoPilot heel het antwoord voor ons genereren en kunnen we aan de LLM gewoon blijven doorvragen, maar voor eenvoudige vragen is er vandaag amper een verschil te benoemen.

Waarom dan dat verschil maken tussen klassieke zoekmachine en een LLM?
Dankzij Google komen er bezoekers op websites en dat genereert inkomsten voor deze sites.
Bij AI is dat niet zo, niemand ziet de originele content gemaakt door mensen die werken voor deze sites.
Dus op den duur verdwijnen deze sites en bloedt het hele AI dood.
De sites zullen wellicht verdwijnen, maar het AI duveltje is nu eenmaal uit het doosje en zal gevoed worden met informatie. En dat zal linksom of rechtsom gaan.

Ik moet niet denken aan de sites die dan overblijven om de AI te voeden.
Google moet al in landen zoals Frankrijk betalen aan media die nieuwsberichten brengen.

Zie nieuws: Frankrijk gaat akkoord met Google-plan om uitgevers te betalen voor h...
Een van de grootste gevaren die een aantal trendwatchers voorziet is de scheiding tussen mensen op aarde die wel of geen toegang kunnen krijgen tot generatieve AI zoals bijvoorbeeld ChatGPT.
Zoals welke gevaren?
Dat een klein gedeelte van de wereldbevolking wel toegang kan betalen tot generatieve AI en een groot gedeelte niet waardoor het verschil tussen rijk en arm en de bijhorende kansen groter wordt.
Dat geldt voor zo veel zaken.
Je kan met AI een heleboel bereiken voor de gehele mensheid. Er is alleen een ander economisch model voor nodig.

Wanneer een klein gedeelte van de mensheid toegang heeft tot een AI, en daarnaar gaat handelen, zal een boel van de maakindustrie verdwijnen. De informatie technologie zal er ook anders uit gaan zien.

De afzetmarkt van de maakindustrie verdwijnt echter ook. Als er geen ander economisch model komt zal namelijk niemand meer een baan hebben om die spullen te kunnen kopen. En zo zijn er wel meerdere scenario's te bedenken waarin we moeten gaan nadenken over de economische gevolgen van AI in de bevolking.
Hoe beoordeel je wat voor een deel een website krijg, en wat gebeurt er met de aandelen van ontraceerbare eigenaren?
Daar kan je hetzelfde mee omgaan zoals nu bijvoorbeeld geldt voor kopieermachines en stichting Reprorecht.
Als de consument een webpagina niet volledig kan laden/inzien, hoe komt het dat OpenAI diezelfde webpagina wel volledig kan laden/inzien?

Zou verwachten dat ondanks dat iedereen dit als een feit overneemt, het niet zo werkt.
Verwacht dat OpenAI enkel de publiekelijk toegankelijke data kan uitlezen.
Consument kan ook paywalls omzeilen. Bijvoorbeeld dmv www.archive.is.
Deze site gebruik ik ook altijd. Gek genoeg werkt deze op mijn werk niet meer. Daar zoek ik nog een alternatief.
Op je werk moet je werken.
Volgens mij bepaal jij niet wat ik in mijn pauzes aan het doen ben.
Dat was te verwachten voor toen bleek dat je kon achterhalen op wat voor data ze trainden..
Volgens mij heeft de AI een family abo genomen voor de NYT.
Hoe grappig zou het zijn moest er naar boven komen dat de journalist ChatGPT gebruikt heeft om het artikel initieel gewoon te schrijven...
En ik dacht net dat ChatGPT net praktisch nooit inhoud "kopieert", maar net werkt met indexen van stukjes van woorden en dit probeert te vervolledigen. Dat sommige inhoud soms erg op elkaar lijkt, betekent niet dat het doelbewust gekopieerd is. Datzelfde loopt nu toch ook over muziek dat "op elkaar lijkt".
Geloof ik ook wel dat ze ai gebruiken, want tijd is geld; en wel zo gemakkelijk.

Dit is wat AI ervan maakte.

"Ik ben er absoluut van overtuigd dat ze kunstmatige intelligentie inzetten, want tijd is kostbaar; en het maakt het leven zo veel eenvoudiger."

Dus wel het zelfde idee maar geen kopie!

[Reactie gewijzigd door Lord Anubis op 23 juli 2024 22:35]

Hmm nieuws van gisteren en daarvoor is geen nieuws meer, dus dat ze echt veel schade hebben geleden zullen ze moeilijk waar kunnen maken.

Daarnaast als ik een abonnement neem op de new york times om mij in te lichten en dan deze informatie gebruik voor privé of commerciële doeleinden is mijn eigen recht.

Het gaat pas wringen als ik real time informatie gebruik en deze zou doorverkopen of publiek maken zonder compensatie en goedkeuring te krijgen van de bron makers.

Maar voor het trainen zie ik weinig raakvlakken om hier via de rechter wat te kunnen doen.

Maar goed we gaan het zien. Amerika blijft natuurlijk een raar land ;-)
"Daarnaast als ik een abonnement neem op de new york times om mij in te lichten en dan deze informatie gebruik voor privé of commerciële doeleinden is mijn eigen recht"

Ik ben geen jurist maar volgens mij werkt dat niet zo. Je word geen eigenaar van de content die je leest, dus de NYT mag nog steeds bepalen wat je ermee doet. Je mag niet zomaar artikelen 1 op 1 kopieren bijvoorbeeld alleen omdat je een abbo hebt op de NYT. Uiteraard is dit een simpel voorbeeld.
Ik heb het niet over 1 op 1 kopiëren.
Maar trainen van GPT is hetzelfde als het zelf lezen en dit gebruiken om je eigen kennis te vergroten.

Daarnaast is het meeste van al die nieuwsberichten inclusief die DPG Media B.V. rehashes van andere bronnen. Zoveel unique dingen worden er niet gemaakt en Als de NYT echt moeilijk gaat doen dan kunnen ze hun eigen businessmodel ook wel opdoeken.
De AI gebruikt te content om deze in haar model op te slaan om deze te op grote schaal kunnen reproduceren aan klanten die alleen voor de AI betalen zonder bron vermelding

Cosequentie is dat het archief van de NYT minder waard wordt, immers de kennis zit nu ook in de AI dus is een abbonement op de NYT niet meer nodig. NYT lijdt schade terwijl men dik verdiend met de AI.

Lijkt me duidelijk dat dit niet houdbaar is en men vergoedingen over trainingsmateriaal zal moeten gaan betalen.
Als deze kennis gewoon publiek te scrapen valt dan is dit gewoon publieke informatie.
Op zicht had die hele linke meuk van NYT er niet in gehoeven, dat zou dan een boel na training gescheeld hebben.

Sowieso schiet de NYT en andere media zich in hun eigen voeten hierdoor. Want de enige keuze die ze hebben is om content provider te worden voor AI foundation modellen. Daar heeft Axel Springer het beter gedaan (https://openai.com/blog/axel-springer-partnership)
Echt onzin. De NYT artikelen zijn niet publiekelijk te scrapen. Men omzeilt beveiligingen om dit mogelijk te maken.

Veel NYT artikelen zijn originele artikelen in de schrijfstijl van ervaren journalisten die auteursrechtelijk beschermd zijn.

NYT schiet zich helemaal niet haar eigen voet, zij beschermt haar bezit die anderen ten gelde willen maken zonder ervoor te betalen.
Ik heb persoon weinig inhoud in de meeste NYT artikelen gevonden.
Hun gloriedagen zijn ver ver ver achter hun.

Maar dat NYT zich in haar voet schiet is wel duidelijk. En als ze niet mee gaan zullen ze het niet overleven.
Er zijn genoeg media outlets die wel het nut van AI inzien en zich er op storten.

Het speelveld gaat veranderen.
Je moet je nog altijd aan de copyright wetgeving houden.
Dus OpenAI kan alleen content van 100 jaar of ouder veilig gebruiken.
uhm. 70 jaar na de dood van de auteur.

Maar goed denk dat dit wel los zal lopen.
NYT heeft zijn beste tijd al lang gehad en is al vele jaren bezweken aan de commercie
Maar goed we gaan het zien. Amerika blijft natuurlijk een raar land ;-)
Tja dat is lekker makkelijk roepen...

Zowieso dat je denkt dat je alles mag doen met de data als je betaald (om het te lezen). Daar gaat het al helemaal mis, want de rest van je post is op die onwaarheid gebasseerd. Je betaald specifiek om het te lezen en zeker niet om je AI mee te trainen!

Ook raar dat je denkt dat artikelen ouder dan 24 uur geen waarde hebben? Waarom is die data dan gebruikt voor training? Omdat het wel nuttig is en dus wel waarde heeft natuurlijk!

Ik vind jou redenatie raarder dan de VS in dit geval, je snapt het probleem niet en daarom snap je ook de conclusie niet.

[Reactie gewijzigd door watercoolertje op 23 juli 2024 22:35]

Ook nieuws uit het verleden is nieuws. En het gaat niet oude nieuwswaarde, het gaat om copyright. Het is niet zo dat omdat het de krant van gister is, er geen copyright meer op rust.

En nee, jij mag niet zomaar alles doen met hetgeen zij publiceren "omdat je een abonnement hebt". Je mag delen quoten, maar dan moet je dus wel de bron vermelden. Als jij een artikel leest over onderwerp X en vervolgens een scriptie maakt over dit onderwerp mag je het als bron gebruiken (bronvermelding) maar je mag niet delen van de tekst letterlijk overnemen. En dat is blijkbaar wat nu wel gebeurt door ChatGTP.
Daarnaast als ik een abonnement neem op de new york times om mij in te lichten en dan deze informatie gebruik voor privé of commerciële doeleinden is mijn eigen recht.
Nee, je krijgt toegang maar geen auteursrecht op die content. Er bestaat fair use maar waar dat precies begint en eindigt kan soms het beste door een rechter worden bekeken.
Het gaat pas wringen als ik real time informatie gebruik en deze zou doorverkopen of publiek maken zonder compensatie en goedkeuring te krijgen van de bron makers.
Ook als een AI-product niet meer letterlijk de hele brontekst uitspuugt, draait het model alsnog wel op die data. En de modellen worden als commerciële producten aangeboden (GPT en co). Dus o.a. OpenAI verdient geld met de content van anderen, zonder die anderen op één of andere manier te compenseren. Ook konden websites in de beginjaren amper weten dat deze bedrijven bezig waren met scrapen, waardoor je als nieuwsmedium amper een keuze hebt gehad en zeker geen gedegen toestemming hebt gegeven.

Nieuwsmedia kunnen zichzelf uitsluiten via robots.txt maar daar zitten vier kanttekeningen bij: het is opt-out in plaats van opt-in, eerdere scraping heeft al plaatsgevonden, scrapers kunnen robots.txt negeren, en ten slotte: hoe meer leermodellen gemeengoed worden hoe minder de nieuwsmedia hier omheen kunnen.

Al met al goed dat dit naar de rechter gaat. Als AI-modellen op deze manier getraind mogen blijven worden, dan heeft dat onnodig groot nadeel voor de schrijvers van inhoud op internet, en het is niet houdbaar voor de langere termijn zonder betere toestemming en dedegen verdeling van de buit en de inspanningen.
Niet alleen is nieuws van gisteren nog altijd nieuws en kan het nog altijd relevant en interessant zijn, een krant zoals de NYT brengt niet alleen maar nieuws, maar ook een hoop meer diepgaande stukken die veel langer relevant blijven.

Als jij een abbonement neemt, dan heb jij het recht om dat nieuws en die artikelen tot jouw te nemen, maar dan heb je helemaal geen recht om deze te hergebruiken voor andere doelen, dan schend je gewoon het auteursrecht dat er op zit. En als je dat in en commerciele setting gaat doen, om er zelf aan te beginnen, dan ben je helemaal foutief bezig.
Hij bedoelt denk ik de inhoud van een artikel internaliseren en dat in samenhang met zijn eigen kennis en kunde gebruiken. Geen enkele copyright die hem tegen kan houden om dat te doen. Hij heeft kennis opgedaan van de inhoud van een artikel en gebruikt die kennis om bijvoorbeeld een product te maken en dat commercieel in te zetten. Waarom zou je de NYT daarvoor royalties moeten betalen?
De vraag met LLM's is natuurlijk of die systemen kennis verwerken en combineren met andere kennis net als een mens of juist grote stukken tekst kopiëren en plakken. Dat een LLM stukken van zijn trainingsdata kan reproduceren, zegt wat mij betreft niet zoveel (veel mensen kunnen dat namelijk ook).
Als je nou de 'inhoud van een artikel' vervangt met 'de woorden van een liedje uit de top 40' zie je dan wel dat er royalties betaald moeten worden voor effort?
Niet als je dat liedje uit de top40 gebruikt om je zangtalent te verbeteren en dan je verbeterde zangstem in te zetten voor een ander (uniek) liedje.
Dus zonder dat liedje had je niet je zangstem kunnen verbeteren en in kunnen zetten voor een ander liedje.
Moet je dan nog royalties betalen? Ik weet niet hoe jij je geld nu verdient, maar moet jij daar dan ook een deel van afstaan aan de auteurs van je studieboeken?

Ik vind het een lastige discussie, want aan de andere kant snap ik de nyt ook wel.
Het is ook lastige materie. Het verschil met een liedje en de NYT is dat er ergens wel een keer betaald is voor het liedje, waar de NYT nergens voor betaald wordt door de uitbater van een llm.
10 jaar geleden was iedereen op het internet voor het gratis vloeien van informatie, "informatie hoort gratis te zijn" e.d.
Nu een bedrijf dat idee heel letterlijk heeft genomen en er een heel redelijk werkend product uit heeft gemaakt waarmee informatie makkelijker te verkrijgen is dan ooit maakt iedereen zich opeens zorgen over copyright...
ehmm copyright was altijd al een ding hoor, of ben je misschien napster vergeten?
Wanneer je content van een ander wilt gebruiken, of dat nou een tekst, foto of een stukje audio/video is, moet je gewoon over de rechten beschikken om dat te gebruiken.
10 jaar geleden was iedereen op het internet voor het gratis vloeien van informatie, "informatie hoort gratis te zijn" e.d.
Zeer zeker niet! Dat is hoogstens een bepaalde subculture geweest, wellicht dat bv. Tweakers.net personeel dergelijke instellingen ook (hadden), maar dat had de eigenaar ook absoluut niet. Niet Femme, niet VNU en niet DPG. Dat zijn allemaal mensen/bedrijven die heel veel geld hebben verdiend met niet-gratis informatie.

Vaak worden dergelijke instellingen verkondigd, totdat er iemand anders flink geld mee aan het verdienen is en dan is het opeens copyright, IP, patent!
Hmm... De NYT bericht over de NYT... Dat klinkt niet als een betrouwbare bron over dit onderwerp.

Edit:
Het daadwerkelijke document met de aanklacht (ook jammer genoeg via de NYT):
https://nytco-assets.nyti...NYT_Complaint_Dec2023.pdf

[Reactie gewijzigd door Cergorach op 23 juli 2024 22:35]

Waarom niet? Denk je dat de redactie zelf betrokken is bij de rechtszaak? Ze zijn echt niet het eerste grote mediabedrijf wat over zichzelf moet schrijven. Zolang de redactie geen rechtszaken voert en de juristen geen artikelen schrijven kan dat best naast elkaar bestaan.
Serieus?

De NYT staat al decennia bekend als één van de beste en meeste onafhankelijke kranten ter wereld. Net als Washington Post en Wall Street Journal. Zijn ook onderdeel van een groot internationaal onderzoekscollectief waar bijvoorbeeld ook NRC in zit.

The New York Times heeft bijvoorbeeld 114 Pulitzerprijzen gewonnen, meer dan enige andere nieuwsorganisatie.

[Reactie gewijzigd door gaskabouter op 23 juli 2024 22:35]

Lijkt me slimmer dat ze een deal sluiten, tegen x bedrag per jaar mag je de content gebruiken om te trainen dat is dan voor alle 2 een win win situatie.
Dat kan, mij lijkt het persoonlijk niet zo slim.
Dit kan de deur wagenwijd openzetten voor alle andere partijen waar OpenAI haar data zonder toestemming vandaan heeft gehaald.
Ik denk dat de Apple oplossing inderdaad netter is; gewoon betalen voor de data. Een lastig punt blijft echter: welke data? Waarmee zou je immers een taalmodel willen trainen, hiermee wel:
https://www.nytimes.com/i...e-nazis-russia-media.html

Maar hiermee liever niet natuurlijk:
https://www.nytimes.com/2...ans-into-putins-arms.html

https://www.nytimes.com/2...t-ukraines-jews-fear.html


Terwijl het dezelfde bron is die dezelfde journalistieke principes en integriteit heeft (of had?). Een taalmodel zal niet begrijpen waarom iets eerst aanvankelijk beweerd wordt, en enkele jaren later door dezelfde bron tegengesproken. Immers kan een taalmodel helemaal niets begrijpen.
En wat als de trainers toevallig een bias hebben voor oude waarheid en stiekem oude artikelen door ons waarheids-net laten glippen? Dat lijkt me een akelige situatie, het is beter als mensen gewoon de huidige kranten lezen en het verleden laten rusten. Toch zou het onze kranten sieren als ze bereid zijn om wat oude artikelen te verwijderen. Laat mensen stemmen desnoods. Voordat een taalmodel het straks leert en we achteraf dingen moeten afleren of nog erger, als een AI het gebruikt om kennis op te doen
Waarmee zou je immers een taalmodel willen trainen
Ligt aan het doel toch? Voor gamedialogen heb je echt geen laatste nieuws of een volledige Wikipedia nodig. Voor een algemene woordenschat en taalkennis is alles prima.
Ik heb ook een paar keer ChatGPT voor de grap gebruikt, en wat me opviel is dat er nooit bronvermelding of citaties waren. Zelfs niet toen ik erom vroeg. Misschien ben ik ouderwets, maar ik zou sowieso liever een link naar bronnen willen hebben, los van de kwesties van intellectueel eigendom en ethiek. Dan kan ik controleren of de informatie accuraat is, wie het heeft geschreven, en of die ander ook nog andere dingen geschreven heeft die leuk zijn of goed om te weten.

Ook vindt ik inderdaad dat het zakenmodel van journalistiek betekent dat lezers moeten betalen, en dat informatie niet zomaar gekopieerd mag worden. Kranten mogen elkaar natuurlijk als bron gebruiken binnen de gangbare regels. Maar als een AI zomaar een artikel kan overschrijven, zelfs in hun eigen worden, dan mogen kranten best om vergoeding en/of verandering van de regels vragen.

Dit geld ook voor andere dingen. Ik weet dat Reddit ook in hun dataset zit. Maar gebruikers stoppen tijd en moeite in wat ze op internet zetten. Ik weet dat Reddit doorgaans gebruikers niet betaald, en dat dit "gewoon" gratis is, maar toch hebben ze een zeker recht op wat ze maken.

Ik zeg niet dat webscraping en AI niet mogen. Er bestaat voor mij ook iets als Fair Use (hoewel dat nog steeds te vaag en slecht gedefineerd is). Maar zorg er wel voor dat er aan de regels gehouden wordt. Dat betekent geen mensen of hun werk klakkeloos namaken, niet ervoor zorgen dat het bronmateriaal overbodig wordt, en misschien nog iets voorzichter zijn dan de meeste mensen zouden zijn. Als je meer nodig hebt dan dat dan onderhandel je over licenties met individuele schrijvers en uitgevers.

Op dit item kan niet meer gereageerd worden.