Mediahuis en DPG Media verbieden gebruik van hun artikelen voor trainen AI

Mediahuis en DPG Media gaan het gebruik van hun artikelen en andere content voor het trainen van AI-modellen verbieden. Nieuwsmedia van Mediahuis hebben hun robots.txt-bestanden aangepast om crawlers van OpenAI te blokkeren. DPG doet dat in de komende weken.

Mediahuis, de uitgeverij van onder meer Nederlandse dagbladen NRC en De Telegraaf, heeft inmiddels in zijn robots.txt-bestanden aangegeven dat de GPTbot-crawler van OpenAI geen content van zijn websites mag verzamelen. OpenAI gebruikt die scrapers om content van openbare websites binnen te halen. Het bedrijf gebruikt die content vervolgens om zijn GPT-taalmodellen mee te trainen.

DPG Media, de uitgever van de Volkskrant, NU.nl en ook Tweakers, heeft deze week besloten om crawlers van AI-bedrijven te blokkeren. De uitgeverij gaat zijn robots.txt-bestanden 'in de komende weken' aanpassen. Het bedrijf gaat dan de crawlers van onder meer OpenAI verbieden op de websites van zijn media. Tweakers heeft dat inmiddels al gedaan. Op termijn kan de lijst met geblokkeerde crawlers worden uitgebreid. DPG Media verbiedt het gebruik van zijn content voor het trainen van AI-modellen al in de gebruikersvoorwaarden.

De twee uitgeverijen, die actief zijn in Nederland en België en daar ook een groot deel van het medialandschap bevatten, volgen hiermee het voorbeeld van verschillende andere grote media. The New York Times voerde eerder al een soortgelijke wijziging door. Ook internationale media als CNN, Reuters en The Guardian hebben dat al gedaan.

AI-modellen worden doorgaans getraind op basis van datasets van het internet. Daar kunnen ook auteursrechtelijk beschermde werken zoals journalistieke artikelen in zitten. Google zette onlangs in zijn privacyvoorwaarden dat het bedrijf publieke data van het internet kan gebruiken om zijn AI-diensten te trainen, waaronder chatbot Bard. OpenAI doet hetzelfde voor zijn GPT-modellen. Website-eigenaren kunnen de crawlers van OpenAI echter sinds begin augustus blokkeren via hun robots.txt-bestand.

Door Daan van Monsjou

Nieuwsredacteur

06-09-2023 • 16:17

143

Lees meer

Reacties (143)

143
134
57
2
0
53
Wijzig sortering
DPG doet dat in de komende weken.
Kan iemand me uitleggen waarom DPG hier weken voor nodig heeft?
Robots.txt updaten is heel erg snel gedaan, en in de tussentijd gaan de crawlers dus vrolijk verder. Lijkt mij dat als je dit beleid doorvoert, je het eigenlijk per direct actief zou willen hebben.
Hoezo "nodig heeft"?

Wat je beschrijft geld voor vrijwel elke wens: liefst per direct. Zelden is zo'n wens zo belangrijk t.o.v. al die andere dat mensen die uit hun handen moeten laten vallen en er onmiddellijk op moeten duiken; dat is gewoon geen manier om een organisatie te laten functioneren.
Ik gooi het pijltje op te veel bureaucratie en processen... Het moet natuurlijk wel eerst ingeschat worden, dan geaccordeerd, daarna moet een develop het oppakken, die moet het dan naar een test omgeving pushen via een PR waar een andere developer hopelijk binnen 24 uur naar kijkt, daar gaat een tester dan kijken of het inderdaad klopt, vervolgens komt er een acceptatie release, en als die dan nog eens geaccordeerd is kan je de productie release plannen. Met een beetje geluk lukt dat dan binnen 24 uur.

Of ben ik nu té cynisch?

[Reactie gewijzigd door DdeM op 23 juli 2024 06:38]

Je vergeet nog wel even dat de request eerst zijn weg door diverse management lagen heen moet voordat het uberhaubt bij de devvers ligt om ingeschat te worden. En dat je natuurlijk geen nieuw werk in een bestaande sprint kan stoppen, en de huidige sprint is net begonnen, dus hij blijft dan nog twee weken liggen.
Uiteraard, en als die dan ein-de-lijk af is, dan is het ook natuurlijk vrijdag, en dan kan je echt niet releasen, stel je voor dat de robots.txt de hele website laat klappen.
Als je het niet aandurft om op vrijdag te releasen, dan vertrouw je het eigen werk (en dat van de collega's) niet en heb je de tests niet op orde. Zeker een aanpassing van het robots.txt bestand is niet een heel spannende, waarom zou je dat niet (eventueel apart) op een vrijdag kunnen doen volgens jou? :)

Tegenwoordig met CI/CD omgevingen zou het juist een peuleschil moeten zijn.

[Reactie gewijzigd door CH4OS op 23 juli 2024 06:38]

Mwaa...ik werk lang genoeg in de IT om te weten dat er talloze 'niet spannende' wijzigingen zijn geweest die hele bedrijven plat hebben gelegd. Ja, misschien zijn dan de tests niet op orde, maar er is maar één manier om daarachter te komen, niet? Dingen roepen vanuit de theorie is mooi, maar de praktijk is vaak weerbarstiger.
Het is meer het probleem dat het tijden bij de managers ligt dan bij de devs :)
En op een vrijdag releasen kan vaak prima, als dat toevallig de enige uitstaande wijziging is die al gemerged en getest is. Of je wijkt daar vanaf maar dan is het einde zoek... want deze keer is een robots.txt, volgende keer een kleurtje waar half business van in paniek raakt als iets van geel naar blauw is gemaakt en dan mag die persoon 't a la minuut fixen op z'n zaterdagochtend :*)

En wat Kees zegt klopt soms ook als het teams betreft die in sprints werken, je zal maar net een sprint gestart zijn en management vraagt of "het even tussendoor kan" en dan gooi je als dev natuurlijk de bal op: "sorry de sprint is net gestart, komt erna" }>
Tenzij de productowner de sprint hiervoor afbreekt omdat dit toch wel erg belangrijk is (als die al weet dat dat volgens de scrum methodiek kan).

Offtopic rant:
Scrum, het wordt tegenwoordig helemaal dichtgetimmerd met procedures en processen, het echte agile is er voor mijn gevoel vanaf. Ik vind scrum een vorm van mini watervalletjes geworden qua ontwikkelmethodiek.
Tja maar goed, 9 vd 10 keer loopt het al weken bij management en dan moet iets ineens snel. In dit geval maakt die paar weken extra weinig uit. Je verbiedt sowieso niet echt iets met een robots.txt, dus sja...
Weken bij management lopen klinkt niet heel scrum. Wie is de product owner? Dus "het management" heeft niets te maken met het aansturen van het product. Als iemand weken over andermans product aan het praten/denken/discussiëren is zonder die PO vanaf dag 1 te betrekken, is ie heel veel nutteloze tijd aan het verstoken.

[Reactie gewijzigd door djwice op 23 juli 2024 06:38]

Enorm offtopic:

Scrum is een framework Pak wat je nodig hebt, value toevoegt, en wees agile. Zo zit ik er in als SM. Het zijn guidelines. Je hoeft ze niet strak te volgen.
Naja wat releasen op vrijdag betreft, SpaceX released nieuwe versies van hun software tot een half uur voor een lancering. Als je alles goed op orde hebt, kan je in 99% van de gevallen gewoon releasen, en in die 1% van de geballen dat het toch niet kan, uitzoeken waarom een zorgen dat het niet meer onder die 1% valt.
Het was cynisch bedoeld ;) Ik ben er helemaal voor dat je je spul op orde hebt en altijd on demand kan releasen.
Exact, releasen op vrijdag om half 5 kan prima.

Been there, done that, love that i can just do it. :D
Ja want mensen kunnen geen fouten maken 8)7

Wij releasen niet op vrijdag omdat als ondanks all maatregelen die we nemen, er toch onverhoopt toch een fout in de release zit, niet iedereen van zijn vrije weekend afgebeld moet worden om de zooi te fixen
Ja want mensen kunnen geen fouten maken 8)7
Ik zeg niet dat er geen fouten gemaakt kunnen of mogen worden. Ik zeg alleen dat niet op vrijdag releasen, want kans op fouten en er dan geen tijd zou zijn om het op te lossen / hotfixen, dan gewoon eerder uit angst is. Die kans op fouten is er op een maandag even goed. Als net die ene collega die het gemaakt heeft op vakantie is, zit je evengoed met een groot probleem wanneer de update later gedeployed wordt.

Ik vind het daarom echt maar een slecht excuus, maar daarmee zeg ik dus niet dat mensen geen fouten mogen maken. Wanneer je goed (geautomatiseerd) test, een gedegen codebase en gedegen deploy (CD) proces hebt, je de downtime tot een minimum kan beperken. Het hoeft dus niet veel tijd te kosten. En als dat wel zo is, waarom kan dat dan wel van maandag t/m donderdag, maar niet op vrijdag? :)

Het is imo echt een manier van inrichten en mentaliteitsdingetje om niet op vrijdagen te deployen.

[Reactie gewijzigd door CH4OS op 23 juli 2024 06:38]

robots.txt is een gentleman's agreement tussen webcrawlers. Het is niet geschikt als security om webcrawlers te blokkeren.
ChatGPT negeerde robots.txt zeer lang en andere AI-modellen doen dit waarschijnlijk nog.
Precies. OpenAI.com zal de robots.txt prima respecteren. ClosedIA.org doet dat niet en geeft niets om hun eigen robots.txt. 3x raden waar Ope….nou ja, laat maar, kansloos /s
ChatGPT negeerde robots.txt niet. Er was simpelweg geen mogelijkheid voor ChatGPT om te achterhalen of ze wel of niet gewenst waren op bepaalde pagina's/websites.
Sinds kort kan door een regel code op te nemen in de robots.txt wel door ChatGPT worden herkend of ze de content mogen gebruiken. ChatGPT als 'user agent' kun je nu geheel of deels van je website weren.
user-agent * is ook gewoon bedoeld voor chatGPT ook al claimen zij van niet...
ChatGPT negeerde robots.txt zeer lang en andere AI-modellen doen dit waarschijnlijk nog.
ChatGPT ook nog steeds, want die zijn van mening dat ze niet onder * vallen, terwijl dat een catch-all-crawlers wildcard is

[Reactie gewijzigd door aikebah op 23 juli 2024 06:38]

Omdat DPG een heel groot bedrijf is met heel veel websites ;)

Elk team heeft nu waarschijnlijk zelf het heft in handen gehad om erover na te denken. Nu weerklinkt de duidelijke boodschap dat ze DPG-wide AI crawlers gaan werken, en komt dat in ticket-vorm in de backlog voor alle teams. Logisch dat zoiets even duurt, dit klinkt niet als prio 1 maar iets wat ge gewoon inplant in de komende sprint.
Omdat het centraal opgelegt word. Dan gaat het eerst naar een manager, die maakt er tickets voor aan, die worden onderzocht (hoe belangrijk is dit, willen we dit, waar moeten we het allemaal aanpassen, welke sites etc; dus een inventarisatie maken), ingeschat (hoeveel werk is het), daarna worden ze ingeplanned, en later opgepakt als een developer klaar is met zijn huidige ticket.

Als je voor elke scheet die in theorie 'heel snel' gedaan kan worden alles moet laten vallen waar je mee bezig was om 'eventjes' een update te doen, dan kom je nooit lekker in je eigen werk, dus vandaar dat het soms lang kan duren.
Anoniem: 80910 @Kees6 september 2023 19:56
Ja, mee eens, maar bij een klein bedrijf, kleine aanpassing van 5 a 10 minuten, hoeft het geen uren procestechnisch te duren. Oftewel met manager kost deze wijziging honderden euro's, want managers. Terwijl het eigenlijk 20 euro moet kosten
Waarschijnlijk omdat de huidige sprint al is ingepland en er misschien belangrijkere zaken op de backlog staan.
Bedenk je eens in hoeveel verschillende websites het grootste mediahuis van Nederland en België ongeveer zou hebben..... En hoeveel verschillende teams die webservers onderhouden.
Ik ben zelf niet zo thuis in websites / hosting dus voor sommige zal dit een domme vraag zijn. Maar kan ChatGTP niet gewoon maling hebben aan de robots.txt en alsnog data binnenhalen? En hoe kan een website eigenaar er achter komen dat er mogelijk toch wel gecrawled wordt?
Ja, dat kan maar is niet netjes. Aan de andere kant: de content eigenaar heeft er geen paywall voor gezet en robots.txt was bedoelt om bijv. een totaal overzicht van alle links op je website niet mee te nemen in een zoekindex. Men is het gaan zien als een security ding, maar het is net zo waardevol (en slim) als een briefje op de deur plakken: "Postbode niet onder mat kijken voor een sleutel, buurvrouw kijk aub op de mat voor een sleutel". Dat verzint niemand met enig gezond verstand, maar dat is wel waar bedrijven nu mee schermen als het om afschermen van content gaat..... 8)7
Ja, dat kan. Dit is een verkeersbord voor crawlers: verboden toegang. Aan een verkeersbord kun jij ook maling hebben. En daarop kan worden gecontroleerd en zo nodig wordt je via het rechtssysteem aangepakt. Dat zullen grote uitgevers in zo'n geval ook doen: die gaan naar de rechter.
Stel dat je het vermoeden hebt dat er desondanks toch gescraped en getraind is met je artikelen, hoe zou je dat moeten gaan bewijzen?

Enkel afgaande op de antwoorden van bijv. een LLM, zou je denk ik hooguit op basis van statistiek kunnen proberen te betogen dat je artikelen bijgedragen hebben aan de antwoorden. Maar zelfs dan, dat zal een berg werk vergen om dat met enige statistische significantie te kunnen doen.

Je zou in theorie valse informatie kunnen gaan verspreiden om te proberen de scrapers in de val te lokken, maar voor die tijd zijn je klanten vermoedelijk al vertrokken.
Dat zal idd een lastige zijn. In principe zou een AI trainingsset een transparant audit log moeten hebben, waarin precies beschreven staat welke bronnen gebruikt zijn, en die moet vervolgens of vrij in te zien zijn, of via een rechtszaak gepresenteerd worden.

Maar het bestaan van zo'n log en de plichten van AI bedrijven om die bij te houden staan voor zover ik weet nog niet in de wetten; het is een relatief nieuw probleem.

Alhoewel, ook weer niet, want webcrawlers bestaan al sinds de jaren 90, misschien in andere vormen al eerder. Ik heb even snel gegoogled, en de samenvattingen zeggen dat in principe, "web scraping is legal". Dwz, het verzamelen van de data mag gewoon.

Echter, het vervolgens gebruiken of herpubliceren van die data is een ander verhaal, dat valt onder auteursrecht.
Je maakt het aannemelijk en dan laat je de rechter een bevel uitschrijven voor verzamelen bewijs. Als een OpenAI bedrijf dan glashard liegt vind je een (ex-)werknemer die wil getuigen en kassa.
Het probleem begint echter al bij het aannemelijk maken om zo'n bevel te verkrijgen.

Gezien:

A.) De gigantische hoeveelheid parameters die er in zo'n model zitten.

B.) Het feit dat randomisering een essentiële rol speelt in het trainen van de modellen.

C.) Het aantal keren dat je (mogelijk stiekem) het model zult moeten beproeven, om met statisch significante uitkomsten te komen.

Lijkt het mij waanzinnig lastig om hiertoe een acceptabele en overtuigende onderzoeksmethode te formuleren, laat staan de data, op basis waarvan de zaak überhaupt ontvankelijk verklaard zou kunnen worden.

Als je al begint met iemand die uit de school klapt, dan is het natuurlijk een heel ander verhaal.

[Reactie gewijzigd door Crisium op 23 juli 2024 06:38]

Je begint met wat boeken waar de modellen letterlijk lappen van tekst herhalen en beroemde plaatjes die ze bijna perfect reproduceren. Daarna geeft de rechter die bevelen voor kleinere spelers zonder grote bewijslast, omdat het toch al bewezen is dat ze groffe piraten zijn.

Het checken van een url tegen de inhouds index van de database is ook een zeer kleine moeite en voor een gericht onderzoek ook niet echt inbreuk op bedrijfsgeheim. Ik denk niet dat rechters heel erg moeilijk gaan doen.

[Reactie gewijzigd door Pinkys Brain op 23 juli 2024 06:38]

Ik zat hier vooral aan het scrapen van nieuwsartikelen te denken. Die neemt de media vaak toch al over van een AP of een AFP en geeft er vervolgens een lokale draai aan. Daarnaast wordt er op internet veelvuldig over hetzelfde nieuws gediscussieerd op openbare platformen, dus veel alternatieve wegen om aan dezelfde "kennis" te komen.

Als een model tegenwoordig nog iets 1 op 1 herhaalt i.p.v. parafraseert, dan heb je wel met een "dom" model te maken. Daarop testen werkt misschien nu nog ten dele, maar in de nabije toekomst vermoedelijk niet meer.
Als jij het vraagt een stuk te citeren waar het opgetrained is en dat werkt, dan is het alleen maar dom als je dat probeert te verhullen. Een goed geheugen en goede compressie is voor de rest niet dom.

Glashard liegen over de trainingsset zit geen toekomst in voor AI, komt uiteindelijk toch wel naar buiten.
Ik voorzie dat malafide AI trainers zodoende adverserial networks gaan inzetten bij het trainen om niet door de mand te vallen wanneer je ze op die manier bevraagd.

De transformer modellen zoals we ze nu gebruiken, hebben niet zozeer een goed geheugen van al dat wat ze geleerd hebben, zie ze vooral als geweldig goede autocomplete functie op basis van kansberekening.
Zijn er niet een aantal DPG publicaties die zelf wel weer gebruikmaken van dit soort AI voor hun artikelen? Beetje dubbel.
NU.nl experimenteert er inderdaad mee, maar een tool gebruiken en tegelijkertijd niet willen dat die je artikelen steelt lijken me geen tegenstrijdige argumenten toch?
Stelen? Dan frame je het wel sterk zonder de nodige discussie daaromtrent mee te nemen. Let wel: ik zeg niet dat het geen stelen is, maar als jij een artikel leest van nu.nl en er bij de koffieautomaat een discussie over voert heb je dan de content gestolen? Ik denk dat het veel meer ligt in dat je content kunt monetizen zolang je het op je eigen site hebt staan. Als ik een AI kan vragen: "doe mij de belangrijkste nieuweitems van het afgelopen uur" en de AI geeft een samenvatting van o.a. deze content dan loopt je inkomsten mis. Het werkelijke probleem zit dan dus blijkbaar in het verdienmodel, niet in het lezen van de content.
Het is wel stelen, want de AI gebruikt informatie die iemand tegen betaling heeft geschreven om zichzelf beter te maken, zonder wederdienst. Daarmee wordt die AI waardevoller en zal de eigenaar van de AI zich kunnen verrijken. Op termijn zal die AI de mens die het nieuws schreef vervangen. Niet alleen diefstal, maar je eigen graf moeten graven.

[Reactie gewijzigd door needankje op 23 juli 2024 06:38]

Informatie uit een andere bron verzamelen mag van de wet in veel gevallen gewoon. Iemand betaalt de AH-medewerkers om de bonusaanbiedingen op de website te zetten, maar desondanks mag je de AH-website gewoon scrapen en gebruiken omdat hun database niet de basis van hun bedrijfsmodel is. Databaserecht heeft nogal wat aparte implicaties in die zin.

In het geval van AI denk ik dat databaserecht niet zozeer van toepassing is, maar "iemand anders is betaald om dit online te zetten" is op zichzelf geen argument.

Los daarvan is diefstal ook weer wat anders dan inbreuk maken op iemands auteursrecht, de artikelen verdwijnen niet van andermans site als ChatGPT ze gescand heeft of iets dergelijks.
Ik vind het dubbel. Als een journalist in eigen woorden op basis van een andere bron een artikel schrijft dan mag het wel. Als AI op dezelfde manier te werk gaat, dan mag het niet.

Dan kun je nog beweren dat AI die artikels gebruikt om te leren, maar dat doet een journalist van vlees en bloed al dan niet bewust evenzeer.

Gaan Mediahuis en DPG ook verbieden dat journalisten van andere huizen hun werk lezen, bekijken of beluisteren?
Je hebt een vreemde definitie van stelen. Heb je die zelf verzonnen?

De wettelijke definitie van diefstal is:

“Hij die enig goed dat geheel of ten dele aan een ander toebehoort wegneemt, met het oogmerk om het zich wederrechtelijk toe te eigenen."
Laten wij ons drukmaken over definities terwijl de computers van de 5 rijkste bedrijven ter wereld alle kennis en cultuur opslokken en de mens overbodig maken, sure
Kijk, dat zijn je ware motieven. :)
Informatie kan je niet bezitten, het is imo ridicuul om over stelen te praten. Informatie kan onmogelijk een schaars goed zijn. Het lijkt mij zeer schadelijk dat we ons collectief bezig houden met zo een non-issues.
Als ik nu.nl lees om me te laten inspireren om een boek te schrijven over Willem Holledeer, hoeveel ben ik nu.nl dan schuldig?
Als de ander daardoor niet meer het artikel hoeft te lezen waardoor nu.nl inkomsten misloopt, dan is die informatie 'gestolen'. Maar gelukkig is er in elke auteursrechtenwet wel een uitzondering opgenomen op zulke minieme en persoonlijke inbreuken.

Het is wat anders als jij het artikel kopieert, uitprint en op alle adressen in Nederland in de brievenbus doet.

Het is heel gebruikelijk dat bedrijven die lesmateriaal maken contact met ons opnemen met de vraag of ze een artikel in de lesstof mogen verwerken, en daar staat dan ook een (lage) vergoeding tegenover, hoeven we alleen maar een factuurtje voor te sturen en toestemming voor te geven. De bedrijven achter AI verwerken _al_ onze artikelen in lesstof voor hun AI en geven daar geen vergoeding voor af anders dan 'maar je mag nu onze AI ook gebruiken (maar alleen de gratis versie, als je meer features wil dan moet je ons betalen)'.

En wat is jouw alternatieve verdienmodel dan? Stel je bent journalist, je schrijft een artikel, dat word door 1 bot gelezen, en verder leest niemand meer jouw artikel maar een door een AI gemaakt aftreksel van jouw artikel op een andere site. Hoe verdien je daar dan nog geld mee? De makers van de AI verdienen veel geld met jouw creatie, maar jij ziet daar niets van terug. De advertentie bij je artikel waar je geld voor kreeg word door de AI eruit gehaald en niemand ziet de advertentie dus de adverteerder gaat jou niet weer geld geven.

[Reactie gewijzigd door Kees op 23 juli 2024 06:38]

Waarschijnlijk inderdaad 'gestolen' en niet gestolen. Hoe dit juridisch zit zullen we moeten zien maar het lijkt er op dat dit net zoals auteursrechteninbreuk geen diefstal betreft.

https://nl.wikipedia.org/wiki/Diefstal
Diefstal is in Nederland strafbaar gesteld in artikel 310 van het Wetboek van Strafrecht, en voor Caribisch Nederland in artikel 323 van het Wetboek van Strafrecht BES. Het wordt omschreven als het wegnemen van enig goed dat geheel of ten dele aan een ander toebehoort, met het oogmerk om het zich wederrechtelijk toe te eigenen, en wordt bestraft met gevangenisstraf van ten hoogste vier jaar of een geldboete van de vierde categorie.

'Wegnemen' is het onderscheidend criterium. [...]

Vereist is dat 'enig goed' wordt weggenomen. In de rechtspraak is aangenomen dat hieronder behalve stoffelijke voorwerpen onder meer ook elektriciteit, gas, giraal geld en virtuele objecten verstaan kunnen worden. [...]
(Dikgedrukt door mij.)

Hier wordt niets weggenomen. Het origineel bestaat immers nog, net zoals auteursrechteninbreuk.

Wat betreft hypocrisie van nu.nl zoals @TijsZonderH aankaart: daar is niets hypocriets aan. nu.nl / DPG neemt een dienst af (het gebruik maken van een AI), deze kost hen waarschijnlijk (ik weet het vrijwel zeker :P) geld.
Het is moreel wel wat hypocriet imo. Doe niet bij een ander wat je zelf niet wil aangedaan worden.
Door hun gebruik van AI zitten hun artikels bomvol intellectueele eigendom van anderen die hiervoor niet per se toestemming gaven.

De AI en IP discussie gaat nog hard gaan, als een AI model Harry Potter kan samenvatten omdat die genoeg vakantiefotos verzameld heeft waar toevallig mensen Harry Potter aan het lezen waren..

Is er nu IP 'gestolen' of niet?

(In mijn mening is elke vorm van IP hypocriet, maar dat terzijde)
Ik ben er nog niet uit wat we met AI/ML juridisch moeten. Ik ben namelijk van mening dat de huidige auteursrechtenwetgeving wereldwijd veel en veel te streng is.

Maar in dit specifieke geval wat hypocrisie betreft: we kunnen allemaal opt-out plegen middels robots.txt en we kunnen ook allemaal AI/ML diensten afnemen. Wat wel voor nu.nl spreekt is dat ze bij een artikel zeggen of het dmv AI (ML) tot stand is gekomen.

In het eerste geval (opt-out robots.txt) betreft het een kleine moeite, in het laatste geval (nu.nl genereert content middels AI/ML) betreft het afnemen van een AI/ML dienst waarschijnlijk een financiële tegenprestatie.

Dat lijkt mij allebei in de huidige context van de maatschappij en wetgeving zuiver, en dus niet hypocriet.
Qua wetgeving is het zeker zuiver, vandaar dat ik er moreel bij plaatste.
Inderdaad mooi dat ze er bij vermelden wanneer een artikel met AI gemaakt is.

Ik denk dat het feit dat je er niet uit geraakt wat we juridisch met AI moeten doen ergens wel aantoont dat IP een zeer kostelijk en imo innovatie remmend proces is in de moderne samenleving.
Overigens nog een interessante kwestie is dat jij en ik UGC (user generated content) creëren op deze website zonder een keuze tot opt-in of opt-out in zoekmachines of AI/ML.

edit:
Er zijn complete, gigantische databases die gebruikt worden voor dit gedoe zonder dat schrijvers er ooit toestemming voor hebben gegeven. Denk hierbij aan bijvoorbeeld Wikipedia of Quora.

[Reactie gewijzigd door Jerie op 23 juli 2024 06:38]

Het 3rde partij verhaal verwart heel de situatie nog eens een extra level ja. Als hier ook nog regels rond komen is het helemaal gedaan met de AI innovatie in Europa.
Ik dacht ook dat ik GPT3 en- of 4 letterlijke stukken kon laten citeren uit werken GPT antwoord met iets wat letterlijk lijkt, maar het zeker niet is. Dus of of het zit achter een content filter, of die informatie is er echt niet meer in het neurale netwerk (an-sich niet vreemd, want dan zou je een bijzonder goed compressie algoritme hebben). Is het het laatste dan kom je toch echt uit 'geinspireerd door' ipv. letterlijk overnemen en de hele discussie wordt wat fuzzy.

Nogmaals: ik gun iedereen z'n verdienmodel maar sommige modellen zijn houdbaarder in de tijd dan andere.
De technologie erachter is niks meer dan een matrix.
Data vanuit deze matrix wordt gewoon gekopieerd en geplakt.

De juridische vraag is dan ook of het nog steeds copyright infringement is, wanneer men bijvoorbeeld een muziek nummer in duizend kleine stukjes knipt en elk stukje op een cd brand en verkoopt.
De technologie achter een MP3'tje is niets anders dan een lijst van nummers, maar toch mag je niet zo'n lijstje nummers genereren op basis van de radio en verspreiden via internet.

Hoe de AI exact werkt is niet zo relevant. gzip kan zich tot bepaalde mate ook als tekstgenerator gedragen en dat is wel degelijk gewoon een kopie.

Qua CD: als je samples gebruikt van een ander nummer, al is het maar een enkel woord, wordt je geacht daar rechten van te kopen. Als we het CD-model gebruiken, is het verspreiden van AI-modellen dus inbreuk op copyright.

De echte vraag is of output van het model dat dan ook is, daar is nog niemand over uit. Tot we duidelijkheid krijgen in de vorm van rechtszaken of wetgeving kunnen we nog niet stellen of het wel of niet mag.

Ethisch gezien vind ik het overduidelijk stelen, maar ja, ethisch gezien vind ik ook dat ik mag downloaden wat ik wil zolang ik bij wet verplicht ben om copyrightlobbybelasting te betalen over iedere gegevensdrager (thanks, stichting Thuiskopie). Ik denk dat ethische discussie hier niet zo heel nuttig over zijn.
De output van het model is niks meer dan dezelfde data waarmee het model is getraind op basis van waarschijnlijkheid.

Elke vorm van machine/deep learning is, op dit moment, daarom ook een "probability matrix".
Er wordt geen nieuwe data gegenereerd, er wordt een combinatie gemaakt van de bestaande data op basis van kans.

Wanneer men data gebruikt waarop copyright zit wordt die data constant gebruikt voor het formuleren van een antwoord.
LLM's zijn inderdaad in de basis opgevoerde autocompletes, maar tenzij er (zoals bij Copilot) overfitting optreedt, poept een LLM niet zomaar trainingsdata uit.

Dat je werk wordt gebruikt klopt, maar dat is tijdens de trainingsfase. Na de trainingsfase is jouw werk niet meer te herkennen in de vectoren waaruit daadwerkelijk output wordt getrokken.
…gzip kan zich tot bepaalde mate ook als tekstgenerator gedragen…
Dit vind ik interessant. Heb je voorbeelden hiervan? Leesvoer? Links?
Er is ergens een online demo die ik niet zo snel kan vinden, maar er is een paper over geschreven: https://www.hendrik-erz.d...at-a-large-language-model

Eigenlijk niet zo gek, gzip comprimeert door de meest waarschijnlijke volgende karakters te kiezen en die volgorde een efficiënte code te geven. LLM's hebben hetzelfde doel maar doen dat op een wat andere manier. Daarom kun je redelijk goed de functie omdraaien en LLM's gebruiken als lossy compressie en gzip gebruiken als slechte autocomplete.
Dank u :)
Er zit wel een (subtiel) verschil: er wordt getrained dat normaal gesproken na het woord 'water' het woord 'nat' volgt of het woord 'boot' maar het hangt af van de context. Dat is wat anders dan letterlijk de tekst coderen in de matrix.
Feitelijk niet, maar het is wel beetje als lust zonder de lasten. Zonder dat AI heeft kunnen trainen zou NU er ook niet mee kunnen experimenteren en zo is het cirkeltje ook weer rond.
Lasten zijn de kosten die je betaalt voor het gebruik. Het is redelijk dat, als je betaalt voor iets, je niet ook nog eens gratis diensten gaat aanbieden aan de partij die je betaalt.
Lasten zijn de kosten die je betaalt voor het gebruik. Het is redelijk dat, als je betaalt voor iets, je niet ook nog eens gratis diensten gaat aanbieden aan de partij die je betaalt.
Met de huidige vormen van AI doe je dat sowieso, want alles dat je aanlevert (bijvoorbeeld om een samenvatting van te laten schrijven) wordt weer gebruikt.
Dat ligt er maar net aan of je daar toestemming toe geeft; de AI bedrijven zijn daar heel streng in qua beveiliging, want anders kunnen er bedrijfsgeheimen uitlekken.

Daarnaast, veel van deze tools hebben een self-hosted enterprise variant, dan is er, zelfs als het wel verzameld wordt, geen data dat weer naar buiten kan.
Exact velen zien nog steeds niet in dat data veel oplevert, je bent als (eind)gebruiker voor veel bedrijven zoals meta niets meer dan grondstof (en jouw data is het product) of jouw data is de grondstof.
Dat hangt af van de voorwaarden, zakelijk zijn er ook andere opties mogelijk
Stelen .. Tja... Dat is de eeuwige discussie denk ik.
Als Jij of ik vandaag iets leren uit een kranten artikel en daar morgen een collega mee verder helpen of een betalende klant.
Heb je dan gestolen ? Moet je dan auteursrechten betalen ?
Jij en ik zijn geen eigendom van een groot bedrijf…
Ik denk niet dat we die discussie nog eeuwen gaan voeren.
Er is nog nooit een studie geweest die aantoont dat intelectueele eigendom in welke vorm dan ook meer oplevert dan het kost aan de maatschappij.

Je moet er gewoon eens goed over nadenken.
Past precies in het beeld van "wel de lusten, niet de lasten". Je ziet (heel vaak) dat commerciële partijen maar wat graag open source gebruiken en niets terug leveren aan die partij ondanks het profijt ze er zelf aan hebben. Nu is deze analogie een klein beetje brak aangezien GPT geen open source is. De achterliggende gedachten is dat je mee bijdraagt aan hetgeen waar je zelf profijt van heb. Je eigen artikelen niet onderdeel laten zijn van GPT maar dat vervolgens wel gebruiken is arrogant.
Belangrijk verschil: veel open source licenties verplichten de gebruikers niks, anders dan dat ze een kopie van de licentie moeten meeleveren.

Andere open source licenties zeggen dat ALS je iets aan de code wijzigt, dan MOET je je aanpassingen vrijgeven.

Maar volgens mij is er geen OS licentie die zegt "als je dit gebruikt moet je iets terugleveren".
Heel technisch gezien niet tegenstrijdig. Maar wel hypocriet.

Zelf artikelen samenstellen met AI getrained op "gestolen content" (je eigen woorden) maar niet willen dat je eigen content "gestolen" word om diezelfde AI te trainen.
Je kan niet zomaar stellen dat het niet tegenstrijdig is. Hooguit is er mogelijk geen direct verband wat betreft de herkomst van brongegevens.

Zolang het bedrijf niet kan aantonen dat de gegevens die gebruikt zijn om de AI op het niveau van gebruik/experimenteren te krijgen met wederzijdse toestemming zijn verkregen is het op zijn minst discutabel om eisen te stellen dat een ander je content niet mag gebruiken voor trainen. Dat is dan meten met twee maten.

[Reactie gewijzigd door kodak op 23 juli 2024 06:38]

een tool gebruiken en tegelijkertijd niet willen dat die je artikelen steelt lijken me geen tegenstrijdige argumenten toch?
AI is geen pay2win of gelegaliseerde diefstal, als je er gebruik van maakt dan heb je geen moreel bezwaar tegen hoe die getraind wordt en beide combineren is zoals insta-gib gebruiken in een knife-battle (ja een oldschool UT analogie :+ )
Toch opmerking is deze hoofdletter gevoelig ? User-agent: GPTBot, stel ze maken er 'gptbot' van, moet je het weer aanpassen.
Want tweakers haalt zijn informatie puur door de hort op te gaan? Of zou tweakers het nieuws ook uit (openbare) bronnen halen?

Ik denk dat die laatste vrij vaak voorkomt. Ofwel, wij mogen het wel, maar hunnie niet. Kalimero-stijl

Dus wat is het probleem van een AI nou eigenlijk? Ik kan mij er maar 1 indenken, het kost een klein beetje stroom. Nou, search engines crawls vinden Ze dan wel wel weer tof want levert bezoek op. Dus ja, gewoon flauw!
Lijkt mij zeker wel tegenstrijdig. Maar blijkbaar denk je daar anders over.
Beetje gechargeerd. Er is geen sprake van stelen. Ik vind t nogal hypocriet om zelf gebruik te maken van een dienst die je zelf blokkeert. Hoop dan ook dat openai bij een blokkerende robots.txt ook het gebruik van hun diensten door die sites verbiedt. Lijkt me niet meer dan billijk.
Ja, maar meningen en feiten lopen hier door elkaar. Wat je schrijft is geen mening, maar gewoon een hard feit. Je gebruikt niet het juiste argument, want schaarsheid is geen juridisch begrip, bezit wel: De bijbel op juridisch gebied is het Burgerlijk Wetboek en het staat gewoon in het Burgerlijk Wetboek wat mogelijk is om te bezitten: Zaken en vermogensrechten. Informatie is geen van beiden, bezit van informatie bestaat dus niet.

Op dezelfde manier bestaat het stelen van artikelen niet, althans, tenzij het om fysiek gedrukte exemplaren gaat. Dat is een simpel feit waar geen enkele juridische twijfel over kan zijn. Dat zomaar in een discussie opperen heeft alles te maken met discussie niet op een valse manier te willen voeren: Je stelt iets gelijk aan dat moreel verwerpelijk is, dus datgene wat jij wilt ook moreel verwerpelijk. Zo werkt de wereld helaas niet.

Dat er dan lieden zijn die mij gaan modereren... zegt een hoop over degenen die dat doen.

[Reactie gewijzigd door dmantione op 23 juli 2024 06:38]

Letterlijk dubbel. :)
Ik zie op de regionale edities van o.a. de Gelderlander per plaats hetzelfde artikel over iets statistisch dat per stad aangevuld wordt met de lokale cijfers. "In Tiel zijn er 120 fietsen gestolen, minder dan het landlijk gemiddelde." "In Velp zijn 800 fietsen gestolen, meer dan het landelijk gemiddelde." Dat soort werk.
Exact! Zie ook artikel op nu.nl, hoewel er nog wel een menselijke inbreng/correctie is:

"Zo proberen we AI onze artikelen samen te laten vatten. Maar op de resultaten zijn we nog behoorlijk kritisch.
Zodra we wél tevreden zijn met het voorzetje dat AI ons kan geven, krijgen jullie de kans om de meeste stukken op NU.nl ook in het kort te lezen. Zulke samenvattingen worden dan trouwens wel altijd eerst door de auteur van het stuk beoordeeld.
Ik geloof erin dat we daarmee mensen die niet zo veel tijd aan het nieuws willen of kunnen besteden meer informatie meegeven dan we nu doen.
"

Dus wel gebruik maken van de mogelijkheden, maar geen toegang verlenen en zo het leerproces blokkeren. Dat is hypocriet, want dan maak je wel gebruik van de input van die auteurs die ChatGPT niet blokkeren, maar het zelf weigeren ...

bron: nu.nl / https://www.nu.nl/blog/62...ar-wij-doen-het-werk.html
En dit is de nagel aan de doodskist van traditionele media. Een complete aankomende generatie gebruikt social media (niet die van de traditionele mediabedrijven) en AI als enige nieuwsbron. In plaats van deze beweging (of het een vooruitgang is laat ik in het midden) te omarmen en samen te gaan werken om je artikelen via AI inzichtelijk te maken krampachtig dit gaan blokkeren zal mogelijk een compleet andere uitwerking hebben dan de ivorentorenmanagers van DPG en Mediahuis denken.

Daarnaast, wat is bijvoorbeeld een tweakers qua nieuws meer dan zelf een doorgeeflijk van bronnen? Tuurlijk, we hebben de community en de reviews e.d., maar voor het pure nieuws "scraped" tweakers (al dan niet via een menselijke interactie) naar nieuws.
Daarom is het gebruik van addblockers en andere blockers op sites zoals Tweakers een absolute must.
Zij willen niet dat andere data verzamelen van hun sites, terwijl zij zelf alle mogelijke moeite doen om data te verzamelen van hun lezers of bezoekers. Hoe hypocriet kun je zijn?

We worden overspoelt door nepnieuws. Hoe meer AI geblockt wordt van reguliere nieuwssites, hoe meer AI getraind wordt in fakenews, want daar kunnen ze data blijven scrapen.
Nieuwssites zoals DPG zorgen dus in min of meerdere mate voor meer verspreiding en het groter worden van nepnieuws, niet bij hun misschien maar in het algemeen.
Wij doen juist heel veel moeite om zo min mogelijk data van onze bezoekers te tracken. Daarom zijn we van Googles advertentiesysteem afgestapt naar een die niet trackt: .plan: Tweakers’ overstap naar advertenties zonder thirdpartytracking is een ...
De seconde dat ik zag dat Tweakers AI artikelen laat schrijven ("af en toe") heb ik Adblock weer aangeslingerd. Volledig mee eens.
Waar heb je dat gelezen? Dat klopt namelijk niet, wij laten geen artikelen door AI schrijven.
Of je wel of niet de AI omarmt , je content gratis weggeven lijkt me in ieder geval geen goed idee.
Ik verwacht niet er een verdienmodel van te maken is om je artikelen inzichtelijk te maken dus waarom zou je dat doen.
En ook de aankomende generatie zal behoefte hebben aan goede artikelen en journalistiek.
Grappig, je zult straks zien dat de partijen die dit nu verbieden de grootste gebruikers zijn straks. Dus als OpenAI slim is bieden ze kortingen aan partijen die hun eigen data ter beschikking stellen. Of meer laten betalen als je je eigen data niet deelt :P
En dan doe je ff een set aan verwante artikelen ctrl+c ctrl+v, knal je dat in AI en als iedereen dat doet dan schieten ze er niets mee op. Ja het zal veel minder zijn dan wanneer de info gecrawled wordt, maar als je hier als persoon zo bewust mee bezig bent dat je het taalmodel wilt trainen, vind je toch wel een weg.
Ergens wel flauw. Hele pagina’s vol schrijven met artikelen over AI, omdat het helemaal hip is met leuke clickbait en bijbehorende reclame-inkomsten… Maar er niet aan bij willen dragen…
Dat zijn 2 verschillende dingen. Er over schrijven of er gebruik van maken. Er over schrijven en het dan 'verbieden' kan ik me voorstellen. Maar het zelf ook gebruiken, dan is het op zijn minst gewoon hypocriet.

Ik zou zeggen als je hoog van de toren blaast met je artikelen omdat die waarheidsgetrouw zijn, dan zou je als contentmaker toch juist blij moeten zijn dat ze jouw artikelen gebruiken?
Maar, waarom hebben de mediabedrijven deze keuze dan gemaakt?

Op het eerste oog lijkt het mij meeliftersgedrag of zelfs wat hypocriet; terwijl ze zelf ook experimenteren met door AI gemaakte content willen ze niet bijdragen aan de ontwikkeling ervan. Wel de lusten, niet de lasten...?
Omdat ze niet willen dat OpenAI geld verdient aan Mediahuis / DPG Media. Andersom is uiteraard geen enkel probleem. Het hypocriet noemen is de spijker op zijn kop slaan!

Ik kan me echt wel voorstellen dat er een grens is en dat je je eigen werk wil beschermen. Maar kom op zeg, dit is wel bizar hypocriet.
DPG kan toch niets verbieden? Ze kunnen vragen het niet te gebruiken met een robots.txt, en ze kunnen het verbieden dat er kopieën van hun werk gedeeld worden op basis van wetgeving omtrent auterusrechten. Maar DPG heeft verder geen wetgevende machten om opeens te bepalen wie wel en niet hun publiek beschikbare content kan benaderen en wat die daar verder mee doen.

Deze mededeling is intimidatie met grote woorden als verbieden, maar verder een papieren tijger. Je kan wel de content achter een muur zetten, en dan alleen mensen na inloggen toegang geven en specifiek alleen accounts van menselijke gebruikers toestaan. Echter, als mensen zoals ik dan een thuiskopie maken van de content en daar een AI model mee trainen hebben jullie weer pech ;)

Als je online datasets aantreft met daarin materialen waar jullie auteursrecht op hebben, en er geen toestemming uit jullie kant is verleent, dan heb je alle recht daar achter aan te gaan. Maar een robots.txt is niets anders dan een beleeft verzoek en geen verbod.

Op dit item kan niet meer gereageerd worden.