The New York Times verbiedt gebruik van zijn artikelen voor trainen AI-modellen

The New York Times heeft zijn algemene voorwaarden gewijzigd. Het Amerikaanse dagblad verbiedt nu het gebruik van zijn artikelen en andere content voor het trainen van AI-modellen. Webcrawlers mogen content van de website ook niet zonder toestemming verzamelen.

The New York Times heeft zijn voorwaarden begin deze maand aangepast, merkte Adweek op. Met de nieuwe voorwaarden verbiedt de krant het scrapen van zijn artikelen, foto's, afbeeldingen, illustraties, ontwerpen, audio- en videoclips, ontwerpen en metadata voor het trainen van machinelearning- of AI-modellen. Ook webcrawlers mogen content van het dagblad niet gebruiken om grote taalmodellen of AI-systemen te trainen.

Het niet naleven van de nieuwe beperkingen kan volgens The New York Times leiden tot boetes of straffen, maar de exacte invulling daarvan wordt niet genoemd in de voorwaarden. De krant lijkt zijn robots.txt-bestand, waarmee webcrawlers van zoekmachines worden geïnformeerd welke URL's toegankelijk zijn, niet te hebben aangepast.

Het is niet duidelijk om welke concrete reden The New York Times de wijziging in zijn voorwaarden heeft doorgevoerd; het bedrijf noemt geen redenen. AI-modellen worden doorgaans getraind op basis van datasets van het internet, waar ook auteursrechtelijk beschermde werken zoals journalistieke artikelen verwerkt kunnen zitten. Google zette onlangs bijvoorbeeld in zijn privacyvoorwaarden dat het bedrijf publieke data van het internet kan gebruiken om zijn AI-diensten te trainen, zoals chatbot Bard. OpenAI doet hetzelfde voor zijn GPT-modellen, maar laat website-eigenaren die dataverzameling blokkeren via hun robots.txt-bestand.

Door Daan van Monsjou

Nieuwsredacteur

14-08-2023 • 15:12

134

Lees meer

Reacties (134)

134
134
57
3
0
63
Wijzig sortering
Het niet naleven van de nieuwe beperkingen kan volgens The New York Times leiden tot boetes of straffen, maar de exacte invulling daarvan wordt niet genoemd in de voorwaarden. De krant lijkt zijn robots.txt-bestand, waarmee webcrawlers van zoekmachines worden geïnformeerd welke URL's toegankelijk zijn, niet te hebben aangepast.
Mag hopen dat de krant de robots.txt nog wel gaat bijwerken. Dat is immers de algemeen geaccepteerde werkwijze. Lijkt mij ook niet teveel gevraagd om je dan ook dáár aan te houden.
|:(
Dat is omgekeerde wereld. Voor gebruik moet je toestemming vragen van de rechthebbende. Een verbod op gebruik is dus al impliciet. Aan een robots.txt kan je ook geen rechten ontlenen.
Je kan ook niet aan een Google of Bing vragen of zij elke keer dat zij langskomen met hun indexatie robot bij jou toestemming gaan vragen, dat is redelijk onbegonnen werk. Makkelijker is dan om aan te geven wanneer je iets niet wilt.
Dat is iets anders, dat gaat om het indexeren en daar zijn regels voor. En voor (puur) caching zijn er ook uitzonderingen. Hergebruik/reproductie is echter niet zomaar toegestaan.

Om een voorbeeld te geven: Wikipedia geeft aan wat men wel/niet mag doen met een licentie. https://en.wikipedia.org/...s_content_somewhere_else?

Er staat zelfs een duidelijk verbod in.
Vraag is dus, hoeverre is dat rechtsgeldig?
Men kan wel zoveel in hun algemene voorwaarden zetten, het is geen bindend contract ofzo.

Ik moet nog de eerste gewonnen zaak zien die op basis van overtreding van algemene voorwaarden op een website iets behaald heeft.
Het is wel degelijk bindend. Auteursrecht (en eigendom) zit in de wet, ook internationaal.
Maar AI modellen hebben zeer weinig met auteursrecht te maken. Je kan niet letterlijk de artikels terug uit dat model halen achteraf.
Dat maakt niet uit. De auteur bepaalt waar diens werk voor gebruikt kan worden en als iemand dat negeert dan kan de auteur overgaan op vervolging. Zie ook artikel 10.3 van de algemene voorwaarden van Tweakers en het https://tweakers.net/info/auteursrecht/ waar commercieel gebruik verboden is.

Dus op Tweakers zijn AI scrapers al niet toegestaan en die hoeven ook niet in de robots.txt van tweakers.
Nee, daar heb je het toch mis. De vraag is of er een kopie wordt gemaakt. Neem je het artikel op in een dataset die je weer verder deelt (een private thuiskopie mag ;) ), dan overtreed je het auteursrecht, dan maak je immers een kopie. Voor iets snel cachen zijn ook uitzonderingen, en een AI kan prima getrained worden met wat direct gecrawled wordt en in een cache zit.

Tweakers / NYT bieden hun artikelen gewoon openbaar aan en kunnen niet zomaar bepalen wie wel/niet de boel bekijkt (digitale of menselijke entiteiten) en wat die met de informatie die ze daaruit halen doen. Dankzij het auteursrecht hebben ze wel wat te zeggen over kopieën, maar AI trainen kan niet enkel via kopieën die daar onder vallen.
Dat men het kan en/of doet betekent niet dat het mag ;)
Zoals altijd zijn er verschillen tussen de juridische wereld en de praktische wereld. Als je mer robots.txt een hoop tijd/geld/energie kan besparen die je anders aan rechtzaken kwijt bent, is dat natuurlijk wel zo slim. Ondanks dat je juridisch en principieel misschien gelijk hebt.
Anoniem: 1959400 @telenut14 augustus 2023 16:27
Is een gecomprimeerd plaatje van het origineel ineens niet meer onderhevig aan auteursrecht ? Dat is wat LLMs in feite doen, compressie van tekst. Daarom gaat wat mij betreft de uitleg van de menselijke interpretatie en hergebruik niet op. De menselijke interpretatie gaat verder dan een transformer model.
Is een gecomprimeerd plaatje van het origineel ineens niet meer onderhevig aan auteursrecht ? Dat is wat LLMs in feite doen, compressie van tekst.
Nee, dat is niet wat LLM's "in feite" doen.
Anoniem: 1959400 @CyBeR14 augustus 2023 16:43
Noem het encoding, ik vind het maar een semantisch spelletje waarvan het resultaat bijna gelijkwaardig is. Leuke in dit kader https://www.hendrik-erz.d...at-a-large-language-model
Maar het is ook geen encoding. Het is machine learning. Net zoiets als wat mensen doen, alleen dan uitgevoerd als wiskunde. Het resultaat is ook helemaal niet "bijna gelijkwaardig", als je dat uit dat artikel hebt, heb je dat hele artikel verkeerd begrepen.
Anoniem: 1959400 @CyBeR14 augustus 2023 17:58
Het is deep learning als je dan toch de juiste termen wil gebruiken. Duik in de algoritmes achter embedding, transformers, RNNs etc. Dan snap je waarom ik termen als encoding en compressie gebruik.
elke afbeelding bestaat uit gecompresseerde andere afbeeldingen zeker als je die gaat comprimeren tot 1 pixel... Je kan uit zo een LLM de bron moeilijk nog achterhalen.
Anoniem: 1959400 @telenut14 augustus 2023 16:40
In het paper “Extracting Training Data from Large Language Models“ kan je zien dat het wel degelijk mogelijk is.
Eigenlijk vreemde redenering. We lopen aan alle kanten te "schreeuwen" dat data delen via Opt-In zou moeten werken. Dus eigenlijk zouden crawlers gewoon standaard geen toegang moeten hebben, tenzij specifiek toegestaan in de robots.txt
Er is natuurlijk wel een verschil tussen persoonlijke data (zoals mijn persoonsgegevens) of de data die je kunt halen uit een nieuwsartikel op de website van een krant.
Daarnaast gaat het pro opt-in sentiment vrijwel (zoniet volledig) exclusief over de bescherming van consumenten, niet van bedrijven.

Desalniettemin zijn er ook genoeg websites van individuen met persoonlijke informatie. Voor deze groep is de opt-out eis wel een probleem. Zeker omdat niet iedereen met een website weet wat robots.txt is.

Aangezien het hosten van een website van door een webhosting bedrijf gebeurt lijkt het me niet zo gek dat de verantwoordelijkheid bij die partij ligt om een default robots.txt te gebruiken die standaard de relevante regels op disallow zet.
Het indexeren van een site is eigenlijk ook een grijsgebied en is eigenlijk ook sterk afhankelijk van de werkwijze van de search engine. Als de crawler het gehele artikel overneemt dan mag dat dus eigenlijk ook niet. Maar, daar werd een beetje door de vingers naar gekeken omdat het wederzijds bevorderlijk is. De site die geïndexeerd wordt krijgt er een hoop verkeer voor terug.

Er zijn in het verleden ook genoeg rechtszaken geweest juist vanwege dit onderwerp. Denk aan Google Images wat een gelijke situatie is als een LLM crawler. Google Images werkt nu ook totaal anders als in de begin jaren puur vanwege dit onderwerp.

Bij een LLM is dat anders omdat de gebruiker al een samenvatting krijgt van hetgeen wat er staat of zelf nog erger dat het wordt gebruikt om iets anders te genereren. Daar krijgt de content creator dus helemaal niks voor terug terwijl de maker van de LLM alle credits en inkomsten krijgt.

[Reactie gewijzigd door TechSupreme op 22 juli 2024 21:23]

Indexeren als consument mag trouwens wel gewoon als thuiskopie. Daar is het geen grijs gebied. Als jij dus voor eigen gebruik een taalmodel op NYT (mits je een account hebt om de thuiskopie mee te maken) wilt trainen dan mag je dat gewoon doen met een dataset die je lokaal of een privé cloud opslaat.
Ik betwijfel het of het zo is. Heb je daar bronnen voor?
Welk artikel specifiek doel je op en hoe wordt die toegepast, nog beter zou zijn als je naar jurisprudentie wijst.

Jouw link spreekt jou sowieso al tegen.

[Reactie gewijzigd door TechSupreme op 22 juli 2024 21:23]

Artikel 16, waar de link ook specifiek naartoe wijst. Voor de jurisprudentie moet je maar bij je rechtsbijstandsverzekering zijn. Jij betwijfelt of het recht op een thuiskopie bestaat en vraagt om een bron, ik geef je de wet waar dat in geregeld is met het specifieke artikel. De bal ligt nu in jou hoek om aan te tonen dat deze wet geen stand houd in de rechtszaal, succes.
Zoals ik al zei, waar jij naar linkt spreekt jou tegen en gaat sowieso niet over een thuiskopie.
het overnemen in overeenstemming is met hetgeen naar de regels van het maatschappelijk verkeer redelijkerwijs geoorloofd is;
aan de maker of zijn rechtverkrijgenden een billijke vergoeding wordt betaald.
Waarschijnlijk bedoel jij niet 16, maar 16c aangezien je het hebt over een thuiskopie. Daar zijn ook een hoop ogen en haken waar ik heel diep op in kan gaan, maar lid 8 is al genoeg.
Dit artikel is niet van toepassing op het verveelvoudigen van een met elektronische middelen toegankelijke verzameling als bedoeld in artikel 10, derde lid.

[Reactie gewijzigd door TechSupreme op 22 juli 2024 21:23]

De vraag is ook in hoeverre je van nieuwsitems publiceren op een website (wat toch de website van een krant voornamelijk doet) je kan spreken over rechten. Natuurlijk, op de manier waarop het geschreven is zal men vast copyright hebben, maar weerhoudt dat een andere kant om ook te schrijven over die ene bijzondere gebeurtenis? ;)
Die vraag bestaat niet. Er rusten gewoon auteursrechten op journalistieke artikelen. En terecht.
Dat schrijf ik toch ook? Dat er op de manier waarop het geschreven is copyright rust, maar dat weerhoudt een ander er niet van om ook over diezelfde gebeurtenis te schrijven.
Iedereen kan ook over dezelfde gebeurtenissen schrijven maar de manier waarop dat gebeurt verschilt per medium, journalist, en doelgroep.
Dat kent de term "convergente evolutie", wanneer twee onafhankelijke partijen los van elkaar resulteert in dezelfde uitkomst, en is heel verwarrend wanneer beide partijen overtuigd zijn dat de ander plagiaat pleegt. Het wordt nog leuker als de ene hergebruik verbied terwijl de ander het toestaat is. Als de tekst (onwaarschijnlijk) exact hetzelfde zijn dan moet je heel erg opletten welke tekst je kopieert.
Qua resultaat maakt het niet uit wie je kopieert, maar qua auteursrecht is wel van belang. Uiteraard is het voor alle partijen zeer lastig te bewijzen wie-wie gekopieerd heeft.
Wat help is natuurlijk publicatie datum en eventueel een geschiedenis van intern opgeslagen drafts. Het is vrij bijzonder voor iets als copyright dat je exact gelijk geschreven stukken tekst krijgt (een zinnetje hier en daar is niet zo gek, een hele paragraaf is al bijzonder). Maar voor andere zaken zie je het meer. Denk aan patenten waar de datum van openbaring en het publiek daarbij beslissend is. Bij wetenschappelijke publicaties speelt het ook in dat tijdschriften in principe enkel nieuwe vindingen willen publiceren (afgeleiden van eerder onderzoek kunnen prima als nieuw tellen daarbij), maar dat je soms rond dezelfde tijd meerdere publicaties krijgt en dan tellen zaken als wanneer is het manuscript aangeboden mee bij de beslissing om toch nog te publiceren of iets in te trekken.

Voor die unieke zaken van convergente evolutie bij een auteursrecht zaak helpt iets als een version control systeem. Zeker als het een onfeilbaar systeem is via bijv. blockchain. Maar met hoe zeldzaam het is is het de vraag of je hier wel in wilt investeren.
Sorry hoor, maar wat je nou schrijft is gewoon pure onzin. Je doet nou alsof er een twijfel bestaat, alsof een journalist alleen recht op kan eisen op een bepaalde gebeurtenis. Je weet dondersgoed dat dat niet kan en je weet ook dondersgoed dat dat niet de kwestie is.

Iedereen mag verslag doen, iedereen mag een opiniestuk schrijven. Sterker nog als ik een opiniestuk schrijf dan mag jij zelfs een opiniestuk schrijven over mijn opiniestuk en zelfs delen van mijn stuk citeren en zeggen wat jij daarvan vindt. Dat is allemaal mogelijk.

Ik zal nog verder gaan, wij mogen beiden ook fotos maken van dezelfde situatie en wij mogen zelfs een schilderij maken van hetzelfde. Maar, we moeten het wel allemaal zelf doen op onze eigen unieke wijze.

Iedereen genereert zijn eigen unieke werk en daar gaat het om. Het unieke werk.

Als een chatbot zijn eigen verslaggevers had in de vorm van drones met camera's. Met die eigen drones z'n eigen beelden en interviews maakt en dan die beelden analyseert en z'n eigen unieke stuk erover genereert, dan is er niks aan de hand.

Wat een chatbot nu doet is, het pakt het werk van een andere en verwerkt het gehele stuk om iets anders te genereren. Als een mens dat zou doen dan heet het fraude.

Aub hou op met dit soort argumenten. We kunnen het hebben over transformatieve werken en we kunnen het hebben over of het trainen van een LLM wel of niet transformatief is. Ik kan je daar ook duidelijk mijn mening over geven. De trainingsdata is naar mijn mening transformatief, want je creëert duidelijk toch weer iets unieks, de bot zelf. Maar, het eindresultaat is weer niet transformatief want wat de eindgebruiker krijgt is een aan elkaar geknoopt stuk van andermans werk. Dus eigenlijk zouden we een discussie moeten hebben over waar wiens verantwoording begint en eindigt.

Want met een LLM per casus beoordelen wat wel of niet transformatief is pf wat wel of niet een citaat is, is onbegonnen werk. Want jij kan naar genoeg casussen wijzen en zeggen dat het een citaat is en ik kan daarop een haffel aan casussen genereren die weer niet transformatief zijn.

[Reactie gewijzigd door TechSupreme op 22 juli 2024 21:23]

Sorry hoor, maar wat je nou schrijft is gewoon pure onzin. Je doet nou alsof er een twijfel bestaat, alsof een journalist alleen recht op kan eisen op een bepaalde gebeurtenis. .
Dat is toch precies wat ik zeg? Wat is het probleem nou? :? De toon die je hier aanslaat is in elk geval nergens voor nodig.

[Reactie gewijzigd door CH4OS op 22 juli 2024 21:23]

De vraag is ook in hoeverre je van nieuwsitems publiceren op een website (wat toch de website van een krant voornamelijk doet) je kan spreken over rechten.
Dat zeg jij helemaal niet.
Dan lees je mij verkeerd en met selectief quoten gooi je de context ook maar even overboord. Anyway, in discussie erover met jou heeft dus ook geen zin. :)

Hint: Lees met name even de rest van die reactie na de zin die jij nu quote eens even heel goed. ;)

[Reactie gewijzigd door CH4OS op 22 juli 2024 21:23]

Dus mensen mogen schrijven op basis van elkaars werk en AI moet persé live verslag leggen?

Het is prima om dubbele standaarden te hanteren voor mensen en AI, maar wees daar dan wel duidelijk in dat dat is wat je doet.
Het doel van LLM is niet het nieuws brengen dus dat lijkt me ook het probleem niet.

Het probleem lijkt me dat de commerciele bedrijven achter AI's/LLM's nu tegen geen enkele vergoeding iets gebruiken wat NYT (en anderen) normaliter tegen vergoeding verkoopt en dat die bedrijven straks miljarden gaan binnen harken met technologie die ze getrained hebben op basis van informatie waar ze in de basis voor hadden moeten betalen maar wat ze met crawlers en scrapers van het internet af gestolen hebben. :)
Tja, zo werkt het helaas wel. Jan en alleman kan je shit scrapen en op trainen tenzij jij specifiek zegt dat ze dat niet moeten doen (en dan nog maar de vraag of ze dat honoreren).
Jan en alleman overtreden daarmee in principe gewoon de wet.
Ik denk dat dat wat kort door de bocht is. De krant wil ook hoog in zoek resultaten komen bijvoorbeeld. Dan moet je wel een score kunnen geven aan de website, vooraleer het bruikbaar is. Dus men verwacht ook wel wat van de zoekmachines, maar zonder informatie over de website en de vele pagina's die erop staan is er ook geen inzicht en dus indicatie te geven. Dit mes snijdt echt aan twee kanten.
Maar hoe toon je aan dat ze jouw data gebruikt hebben voor hun modellen? Dat is denk ik niet altijd even makkelijk
Ookal toon je het aan, wat dan nog? Hier bestaat helemaal geen wetgeving tegen. Het artikel stelt ook dat volgens de NYT boetes kunnen volgen. Alsof zij wel even boetes kunnen gaan uitschrijven. Wanneer is er überhaupt ook maar een enkele boete ten laste gelegd voor ai scraping? Grote woorden, maar ze kunnen je hoogstens proberen te weren lijkt mij.

Veel heisa recentelijk omdat men natuurlijk centjes ruikt, maar mij is zeker nog niet duidelijk dat de woorden ook echt slagkracht hebben.
Ze kunnen altijd een schikkingsvoorstel sturen met het voorstel de mogelijke rechtszaak af te kopen :+
Door in je site hele specifieke FOUTE gegevens te hebben die je alleen aan AI partijen voert op elke pagina. Dan leert de AI die foute kennis. Kan zo simpel zijn als op elke pagina De Flipoerconstante is 2.48782389736872364 her en der in je site als een AI op bezoek komt.

(Ik bedenk dit ter plekke dus schiet er vooral gaten in als die er zijn.)
ik schiet er zelf 1 in: Wat als ze zich niet als AI kenbaar maken.

[Reactie gewijzigd door MrMonkE op 22 juli 2024 21:23]

Welke wet? "Ik wil niet dat je dat doet" is geen wet.
die zeggen niks over gebruiken voor training
Die zeggen wel degelijk iets over het hergebruik voor commerciële doeleinden.
Die zeggen iets over kopiëren voor commerciële doeleinden, niet gebruik.
Neen, die zeggen over het algemeen iets over 'reproduction' en laten uitzonderingen toe onder fair use.
Auterusrecht, of copyright, gaat over het recht op kopiëren (what's in a name). Je kan geen rechten op kennis/informatie zelf hebben, wel op het gebruiken van IP in media (copyright/trademark) of gebruiken van technieken (octrooirecht). Maar de kennis/informatie mag een ieder en alles (inclusief AI) tot zich nemen als het openbaar gedeeld is. Het is wat anders als het afgeschermd is opgeslagen en je de beveiliging gaan breken, dan ben je strafbaar bezig, maar dat is hier niet het geval.
Die zeggen wel degelijk wel iets over het gebruik van werk dat iemand anders heeft gedaan. Als jij een foto hebt gemaakt kan ik er wel een zwart/wit filter overheen gooien, maar dan heb ik nog geen recht deze te verkopen.
Als jij een foto neemt waar je doet alsof je de toren van Pisa wil geven houden, dan mag iemand anders dat ook nog steeds doen.
Mijn inziens neem je precies het grote probleem van de huidige AI scrapers. Maar ze noemen het zelf "fair use" en dat wordt blijkbaar meestal geaccepteerd.
Vandaar dat er ook regelgeving nodig is.
De regelgeving is er en dat is diezelfde fair use.
Nou ok, er is een soort "regelgeving". Dan: "Vandaar dat er ook goed beleid nodig is".

De bestaande regels omtrent auteursrecht en copyright zijn niet 100% duidelijk in deze situatie. En er is (nog) een gebrek specifiek beleid vanuit de overheden. De partijen die AI's trainen hebben daarom "fair use" en "transformative use" aangevoerd waneer ze aangeklaagd. En soms is dat geaccepteerd. En in Amerika zijn gerechtelijke uitspraken dan de nieuwe regelgeving.

However, het laatste is hier nog niet over gezegd, want de supreme court en de senaat zijn nog druk bezig met de zaak te analyseren. En de AI makers hebben ook door dat die waarschijnlijk in hun nadeel gaat uitpakken, dus zijn nu hard aan het roepen dat er "goede regelgeving moet komen", maar dat zij bij het maken van deze regelgeving betrokken moeten worden.

Het kan dus best zijn dat de huidige regelgeving gaat veranderen.

[Reactie gewijzigd door MeMoRy op 22 juli 2024 21:23]

Wel een interessante discussie, want wat wil je wel en wat wil je niet? En wie zijn allemaal partijen die wel en niet iets willen of mogen zien? Als ik als actor informatie opvraag bij de NYT, dan wil NYT het mij maar al te goed geven. Als de actor een computer is, dan wil de NYT dit dan weer niet, maar wellicht in sommige gevallen wel. En de NYT mag/kan vanwege privacy wetgeving en instellingen niet met zekerheid zeggen wie de aanvrager is.

En waar zit de grens tussen artificial intelligentie en biologische intelligentie. Ik denk dat de grens tussen biologische en artificial intelligentie kleiner is dan we denken en dat we biologische intelligentie overschatten qua hoe speciaal het is.

Mag ik als mens eigenlijk wel een artikel onthouden en ervan leren? Is mijn algemene kennis daarna een afgeleide van dit artikel en valt mijn brein hierna onder de copyright van de originele auteur? Zo nee, waar zit dan de grens tussen een LLM en mijn brein.

Dit was weer genoeg filosofie voor 1 post.

AI is losgelaten en het gaat niet meer weg. Omarm het of word irrelevant.
Juist. De robot.txt zou juist aan moeten geven dat je wel toestemming geeft (dus opt-in). Geen robot.txt? Dan geef je blijkbaar geen toestemming, of heb je geen idee van hoe e.e.a. werkt. Maar in het laatste geval is er geen man overboord, want geen gegevens "meegenomen" in het zoeken / AI training / enz.
Je kan het ook andersom stellen. Bied je het openbaar aan dan geef je toestemming dat anderen dit tot zich nemen, zolang ze het maar niet direct kopiëren (op caching na). Met een robots.txt kan je netjes vragen om het gebruik te beperken, maar als je het echt wilt beperken moet je het niet zo openbaar aanbieden. Dan moet je bijv. een account vereisen om bij de artikelen te komen met voorwaarden dat enkel mensen een account mogen hebben/gebruiken.
Eigenlijk ben ik het er niet mee eens. Dat is een opt-out mechanisme, waarbij je de problemen bij andere neer legt.

Waarom moet je specifiek voor alles aangeven dat je niet wilt dat men automatisch de gebruiksvoorwaarden van jou site schend? Dat zou toch omgekeerd moeten zijn.

En volgens mij is het ook nog vrij nieuw dat OpenAI bijvoorbeeld robots.txt respecteert en je met specifiek hun daar in opnemen.
Je kan aan een indexer ook moeilijk vragen om elke keer toestemming te vragen om een website/webpagina te indexeren/scrapen voor doeleinde X. Daar zijn teveel websites voor en teveel pagina's om dat keer op keer te gaan doen. Dan is het dus vele malen efficiënter om gewoon aan te geven als je het zelf niet wilt.
En volgens mij is het ook nog vrij nieuw dat OpenAI bijvoorbeeld robots.txt respecteert en je met specifiek hun daar in opnemen.
Geldt voor search spiders trouwens net zo. Al kun je daar ook middels een algemeen iets ook inderdaad allen niet toestaan. Maar je kan wel degelijk de spider van Bing wel tegenhouden en Google bijvoorbeeld niet.

[Reactie gewijzigd door CH4OS op 22 juli 2024 21:23]

Dus in plaats dat een bedrijf dat graag data wil verzamelen word opgezadeld met het probleem dat ze toestemming moeten vragen om die data te verzamelen is het een veel geaccepteerdere oplossing dat de rest van de wereld dan maar gaat uitzoeken wie ze allemaal moeten buitensluiten?

OpenAI heeft hier een probleem gecreëerd, dan mogen zij toch op de blaren zitten?

Of mogen we nu elke week robots.txt bijwerken als iemand weer een nieuwe crawler heeft gemaakt die weer een eigen useragent heeft die toegevoegd moet worden?

[Reactie gewijzigd door LOTG op 22 juli 2024 21:23]

Websites willen vaak ook een goede ranking in de zoekmachines hebben. Om dat te krijgen, zal de zoekmachine diens spiders moeten loslaten op jouw website.

Nu komt er AI bij en is het "opeens" een ding met copyright en weet ik het wat allemaal en moet alles maar beschermd worden, want we willen niet dat onze data (die anders toch ook al wel bij tech giants zoals Google (Bard) en Microsoft (Chat GPT) ligt).

Ik denk dat men niet zo krampachtig moet vast houden aan wat er was, nu AI er ook is. En al helemaal niet in problemen te gaan denken, maar oplossingen. Momenteel is de oplossing dat als je niet wilt dat een robot (om wat voor doel dan ook) jouw website indexeert (voor welke reden dan ook) dan geef je dat aan in een robots.txt. Dat is al jaren gemeengoed, alom geaccepteerd, maar omdat nu AI erbij komt, is er opeens een probleem dat door AI is ontstaan?

Welk probleem precies? In de zoekresultaten zie je ook content van o.a. The New York Times. Dat is dan zelfs 1:1 overgenomen, een AI (chat)bot maakt er dan teminste nog iets anders van, geïnspireerd op de data die het heeft.

[Reactie gewijzigd door CH4OS op 22 juli 2024 21:23]

Je begrijpt toch zelf ook wel dat wat je zegt niet klopt.

Je vergelijkt indexeren voor zoeken nu met het leeg trekken van sites voor AI training. Ook is er al meermaals aangegeven dat het indexeren en kopiëren van inhoud twee verschillende dingen zijn en Google dus ook niet zo maar complete artikelen mocht overnemen voor hun eigen site zo dat de betreffende nieuws site geen inkomsten maar wel de onkosten van Google had.

En nu krijg je AI die dus ook een hele site kopieert zo dat mensen niet naar de bron gaan maar een "interpretatie" van de AI gaan vragen.

Dan heb je toch over een paar jaar geen sites meer die artikelen schrijven om over te nemen en is het een groot nest van AI content die van alles bij elkaar verzint want ze kopiëren elkaar alleen nog.

Probleem met robots.txt is dus dat het niet werkt als iedereen zijn eigen ding er mee doet. NYT heeft een robots.txt maar blijkbaar heeft OpenAI vorige week bedacht dat je specifiek hun useragent moet opnemen als je niet wil dat jou data zonder toestemming overgenomen was.

En er was geen probleem. Iedereen was het er over eens dat je niet zo maar data van anderen mocht gebruiken voor andere doeleindes. En toen kwam AI en vond men dat ze zo maar alles van iedereen mochten kopiëren en gebruiken zonder toestemming. En toen bleek dat het onder de huidige wetgeving toch niet zo maar mocht.

Denken in oplossingen is prima. Een oplossing is dat AI datasets gewoon gevuld worden met data waar netjes voor betaald is en toestemming voor gegeven is. Zoals normaal is.
Je begrijpt toch zelf ook wel dat wat je zegt niet klopt.

Je vergelijkt indexeren voor zoeken nu met het leeg trekken van sites voor AI training. Ook is er al meermaals aangegeven dat het indexeren en kopiëren van inhoud twee verschillende dingen zijn en Google dus ook niet zo maar complete artikelen mocht overnemen voor hun eigen site zo dat de betreffende nieuws site geen inkomsten maar wel de onkosten van Google had.
Zolang er nog geen gestandaardiseerde oplossing is, zal je ook iets moeten doen als je iets niet wilt. Wat ze nu hebben gedaan is een eerste stap, als er meer duidelijkheid is hoe de grote tech giants gaan zorgen dat je kan voorkomen dat jouw pagina's meegenomen worden voor de LLMs van hun chatbots is dit een simpele eerste stap. Ook het bijwerken van robots.txt is dan een kleine, simpele stap, dat is alles wat ik zeg (in mijn allereerste reactie althans).
En nu krijg je AI die dus ook een hele site kopieert zo dat mensen niet naar de bron gaan maar een "interpretatie" van de AI gaan vragen.
Dit lijkt mij meer een gedragsprobleem dan dat zoiets het probleem van de AI is.
Probleem met robots.txt is dus dat het niet werkt als iedereen zijn eigen ding er mee doet. NYT heeft een robots.txt maar blijkbaar heeft OpenAI vorige week bedacht dat je specifiek hun useragent moet opnemen als je niet wil dat jou data zonder toestemming overgenomen was.
Hoe moet je anders vertellen dat dat iets of iemand niet welkom is? DeviantArt heeft dan weer een header die zij zoeken, de zogenaamde NoAI header. Er moet dus gewoon een standaard oplossing voor dit komen. Het opnemen in de algemene voorwaarden is een eerste stap. :)

[Reactie gewijzigd door CH4OS op 22 juli 2024 21:23]

Het is met AI niet helemaal vergelijkbaar met wat google/bing doet. Als ik google vraag om iets zal google een link geven naar de bron. Als ik het de AI vraag komt er een lap tekst (zonder bronvermelding) die hopelijk correct is. Dan loop je als content creator traffic (=inkomsten) mis en potentieel krijgt de lezer ook nog verkeerde informatie waarvan de lezer denkt dat die klopt. Ik snap dus wel dat met de huidige staat van AI het en zo snel mogelijk monetizen ervan een aantal content-creators zeggen: hoho.
Wat houdt Google tegen om met de data van de Google Bot ook hun Bard te voeden? Overigens kan je gewoon om bronvermeldingen vragen, zowel bij GPT als Bard, dus ik denk dat dat wel goed zit. :)
Gegenereerde lappen tekst over niet-nieuws kan ik mij voorstellen, maar nieuws is redelijk feitelijk. Als een AI chatbot die info van een nieuwspagina heeft, kun je dat dus prima bronvermelden of er anders zelfs naar vragen.
Je kan misschien wel om bronvermelding vragen, maar bij ChatGPT krijg je dan niets of verzonnen bronnen terug. Alleen Bing heeft voor zover ik weet een systeem met bronvermelding, en probeert ook gebruikers door te sturen naar de achterliggende sites.

Het probleem is: als de chatbots al aan bronvermelding doen zorgt dit nog steeds niet voor een bezoek naar de achterliggende site, en dus minder of geen inkomsten voor de achterliggende site. De makers van de chatbots proberen juist hun diensten te verkopen met het argument dat je niet meer alle sites hoeft te bezoeken om informatie te vinden. Daarmee raken ze direct het verdienmodel van websites die geld verdienen met advertenties, zonder dat er enige vorm van compensatie is.
Probeert het eens bij GPT zou ik zeggen... grote kans dat de bron niet bestaat.
Wie zegt dat ze elke keer toestemming moeten vragen? Ik hoef toch ook niet voor elke kWh die ik gebruik een contract tekenen? Het staat scrapers vrij om een overeenkomst te sluiten voor een bepaalde tijd.
Waarom moet je specifiek voor alles aangeven dat je niet wilt dat men automatisch de gebruiksvoorwaarden van jou site schend? Dat zou toch omgekeerd moeten zijn.
De standaard op het internet is dat je je data beschikbaar stelt voor anderen om te gebruiken. Je kunt dat sowieso altijd voorkomen door met accounts te werken en voorwaarden te stellen aan het account.
Snap uberhaupt al niet waar NYT zich druk om maakt, want 95% van hun artikelen staat achter een betaal- en inlogmuur. Dus die AI kan toch al nergens bij.
Tuurlijk wel.

Ten eerste staat de content wél open voor zoekmachines
Ten tweede kan OpenAI prima een account veroorloven als dat niet zo zou zijn
Als ze een account maken is het probleem ook gelijk opgelost, want dan betalen ze dus voor het account.

Overigens doet het mij denk dat OpenAI en zoekmachines ook niet bij alle data kan. Meestal kunnen die alleen bij de titel en de koptekst, de rest van de tekst kan een zoekmachine vaak ook niet bij tegenwoordig. Zouden ze toestaan dat een zoekmachine alle tekst gewoon te zien krijgt, dan zou dat namelijk een hele makkelijke omweg zijn voor gebruikers om bij de data te kunnen zonder account, door alleen de useragent aan te passen naar GoogleBot of naar de agentstring van OpenAI.

Doordat ze het nu opnemen in de voorwaarden en je akkoord moet gaan met de voorwaarden als je een account aanmaakt, timmeren ze nu alles dicht.
> Zouden ze toestaan dat een zoekmachine alle tekst gewoon te zien krijgt, dan zou dat namelijk een hele makkelijke omweg zijn voor gebruikers om bij de data te kunnen zonder account, door alleen de useragent aan te passen naar GoogleBot of naar de agentstring van OpenAI.

Dat doet bijv 12ft.io dan ook om contentedwalls te omzeilen (die kon vroeger ook nytimes lezen, maar nu niet meer, vast een dwangbevel gekregen)
En zelfs een ontbrekende noindex meta tag in de html.
Ben wel benieuwd wat dat kan opleveren.
- Ny Times klaagt chatgpt aan, voor toch trainen van data na wijziging voorwaarden
- chatgpt zegt, heb het niet in je robots.txt of je noindex meta gezien

Volgens mij heeft ny times dan geen poot om op te staan, algemene voorwaarden zijn niet per se rechtsgeldig of te handhaven (jn US volgens mij ook).
Met een beetje zoeken blijkt dat OpenAI dit vorige week ook pas heeft geimplementeerd en je specifiek hun crawler moet opnemen.

Dus wat jij zegt is dat NYT naar de site van alle AI projecten moet gaan en daar moet uitzoeken wat er in hun voorwaarden staat? En dan hoe je ze kunt uitsluiten?

Hoe kan dat rechtsgeldig zijn, maar hun voorwaarden niet?
Ik heb geen idee man, al die regeltjes zijn hartstikke raar. Maar heel robots.txt was al wazig voor AI hoor.

Neem https://developers.google.../robots/create-robots-txt bijvoorbeeld, en zie het stukje
# Example 3: Block all crawlers except AdsBot (AdsBot crawlers must be named explicitly)
User-agent: *
Disallow: /
Dus, disallow ALLES, maar AdsBot negeert dat dus, moet je specifiek opnemen. En nu dus ook allerlei AI's die je specifiek moet noemen.
Exact, slaat toch helemaal nergens op. Ik denk dat die onzin juist een heel goede reden is om wel gelijk te krijgen van een rechter met verstrekkende gevolgen voor crawlers.
De reden dat AdsBot het negeert zal wel zijn dat het ze niet uitkomt en liever wel langskomen en zo zoeven langs de grens van het acceptabele. Wat mij betreft overigens voldoende reden om crawlers als AdsBot volledig te blokkeren en de maker aan te klagen of je website als honeypot voor deze crawler gebruiken.
Ik gok dat de reden dat AdsBot het negeert is dat Google graag wil weten wat er op een pagina staat waar jij advertenties van Google op zet. Niet om de boel te indexeren, maar om te voorkomen dat advertenties van google's klanten onbedoeld te zien zijn op ongewenste pagina's.

Ik gok dat je ze wel kan opnemen in je robots.txt, maar dat je zolang je dat doet je website niet kan monetizen.

[Reactie gewijzigd door Kees op 22 juli 2024 21:23]

Van wat ik heb ervan begrepen heb is het juist met name andersom, een ad die ergens anders geserveerd wordt (op google zelf bijv) die mogelijk naar jouw site wijst. Controleren van landingspagina enzo, en indexeren ze je site wel degelijk om dat te kunnen inspecteren. Stomme is dat ze dus default doen, of je nou gebruik maakt van de dienst of niet (dus lijkt het me meer een excuus)..
robots.txt is ook een advies. De oorsprong was ook een webcrawler die een denial of service veroorzaakte omdat de server het niet aankon en dat was het probleem wat ze wilde oplossen.

Overigens kan ik iedereen aanraden eens te kijken naar de robots.txt van verschillende websites (zoals die van Google, Wikipedia, Microsoft et cetera) daar staan nogal wat opmerkelijke dingen in (vooral die van en.wikipedia geeft nogal duidelijk de tekortkomingen aan)
Juridisch lijkt Robots.tx me niet de sterkste poot om op te staan.

Als de voorwaarden zeggen dat het niet mag terwijl Robots.txt er over zwijgt dan mag OpenAI die data niet opzuigen zonder vooraf schriftelijke toestemming. Als ze die toestemming niet aan de rechter kunnen laten zien dan is het een snel uitgemaakte zaak.

Het is de taak van de data stofzuigers om eerst de voorwaarden de checken.

[Reactie gewijzigd door Maurits van Baerle op 22 juli 2024 21:23]

hoe zit dat dan met public domain, dan kan je wel een voorwaarde hebben, maar het staat toch echt publiekelijk op internet.
Public domain is public domain, maar als er iets uit het public domain op mijn website staat, zegt dat niet dat je dat zomaar van mijn website mag halen.

Zie het als een film uit het public domain, die kan ik hier op DVD hebben liggen, maar dat zegt niet dat iedereen die DVD maar mag gebruiken zonder mijn toestemming.
Anoniem: 85014 @Zoop14 augustus 2023 18:01
Als je de algemene voorwaarden niet aanvaardt, dan gelden de gewone copyright regels. Die laten het helemaal niet toe (wat chatgpt e.d. doet).
Geaccepteerd volgens wie? Gewenst door sommige crawlers en zeker niet gestandaardiseerd. DevaintArt wil dan dat je de meta noai set om hun crawler te weren en Google wil ook weer iets anders.

De rechtsgeldigheid van al die methoden is twijfelachtig.
Natuurlijk is het maar de vraag of een robot zich er aan houdt, maar het zou best schande zijn als de robots van grote tech giants zich er niet aan houden. Alles en iedereen weigeren hoeft dan ook maar twee regels te zijn in robots.txt:

User-agent: *
Disallow: /

En klaar ben je, als dat al teveel moeite is... Maar blijkbaar mogen search spiders wel degelijk op bepaalde plaatsen komen, zie ook https://www.nytimes.com/robots.txt. ;)

[Reactie gewijzigd door CH4OS op 22 juli 2024 21:23]

Dat klopt dus ook niet:
Neem https://developers.google.../robots/create-robots-txt bijvoorbeeld, en zie het stukje:


# Example 3: Block all crawlers except AdsBot (AdsBot crawlers must be named explicitly)
User-agent: *
Disallow: /



Dus, disallow ALLES, maar AdsBot negeert dat dus, moet je specifiek opnemen. En nu dus ook allerlei AI's die je specifiek moet noemen.

[Reactie gewijzigd door SgtElPotato op 22 juli 2024 21:23]

Oh jee, er is wel 1 bot waarvoor je speciaal specifiek de agent moet blokkeren om hem tegen te houden. Dat maakt voor het gros / merendeel toch niet uit? En ook de AdsBot is dus te blokkeren als je dat zou willen. ;)
En OpenAI wil dat je expliciet GPTBot definieert. Dat is dan al 2. En DeviantArt wil dat je een meta gebruikt, dat is 3.
En dat terwijl ChatGTP in principe intelligent genoeg is om de algemene voorwaarden te 'lezen'.
Anoniem: 80910 @CH4OS14 augustus 2023 17:04
Ja en dat is meten met 2 maten. oftewel google zou zo maar mogen indexeren en een kleine onbekende speler zou dus niet mogen indexeren. Nu is het aan de site eigenaar te bepalen wat wie mag zien, maar als het in de publieke domein is terechtgekomen mag ik het verhaal toch oppikken en er doen wat ik er mee wil, hadden ze het maar achter een betaalmuur moeten zetten. daarnaast als google wel door die betaalmuur heen mag en anderen niet, valt ook wat over te zeggen.
maar als het in de publieke domein is terechtgekomen mag ik het verhaal toch oppikken en er doen wat ik er mee wil
Lang verhaal kort, nee! Zo werken die dingen niet. Dat iemand iets openbaar maakt, wil niet zeggen dat jij het ook zomaar mag overnemen en verder verwerken. Daar zijn de wetten heel duidelijk in. Je mag iets citeren (en over de jaren is daar consensus over ontstaan hoeveel je mag citeren), je mag ook delen eruit pakken en dat verwerken in een ander werk (zolang je credits geeft), maar je mag het geheel niet zomaar overnemen en dat verwerken.
Het probleem met de robots.txt bijwerken is dat je maar moet vertrouwen dat elk AI bedrijf zich daar aan houd, en je dus niet alleen GPTBot moet uitsluiten, maar ook alle andere bestaande en toekomstige AI-scrapers.

En wat als die zich er dan niet aan houden? Of als bijvoorbeeld Google zijn eigen search-bot gebruikt, waarbij je wel toestaat dat Google je in de zoekmachine mag tonen, maar niet wil dat Google je in hun AI opneemt?

Daarnaast was er altijd de vraag of copyright hier afdoende voor was, maar door het expliciet te verbieden is er ook geen onduidelijkheid meer over wat ze nu precies bedoelen. En dan sta je in de toekomst ook sterker tegen nieuwe AI bedrijven. Die kunnen dan wel zeggen 'het stond niet in je robots.txt', maar het staat wel op hun site, en dat hadden ze kunnen weten.
Het probleem met de robots.txt bijwerken is dat je maar moet vertrouwen dat elk AI bedrijf zich daar aan houd, en je dus niet alleen GPTBot moet uitsluiten, maar ook alle andere bestaande en toekomstige AI-scrapers.
Tja, en hoe groot is dat een probleem? Momenteel moet een New York Times die spiders/robots ook maar vertrouwen. Sterker nog, de robots.txt van New York Times staat eigenlijk behoorlijk wat toe al. Schijnbaar hebben ze zelf dus ook wel behoefte aan om geindexeerd te worden. Voor sommige user agents zelfs aparte regels die wel/niet toegestaan zijn. :) Dus schijnbaar is dat op zich geen ding, maar nu AI om de hoek komt kijken, is het opeens wel een probleem?
En wat als die zich er dan niet aan houden? Of als bijvoorbeeld Google zijn eigen search-bot gebruikt, waarbij je wel toestaat dat Google je in de zoekmachine mag tonen, maar niet wil dat Google je in hun AI opneemt?
O.a. Google heeft daarom ook al opgeroepen om 'een robots.txt alternatief voor AI' te hebben, te maken of te introduceren. GPT schijnt bezig te zijn om iets te maken wat in robots.txt opgenomen kan worden.

https://9to5google.com/2023/07/06/google-ai-robots-txt/
https://www.theverge.com/...enai-data-scrape-block-ai
https://dev.to/fastly/who...eing-harvested-by-ai-4599
Daarnaast was er altijd de vraag of copyright hier afdoende voor was, maar door het expliciet te verbieden is er ook geen onduidelijkheid meer over wat ze nu precies bedoelen. En dan sta je in de toekomst ook sterker tegen nieuwe AI bedrijven. Die kunnen dan wel zeggen 'het stond niet in je robots.txt', maar het staat wel op hun site, en dat hadden ze kunnen weten.
Het is een beetje het kip-ei, natuurlijk had men het kunnen weten, maar men kan het ook automatiseren, wanneer er duidelijkheid is over hoe en wat. Tot die tijd kun je dan toch iets in robots.txt opnemen? Lijkt mij ook geen al te groot probleem en is zo gepiept. Zelfs met notepad.exe/vim/nano is een dergelijk bestand te editen. Het is geen rocket science of zo.
Anoniem: 80910 @CH4OS14 augustus 2023 17:06
nee txt (text) :D
In dit verbod zie ik een dilemma: als mens mag ik wel leren van de site, maar als computer niet.
Wat is dan precies het dilemma? De wet maakt toch constant een onderscheid tussen wanneer je iets wel mag en wanneer niet?
sircampalot heeft wel een punt. Wij lezen kranten en bijvoorbeeld tweakers en de informatie die we daarbij opdoen zetten we om in kennis en gebruiken we weer in de rest van wat we doen. In feite hetzelfde als wat AI doet met de informatie. Ook als ik niet voor de content betaal, wordt ik er wijzer van dus dat argument gaat ook niet op (en misschien betalen de bedrijven achter AI tools zelfs wel voor de content).

Als ik uitgever van kranten zou zijn zou ik eerder denken aan deals sluiten met de AI bedrijven. Je kunt best wel een abonnementstarief uitrekenen die betrekking heeft op het gebruik van AI, net zo als dat er abonnementen zijn voor particulieren en bedrijven voor traditioneel gebruik.
..en wat als ik persoonlijk een LLM gebruik die meeleest als ik websites bezoek en daarvan leer zodat het als mijn digitale assistent mij beter kan helpen, mag dat dan ook niet ?
tja, je kunt dat rustig zeggen, maar als de artikelen publiekelijk leesbaar zijn dan kun je daar weinig tegen doen. In feite is een mens ook niets meer dan AI (want de mens is niets meer dan een biologische robot) en die leert ook van het lezen van die artikelen, dus zou niemand meer die artikelen mogen lezen.
Dat is een beetje een rare redenering.

Muziek is ook gewoon te luisteren (gratis op Spotify bijv), maar daar hangt toch gewoon een copyright aanvast? Dat is ook bij boeken en heel veel andere media zo. Waarom kan een nieuwswebsite geen copyright hebben?

De vraag is vervolgens of het gebruiken van materiaal voor AI onder copyright valt. Wat mij wel lijkt, maar het is een grijs gebied.
Bedrijven moeten al een bijdrage leveren als ze copyright beschermd materiaal willen gebruiken voor hun eigen commerciele doeleinden. AI is gewoon een commercieel product, waarom zou het daar niet onder vallen?
omdat men zo goed als niks van de originele bron verder gebruikt.
Als iemand een kerkbel gebruikt in zijn muziekstuk, mag geen enkele andere artists dit daarna dan nog doen?
Uiteraard kan je copyright hebben, maar er ligt geen verbod op het luisteren naar muziek en je daarop laten inspireren of het lezen van artikelen en daar iets over schrijven. Copyright is geen absoluut recht om te bepalen wat men met jouw spul mag doen.
Als jij de krant leest gebruik je de relevante informatie later ook weer. Is in principe niet anders dan wat AI er mee doet. En net zoals jij en ik niet letterlijk moeten overschrijven wat er in de krant stond en dat publiceren geldt dat voor AI ook. Maar als we lezen in de krant dat de roebel vandaag weer verder daalt mogen we dat bij een forumonderwerp op deze site best wel schrijven. En morgen bij de koffieautomaat op het werk mag je er ook over praten.
Het verschil is wel dat een mens niet 'gebouwd is' om die informatie te zodanig te gebruiken zodat je daar een 'marketeable' dataset aan overhoudt. En voor zover mensen iets soortgelijks dat doen, betalen ze daar ook voor (dat heet een studie of opleiding.).
Zoals met meer zaken op het internet/it gaat de vergelijking tussen een individu en een grootschalig scrapen en data-minen mank en mag je die vergelijking ook niet zomaar maken.
Dat artikelen publiek leesbaar zijn wil niet zeggen dat je er zomaar alles mee mag doen. Zo mag je bijvoorbeeld niet de artikelen copy/pasten naar je eigen site en daar verder verspreiden. Of uitprinten en verkopen.

Daar komt nu ook expliciet bij dat je ze niet voor een LLM mag gebruiken, als daar al discussie over was omdat het een grijs gebied is, dan is dat nu gewoon helemaal duidelijk.

[Reactie gewijzigd door Kees op 22 juli 2024 21:23]

Zover ik weet (net getest) zit er een paywall voor. Dus het is niet zo publiekelijk. Wellicht heeft openai een subscription genomen om te scrapen, maar dan wordt het al een stuk dubieuzer.
Nou, dan neemt de AI toch een abonnement af als NY Times zo belangrijk voor ze is.
Nee, want als je een abo afneemt ga je ook akkoord met de voorwaarden.
Daarom staat dit nu juist in de voorwaarden. De artikelen zijn zonder abo of logon sowieso al niet te lezen door de AI.
Het lijkt me een vrij lastige afweging. Mocht Generative AI een zodanige vlucht nemen dat de meeste mensen hun informatie uit een soort ChatGPT gaan halen, dan valt er in de kwaliteitsjournalistiek geen droog brood meer te verdienen door abonnementen en advertentie inkomsten.

Aan de andere kant, mocht Generative AI inderdaad een zodanige vlucht nemen, dan hebben we wel echt kwaliteitsbronnen van informatie nodig, zoals een NYT, een FT, een NRC, een wikipedia etc. Het zou wat worden als de modellen straks alleen nog maar met lage-kwaliteit journalistiek worden gevoed, zoals een Twitter, Breitbart, of Fox News. Dat zou het einde zijn van de democratie.
Ik denk dat NY Times ook best een afspraak kan maken met ChatGPT en dat dit ook het hele doel is.
Stel dat ze zouden zeggen: jullie mogen onze gegevens gebruiken voor het trainen van jullie AI, maar dan willen wij ook onbeperkt gratis toegang hebben tot de ChatGPT API's.

Ik snap best dat ze niet zomaar gratis al hun data gaan afstaan ter training van een commercieel product waar de andere partij vervolgens geld mee verdient.
Mijn stiefmoeder woont in een appartement met een centrale hal waar 8 appartementen op uit komen. Ze hebben met z'n 8-en abonnement op 2 verschillende kranten die ze onderling iedere dag uitwisselen. In principe is dat niet anders alleen de schaalgrootte is anders. Ergo, uitgevers moeten gewoon commerciele overeenkomsten met AI bedrijven afsluiten. Overmorgen levert de krant van vandaag toch niets meer op maar de kennis wil je niet weggooien. En dan is AI een hele mooie toepassing om kennis te behouden.
Het gaat in dit geval niet om het behouden van kennis, maar het om creeren van kennis en het verspreiden van de meest actuele stand van zaken zonder dat dit gedreven wordt door corruptie, vriendjespolitiek, of andere extreme gedachtengoeden.

Maar je punt zet me wel tot nadenken. Ik kan me voorstellen dat ze tot een overeenkomst zouden kunnen komen dat alles ouder dan x dagen wel geindexeerd mag worden, zodat kwaliteitsjournalistiek opgenomen kan worden in de modellen, en er tegelijkertijd voldoende reden is voor consumenten en bedrijven om alsnog abonnementen af te sluiten.
Anoniem: 584966 14 augustus 2023 16:38
Op een of andere manier, dit doet mij denken aan nieuwsbericht van paar jaar terug over een uitgever vs Google. Ik ben benieuwd hoe dit zal aflopen. Met die Google gebeuren vond ik toen best komisch.
Strikt genomen mag geen mens deze artikelen dan lezen.

Hoe definieer je strikt en sluitend het woord kunstmatig?
Homo sapien is intelligent, maar gebouwd door onze biologische ouders, en getrained door de maatschappij. Even zo kunstmatig dus. En het neurale net dat we tussen de oren dragen?: Getrained en vorm gegeven door eeuwen aan data.

[Reactie gewijzigd door Mushroomician op 22 juli 2024 21:23]

Precies.
Ik voel mij nog steeds redelijk veel slimmer dan ChatGPT.
Aan de andere kant ben ik toch niet 'artificially' intelligent.
Maar het zijn ook weer mensen die ChatGPT / AI extra dingen leren...
Dus waar is de grens?
Ik meen gelezen te hebben dat een LLM niet kan verbeteren op basis van de eigen output.

/s
Nee dat lijkt mij logisch. Hoe wil je verbeteren zonder nieuwe input? Je kunt verder itereren op het resultaat naar, dus meer generaties op dezelfde input.

Maar als je output als input gaat gebruiken dan krijg je steeds meer vreemde situaties tenzij er actief gefilterd word wat de input is.

Denk aan situaties waarbij er dus informatie gehallucineerd word of incorrect is , en je voert die nu op bij de input dan word je output dus waarschijnlijk nog onbetrouwbaarder.

Zonder nieuwe input zal de output alleen maar meer degraderen naar mate je die vaker door het zelfde proces haalt.
Maar ChatGPT scrapet wel weer miljoenen websites met door ChatGPT gecreëerde content. En daar staat niet bij dat het gegenereerd is. En zo ontstaat een verknipt taalmodel, dat in de basis al was getraind met hele slechte incomplete data. (Wat scrapebaar is, is slechts een fractie vandaadwerkelijke ‘content’ op aarde).
offtopic:
haha, ok die is wel oprecht grappig,

[spoiler] hij bedoelt hier natuurlijk te zeggen dat alle content van de NYT al door chatgpt worden geschreven en dat ze op deze manier proberen om te zorgen dat het language model niet wordt vervuilt door taal uit datzelfde languagemodel ;)[/spoiler]


Meer ontopic: het verbaast me dat het zo lang geduurd heeft voor er iemand een expliciet verbod op heeft gezet. Anderzijds vraag ik me af of zo'n verbod wel kan, het auteursrecht, waar je dit soort bepalingen aan ophangt, staat namelijk expliciet fair use EN gebruik voor onderwijs en wetenschap dit gebruik toe!

kortom in zekere mate heb je dan geen copyright-regels meer om zo'n verbod aan op te hangen (wet gaat boven persoonlijke voorkeuren).

Dat ChatGPT geen onderwijs en wetenschap is moge duidelijk zijn, het is immers een commercieel product. en voor fair use zullen ze hele dure advocaten nodig hebben. maar andere projecten (en vooral die projecten die onder allerlei opensource regels beschikbaar zijn zul je met zo'n verbod mogelijk niet kunnen tegenhouden.
ik dacht dat het juist in essentie niets anders doet.
het heeft een 'maker' en een 'validator'.
De maker maakt iets en de validator vergelijkt het en keert een score toe voor het gemaakte.

[Reactie gewijzigd door MrMonkE op 22 juli 2024 21:23]

Staat die info vrij toegankelijk op je website? Dan heb je die zelf gedeeld met de wereld en staat het de wereld vrij die info the bekijken en gebruiken.

Wil je dat niet? Dan haal je het van je website af.
Nee, dat is niet hoe auteursrecht werkt. En gelukkig maar, want als dit het geval was zou het een grote chaos op Internet worden.

Ook al zet de krant het op zijn website, mag je er zéker niet zomaar mee doen wat je wilt. Anders zou je de tekst 1-op-1 op je eigen website kunnen plaatsen, en claimen dat het van jezelf is. Of de content verkopen. Dat mag dus niet.

De eigenaar, in dit geval de New York Times, mag best voorwaarden stellen aan het gebruik van de door hen gemaakte content, óók als die gewoon publiek leesbaar is. Zolang die voorwaarden binnen de wet blijven, uiteraard.

[Reactie gewijzigd door wildhagen op 22 juli 2024 21:23]

Gefeliciteerd je hebt net de gehele nationale en internationale copyright wetgeving in de vuilnisbak gegooid.
Dat zou inderderdaat wel een feetsje waar zijn, dus jij ook gefeliciteerd :D

Ik ken werkelijk weinig wetten of wetsprincipes die meer en vaker worden misbruikt en uitgebreid op manieren die ronduit crimineel zijn dan het auteursrecht.

we hebben het al vaak gehad over de hartchirurg die graag betaald wil worden per dag die jij nog te leven hebt door zijn 'heldhaftige' ingreep. maar zelfs als je dat argument even opzei legt en inderdaad beweerd dat IE (intellectueel eigendom) ECHT zo enorm anders is dan andere werkzaamheden. dan nog is het natuurlijk bizar hoe lang IE geldig blijft.

waarom is het relevant dat de maker of bedenker dood moet voor bepaalde IE terminen te laten beginnen (lees 99 jaar na dood van) en wat is dat trouwens voor een ziek lang tijd. een jaar en een dag na de dood is nog wel te begrijpen, je wilt immers dat nabestaanden 'even' de tijd krijgen om te rauwen voordat elke jan lul er met het werk vandoor kan gaan, dus in zeer speciale gevallen (lees: als de persoon op een echt bizare manier om het leven is gekomen) zou je die termijn misschien wel willen oprekken naar bijvoor 5 jaar (zodat je genoeg tijd hebt om samen met je pscyholoog dat trauma te verwerken). maar 99 jaar. klllinkt toch welk keer weer als die bakker die 99 euro voor een brood vraagt omdat ie weet dat er de komende 150km geen andere bakker bestaat. (misschien slim, maar tegelijk ook zo over duidelijk misbruik van de situatie dat er zelfs een wet tegen is bedacht art 3:44BW).
'The New York Times verbiedt gebruik van zijn artikelen voor trainen AI-modellen.' leest als: 'NYT vraagt om aandacht'. Reken er maar dik op dat ze zelf dik met AI bezig zijn om te kijken hoeveel meer geld ze kunnen binnentrekken en qua personeel eruit kunnen gooien. Waarom? Omdat dat 9/10 keer toch altijd het geval blijkt te zijn.

Op dit item kan niet meer gereageerd worden.