'Ook OpenAI en Anthropic negeren robots.txt-verzoeken om sites niet te scrapen'

OpenAI en Anthropic negeren verzoeken van websites in robots.txt-bestanden om niet gescrapet te worden. Dat beweert Business Insider. Eerder schreef Wired al dat het bedrijf achter de AI-zoekmachine Perplexity dergelijke niet-scrapenverzoeken ook negeert.

Volgens Business Insider negeren OpenAI en Anthropic verzoeken van media-uitgevers om hun content niet te scrapen voor gebruik als trainingsdata voor hun machinelearningmodellen. Beide bedrijven hebben eerder laten weten dat ze niet-scrapenverzoeken in robots.txt-bestanden zullen respecteren.

Business Insider schrijft niet hoe het achter deze informatie is gekomen. Wel verwijst de site naar een eerder artikel van Reuters. Daarin schreef het persbureau al dat meerdere AI-bedrijven robots.txt-verzoeken aan hun laars lappen. De site baseerde zich daarbij op een onderzoek van TollBit, een start-up die bemiddelt in licentiedeals tussen AI-bedrijven en uitgevers. In dat artikel werden echter geen namen genoemd van AI-bedrijven die de robots.txt-protocollen zouden negeren.

Woensdag schreef Wired al dat AI-zoekmachine en -chatbot Perplexity verzoeken van websites om niet gescrapet te worden, negeert. De bot zou samenvattingen kunnen geven van websitepagina's die op basis van verzoeken in het robots.txt-bestand niet door de PerplexityBot bezocht mogen worden. Perplexity zou de inhoud van dergelijke sites dus gebruiken als bronmateriaal, terwijl Business Insider beweert dat OpenAI en Anthropic hun chatbots alsnog trainen met content van websites die hebben aangegeven dit niet te willen.

Sinds vorig jaar kunnen websites aangeven dat ze niet willen dat hun websites zomaar worden gescrapet. Dat kan door tekst toe te voegen aan robots.txt, het tekstbestand dat onderdeel is van webstandaarden en instructies geeft aan niet-menselijke bezoekers. Onder meer Tweakers-uitgever DPG Media verbiedt het gebruik van webcrawlers in zijn robots.txt-bestand. Het opvolgen van deze instructies is echter niet verplicht.

Door Kevin Krikhaar

Redacteur

23-06-2024 • 10:18

180

Reacties (178)

178
172
77
7
0
76
Wijzig sortering
Dit is dus precies waarom robots.txt niet de oplossing is voor dit probleem. Robots.txt is ooit gemaakt om boteigenaren aan te geven waar de website-eigenaar problemen verwachtte, zoals bij cgi-bin scripts of URL's met sessieparameters of mappen waar toch niets te halen viel. Dat was handig voor de boteigenaar want dat scheelt netwerkverkeer en rotzooi weggooien.

Hier gaat het niet om elkaar helpen maar om een verbod: je mag deze site/content niet gebruiken voor jouw tekst en datamining. Ook niet als je het voorzichtig doet. Daar zit een juridisch haakje aan, artikel 15o van onze Auteurswet (gebaseerd op Europese regels) zegt dat TDM mag tenzij er een machineleesbare optout is gegeven.

Het probleem: iets is pas machineleesbaar (=zonder menselijke tussenkomst te interpreteren) als daar een standaard voor is. En die is er niet. Dus dan krijg je dat men iets pakt dat er op lijkt, namelijk robots.txt en daar dan doet alsof je een verbód uitspreekt als je zegt "GPTbot disallow *". Dit werkt om meerdere redenen niet, al is het maar omdat je alleen per bot kunt uitsluiten en niet per soort gebruik (wel voor je zoekmachine, niet voor je dataset).

We hadden in de jaren nul hetzelfde met het Automated Content Access Protocol, dat geen succes werd omdat er geen consensus was dat je dit moest willen. En er zijn diverse pogingen om een "ai.txt"-achtige standaard te zetten, maar die hebben allemaal hetzelfde probleem: waarom zou ik dat ondersteunen? Als ik dat doe, mag ik dingen niet die de concurrent wel mag (want die ondersteunt het niet).

De enige route is dat de wetgever een standaard bindend voorschrijft, dit is hoe jij uitgever het opschrijft en daar ga jij crawlerbaas elke keer verplicht kijken voordat je verder crawlt. Maar het Europese standaardisatieproces duurt jaren.

Cynische ikke denkt dan, het zou zomaar kunnen dat we mede door dit soort klachten toch iets van een ai.txt krijgen die dan gesteund wordt door OpenAI en andere grote jongens. Die hebben toch heel internet al gedownload (en licentiecontracten voor waardevolle content zoals reddit) en kunnen dus even verder. Ik als EngelfrietGPT kan nergens meer bij want dan is ai.txt ineens "de standaard" waar ik niet om gevraagd heb en nooit aan mee kon doen.
Dat is de Nederlandse interpretatie van de richtlijn, de richtlijn zelf is wat dubbelzinniger :
"it should only be considered appropriate to reserve those rights by the use of machine-readable means, including metadata and terms and conditions of a website or a service"

Op zichzelf is het redelijk om Machine Readable op te vatten als iets van een gestandardiseerde flag in bijv. Robots.txt of een meta veld, aan de andere kant dan is "terms and conditions of a website or a service" onzin. Dus dan is het logischer om te zeggen dat zelfs plain text taal genoeg is, "alle rechten voorbehouden" bijvoorbeeld, als het maar digitaal op te halen valt.

Hoe is dit geimplementeerd in Frankrijk/Duitsland/VK? Als ze de richtlijn meer getrouw volgen zal het ook in de EU een kwestie van rechters worden, zoals in de VS.

[Reactie gewijzigd door Pinkys Brain op 22 juli 2024 16:26]

In Duitsland staat er "(3) Nutzungen nach Absatz 2 Satz 1 sind nur zulässig, wenn der Rechtsinhaber sich diese nicht vorbehalten hat. Ein Nutzungsvorbehalt bei online zugänglichen Werken ist nur dann wirksam, wenn er in maschinenlesbarer Form erfolgt." (bron: https://www.gesetze-im-internet.de/urhg/__44b.html)

Ik zie geen tegenspraak of dubbelzinnigheid in de eis dat het machine-leesbaar moet zijn. De including-bijzin maakt duidelijk dat het voorbehoud prima in metadata mag staan of in je voorwaarden, maar dat betekent niet dat een willekeurige string ASCII tekens ergens in een tekstbestand ineens "machine-leesbaar" is. Hoe weet ik met mijn crawler wáár ik moet kijken, en welke string dan de passage is waar ik het voorbehoud uit moet halen?

Frankrijk zegt "L'opposition mentionnée au III de l'article L. 122-5-3 n'a pas à être motivée et peut être exprimée par tout moyen. Dans le cas de contenus mis à la disposition du public en ligne, cette opposition peut notamment être exprimée au moyen de procédés lisibles par machine, y compris des métadonnées, et par le recours à des conditions générales d'utilisation d'un site internet ou d'un service." (Bron: https://www.legifrance.go...683/#LEGISCTA000045960683)

Hier staat "notamment", wat ruimte laat voor niet-machineleesbare voorbehouden bij publicaties "en ligne". Dat lijkt mij alleen in strijd met de uitleg die overweging 18 geeft "n the case of content that has been made publicly available online, it should only be considered appropriate to reserve those rights by the use of machine-readable means, including metadata and terms and conditions of a website or a service."

De kern is en blijft dat je een crawler moet kunnen programmeren om te checken of je ergens mag dataminen. De analogie met robots.txt is nadrukkelijk: daar weet iedereen dát het in dat bestand staat en waar dat staat, plus wat je in dat bestand mag verwachten. Ik vind het fundamenteel niet kloppend dat je ergens in juridische taal rechten kunt voorbehouden en dat mensen dat dan maar op jouw site moeten gaan zoeken. Lees ook dit onderzoek op Kluwer Copyright Blog waarin juristen klagen over onduidelijk geformuleerde voorbehouden: https://copyrightblog.klu...and-stock-images-sectors/
Terms and conditions zijn klaarblijkelijk geen metadata (want "and"). Dus kan het willekeurig op de website staan, zelfs al had het een vast formaat is dat nog steeds niet machine readable zonder intelligente interpretatie. Je kan zonder interpretatie nooit uitvinden of een website over terms and conditions aan het praten is, of dat het terms and conditions zijn.

Voor een strikte interpretatie van machine readable (ie. dom interpreteerbaar) moet het metadata zijn.
Precies dat "zonder interpretatie" is wat wordt bedoeld met "machineleesbaar", er moet vooraf afgesproken zijn hoe die interpretatie gaat. Prima als je XML in je T&C stopt, maar ik moet vooraf kunnen weten waar ik moet kijken en welke velden in kan verwachten.
Maar dan is de Europese richtlijn dus dubbelzinnig. Want het mag in de data/body staan ("metadata and", niet "metadata containing").

Dus als een rechter voor interpretatie even een stapje naar de Europese richtlijn maakt (of vind dat het een kwestie van "primacy" is) is het maar de vraag hoe strikt machineleesbaar word geinterpreteerd.
Die bijzin laat vrijheid toen in waar de machineleesbare optout mag staan. Maar ik zie niet hoe je met welke lezing dan ook kunt concluderen dat "bla bla niet gebruiken voor TDM bla bla" machineleesbaar is. Machines kunnen niet lezen zonder standaard, zonder afspraak wat het betekent.
Het is digitale data haalbaar van de website, dat kan je interpreteren als machineleesbaar.

Het is krom, maar niet krommer dan "terms and conditions" te interpreteren als een vlag in metadata (die volgens de richtlijn niet in de metadata staat). De zin "terms and conditions" heeft ook bagage, net als machineleesbaar. Het is het in vrije menselijke tekts geschreven contract meestal gelinked of aanwezig aan de bodem van de webpagina.

Dus aan een van de twee word door de richtlijn onrecht gedaan.

[Reactie gewijzigd door Pinkys Brain op 22 juli 2024 16:26]

De kern kan niet zijn dat je perse maar een geautomatiseerd werk als een bot moet kunnen programmeren om te checken of je mag dataminen. In principe is namelijk iedere site een apart domein. Daar richten de wetten zich ook op. Dat bedrijven die recjt over andermans werk willen en daarvoor ook niet duidelijk vooraf tot overeenstemming willen komen over voorwaarden is niet zomaar belangrijker dan hun plichten en andermans rechten. Dat gaat tot nu toe vooral bij uitzondering op. Ja maar dan gaat het geautomtiseerd en snel crawlen bijna onmogelijk zijn. Maar dat zijn ook geen rechten. In vergelijling, het feit dat een bedrijf aan sprinkhanen kan verdienen als deze er geautomatiseerd controle over heeft zal er ook niet snel voor zorgen dat het deze maar als plaag op andermans werk en goederen kan loslaten om er vooral zelf aan te verdienen. Het voorop stellen van automatisering en snelheid is dus niet redelijk in de huidige bedoelingen van de wetgevers.
In principe heeft robots.txt hier ook de bedoeling elkaar te helpen. Je wil immers ook voorkomen dat een ander bedrijf de bots gebruikt om problemen te veroorzaken of versterken. Niet alleen voor de directe rechthebbende maar ook van wie er allemaal toestemming is gekregen het slechts onder voorwaarden te delen. Het aan de verboden en voortvloeinde verboden moeten houden zijn juist manieren om elkaar te helpen. Robots.txt zien alsof het hier perse maar een verbod gaat vanuit de site is absurd.

[Reactie gewijzigd door kodak op 22 juli 2024 16:26]

Het zijn altijd maar weer die techbro <latest markt hype> bedrijven die compleet alle internet etiquette negeren voor maximaal winst draaien.

Kan het compleet wegwuiven van RFCs een keer bestrafd worden? Iedereen doet z'n best met elkaar op te trekken voor een redelijk internet, en dan heb je de OpenAIs die bestaande standaarden en afspraken omver trappen voor eigenbelang, omdat "het technisch niet illegaal is".
Helemaal mee eens, maar het is dus niet verplicht. En bedrijven die op een bepaalde manier winst moeten maken, gaan niet snel mee als er geen duidelijke wetgeving is, waarom zouden ze uiteindelijk. Tenzij het bedrijf ten onder zou gaan aan goodwill uiteindelijk, maar dat lijkt me sterk.
Als het duidelijk een door de gemeenschap toegepaste wijze is om voorwaarden duidelijk te maken dan heeft het wel degelijk rechtsgeldige waarde.
Ook dat de bedrijven zelf erkennen dat robots.txt een manier is om tegen te houden dat ze gegevens toch gaan verwerken is wettelijk niet zomaar irrelevant.
Maar moet je dat dan niet via een rechter toetsen als het niet vast ligt?
Uiteindelijk is recht doen ook een kwestie van gezamenlijk elkaar op verantwoordelijkheid wijzen over niet respecteren van andermans recht en niet nakomen van duidelijke toezeggingen hoe men die wel wil respecteren.
Verzin je nu opeens je eigen definitie van rechtsgeldigheid?
Niet perse, een rechter volgt niet altijd de wetten maar kijkt ook naar het maatschappelijk belang.

Men gaat OpenAI natuurlijk geen boetes kunnen schrijven, maar men kan hun wel aanmanen om zicht te houden aan de zelfregulatie dat van maatschapelijk belang is.

Dat valt allemaal onder rechtspraak.

[Reactie gewijzigd door Mayonaise op 22 juli 2024 16:26]

Uitspraken van een rechter hebben altijd een wettelijke grondslag. Dat die op bepaalde manieren geïnterpreteerd kunnen worden is een ander verhaal.
Dit is niet helemaal overall waar. In Nederland is dit well maar in America bijvoorbeeld niet omdat ze een systeem hebben genaamd “Common Law”. Dat betekent dat het niet letterlijk is wat is geschreven maar ook de omstandigheden wanneer ze er zijn gekomen en kijken wat er toen werkt bedacht, “Commonsense” wetten in theory

Maar hier heb ik weinig verstand en zou er kompleet naast kunnen zitten van misschien kan @Arnoud Engelfriet hier wat info over kunnen delen?
Een rechter mag zeker redelijkheid, billijkheid of andere maatschappelijke factoren meewegen maar moet dat wel binnen een wettelijk kader doen. Je kunt niet zomaar zeggen "in de wet staat dat het niet mag maar ik vind dit zó nuttig dat het moet kunnen". Een constructie is dat je bijvoorbeeld zegt "nee, je NDA verbiedt inderdaad dat je iets onthult over je werk, maar je onthult nu dat ze mensen als slaven in de kelder houden en dat is zó schokkend dat jouw vrijheid van meningsuiting nu toch moet winnen gezien".

Bij auteursrecht (waar het hier om gaat) is deze afweging zelden aan de orde. Het gaat eigenlijk altijd om economische belangen - ik wil een LLM bouwen, jij wil 50 euro per 100 woorden hergebruik. Daar helpen geen pathologische appèls aan fundamentele belangen, daar moet je gewoon binnen de wet uitvogelen waar je uitkomt. In de VS doe je dat via een fair use analyse met vier factoren, en daarbinnen mag je maatschappelijk belang betrekken maar moet je óók de impact op de rechthebbende bekijken. In Europa moet je echt een specifieke uitzondering in de wet hebben, en anders houdt het op.
Valt natuurlijk te betwijfelen. Robot.txt negeren is wettelijk geen overtreding. Dat staat er ook in.

Maar het bedrijf heeft gezegd robot.txt te respecteren.

Dan kun je ze dus niet pakken voor het negeren van robot.txt

Maar soms nog wel voor het vals voorlichten van investeerders/aandeelhouders.
+Evt. Als je het heel goed doet: het bedriegen van consumenten. Dat kan eigenlijk alleen meer een consument of consumenten organisatie. (Dan zou je bijvoorbeeld de consument (bond) een minderheids aandeel in je bedrijf laten nemen }> )

Daarnaast ook al is het niet wettelijk: hoe zit dat met de AVG.

Ja het is niet wettelijk verplicht. Dus ik maak een site met persoonsgegevens. Ik wil niet dat openAI die scrabed en zet dat in mijn robot txt.
Zij zeggen dat ze het respecteren. En doen het toch. Overtreden ze dan de AVG?

[Reactie gewijzigd door rob12424 op 22 juli 2024 16:26]

Ik vind het in dit geval ook wel een beetje speciaal... Ze zeggen dat de AI een samenvatting van een pagina kan geven. Dat wil dan zeggen dat de AI op basis van een verzoek van een gebruiker een samenvatting van de pagina op een specifieke URL gaat geven, wat volgens mij nog wat anders is dan die pagina's indexeren zonder dat er specifiek om gevraagd wordt.

Als dat samenvatten van die pagina op basis van een verzoek van een gebruiker gebeurt, dan valt dat volgens mijn buikgevoel niet onder een web crawler, waarvoor de robot.txt bestanden bedoeld zijn. Als die data dan ook niet verder gebruikt wordt om de AI te trainen, zie ik er helemaal geen probleem in.

Als er nu echter informatie vanop een dergelijke pagina naar boven zou komen, wanneer een gebruiker een algemene vraag stelt, dan is er volgens mij wel een probleem, maar dan ook enkel omdat de bedrijven aangegeven hebben de robot.txt bestanden te respecteren, wat helemaal geen wet is.
Ik geef conclussies op basis van wat wettelijke mogelijkheden zijn om grenzen aan te geven en hoe expliciete toezeggingen die aan de wetten voldoen opgevat (kunnen) worden.

De wet stelt gewoonlijk niet dat je verplicht een overeenkomst moet overeenkomen voor je bescherming hebt over je eigen werk. De wet stelt gewoonlijk niet dat alleen door juristen opgestelde gebruiksvoorwaarden rechtsgeldig zijn. En als je als bedrijf publiek beloftes doet hoe anderen zich extra kunnen beschermen tegen het bedrijf dan is het gewoonlijk niet zomaar toegestaan dat het bedrijf tegenstrijdige handelingen toepast.

[Reactie gewijzigd door kodak op 22 juli 2024 16:26]

Allemaal leuk en aardig, maar als je wilt weten of iets rechtsgeldig is, zul je dat moeten kunnen toetsen bij een rechter.
De vraag was of men de arumenten moet toetsen via een rechter. En zoals je zelf al stelde, uitspraken uit het verleden kunnen gebruikt worden om niet naar de rechter te hoeven gaan en er samen uit te komen. Een schikking is immers ook rechtsgeldig zonder dat een rechter er aan te pas komt. Dit soort geschillen hebben geen verplichting om via de rechter op te lossen.

Natuurlijk kunnen wij of anderen willen dat een rechter beslist over de algemene geldigheid van de robots.txt, of welke verschillende bots er wettelijk welke rechten hebben. Maar meestal krijg je geen generieke uitspraken. Dus kan je ook nu al terugvallen op de bestaande wetgeving en interpretaties van niet naleven van toezeggingen over naleving.
Interessant idee. Dus als je in een klein Katholiek dorpje woont, ben je dan verplicht de Katholieke voorschriften te volgen omdat we willen dat je het recht van iemand anders en de algemene toezeggingen wilt respecteren?

In het algemeen ben je vrij om te doen wat je wilt (en ook om de gevolgen ervan te dragen) zolang je de wet niet overtreedt. De wet zijn in dit geval voorschriften waar de regering is toegestaan van het grootste deel van de bevolking om zulke vrijheden in te perken. Als de bevolking niet beslist heeft om bepaalde vrijheden in te perken met de kracht van een overheid dan ben je imho vrij om het te doen.

Robots.txt is een soort van mondelinge overeenkomst maar er zijn historisch gezien genoeg bots die ze toch negeren, inclusief Google en Internet Archive omdat het niet echt vaststaat wat de bedoeling is van robots.txt. Google vb. scrapen alle links die ze vinden, robots.txt wordt enkel maar gebruikt om niet verder te crawlen, maar als je robots.txt achteraf zet of je hebt veel binnenkomende links blijft Google je website gewoon bezoeken.

Hier ook kun je het argument maken dat robots.txt bedoeld is om resultaten niet in search engines terecht te laten komen en OpenAI en co zijn geen search engines in de klassieke zin van het woord, dus ze gaan nooit een link terug dragen naar de site.

[Reactie gewijzigd door Guru Evi op 22 juli 2024 16:26]

Met vrijheid komt verantwoordelijkheid. Je hebt niet zomaar vrijheid om andermans werk toe te eigenen, laat staan om er vooral zelf beter van te worden en de ander te benadelen. Gelegenheid tot vrijheid nemen is daar niet zomaar uitzondering op. Terwijl wetgevers wel wettelijk geregeld hebben dat je als rechthebbende voorwaarden (zoals een robots.txt en andere gebruiksvoorwaarden) mag opstellen om nog eens extra de grenzen aan te geven. Waar nog eens bij komt dat als heel veel rechthebbenden dat doen je niet zomaar de vrijheid kan nemen dat opzettelijk te negeren. Zeker niet als je daarnaast helemaal geen moeite doet om na te gaan welke grenzen de rechthebbende stelt. Dat is geen verantwoordelijkheid nemen. En als je als bedrijf dan ook eerst nog expliciet publiek duidelijk hebt gemaakt de robots.txt te erkennen en te respecteren, zodat de rechthebbenden dat gebruiken om de grenzen aan te geven, dan is die vrijheid van het AI-bedrijf vooral ondergeschikt. Ongeacht dat het bedrijf kan noemen dat niet iedereen zich aan voorwaarden zials robots.txt blijkt te houden.
Je hebt wel degelijk de vrijheid om iets dat publiek staat te bekijken en hergebruiken zolang je die informatie niet identiek reproduceert want daar hebben we als samenleving beslist dat dit niet door de beugel kan.

Wat hebben die bedrijven gedaan dat jij niet kan doen, namelijk een samenvatting van de tekst maken? In welke wet staat dat robots.txt meer dan een suggestie is?
Dat is niet hoe recht op gebruik werkt. Het verwerken op zich ligt voor bedrijven al aan banden. Niet alleen omdat het recht om aan andermans werk te verdienen maar niet zomaar zomaar op gaat, eerder juist niet en zeker niet zonder compenseren of overleg. Maar ook omdat anderen hun rechten via de sites geregels zijn, zoals het beperken van gebruik van andermans persoonlijke gegevens en werk. Je kunt dus niet net gaan doen alsof een IA bedrijf maar klakkeloos en massaal dat soort omstandigheden opzettelijk negeert omdat ze iets willen afleiden. Het zijn geen prersonen die iets leren en nu eenmaal zinguige hebben, maar bedrijfsmiddelen die opzettelijk gemaakt zijn alsof men daardoor maar andermans rechten kan negeren.
Wie zegt dat ik geen recht heb om op het werk van iemand anders geld te verdienen? Dat is toch wat we allemaal doen op een of ander niveau? We verdienen geld op de rug van Einstein en Newton, we verdienen geld op de rug van Linus Torvalds etc etc.

De beperking op gebruik van informatie is in het algemeen in heel nauwe omstandigheden omschreven, met name copyright/auteursrechten en zelfs daar zijn alle soorten uitzonderingen en limieten op. Zodra je die rechten opgeeft geef je evengoed het recht op vrijheid van meningsuiting op want ergens heeft wel iemand jouw idee omschreven en volgens jouw hebben we daar dus geen recht meer op omdat iemand anders het op een website gezet heeft.

IMHO zijn websites publieke informatie die moet verspreid worden, wil je dat niet dan zet je er een slot op. robots.txt is geen slot.
Dat is precies wat er aan de hand is. OpenAI komt er mee weg omdat wij het toch gebruiken. We hebben een keuze, kunnen stemmen met onze portemonnee, maar ja, we willen wel ChatGPT gebruiken. En dus komt OpenAI er mee weg en is het inmiddels wel geaccepteerd dat dit soort bedrijven achter de schermen het hele internet schrapen om hun modellen te trainen. De grens is blijvend verschoven.
De meningen lopen sterk uiteen of het technisch niet illegaal is. Het auteursrechtensysteem is in veel landen behoorlijk sterk, en dat houd feitelijk in dat je niet zonder akkoord met iemand's intellectueel eigendom mag doen wat je wilt.
Denk bijvoorbeeld aan een film die je koopt voor thuisgebruik, maar niet in het openbaar mag tonen.

En dat ze dat akkoord niet hebben lijkt me duidelijk. Het enige dat er bewezen moet worden is dat ze het gebruiken.
Zie ook het volgende snippit: https://www.theverge.com/...ave-been-there-in-the-fir De totale arrogantie van sommige AI bedrijf execs. Totaal vergeten dat het een verkapte vorm van kopiëren (stelen?) is.
Technisch niet illegaal is gewoon legaal.
robots.txt heeft misschien zelf geen waarde, maar dat zou natuurlijk niet mogen betekenen dat je andermans intellectueel eigendom zomaar mag downloaden en verwerken voor commercieel gebruik.

Het feit dat deze bedrijven grote bedragen neerleggen voor artikelen van grote uitgevers bewijst al genoeg dat ze dondersgoed weten waar ze mee bezig zijn.
Ben ik ook mee eens. Alleen je moet het wel zelf beschermen. Mensen zouden wat weer zelfbewust moeten zijn wat ze allemaal afgeven als ze gebruik maken van Facebook, YouTube, tweakers, etc.

Die cookie wall is er ook niet voor niks alleen bijna niemand die het leest en bijna iedereen die gewoon op accepteer alles klikt.

En voor website eigenaren die moeten gewoon een disclaimer toevoegen aan hun site.
By default moet je altijd toestemming vragen aan de eigenaar van iets waar copyright op rust, tenzij de eigenaar je al toestemming geeft met een licentie of de eigenaar een overeenkomst heeft met iemand die het voor hem regelt.

Dat is zowat de basis van copyright. Zowel in de fysieke wereld, als in de digitale wereld.

Het is bizar om te zien dat mensen en bedrijven zich zomaar het werk van anderen willen toeeigenen zonder dat ze er ook maar enig recht op hebben.
Het opvolgen van deze instructies is echter niet verplicht.
Het lijkt erop dat je hier meer vanaf meent te weten dan de redactie van Tweakers. Je kan eventueel hier een verzoek plaatsen het artikel aan te vullen.

Persoonlijk kan ik nergens een bron / jurisprudentie / wetgeving vinden die het op deze manier scrapen van informatie verbiedt, maar ik ben dan ook geen advocaat. :)
Die quote gaat over robots.txt, niet over copyright. Dat zijn twee verschillende dingen.

Copyright gaat over het gebruik van auteursrechtelijk beschermde werken. Dat maakt niet uit of een mens of machine dat verwerkt. De machine doet de verwerking immers in opdracht van een mens.
Maar dit artikel gaat over het 'scrapen' van data door AI. Volgens hen valt dit gebruik niet onder copy-right schendingen. En hoeven ze hier dus geen toestemming voor te vragen.

Mijn vraag is dan of dit inderdaad klopt. Tot zo ver heb ik nog geen uitspraken gezien die zeggen dat je een website niet mag laten samenvatten door AI.
Wie is "hen"? Tweakers vermeld het niet, en de bedrijven mogen het "vinden" maar dit verandert niets.

Mijn opmerking ging over dat er een disclaimer toegevoegd zou moeten worden: dit is simpelweg nergens voor nodig. Als er op de site nergens toestemming gegeven wordt dat je de content mag gebruiken, dan mag het eigenlijk niet, tenzij je toestemming vraagt.

Als bedrijf of onderzoeksinstituut zou je in principe voor een afbeelding die je van een site haalt en in een presentatie gebruikt toestemming moeten vragen van de auteur. (In de praktijk voegen we vaak de bron toe, en gaan we ervan uit dat het ok is.)

Maar een OpenAI crawled en verzamelt data van het hele internet om een product te genereren, zonder enige compensatie voor de eigenaar (een Google zorgt bijvoorbeeld voor verkeer naar de site, een OpenAI niet.)

Het samenvatten van sites? Daar is nu dus nog de discussie over gaande. Maar doordat OpenAI een tussenliggende partij is die een auteursrechtelijk beschermd werk gebruikt (in opdracht van een gebruiker - en dus eigenlijk handelt in een ander zijn werk) zou ik zeggen dat dit inderdaad niet mag.

Maar goed, uiteindelijk zal dit toch uitgevochten worden door dikbetaalde advocaten, waarschijnlijk in het nadeel van de contenteigenaren.

Laat de kleintjes zich ondertussen maar netjes aan de regels houden, en de groten zich in het wilde westen wanen.
Mijn opmerking ging over dat er een disclaimer toegevoegd zou moeten worden: dit is simpelweg nergens voor nodig. Als er op de site nergens toestemming gegeven wordt dat je de content mag gebruiken, dan mag het eigenlijk niet, tenzij je toestemming vraagt.
Ik denk zelf dat het niet zo simpel is. Opkomst van AI is nog relatief nieuw, en er zijn veel verschillende niveaus van 'gebruik'. Van: 'content opslaan, en later 1 op 1 terug-serveren naar een klant tegen betaling', tot aan: 'Het ophalen van de html, en hier on-demand een samenvatting van maken, en deze niet opslaan'.
Als bedrijf of onderzoeksinstituut zou je in principe voor een afbeelding die je van een site haalt en in een presentatie gebruikt toestemming moeten vragen van de auteur. (In de praktijk voegen we vaak de bron toe, en gaan we ervan uit dat het ok is.)
Mee eens, dat mag inderdaad over het algemeen niet.
Als er op de site nergens toestemming gegeven wordt dat je de content mag gebruiken, dan mag het eigenlijk niet, tenzij je toestemming vraagt.
En hier vraag ik nou precies een bron voor. Ik heb nog niks kunnen vinden dat het laten samenvatten van een website door AI illegaal is. En ik heb het dan niet over het gebruiken van een plaatje in een presentatie. Ik heb het specifiek over gebruik door AI. (En dan eigenlijk niet eens over het trainen, maar over het laten doorzoeken / samenvatten van een pagina.)

Je kan het zeker onethisch vinden, maar het lijkt er op dat hier (nog) geen strikte regelgeving voor is. Een AI trainen is wat anders dan kopiëren of opslaan. (zelfde geldt voor mensen, een boek lezen, en hier kennis uit opdoen is anders dan een boek kopiëren).
Het samenvatten van sites? Daar is nu dus nog de discussie over gaande. Maar doordat OpenAI een tussenliggende partij is die een auteursrechtelijk beschermd werk gebruikt (in opdracht van een gebruiker - en dus eigenlijk handelt in een ander zijn werk) zou ik zeggen dat dit inderdaad niet mag.
Het lijkt mij inderdaad dat hier nog regelgeving voor nodig is, en dat het (nu nog) niet zo simpel is :)
Maar goed, uiteindelijk zal dit toch uitgevochten worden door dikbetaalde advocaten, waarschijnlijk in het nadeel van de contenteigenaren.
Daar kunnen wij 't over eens zijn!
Ik zou zeggen dat het in het artikel verkeerd is geschreven. Om content voor bepaalde doelen te gebruiken kan het best zo zijn dat je voorafgaand toestemming nodig hebt. Deze toestemming dien je dan te vragen aan de rechthebbende. Wel kan de rechthebbende alvast communiceren wat voor toestemming er wel of niet is. Dat gaat bijvoorbeeld door in de gebruiksvoorwaarden van een website te vermelden of dat wel of niet mag. Alleen voor machines (bots / robots) is dat minder makkelijk ondubbelzinnig te lezen, daarom is robots.txt uitgevonden.

Het probleem: een site werkt nog steeds zonder het lezen van dat bestand, dus in dat opzicht is het optioneel: je kan dus kiezen het bestand niet lezen of de inhoud ervan negeren, maar dat betekent niet dat er dan opeens wel toestemming is gegeven om de site te scrapen. Het bestaan van robots.txt is verder ook geen technische barrière, de site kan alsnog gescrapet worden ongeacht de toestemming die gegeven of geweigerd is. Dus in dat opzicht is "het opvolgen van deze instructies niet verplicht", dwz je kan ze gewoon naast je neerleggen. Dat is een beetje hetzelfde als in je winkel een bordje neerzetten dat diefstal niet mag, het opvolgen van die instructie is ook "niet verplicht" want je kan alsnog diefstal plegen ondanks dat bordje, maar dat wil niet zeggen dat het dan ook daadwerkelijk mag. Dus in het geval van robots.txt, je had moeten weten dat het gebruiken van die content niet mocht. Datzelfde geldt voor vermelding in de voorwaarden waarin staat dat de data op de website niet voor andere doeleinden gebruikt mag worden dan het lezen op de site zelf. Daarom zou ik zeggen dat het opvolgen van de instructies wel verplicht is, maar het is technisch mogelijk om ze naast je neer te leggen waarmee je je in juridisch onzeker vaarwater zou kunnen gaan bevinden.

Voor een webserver is het verder in principe onmogelijk om te bepalen of degene die de content opvraagt een persoon of een bot is, en mocht die dat wel tot op zekere hoogte kunnen bepalen zijn daar nog altijd manieren om omheen te werken, dus daarom is het opschrijven van de "optionele" instructies in robots.txt de enige manier die er is om er iets tegen te doen en een heel goede manier is het dus niet.
Ik denk dat we vooral een goed onderscheid moeten maken tussen, 'gewenst gedrag', en 'houden aan de wet'.
Daarom zou ik zeggen dat het opvolgen van de instructies wel verplicht is
Dat zou jij zeggen, maar zegt de wet dit ook? De reden dat ik het linkje naar 'geachte redactie' plaatste is zodat iemand met meer kennis van de wet dit zou kunnen aanvullen.

Overal waar ik (als leek) kijk, zie ik staan dat robots.txt géén wettelijke betekenis heeft.
A robots.txt has no enforcement mechanism in law or in technical protocol, despite widespread compliance by bot operators.[6]
Winkeldiefstal is daarintegen wel opgenomen in de wet, en dus geen eerlijke vergelijking.

Ook moeten we erkennen dat gebruik van AI niet hetzelfde is als scrapen, en dat er ook verschillende niveaus zijn waarop een AI een site kan gebruiken. bijvoorbeeld:
  • Het gebruik van teksten op een website om de AI te trainen
  • De tekst van een website laten samenvatten door AI
  • Een AI die na een zoekopdracht in opdracht van een gebruiker de website 'on-demand' analyseert, en hier met bronvermelding een antwoord geeft.
  • Een AI die nieuwsberichten die achter een paywall zitten samenvat, en deze met minimale aanpassingen her-publiceert.
Ik kan mij voorstellen dat niet elk van deze punten dezelfde juridische status heeft. Vooral het laatste voorbeeld lijkt mij niet legaal.

Ik ben benieuwd wat de wetgeving gaat doen in de toekomst, maar op dit moment is het te kort door de bocht om te zeggen dat je sites met een robots.txt helemaal niet mag scrapen of gebruiken :)
Zelfs als er niets vermeld is ligt het auteursrecht en de rest van de rechten van een website bij de maker ervan. Er een (al dan niet commerciële) AI mee trainen valt voor zover ik weet niet onder de dingen die je normaal met de getoonde inhoud mag doen zonder dat je daar toestemming voor hebt. Om die toestemming te krijgen zal je dus contact moeten hebben met de maker. Dat kan direct door middel van mail/telefoon ofzo, dat kan ook indirect doordat de maker dit gebruik toestaat door dat op de website als zodanig te vermelden, en dat kan dus ook in de vorm van robots.txt. Maar als geen van deze dingen gebeurd zijn is die toestemming er in principe niet. Dus ook al is het concept "robots.txt" niet in enige wet vastgelegd wil dat niet zeggen dat je dan ook niet in overtreding kan zijn als je een robots.txt die het nogmaals expliciet uitsluit negeert. In tegendeel zou ik zelf zeggen.
Zelfs als er niets vermeld is ligt het auteursrecht en de rest van de rechten van een website bij de maker ervan.
En de vraag is dus, zoals ik hier ook al zei: 'schendt het scrapen/gebruiken van een website door AI het auteursrecht?'.
Wikipedia zegt dat er geen juridische consequenties hangen aan het negeren van robots.txt, Tweakers zegt dat ook, ik denk dat ook. En tot nu toe heeft nog niemand een bron kunnen aanleveren dat het wel zo is.
Er een (al dan niet commerciële) AI mee trainen valt voor zover ik weet niet onder de dingen die je normaal met de getoonde inhoud mag doen zonder dat je daar toestemming voor hebt.
Maar de vraag is of je hierin gelijk hebt. Ik kan mij voorstellen dat bijvorobeeld het samenvatten een tekst wel degelijk onder fair-use valt, en gewoon mag.
Maar als geen van deze dingen gebeurd zijn is die toestemming er in principe niet.
Is die toestemming wettelijk gezien nodig?
Dus ook al is het concept "robots.txt" niet in enige wet vastgelegd wil dat niet zeggen dat je dan ook niet in overtreding kan zijn als je een robots.txt die het nogmaals expliciet uitsluit negeert. In tegendeel zou ik zelf zeggen.
Maar als het niet in de wet staat, hoe kan je dan in overtreding zijn van de wet? Dat lijkt me heel raar.

We kunnen heel lang discussiëren over het ethische aspect,. Ik vindt ook niet dat grote bedrijven zomaar alles zouden mogen doen zonder toestemming. Maar ik heb het hier specifiek over de wet. Ik hoopte dat iemand met juridische kennis hier wat zou kunnen aanvullen.
Maar als het niet in de wet staat, hoe kan je dan in overtreding zijn van de wet? Dat lijkt me heel raar.
Als je het niet wilt begrijpen is het inderdaad raar. Als de wet default naar dat je in overtreding bent zonder toestemming, ben je in overtreding. Toestemming kan je geven op wat voor manier dan ook, zonder dat de manier waarop super precies vastgelegd moet worden in de wet. Dat er een de facto standaard is die machines kunnen begrijpen is alleen maar mooi. Dus hoeft er ook geen wet te zijn over wat voor bestand dan ook, zoals een robots.txt. Slechts als dat bestand wel bestaat en daarin expliciete toestemming is gegeven kan je niet meer in overtreding zijn, want die toestemming kon op elke manier gegeven worden. Maar als in dat bestand nogmaals de (default) niet-toestemming expliciet wordt bevestigd blijf je in overtreding. En dat kan allemaal zonder dat dat bestand zelf een door jouw gewenste extreem expliciete wettelijke status heeft van "robots.txt, precies robots.txt en niets anders dan robots.txt".
Als de wet default naar dat je in overtreding bent zonder toestemming, ben je in overtreding.
Als dat inderdaad zo zou zijn, dan zou je gelijk hebben. En als ik vleugels had was ik een vliegtuig. Helaas weiger je ook maar iets van een bron te leveren die jouw standpunt ondersteunt.

Fair use is een ding dat bestaat. De 'default' is dus helemaal niet dat je in overtreding bent zonder toestemming, dat heb je verzonnen. Je mag 'default' niet alles, maar ook niet niks.

Zie hier een uitspraak over Google.
that Google’s use of the works is a fair use under 17 U.S.C. § 107.
En dit ging dan over Google, die de volledige websites opsloeg en opnieuw publiceerden. Dat lijkt me nog even een stapje verder gaan dan een AI vragen een samenvatting te maken van een stukje tekst van een website.

Ik begrijp best wat je probeert te zeggen, maar je begrijpt hopelijk toch ook wel dat je 'iets' van een onderbouwing moet hebben voor dit soort beweringen. Als je werkelijk absoluut geen teksten zonder toestemming zou mogen kopiëren, dan was elke zoekmachine inmiddels wel kapot geprocedeerd.
Dat is niet volledig waar. Er zijn genoeg uitzonderingen zoals wetenschappelijk en overheidswerk, samenvattingen, kritiek, lijsten etc waar geen toestemming voor nodig is.

In principe maakt OpenAI een samenvatting van de informatie. Zolang OpenAI het werk niet identiek teruggeeft aan anderen is het geen schending van de auteursrechten.
En voor website eigenaren die moeten gewoon een disclaimer toevoegen aan hun site.
https://tweakers.net/info/auteursrecht/ (staat gelinked op elke pagina vanuit de footer)

Is dat niet duidelijk genoeg? En https://tweakers.net/robots.txt heeft conform hun eigen specificatie ook:
User-agent: GPTBot
Disallow: /
Ondanks die twee maatregelen negeert GPTBot gewoon onze wensen en scrapen ze Tweakers. Natuurlijk kunnen we het ook gewoon op ip-basis en user-agent blokkeren, maar dat voelt weer als een escalatie en het is niet waterdicht. Ze kunnen simpelweg hun useragent of ip-range veranderen en dan kunnen ze er weer bij.

Het blijkt overduidelijk dat een bordje 'verboden toegang voor LLM-scrapers' niet werkt ongeacht hoe groot dat bordje is.
Technisch gezien is een dief, die nooit tegen de lamp gelopen is omdat hij nooit betrapt is, geen dief.

Toch maakt het diefstal door de beste dief moreel gezien niet oké.

Het internet is grensoverschrijdend en valt niet te reguleren. Dit aan individuele soevereine staten overlaten is kansloos. Zolang er geen wereldwijd geldende wetten komen, kunnen bedrijven altijd loopholes gebruiken. Zo kun je een bedrijf starten in een ongereguleerd land en het trainen van je AI uitbesteden aan dat bedrijf. Zo kun je meer loopholes verzinnen.

Dit betekent dat we het vooralsnog moeten hebben van bedrijven's morele kompas. Dat kompas is in het geval van big tech over het algemeen stuk.

[Reactie gewijzigd door ABD op 22 juli 2024 16:26]

Een dief is een dief zodra hij het in zijn kop krijgt om iemand anders eigendom te stelen.

Echter een dief is een dief wanneer hij het gebruik van een goed van iemand anders onterecht wegneemt. Echter iemand die enkel een foto neemt van je auto die op straat staat (een samenvatting van je auto en de omgeving op een bepaald punt in tijd) is geen autodief.

Het auteursrecht is geen zaak over diefstal maar een civiele zaak over de verdiensten die mogelijk uitvloeien van het maken van een kunstwerk.

En tot de renaissance was er geen enkel idee dat je op zulke dingen geld kon verdienen, de kerk/overheid had het recht om te kopiëren ten voordele van de gemeenschap en het was te duur voor iemand anders om dit te doen, dus auteursrecht is geen natuurlijk recht, het is een recht dat wij gemaakt hebben en dan enkel in de westerse wereld (oosterse zienswijzen op kopieerrecht zijn volledig anders) deels en tijdelijk ten nadele van de gemeenschap omdat wij uiteindelijk meer mensen het wilden gunstigen om hun kunsten te tonen en dit niet exclusief meer tot de kerk/overheid te behouden.

Daarmee dat auteursrecht zo omschreven is om een tijdje (vroeger 5 of 10 jaar) geld te laten verdienen aan hun kunst om daarna terug vrij te geven aan de gemeenschap. Maar er zijn ook tegenstrijdige ideeën dat informatie vrij moet zijn dat uiteindelijk tot oa de ideeën van Stallman over copyleft en publiek domein leiden (software en informatie moet vrij zijn om de goederen die we kopen niet in te sluiten door grote bedrijven)

Het feit dat er nu robotten zijn die sneller dan ons een tekst kunnen samenvatten is vooruitgang, maar daarmee moet ook het auteursrecht ook op de schop en moeten we weer kijken naar het kopieerrecht. Uiteindelijk zeggen we dan in principe als maatschappij dat een foto trekken de “ziel” wegneemt van het onderwerp, dat is wat bepaalde religies denken, maar dat moet je ook niet-religieus kunnen uitleggen om aanvaardbaar te zijn in onze gemeenschappen. Tot nu toe heb ik geen enkel idee gezien waarom een robot samenvatting enig slechter is dan een mens enkel omdat ze sneller zijn.

[Reactie gewijzigd door Guru Evi op 22 juli 2024 16:26]

Maar daar zit je dus mis. Het gaat dus niet (alleen) om 'fotos'(kopieën) van generieke goederen, zoals fabrieksautos(boeken, muziekdragers) die met duizenden van de loopband afrollen, zeg maar kopiën van elkaar waar grote uitgevers rijk van worden, maar ook om unieke kunst in welke vorm dan ook. Dat laatste staat nu op het spel. Ondermeerhier wordt dat aangekaart, en we hebben al eerder stakingen gezien.

En daar stopt het niet, waarom het vooral om gaat is dat de broncode die zonder toestemming getraind worden met werk van anderen getraind worden ingezet wordt om een monopoly(of op zijn best olychopolies) te verkrijgen om schathemelrijk en oppermachtig ter worden. Microsoft, Google en OpenAI gaan hun techniek en vooruitgang niet delen, dan houden ze zelf. Die geheime broncode is hun auteursrecht.

Overigens zit je ernaast wat betreft de kerk en de overheid. De overheid was de alleenheersende koning die tot aan de Renaissance samenwerkte om de absolute macht en schofterig veel rijkdom te verzamelen ten koste van het volk. Zo kon de Spaanse koning belasting innen in de Nederlanden, en dat kwam echt niet ten goede van de Nederlanden; dat ging zijn schatkist in. Alle kennis en wetenschap was in handen van de Kerk en weggestopt in kloosters of vernietigd, om het volk dom te houden; dat kwam pas weer vrij op de markt nadat Constantinopel viel, dat is waarom de Renaissance begon. Je hoeft niet eens naar Versaille of Vasticaanstad te gaan om die schunnigheid te zien, je kunt het veel dichterbij in de kerk of in een van de paleizen van ons koningshuis zien. Pas in de 19e eeuw werden ideeën geboren die vonden dat de Overheid er voor het volk was, en de uitvoering daarvan kwam decennia later; niet vrijwillig, maar door revoluties.

[Reactie gewijzigd door ABD op 22 juli 2024 16:26]

De VS en Franse Revolutie hadden al het idee van overheid voor het volk in 1776 en 1789 dus 16de eeuw, een 300 jaar na Gutenberg. Daarnaast hadden de Romeinen en Grieken ook al dit idee gehad, echter die hadden nog steeds geen kopieerrecht omdat kopietjes maken duur genoeg was dat niet iedereen dit kon doen. Het auteursrecht was wel iets dat de Fransen en de Amerikanen uiteindelijk uitgevist hebben maar ook later dan je denkt en daarna maar 20-25 jaar zolang je het commercieel uitbaat, het is maar met het begin van Disney (1920-1930) dat we internationaal meer druk zagen voor auteursrechten die langer en langer liepen.

Dus jij wilt een monopolie van techneuten vervangen door een monopolie van Disney en co, want dat is waar het uiteindelijk op uitdraait als je alles via de wet aan banden wilt leggen. Als jij als auteur denkt dat je gemakkelijk je rechten zal behalen omdat OpenAI jouw website doorsnuffelt, dan zal je dat wel tegenvallen, enkel grote bedrijven kunnen het zich veroorloven.

We hebben dezelfde discussies hier gehad over CD/DVD schrijven en iedereen liep dan ook achter het idee van een stichting die geld zou innen en als we maar belasting heffen op alle schijfjes en daarna ook harde schijven en misschien SSDs ook, want dan kunnen alle artiesten rijk worden terwijl we collectief de hele geschiedenis van kunst op een schijfje branden. Uiteindelijk zijn de schijfjes weg, heeft de EU gezegd dat Nederland geen recht geeft op een thuiskopie en houden we enkel maar Netflix en andere videoconglomeraten over die handenvol geld aan Disney en Hollywood geven, want het was beter om de kunst niet te delen omdat iemand thuis wel een schijfje zou kunnen branden van een gloednieuwe film. En hoeveel geld heeft Stichting Brein uiteindelijk aan artiesten gegeven: 0,0.

Iedereen kan de LLM vinden en draaien, het enige dat OpenAI momenteel sterk maakt is een gemakkelijke interface en veel marketing van Microsoft, ik denk echt niet dat OpenAI dit lang zal volhouden, deels omdat ze met Microsoft in zee gegaan zijn (een bedrijf dat al heel lang technisch en ideologisch stilstaat) en deels omdat het ongelooflijk veel geld kost om een LLM te genereren. Momenteel kost het ongeveer 50c aan stroom en hardware voor elke 1c die OpenAI vraagt voor hun API, en meer kunnen ze niet vragen, een LLM geeft momenteel niet meer dan ~10-20 euro per maand aan 'waarde' voor de meeste mensen, het is een geavanceerde zoekmachine, ik kan met een paar minuten extra hetzelfde op Google vinden.

Ik vind dat we beter langdurige oplossingen voor copyright moeten vinden, dingen zoals copyleft en andere vormen van verdiensten zoals dienstverlening. CD's branden was de kanarie in de koolmijn, tegenwoordig koopt niemand meer muziek en artiesten worden rijker dan ooit met concerten waar ze 2-300 euro per ticket kunnen vragen. Waar vroeger zelfs de grote artiesten nog moesten ergens "normaal" werk vinden omdat wij nooit meer dan 50 euro zouden uitgeven, zelfs voor Michael Jackson (daar heb ik toendertijd 15 euro voor betaald en ik dacht dat het al schandalig was), kunnen vandaag zelfs kleine artiesten met een paar duizend volgers op sociale media deftig leven. We gaan steeds sneller en beter kunst en andere dingen kunnen maken, delen en verwerken, eventueel zelfs de informatie in ons eigen brein zetten.

[Reactie gewijzigd door Guru Evi op 22 juli 2024 16:26]

Een idee opperen om de macht te kunnen grijpen van de adel, door het volk op te hitsen, zoals tijdens de Franse revolutie speelde, verandert in wezen niets. Die truc hadden rijke koopmannen hier al gebruikt tijdens de vorming van de republiek, in het begin, de strijd tegen de spaanse koning en de katholieke kerk, met hulp van de adel, die steeds verder buitenspel gezet werd. In de praktijk werden rijke koopmannen ca 200 jaar lang de nieuwe regenten en had het volk nog steeds niets te zeggen. Daarom nodigden burgers in 1794 na de Franse revolutie Fransen uit en hadden wij hier ongeveer 20 jaar lang de zgn Franse tijd, met als gevolg dat we de Oranjes weer terugvroegen en wij nu een koninkrijk zijn. Nou moe?! In Frankrijk werkte het ook niet, zie Napoleon die zich uiteindelijk tot keizer kroonde. Bij de Romeinen was het een schijndemocratie, daar heerste invloedrijke families, net als bij ons totaan het einde van de republiek eind 18e eeuw.

Het is een hele lange aanloop geweest, maar echte democratie hebben we echt pas sinds de 20e eeuw. In Nederland sinds 1919, toen ook vrouwen actief stemrecht kregen. We hadden daarvoor tot 1917 censusstemrecht, toen alle mannen mochten stemmen. Dat was een stap in de goede richting maar nog steeds geen democratie.

Maar goed, ik heb sowieso niet het idee dat je begrijpt wat ik bedoel, want volgens jou zou ik zou ik het monopoly van de één aan de ander willen geven, terwijl ik toch echt duidelijk onderscheid maak tussen uniek werk en kopiën van producten.

Ik heb juist de indruk dat jij wil wat je mij toedicht. Je ziet duidelijk het gevaar en de diefstal van intellectueel eigendom niet. De algoritmes van OpenAI zijn vele malen krachtiger dan een search enigine. Je maakt ook niet echt duidelijk hoe je copyright zou willen veranderen.

Sowieso, en hier gaat het uiteindelijk om, en dat is waarom ik het over 'dief' had: er wordt duidelijk gevraagd om de site niet te scrapen in robots.txt maar men doet dat toch. Dit is uitermate onethisch en zeer discutabel.
Ik zie wel degelijk een gevaar zolang je aanneemt dat het een gevaar is.

Zeg nu dat je je willetje kunt doordraaien en hopla morgen hebben we een regel dat OpenAI en Google geen publieke informatie mag gebruiken, geen websites meer mag scrapen zonder expliciete toestemming of manuele toevoeging. Dat was hoe het vroeger werkte, ten minste met Altavista en AskJeeves en initieel ook met Google, je moest manueel je websites toevoegen want automatisch doorzoeken was zelfs voor Google met een paar servers in de garage een veel te groot werk.

Het eerste dat je zult zien is dat ChinAI zich geen reet van de regels aantrekt. Binnen enkele maanden is Google bankroet en sluiten ze zonder aankondiging hun cloud af. Hoeveel mensen hebben een plan om te verhuizen en bekostigen van Microsoft/Amazon.

Wat houd je over: al de AI wordt ontwikkeld in China met een zwaar pro-Chinese bias. Vraagje stellen over Taiwan of Tiananmen, vergeet het maar, al de investering voor zoekmachines gaat ook naar China. Niet alleen heb je de grote spelers in de markt uitgeschakeld ten voordele van een dictatuur en een grotere monopolist in Amazon/Microsoft, je hebt tegelijkertijd een hoop amateurs en kleine bedrijven de nek omgedraaid en de mogelijke concurrenten voor OpenAI zullen nooit een start vinden.

Als je altijd denkt dat de hemel zal invallen als je niet reguleert, we hebben dezelfde discussies gehad over Altavista en Yahoo, monopolisten die moesten beperkt worden met strenge wetten, en wie noemt er uiteindelijk kun bedrijf Googol, het hele Internet automatisch indexeren op een harde schijf, wat een grap, daar hebben we toch een webring voor, georganiseerd per onderwerp!

[Reactie gewijzigd door Guru Evi op 22 juli 2024 16:26]

Tja, belasting ontwijking is ook niet illegaal maar wel ongelooflijk asociaal. Dat het niet illegaal is om te scrapen zegt mij weinig, aangezien het ongelooflijk asociaal is. Maar goed, alles voor wat meer geld toch.
Hahaha, ja, krakers zijn echt heel erg fan van de overheid :+
Er is een verschil tussen de regels volgen en zoeken naar gaten in de wetgeving. Weliswaar volg je dan de regels, maar daar zit toch nog wel (ethisch) verschil tussen. Er is namelijk een geest en een letter van de wet- en regelgeving.
Ik gebruik elke aangereikte regel om mijn belasting druk te verlagen. Ik vraag mijn dividend belasting terug, hypotheekrente aftrek, verplaats de aftrekposten tussen mij en mijn vrouw om het naar beneden te krijgen en ik ga echt de IACK niet weigeren.
Dus je doet gewoon hetzelfde. Ik snap eigenlijk niet waar je je druk over maakt. Ik ben geen Unilever hé |:(
Als jij het verschil niet snapt tussen belansting ontduiking [edit], belasting ontwijking [edit] en expliciete regels toepassen snap ik waarom deze discussie zo stroef is...

[Reactie gewijzigd door Thekilldevilhil op 22 juli 2024 16:26]

Belasting ontduiken in de zin dat je de regels toepast of in de zin dat je gegevens vervalst? Het een is legaal en doen we met zen allen want het is onethisch om de regering meer te geven dan waar ze wettelijk recht op hebben om te stelen.
Mijn comment was niet volledig, ik was ontwijking vergeten op te noemen.

Het gaat mij meer om dat toepassen van explicite regels niet hetzelfde is als de regels oprekken en vervolgens niet handelen in de geest van de wet.

Wat bijvoorbeeld veel wordt gedaan is een aparte BV opzetten in een ander land (helaas vaak in NL) om vervolgens de winst weg te sluisen naar jezelf onder het mom van "licentie gelden". Of wat Shell hier deed door alle buitenlandse tegenvallers en kosten hier >ook< te verrekenen met de winst. Je het is legaal, maar het is niet in de geest van de wet en wat mij betreft hoogst associaal.

Dat is ook nogal anders dan de IACK, waar je wat gld terug krijgt als je fulltime werkt en een kind hebt. De IACK gebruiken is naar de letter en geest van de wet, en dat vind ik nogal wat anders dan wat die bedrijven doen.
Maar is het verboden om in het buitenland een bedrijf op te zetten zoals op een eiland die geen inkomstenbelasting heft? Ik vind dat je toch het recht hebt om te verhuizen naar een land dat je financieel gunstiger uitvalt, er is een gemakkelijke oplossing, verlaag de belasting (en overheidsuitgaven) zodat je competitief blijft met andere landen. Het is niet alsof die andere landen onstabiel zijn, ze zijn dankzij een lage belasting en dus bedrijfsinvesteringen veelal meer stabiel dan onze eigen regering die elke paar maand een leiderschapscrisis heeft, een onstabiel land is niet gunstig om te investeren dus je ziet mensen niet de bedrijven in oa Venezuela of Congo opzetten. Zelfs al kijk je naar voorzieningen voor de bevolking, in al die landen waar veel geld geparkeerd wordt zijn de mensen beter af. Vreemd dat al die kapitalisten altijd betere resultaten met private onderneming vinden.

[Reactie gewijzigd door Guru Evi op 22 juli 2024 16:26]

Ja maar ReGeLs BeLEMmeRen InNoVatiE!!!
Kan er niet op de achtergrond gewoon complete bs text gezet worden die met een variabele key niet getoond wordt (iedere dag een ander stukje code, om het niet handmatig te negeren is), zodat hun scraping vergiftigd wordt?

Google kwam in het nieuws doordat hun ai vond dat er kakerlakken in de penis van mensen zouden leven en dat dit heel normaal was :/
Het is wel wat genuanceerder dan hoe je het nu brengt. Is er überhaupt een RFC (of een addendum erop) nodig om bijvoorbeeld bepaalde user agents te blokkeren? Dat zou ik namelijk wel een beetje vergaand vinden, terwijl er al een standaard is die dit prima regelt. De vraag is alleen hoe en of er afgestemd is of wordt welke user agents voor AI gebruikt (moeten?) worden. Lijkt me dat daar het probleem zit en niet zozeer omdat grote techbedrijven uit zijn op winst.

Daarnaast zijn er ook voldoende gebruikers die het gebruik van AI toejuichen en er veel gebruik van maken. ChatGPT kan bijvoorbeeld ook erg handig zijn wanneer het hulp geeft voor het schrijven van scripts of met programmeren, maar het kan dat natuurlijk alleen als het leert en blijft leren, dat immers ook maar op 1 manier kan, maar als iedereen de deuren gesloten houdt, kan het ook niet leren.
onpopulaire mening. Vind het hele idee van robot.txt al raar. Als je iets op het publieke domein gooit dan moet je niet zeuren hoe en door wie of wat het geconsumeerd wordt.
robots.txt komt uit een andere tijd.
Het eerste doel van robots.txt was overbelasting voorkomen. Webservers waren nog niet zo snel en snelle client kon eenvoudig een hele webserver uitschakelen. Daarnaast is er nog het probleem dat webscrapers niet goed omgaan met automomatisch gegenereerde pagina's. Je kan niet heel Google crawlen, iedere woord dat je zoekt geeft immers een pagina terug (al is het maar "0 resultaten"). Dat houdt nooit op en is dus niet handig.

Vandaar dat het nuttig was om een robots.txt te hebben om aan te geven welke delen van een site wel en niet gescraped kunnen worden. Dat was nuttig voor beide kanten dus makkelijk in te voeren op basis van vrijwilligheid.

In die tijd was Internet anders, meer wild west. Enerzijds was alles mogelijk en toegestaan, anderzijds was er een betrokken gemeenschap met etiquettes, gewoontes en een flinke vleug libertarisme en anarchisme. Er werd veel waarde gehecht aan op vrijwillige basis samenwerken. Dat moest wel, overheid en politie speelde geen enkele rol op het publieke internet. Alles was één groot herenakkoord, meer was er niet. Om iets als robots.txt in te voeren moest je iedereen overtuigen om vrijwillige mee te doen. Dat lukt alleen als iedereen er voordeel van heeft.

De andere kant van de medaille is volledige macht over je eigen systemen, op de Amerikaanse manier: indringers worden doodgeschoten zonder enige vorm van proces en op je eigen terrein mag dat. Dan is het wel een goed idee om bordjes "verboden toegang" op te hangen zodat je niet per ongeluk een onschuldige bezoeker neerschiet die een verkeerde afslag heeft genomen.

Over copyright dacht niemand na, dat speelde geen rol toen robots.txt bedacht werd. Later, toen de webservers (en ratelimiters) beter waren geworden, en internet commercieler, begon copyright een rol te spelen. De zakelijke krachten botsten met de libertarische beheerders van internet. robots.txt gebruiken voor copyright is het compromis dat daar uit kwam. Het was voor beide kanten het best haalbare. Iets afdwingen was (en is) erg lastig op internet.

Tot op de dag van vandaag zit er een flink gat tussen de verwachtingen die verschillende partijen hebben aan robots.txt Zowel aan de technisch als de juridische als de sociale kant.

Tijd om robots.txt te vervangen door robots.ai.api ?
In plaats van een statische file met vaste regels in ouderwetse robots.txt syntax zou je een api kunnen maken waarlangs twee bots kunnen discussieren over de gebruikersvoorwaarden van een site en doelen van een scraper. Zo kun je onderscheid maken tussen reden waarom scraping wel of niet is toegestaan.
Behalve scraping kunnen de bots het dan ook hebben over zaken als cookies, tracking, advertenties, user-generated content, betaling, leeftijdscontroles, etc... Dan heb je ook geen banners en pop-ups meer nodig bij het eerste bezoek aan een site, je bot heeft dat van te voren al onderhandeld en geaccepteerd (of niet).
. Zo kun je onderscheid maken tussen reden waarom scraping wel of niet is toegestaan.
Kan je verzekeren dat als je iedere site eigenaar vraagt, kan iemand je website scrapen voor hun eigen gebruik. Je zal 95% van de tijd: "Nee" krijgen als antwoord. En vaak de grootste Nee zeggers zijn die dat zelf schrapt content gebruiken direct of indirect.

Als je wilt verhinderen dat content gescrapt word, moet je maatregelen nemen net zoals je je huis niet bouwt zonder een deur en slot. Het huidige internet model is al lang kapot... adblockers zijn een gevolg van een grote graait cultuur bij bepaalde site eigenaars, wat nu het omgekeerd effect heeft dat veel sites verlieslatend zijn. De enige dat echt winst maken, zijn vaak die dat je content doorverkopen en zelf dan nog. Twitter maakt volop verlies, en 3/4 van hun site is niet wat je publiekelijk ziet maar gans de tools om de data te kunnen doorverkopen. En zelf daar is het potje nat.

Ik zeg al lang, dat we naar een meer prive internet gaan, en de gast dat een simpel betaal systeem maakt, waar je bijvoorbeeld een key systeem hebt, en je betaald een cent / website, die gaat goed verdienen.
Sorry, maar nee, zo werkt het niet. De contant-eigenaar danwel rechthebbende mag zelf bepalen wat er met zijn content gebeurt. Als die niet wil dat de content gescraped wordt en daarvoor een robots.txt plaatst, is dat zijn goed recht.

Dat iets publiek staat betekent niet dat iedereen er mee mag doen wat men wil. Zeker niet als het om een commercieel bedrijf gaat dat jouw content gratis gebruikt om er winst mee te maken.

Ook al is het niet wettelijk vastgelegd die robots.txt, je hebt nog altijd zoiets als goed fatsoen en respect richting content-eigenaren waar je je aan zou kunnen houden als bedrijf zijnde om het internet een beetje gezellig te houden.

[Reactie gewijzigd door wildhagen op 22 juli 2024 16:26]

Sorry, maar nee, zo werkt het niet. De contant-eigenaar danwel rechthebbende mag zelf bepalen wat er met zijn content gebeurt. Als die niet wil dat de content gescraped wordt en daarvoor een robots.txt plaatst, is dat zijn goed recht.
Theorie en praktijk. In theorie heb je gelijk, in praktijk ligt het wat lastiger. De rechtenhebbende mag regels maken maar kan ze niet afdwingen. Althans niet met alleen robots.txt en zonder steun van de wet, en zelfs met is het op z'n best erg lastig.

De eigenaar heeft het recht een robots.txt te plaatsen, de bezoeker heeft het wettelijk gezien het recht die te negeren zolang dat binnen de grenzen van de wet is.
Ook al is het niet wettelijk vastgelegd die robots.txt, je hebt nog altijd zoiets als goed fatsoen en respect richting content-eigenaren waar je je aan zou kunnen houden als bedrijf zijnde om het internet een beetje gezellig te houden.
Ik ben het met je eens, maar tegenover ons staan er een hoop die denken dat respect en fatsoen richting hun baas/eigenaar/aandeelhouder nog belangrijker is. Geld wint het al snel van fatsoen.
Dat iets publiek staat betekent niet dat iedereen er mee mag doen wat men wil. Zeker niet als het om een commercieel bedrijf gaat dat jouw content gratis gebruikt om er winst mee te maken.
Het hele robots.txt schuurt zo enorm omdat het was gericht op kleinschalig en niet-commercieel gebruik van internet. Een menselijke maatregel voor goedwillende mensen. Dat liet veel ruimte voor eigen inschatting en interpretatie van de bedoeling van robots.txt, gebaseerd op wederzijds respect en fatsoen.
Dat soort ruimte en menselijke maat gaat totaal niet samen met moderne commerciele bedrijven die op de grens van de wet opereren.

De rol van bedrijven wordt steeds groter en sites verwachten dat gebruikers het recht op hun content overdragen aan de website. Daarmee wordt copyright en robots.txt steeds meer het terrein van grote bedrijven onderling, in die keiharde wereld past het vrijwillige karakter van robots.txt eigenlijk niet meer.

Hoewel ik van de ene kant vind dat we mogen verwachten dat bedrijven zich gedragen, vind ik ook dat we niet verbaasd moeten zijn als ze dat niet doen en alleen de letter van de wet volgen.
Dat is natuurlijk onzin en naïef. Als je niet zelf hebt aangegeven onder welk licentie model je iets publiceert dan is het vrij te gebruiken.

Alles wat je op tweakers plaats is ook niet van jou. Als de moderator of eigenaar van de website iets niet leuk vind kan die dat gewoon verwijderen. Alles wat je geschreven hebt kan die ook doodleuk verkopen aan derde.
Dat is natuurlijk onzin en naïef. Als je niet zelf hebt aangegeven onder welk licentie model je iets publiceert dan is het vrij te gebruiken.
Dat is onjuist, onder het auteursrecht is door jou geschreven inhoud van jou, tenzij je daar met nadruk afstand van doet of je inhoud niet voldoende substantieel is om onder het auteursrecht te vallen. Dus site eigenaren hoeven geen disclaimer te plaatsen om herpublicatie van hun inhoud te voorkomen. Zelfs de disclaimers op forums en websites waarin ze stellen dat al jouw inhoud van hen is en dat ze er mee mogen doen wat ze willen, is niet rechtsgeldig; zij mogen dat niet doorverkopen. Het enige wat geldig is aan die gebruikersovereenkomsten is dat je hen een licentie geeft om door jou geplaatste inhoud op hun eigen site te gebruiken. Volledig afstand doen van je auteursrecht kan alleen per akte, met handtekening dus.

Dat geldt dus ook voor DPG's bullshit overeenkomst, waarbij inhoud op Tweakers elders commercieel gebruikt zou mogen worden. Dat klopt helemaal niet.

Kanttekening hierbij is dus ook wel dat een post met enkel "|:(" niet onder het auteursrecht valt, dat is niet substantieel genoeg. Maar bijvoorbeeld de redactionele inhoud van Tweakers mag niemand zonder toestemming van DPG elders publiceren; ze mogen citeren (citaatrecht), maar volledig publiceren mag niet. Daarvoor hoeft er geen disclaimer of licentiemodel op de site te staan, dat is gewoon auteursrecht. En datzelfde geldt voor een uitgebreide post op de FP of GoT door de community; daar mag DPG niet zomaar mee doen wat zij willen, laat staan externe partijen.

Scrapen an sich is een ander verhaal, dat is een heel grijs gebied. Scrapen en de inhoud (ongeacht of dat nu tekst of beeld-/geluidsmateriaal is) elders publiceren mag niet. Maar scrapen om bijvoorbeeld een LLM te trainen is lastig, want daarmee stel je de inhoud zelf niet rechtstreeks beschikbaar maar haal je er wel voordeel uit. Je maakt er in principe geen inbreuk op het auteursrecht mee. Dat is hetzelfde als een kopie van een boek maken; mag gewoon, zolang je die kopie niet publiceert.
Volledig afstand doen van je auteursrecht kan alleen per akte, met handtekening dus.Dat geldt dus ook voor DPG's bullshit overeenkomst, waarbij inhoud op Tweakers elders commercieel gebruikt zou mogen worden. Dat klopt helemaal niet.
Een licentie (wat DPG heeft) is totaal iets anders als een overdracht van eigendom. Bullshit tegenwerping, geen bullshit overeenkomst.
Dat is natuurlijk onzin en naïef. Als je niet zelf hebt aangegeven onder welk licentie model je iets publiceert dan is het vrij te gebruiken.
Ik weet niet waar je die wijsheid vandaan haalt maar het is niet waar. De default is dat je de rechten op materiaal wat je publiceert bezit tenzij je daar expliciet afstand van doet. Dus, foto’s en teksten die je online vindt mag je niet hergebruiken, tenzij de eigenaar jou expliciet toestemming heeft gegeven.
Dat is natuurlijk onzin en naïef. Als je niet zelf hebt aangegeven onder welk licentie model je iets publiceert dan is het vrij te gebruiken.
Als je niet aangeeft onder welk licentiemodel je iets publiceert, dan worden jou geen rechten in licentie gegeven anders dan het impliciet recht om als consumerende partij de inhoud op die URL te bekijken. Het is dan helemaal niet vrij te gebruiken. Het omgekeerde zelfs!

[Reactie gewijzigd door R4gnax op 22 juli 2024 16:26]

Dat is natuurlijk onzin en naïef. Als je niet zelf hebt aangegeven onder welk licentie model je iets publiceert dan is het vrij te gebruiken.
Wedden dat die AI scrapers zich ook niets aantrekken van wel licentie model dan ook? Als het technisch toegankelijk is op het web, dan scrapen deze bedrijven het.
Wat ook natuurlijk ontzettend krom is. Dat iets wat je zelf creeërt op een website en waar de website op bouwt niet meer van jou is. Van mij mogen ze de content gewoon scrapen.
Daar ben ik het ook mee eens. Maar waarom dan niet gewoon een disclaimer plaatsen? Nu heb je alleen maar een robot.txt waar staat "scrape alsjeblieft dit niet"

Terwijl ze in de footer ook een link naar een disclaimer pagina kunnen plaatsen wat zegt dat van die website niks gekopieerd, gescraped of commercieel gebruikt mag worden.
Is de robot.txt niet gewoon de disclaimer waar je om vraagt maar dan in een voor zoekmachines duidelijk herkenbaar formaat dat we met zijn alle hebben afgesproken en overal hetzelfde is? In plaats van dat we de zoekmachines moeten gaan trainen op het herkennen van alle verschillende ontwerpen die mensen zelf gaan bedenken voor disclaimers in een footer?
Volgens mij niet. Het zou wel mooi zijn als hier gewoon internationale wetgeving voor komt die zegt hoe en wat juridisch de waarde is van zo'n bestand.
Wel een beetje krom om te verwachten dat Google informatie op websites niet gebruikt om AI te trainen, maar diezelfde websites wel gratis toont in zijn zoekmachine.

Ik vind het een beetje hetzelfde verhaal als gebruikers die een adblocker gebruiken.
Websites tonen is niet alleen in het belang van de website, maar ook in het belang van Google. Als Google eerst alle websites expliciet om toestemming zou moeten vragen of ze de website zouden mogen tonen blijft er weinig meer over van de zoekmachine.
“ De contant-eigenaar danwel rechthebbende mag zelf bepalen wat er met zijn content gebeurt. ”

Haha, nee zo werkt dat helemaal niet. Ik zou graag hebben dat alle content die ik op tweakers plaats gebruikt zou worden om AI te trainen maar tweakers probeert die mogelijkheid actief te blokkeren. Gelukkig zijn AI bedrijven slim genoeg om die blokkade te omzeilen.
Ja, jij mag zelf bepalen wat er met jouw content gebeurt, en jij hebt Tweakers toestemming gegeven om er gebruik van te maken. Nu niet zeuren over iets wat je zelf gedaan hebt.
10.4 Door het plaatsen van Content op de Website;

verleent het Lid onherroepelijk toestemming aan Tweakers om deze Content zonder vergoeding te publiceren, aan te passen en commercieel te exploiteren via de Website of andere online of print media van DPG Media;
verleent het Lid toestemming aan andere Leden en bezoekers van de Website om deze Content te raadplegen en daarvan kopieën te maken voor eigen gebruik;
geeft het Lid toestemming aan Tweakers voor de openbaarmaking van zijn portret, voorzover dit voorkomt in deze Content; en
doet het Lid, voorzover wettelijk mogelijk, afstand van de op de Content rustende persoonlijkheidsrechten.
Anoniem: 76058 @wildhagen23 juni 2024 11:47
Als die niet wil dat de content gescraped wordt en daarvoor een robots.txt plaatst, is dat zijn goed recht.
Als je niet wilt dat je content geschrapt word, dan plaats je die content achter een login met een duidelijke TOS. Het moment dat je content openlijk op het internet plaatst, dan is het publiekelijk. Als je naakt rondloopt in de tuin, met zicht vanop de straat, moet je niet klagen als mensen fotos van je naakte achterste nemen. Ja, het is je huis, ja, het is privé eigendom MAAR als je iets maakt dat van de publieke weg zichtbaar is, daar gaat je controle.

Je redenering van " als goed fatsoen en respect richting content-eigenaren" ... tja, dat is een 2 weg straatje he. Ik neem aan dat je ook geen adblocker draait want je respecteert de content eigenaar niet!

De content eigenaar kan ook mensen niet respecteren met advertencies te plaatsen dat volop flashen of 1001 op een pagina. Mensen vergeten soms dat de rede dat adblockers zo populair zijn, is gans het gedoe van jaren geleden (en nu nog altijd) van content eigenaar dat de mensen op de straat niet respecteerde.

Gans je logic van respect en het internet, jongens toch, wat een naïviteit... Ik neem aan dat content eigenaar je ook respecteren door het niet doorverkopen van je data? O watch ... Miljoenen deal met Google, voor de AI verkoop van reddit, en andere websites hun user data. Facebook, ...

Laten we eerlijk zijn, de enige reden dat content eigenaars nu klagen over scrapers dat robots.txt negeren, is omdat ze niet willen dat "hun" content geschrapt word zonder $$$$, en dat ze die zelf willen doorverkocht (en die "hun" content, is vaak eigenlijk content van andere partijen).

Kom dus niet af van respect ... En ja, ik draai verschillende sites en kan je verzekeren, dat zodra ik een server activeer, dat binnen de 5 seconden, men log volstaat met /xxx niet gevonden, /yyy niet gevonden. Dat gebeurt nu, en dat gebeurde 20 jaar geleden. Het enige verschil is dat men nu klaagt dat AI scrapers geld verdienen met "je content". Hier is iets dat je niet weet, dat gebeurde vroeger ook al, voor we AI hadden. En de grootste boosdoeners waren vaak de grootste bedrijven!

Ik stel voor dat we Google bannen want kan je verzekeren dat Google de robots.txt nooit gerespecteerd heeft. Google eens op "google robots txt not respect" :)
Het moment dat je content openlijk op het internet plaatst, dan is het publiekelijk. Als je naakt rondloopt in de tuin, met zicht vanop de straat, moet je niet klagen als mensen fotos van je naakte achterste nemen. Ja, het is je huis, ja, het is privé eigendom MAAR als je iets maakt dat van de publieke weg zichtbaar is, daar gaat je controle.
Of om te parafraseren: als je digitale inhoud publiceert die niet bol staat van de DRM moet je ook niet huilie gaan doen als piraten er mee aan de haal gaan?

Want dat is wel het punt wat je hier maakt.
Anoniem: 76058 @R4gnax23 juni 2024 14:11
Of om te parafraseren: als je digitale inhoud publiceert die niet bol staat van de DRM moet je ook niet huilie gaan doen als piraten er mee aan de haal gaan?
Daarom bestaan er zaken zoals copyrights, foto recht enz. M.a.w, ja, iemand kan een foto van je achterste nemen, maar als men dit dan publiceert (en of winst uit maakt), dan heb je een zaak voor de civiele rechtbank.

Datzelfde is ook van toepassing op het scrapen van een website. Google nam vroeger puur texted over van nieuws websites, voor te gebruiken in hun eigen nieuwsdeel. Dat is voor een rechtbank gehaald en Google verloor de zaak.

Het ding met AI is, dat men informatie gebruik en deze transformeert in het LLM. M.a.w, de winst dat men haalt uit het model, is verborgen in de data en dat gaat een paar interessante rechtszaken worden in de toekomst.

Maar als je informatie openbaar publiceert, dan moet je niet verbaast zijn dat die data gescrapt word. Je verliest de controle over data.

Je kan het scrapen moeilijk maken als je zaken publiekelijk zet:

* Rate limits
* Ip checks
* Chapcas
* Veranderende Urls
* Javascript (url veranderingen, data veranderen met scripting, verborgen variable in de output)

Maar veel mensen doen dat gewoon niet want ze zien dat scraping niet gebeuren.

De beste manier is en blijft achter een login. Want dan heb je veel meer control en mogelijkheden om scraping lastig te maken. En dan heb je ook meer legale opties. Nu ja, is een ganse andere discussie.

Op je punt van piraterij ... Als je content publiceert, dan is het beschermen van die content ook deel van je werk. Ja, ik weet dat mensen dat niet graag aanhoren, want 95% hier zal geregeld een torrent zitten te draaien maar bedrijven dienen hun werken te beschermen voor de copyright te kunnen behouden. Als ze dat niet doen, kunnen ze die copyight en andere rechten verliezen.
bedrijven dienen hun werken te beschermen voor de copyright te kunnen behouden. Als ze dat niet doen, kunnen ze die copyight en andere rechten verliezen.
Verder eens met wat je schrijft, maar dit stuk klopt niet.
Je verwart auteursrecht met recht op een handelsmerk.
Of om te parafraseren: als je digitale inhoud publiceert die niet bol staat van de DRM moet je ook niet huilie gaan doen als piraten er mee aan de haal gaan?
Want dat is wel het punt wat je hier maakt.
Alleen als je het ook zou kunnnen omdraaien. Krijg ik geen DRM als ik niet piraat? Nee, zo werkt het ook niet.

Het lastige aan deze manier van denken is dat het geen symmetrische onderhandeling tussen gelijkwaardige partijen is. Er is geen onderhandeling. Er is geen voor-wat-hoort-wat of eigen-schuld-dikke-bult. Er zijn niet eens duidelijke partijen. Er zijn tal van bedrijven, organisaties en personen met allemaal hun eigen belangen en afwegingen. DIe zullen het nooit helemaal eens worden dus er zal er altijd een zijn die meer DRM wil en er zal altijd wel een piraat overblijven. Nog even los van legitiem verschil van inzicht over wie welke rechten heeft (zoals uitzonderingen voor onderwijs, wetenschap, bibliotheken en musea).
Ook al is het niet wettelijk vastgelegd die robots.txt, je hebt nog altijd zoiets als goed fatsoen en respect richting content-eigenaren waar je je aan zou kunnen houden als bedrijf zijnde om het internet een beetje gezellig te houden.
Ik begrijp je reactie maar je beschrijft hier wel een utopisch verhaal. Er is nooit fatsoen geweest op internet, kijk maar naar de cookie wetgeving die nu pas eindelijk een beetje goed opgevolgd wordt door websites door bv een duidelijke Reject All aan te bieden. Terwijl dit al een behoorlijke tijd wettelijk vastgelegd is.
Goed fatsoen en respect zijn de eerste dingen die overboord gaan als er geld in het plaatje komt.
Ja, dat is hun goed recht, net zoals het negeren van robots.txt een goed recht is. Als ze niet willen dat de content gescraped wordt moeten ze het maar achter een (pay)wall zetten.
Mind you, copyright is dan wel weer een ander verhaal. Net zoals een mens niet zomaar 1 op 1 een artikel, zonder toestemming, mag overnemen en publiceren, mag AI dat ook niet. Maar een mens gebruikt het artikel wat die er mee geleerd heeft wel weer in hun eigen artikelen, en dat is wat, goede, AI ook doet.
Waarom? Het is jouw gedeelte van het publieke domein.
Als ik de poort van m’n achtertuin open zet en een bordje ophang “vrij toegankelijk behalve voor Piet de Boer” is dat ook m’n goed recht.
Daarbij zijn crawlers geen mensen maar computers.
Maar als je een tentoonstelling in je tuin houd die vanaf de openbare weg te zien is mag je niet gaan verbieden dat Piet de Boer vanaf de openbare ruimte jou tentoonstelling ziet.

Dan moet je je content achter een walled garden zetten, bijv. door een account te laten maken waar mensen zich bij verbinden aan bepaalde voorwaarden. Een robots.txt is nou eenmaal niets meer dan een vriendelijk verzoekje.
Piet de Boer mag het dan alleen bekijken, maar niet gebruiken. Dit laatste doet o.a. OpenAI nu wel.

Dat heeft niets met een walled garden te maken.
Piet de Boer mag er best op voortborduren in zijn eigen kunst, zolang het geen directe kopie is. Dat doet OpenAI nu.
Piet maakt geen direct gebruik van de exacte aanwezige kunst én is geen machine of software.

OpenAI maakt wel degelijk direct gebruik van de exacte data om een machine te trainen. En dat is simpelweg niet toegestaan onder de copyright wetgeving.

Die machine/software werkt ook op geen enkele manier zoals een menselijk brein. De vergelijking met artificiële neurale netwerken wordt enkel gemaakt om het concept van ANN's beter begrijpbaar te maken voor de leek, maar ze lijken vrijwel in niks op echte biologische NN's.
De crawler moet de server "betreden", de data staat immers op die server, en voordat een crawler op de server naar de informatie kijkt moet hij langs het bestandje "robots.txt" waarin staat dat het niet mag.
Dus de vergelijking zou beter zijn, "Je hebt een tentoonstelling, maar moet door een deur die iedereen mag openen behalve Piet de Boer, dit staat immers op de deur geschreven.
Als ik mijn deur openzet van mijn woning wil toch niet zeggen dat ze alles uit mijn huis zomaar mee mogen nemen?

Stel ik heb een hele zooi schilderij gemaakt, en bij de ingang hangt een bordje “niet fotograferen”. Dan is het toch niet netjes als ze dat wel doen en dan die fotos afdrukken en in hun eigen galerij ophangen?

En als ik een bordje ophang bij 1 kamer met uitzonderingen daarop, dan is dat juist goed toch?
Dus een disclaimer plaatsen op je site.
Robots.txt is dat (nog) niet.

Zo moeilijk is het toch niet?
En jij verwacht dat crawlers naar de disclaimers gaan kijken?, er moet een uniform iets zijn waar crawlers zich aan houden, en dat is de robots.txt
Geen probleem, maar leg dat dan wel wettelijk vast, want de tijd van gentlemen-agreements is nu wel voorbij
Je website is niet "het publieke domein".
Deels waar; dat geldt volgens mij alleen als het achter een account of bv een abonnement zit.
Is het zichtbaar voor iedereen dan is het beschikbaar voor alles en iedereen. Het publiek dus.
Misschien moet je even opzoeken wat de definitie van iets in het "publieke domein" is. Want je gooit allerlei dingen door elkaar. Niet alles wat op een site staat is publiek domein en door iedereen te gebruiken voor elk doeleinde.
Nee, daarom zie je bijvoorbeeld in veel Javascript source code de licentie model die gebruikt wordt.

Alleen wordt dat voor de text die je kan zien vrijwel. Niet gedaan.
By default valt alle tekst die op een website gepubliceerd is onder copyright.
Publiek domein betekent dat er geen intellectueel eigendomsrecht op zit, niet dat het publiek beschikbaar/benaderbaar is. Elke website heeft eigendomsrechten tenzij anders wordt aangegeven, Wikipedia en StackOverflow vallen bijvoorbeeld wel onder publiek domein omdat ze expliciet een Creative Commons licentie gebruiken voor alle content.
Publiek domein zou betekenen dat iedereen met de inhoud van een website kan doen wat men wenst. Dat klopt gelukkig niet. Het auteursrecht blijft eigendom van de auteur en die kan iemand expliciet toestemming geven of expliciet verbieden van het te raadplegen.

Met robots.txt geeft een auteur expliciet aan dat deze diensten geen toegang krijgen. Indexeren zij toch, dan schenden ze het auteursrecht.

[Reactie gewijzigd door Blokker_1999 op 22 juli 2024 16:26]

Absoluut niet. Publiceren op internet is juridisch heel wat anders dan “public domain” maken. Als ik een artikel schrijf en het op internet publiceer dan heb jij het recht om dat te lezen. Meer niet. Je hebt niet het recht om er iets anders mee te doen tenzij ik jou expliciet die toestemming geef.
Nee. Het is "voor het publiek opengesteld" en dat betekent iets heel anders.
Het is meer een fatsoen norm.

Net als de 'do not follow' die browser kunnen mee sturen.
Aan de andere kant heeft het ook geen zin voor search spiders bijvoorbeeld, om pagina's te indexeren die achter gesloten deuren zitten. Dat zou in een spider of vaak dezelfde pagina opleveren, of fouten, waardoor search spiders een pagina lager beoordelen dan nodig.
Er zou inderdaad een duidelijker licentiemodel moeten zijn zoals dat ook op diverse website te zien is, maar dat het ook gerespecteerd wordt voor de tekst die je op je website zet.

CreativeCommons met een AI exception bijvoorbeeld:
"This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License, with the additional restriction that it may not be used for training AI models or any machine learning algorithms."

[Reactie gewijzigd door Menesis op 22 juli 2024 16:26]

Met NonCommercial geef je al aan dat het niet voor commercieel gebruik bedoelt is. Zowat alle AI modellen vallen onder commercieel gebruik en vallen dus uit de boot. Enkel als bijv. studenten een AI ontwikkelen voor onderzoeksdoeleinden dan zouden zij die data wel mogen scrapen, maar het zo opgebouwde model mag dan weer niet commercieel worden aangeboden.

Er zijn geen nieuwe licentievormen nodig dus.

En als er geen expliciete licentie staat moet je gewoon kijken naar wat de wetgeving zegt. Alleen mag je robots.txt dan wel weer aanzien als een expliciete toestemming of een expliciet verbod voor geautomatiseerde systemen die op de website komen. Ontbreekt het bestand, dan mogen ze gewoon scrapen wat ze vinden. Staat er expliciet dat zij niets mogen scrapen, dan mogen ze dat ook niet. Waarom zou je meer willen neerzetten, en hoe zou je dat dan doen?
Ah ok. Maar is er een manier om aan te geven wat voor licentie je website heeft? Volgens mij is nu het enige die "robots.txt"..

edit: Ik heb het "de schurk" (ChatGPT) zelf gevraagd, die kwam met o.a. het volgende stukje code:
<html>
<head>
<link rel="license" href="https://creativecommons.org/licenses/by-nc-nd/4.0/" />
</head>
<body>
<footer>
<p>This work is licensed under a <a rel="license" href="https://creativecommons.org/licenses/by-nc-nd/4.0/">Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License</a>.</p>
</footer>
</body>
</html>

[Reactie gewijzigd door Menesis op 22 juli 2024 16:26]

Hoe zeker is het dat de content wordt geschrapt voor leermodellen en niet voor antwoorden van gebruikers op vragen. Als ik in Cognosys een onderzoeksopdracht op geef voor een vraag en deze verwijst dan bv naar content van tweakers voor het antwoord is dat ook duidelijk aan het einde en komt er een link naar het artikel.
Maar hoe kan het verwijzen naar een artikel op Tweakers als het zelf nooit de site heeft geindexeerd, als het zelf niet op de site mag komen van de site eigenaar? Op zo een moment weet je dus dat de site wel geindexeerd is geweest.

Als robots.txt aangeeft dat er niet geindexeerd mag worden, dan hoort een AI bot te zeggen dat de site waar jij specifiek naar vraagt door de bot niet mag opgevraagd worden.
Geen idee, Google mag de ite wel infecteren, en geïnstrueerde ai agents raadplegen ook Google voor het verzamelen van informatie om deze vervolgens te onderzoeken.
Onder meer Tweakers-uitgever DPG Media verbiedt het gebruik van webcrawlers in zijn robots.txt-bestand.
Dat is niet helemaal waar:
https://tweakers.net/robots.txt

Gelukkig ook maar, want de webcrawler van Google kan daarom toch de website schrapen, zodat ze mensen naar de website kan leiden.
Ik denk dat ze het over AI crawlers hebben, die worden verboden door tweakers (samen met zo ongeveer elke media site op de wereld). Robots.txt is met name bedoeld als soort hint van 'hey deze directory is niet bedoeld voor zoekmachines', of bijv. een heel domein. Dat is in het voordeel van zowel de publisher als de zoekmachine om bijvoorbeeld geen testsites enzo op te nemen. Nu zie je dat een enorme lijst sites (waaronder werkelijk elke media site op de wereld) de giga concurrent Google wel toestaat, maar jouw bedrijf niet. Ja wat is dan het voordeel voor zo'n partij om zich eraan te houden?

Dan geef je alleen maar de winst weg aan Google. Ik geef de AI bedrijven groot gelijk.
Ik zie dat common crawl wel degelijk minder web pagina's is gaan down loaden als gevolg van de nieuwe robots.txt:
3,4 miljard vorige zomer tegen 2,7 miljard afgelopen release.
Het opvolgen van deze instructies is echter niet verplicht.

Dus gaan ze AI de crawlers toch inzetten om het te doen. |:(
Zeg A, doe B en later excuses maken als je er niet onderuit kunt om het toe te geven. Zo werkt het tegenwoordig.
Al veel langer.
Weet u nog, Google autos die de SSID "per ongeluk" opsloegen?
want android telefoons sturen het gelukkig niet door :+
Eerst scrapen en dan ons eigen intellectuele eigendom aan ons terug verkopen met vage licentieovereenkomsten? Niet echt een toekomstbestendige constructie vermoed ik. Maar wel een leuk idee dat de gestolen content die we tijdens onze levens voor AI hebben ontwikkeld, ver in de toekomst nog de basis zal vormen voor alle content waar ze dan te lui en onkundig voor zijn om het zelf te creëren.
De AI-bedrijven zijn nauwelijks bezig met transparantie welke gegevens ze nu werkelijk gebruikt hebben en met welke toestemming. Met als gevolg dat hun verdienmodel er op gericht is in de praktijk andermans gegevens te kunnen gebruiken om er aan te verdienen, terwijl het voor de rechthebbende van het oorspronkelijke gegevens het moeilijk tot onmogelijk is aan te tonen of welke gegevens de AI-bedrijven bij hun vandaan hebben. Behalve dat het dus onevenredig de lasten bij de slachtoffers legt om dat te achterhalen en belerken moet men daarnaast ook nog onevenredig zelf investeren mogelijk hun recht te halen via erkenning en misschien genoegdoening voor alle nadelen. En ondertussen verdienen de eigenaren en ontwikkelaars bakken met geld zonder duidelijk risico dat te moeten compenseren. AI is op de huidige manier als georganiseerde criminaliteit te beschouwen.
Als je een heel grof schets maakt zoals 3 jarige doet van hond. Dan bepaald trainings materiaal wat er gegenereerd wordt. Dus de data van honden images waarmee getraind is. Maak je een complexe schets waar veel meer context in zit dan zal bij gebrek aan getraind data iets uit wat wel beschikbaar was ge-interpoleert worden.
Gezien de enorme data sets hangt meer van thema en context of ruim of beperkt laat staan correctheid getraind is.
Als ik op sommige websites ChatGPT 4o wil gebruiken om zaken uit te kiezen, vertelt het me vrolijk dat de robots.txt van de website dat niet toelaat. Dus zo universeel is deze claim niet.
Dat chatgpt zelf deze websites gebruikt wil niet zeggen dat de modellen niet op data van deze websites getraind is
Op Tweakers' robots.txt wordt eerst een algemene "allow" gedaan (en disallow voor specifieke onderdelen), daarna wordt "User-agent: Googlebot-News" toegelaten voor het gros van de site, en daarna worden specifieke User-agents verboden:
User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /
Hoe zit dat met wijzigingen van de User-agent-naam?
Ik bedoel: wat weerhoudt OpenAI om morgen in plaats van "ChatGPT-User" voor hun scraper gebruik te maken van "ChatGPT4.0-User"? Of "OpenAI-ChatGPT-User"?
Dan zijn ze alsnog (in hun ogen) in compliance met het gebruik van robots.txt...
Die user agents die daar staan dienen er puur voor zodat de bot zichzelf kan vinden in die lijst en hoeft niet noodzakelijk gelijk te zijn aan de user agent string die ze zelf uitsturen naar de server. Als je die wenst te blokkeren, dan doe je dat op server niveau.
Onder meer Tweakers-uitgever DPG Media verbiedt het gebruik van webcrawlers in zijn robots.txt-bestand
Ik ben benieuwd hoeveel nieuws-websites AI verbieden en tegelijkertijd AI gebruiken om hun nieuwsartikelen te schrijven.
Is dat relevant dan? Volgens mij is dat pas relevant als je AI gaat gebruiken om specifiek data van jouw website te doorzoeken.
Als ik nu AI gebruik om een document te schrijven... moet ik dan ook direct al mijn documenten openstellen voor de training van AI?
En dat kan nog eens een leuke loop worden: nieuwssites schrijven berichten met AI, AI bedrijven trainen op berichten nieuwssites, …
verbieden != verzoeken niet te doen

Robots.txt is de 2e
Wat een nutteloos onderscheid

Op dit item kan niet meer gereageerd worden.