Websites kunnen met nieuwe standaard betaling eisen voor scrapen content voor AI

Het RSL Technical Steering Committee kondigt de Really Simple Licensing 1.0-standaard aan. Daarmee kunnen websites van AI-bedrijven eisen dat zij betalen voor het scrapen van hun content. De standaard is ontwikkeld in samenwerking met grote uitgevers als Yahoo en Ziff Davis.

De RSL 1.0-standaard vormt een aanvulling op de binaire ja/nee-blokkeringsregels van robots.txt-bestanden, schrijft het committee in een persbericht. De release geeft uitgevers onder meer de mogelijkheid om content wél toegankelijk te maken voor zoekmachines, terwijl deze niet zichtbaar is voor AI-toepassingen. Daarnaast is het mogelijk om financiële vergoeding te vragen van AI-systemen die 'profiteren van niet-commerciële content of data'. RSL kan betalingsvoorwaarden definiëren voor onder meer webpagina's, boeken, video's en afbeeldingen.

Het RSL Collective kondigde de standaard in september aan. Deze is ontwikkeld met steun van verschillende platforms, organisaties en uitgevers als Yahoo, Ziff Davis (IGN, CNET, Eurogamer) en O'Reilly Media, dat online cursussen aanbiedt. Onder meer The Associated Press, Vox Media, USA Today, BuzzFeed, Reddit en Stack Overflow ondersteunen volgens het RSL Collective inmiddels RSL.

RSL kan op zichzelf geen scrapers van AI-bedrijven blokkeren als zij geen licentie hebben. Meerdere grote internetinfrastructuurbedrijven, waaronder Akamai, Cloudflare en Fastly, hebben hun steun echter al uitgesproken voor de standaard. Zij kunnen er wél voor zorgen dat AI-scrapers zonder licentie geen toegang hebben tot content van websites.

Door Imre Himmelbauer

Redacteur

10-12-2025 • 16:13

50

Reacties (50)

Sorteer op:

Weergave:

Maar dit gebeurt dus niet met terugwerkende kracht. In feite zijn het partijen zoals OpenAI / Deepseek / Grok die de ladder omhoog trekken nadat zij alle informatie hebben verzameld, waardoor het voor concurrenten heel moeilijk wordt om te concurreren.

Eigenlijk zou je dit wel met terugwerkende kracht moeten toepassen, dus OpenAI en vergelijkbare bedrijven verplichten om die data te verwijderen op straffe van gigantische boetes , dan kan je de boete nog laten zitten maar trek je het speelveld weer gelijk.
Benieuwd hoe snel dit net als robots.txt aan de lars gelapt zal worden door AI scrapers. Vermoed redelijk snel als ze uit hebben gevonden hoe ze het kunnen omzeilen.
Er hoeft niets voor gedaan te worden om dit te omzeilen. Dit is een middel waarmee je dan vervolgens bij autoriteiten kan melden dat dit gedaan is en ze kan aanklagen of melden bij de autoriteiten.

niets houd code tegen om je website te scapen, wel om een degelijke partij te zijn.
Wat ik zie gebeuren is dat er botnets ingezet worden vanaf geinfecteerde PCs die de boel scrapen.

Het lijkt enigszins regionaal te zijn, aangezien er heel veel komen uit een paar Zuid-Amerikaanse landen en een paar landen uit Azie, zoals Vietnam, Indonesie en nog een paar.

Succes met uitzoeken wie daar achter zit.

Punt is alleen wel dat die botnets zo volstrekt achterlijk slecht geschreven zijn, dat ze soms met 1000-en tegelijk een site platleggen en elke bot doet maar een paar requests. Totaal zie ik wel 100'000-en tot soms wel een miljoen unieke IP-adressen op 1 dag voorbij komen.
En nee, dit is niet een super grote site, gewoon het ESPEasy forum en wiki.
Dat is het punt niet. Door een standaard in te voeren, weten de AI bedrijven dat ze niet zomaar mogen scrapen en een vergoeding moeten betalen. Dat maakt het later eenvoudiger om de AI bedrijven die geen vergoeding betalen aan te klagen.
Mijn punt is dat je dan wel eerst moet weten wie er aan het scrapen is.
Daar kun je je logfiles voor gebruiken.
OK, nogmaals, ik heb GBs aan logfiles doorgespit de afgelopen maanden (bijna een jaar inmiddels) en het enige wat je ziet is een patroon van hosts die van gewone consumenten-PCs afkomstig lijken te zijn, die elk 1 - 3 pagina's opvragen.

Alleen doen ze dit dus zodanig slecht gecoordineerd dat ze met 1000'en tegelijk komen.

Maar er zit wel degelijk een patroon in.

Dit is dus niet een van de vele tientallen (100'en inmiddels?) andere scraper bots waar overduidelijk is waar ze voor aan het scapen zijn, omdat de subnetten en soms zelfs de user agent IDs overduidelijk te herleiden zijn tot bepaalde scraper bots.

Die zijn soms ook met 100'en tegelijk bezig, maar de echte brute-force scrapers komen dus letterlijk van > 1M unieke IPs, waarvan de meeste subnetten ISP's zijn voor consumenten.
Zijn punt is dat je kan het gebruiken tegen wie van het gescrapte profiteerd.
Een standaard kan niet tot betaling verplichten. Dat kan alleen een wet.

Nu is de achterliggende wens natuurlijk helder. De bedenkers willen dat er wereldwijd wetten komen die deze standaard dwingend gaan maken. Tot die tijd is het echter een vrijblijvend verzoek.
Dit gebeurt al met semi-vrijwillige botnets. Dat heten residential proxies. Die installeren mensen om een paar centen te krijgen (in letterlijke zin). Ondertussen verbreken ze hun TOS met hun ISP (internet connectie doorverkopen/delen), en weten ze niet wat voor requests er over hun lijn worden gedaan (denk ook aan scalping praktijken en erger)

Dat een PC dan onvrijwillig lid wordt van zo'n netwerk maakt weinig uit. VZIW zijn die residential proxies van hoge kwaliteit, tenminste dat wordt beloofd als je in de ETL wereld zit. Immers zijn in feite de IP blocks van datacenters en andere instellingen inmiddels wel bekend. Veel websites passen hun beveiligingen daar dan ook op aan.

Maar deze discussie is eigenlijk helemaal geen technische. Ik zie een partij als Cloudflare dat toch niet buiten de deur houden. Immers als je reguliere bezoekers door allemaal captcha's gaat laten springen, dan duw je ze ook in de 3rd parties toe die de info zo op serveert omdat ze het gescraped hebben.

Het gaat er om dat auteurs van eigen geschreven content achter hun rechten aan kunnen bij de AI boeren, want die zullen kosten wat kost hun product on "fair use" willen laten vallen.

[Reactie gewijzigd door Hans1990 op 10 december 2025 22:56]

Dit. Hier gaat zich dus eigenlijk geen enkel bedrijf dat aan massa-scraping doet aan houden.
Tja een bedrijf kán ook copyrighted content zoals muziek gebruiken maar inmiddels is wel duidelijk dat dat geen goed idee is.

Zelfde met scrapers voor AI modellen denk ik dan.
Het was een tijdje het wilde westen voor scrapers, maar ik denk dat ze er op korte termijn niet meer mee weg komen om copyrighted content zomaar te gebruiken. Kwestie van tijd (en rechtszaken)
Dan moeten ze een meervoud boete betalen als het Amerikaans hoog gerechtshof wel zegt dat het geen fair use is. Want ze zijn gewaarschuwd.
Omzeilen is het verkeerde woord. Er valt niks te omzeilen. Het is een tekstbestandje met daarin het vriendelijke verzoek om bepaalde inhoud niet te indexeren of te scrapen. In een standaard format zodat het uit te lezen is. Maar of je dat bestandje überhaupt leest of er iets mee doet is aan de scraper zelf
Een robots.txt is nu al niet interessant om dat soort dingen te doen:
A robots.txt file tells search engine crawlers which URLs the crawler can access on your site. This is used mainly to avoid overloading your site with requests; it is not a mechanism for keeping a web page out of Google.

[..]

Warning: Don't use a robots.txt file as a means to hide your web pages (including PDFs and other text-based formats supported by Google) from Google Search results.

If other pages point to your page with descriptive text, Google could still index the URL without visiting the page. If you want to block your page from search results, use another method such as password protection or noindex.
Vermoed redelijk snel als ze uit hebben gevonden hoe ze het kunnen omzeilen.
Hoe bedoel je "hoe" ze het kunnen omzeilen? Robots.txt is vrijwillig en een suggestieve vraag. Niemand hoeft zich er aan te houden. Er valt niks te omzeilen, want je mag het nu al gewoon wel doen.
Robots.txt stamt nog uit een tijd dat er sprake was van netizens, en normen en waarden op het internet. De allereerste spam was van Sun, en was technisch mogelijk, maar dat werd destijds niet gewaardeerd (zie alle reacties en ophef).

Ook is de scope & boundaries die robots.txt aangeeft wel degelijk van juridische betekenis. Ze kan kaderen dat het niet de bedoeling was om de boel maar doodleuk te scrapen; dat je dat technisch kunt is dan net zoiets dat je fysiek met 200 km/uur door rood kunt rijden. Ja, dat kan, maar dat houdt nog niet in dat je dat maar moet doen. Je dient in de maatschappij namelijk rekening te houden met anderen.
Ja, dat kan, maar dat houdt nog niet in dat je dat maar moet doen. Je dient in de maatschappij namelijk rekening te houden met anderen.
Je hebt het over partijen zoals Google en Meta.

They don't give a flying duck over je maatschappij.


Verder eens hoor, maar deze partijen zijn bij uitstek partijen die er dan "per ongeluk" schijt aan hebben.
Iedereen kan voorspellen wat er straks gaat gebeuren, de zoekmachines gaan die website natuurlijk volledig uit de index houden
LLM zoekmachines wel, traditionele zoekmachines (lees: Google Search) niet.

Ik denk dat deze ontwikkeling een stap in de goede richting is. Is het nu perfect en eerlijk? Dat niet. Maar het zorgt wel voor aansprakelijkheid en de onderscheid tussen nette heren versus cowboys.
Denk dat google met de info komt: wij doen alleen nog llm zoeken. Dus je wordt niet gevonden. Dus jij moet je aanpassen. Zo werkt de democratie van een heerser.
Zou mij op termijn niet verbazen. De hamvraag is welke termijn? Dat weet ik niet.

Daarom is het van belang dat wij in Europa stoppen met Google Search, en eigen index maken (i.p.v. al die verdelde proxy zoekmachines). We kunnen immers ook onze eigen LLM ontwikkelen op basis van open weights (zie de diverse Mistral LLM modellen).

Kagi Search is hiermee bezig, zo'n eigen index. Hoewel Kagi CEO Kroaat is (EU), is zijn bedrijf in VS gevestigd (werknemers van allerlei nationaliteiten). Ook Mozilla zit vrolijk in Frisco. Waarom ze niet als de wiedeweerga vertrekken? Ik begrijp het niet.
Index? De reden dat Google groot is, is omdat zij een zoekmachine hadden en Yahoo een index was. Nee, LLMs zijn de logische vervolgstap na indexen en zoekmachines.
Google heeft het zelf over indexeren: https://support.google.co...arch/answer/4513925?hl=nl https://support.google.com/webmasters/answer/7645831?hl=en en het resultaat van de Googlebot noemen we een index.
Ja, dat is de achterliggende data voor een search engine. Maar aangezet jij er van af wil, kom je dus terug bij de kale index van bijvoorbeeld Yahoo.
Nee hoor, wil ik niet van af. De nomenclatuur die jij gebruikt, gebruik ik niet. Open directory heeft ook minstens twee betekenissen.
Wat het vooral zal doen is de grote ai firmas met veel investeerders bevoordelen omdat die wel diepe zakken hebben. Regulatory capture vanuit de industrie. Let wel: ik zeg niet dat ik er voor ben dat ai firmas niet betalen, maar op deze wijze inrichten bevoordeeld anthropic, openai en Google.
Wat gebeurt er als Google search het scraped en daarna doorspeelt aan gemini?
Dit is de huidige status quo. Google maakt vanuit hun bot/scraper geen onderscheid tussen een indexer query of een AI query. Hierbij hebben ze een voordeel t.o.v. bijv. OpenAI. Als ik in ChatGPT een vraag stel met de functie zoeken op web, dan wordt OpenAI op veel plekken geblokkeerd/uitgesloten. Echter gebuikt Google Gemini in zo'n geval dezelfde 'personalia' als de Google Zoeken indexer waardoor onderscheid maken onmogelijk is.

Bron: The crawl-to-click gap: Cloudflare data on AI bots, training, and referrals, tabel met 'Distinct bots by purpose'
traditionele zoekmachines (lees: Google Search) niet.
Nou en?

Daar heb je nu al niks meer dankzij de enshittification.

Google search is straks ook niks anders meer dan een gemini antwoord en reclame.

"Generative Engine Optimization" is waar het naar toe gaat. Google Search is over 3 jaar niet meer wat het nu is. Dat wordt gewoon Gemini met een serieuze prompter.
Slaat nergens op, twee volledig losstaande technieken.
of dat ding gewoon negeren zoals met robots.txt gedaan wordt
yahoo, wist niet dat die nog 'actief' was :+ stel je content wordt gescraped (gebeurd ongetwijfeld) hoe weet je dan waar je moet aankloppen? er zijn immers van die data-miner bedrijfs, die de opdrachten voor een AI-boer uitvoeren; ofwel, de AI boer zelf harkt geen data maar heeft dat uitbesteed
Zal dan denk ik gewoon onder heling vallen of ook gewoon diefstal, als ik iemand inhuur om een roof te plegen dan zal ik ook gewoon in de gevangenis belanden,
Vergelijk het met onze overheid; die mag de burgers niet afluisteren of preventief “volgen”

Maar kan het wel uitbesteden aan bevriend land :+
Normaal gesproken bij die dataminer. Die moet de kosten dan maar weer doorberekenen aan de AI-boer.
Pracht oplossing! ik zie nu al website farms die onzinnige data op honderden duizenden sites plaatsten en laten betalen voor het schrappen van die data. Weer een mooi verdienmodel erbij :) en gezien het geautomatiseerd gaat geen omkijken meer aan en dan het binnenharken van geld.
Mosterd na de maaltijd. De Amerikanen hebben "ons" internet al leeggetrokken.
"Hoe kunnen we ervoor zorgen, dat nieuwe AI bedrijven wel aan regels moeten voldoen, maar dat wij wel verder kunnen met ons business model.... "
Dat doet er niet toe. AI modellen moeten elke keer bij getraind worden, anders missen ze de actualiteit en verouderen ze. Dus blijven de Amerikanen behoefte hebben aan actuele data. Waarvoor ze nu dus een vergoeding moeten betalen.
Niet helemaal. Google werkt al een manieren om een bestaande LLM zaken bij te leren zodat niet het hele model opnieuw gemaakt hoeft te worden. Zie nieuws: Google-onderzoekers tonen Titans-architectuur die AI continu laat bij...
Dan hebben ze evengoed nieuwe data nodig - en dus zouden ze moeten betalen (als dit wet wordt)
"De Amerikanen", maar ook "de Europeanen", "de Aziaten", en laten we ook "de Russen", "de Afrikanen" en "de Marsmannetjes" niet vergeten. Iedereen heeft "elkaars" internet al leeggetrokken, dit is zeer zeker niet een uniek verschijnsel voor Amerikaanse bedrijven.
oeps bij verkeerd bericht hahaha

[Reactie gewijzigd door kameleon20 op 10 december 2025 16:31]

Een toevoeging op de meest genegeerde file van het internet? Hoe gaat dit het AI scrapen dan tegenhouden?
Heb even overwogen dit op mijn site te installeren, maar er nu nog voor gekozen bots/scrapers te blokkeren tot er een wettelijk kader met handhaving is, waar ik wel mee kan leven. Wel een interessante ontwikkeling om te volgen.

Op dit item kan niet meer gereageerd worden.