Websites kunnen met nieuwe standaard betaling eisen voor scrapen content voor AI

Het RSL Technical Steering Committee kondigt de Really Simple Licensing 1.0-standaard aan. Daarmee kunnen websites van AI-bedrijven eisen dat zij betalen voor het scrapen van hun content. De standaard is ontwikkeld in samenwerking met grote uitgevers als Yahoo en Ziff Davis.

De RSL 1.0-standaard vormt een aanvulling op de binaire ja/nee-blokkeringsregels van robots.txt-bestanden, schrijft het committee in een persbericht. De release geeft uitgevers onder meer de mogelijkheid om content wél toegankelijk te maken voor zoekmachines, terwijl deze niet zichtbaar is voor AI-toepassingen. Daarnaast is het mogelijk om financiële vergoeding te vragen van AI-systemen die 'profiteren van niet-commerciële content of data'. RSL kan betalingsvoorwaarden definiëren voor onder meer webpagina's, boeken, video's en afbeeldingen.

Het RSL Collective kondigde de standaard in september aan. Deze is ontwikkeld met steun van verschillende platforms, organisaties en uitgevers als Yahoo, Ziff Davis (IGN, CNET, Eurogamer) en O'Reilly Media, dat online cursussen aanbiedt. Onder meer The Associated Press, Vox Media, USA Today, BuzzFeed, Reddit en Stack Overflow ondersteunen volgens het RSL Collective inmiddels RSL.

RSL kan op zichzelf geen scrapers van AI-bedrijven blokkeren als zij geen licentie hebben. Meerdere grote internetinfrastructuurbedrijven, waaronder Akamai, Cloudflare en Fastly, hebben hun steun echter al uitgesproken voor de standaard. Zij kunnen er wél voor zorgen dat AI-scrapers zonder licentie geen toegang hebben tot content van websites.

IT-banen

Reacties (50)

Zyphlan 10 december 2025 18:59

Maar dit gebeurt dus niet met terugwerkende kracht. In feite zijn het partijen zoals OpenAI / Deepseek / Grok die de ladder omhoog trekken nadat zij alle informatie hebben verzameld, waardoor het voor concurrenten heel moeilijk wordt om te concurreren.

Eigenlijk zou je dit wel met terugwerkende kracht moeten toepassen, dus OpenAI en vergelijkbare bedrijven verplichten om die data te verwijderen op straffe van gigantische boetes , dan kan je de boete nog laten zitten maar trek je het speelveld weer gelijk.

Pompi 10 december 2025 16:18

Benieuwd hoe snel dit net als robots.txt aan de lars gelapt zal worden door AI scrapers. Vermoed redelijk snel als ze uit hebben gevonden hoe ze het kunnen omzeilen.

disjfa @Pompi • 10 december 2025 16:37

Er hoeft niets voor gedaan te worden om dit te omzeilen. Dit is een middel waarmee je dan vervolgens bij autoriteiten kan melden dat dit gedaan is en ze kan aanklagen of melden bij de autoriteiten.

niets houd code tegen om je website te scapen, wel om een degelijke partij te zijn.

TD-er

@disjfa • 10 december 2025 16:56

Wat ik zie gebeuren is dat er botnets ingezet worden vanaf geinfecteerde PCs die de boel scrapen.

Het lijkt enigszins regionaal te zijn, aangezien er heel veel komen uit een paar Zuid-Amerikaanse landen en een paar landen uit Azie, zoals Vietnam, Indonesie en nog een paar.

Succes met uitzoeken wie daar achter zit.

Punt is alleen wel dat die botnets zo volstrekt achterlijk slecht geschreven zijn, dat ze soms met 1000-en tegelijk een site platleggen en elke bot doet maar een paar requests. Totaal zie ik wel 100'000-en tot soms wel een miljoen unieke IP-adressen op 1 dag voorbij komen.
En nee, dit is niet een super grote site, gewoon het ESPEasy forum en wiki.

wiseger @TD-er • 10 december 2025 17:11

Dat is het punt niet. Door een standaard in te voeren, weten de AI bedrijven dat ze niet zomaar mogen scrapen en een vergoeding moeten betalen. Dat maakt het later eenvoudiger om de AI bedrijven die geen vergoeding betalen aan te klagen.

TD-er

@wiseger • 10 december 2025 19:09

Mijn punt is dat je dan wel eerst moet weten wie er aan het scrapen is.

Zobat @TD-er • 10 december 2025 20:23

Daar kun je je logfiles voor gebruiken.

TD-er

@Zobat • 10 december 2025 21:47

OK, nogmaals, ik heb GBs aan logfiles doorgespit de afgelopen maanden (bijna een jaar inmiddels) en het enige wat je ziet is een patroon van hosts die van gewone consumenten-PCs afkomstig lijken te zijn, die elk 1 - 3 pagina's opvragen.

Alleen doen ze dit dus zodanig slecht gecoordineerd dat ze met 1000'en tegelijk komen.

Maar er zit wel degelijk een patroon in.

Dit is dus niet een van de vele tientallen (100'en inmiddels?) andere scraper bots waar overduidelijk is waar ze voor aan het scapen zijn, omdat de subnetten en soms zelfs de user agent IDs overduidelijk te herleiden zijn tot bepaalde scraper bots.

Die zijn soms ook met 100'en tegelijk bezig, maar de echte brute-force scrapers komen dus letterlijk van > 1M unieke IPs, waarvan de meeste subnetten ISP's zijn voor consumenten.

moimeme @TD-er • 10 december 2025 21:02

Zijn punt is dat je kan het gebruiken tegen wie van het gescrapte profiteerd.

MSalters @wiseger • 11 december 2025 08:33

Een standaard kan niet tot betaling verplichten. Dat kan alleen een wet.

Nu is de achterliggende wens natuurlijk helder. De bedenkers willen dat er wereldwijd wetten komen die deze standaard dwingend gaan maken. Tot die tijd is het echter een vrijblijvend verzoek.

Hans1990 @TD-er • 10 december 2025 22:53

Dit gebeurt al met semi-vrijwillige botnets. Dat heten residential proxies. Die installeren mensen om een paar centen te krijgen (in letterlijke zin). Ondertussen verbreken ze hun TOS met hun ISP (internet connectie doorverkopen/delen), en weten ze niet wat voor requests er over hun lijn worden gedaan (denk ook aan scalping praktijken en erger)

Dat een PC dan onvrijwillig lid wordt van zo'n netwerk maakt weinig uit. VZIW zijn die residential proxies van hoge kwaliteit, tenminste dat wordt beloofd als je in de ETL wereld zit. Immers zijn in feite de IP blocks van datacenters en andere instellingen inmiddels wel bekend. Veel websites passen hun beveiligingen daar dan ook op aan.

Maar deze discussie is eigenlijk helemaal geen technische. Ik zie een partij als Cloudflare dat toch niet buiten de deur houden. Immers als je reguliere bezoekers door allemaal captcha's gaat laten springen, dan duw je ze ook in de 3rd parties toe die de info zo op serveert omdat ze het gescraped hebben.

Het gaat er om dat auteurs van eigen geschreven content achter hun rechten aan kunnen bij de AI boeren, want die zullen kosten wat kost hun product on "fair use" willen laten vallen.

[Reactie gewijzigd door Hans1990 op 10 december 2025 22:56]

recyclebin @Pompi • 10 december 2025 16:20

Dit. Hier gaat zich dus eigenlijk geen enkel bedrijf dat aan massa-scraping doet aan houden.

Menesis @Pompi • 10 december 2025 16:46

Tja een bedrijf kán ook copyrighted content zoals muziek gebruiken maar inmiddels is wel duidelijk dat dat geen goed idee is.

Zelfde met scrapers voor AI modellen denk ik dan.
Het was een tijdje het wilde westen voor scrapers, maar ik denk dat ze er op korte termijn niet meer mee weg komen om copyrighted content zomaar te gebruiken. Kwestie van tijd (en rechtszaken)

Pinkys Brain @Pompi • 10 december 2025 16:49

Dan moeten ze een meervoud boete betalen als het Amerikaans hoog gerechtshof wel zegt dat het geen fair use is. Want ze zijn gewaarschuwd.

xFeverr @Pompi • 10 december 2025 18:31

Omzeilen is het verkeerde woord. Er valt niks te omzeilen. Het is een tekstbestandje met daarin het vriendelijke verzoek om bepaalde inhoud niet te indexeren of te scrapen. In een standaard format zodat het uit te lezen is. Maar of je dat bestandje überhaupt leest of er iets mee doet is aan de scraper zelf

supersnathan94

Internettoegang
Websites en community's

@Pompi • 11 december 2025 20:31

Een robots.txt is nu al niet interessant om dat soort dingen te doen:

quote: https://developers.google...ing-indexing/robots/intro
A robots.txt file tells search engine crawlers which URLs the crawler can access on your site. This is used mainly to avoid overloading your site with requests; it is not a mechanism for keeping a web page out of Google.

[..]

Warning: Don't use a robots.txt file as a means to hide your web pages (including PDFs and other text-based formats supported by Google) from Google Search results.

If other pages point to your page with descriptive text, Google could still index the URL without visiting the page. If you want to block your page from search results, use another method such as password protection or noindex.

Vermoed redelijk snel als ze uit hebben gevonden hoe ze het kunnen omzeilen.

Hoe bedoel je "hoe" ze het kunnen omzeilen? Robots.txt is vrijwillig en een suggestieve vraag. Niemand hoeft zich er aan te houden. Er valt niks te omzeilen, want je mag het nu al gewoon wel doen.

Jerie

@supersnathan94 • 11 december 2025 23:39

Robots.txt stamt nog uit een tijd dat er sprake was van netizens, en normen en waarden op het internet. De allereerste spam was van Sun, en was technisch mogelijk, maar dat werd destijds niet gewaardeerd (zie alle reacties en ophef).

Ook is de scope & boundaries die robots.txt aangeeft wel degelijk van juridische betekenis. Ze kan kaderen dat het niet de bedoeling was om de boel maar doodleuk te scrapen; dat je dat technisch kunt is dan net zoiets dat je fysiek met 200 km/uur door rood kunt rijden. Ja, dat kan, maar dat houdt nog niet in dat je dat maar moet doen. Je dient in de maatschappij namelijk rekening te houden met anderen.

supersnathan94

Internettoegang
Websites en community's

@Jerie • 11 december 2025 23:46

Ja, dat kan, maar dat houdt nog niet in dat je dat maar moet doen. Je dient in de maatschappij namelijk rekening te houden met anderen.

Je hebt het over partijen zoals Google en Meta.

They don't give a flying duck over je maatschappij.

Verder eens hoor, maar deze partijen zijn bij uitstek partijen die er dan "per ongeluk" schijt aan hebben.

Vexxon 10 december 2025 16:26

Iedereen kan voorspellen wat er straks gaat gebeuren, de zoekmachines gaan die website natuurlijk volledig uit de index houden

Jerie

@Vexxon • 10 december 2025 17:00

LLM zoekmachines wel, traditionele zoekmachines (lees: Google Search) niet.

Ik denk dat deze ontwikkeling een stap in de goede richting is. Is het nu perfect en eerlijk? Dat niet. Maar het zorgt wel voor aansprakelijkheid en de onderscheid tussen nette heren versus cowboys.

willieverhoef @Jerie • 10 december 2025 17:53

Denk dat google met de info komt: wij doen alleen nog llm zoeken. Dus je wordt niet gevonden. Dus jij moet je aanpassen. Zo werkt de democratie van een heerser.

Jerie

@willieverhoef • 10 december 2025 18:23

Zou mij op termijn niet verbazen. De hamvraag is welke termijn? Dat weet ik niet.

Daarom is het van belang dat wij in Europa stoppen met Google Search, en eigen index maken (i.p.v. al die verdelde proxy zoekmachines). We kunnen immers ook onze eigen LLM ontwikkelen op basis van open weights (zie de diverse Mistral LLM modellen).

Kagi Search is hiermee bezig, zo'n eigen index. Hoewel Kagi CEO Kroaat is (EU), is zijn bedrijf in VS gevestigd (werknemers van allerlei nationaliteiten). Ook Mozilla zit vrolijk in Frisco. Waarom ze niet als de wiedeweerga vertrekken? Ik begrijp het niet.

MSalters @Jerie • 11 december 2025 08:29

Index? De reden dat Google groot is, is omdat zij een zoekmachine hadden en Yahoo een index was. Nee, LLMs zijn de logische vervolgstap na indexen en zoekmachines.

Jerie

@MSalters • 11 december 2025 08:37

Google heeft het zelf over indexeren: https://support.google.co...arch/answer/4513925?hl=nl https://support.google.com/webmasters/answer/7645831?hl=en en het resultaat van de Googlebot noemen we een index.

MSalters @Jerie • 11 december 2025 08:47

Ja, dat is de achterliggende data voor een search engine. Maar aangezet jij er van af wil, kom je dus terug bij de kale index van bijvoorbeeld Yahoo.

Jerie

@MSalters • 11 december 2025 09:08

Nee hoor, wil ik niet van af. De nomenclatuur die jij gebruikt, gebruik ik niet. Open directory heeft ook minstens twee betekenissen.

latka @Jerie • 10 december 2025 19:06

Wat het vooral zal doen is de grote ai firmas met veel investeerders bevoordelen omdat die wel diepe zakken hebben. Regulatory capture vanuit de industrie. Let wel: ik zeg niet dat ik er voor ben dat ai firmas niet betalen, maar op deze wijze inrichten bevoordeeld anthropic, openai en Google.

0xygen500 @Jerie • 10 december 2025 19:20

Wat gebeurt er als Google search het scraped en daarna doorspeelt aan gemini?

Jamie4242 @0xygen500 • 10 december 2025 21:13

Dit is de huidige status quo. Google maakt vanuit hun bot/scraper geen onderscheid tussen een indexer query of een AI query. Hierbij hebben ze een voordeel t.o.v. bijv. OpenAI. Als ik in ChatGPT een vraag stel met de functie zoeken op web, dan wordt OpenAI op veel plekken geblokkeerd/uitgesloten. Echter gebuikt Google Gemini in zo'n geval dezelfde 'personalia' als de Google Zoeken indexer waardoor onderscheid maken onmogelijk is.

Bron: The crawl-to-click gap: Cloudflare data on AI bots, training, and referrals, tabel met 'Distinct bots by purpose'

supersnathan94

Internettoegang
Websites en community's

@Jerie • 11 december 2025 20:28

traditionele zoekmachines (lees: Google Search) niet.

Nou en?

Daar heb je nu al niks meer dankzij de enshittification.

Google search is straks ook niks anders meer dan een gemini antwoord en reclame.

"Generative Engine Optimization" is waar het naar toe gaat. Google Search is over 3 jaar niet meer wat het nu is. Dat wordt gewoon Gemini met een serieuze prompter.

NeuroTechie @Vexxon • 10 december 2025 16:37

Slaat nergens op, twee volledig losstaande technieken.

dasiro @Vexxon • 10 december 2025 17:42

of dat ding gewoon negeren zoals met robots.txt gedaan wordt

himlims_ 10 december 2025 16:16

yahoo, wist niet dat die nog 'actief' was

stel je content wordt gescraped (gebeurd ongetwijfeld) hoe weet je dan waar je moet aankloppen? er zijn immers van die data-miner bedrijfs, die de opdrachten voor een AI-boer uitvoeren; ofwel, de AI boer zelf harkt geen data maar heeft dat uitbesteed

NeuroTechie @himlims_ • 10 december 2025 16:28

Zal dan denk ik gewoon onder heling vallen of ook gewoon diefstal, als ik iemand inhuur om een roof te plegen dan zal ik ook gewoon in de gevangenis belanden,

himlims_ @NeuroTechie • 10 december 2025 17:52

Vergelijk het met onze overheid; die mag de burgers niet afluisteren of preventief “volgen”

Maar kan het wel uitbesteden aan bevriend land :+

downtime @himlims_ • 10 december 2025 18:05

Normaal gesproken bij die dataminer. Die moet de kosten dan maar weer doorberekenen aan de AI-boer.

copywizard 10 december 2025 17:19

Pracht oplossing! ik zie nu al website farms die onzinnige data op honderden duizenden sites plaatsten en laten betalen voor het schrappen van die data. Weer een mooi verdienmodel erbij

en gezien het geautomatiseerd gaat geen omkijken meer aan en dan het binnenharken van geld.

McOrmick 10 december 2025 16:19

Mosterd na de maaltijd. De Amerikanen hebben "ons" internet al leeggetrokken.

pgerrits @McOrmick • 10 december 2025 16:22

"Hoe kunnen we ervoor zorgen, dat nieuwe AI bedrijven wel aan regels moeten voldoen, maar dat wij wel verder kunnen met ons business model.... "

wiseger @McOrmick • 10 december 2025 17:13

Dat doet er niet toe. AI modellen moeten elke keer bij getraind worden, anders missen ze de actualiteit en verouderen ze. Dus blijven de Amerikanen behoefte hebben aan actuele data. Waarvoor ze nu dus een vergoeding moeten betalen.

Standeman @wiseger • 10 december 2025 18:06

Niet helemaal. Google werkt al een manieren om een bestaande LLM zaken bij te leren zodat niet het hele model opnieuw gemaakt hoeft te worden. Zie nieuws: Google-onderzoekers tonen Titans-architectuur die AI continu laat bij...

MSalters @Standeman • 11 december 2025 08:35

Dan hebben ze evengoed nieuwe data nodig - en dus zouden ze moeten betalen (als dit wet wordt)

Ryunoru @McOrmick • 10 december 2025 17:23

"De Amerikanen", maar ook "de Europeanen", "de Aziaten", en laten we ook "de Russen", "de Afrikanen" en "de Marsmannetjes" niet vergeten. Iedereen heeft "elkaars" internet al leeggetrokken, dit is zeer zeker niet een uniek verschijnsel voor Amerikaanse bedrijven.

nogeenlilbro 10 december 2025 16:17

Gelukkig!

kameleon20 10 december 2025 16:30

oeps bij verkeerd bericht hahaha

[Reactie gewijzigd door kameleon20 op 10 december 2025 16:31]

jackyallstar 10 december 2025 22:55

Een toevoeging op de meest genegeerde file van het internet? Hoe gaat dit het AI scrapen dan tegenhouden?

Nadinarama 11 december 2025 05:23

Heb even overwogen dit op mijn site te installeren, maar er nu nog voor gekozen bots/scrapers te blokkeren tot er een wettelijk kader met handhaving is, waar ik wel mee kan leven. Wel een interessante ontwikkeling om te volgen.

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (50)

Sorteer op:

Weergave: