Websites kunnen met nieuwe standaard betaling eisen voor scrapen content voor AI

Het RSL Technical Steering Committee kondigt de Really Simple Licensing 1.0-standaard aan. Daarmee kunnen websites van AI-bedrijven eisen dat zij betalen voor het scrapen van hun content. De standaard is ontwikkeld in samenwerking met grote uitgevers als Yahoo en Ziff Davis.

De RSL 1.0-standaard vormt een aanvulling op de binaire ja/nee-blokkeringsregels van robots.txt-bestanden, schrijft het committee in een persbericht. De release geeft uitgevers onder meer de mogelijkheid om content wél toegankelijk te maken voor zoekmachines, terwijl deze niet zichtbaar is voor AI-toepassingen. Daarnaast is het mogelijk om financiële vergoeding te vragen van AI-systemen die 'profiteren van niet-commerciële content of data'. RSL kan betalingsvoorwaarden definiëren voor onder meer webpagina's, boeken, video's en afbeeldingen.

Het RSL Collective kondigde de standaard in september aan. Deze is ontwikkeld met steun van verschillende platforms, organisaties en uitgevers als Yahoo, Ziff Davis (IGN, CNET, Eurogamer) en O'Reilly Media, dat online cursussen aanbiedt. Onder meer The Associated Press, Vox Media, USA Today, BuzzFeed, Reddit en Stack Overflow ondersteunen volgens het RSL Collective inmiddels RSL.

RSL kan op zichzelf geen scrapers van AI-bedrijven blokkeren als zij geen licentie hebben. Meerdere grote internetinfrastructuurbedrijven, waaronder Akamai, Cloudflare en Fastly, hebben hun steun echter al uitgesproken voor de standaard. Zij kunnen er wél voor zorgen dat AI-scrapers zonder licentie geen toegang hebben tot content van websites.

Door Imre Himmelbauer

Redacteur

10-12-2025 • 16:13

33

Reacties (33)

Sorteer op:

Weergave:

Iedereen kan voorspellen wat er straks gaat gebeuren, de zoekmachines gaan die website natuurlijk volledig uit de index houden
LLM zoekmachines wel, traditionele zoekmachines (lees: Google Search) niet.

Ik denk dat deze ontwikkeling een stap in de goede richting is. Is het nu perfect en eerlijk? Dat niet. Maar het zorgt wel voor aansprakelijkheid en de onderscheid tussen nette heren versus cowboys.
Denk dat google met de info komt: wij doen alleen nog llm zoeken. Dus je wordt niet gevonden. Dus jij moet je aanpassen. Zo werkt de democratie van een heerser.
Zou mij op termijn niet verbazen. De hamvraag is welke termijn? Dat weet ik niet.

Daarom is het van belang dat wij in Europa stoppen met Google Search, en eigen index maken (i.p.v. al die verdelde proxy zoekmachines). We kunnen immers ook onze eigen LLM ontwikkelen op basis van open weights (zie de diverse Mistral LLM modellen).

Kagi Search is hiermee bezig, zo'n eigen index. Hoewel Kagi CEO Kroaat is (EU), is zijn bedrijf in VS gevestigd (werknemers van allerlei nationaliteiten). Ook Mozilla zit vrolijk in Frisco. Waarom ze niet als de wiedeweerga vertrekken? Ik begrijp het niet.
Wat het vooral zal doen is de grote ai firmas met veel investeerders bevoordelen omdat die wel diepe zakken hebben. Regulatory capture vanuit de industrie. Let wel: ik zeg niet dat ik er voor ben dat ai firmas niet betalen, maar op deze wijze inrichten bevoordeeld anthropic, openai en Google.
Wat gebeurt er als Google search het scraped en daarna doorspeelt aan gemini?
Slaat nergens op, twee volledig losstaande technieken.
of dat ding gewoon negeren zoals met robots.txt gedaan wordt
Benieuwd hoe snel dit net als robots.txt aan de lars gelapt zal worden door AI scrapers. Vermoed redelijk snel als ze uit hebben gevonden hoe ze het kunnen omzeilen.
Er hoeft niets voor gedaan te worden om dit te omzeilen. Dit is een middel waarmee je dan vervolgens bij autoriteiten kan melden dat dit gedaan is en ze kan aanklagen of melden bij de autoriteiten.

niets houd code tegen om je website te scapen, wel om een degelijke partij te zijn.
Wat ik zie gebeuren is dat er botnets ingezet worden vanaf geinfecteerde PCs die de boel scrapen.

Het lijkt enigszins regionaal te zijn, aangezien er heel veel komen uit een paar Zuid-Amerikaanse landen en een paar landen uit Azie, zoals Vietnam, Indonesie en nog een paar.

Succes met uitzoeken wie daar achter zit.

Punt is alleen wel dat die botnets zo volstrekt achterlijk slecht geschreven zijn, dat ze soms met 1000-en tegelijk een site platleggen en elke bot doet maar een paar requests. Totaal zie ik wel 100'000-en tot soms wel een miljoen unieke IP-adressen op 1 dag voorbij komen.
En nee, dit is niet een super grote site, gewoon het ESPEasy forum en wiki.
Dat is het punt niet. Door een standaard in te voeren, weten de AI bedrijven dat ze niet zomaar mogen scrapen en een vergoeding moeten betalen. Dat maakt het later eenvoudiger om de AI bedrijven die geen vergoeding betalen aan te klagen.
Mijn punt is dat je dan wel eerst moet weten wie er aan het scrapen is.
Dit. Hier gaat zich dus eigenlijk geen enkel bedrijf dat aan massa-scraping doet aan houden.
Tja een bedrijf kán ook copyrighted content zoals muziek gebruiken maar inmiddels is wel duidelijk dat dat geen goed idee is.

Zelfde met scrapers voor AI modellen denk ik dan.
Het was een tijdje het wilde westen voor scrapers, maar ik denk dat ze er op korte termijn niet meer mee weg komen om copyrighted content zomaar te gebruiken. Kwestie van tijd (en rechtszaken)
Dan moeten ze een meervoud boete betalen als het Amerikaans hoog gerechtshof wel zegt dat het geen fair use is. Want ze zijn gewaarschuwd.
Omzeilen is het verkeerde woord. Er valt niks te omzeilen. Het is een tekstbestandje met daarin het vriendelijke verzoek om bepaalde inhoud niet te indexeren of te scrapen. In een standaard format zodat het uit te lezen is. Maar of je dat bestandje überhaupt leest of er iets mee doet is aan de scraper zelf
yahoo, wist niet dat die nog 'actief' was :+ stel je content wordt gescraped (gebeurd ongetwijfeld) hoe weet je dan waar je moet aankloppen? er zijn immers van die data-miner bedrijfs, die de opdrachten voor een AI-boer uitvoeren; ofwel, de AI boer zelf harkt geen data maar heeft dat uitbesteed
Zal dan denk ik gewoon onder heling vallen of ook gewoon diefstal, als ik iemand inhuur om een roof te plegen dan zal ik ook gewoon in de gevangenis belanden,
Vergelijk het met onze overheid; die mag de burgers niet afluisteren of preventief “volgen”

Maar kan het wel uitbesteden aan bevriend land :+
Normaal gesproken bij die dataminer. Die moet de kosten dan maar weer doorberekenen aan de AI-boer.
Pracht oplossing! ik zie nu al website farms die onzinnige data op honderden duizenden sites plaatsten en laten betalen voor het schrappen van die data. Weer een mooi verdienmodel erbij :) en gezien het geautomatiseerd gaat geen omkijken meer aan en dan het binnenharken van geld.
Maar dit gebeurt dus niet met terugwerkende kracht. In feite zijn het partijen zoals OpenAI / Deepseek / Grok die de ladder omhoog trekken nadat zij alle informatie hebben verzameld, waardoor het voor concurrenten heel moeilijk wordt om te concurreren.

Eigenlijk zou je dit wel met terugwerkende kracht moeten toepassen, dus OpenAI en vergelijkbare bedrijven verplichten om die data te verwijderen op straffe van gigantische boetes , dan kan je de boete nog laten zitten maar trek je het speelveld weer gelijk.
Mosterd na de maaltijd. De Amerikanen hebben "ons" internet al leeggetrokken.
"Hoe kunnen we ervoor zorgen, dat nieuwe AI bedrijven wel aan regels moeten voldoen, maar dat wij wel verder kunnen met ons business model.... "
Dat doet er niet toe. AI modellen moeten elke keer bij getraind worden, anders missen ze de actualiteit en verouderen ze. Dus blijven de Amerikanen behoefte hebben aan actuele data. Waarvoor ze nu dus een vergoeding moeten betalen.
Niet helemaal. Google werkt al een manieren om een bestaande LLM zaken bij te leren zodat niet het hele model opnieuw gemaakt hoeft te worden. Zie nieuws: Google-onderzoekers tonen Titans-architectuur die AI continu laat bij...
"De Amerikanen", maar ook "de Europeanen", "de Aziaten", en laten we ook "de Russen", "de Afrikanen" en "de Marsmannetjes" niet vergeten. Iedereen heeft "elkaars" internet al leeggetrokken, dit is zeer zeker niet een uniek verschijnsel voor Amerikaanse bedrijven.
oeps bij verkeerd bericht hahaha

[Reactie gewijzigd door kameleon20 op 10 december 2025 16:31]

Volstrekte onzin. Het is inderdaad laat en er is al enorm veel schade aangericht, maar dit is wel degelijk een gevalletje "beter laat dan nooit".
Dat gebeurd alleen als je de scrapers aan de EU laat betalen dan toch?

Om te kunnen reageren moet je ingelogd zijn