Cloudflare komt met optie om crawlers voor taalmodellen individueel toe te staan

Cloudflare heeft zijn tool om crawlers voor taalmodellen te blokkeren een update gegeven, waardoor website-eigenaren nu uitzonderingen kunnen aangeven. Daardoor moeten eigenaren van sites meer controle hebben over welke taalmodellen hun content mogen zien.

Er is een AI Audit-functie om in kaart te brengen welke crawlers hoe vaak op de site komen, zegt Cloudflare. Vervolgens zijn alle crawlers in een keer te blokkeren, iets dat Cloudflare al een paar maanden aanbiedt, maar dat kan ook per aanbieder van taalmodellen. De AI Audit-functie maakt onder meer onderscheid tussen AI-zoekmachines en data crawlers.

Crawlers kopiëren de content van websites om die in taalmodellen in te voeren als trainingsdata. Dat is afgelopen jaren op grote schaal gebeurd. Cloudflare zegt dat de functie de controle terugbrengt bij de site-eigenaren, in plaats van de bedrijven die de taalmodellen trainen. "Wij geloven dat dit een risico vormt voor een open internet", zegt Cloudflare. "Zonder de mogelijkheid om het scannen te controleren en waarde te realiseren, zullen site-eigenaren worden ontmoedigd om interneteigendommen te lanceren of te onderhouden."

Het is op termijn ook slecht voor makers van taalmodellen, betoogt het bedrijf. "Makers zullen meer van hun inhoud achter betaalmuren verbergen en de grootste uitgevers zullen directe deals sluiten. Aanbieders van AI-modellen zullen op hun beurt moeite hebben om kwalitatief hoogwaardige content op kleinere sites te vinden en er toegang toe te krijgen."

Cloudflare: crawlers voor taalmodellen blokkeren of toestaanCloudflare: crawlers voor taalmodellen blokkeren of toestaan

Door Arnoud Wokke

Redacteur Tweakers

23-09-2024 • 21:12

30

Submitter: wildhagen

Reacties (30)

30
30
22
1
0
7
Wijzig sortering
Ik vraag me af hoe ze om gaan met de schurken van Anthropic. Die lappen zaken als Robots.txt aan hun laars en zelfs IP blocklists werken niet omdat ze een gigantische hoeveelheid IP’s gebruiken die continue wisselen.

Voor sommige sites is een “bezoekje” van Anthropic effectief een soort DDoS aanval.
Ik heb ook echt een schurfthekel aan dat soort clubs, ook al veroorzaken ze vooralsnog op mijn farms geen DDoS. In de logs zie ik ze wel 'ns voorbij komen. Die schaamteloze sprinkhanen vreten mijn schijfruimte evenals bandbreedte op. Het is een zoveelste stukje van "don't be a dick" dat sneuvelt in het kader van "vooruitgang", het negeren van robots.txt.
Kun je dat uitleggen?
Ik zou verwachten dat de ai providers hele websites willen uitlezen, dus één hit per “pagina”. Dat leidt uiteraard tot een piek; maar hoezo zou dit zo gigaveel diskspace kostten? En bandbreedte zal toch ook wel wat meevallen?
Natuurlijk is het allemaal relatief, maar je begrijpt dat webservers requests loggen. Dat zorgt voor veel onnodige entries en dat moet bewaard worden. Bewaarplicht, backups, SLA, etcetera. Die spreekwoordelijke ene MB werkt zo veel zwaarder door dan je zou denken. Daarnaast is het meestal niet één run en dat was het dan; ik heb sites gehad die uren afgevingerd zijn door dezelfde engine vanaf een fuckload aan IP-adressen. Dit zorgt naast logging ook voor bandbreedteverspilling.

[Reactie gewijzigd door Klauwhamer op 24 september 2024 10:35]

Als website heb je toch geen bewaarplicht? Dat is voor ISP's.
Het is niet "maar een website", waar ik het over heb zijn applicatielandschappen waar een pittige SLA op zit, naast behoorlijk programma van eisen en wensen ten tijde van de aanbestedingen. Zodra je te maken krijgt met o.a. DORA, NIS2, en Audit Dienst Rijk wordt het een ander spelletje dan wanneer je een privé een WordPress foodblog propageert ;)

[Reactie gewijzigd door Klauwhamer op 25 september 2024 08:57]

Negeren ze echt robot.txt, of "negeren" ze het door steeds nieuwe user agents te gebruiken?

Als je robots.txt even op de niet politiek correcte manier gebruikt door standaard disallow, met allows for specifieke user agents komt Anthropic er dan nog steeds doorheen?
Men negeert het. Het respecteren van robots.txt is ook geen directive maar een advisory gebaseerd op "don't be a dick".
Klopt precies, onze website werd ook gebombardeerd door Claude. Gelukkig kwam precies rond dat moment Cloudflare met een tool om Anthropic en soortgenoten te blokkeren.
Zelf merk ik dat het echt een kat-en-muisspel is. Ik zie vaak AI-crawlers door de vele websites van verschillende klanten glippen, en dit met de AI-beveiliging van Cloudflare. Alle bedrijven passen hun code razendsnel aan en Cloudflare moet dit allemaal bijhouden met een klein team. Dat is haast onmogelijk.
Je hebt eigenlijk een AI voor nodig, niet een blacklist. Dat zou Cloudflare toch moeten kunnen realiseren?
Het gaat zo ver dat op sommige sites mijn IP geblokkeerd is terwijl ik zelf handmatig daar op navigeerde opzoek naar informatie.

Krijg ik de melding "Deze site is alleen voor mensen" zonder optie om aan te geven of te laten zien dat ik mens ben.

Overigens zitten die sites niet op Cloudflare.
Als je weet dat het Anthropic is dan zie je dat waarschijnlijk dankzij de useragent in de logfiles van je webserver. Als dat zo is dan kun je voor apache een htaccess aanmaken die bepaalde useragents blokkeert. Gebruik je Nginx dan kun je dit in je server configuratie opnemen. Ik blokkeer zelf een heleboel useragents omdat websites soms helemaal gek worden "gecrawled" door meerdere bots tegelijkertijd. Veel bots hebben nog een soort policy waarbij ze zeggen niet meer dan 1 bezoek per 5 seconden te doen, maar dat heeft weinig zin als er 5 bots tegelijkertijd aan het crawlen zijn.
Er zijn een hoop tutorials te vinden over hoe je de Claude crawler kunt stoppen in Nginx maar de meeste zijn waardeloos omdat Anthropic alles uit de kast haalt omdat dat te omzeilen. Het lijkt echt op een kwaadaardige aanval zoals die door criminelen wordt ingezet.
Gebruiken ze wel een herkenbare user agent? Wij blokkeren de spiders van ChatGPT, KlootClaudeBot (die hebben we meerdere keren honderden requests per minuut zien doen :X ) etc op basis van user agent op Nginx niveau.

Het is inmiddels wel goed met de taalmodellen en image generators die je data gratis willen hebben en vervolgens gebruiken om een commercieel product neer te zetten. We hebben regelmatig momenten waarop we meer bots dan echte bezoekers langs zien komen bij onze klanten, ze kunnen de boom in.
Dat "DDoS" kan ik beamen. Wij hebben hier ten einde raad Cloudflare voor onze site moeten zetten omdat een Chinese scraper ons meermaals per dag plat trok. Het scrapen gebeurde in bursts van 2000+ verschillende page requests in slechts een tiental seconden. Nu draaien we onze hand niet om voor dat soort cijfers (caching enzo), maar het wordt een ander verhaal als je pakweg in een faceted search elke combinatie van facets in elke mogelijke site-taal uitprobeert en ook elke mogelijke pagina van het zoekresultaat wil hebben, daar kan je niet tegenop cachen.

Over het "distributed" aspect: op 2 maand tijd hebben we 700K verdachte IP's geïdentificeerd. In een burst van 2000 page requests zien we dan ook bijna 2000 verschillende IP's. De IP's overlappen soms zelfs met IP's van eindgebruikers, dus blokkeren is geen optie. Ik vermoed malware bij eindgebruikers...

Oh, en filteren op user agent? Nee hoor, we gebruiken elke mogelijk OS, elke mogelijke browser/engine en enumeraten elke mogelijke combinatie van versienummers. Chrome 123 op Windows 3.1, dat soort dingen, maar ook hier kan je niet tegenop filteren, dan heb je echt een JS challenge à la cloudflare nodig.
Kan je niet gewoon alles van China, Rusland etc blokkeren? Ik neem niet aan dat je daar klanten hebt. Dan ben je gelijk van een hoop rotzooi af. Ik doe dat zelf ook met alles want 99% van de rotzooi in de logs komt daar vandaan (ook SSH brute force rotzooi ondanks dat ik alleen keys toesta). Ik blokkeer meer landen dan dat er open staan want met de meeste heb ik toch geen banen.

Als er Europeanen in China zitten die bij je website willen dan gebruiken die toch wel vpn.

Lijst van IP ranges per land: https://github.com/herrbischoff/country-ip-blocks

Het zou mooi zijn als er ook block lists voor de LLM bedrijven komen idd.

[Reactie gewijzigd door Llopigat op 25 september 2024 06:36]

We doen wereldwijd zaken, een aanzienlijk deel van onze omzet komt uit China. Anders was dit wel een optie geweest inderdaad :-)
De impact op CommonCrawl is duidelijk.
In december nog 3,35 miljard pagina's en nu 2,3 miljard pagina's in de laatste dataset.

De grap is alleen dat de blokkades zeer westers georiënteerd zijn.

Dus eigenlijk snijden "we" onszelf in de vingers door selectief de westerse crawlers te blokkeren (die taal modellen vonden minder 'als ons' en begrijpen onze vragen minder, spreker minder goed 'onze taal). Terwijl te crawlers die we over het hoofd hebben gezien alle vrijheid hebben. En dus een competitive advantage hebben ten opzichte van de westerse modellen.

We ondermijnen onze eigen economie.
We ondermijnen alleen verwende startups met miljardeninvesteringen die 0 bijdrage leveren aan de samenleving. Prima zo.
CommonCrawl is geen start-up en is non-profit. Ze bestaan al meer dan 15 jaar en werken nauw samen met the internet archive.

De data wordt in veel wetenschappelijk web-analyse en security onderzoek gebruikt.

En mijn indruk is dat veel ontwikkelaars gebruik maken van de resultaten van het werk van Google, OpenAI en anderen.

Daarnaast vervangt in veel situaties al de zoekmachine en voegt het andere functies aan het leven toe.

[Reactie gewijzigd door djwice op 24 september 2024 18:33]

Aanbieders van AI-modellen zullen op hun beurt moeite hebben om kwalitatief hoogwaardige content op kleinere sites te vinden en er toegang toe te krijgen
Nou wil ik de experts van Cloudflare niet direct tegenspreken, maar is het voor het taalmodel zelf niet het beste om daadwerkelijk ‘alles’ te scrapen?
Alle data, alle ‘waarheden’, alle ‘fouten’, alle taalfouten en alle woordkeuzes, enz.
Is het voor het model niet gewoon het beste om echt alles te analyseren?
Niet alle data is bestemd voor taalmodellen.

Denk bijvoorbeeld aan content dat zelf deels of volledig gegenereerd is door een LLM als ChatGPT, of auteursrechtelijk materiaal waarvan de eigenaar liever niet heeft dat 't zomaar gebruikt wordt in taalmodellen.
Die eerste kan ik me in vinden. Maar die tweede al minder. Ik bedoel het echt puur vanuit het perspectief van het LLM zelf. Niet vanuit de eigenaren van ‘het gescrapete’.

Zou het niet de kwaliteit van de LLMs ten goede komen als ze echt ‘alles’ kunnen scrapen? (Behalve dan allicht dat die door andere LLMs gegenereerd, al is het misschien ook goed als dat wel gebeurd met de kanttekening dat het door een LLM is gegenereerd).

Ik snap dat het in praktische zin niet wenselijk is dat het LLM echt alles ophaalt. Er zijn tig zaken te bedenken die om allerlei verschillende redenen juist niet gescraped zouden moeten worden.
Ze mogen prima aankloppen bij de content copyright houder om rechten om de content in hun model te kunnen verwerken (tegen een billijke vergoeding).
Het scrapen van "alles" kan vast tot betere taalmodellen leiden. Maar je spreekt daarmee de experts van Cloudflare niet tegen.

Het Cloudflare artikel geeft (uiteraard) meer informatie.

Het probleem is dat de AI trainers geen toegang krijgen tot "alles" als de sites er alleen maar de nadelen van ondervinden en er niets voor terug krijgen. De sites zullen hun informatie dan namelijk ontoegankelijk maken of houden voor de AI trainers. Dan missen beide de voordelen tot ze onderhandeld hebben.

In zekere zin staat dat allemaal nog los van Cloudflare en is het alleen hun constatering van de natuurlijke gang van zaken. Alleen als AI trainers ongemerkt kunnen scrapen en daarmee wegkomen loopt het natuurlijk anders.

Cloudflare wil de onderhandelende sites nu ondersteunen met nieuwe tools, zoals het Tweakers artikel noemt, zodat beide mogelijk voordeel kunnen hebben.

[Reactie gewijzigd door wooha op 24 september 2024 06:28]

Zouden maatregelen als dit betekenen dat de bestaand AI-aanbieders een monopoliepositie gaan krijgen, gezien nieuwe partijen niet meer kunnen scrapen? Dat lijkt mij niet heel wenselijk.
Ik blijf toch een apart gevoel houden bij LLM’s AI te noemen. Voor mij is onderdeel van intelligentie toch ook wel dat je begrijpt wat je doet en waarom en hoe je tot een conclusie komt. AI is nu voornamelijk goed in het geven van een samenvatting van wat het op internet gevonden heeft en vooral ‘bijna’ overtuigend als werkelijk AI.

Als AI het voor elkaar krijgt om quantum theorie en de relativiteitstheorie aan elkaar te knopen (of daar de fouten in te vinden) dat zou ik scary vinden. Het zal nog wel even duren voordat AI ‘gedachtenexperimentjes’ uit kan voeren. Ik zie die crawlers van nu ook niet als iets drastisch anders als de crawler van bijvoorbeeld Google Search.
Mja, AI wordt al jaren breder ingezet als term en heeft wat dat betreft niet die specifieke betekenis waar jij op duidt. Daar wordt overigens tegenwoordig vaak de term AGI (artificial general intelligence) voor gebruikt.
Ik zou het niet gebruiken, het kan tegen je gebruikt worden alsof je dan in het verleden wel toeliet ... en ik vermoed dat onder tafel dit bij ook meespeelt, vriendendienst van Cloudflare.

De oude spelers hebben alles wat ze nodig hebben. Nu is het tijd om concurrentie af te kapppen en doen alsof het allemaal legaal moet wezen.

Op dit item kan niet meer gereageerd worden.