Gratis tool van Cloudflare gaat scraping door AI-bots tegen

Cloudflare heeft een nieuwe, gratis tool uitgebracht die voorkomt dat bots websites scrapen om de verzamelde data te gebruiken voor het trainen van AI-modellen. De tool is beschikbaar voor alle Cloudflare-gebruikers.

Voor het trainen van AI wordt regelmatig op het internet verzamelde data gebruikt. Daarvoor worden crawlers ingezet. Websites kunnen dit voorkomen door een regel toe te voegen in de robots.txt-file. Maar niet alle AI-makers respecteren dat.

"Wij horen duidelijk dat klanten niet willen dat AI-bots hun websites bezoeken, zeker niet als bots dat op oneerlijke wijze doen", zegt Cloudflare. Het bedrijf is daarom het verkeer van AI-bots en crawlers gaan analyseren om zo automatisch bots te kunnen detecteren. De modellen die hiervoor gebruikt worden, onderzoeken ook of een AI-bot detectie probeert te omzeilen door het gedrag van een daadwerkelijke gebruiker te imiteren. Vaak worden daarbij tools en frameworks gebruikt die Cloudflare kan fingerprinten. "Op basis van die signalen kunnen onze modellen het verkeer van ontwijkende AI-bots op de juiste manier als bots markeren."

Gebruikers die de tool willen inschakelen, kunnen deze vinden in het beveiligingsmenu van het Cloudflare-dashboards, onder 'Bots'. Daar staat een toggle genaamd 'AI Scrapers and Crawlers' die aangezet kan worden.

Door Eveline Meijer

Nieuwsredacteur

04-07-2024 • 14:32

37

Reacties (37)

37
37
28
0
0
6
Wijzig sortering
Erg fijn dat dit wordt aangepakt.
Helaas ondervind ik dat dit toch veel gebeurd en dit kost mij behoorlijk wat bandbreedte en compute power.

Edit: Useragents blijven toevoegen met alle nieuwe Ai bots is ook een klote klus.

[Reactie gewijzigd door Vaatdoek82 op 22 juli 2024 15:50]

Edit: Useragents blijven toevoegen met alle nieuwe Ai bots is ook een klote klus.
Niet blacklisten, maar whitelisten.. useragents van de bekende browsers toevoegen kan genoeg zijn, afhankelijk van je situatie.

[Reactie gewijzigd door Zer0 op 22 juli 2024 15:50]

Dit is volstrekt kansloos. Een van de eerste dingen die bots doen is huidige useragents opzoeken en deze meegeven in de request header.

Ik vraag me af hoe zinvol de werking is, als je iets als Selenium draait welke met een timer gevoed door een random generator de requests stuurt (pagina's laden en knoppen 'klikken'), Waarna je de HTML code pakt uit de response en hier de tekst uit haalt kom je een heel eind zonder gepakt te worden. Zeker als je verschillende VM's gebruikt in verschillende datacenters c.q. VPN's. Waar een wil is, is een weg met scraping. Zeker als er flink geld achter zit.
Dat hoef je tegen mij niet te zeggen, ik ben niet degene die met dat idee kwam... ik gaf alleen maar aan dat whitelisten minder moeite kost dan blacklisten in dit geval. Effectief is het in geen van beide gevallen.
Timer kan wellicht een statistische afwijking hebben t.o.v. normale gebruikers.
Hoe meer pagina's achter elkaar opgevraagd worden hoe nauwkeuriger de afwijking gedetecteerd kan worden.

[Reactie gewijzigd door djwice op 22 juli 2024 15:50]

Ben het niet met je eens. Hoe dan ook is op basis van patronen, hoe uitgebreid en écht die ook lijken, en algehele data het te ontdekken. Vergeet niet dat het om Cloudflare gaat en niet één enkele website.
En waarom zou een bot een onbekende useragent gebruiken? Dat doe je alleen wanneer je wilt opvallen.
Dan heeft useragents toe voegen aan een blacklist ook geen nut... context :P
Precies, vertrouwen op een allow of deny list is té simpel. Je hebt er veel werk van en alle professionele aanvallen laat je er mee dóórgaan. Misschien dat je her en der een script kiddie blokkeert of een afleidingsmanoeuvre van een professional die zich slap lacht om jou, maar je houdt vooral jezelf voor de gek.

Om jezelf voor schut te zetten: https://www.useragents.me
This user agent list is perfect for web scrapers looking to blend in

[Reactie gewijzigd door cariolive23 op 22 juli 2024 15:50]

Een profesional heeft alles geautomatiseerd, die krijgt dus geen slappe lach, want die ziet het niet eens meer ;)
Of natuurlijk iedereen vragen om alle plaatjes aan te klikken van een verkeerslicht. :+
oa. Flaresolverr lost geautomatiseerd deze puzzels voor je op...
Edit: Useragents blijven toevoegen met alle nieuwe Ai bots is ook een klote klus.
Wat dacht je van automatiseren? En je kunt er ook AI voor gebruiken.

Als AI bot zou ik persoonlijk de lijst met 10 meest gebruikte useragents hanteren, en jou heel veel geluk toewensen met het blokkeren van deze useragents.
Toch wel wat een risico. Je wilt absoluut niet de verkeerde Useragent blokkeren.
Wanneer de Ai in zijn hallucinatie "GoogleBot" blokkeert heb ik voor mijn SEO een serieus probleem.
Blokkeren of toestaan, een beetje AI bot gebruikt uiteraard een useragent uit de top-1 van meest gebruikte useragents. En dan ga jij op basis van de useragent vaststellen of je iemand wel of niet doorlaat?

8)7
Haha daar heb je zeker een punt, blijft een kat en muis spel.
Dat kun je voorkomen door AI te gebruiken om AI te detecteren.
LLMs zijn eigenlijk een combinatie van taalbegrip én een kennisdatabank. Voor alleen het stukje taalbegrip denk ik dat er weinig argumenten zijn tegen een bot; iedereen is er (uiteindelijk) bij gebaat dat de technische mogelijkheden van de mens zich steeds verder ontwikkelen.
iedereen is er (uiteindelijk) bij gebaat dat de technische mogelijkheden van de mens zich steeds verder ontwikkelen.
Klopt, maar als je niet overtuigd bent dat taalmodellen voor AI binnen die scope vallen dan kan je toch tegen die bots zijn en toch eens zijn met die opmerking ;)

Daarnaast kost het website eigenaren uiteindelijk gewoon geld, dmv extra compute-power en dataverkeer. Dus ik zou het ook niet zomaar open laten staan, zou het pas open zetten na het maken van afspraken hoe ik daar ook aan mee kan verdienen. Want die AI boeren doen het niet voor de maatschappij maar voor het geld...

Er is meer dan genoeg content als ze maar betalen/delen in de winst!

[Reactie gewijzigd door watercoolertje op 22 juli 2024 15:50]

Ja, maar taalbegrip en kennisdatabank zijn niet van elkaar te scheiden. In het trainingsproces wordt simpelweg 'tekst' geanalyseerd. Het leert tegelijk iets over zinsbouw, grammatica enzovoorts én ook over de feitelijkheden die in de tekst staan. Je kunt (in de huidige stand van de techniek) dus niet tegen een AI model zeggen dat ze wél taalbegrip mogen opbouwen maar géén kennis.
LLMs zijn eigenlijk een combinatie van taalbegrip én een kennisdatabank. Voor alleen het stukje taalbegrip denk ik dat er weinig argumenten zijn tegen een bot; iedereen is er (uiteindelijk) bij gebaat dat de technische mogelijkheden van de mens zich steeds verder ontwikkelen.
Met betrekking tot dat laatste punt kun je natuurlijk een hele mooie filosofische boom opzetten over de vraag of dat écht zo is.

Maar een LLM taalbegrip leren kan ook zonder bot of scraper. De ontwikkelaar kan ook gewoon een stapel epubs kopen om taal te leren en kennis op te doen. Of deals sluiten met uitgevers van kranten, tijdschriften, boeken etc. Maar dat kost geld...
Dat is denk ik de kern; ze hebben de data niet nodig om het taalbegrip te trainen maar omdat ze de kennis willen vergaren.
Dit is wmb geen goede ontwikkeling. Ik hoop juist dat er sterke concurrenten komen voor OpenAI, Claude AI en anderen. Hiermee ga je het concurrerende partijen lastiger maken, en hebben bestaande partijen zoals OpenAI meer macht. Onwenselijk.
Hiermee kunnen bestaande partijen ook geen nieuwe content scrapen.
Waarom zou je het (uitsluitend) concurrerende partijen lastiger maken? Er zijn vele manieren om aan data te komen, legaal, minder legaal, ongewenst en illegaal.

Het enige wat deze tool doet, is scrapen minder makkelijk maken.
Waarom moet mijn site, een persoonlijke blog, onderdeel zijn van een LLM? Dit is content wat ik heb gemaakt en waar ik nooit toestemming heb gegeven om het te integreren in hun systeem.

Ik zit wel met de kosten (hun scraping) , maar niet met de baten (mensen die weten dat ik iets heb geschreven). Ik heb sowieso geen inkomsten aangezien ik geen advertenties o.i.d. heb, maar wel de kosten van de hosting die door dit soort geintjes een stuk hoger kunnen zijn.

[Reactie gewijzigd door MoonRaven op 22 juli 2024 15:50]

Gisteren toevallig een domein gekocht daar en nu al tevreden met de updates!

Voor mij persoonlijk gaat dat aan zodra ik een website ga hosten, want ik vind het een beetje scheef dat ontwikkelaars met ethische bezwaren tegen content scrapen achterlopen doordat ze goed bezig zijn… maar goed dit gaat geen grote deuk in de pakje boter genaamd AI slaan, het “kwaad” (en goede) is al geschied.
dat ontwikkelaars met ethische bezwaren tegen content scrapen
En diezelfde ontwikkelaars, of hun werkgever/opdrachtgever, doet wel aan search engine optimization om er voor te zorgen dat de website wordt gevonden... 8)7

De pro's en con's van scraping zijn al bijna 30 jaar oud, heeft vrijwel niets met AI te maken.
Let the AI battles begin :9

AI detectors vs AI crawlers
Dit is dan weer een topvoorbeeld van hoe de datahonger & big data analyse positief ingezet kan worden :) De schaal waarop Cloudflare informatie kan vergaren, verwerken en toepassen (in tools als deze) blijft ontzagwekkend. Erg welkom, wat mij betreft.
Ik begrijp dat er nu gefilterd wordt op bezoek van websites door bots en échte bezoekers. Ik ga ervanuit ze dit goed hebben getest; als dit niet goed blijkt te werken zijn de statistieken van website bezoekers nog steeds niet betrouwbaar.
Het blijft toch altijd opvallend dat het een opt-out is en blijft, en je zelf moet bewapenen tegen deze bots.
Laat ik nu net twee websites hebben waarvan ik 't prima vindt dat ze ge-scraped worden. Maar kan me voorstellen dat dat niet altijd wenselijk is.
De tool is momenteel opt-in, dus als je dat niet manueel aanzet is het geen enkel probleem.
Ik heb laatst op een server gewoon een constante 20+ Mbit bespaard door een serie AI-bots te blocken. De load ging ook met 95% omlaag.

Ik vind het wel mooi als ze een AI-tool gemaakt hebben om AI-bots te blocken op basis van patterns in de logs :+
Dit is al 2 weken actief, niet echt nieuws meer :)

Op dit item kan niet meer gereageerd worden.