Gratis tool van Cloudflare gaat scraping door AI-bots tegen

Cloudflare heeft een nieuwe, gratis tool uitgebracht die voorkomt dat bots websites scrapen om de verzamelde data te gebruiken voor het trainen van AI-modellen. De tool is beschikbaar voor alle Cloudflare-gebruikers.

Voor het trainen van AI wordt regelmatig op het internet verzamelde data gebruikt. Daarvoor worden crawlers ingezet. Websites kunnen dit voorkomen door een regel toe te voegen in de robots.txt-file. Maar niet alle AI-makers respecteren dat.

"Wij horen duidelijk dat klanten niet willen dat AI-bots hun websites bezoeken, zeker niet als bots dat op oneerlijke wijze doen", zegt Cloudflare. Het bedrijf is daarom het verkeer van AI-bots en crawlers gaan analyseren om zo automatisch bots te kunnen detecteren. De modellen die hiervoor gebruikt worden, onderzoeken ook of een AI-bot detectie probeert te omzeilen door het gedrag van een daadwerkelijke gebruiker te imiteren. Vaak worden daarbij tools en frameworks gebruikt die Cloudflare kan fingerprinten. "Op basis van die signalen kunnen onze modellen het verkeer van ontwijkende AI-bots op de juiste manier als bots markeren."

Gebruikers die de tool willen inschakelen, kunnen deze vinden in het beveiligingsmenu van het Cloudflare-dashboards, onder 'Bots'. Daar staat een toggle genaamd 'AI Scrapers and Crawlers' die aangezet kan worden.

IT-banen

Reacties (37)

Vaatdoek82 4 juli 2024 14:38

Erg fijn dat dit wordt aangepakt.
Helaas ondervind ik dat dit toch veel gebeurd en dit kost mij behoorlijk wat bandbreedte en compute power.

Edit: Useragents blijven toevoegen met alle nieuwe Ai bots is ook een klote klus.

[Reactie gewijzigd door Vaatdoek82 op 22 juli 2024 15:50]

Zer0 @Vaatdoek82 • 4 juli 2024 14:51

Edit: Useragents blijven toevoegen met alle nieuwe Ai bots is ook een klote klus.

Niet blacklisten, maar whitelisten.. useragents van de bekende browsers toevoegen kan genoeg zijn, afhankelijk van je situatie.

[Reactie gewijzigd door Zer0 op 22 juli 2024 15:50]

naaitsab @Zer0 • 4 juli 2024 18:59

Dit is volstrekt kansloos. Een van de eerste dingen die bots doen is huidige useragents opzoeken en deze meegeven in de request header.

Ik vraag me af hoe zinvol de werking is, als je iets als Selenium draait welke met een timer gevoed door een random generator de requests stuurt (pagina's laden en knoppen 'klikken'), Waarna je de HTML code pakt uit de response en hier de tekst uit haalt kom je een heel eind zonder gepakt te worden. Zeker als je verschillende VM's gebruikt in verschillende datacenters c.q. VPN's. Waar een wil is, is een weg met scraping. Zeker als er flink geld achter zit.

Zer0 @naaitsab • 4 juli 2024 19:51

Dat hoef je tegen mij niet te zeggen, ik ben niet degene die met dat idee kwam... ik gaf alleen maar aan dat whitelisten minder moeite kost dan blacklisten in dit geval. Effectief is het in geen van beide gevallen.

djwice

Kunstmatige intelligentie

@naaitsab • 4 juli 2024 22:11

Timer kan wellicht een statistische afwijking hebben t.o.v. normale gebruikers.
Hoe meer pagina's achter elkaar opgevraagd worden hoe nauwkeuriger de afwijking gedetecteerd kan worden.

[Reactie gewijzigd door djwice op 22 juli 2024 15:50]

DJanmaat @naaitsab • 5 juli 2024 08:55

Ben het niet met je eens. Hoe dan ook is op basis van patronen, hoe uitgebreid en écht die ook lijken, en algehele data het te ontdekken. Vergeet niet dat het om Cloudflare gaat en niet één enkele website.

cariolive23 @Zer0 • 4 juli 2024 15:09

En waarom zou een bot een onbekende useragent gebruiken? Dat doe je alleen wanneer je wilt opvallen.

Zer0 @cariolive23 • 4 juli 2024 15:13

Dan heeft useragents toe voegen aan een blacklist ook geen nut... context

cariolive23 @Zer0 • 4 juli 2024 15:23

Precies, vertrouwen op een allow of deny list is té simpel. Je hebt er veel werk van en alle professionele aanvallen laat je er mee dóórgaan. Misschien dat je her en der een script kiddie blokkeert of een afleidingsmanoeuvre van een professional die zich slap lacht om jou, maar je houdt vooral jezelf voor de gek.

Om jezelf voor schut te zetten: https://www.useragents.me

This user agent list is perfect for web scrapers looking to blend in

[Reactie gewijzigd door cariolive23 op 22 juli 2024 15:50]

djwice

Kunstmatige intelligentie

@cariolive23 • 4 juli 2024 22:07

Een profesional heeft alles geautomatiseerd, die krijgt dus geen slappe lach, want die ziet het niet eens meer

Stoney3K

Websites en community's

@Zer0 • 4 juli 2024 15:43

Of natuurlijk iedereen vragen om alle plaatjes aan te klikken van een verkeerslicht.

DJanmaat @Stoney3K • 5 juli 2024 08:57

oa. Flaresolverr lost geautomatiseerd deze puzzels voor je op...

cariolive23 @Vaatdoek82 • 4 juli 2024 15:08

Edit: Useragents blijven toevoegen met alle nieuwe Ai bots is ook een klote klus.

Wat dacht je van automatiseren? En je kunt er ook AI voor gebruiken.

Als AI bot zou ik persoonlijk de lijst met 10 meest gebruikte useragents hanteren, en jou heel veel geluk toewensen met het blokkeren van deze useragents.

Vaatdoek82 @cariolive23 • 4 juli 2024 15:30

Toch wel wat een risico. Je wilt absoluut niet de verkeerde Useragent blokkeren.
Wanneer de Ai in zijn hallucinatie "GoogleBot" blokkeert heb ik voor mijn SEO een serieus probleem.

cariolive23 @Vaatdoek82 • 4 juli 2024 15:34

Blokkeren of toestaan, een beetje AI bot gebruikt uiteraard een useragent uit de top-1 van meest gebruikte useragents. En dan ga jij op basis van de useragent vaststellen of je iemand wel of niet doorlaat?

Vaatdoek82 @cariolive23 • 4 juli 2024 16:00

Haha daar heb je zeker een punt, blijft een kat en muis spel.

cariolive23 @Vaatdoek82 • 4 juli 2024 17:30

Dat kun je voorkomen door AI te gebruiken om AI te detecteren.

Skit3000

4 juli 2024 14:45

LLMs zijn eigenlijk een combinatie van taalbegrip én een kennisdatabank. Voor alleen het stukje taalbegrip denk ik dat er weinig argumenten zijn tegen een bot; iedereen is er (uiteindelijk) bij gebaat dat de technische mogelijkheden van de mens zich steeds verder ontwikkelen.

watercoolertje @Skit3000 • 4 juli 2024 15:02

iedereen is er (uiteindelijk) bij gebaat dat de technische mogelijkheden van de mens zich steeds verder ontwikkelen.

Klopt, maar als je niet overtuigd bent dat taalmodellen voor AI binnen die scope vallen dan kan je toch tegen die bots zijn en toch eens zijn met die opmerking

Daarnaast kost het website eigenaren uiteindelijk gewoon geld, dmv extra compute-power en dataverkeer. Dus ik zou het ook niet zomaar open laten staan, zou het pas open zetten na het maken van afspraken hoe ik daar ook aan mee kan verdienen. Want die AI boeren doen het niet voor de maatschappij maar voor het geld...

Er is meer dan genoeg content als ze maar betalen/delen in de winst!

[Reactie gewijzigd door watercoolertje op 22 juli 2024 15:50]

_wm_ @Skit3000 • 4 juli 2024 15:58

Ja, maar taalbegrip en kennisdatabank zijn niet van elkaar te scheiden. In het trainingsproces wordt simpelweg 'tekst' geanalyseerd. Het leert tegelijk iets over zinsbouw, grammatica enzovoorts én ook over de feitelijkheden die in de tekst staan. Je kunt (in de huidige stand van de techniek) dus niet tegen een AI model zeggen dat ze wél taalbegrip mogen opbouwen maar géén kennis.

B64

@Skit3000 • 4 juli 2024 19:46

LLMs zijn eigenlijk een combinatie van taalbegrip én een kennisdatabank. Voor alleen het stukje taalbegrip denk ik dat er weinig argumenten zijn tegen een bot; iedereen is er (uiteindelijk) bij gebaat dat de technische mogelijkheden van de mens zich steeds verder ontwikkelen.

Met betrekking tot dat laatste punt kun je natuurlijk een hele mooie filosofische boom opzetten over de vraag of dat écht zo is.

Maar een LLM taalbegrip leren kan ook zonder bot of scraper. De ontwikkelaar kan ook gewoon een stapel epubs kopen om taal te leren en kennis op te doen. Of deals sluiten met uitgevers van kranten, tijdschriften, boeken etc. Maar dat kost geld...

Skit3000

@B64 • 4 juli 2024 20:39

Dat is denk ik de kern; ze hebben de data niet nodig om het taalbegrip te trainen maar omdat ze de kennis willen vergaren.

kamerplant 4 juli 2024 16:02

Dit is wmb geen goede ontwikkeling. Ik hoop juist dat er sterke concurrenten komen voor OpenAI, Claude AI en anderen. Hiermee ga je het concurrerende partijen lastiger maken, en hebben bestaande partijen zoals OpenAI meer macht. Onwenselijk.

drdelta @kamerplant • 4 juli 2024 17:22

Hiermee kunnen bestaande partijen ook geen nieuwe content scrapen.

cariolive23 @kamerplant • 4 juli 2024 17:33

Waarom zou je het (uitsluitend) concurrerende partijen lastiger maken? Er zijn vele manieren om aan data te komen, legaal, minder legaal, ongewenst en illegaal.

Het enige wat deze tool doet, is scrapen minder makkelijk maken.

MoonRaven

@kamerplant • 5 juli 2024 02:09

Waarom moet mijn site, een persoonlijke blog, onderdeel zijn van een LLM? Dit is content wat ik heb gemaakt en waar ik nooit toestemming heb gegeven om het te integreren in hun systeem.

Ik zit wel met de kosten (hun scraping) , maar niet met de baten (mensen die weten dat ik iets heb geschreven). Ik heb sowieso geen inkomsten aangezien ik geen advertenties o.i.d. heb, maar wel de kosten van de hosting die door dit soort geintjes een stuk hoger kunnen zijn.

[Reactie gewijzigd door MoonRaven op 22 juli 2024 15:50]

BiaggioLuciano 4 juli 2024 15:14

Gisteren toevallig een domein gekocht daar en nu al tevreden met de updates!

Voor mij persoonlijk gaat dat aan zodra ik een website ga hosten, want ik vind het een beetje scheef dat ontwikkelaars met ethische bezwaren tegen content scrapen achterlopen doordat ze goed bezig zijn… maar goed dit gaat geen grote deuk in de pakje boter genaamd AI slaan, het “kwaad” (en goede) is al geschied.

cariolive23 @BiaggioLuciano • 4 juli 2024 16:00

dat ontwikkelaars met ethische bezwaren tegen content scrapen

En diezelfde ontwikkelaars, of hun werkgever/opdrachtgever, doet wel aan search engine optimization om er voor te zorgen dat de website wordt gevonden...

De pro's en con's van scraping zijn al bijna 30 jaar oud, heeft vrijwel niets met AI te maken.

RobinJ1995

4 juli 2024 14:40

Let the AI battles begin

AI detectors vs AI crawlers

Slonzo 4 juli 2024 14:41

Dit is dan weer een topvoorbeeld van hoe de datahonger & big data analyse positief ingezet kan worden

De schaal waarop Cloudflare informatie kan vergaren, verwerken en toepassen (in tools als deze) blijft ontzagwekkend. Erg welkom, wat mij betreft.

DJanmaat 4 juli 2024 15:58

Ik begrijp dat er nu gefilterd wordt op bezoek van websites door bots en échte bezoekers. Ik ga ervanuit ze dit goed hebben getest; als dit niet goed blijkt te werken zijn de statistieken van website bezoekers nog steeds niet betrouwbaar.

HollowGamer 4 juli 2024 17:41

Het blijft toch altijd opvallend dat het een opt-out is en blijft, en je zelf moet bewapenen tegen deze bots.

Server.1968 4 juli 2024 14:36

Laat ik nu net twee websites hebben waarvan ik 't prima vindt dat ze ge-scraped worden. Maar kan me voorstellen dat dat niet altijd wenselijk is.

nzall

@Server.1968 • 4 juli 2024 14:40

De tool is momenteel opt-in, dus als je dat niet manueel aanzet is het geen enkel probleem.

CorbataGames

@Server.1968 • 4 juli 2024 15:33

Ik heb laatst op een server gewoon een constante 20+ Mbit bespaard door een serie AI-bots te blocken. De load ging ook met 95% omlaag.

Ik vind het wel mooi als ze een AI-tool gemaakt hebben om AI-bots te blocken op basis van patterns in de logs

duderuud 4 juli 2024 15:38

Dit is al 2 weken actief, niet echt nieuws meer

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (37)

Sorteer op:

Weergave: