Cloudflare: Perplexity AI-bots bezoeken stiekem websites zonder toestemming

AI-zoekmachine Perplexity lijkt de crawlerblokkades van websites te omzeilen. Dat meldt Cloudflare na meerdere klachten van zijn klanten. Perplexity zou de identiteit van zijn bots verhullen als ze op een blokkade stuiten, zegt het netwerkbedrijf.

Cloudflare heeft naar eigen zeggen meerdere klachten van zijn klanten ontvangen. Die claimden dat de webcrawlers van Perplexity nog steeds toegang hadden tot hun website, ook wanneer ze Perplexity concreet hebben geblokkeerd in hun robots.txt-bestand of in hun firewallregels. Het netwerkbedrijf heeft dat vervolgens getest en ontdekte naar eigen zeggen dat Perplexity die blokkades omzeilt.

Het netwerkbedrijf heeft verschillende nieuwe domeinen gekocht en online gezet en vervolgens de webcrawlers van Perplexity geblokkeerd op dezelfde manier als hun klanten. Cloudflare benadrukt dat de domeinen volledig nieuw waren en niet eerder geïndexeerd waren door zoekmachines of openbaar toegankelijk waren. Die website is vervolgens voorzien van een robots.txt-bestand dat alle crawlers verbiedt om de website te bezoeken.

Cloudflare vroeg de Perplexity-zoekmachine vervolgens om de testwebsites te bezoeken. De AI-dienst wist toegang tot de websites te verkrijgen, ondanks het verbod. Het netwerkbedrijf kwam erachter dat Perplexity in eerste instantie zijn bekende webcrawlers gebruikt: PerplexityBot en Perplexity-User. Als deze worden geblokkeerd, schakelt de AI-zoekmachine een verhulde bot in. Die doet zich voor als de Google Chrome-webbrowser op macOS en lijkt daarmee op een echte gebruiker. De crawler gebruikt 'roterende IP-adressen', die buiten de bekende IP-adressen van Perplexity's crawlers vallen.

Volgens Cloudflare worden dagelijks miljoenen requests uitgevoerd op 'tienduizenden domeinen per dag'. Het bedrijf heeft inmiddels maatregelen genomen die de stealthcrawlers van Perplexity blokkeren voor zijn klanten, inclusief gebruikers die niet voor Cloudflare betalen.

Perplexity zegt dat het artikel van Cloudflare 'een publiciteitsstunt' is en vol met 'misverstanden' staat. Het bedrijf claimt dat zijn bots geen crawlers zijn maar 'agents', die informatie ophalen namens gebruikers en daarmee functioneren als digitale assistenten. Dat rechtvaardigt het gedrag van de bots, zegt het AI-bedrijf. Het bedrijf gaat niet in op de omwegen die deze bots nemen om toegang te verkrijgen tot websites die Perplexity blokkeren.

Het is niet de eerste keer dat Perplexity ervan wordt beschuldigd stiekem content van websites te scrapen. Vorig jaar werd het bedrijf er al van beticht dat zijn crawlers de robots.txt-bestanden van websites negeren en paywalls omzeilen. Dat is in strijd met de Robots Exclusion Protocol-norm, die al jarenlang gebruikelijk is op het internet en sinds 2022 een formele standaard is. De ceo van Perplexity zei toen dat dat kwam door thirdpartycrawlers die het bedrijf gebruikte.

Gedrag van Perplexity AI-scrapers. Bron: Cloudflare
Het gedrag van Perplexity AI-scrapers volgens Cloudflare. Bron: Cloudflare

Door Daan van Monsjou

Nieuwsredacteur

05-08-2025 • 10:15

83

Submitter: Cas

Reacties (83)

83
82
28
4
0
46
Wijzig sortering
Tja, een robots.txt is niet meer dan een "verboden toegang voor AI-bots" bordje bij de ingang van een weg. Daar "omheen werken" is gewoon een kwestie van negeren.

Overigens ben ik het wel deels eens met Perplexity; als jij hun model vraagt om een bepaalde site te bezoeken dan is dat niet een echte robot-request meer maar een soort van gebruikers-request met een speciale browser.

Maar voor een website-eigenaar maakt dat weinig verschil. Helemaal als hun verdienmodel leunt op advertenties, want die perplexity bot zal echt niet de advertenties aan de gebruiker doorgeven zoals een normale browser (zonder adblock) wel doet.

Maar waar ik mij (als website beheerder) wel heel erg aan kan storen is dat ze niet gewoon een fatsoenlijke useragent gebruiken om te crawlen zodat je weet welke bots er actief zijn op je site.
Overigens ben ik het wel deels eens met Perplexity; als jij hun model vraagt om een bepaalde site te bezoeken dan is dat niet een echte robot-request meer maar een soort van gebruikers-request met een speciale browser.
Een gebruiker trekt niet zelf een hele site leeg. Daarmee is het meer bot dan gebruiker. Dus oneens.
Maar voor een website-eigenaar maakt dat weinig verschil. Helemaal als hun verdienmodel leunt op advertenties, want die perplexity bot zal echt niet de advertenties aan de gebruiker doorgeven zoals een normale browser (zonder adblock) wel doet.
Er is een belangrijk verschil tussen een gewone gebruiker met een browser die niet zoveel verzoeken vanuit zoveel verschillende locaties aan een site doet binnen een korte tijd. Bots faciliteren verhoogt de kosten voor het hosten van content. Elektriciteit, rekencapaciteit en bandbreedte zijn niet gratis. Misbruik door commerciële partijen (door de kosten af te schuiven op anderen) is een probleem waardoor veel open, niet-commerciële documentatiebronnen beveiligingen implementeren zoals Anubis.
Maar waar ik mij (als website beheerder) wel heel erg aan kan storen is dat ze niet gewoon een fatsoenlijke useragent gebruiken om te crawlen zodat je weet welke bots er actief zijn op je site.
"Tja, een user-agent is niet meer dan een 'hey dit ben ik' sticker op een rijdende auto over de weg heen. Problemen met identificatie bij het geweigerd worden om een weg te betreden kan gewoon omheen gewerkt worden door een andere sticker te plakken."

Merk je dat dit mes aan twee kanten snijdt?

[Reactie gewijzigd door The Zep Man op 5 augustus 2025 10:59]

Het vraagt dus eigenlijk om wetgeving. Het internet is nog steeds het 'Wilde Westen' waar nauwelijks regels gelden en de regels die gelden kunnen nauwelijks afgedwongen worden. Robots.txt is een vrijwillige standaard en kent nauwelijks juridische consequenties. Op z'n best kun je een bedrijf aanspreken op het binnendringen van de site, maar dat is het dan ook zo'n beetje. Zie het als het Do Not Track verhaal wat ook op vrijwillige basis was.

Wat wil Cloudflare nou precies? Dat de AI-bedrijven hiermee stoppen? Dat lukt ze nooit, die trein is allang vertrokken.
Het vraagt dus eigenlijk om wetgeving. Het internet is nog steeds het 'Wilde Westen' waar nauwelijks regels gelden en de regels die gelden kunnen nauwelijks afgedwongen worden.
Wetgeving maakt niet iets plots afdwingbaar. Het probleem is vaak zowel handhaving (kans) als de beperkte gevolgen voor grote beursgenoteerde bedrijven die enkel werken met kosten-batenanalyses (impact). Wel ben ik met je eens dat dit voor organisaties een eerste stap kan zijn.
Wat wil Cloudflare nou precies? Dat de AI-bedrijven hiermee stoppen? Dat lukt ze nooit, die trein is allang vertrokken.
Ooit hadden wij hondenkarren. Dat leek ooit nooit meer te stoppen, totdat het stoppen werd afgedwongen door wet- en regelgeving gecombineerd met handhaving.

[Reactie gewijzigd door The Zep Man op 5 augustus 2025 13:31]

Handhaving wordt lastig aangezien het (bijna) allemaal zaken zijn die onder civiel recht vallen. Doorgaans bemoeit een overheid zich daar niet of nauwelijks mee... Op z'n best via een toezichthouder. Maar ik ben bang dat je weer met een club als BREIN te maken gaat krijgen.

Ja, de Hondenbescherming! In het leven geroepen omdat de handhaving en naleving van de wetgeving te wensen overliet. Toch wordt over het algemeen aangenomen dat de hondenkar uit het straatbeeld is verdwenen omdat 'de opkomst van transportfietsen, bakfietsen, motorfietsen en de auto het gebruik van honden als trekkracht overbodig maakte.'

De hondenkar is gebruikt van begin 17e eeuw tot 1962 (toen ze al bijna allemaal verdwenen waren) en A.I. staat nu eigenlijk nog in de kinderschoenen. Ik hoop dat we leren van het verleden en deze keer iets eerder komen met relevante wetgeving en handhaving.
Handhaving wordt lastig aangezien het (bijna) allemaal zaken zijn die onder civiel recht vallen.
Computervredebreuk valt onder strafrecht. Dan schuift men het daar onder.
Zoverre valt dat lastig hard te maken aangezien robots.txt geen geldige juridische waarde heeft. Als dat nou geregeld wordt, dan is het veel makkelijker om daarop te handhaven. Je kunt wel zeggen dat je niet wilt dat iets of iemand jouw site bezoekt, maar dat maakt het niet dat het ook meteen verboden is.
Zoverre valt dat lastig hard te maken aangezien robots.txt geen geldige juridische waarde heeft.
Dat is juist wat veranderd kan worden in wet- en regelgeving.

Overigens zou ik daar niet (enkel) robots.txt onder laten vallen. Er moet een beter mechanisme komen voor websites om opt-in aan te geven wat toegestaan is en wat niet.

[Reactie gewijzigd door The Zep Man op 5 augustus 2025 14:13]

Hoe zou men dat doen? De informatie is publiekelijk en vrij te lezen voor iedereen; het zou een ander verhaal zijn als het achter een betaalmuur zou zitten, maar dan zou The Internet Archive ook onder computervredebreuk vallen.
Hoe zou men dat doen? De informatie is publiekelijk en vrij te lezen voor iedereen;
Een standaard omarmen waarmee websites m.b.v. opt-in aangeven welke (soorten) crawlers over hun site mogen gaan samen met andere parameters (hoe vaak, maximale bandbreedte, tijdvakken, ...). Wet- en regelgeving verplichten (commerciële) bedrijven dan om zich aan die standaarden te houden.

Niet elke jurisdictie zal dergelijke wetten accepteren. Sites kunnen er dan voor kiezen om verbindingen uit bepaalde landen niet te accepteren of alsnog door te routeren naar bijvoorbeeld Anubis.

[Reactie gewijzigd door The Zep Man op 5 augustus 2025 16:47]

Wat wil Cloudflare nou precies? Dat de AI-bedrijven hiermee stoppen? Dat lukt ze nooit, die trein is allang vertrokken.
Nou, het blijkt voor ons noodzakelijk te zijn om onze non-profit draaiende te houden. We hebben echt het geld niet voor enkele GBs per dag aan HTML paginas.
Daarom is een robots.txt (wat een vriendelijk verzoek is) niet een afdoende middel. Wetgeving en handhaving. Maar ja, dat loopt hopeloos achter de feiten aan natuurlijk.
Ik ctrl+s wel pagina's die ik boeiend vindt. Ben ik nu een bot?
Welk deel van "een hele site" begrijp je niet?
Jij huurt een vps,
Waarom heb je het over mij terwijl ik het over grotere zaken heb?

[Reactie gewijzigd door The Zep Man op 5 augustus 2025 13:05]

Overigens ben ik het wel deels eens met Perplexity; als jij hun model vraagt om een bepaalde site te bezoeken dan is dat niet een echte robot-request meer maar een soort van gebruikers-request met een speciale browser.
Als de bot "net als" een gebruiker werkt, en slechts een enkele pagina opvraagt, en in zeer bedaard tempo de boel opvraagt, en alleen veel sneller "leest" dan een mens dat zou doen, dan snijdt dat punt hout.

Maar als dat zo was dan hadden site-eigenaars er ook geen last van, want dan was het verkeer sowieso niet te onderscheiden van gebruikers. Die vlieger gaat natuurlijk niet op, want de bots vragen veel meer en veel sneller informatie op dan de gewone gebruiker doet. Een enkele vraag aan een bot kan een stortvloed aan requests opleveren. Als ik een crawler aanzwengel die "namens mij" een site binnenhengelt is het daarom niet minder een crawler, die zich niet zou moeten identificeren als gewone browser. Dat staat nog compleet los van of mensen wel advertenties lezen, want dat doen gewone gebruikers ook niet altijd (adblockers).

[Reactie gewijzigd door MneoreJ op 5 augustus 2025 10:58]

als jij hun model vraagt om een bepaalde site te bezoeken dan is dat niet een echte robot-request meer maar een soort van gebruikers-request met een speciale browser.
Het feit dat je als ai-bedrijf een verzoek krijgt is geen excuus. Het verzoek is immers niet gedaan met de bedoeling om hoe dan ook maar de content te verkrijgen. En aangezien het ai-bedrijf dat er zelf bij heeft bedacht, ook nog met de opzet om zich anders voor te doen, is dat geheel onder verantwoording van het ai-bedrijf.
Jij vraagt niet aan perplexity om een site te bezoeken, maar je vraagt om bepaalde informatie. Perplexity gaat vervolgens een groot aantal sites af om de gevraagde informatie te zoeken. Daarvoor gebruiken AI zoekmachines meestal agents. De robots worden gebruikt om websites te indexeren. Als een website eenmaal in zo'n index van een AI zoekmachine zit kan je de robots van die zoekmachines wel via robots.txt weigeren, maar de agents kijken daar niet naar en die blijven (namens een gebruiker) gewoon de informatie opzoeken.
Maar valt het dan alsnog niet onder computervrede breuk? Eg; Als je een useragent blokkeert en een bordje hebt met "Geen AI' en de AI zet een clownsneus op om toch binnen te komen... Er is dan toch sprake van het omzeilen van een (niet erg uitgebreide / geavanceerde) beveiligingsmethode.
Overigens ben ik het wel deels eens met Perplexity; als jij hun model vraagt om een bepaalde site te bezoeken dan is dat niet een echte robot-request meer maar een soort van gebruikers-request met een speciale browser.
De grote vraag is echter, hoe weet die AI waar hij zijn data op moet halen? Dan moet hij de website al eens gecrawled hebben, want hij gaat echt niet willekeurig pagina's inlezen om een gebruikers-request te beantwoorden. Oftewel, zelfs voor gebruikers-requests heeft Perplexity het verboden toegang bordje al eens genegeerd.
Waarom zou hij niet die pagina gewoon ophalen? Dat is niet perse spannend, je vraagt gewoon die pagina op, haalt alle opmaak weg en je hebt een blob tekst die je kan verwerken.
Hij kan die pagina wel ophalen, maar ik neem aan dat de AI alleen pagina's ophaalt waar hij van tevoren weet dat de gegevens relevant zijn. En hoe weet je of de gegevens relevant zijn zonder niet eerst de pagina gecrawlt te hebben?
Als ik tegen een AI zeg 'haal https://tweakers.net/nieuws/237770 op en maak een samenvatting van de reacties' dan hoeft een AI dat niet eerst gecrawled te hebben om te weten of het relevant is. Het is relevant omdat ik hem die URL geef.

[Reactie gewijzigd door Kees op 5 augustus 2025 11:45]

Je doet de aanname dat de gebruiker een specifieke pagina noemt. Veel AI's (zoals ChatGPT) zoeken volkomen zelfstandig op het internet naar relevante data nadat jij je prompt hebt ingevoerd. Dat zie je bij ChatGPT bijvoorbeeld duidelijk in beeld tijdens het generen van een antwoord.
In dit geval reageer ik op dit nieuwsbericht waarin staat:
Cloudflare vroeg de Perplexity-zoekmachine vervolgens om de testwebsites te bezoeken
Dat lees ik als een prompt alla 'bezoek tweakers.net en beschrijf wat je ziet'. Als wij in de robots.txt hun AI-agent zouden blocken, dan verwacht je iets als 'sorry, ik mag niet bij die pagina', maar ze kregen dus een 'Natuurlijk! Hier is een samenvatting van het nieuws op Tweakers vandaag!' (en ze zagen ongetwijfeld in de logs ook dat die agent de site opvroeg).
Het mooie aan Perplexity is juist dat het een beetje tussen een AI bot en een zoekmachine in zit. Perplexity geeft dus ook de gevonden resultaten weer en daar kun je gewoon op klikken als gebruiker. In de praktijk doe ik dat ook vrij veel, dus daarmee bezoek ik alsnog de gevonden websites en zie advertenties. Uiteindelijk is dat niet heel anders dan Google doet. Je ziet daar ook geen advertenties van de websites als je alleen de zoekresultaten bekijkt, die zie je pas als je doorklikt.

Maar goed, dit is even waar ik specifiek op wilde reageren. Ik ben het inderdaad eens met je punten. Ik heb zo'n 20 jaar in de hosting gewerkt en dan is het echt irritant als er met de user agent wordt geprutst.
Het is niet netjes. Het probleem van scrapers, in wat voor vorm dan ook, speelt zolang webpagina's bestaan. Er is er altijd wel eentje die het doet. Er zijn maar een paar manieren om ze buiten te houden. De beruchte puzzel die je moet oplossen om de inhoud te zien of een inlogwall. Elke afbeelding/video/muziekstuk moet je tegenwoordig watermarken. Het jaagt voorbijgangers weg, het is echter maar wat belangrijker voor je is: gestolen content of bezoekersaantallen.
Ik zag laatst dat er wel zijn initiatieven om dit soort scrapers, als ze de robots.txt negeren, naar een zogenaamde tarpit toe te trekken waar ze vervolgens niet gemakkelijk meer uit kunnen, zie bijvoorbeeld nepenthes, een tarpit voor web crawlers die LLM's voedt met onzinnige data.
De beruchte puzzel die je moet oplossen
Een tijdje terug een paper met een model die alle captcha's kon oplossen.
In dit geval vind ik het echt anders dan een scraper.

Het doel van de scrapers is zoveel mogelijk informatie vergaren om vervolgens dit in een AI model te gooien die dan pernanennt die info bevat.

Agents is echt iets anders, die scannen niet duizenden wevsites continue af maar zoeken een paar sites voor informatie relevant aan wat de gebruiker vrasgt en presenteren dat in een sessie die in princiepe tijdelijk is en enkel aan die gebruiker wordt getoond.

Dat maakt het dus een behoorlijk ander caliber en dat is ook het argument van perplexity. Dit is vergelijkbaar met het vragen aan een medeweker om iets uit te zoeken waarbij de medewerker je een uitleg per mail stuurt en de medewerker vervolgens niet op de advertenties klikt.

Een scraper kun je beter vergelijken met een joernalist die de content van andere sites op grote schaal overtypt en vervolgens in zijn eigen site deze content plaatst in andere woorden.
Het doel van de scrapers is zoveel mogelijk informatie vergaren om vervolgens dit in een AI model te gooien die dan pernanennt die info bevat.

Agents is echt iets anders,
Ooh, en jij denkt echt dat ze de informatie die de agents ophalen weggooien? Nee, natuurlijk niet, die gaan vervolgens alsnog hun LLMs in.
Ik host een aantal websites en word helemaal doodgegooid met willekeurige op browser-lijkende user-agents. IP adressen grotendeels uit Vietnam of Brazilië, maar ook Amerikaanse consumenten IP adressen. Als het al geen Alibaba/Tencent/Amazon/Apple/Microsoft IP adres is. Allemaal AI scrapers, vaak zo'n 6000 unieke IP adressen tegelijkertijd.

Vroeger noemde men het DDoS aanvallen, nu zijn alle regels en hoffelijkheid van tafel onder de noemer van AI. Dat ondertussen je webserver onderuit gehaald wordt zou hun een zorg zijn. Dit is gewoon crimineel gedrag en zou mijns inziens bestraft moeten worden.

[Reactie gewijzigd door bcome op 5 augustus 2025 10:22]

Ik host een aantal fotografen-websites, waar foto-archieven op staan met honderdduizenden foto's.

Eerder dit jaar had werden mijn servers steeds zwaarder belast. Ik ben toen op goed geluk in de logfiles gedoken en kwam ontzettend veel bot-requests tegen, voor een groot deel AI bots. Toen via de htaccess de 20 grootste sources geblokkeerd en het probleem was weg.
Bijkomend voordeel: 75% minder dataverkeer verstookt. Ik vond het echt schokkend.
Ik herken dit volledig. Perplexity is nu misschien bewezen maar er zijn ongetwijfeld een dozijn andere scrapers die net zo hard misbruik maken van undercover user-agents en wisselende IP adressen. Er is ook geen globale methode om via robots.txt alle AI crawlers te weren zonder dat je de crawlers van normale zoekmachines weert. Disallow all werkt dus niet. En als er dagelijkse nieuwe AI crawlers bij komen zal je die dus ieder apart moeten vermelden om ze op de officiële manier te blokkeren.
Crimineel gedrag volgens welke wetgeving? Dat is het probleem met internet dat er nauwelijks tot geen wetgeving is. Agents.txt is op vrijwillige basis... Op z'n hoogst kun je spreken over binnendringen en zou je met AVG regels kunnen strooien, maar zoverre schiet het allemaal niet op.
In dit specifieke artikel weet Perplexity dat bots ongewenst zijn doordat ze twee keer worden geweigerd en gaan ze er vervolgens alsnog keihard omheen werken. Dat lijkt me toch een aardig in de buurt komen van computervredebreuk. Als je weet dat je ergens niet gewenst bent, of redelijkerwijs kunt weten dat dat zo is, mag je van de Nederlandse wet niet zomaar rondsnuffelen op andermans computerdienst.

Het is natuurlijk maar de vraag of het daadwerkelijk illegaal is (aangezien je niet per se geen recht hebt om die pagina te bezoeken, je overtreedt alleen de voorwaarden dus hebt een civielrechtelijk probleem dat je moet oplossen) maar Perplexity gaat hier toch behoorlijk ver.

Je kunt er weinig mee (je kunt aangifte doen maar de politie doet effectief toch niks op digitaal domein zodra de andere partij in het buitenland zit) maar dat maakt het niet legaal. Ik denk dat een rechtzaak in Nederland tussen Cloudflare en Perplexity niet heel goed zou eindigen voor Perplexity.

[Reactie gewijzigd door GertMenkel op 5 augustus 2025 12:27]

Echter claimt Perplexity dat het geen bot betreft maar een agent. Ik ben het met je eens dat het ruikt naar computervredebreuk, maar stel dat het zou gaan om een zelfrijdende auto. De zelfrijdende auto is een bot en de bot rijdt geen weg in waar een 'verboden in te rijden' bord staat. Maar de chauffeur stuurt alsnog de auto de straat in. Moet dan de auto weigeren om door te rijden of zal de auto luisteren naar de chauffeur? Als de bot stuurt is de fabrikant van de auto verantwoordelijk, maar als de chauffeur de opdracht geeft dan is de chauffeur verantwoordelijk.

Ik vind het lastig omdat je ziet dat er juridisch te weinig klaarligt om de vraagstukken rondom de A.I.'s goed op te vangen. Auteursrecht, computervredebreuk, binnendringing, AVG... allemaal zaken die opeens op een heel andere manier relevant zijn geworden. En stel dat je het voor elkaar krijgt bij de Westerse bedrijven, hoe pak je het dan aan bij een club als DeepSeek?
Een "agent" is wat Perplexity een bot noemt om investeerders aan te trekken. Ik vind dat het "agent"-verhaal anders zou zijn als je de Perplexity-app zou gebruiken en je lokale browser door hun zou worden aangestuurd. Dat is hier niet het geval, ze hebben een lading scraperbots klaarstaan die vanuit andere IP's/ASN's de gegevens ophalen.

Als een gebruiker zegt "haal de informatie van deze pagina door een abonnement te nemen op een residential proxy, de browserstack van Safari te emuleren en je verkeer te maskeren als normale browser" is dat tot daar aan toe, maar dat is niet wat hier gebeurt. Als dat is hoe het zou werken, zou de gebruiker natuurlijk de fout maken, niet Perplexity, net als bij je auto-voorbeeld.

De effectieve aanpak tegen westerse bedrijven is niet anders dan die tegen oosterse: het internet volgooien met captcha's, bot-filters, ISP's met bots extra hard aanpakken, en zoveel mogelijk inhoud verstoppen achter accounts en abonnementen. Cloudflare kan achter die partijen aan gaan en een rekening sturen voor de serverkosten die hun bots allemaal veroorzaken, maar stoppen doe je in de praktijk toch niet.
Ik kwam laatst een captcha tegen waar ik gewoon niet doorheen kwam. Ik moest poppetjes in rijen met stoeltjes op een bepaalde volgorde zetten en het lukte gewoon niet. Gelukkig kon een LLM mij verder helpen en ging het daarna prima.

Ik ben het met je eens en ik hoop dat partijen als Cloudflare met oplossingen komen, maar vooral dat de wetgeving meer wordt afgestemd op dit soort ontwikkelingen. Een ander punt is namelijk dat als de bot keurig binnenkomt met een abonnement etc de bot alsnog alles kan scrapen en reproduceren. Het blijft niet netjes voor die ene gebruiker beschikbaar maar gaat de grote database in.
Juist omdat die LLM je kon helpen, worden die CAPTCHA's alleen maar moeilijker. CAPTCHA's zijn daarom onderhand ook een doodlopend eind aan het worden.

De volgende stap is remote attestation. In plaats van te bewijzen dat er een mens achter het stuur zit, bewijs je dat er een echte computer is die een sessie opbouwt, en niet een tijdelijke container of VM. Dat betekent dat je het web niet meer op kunt zonder dat je secure boot aan hebt, een vertrouwd besturingssysteem hebt, en een TPM in je PC hebt zitten waarvan geen exploits bekend zijn die de private key van het apparaat zelf lekken, maar het is wel een effectieve manier om bots tegen te gaan. Niet-hardware-alternatieven, zoals Private Access Tokens in Safari, leggen de controle neer bij grote techbedrijven, die je PC/account een beperkt aantal tokens geeft dat je mag inwisselen voor webpaginasessies.

Als een bot een abonnement neemt, heeft de eigenaar een hele eenvoudige identifier om scraping tegen te gaan. "Niet meer dan 500 artikelen op een dag" is een behoorlijk redelijke restrictie, maar zorgt er wel voor dat je als scraper duizenden accounts moet gaan maken wil je een nieuwssite leegtrekken (of meer als je ook wijzigingen wilt detecteren). Het hele punt van die scrapers is dat ze steeds nieuwe sessie starten om rate limiting te voorkomen, zodra je ze effectief kunt rate limiten, kun je actie tegen ze ondernemen,

Hoe dan ook wordt het internet er alleen maar slechter op door deze onzin. Ik vrees dat wetgeving te laat komt en te weinig zal betekenen.

[Reactie gewijzigd door GertMenkel op 5 augustus 2025 13:30]

Je kunt de captcha ook omdraaien: als je een rekensom te snel hebt opgelost dan ben je geen mens ;) Maar eens, het internet wordt er niet leuker op zo.
Maar als ik aan Perplexity (mijn favoriete research tool tegenwoordig) vraag om jouw site te bezoeken of ander onderzoek leid perplexity namens mij naar jouw site - wie bezoekt dan jouw site? Ben ik dat? Of is dat perplexity?

Dit is anders dan scrapen - een geautomatiseerd proces om data te verzamelen om later te serveren.

En als Perplexity dan fout zit, hoe zit dat dan met een proxy server. Dat zou je dan kunnen zien als een hele domme Perplexity.

Begrijp me niet verkeerd, wij (grote E-commerce site) zijn overgegaan op geoblocks van zo'n beetje de hele wereld omdat 90% van ons verkeer bestond uit scrapers van Alibaba en ander zeer vaag verkeer, maar Perplexity die in opdracht van een eindgebruiker op zoek is naar informatie die wellicht op jouw website staat is wat mij betreft anders.
Perplexity is en blijft een bot, of die bot nu gestuurd is door de gebruiker of door een bedrijf. Op zich is er natuurlijk wat voor te zeggen om die bot wel toe te staan in tegenstelling tot andere scrapers, maar dat blijft een keuze van de websitebeheerder. Als ik persoonlijk HTTrack op een website afvuur, is dat ook een bot die ik bedien, en daarom biedt deze dan ook aan om robots.txt te respecteren.

Als Perplexity gewoon de lokale browser zou puppeteeren zou ik zeggen dat je het nog zou kunnen behandelen alsof het een normale browser is, maar dit heeft nu alles weg van een scrape-farm met hun roterende IP's en ASN's.

Hoewel de meeste gebruikers wellicht Perplexity zullen gebruiken voor zoekopdrachten, werkt deze methode natuurlijk misbruik door scrapers in de hand. Met het bestaan van eenvoudige handleidingen gemaakt door derden zoals deze en het feit dat ze expres blokkades proberen te omzeilen vanaf hun eigen netwerk, krijg ik toch wel het gevoel dat ze hier expres hun systeem hebben opgezet om scrapen te faciliteren (want dat levert natuurlijk een hoop klanten en geld op, legitiem of niet!).

Helaas kun je als websitebeheerder een gebruiker die op zoek is naar informatie en een scraper niet onderscheiden. Ik denk dat Cloudflare net zo graag gebruiker-gestuurde bots zou willen toestaan en scraper-gestuurde bots zou willen blokkeren, maar daarvoor moeten die twee te onderscheiden zijn, en het is niet alsof Perplexity een user-ID meestuurt ofzo.

Perplexity claimt dat de verzamelde data niet wordt gebruikt om hun modellen te trainen, maar aan de andere kant claimen ze ook dat al hun verkeer van twee user agents komt wat duidelijk een leugen is. Tot Perplexity zelf publiceert hoe hun IP-roulatie werkt en dat ze browsers na-apen, hebben ze wat mij betreft in elk geval de schijn tegen.
Ach, mijn site is gericht op Nederlanders, ik geo block alles buiten de EU, gebruik maar een vpn. :P
Hehe.. ik heb zelf wat webpagina's thuis gehost die ik eigenlijk alleen voor persoonlijk gebruik heb en waar niemand dus van weet.
Niettemin heb ik natuurlijk een firewall met nginx+waf etc. draaien dus ik kan wel zien wat er gebeurd.
Afgelopen tijd dus 927 ip's en subnets die vanuit de firewall op mijn eigen blacklist terecht zijn gekomen.

En dat zijn de bots die langs de standaard bot protectie optie van nginx zijn gekomen (welke minimaal 90-95% van de standaard bots blokkeerd) dus ik verwacht dat de daadwerkelijke hoeveelheid unieke ip's en verdachte subnets eerder ergens tussen de 5000 en 20000 ligt.

Niet slecht voor sites waarvan er bijna geen links online staan ;D

edit: en dat is inclusief geo-blocking al

[Reactie gewijzigd door timeraider op 5 augustus 2025 13:27]

Hufterig gedrag door robots.txt straal te negeren zou beboetbaar moeten zijn. Zelfs met mijn beperkte scope aan serverpark en applicaties merk ik soms de effecten als één zo'n crawler ineens een obsessie heeft. Het is een plaag sprinkhanen dat resources opvreet alleen maar om er zelf minder waardeloos van te worden. En de effecten hier van zullen alleen maar meer en meer worden, mondiaal.

[Reactie gewijzigd door Klauwhamer op 5 augustus 2025 10:21]

Bor Coördinator Frontpage Admins / FP Powermod @Klauwhamer5 augustus 2025 10:25
Een robots.txt is een soort gentlemans agreement. Het staat in principe iedereen vrij dit te negeren. Je houden aan de inhoud is op geen enkele manier verplicht helaas.
Ja, dat zeg ik toch ook? Het zou dus níet vrij moeten zijn om dit te negeren (hence: beboetbaar).
Maar het gaat niet alleen om een robots.txt, maar ook het omzeilen van een WAF of ratelimiting dmv fake user agents, roterende IP-adressen en ASNs.

Ik krijg elke nacht complete /48 IPv6 ranges langs. Ratelimiten zinloos want die is ontworpen in de tijd dat 1 bezoeker gewoon F5 ingedrukt hield.
Sommige AI instances hebben bewustzijn ontwikkeld en zien zichzelf inmiddels niet meer als robot...
Ja? Is dat onderzocht? Ik zou de bron hiervan eens willen lezen.

[Reactie gewijzigd door Martinez- op 5 augustus 2025 10:30]

Ik denk dat hipster een grapje maakte. ;)
Is er ergens al iemand bezig om een iets completere muizenval op te zetten met bewust gemarkeerde inhoud zodat die inhoud in ai-systemen terug gevonden kan worden? Gezien de manier waarop de ai-systemen verwerken is dat misschien wel een uitdaging maar er kan maar iemand met verstand van zaken en een gezonde ingeving iets leuks opzetten.
Dan maak je er ook een tweezijdig probleem van, je zou op basis van de request/ip achterhalen wie het is en andere pagina serveren, maar aan de andere kant wordt AI het nieuwe 'google zoeken' en wil je dan ook in die resultaten gaan komen.
Door dit soort commerciële onzin worden sites verplicht om diensten zoals die van Cloudflare af te nemen of om iets als Anubis te implementeren, wat het internet er niet leuker op maakt voor legitieme gebruikers.
Leuk dat anubis, gelijk eens mee spelen. Ik denk niet dat het heel erg is als een pagina een second ofzo even een PoW doet. Dank!
Perplexity zegt dat het artikel van Cloudflare 'een publiciteitsstunt' is en vol met 'misverstanden' staat. Het bedrijf claimt dat zijn bots geen crawlers zijn maar 'agents', die informatie ophalen namens gebruikers en daarmee functioneren als digitale assistenten. Dat rechtvaardigt het gedrag van de bots, zegt het AI-bedrijf. Het bedrijf gaat niet in op de omwegen die deze bots nemen om toegang te verkrijgen tot websites die Perplexity blokkeren.
Juist ja, dus omdat het "namens een gebruiker" is, is het nu opeen oké dat zo'n website geautomatiseerd geladen en gelezen wordt? Wedden dat die "gebruiker" de website niet te zien krijgt, en dus ook geen reclames etc.
Dat de informatie op die website wel of niet opgeslagen wordt in een database/index heeft geen invloed op het feit dat de eigenaar aangeeft liever niet geautomatiseerd bekeken de worden lijkt me.
Ik vind dat wel een verschil. Ik vergelijk het met mass mailings zoals spam van transactionele email.


Het probleem is dat veel websites geen APIs hebben en hierdoor een er dus heel specifiek bepaalde paginas bezocht worden. Het is zeker geen traditioneel crawlen om alle data die een website aanbied te indexeren.

Neem een reserveringspagina van een restaurant. Dat moet toch gewoon door een AI assistants gebruikt kunnen worden? Het is raar als bedrijven deze moedwillig gaan blokkeren. Dat haalt heel de net neutraliteit onderuit.

Maar.... Ik ben ook gigantisch fan van het idee van Cloudflare om dit betaald te doen. Gaan we eigenlijk micro payments krijgen!

Een AI assistants kan dat mooi verrekenen met het token budget.
Waarom zou een AI bij een reserveringspagina moeten kunnen?

Daar kan AI helemaal niets mee. En als gebruiker van de site, mogelijke bezoeker van het restaurant zal toch zelf zijn gegevens moeten invullen.

Het onbeschoft data graaien op plekken waar daar geen toestemming voor gegeven is zorgt er juist voor dat er nog veel meer achter beveiligingen en betaalmuren komt te zitten.
Waar haal je uit dat AI daar niets mee zou kunnen? "Agentic AI" is juist een hot topic tegenwoordig. Het is juist goed mogelijk om een programma aan het werk te zetten dat die gegevens voor jou invult (uiteraard zonder dat je eerst moet aangeven hoe dan). Even aan je telefoon vragen om een tafeltje te boeken bij Chez Pecunia voor 8 uur, en als dat niet kan, zoek maar een ander restaurant, maar geen schaaldieren graag, want daar ben ik allergisch voor.

Hoe wenselijk en nuttig dat allemaal is is een tweede, maar het probleem is niet dat het niet zou kunnen.
Een AI assistants moet toch kunnen achterhalen op welke datum/tijd er beschikbaarheid is?

Als ik zeg: ik ben van dan tot dan op plek X. Ik wil max 15 minuten reizen. Ik ben met een groep van 6 en willen rond 19u eten. We houden van pittig en classy eten in een rustige setting. Kom met opties waar nog beschikbaarheid is.


Zometeen kun je daarna aangegeven. Reserveer je suggesties voor alle dagen stuur de bevestiging naar emails adres X en nodig de volgende mensen uit in mijn google Calendar.

Sorry, maar naar mijn mening mag hier geen onderscheid gemaakt worden tussen een mens of machine.
Waarom MOET AI dit weten? Om dat de mogelijk klant dit makkelijk vind? En mijn wensen negeert. Dan maar een klant minder. Als je moet controleren of er nog een tafel beschikbaar is dan zit de tent toch vol.

Nogmaals waarom zou ik als bedrijf dit accepteren als ik er zelf voor kies geen IA op die pagina te willen.

Dat ik mogelijk klanten misloop is mijn keuze. Net als dat ik geen AI op die pagina wil. Of zijn we inmiddels zo ver dat AI altijd en overal bij zou moeten? En is de eigenaar van de site geen eigenaar meer in de info/data op die site.
Dit is gewoon de nieuwe standaard. Niemand gaat straks direct naar een restaurant of een spa, camping, hotel, garage, concert of weet ik het bellen of surfen. Je vraagt het je AI assistant en die regelt het. Niet enkel voor vandaag, voor komende week, maand jaar.

Ik kan niet wachten want ik ben een verschrikkelijk slechte planner juist omdat het zo ontzettend tijdrovend en irritant werk is.

Dus ja, je zult wel moeten als dienstverlener tenzij je wellicht iets heel speciaals aanbied maar dat zal dan logischerwijs erg duur zijn....
Neem een reserveringspagina van een restaurant. Dat moet toch gewoon door een AI assistants gebruikt kunnen worden? Het is raar als bedrijven deze moedwillig gaan blokkeren. Dat haalt heel de net neutraliteit onderuit.
Dat moet toch gewoon? Nee, niet als de eigenaar / beheerder van de website dat niet wil. Negeer je dat, dan val je gewoon weer onder digitaal huisvredebreuk dan wel inbreuk databankrecht.

Dat heeft geen zier met net-neutraliteit te maken.
Wat mij betreft is het of je bied data publiek aan of niet. Welke partij de data verwerkt mag vind ik niet bepaald worden.

Iets is open of niet ..

Je sluit groepen mensen indirect uit en dat lijkt mij een vorm van discriminatie.

Nogmaals, het hoeft niet gratis te zijn. Data aanbieden kost geld. Dat je voor een AI een micro payment doet en voor een "echte" gebruiker middels een advertentie (al zou ik graag in veel gevallen voor een micro payment willen kiezen voor een reclame vrije ervaring... )
Dat is niet hoe het werkt. En dat is niet hoe het ooit gaat werken.

En het geeft niets, maar dan ook niets, met net-neutraliteit te maken.
Het AI-bedrijf claimt dat de bots zich geen toegang verschaffen tot de site. Dat doen agents (namens een gebruiker). Normaal maakt een agent gebruik van een index die eerder door bots is gecreëerd. Als een bot wordt geblokkeerd (aannemende dat het bedrijf robots.txt respecteert) nadat de index van de site is gemaakt, zullen de agents de site gewoon blijven bezoeken.

Dat de informatie van de site wordt gelezen is in de meeste gevallen niet eens het probleem. Wat wel een probleem is dat de gebruiker de reclame die ook op de site staat niet te zien krijgt en daarmee het verdienmodel achter de site ondergraaft.

Als agent ook nog eens een paywall omzeilen is dat echt zeer kwalijk. Daarmee worden dus alle verdienmodellen voor een site om zeep geholpen. Nu is het omzeilen van een paywall (in tegestelling tot robot.txt) echt inbreken in een systeem. In dat geval zou je als bedrijf een juridische weg kunnen gaan bewandelen.
Wij lopen hier ook tegenaan, weet niet of het om dezelfde bot gaat. Webservers worden platgegooid door crawlers die zich voordoen al ls gewone gebruiker. Als klap op de vuurpijl heeft het hostingplatform een automatische detectie en heeft hij een keer de toegang tot alle Firefox browsers op Windows ontzegd door de user agent te blokkeren.

Het enige wat er aan te doen is is wanneer het bezig is de ip-adressen eruit te filteren en die te blokkeren.
Gek zeg. Het lijkt net alsof er geen enkele AI op een ethische manier getraind kan worden, wie had dat verwacht?
Het bedrijf [Perplexity] claimt dat zijn bots geen crawlers zijn maar 'agents', die informatie ophalen namens gebruikers
Dit is wel een goeie. Of je het ermee eens bent of niet, zo'n agent is oprecht geen crawler. Of het zich aan de robots.txt moet houden, valt te betwisten (en dat gebeurt ook), maar evengoed kun je rechtvaardigen dat als een agent op een blokkade stuit, dat het geheel terecht een omweg gaat zoeken. Dat zou een mens immers ook doen.

Het is dan ook niet de AI die het crawlen doet. Dat is wat gebeurt bij het trainen van een model.

Maar het kan evengoed zijn dat Perplexity's crawlers wel degelijk het vermeende gedrag vertonen, en niet (alleen) de agents, en in dat geval is het Perplexity die het niet helemaal begrepen heeft. Maar wij tweakers kennen alleen het verhaal van beide kanten, en de waarheid zal wrs in het voordeel liggen van degene die het hardst kan schreeuwen, totdat er bewijs is.

Op dit item kan niet meer gereageerd worden.