AI-zoekmachine Perplexity lijkt de crawlerblokkades van websites te omzeilen. Dat meldt Cloudflare na meerdere klachten van zijn klanten. Perplexity zou de identiteit van zijn bots verhullen als ze op een blokkade stuiten, zegt het netwerkbedrijf.
Cloudflare heeft naar eigen zeggen meerdere klachten van zijn klanten ontvangen. Die claimden dat de webcrawlers van Perplexity nog steeds toegang hadden tot hun website, ook wanneer ze Perplexity concreet hebben geblokkeerd in hun robots.txt
-bestand of in hun firewallregels. Het netwerkbedrijf heeft dat vervolgens getest en ontdekte naar eigen zeggen dat Perplexity die blokkades omzeilt.
Het netwerkbedrijf heeft verschillende nieuwe domeinen gekocht en online gezet en vervolgens de webcrawlers van Perplexity geblokkeerd op dezelfde manier als hun klanten. Cloudflare benadrukt dat de domeinen volledig nieuw waren en niet eerder geïndexeerd waren door zoekmachines of openbaar toegankelijk waren. Die website is vervolgens voorzien van een robots.txt-bestand dat alle crawlers verbiedt om de website te bezoeken.
Cloudflare vroeg de Perplexity-zoekmachine vervolgens om de testwebsites te bezoeken. De AI-dienst wist toegang tot de websites te verkrijgen, ondanks het verbod. Het netwerkbedrijf kwam erachter dat Perplexity in eerste instantie zijn bekende webcrawlers gebruikt: PerplexityBot en Perplexity-User. Als deze worden geblokkeerd, schakelt de AI-zoekmachine een verhulde bot in. Die doet zich voor als de Google Chrome-webbrowser op macOS en lijkt daarmee op een echte gebruiker. De crawler gebruikt 'roterende IP-adressen', die buiten de bekende IP-adressen van Perplexity's crawlers vallen.
Volgens Cloudflare worden dagelijks miljoenen requests uitgevoerd op 'tienduizenden domeinen per dag'. Het bedrijf heeft inmiddels maatregelen genomen die de stealthcrawlers van Perplexity blokkeren voor zijn klanten, inclusief gebruikers die niet voor Cloudflare betalen.
Perplexity zegt dat het artikel van Cloudflare 'een publiciteitsstunt' is en vol met 'misverstanden' staat. Het bedrijf claimt dat zijn bots geen crawlers zijn maar 'agents', die informatie ophalen namens gebruikers en daarmee functioneren als digitale assistenten. Dat rechtvaardigt het gedrag van de bots, zegt het AI-bedrijf. Het bedrijf gaat niet in op de omwegen die deze bots nemen om toegang te verkrijgen tot websites die Perplexity blokkeren.
Het is niet de eerste keer dat Perplexity ervan wordt beschuldigd stiekem content van websites te scrapen. Vorig jaar werd het bedrijf er al van beticht dat zijn crawlers de robots.txt-bestanden van websites negeren en paywalls omzeilen. Dat is in strijd met de Robots Exclusion Protocol-norm, die al jarenlang gebruikelijk is op het internet en sinds 2022 een formele standaard is. De ceo van Perplexity zei toen dat dat kwam door thirdpartycrawlers die het bedrijf gebruikte.
:strip_exif()/i/2007663802.jpeg?f=imagenormal)