Wired: zoekmachine Perplexity negeert weigeren scrapen in robots.txt-bestanden

Het bedrijf achter de AI-zoekmachine Perplexity negeert volgens Wired en onderzoeker Robb Knight verzoeken van websites om niet gescrapet te worden. De start-up beweert dit niet te doen, maar de onderzoeker en het medium concluderen dat dit wel het geval is.

Perplexity
Bron: Perplexity

Uit een publicatie van Knight zou blijken dat Perplexity samenvattingen kan geven van websites die op basis van verzoeken in het robots.txt-bestand niet door de PerplexityBot bezocht mogen worden. Knight wist daarentegen te registreren dat het bedrijf gemaskeerd een bot gebruikt om de afgeschermde website te scrapen, waarbij geen user-agent string werd verzonden om de bot te identificeren.

Wired bevestigt de claims op basis van eigen onderzoek. Het nieuwsmedium verzocht de AI-zoekmachine en -chatbot om pagina's samen te vatten die afgeschermd waren met het robots.txt-bestand. Toch kon Perplexity informatie van de webpagina's delen. Het moederbedrijf van Wired registreerde daarnaast vergelijkbaar bezoekgedrag van een bot via een IP-adres dat 'nagenoeg zeker' bij Perplexity hoort. Het bedrijf achter de AI-dienst zegt tegen Wired dat het artikel 'onbegrip' van de technologie toont, maar gaat niet in op de aantijgingen.

Perplexity.ai is een AI-tool die naar eigen zeggen informatie van het internet verzamelt en dit via een chatbotinterface aan een gebruiker presenteert. De start-up achter de zoekmachine zegt, net als andere grote AI-bedrijven, verzoeken in robots.txt-bestanden te honoreren. In deze zogenoemde Robots Exclusion Protocol-bestanden kunnen websites aangeven dat zij geen bezoek willen van specifieke scrapers, ook wel webcrawlers genoemd. Scrapers kunnen worden gebruikt om geautomatiseerd content van het internet te verzamelen. Bedrijven kunnen deze scrapers gebruiken om hun algoritmes te trainen of, zoals in het geval van Perplexity, als bronmateriaal. Ook Tweakers-uitgever DPG Media weigert scraping in zijn robots.txt-bestand.

Door Yannick Spinner

Redacteur

20-06-2024 • 16:08

44

Reacties (44)

44
44
27
3
0
16
Wijzig sortering
Nadat dit nieuws enkele dagen geleden uitkwam, is dit inmiddels al wat genuanceerd. Zie bijvoorbeeld deze uitleg. Samenvatting:

Perplexity heeft twee soorten bots actief. De eerste verzamelt data van het internet om hun AI-model te trainen. De tweede handelt in opdracht van een gebruiker, om informatie bij een zoekopdracht te vinden en die samen te vatten.

Nu is het zo dat die tweede bot (in opdracht van gebruikers), zich niet identificeert als bot (in de User-Agent) en robots.txt negeert.

Je kunt hier natuurlijk nog steeds wat van vinden, maar in feite is dit niet veel anders dan een reguliere browser die informatie van het internet ophaalt en toont als je een URL of zoekopdracht intoetst. Het verschil is dat Perplexity de informatie samengevat (met bronvermelding) toont, terwijl een reguliere browser de pagina veelal zou weergeven zoals die ontworpen is.
Dat gaat echter ook niet altijd op: mensen gebruiker ad-blockers die zaken blokkeren, een reader-modus in de browser die alles behalve de main-content achterwege laat, of een voice-assistent om de informatie voor te lezen. Dus is Perplexity in dit rijtje zoveel anders?

[Reactie gewijzigd door Ulster Seedling op 23 juli 2024 04:23]

Dat gaat echter ook niet altijd op: mensen gebruiker ad-blockers die zaken blokkeren, een reader-modus in de browser die alles behalve de main-content achterwege laat, of een voice-assistent om de informatie voor te lezen. Dus is Perplexity in dit rijtje zoveel anders?
Bij de voorbeelden die je opnoemt wordt toch enkel data die de browser ontvangen heeft verwerkt, en dat lokaal. Perplexity lijkt de data zelf (op vraag van gebruiker) op te vragen om dan remote op hun systemen te verwerken? Of zie ik dat verkeerd?
Bij de voorbeelden die je opnoemt wordt toch enkel data die de browser ontvangen heeft verwerkt, en dat lokaal. Perplexity lijkt de data zelf (op vraag van gebruiker) op te vragen om dan remote op hun systemen te verwerken? Of zie ik dat verkeerd?
Dat klopt… maar in hoeverre maakt dat een verschil? Zolang de data enkel voor het verzoek van de gebruiker verwerkt wordt, maakt het dan uit of dat lokaal of op de server van Perplexity is?

Bij browsers zoals Opera Mini, en in de (inmiddels verwijderde) Data Saver mode van Chrome, worden requests ook via een server geleid en geoptimaliseerd.
Die voorbeelden die je eerder noemde verwerken de data lokaal: de data wordt - als het goed is - dus niet gedeeld met een 4e partij (naast gebruiker, browser en server). Bij Perplexity is dat wel het geval.

Bij Opera Mini en Lite Mode van Chrome werd er gebruik gemaakt van een proxy die ook nog als onderdeel van de browser aanzien kan worden.
Volgens mij geeft Perplexity aan dat de data die opgehaald wordt op verzoek van een gebruiker, ook niet gebruikt wordt om modellen te trainen etc. Dus wat is het verschil tussen een Perplexity en een Opera Mini volgens jou?
Technisch gezien kan dat ook niet anders vanwege beperkingen opgelegd door Cross-Origin Resource Sharing waardoor browsers geen data van andere domeinen mag/kan laden behalve wanneer deze dit specifiek toelaten.
De tweede handelt in opdracht van een gebruiker, om informatie bij een zoekopdracht te vinden en die samen te vatten [..] in feite is dit niet veel anders dan een reguliere browser die informatie van het internet ophaalt en toont als je een URL of zoekopdracht intoetst.
Een browser is geen AI-tool van een bedrijf die content van een website eerst door dat bedrijf en bij dat bedrijf laat ophalen, vervolgens door dat bedrijf en bij dat bedrijf op inhoudelijk context gaat analyseren en er namens het bedrijf een geheel eigen interpretatie van maakt en aan een gebruiker geeft.

Dat een gebruiker een bedrijf de opdracht geeft is irrelevant. Je kan het als bedrijf namelijk wel makkelijk vinden dat je gebruikers als klant weet te strikken alsof je je dan maar niets hoeft aan te trekken van de eigen belofte of de eisen van de eigenaar van de content, maar dat is niet waarom die robots.txt bestaat. Dan ben je eerder opzettelijk slechts wat van de eigenaar aan het aantrekken zolang het je uit komt. Wat duidelijk niet in het belang van de eigenaar is of respect toont dat het je werk niet is waar je aan wil verdienen zonder er duidelijk voor te betalen.
En als Perplexity hun model in een app zou verpakken die lokaal op je PC draait, maakt dat het anders?
Dat hangt er vanaf wat het AI-bedrijf zelf nog met die app en de daarmee verwerkte content doet.

Het is gewoonlijk ook niet volgens de voorwaarden dat je als gebruiker de content van een ander maar ongevraagd aan een of ander bedrijf geeft om 'gratis' een resultaat terug te krijgen.
Ook Tweakers-uitgever DPG Media weigert scraping in zijn robots.txt-bestand.
Nu is het zo dat die tweede bot (in opdracht van gebruikers), zich niet identificeert als bot (in de User-Agent) en robots.txt negeert.
Dat kan ik bevestigen; ik gebruik Perplexity regelmatig en krijg bij technische vragen dan ook regelmatig verwijzingen naar GoT terug, compleet met bronvermelding
Beschermt robot.txt niet alleen tegen scrapen voor het trainen van AI?

Lijkt me niet vreemd als je de chatbot vraagt of het een pagina wil samenvatten dat het daar dan gehoor aan geeft?
De robots.txt file is al veel ouder dan AI, dus daar is nooit over nagedacht. Maar in theorie zou een nette bot eerst de robots.txt moeten ophalen, bepalen of hij die pagina mag opvragen, en als dat niet mag een foutmelding aan de gebruiker terug geven alla 'ik mag deze pagina niet ophalen, dus ik kan hem niet samenvatten'.

Het kan niet zo zijn dat zo'n bot dan maar besluit om aan de ene kant te zeggen dat ze de robots.txt respecteren en vervolgens die pagina's die in de robots.txt staan alsnog op te halen.

Het is een herenakkoord, maar het alternatief zijn (veel zwaardere) blokkades en dan moet je weer veel meer moeite doen om te gaan scrapen.
Ik vind dat @DXYMS een interessant voorbeeld heeft.

Zoals je aangeeft is robots.txt oorspronkelijk bedoelt om grootschalige scraping te voorkomen. Het is geen wet maar een herenakkoord waar je respectvol mee om hoort te gaan. Omdat het een oud systeem in een nieuwe situatie is vind ik de geest belangrijker dan de letter. Je zou kunnen zeggen dat het niet tegen de geest van robots.txt is om op direct verzoek van een gebruiker een webpagina op te vragen.
Wat is nu echt het verschil of ik aan een webbrowser vraag om me de inhoud van een website te laten zien of dat door GPT laat doen?
(Dan ga ik even voorbij aan copyright-aspecten als de vraag of je een tekst van een ander mag laten samenvatten en of GPT daar op gaat trainen. Ik zou ook de tekst vanuit mijn browser in GPT kunnen plakken, daar gaat het niet om.)

Een enkele pagina opvragen op direct verzoek van een gebruiker vind ik dus geen schending van robots.txt . Dat roept wel de vraag op waar de grens dan wel ligt. 1 pagina opvragen vind ik geen probleem, maar GPT vragen om duizenden pagina's samen te vatten vind ik weer te ver gaan.

[Reactie gewijzigd door CAPSLOCK2000 op 23 juli 2024 04:23]

Dat snap ik. Perplexity zegt zelf ook gehoor daar aan te geven (zie https://docs.perplexity.ai/docs/perplexitybot ). OP claimt echter dat ze liegen. Ik denk echter dat wat Perplexity bedoelt is dat ze die data niet gebruiken voor het verzamelen van training data. Voor het chatbot gedeelte (post training/oftewel inference) zal het een ander script gebruiken dan het crawl script, en dus is de robots.txt niet van belang.
Ik kende Perplexity niet, maar heb de vraag aan Perplexity zelf eens gesteld of ze robots.txt honoreren. Het antwoord van henzelf:

Perplexity AI does not honor the robots.txt file. It is alleged to ignore the file and scrape websites without permission, even when the site owner has explicitly blocked web crawlers using the robots.txt protocol.
Aan een dit antwoord uit een LLM heb je helemaal niets en het zegt ook niets over zijn eigen werking. Zo werkt een LLM (of NLP) namelijk niet. LLMs zoals die van Perplexity, ChatGPT en Gemini werken niet op basis van een soort 'zelfbewustzijn' of directe kennis van hun eigen interne werking.
A large language model (LLM) is a computational model notable for its ability to achieve general-purpose language generation and other natural language processing tasks such as classification.

Based on language models, LLMs acquire these abilities by learning statistical relationships from vast amounts of text during a computationally intensive self-supervised and semi-supervised training process.

LLMs can be used for text generation, a form of generative AI, by taking an input text and repeatedly predicting the next token or word.
Ze worden getraind op enorme hoeveelheden tekstgegevens en leren patronen, structuren en verbanden in de taal, waardoor ze geen directe kennis of bewustzijn van hun eigen processen hebben. Wanneer je een LLM vraagt naar details over zijn eigen werking, zal het model een antwoord geven dat gebaseerd is op de gegevens waar het op is getraind (en dus niet de werkelijkheid). Dit betekent niet dat het model een bewust of accuraat antwoord geeft, maar eerder een antwoord dat plausibel klinkt op basis van de beschikbare gegevens. Het 'begrijpt' jouw vraag namelijk niet. Hierdoor kunnen hun antwoorden soms onnauwkeurig of misleidend zijn, vooral wanneer het gaat om zelfreflectie of technische details over hun eigen werking.
Historically, up to 2020, fine-tuning was the primary method used to adapt a model for specific tasks. However, larger models such as GPT-3 have demonstrated the ability to achieve similar results through prompt engineering, which involves crafting specific input prompts to guide the model's responses.[3] These models acquire knowledge about syntax, semantics, and ontologies[4] inherent in human language corpora, but they also inherit inaccuracies and biases present in the data they are trained on.[5]
Ze kunnen wel iets geholpen worden door Prompt engineering, waarbij specifieke invoerprompts worden gemaakt om de reacties van het model te sturen, maar ook daardoor zal het model nog steeds antwoorden genereren op basis van de patronen en gegevens waar het op is getraind, zonder werkelijke kennis of begrip van de inhoud of zijn eigen werking.

Als je bijvoorbeeld aan Perplexity vraagt of het robots.txt-bestanden respecteert, zal het model een antwoord genereren dat gebaseerd is op de trainingsgegevens of eventuele aanpassingen vooraf of achteraf (zoals bij Gemini en het racisme stukje of vraag bijvoorbeeld Bing AI maar eens hoeveel werknemers Pornhub heeft.*) Het antwoord dat Perplexity geeft op vragen over zijn eigen werking is dus niet (per se) een bevestiging van de feiten en zeker niet een betrouwbare bron zonder verdere verwijzingen naar de originele bron zelf.

Een voorbeeld over correctheid:
jdh009 in 'Google brengt Gemini 1.5 Pro uit voor Advanced-abonnees'

* Voor het antwoord: Begint een normaal LLM antwoord te geven maar wordt afgebroken en 'typt' dan:
Hmm… laten we een ander onderwerp proberen. Sorry daarvoor. Wat heb je nog meer in gedachten?
Bron quote: Wikipedia: Large language model

en meer info over NLP:
Wikipedia: Natural language processing

Dit is trouwens ook leuk een leuk voorbeeld waarbij AI (kan niet zien welk soort) gebruikt wordt voor klantcontact en onzin uitkraamt namens Air Canada.
De British Columbia Civil Resolution Tribunal oordeelde dat Air Canada aansprakelijk is voor onjuiste informatie verstrekt door haar chatbot, waarbij schadevergoeding werd toegekend aan een passagier en een precedent werd geschapen dat bedrijven verantwoordelijk zijn voor de acties van hun AI.
https://www.bbc.com/trave...at-travellers-should-know

[Reactie gewijzigd door jdh009 op 23 juli 2024 04:23]

Voor zover ik dat AI, in de huidige vorm, begrijp is het aantal keren dat een bewering ergens staat bepalend voor de waarschijnlijkheid dat het waar is.

Hetgeen zou inhouden dat de zoekmachine de beschuldiging heeft geconstateerd (vandaar ook de alleged in het antwoord) en eventuele herhaling van andere partijen (die daarop inspringen). En dat aantal is hoger dan de ontkenning van de betrokken partij zelf.

Maar het gestaffeld resultaat zegt niets over de echte waarheid. Het zegt alleen dat er een groep is die dat roept.
Alleged is wel een leuk keyword daar. Dus die AI heeft nieuws over hunzelf zitten scrapen?
De robots.txt file is al veel ouder dan AI, dus daar is nooit over nagedacht.
AI is toch echt decennia ouder dan het internet en zoekmachines. Maar als je punt is dat sites scrapen voor het trainen van LLM's een nieuwer probleem is, dan snap ik je punt.
Het is een herenakkoord, maar het alternatief zijn (veel zwaardere) blokkades en dan moet je weer veel meer moeite doen om te gaan scrapen.
Je kunt robots.txt ook zien als een bordje "Reproduceren van deze tekst is verboden", en dan is het een copyright violation. Er zijn al best wat gewonnen rechtszaken tegen zoekmachines die content van nieuwssites kopieerden. Dus zo vrijblijvend is dit volgens mij niet.
De chatbot zou dat moeten weigeren zodra het robots-bestand aangeeft dat bots ongewenst zijn op de doelpagina. Dat kan dan naar de chatter gemeld worden op een duidelijke manier. Het is nooit beter of logisch om een verborgen bot in te zetten die robots.txt vermijdt; de inhoud van die doelpagina is van de eigenaar. Niet van de chatter, noch van de chatbot.

Ook zal een chatbot niet altijd werkelijk het internet raadplegen op het moment dat iemand vraagt om een samenvatting. Dat hangt af van de implementatie. Het kan ook zo gaan dat die webpagina al lang was geschraapt en verwerkt, en dat de chatbot het verzoek dus direct kan verwerken uit het eigen geheugen. Dan was het de eerdere scraping waar het misging, vóór het trainen van het model.

Hoe dan ook is het negeren van robots.txt not done, ook niet als een chatter daar specifiek om vraagt.
In hoeverre ben je verplicht het robots.txt te honoreren als scraper? Is hier regelgeving voor?
Los van het feit dat het niet netjes is, al helemaal als je zegt het niet te doen.
Het is een herenakkoord en heeft geen wettelijke basis ofzo, maar het typeert wel het hele AI landschap van bedrijven die stuk voor stuk dingen doen die op zijn minst onfatsoenlijk zijn.
Er zit gewoon copyright op de publicatie en oneigenlijk gebruik daarvan kan strafbaar zijn. De robots.txt is een manier om daar mee om te gaan.
Ik weet het niet, het voelt voor mij een beetje als een reclamebord langs de weg, dat je niet mag bekijken omdat er een plakaatje onder hangt met wat tekst. Bovendien kan de scraper opereren vanuit Somalie en jouw site gehost zijn in NL. Veel succes met je Nederlandse jurisprudentie of Nederlandse wetgeving.
Je mag het prima bekijken.

Je mag het alleen niet kopiëren, wat dingetjes aanpassen en dan je 'eigen' reclamebord dat sterke gelijkenissen vertoont er naast neerplanten.

Dus je analogie klopt niet helemaal.
Maar je mag wel vertellen over dat reclamebord aan de kant van de weg
In principe kan al het werk wel ook een beetje als reclame opgevat worden. Maar veel werk van anderen is duidelijk niet zomaar op te vatten alsof het doel vooral reclame is. Waarbij hier ook nog op gaat dat de eigenaar expliciet op een door het bedrijf erkende manier moeite doet om duidelijk te maken dat het niet zomaar door iedereen verwerkt hoort te worden.

Daarbij, het werk is dan wel via vrijgegeven routes van verschillende bedrijven te bereikbaar maar om er daadwerkelijk bij te kunnen zul je het gedeelte moeten gebruiken wat niet zomaar als openbaar is op te vatten. Namelijk het domein en door de eigenaar beheerde systeem. We hebben daarbij niet zomaar wetten die verbieden om andermans systeem zomaar te gebruiken. Net zoals je dat ook niet zomaar met andermans ander eigendom niet zomaar mag. Het is dus eerder vergelijkbaar met het betreden van een winkel of opzettelijk door de ruit van een auto gaan fotograferen om er zonder te vragen geld aan proberen te verdienen en er ook niets voor te betalen. Dat is duidelijk niet de bedoeling.
Er zijn genoeg bots inderdaad die dit totaal negeren. Bijvoorbeeld chatgpt houd zich ook niet aan de robots.txt.

Het nadeel voor die bots is dan wel dat ze een harde ban krijgen en helemaal niets meer kunnen binnenhalen.
Een harde ban is misschien haalbaar als het gaat om dit soort bots, maar als google of bing dit doen zullen maar weinig website-eigenaren zeggen: "dan wordt mijn site maar niet gevonden".
Nee, het is puur vrijwillig:
The standard, developed in 1994, relies on voluntary compliance. Malicious bots can use the file as a directory of which pages to visit, though standards bodies discourage countering this with security through obscurity.

[...]

A robots.txt has no enforcement mechanism in law or in technical protocol, despite widespread compliance by bot operators.
Zie https://en.wikipedia.org/wiki/Robots.txt

Het is echter wel goed fatsoen (en gebruik) om het te respecteren. Maar niet alle bedrijven trekken zich daar iets van aan, die vinden fatsoen wat minder belangrijk dan hun eigen (commerciele) belangen kennelijk.
Knight wist daarentegen te registreren dat het bedrijf gemaskeerd een bot gebruikt om de afgeschermde website te scrapen, waarbij geen agent string werd verzonden om de bot te identificeren.
Dat suggereert dat het dus niet per ongeluk gebeurt, of een bug betreft, maar dat het opzettelijk gebeurt? Ik bedoel, als je én een bot gebruikt én de agent string (die je normaliter wel meestuurt) weglaat, dan is dat iets wat je bewust doet.

Als dit inderdaad het geval is, vind ik dat een behoorlijk onethische actie, waar een toezichthoudende instantie wel eens naar zou mogen kijken en tegen optreden.

Die robots.txt wordt niet voor niets geplaatst, die moet je imho gewoon altijd respecteren uit goed fatsoen. Ook al ben je het er als bedrijf wellicht niet mee eens.
Ik snap je punt - maar toezichthoudende instanties kunnen niet ingrijpen op basis van "gebrek aan goed fatsoen" en "onethische acties".

Als je dit wilt afdwingen, zul je wetgeving moeten optuigen. Een simpele afspraak, maar zonder methodiek om het af te dwingen is gedoemd te falen, zoals je nu ziet.
Ik heb eigenlijk een lokale versie hiervan (ollama + openwebui + searxng als (meta)zoekmachine + scraper). En die negeert het ook 🤭😋 Maargoed het is voor eigen gebruik.

Bovendien: Websites vroegen ons ook nooit of ze wel trackingcookies mochten plaatsen totz e het moesten doen van de wet, en zelfs nu maken ze het zo lastig mogelijk het te weigeren. Dus ik blijf gewoon doen wat ik wil.

[Reactie gewijzigd door Llopigat op 23 juli 2024 04:23]

Ik heb vaak last van die SEO ranking scrapers. De ergste heb ik gelukkig kunnen blokkeren. Ik heb genoeg sites waarvan het totaal niet belangrijk is dat dat soort scrapers langs komen. Google en Bing, de rest hoef ik niet.
Ik denk dat als de site alle bots weert dat het dan netjes is om je eraan te houden, maar als het bijv. google wel toestaat maar andere bots niet (zoals in het gegeven voorbeeld) dan is het ook wel echt een monopolievoordeel dat een partij als Google heeft. Zie dan niet aan wat een nieuwe zoekmachine eraan heeft zich te houden hieraan.

IMHO zou het iets van alles of niets moeten zijn omdat het anders onmogelijk wordt voor nieuwe zoekmachines.
Sommige scrapers doen dagelijks 10000 verzoeken of meer voor een simpele hobby website. Die block ik meteen.
Ik denk dat als de site alle bots weert dat het dan netjes is om je eraan te houden, maar als het bijv. google wel toestaat maar andere bots niet (zoals in het gegeven voorbeeld) dan is het ook wel echt een monopolievoordeel dat een partij als Google heeft.
Dat is dan de keuze van de website-eigenaar om dat wel of niet toe te staan voor bepaalde partijen. Welke reden die daar dan ook voor mag hebben, die keuze zul je dan moeten respecteren uit goed fatsoen.

Er is (gelukkig!) geen enkele wet die het verplicht om content voor iedereen beschikbaar te stellen. Zeker niet als die derde partij (zoals Perplexity) er ook nog een winstoogmerk mee heeft.
Zie dan niet aan wat een nieuwe zoekmachine eraan heeft zich te houden hieraan.
Wat dacht je van goed fatsoen tonen, en respect tonen voor de (keuze van de) eigenaar van de content? Die mag zelf bepalen wat hij wel of niet met zijn content wil doen.

Als je als bedrijf geen fatsoen toont richting content-eigenaren door ondanks de robots.txt toch te scrapen, moet je ook niet gek opkijken als je straks een erg slechte reputatie hebt, en meer respectabele bedrijven straks geen zaken meer met je willen doen. Met alle gevolgen op langere termijn vandien.

[Reactie gewijzigd door wildhagen op 23 juli 2024 04:23]

Wie gaat perplexity gebruiken als bijv. alle nieuwssites het blokkeren? De meeste nieuwswebsites blokkeren standaard alle AI bots. Tweakers bijvoorbeeld chatgpt en anthropic, maar ik denk dat dat kwestie van tijd is voordat ze perplexity toevoegen.

Nytimes, CNN en BBC blokkeren perplexity al van hun hele website. Lekker dan als je een zoekmachine aan het maken bent. De hele media werkt samen om Google in het zadel te houden.

Als partijen willen dat je je aan hun 'vriendelijke verzoek' houdt moeten ze dat verzoek wel zo houden dat jij je werk nog kunt doen. Als je buren vragen na 22:00 geen luide muziek te draaien is het fatsoen dat niet te doen. Als je buren je vragen om niet uit je raam te kijken, in de tuin te zitten, je tv ooit aan te hebben en geen lichten aan te doen, en je auto in een andere straat te parkeren, dan is de fatsoenskwestie toch echt bij de buren en niet bij jou.
Als je niet wil dat je site ge-scraped wordt zal je meer moeten doen dan een robots.txt.

Als een site die over AI bericht en daar geld mee verdient (tweakers, jullie ook) dan is het alleen maar net om diezelfde ai ook rustig je data te laten scrapen. Lijkt mij een win-win situatie.
Als een site die over AI bericht en daar geld mee verdient (tweakers, jullie ook) dan is het alleen maar net om diezelfde ai ook rustig je data te laten scrapen. Lijkt mij een win-win situatie.
Ook als het doel van die AI is de tekst samen te vatten zodat je geen bezoekers (en dus inkomsten) krijgt? Dat je ergens verslag van doet betekent nog niet dat je het ook maar moet ondersteunen. Anders zou de Telegraaf drugsdealers en aanverwante figuren actief moeten gaan steunen?
Ook als het doel van die AI is de tekst samen te vatten zodat je geen bezoekers (en dus inkomsten) krijgt?
We zijn nog niet op het punt dat in algemene zin op die manier nieuws tot je komt. Ik gebruik rustig een AI model maar kom ook nog steeds op de nieuwssites die ik voor het hele AI gebeuren begon bezocht.

Ik geloof niet dat AI in zijn huidige vorm een geschikte tool is om nieuws te lezen. Wat het al wel kan is mij nieuws aanraden - juist door scrapen - wat ik ook interessant vindt en daardoor nieuwe andere sites nu vaak bezoek die voor mij eerst niet eens bestonden.
Anders zou de Telegraaf drugsdealers en aanverwante figuren actief moeten gaan steunen?
Appels en peren.
Als de telegraaf zelfs drugs verkoopt klopt je vergelijking weer.
Als het nieuws is dat online bots zich niet aan robots.txt houden, dan heb ik nog wel meer nieuws.

Huawei's Singapore-afdeling scrapet honderdduizenden pagina's ondanks dat de robots.txt zegt dat geen enkele bot op een bepaald pad is toegestaan. Dat pad is namelijk een reverse-proxydienst die load op de originele/upstream-servers beoogt verminderen, dus als een crawler elke pagina gaat zitten aanklikken dan werkt het averechts. Beter dat crawlers de originele site direct indexeren met diens eigen robots-instellingen en -restricties in plaats van dat ze dat via mij gaan zitten doen

Huawei gebruikt hiervoor duizenden verschillende IP-adressen. Tot dusver (sinds ik vorige week ben begonnen met blokkeren) heb ik ze in 39 grote IP-adresreeksen erop betrapt met in totaal daarin 38 miljoen unieke IP-adressen. In de access logs zie ik dat ze (in de afgelopen 12 maanden) tot dusver ruim 4100 verschillende IP-adressen uit die reeksen gebruikt hebben met in totaal een half miljoen paginaverzoeken (recentelijk veel meer dan in 2023). Als de IP-reeksen niet allemaal "Huawei Singapore" of "Huawei-SG" of zoiets heetten, zou ik waarschijnlijk hebben gedacht een crimineel botnet werd ingezet om het web te scrapen

Legitieme bedrijven die "robots" (zoals crawlers) inzetten, identificeren zichzelf over het algemeen; Huawei doet dat in dit geval op geen manier. (Of ja, ze hebben parallel een "PetalBot" draaien die zich ook niet aan de robots.txt houdt; dat komt er nog bovenop, maar die kun je makkelijk a.d.h.v. de botnaam blokkeren.) De user agent string is een normale browser, dus er is ook geen infopagina of contactmogelijkheid. Ik zou kunnen gaan klagen bij de eigenaar van de IP-reeks, maar dat zijn ze zelf

Vergeleken met de actie genoemd in het nieuwsartikel:
zou blijken dat Perplexity samenvattingen kan geven van websites die op basis van verzoeken in het robots.txt-bestand niet door de PerplexityBot bezocht mogen worden
Vind ik wat Perplexity hier doet vrij onschuldig. Het is niet per se netjes, en vreemd dat ze geen passende user agent string instellen, maar als ik mijn browser vraag om naar een bepaalde pagina te gaan dan checkt die ook niet eerst het robots.txt-bestand: het paginaverzoek is immers op verzoek van een mens. Ookal verschillen de meningen over de legitimiteit hiervan, dat je voor samenvattingsverzoeken gedaan door mensen geen robots.txt inzet is nog wat bij voor te stellen. Bij Huawei-Singapore's gedrag bestaat een dergelijk excuus niet
Snap niet waarom je Google wel zou toestaan je content te scrapen, maar ai niet. Dat wordt nog lastig met ai zoekmachines (over een paar jaar schat ik in dat traditionele zoekmachines zwaar inferieur zijn geworden) als je website niet gescrapet wordt.
Traditionele zoekmachines zijn niet zozeer inferieur aan het worden - maar de input wordt steeds "luier". Het grootste probleem IMO is dat zoekmachines hierop proberen in te springen, en daardoor juist de skills die vroeger nuttig waren om écht goed gericht te zoeken, nu steeds vaker vervangen door "slimme" suggesties.

"Bedoelde je dit?" - NEE!

Op dit item kan niet meer gereageerd worden.