OpenAI en Anthropic negeren verzoeken van websites in robots.txt-bestanden om niet gescrapet te worden. Dat beweert Business Insider. Eerder schreef Wired al dat het bedrijf achter de AI-zoekmachine Perplexity dergelijke niet-scrapenverzoeken ook negeert.
Volgens Business Insider negeren OpenAI en Anthropic verzoeken van media-uitgevers om hun content niet te scrapen voor gebruik als trainingsdata voor hun machinelearningmodellen. Beide bedrijven hebben eerder laten weten dat ze niet-scrapenverzoeken in robots.txt-bestanden zullen respecteren.
Business Insider schrijft niet hoe het achter deze informatie is gekomen. Wel verwijst de site naar een eerder artikel van Reuters. Daarin schreef het persbureau al dat meerdere AI-bedrijven robots.txt-verzoeken aan hun laars lappen. De site baseerde zich daarbij op een onderzoek van TollBit, een start-up die bemiddelt in licentiedeals tussen AI-bedrijven en uitgevers. In dat artikel werden echter geen namen genoemd van AI-bedrijven die de robots.txt-protocollen zouden negeren.
Woensdag schreef Wired al dat AI-zoekmachine en -chatbot Perplexity verzoeken van websites om niet gescrapet te worden, negeert. De bot zou samenvattingen kunnen geven van websitepagina's die op basis van verzoeken in het robots.txt-bestand niet door de PerplexityBot bezocht mogen worden. Perplexity zou de inhoud van dergelijke sites dus gebruiken als bronmateriaal, terwijl Business Insider beweert dat OpenAI en Anthropic hun chatbots alsnog trainen met content van websites die hebben aangegeven dit niet te willen.
Sinds vorig jaar kunnen websites aangeven dat ze niet willen dat hun websites zomaar worden gescrapet. Dat kan door tekst toe te voegen aan robots.txt, het tekstbestand dat onderdeel is van webstandaarden en instructies geeft aan niet-menselijke bezoekers. Onder meer Tweakers-uitgever DPG Media verbiedt het gebruik van webcrawlers in zijn robots.txt-bestand. Het opvolgen van deze instructies is echter niet verplicht.