Submitter: Wilbert de Vries

Het Internet Archive heeft bekendgemaakt dat het in de toekomst vaker het robotsbestand van een website wil negeren om deze beter te kunnen archiveren. De organisatie doet dit al bij Amerikaanse overheidswebsites en wil de praktijk nu breder toepassen.

Het Internet Archive noemt niet specifiek in welke gevallen het robotsbestand wordt genegeerd, alleen dat het gaat om bestanden die specifiek zijn gericht op zoekmachines. Het zegt verder dat het negeren van het bestand bij de overheidswebsites 'niet voor problemen heeft gezorgd' en dat het 'de praktijk nu vaker wil toepassen'. De organisatie stelt dat het respecteren van het bestand ertoe leidt dat het vaak niet mogelijk is om een website in zijn geheel te archiveren. Dat zou juist het doel zijn van het Internet Archive.

Bovendien zouden websites het bestandje steeds vaker gebruiken voor seo-doeleinden en voor het verbergen van volledige domeinen, bijvoorbeeld als een bepaald domein niet meer in gebruik is. Daardoor was het in het verleden zo dat dit domein ook uit het internetarchief verdween. De organisatie zegt dat daarover bijna dagelijks klachten binnenkomen. Met de verandering in beleid wil het Internet Archive 'een accurater beeld van het internet vanuit het perspectief van de gebruiker bieden'.

Het robotstekstbestand bestaat sinds de jaren negentig en dient ertoe om bepaalde delen van een website af te sluiten van internetbots, zoals webcrawlers. Op die manier kunnen bijvoorbeeld loginpagina's verborgen worden, al is het ook een manier om ze te vinden. Daarbij is het mogelijk om een bepaalde user agent te blokkeren, bijvoorbeeld die van het Internet Archive zelf. Sommige organisaties, waaronder Google, respecteren een dergelijk bestand. Andere doen dit niet.

Het Internet Archive is een non-profitorganisatie die bestaat sinds 1996 en zich tot doel stelt om toegang te bieden tot gedigitaliseerd materiaal, waaronder webpagina's, games en films. De totale grootte van de collectie bedraagt inmiddels meer dan 15 petabyte. In 2012 was dat nog 10 petabyte. Het webarchief van de organisatie staat bekend als de Wayback Machine.