Door Stephan Vegelien

Redacteur

Het Wereld Wijde Weg

De KB wil het Nederlandse internet redden

20-04-2022 • 06:00

13

Interview

Hoe zal een historicus over vijftig of honderd jaar terugkijken op deze tijd? Door welke bronnen laat hij of zij zich informeren om een beeld te schetsen van ons leven? Uiteraard gebruikt hij of zij daar boeken, kranten, videodragers en foto’s voor. Maar om een beeld te schetsen van hoe ons leven eruit ziet, moet je ook online kijken, want daar speelt een groot deel van ons leven zich af. Een historicus moet dus kijken naar websites, weblogs en sociale media. Dat is echter nog niet zo makkelijk, want de gemiddelde webpagina is maar negentig dagen online voor hij verdwijnt of wordt aangepast.

Om historici van de toekomst een kans te geven, werkt de nationale bibliotheek KB al vijftien jaar aan een archief van ons online leven. Dat varieert van Nederlandse websites uit de tijd van Euronet en XS4ALL tot een collectie met sites die iets vertellen over hoe wij de coronapandemie hebben beleefd. Conservator digitale collecties Kees Teszelszky en collectiespecialist Peter de Bode van de KB vertellen hoe en waarom ze dat doen. “Het liefst zouden we alle websites bewaren.”

Hoe bewaar je een website?

In vijftien jaar tijd heeft de KB iets meer dan 21.500 websites gearchiveerd, die allemaal zijn te bekijken in de leeszaal van de nationale bibliotheek in Den Haag. Dat klinkt als weinig, helemaal als je bedenkt dat er ongeveer 6 miljoen .nl-sites zijn. Met Nederlandse websites op andere domeinnamen erbij, komt de teller zelfs boven de 10 miljoen uit. "We slaan niet alle websites op", legt Teszelszky uit. "Dat heeft een technische, maar ook een juridische en inhoudelijke reden."

Het archiveren van het Nederlandse web begint bij de selectie. "Alles komt in principe in aanmerking voor selectie", legt De Bode uit, "maar je kiest een representatie van een geheel." Volgens hem moet je je daarbij verplaatsen in de gebruiker van de toekomst die onze digitale cultuur wil begrijpen. "Je wil dus niet alleen maar opmerkelijke websites bewaren", legt Teszelszky uit, "maar juist ook gewone sites. Anders weten toekomstige historici niet wat 'gewoon' was." Je moet daarbij uit tientallen soortgelijke sites een representatieve keuze maken. "Zo zijn er honderden loodgieterssites. Welke bewaar je wel en welke niet?", vertelt De Bode. Daarnaast is het belangrijk dat je goed luistert naar geluiden uit de maatschappij, vult Teszelszky aan. Ook proberen Teszelszky en De Bode af en toe een tijdcapsule te maken, een speciale collectie rond een bepaald onderwerp waarbij ze zoveel mogelijk websites proberen te verzamelen rond dat thema. "Je weet natuurlijk niet wat over honderd jaar belangrijk is", zegt Teszelszky.

Doorsofperception
Doorsofperception.com, de eerste Nederlandse website die was gemaakt voor een grafische browser (Mosaic), en dus met kleur en afbeeldingen

Geen depotwetgeving

Wanneer de KB een selectie heeft gemaakt, moet de website-eigenaar op de hoogte worden gesteld van het opnemen van de website in het archief van de KB. "Nederland is het enige land ter wereld dat geen enkele vorm van depotwetgeving heeft. Dat soort wetgeving geeft bibliotheken toestemming om een boek of website te bewaren", legt Teszelszky uit. "Zonder die wetgeving moeten we een uitgever op de hoogte stellen voor we een tekst in onze collectie kunnen opnemen. Dat is bij boeken niet zo'n probleem, want daarover maken we gewoon afspraken met uitgevers. Voor websites is het ingewikkelder." De Bode voegt toe: "We moesten dus alle ruim 21.500 website-eigenaren benaderen om te laten weten dat we hun site gaan toevoegen aan de collectie."

Zodra de KB een website wil opnemen in de collectie, krijgt de maker een bericht en vier weken de kans om bezwaar te maken. "We werken via opt-out. Als de website-eigenaar nee zegt, is het jammer, maar dan kunnen we de website niet bewaren", legt De Bode uit. "En als we de website-eigenaar niet kunnen achterhalen, kan het ook niet." In andere landen kan een paar keer per jaar het hele nationale web worden opgeslagen met crawlers. In Nederland kan dat juridisch niet. Dat is de belangrijkste reden dat de collectie van de KB relatief zo klein is. "En dat is jammer, want er gaat Nederlands erfgoed verloren. We worden elke dag intellectueel armer", stelt Teszelszky. "Nederland heeft bijna niks van zijn digitale geschiedenis bewaard."

Die wetgeving is ook een belangrijke reden dat de collectie alleen te bekijken is in de leeszaal van de KB en niet online, legt Teszelszky uit. Dat zou herpublicatie zijn, en dat mag niet zomaar. Een deel van de website-eigenaren stemde alleen in met het opnemen in het archief, als de site alleen in de leeszaal te zien zou zijn. Daar kan overigens iedereen de collectie inzien die lid is van de KB.

XS4ALL-homepageoverzicht
Het homepageoverzicht van XS4ALL

Het archiveren zelf gebeurt met webcrawlers. "We gebruiken daarvoor Heritrix", legt De Bode uit. Dat is een webcrawler ontwikkeld door het Internet Archive, dat volgens Teszelszky gebruikt wordt door ongeveer negentig procent van alle bibliotheken. Daarnaast gebruikt de KB de zelfontwikkelde Web Curator Tool, die het samen met de nationale bibliotheek van Nieuw-Zeeland heeft doorontwikkeld. "Daarmee kunnen ze zeggen hoe Heritrix zich moet gedragen. Zo kunnen we zeggen dat Heritrix na 1,5GB per webpagina moet stoppen, of hoeveel niveaus diep van een website moeten worden opgeslagen." Ook registreert de WCT precies welke stappen de crawler heeft gemaakt. "De omschrijving van waarom en hoe je een website hebt opgeslagen, is ook van belang", voegt Teszelszky toe.

Webzombies en het Internet Archive

Hoewel de nationale bibliotheek in de basis dezelfde software gebruikt om websites te archiveren als het Internet Archive, doet de KB het toch net anders. Waar de KB een selectie maakt van websites, probeert het Internet Archive álles op te slaan. The Wayback Machine is een plek om oude versies van websites terug te vinden. De crawlers van het Internet Archive kruipen het hele internet over om kopieën te maken van webpagina's. Als zij dit al doen, waarom is de verzameling van de KB dan eigenlijk nog nodig? Beide hebben hun waarde, stellen De Bode en Teszelszky, en ze vullen elkaar aan. "De crawler van de KB begint bij de homepage en gaat dieper dan die van het Internet Archive, doordat we het gedrag van de crawler nauwkeurig kunnen instellen", legt Teszelszky uit. "Het Internet Archive probeert vooral zoveel mogelijk op te slaan."

"Je moet het Internet Archive zien als een enorme bak met Lego. Die blokjes zijn niet gesorteerd en ze zijn op verschillende momenten binnengehaald om een geheel te vormen. Dat werkt, maar je loopt wel het risico op het maken van web-zombies. Dode websites worden tot leven gewekt doordat het live-web lekt naar het gearchiveerde web", zegt Teszelszky. Omdat het Internet Archive verschillende momenten pakt en ze samenvoegt, krijg je soms websites zoals ze nooit online hebben gestaan. Ook kunnen stukjes nieuwe sites lekken naar een gearchiveerde site, omdat ze op een server staan waar de oude site heeft gestaan. Daardoor krijg je een mengelmoes van nieuw en oud. "Archiveren van websites is daarom handwerk", voegt De Bode toe.

Webincunabel
‘Webincunabel’ of ‘webwiegedruk’, vroege homepage die nog de kenmerken van een ‘papieren’ publicatie toont. http://www.euronet.nl/users/ernstoud/.

Is het Internet Archive dan waardeloos voor historici? Nee, absoluut niet, zegt Teszelszky. Sterker, het Internet Archive is heel belangrijk. "Een website verandert constant. Domeinen verdwijnen of websitebouwers halen dingen weg." Daar komt bij dat het Internet Archive niet hoeft te wachten op toestemming om een site te archiveren, zoals de KB. Het kan dus goed zijn dat er in ieder geval iets bewaard is gebleven, vinden Teszelszky en De Bode. Je krijgt momentopnamen die je kunt aanvullen met de selectieve aanpak van de bieb en kunt voorzien van context.

Internetpioniers op XS4ALL

De eerste website die de KB archiveerde, was de website van het Thomas Instituut van de Universiteit van Tilburg, in 2007. Inmiddels is de hele collectie zo'n 70TB groot, een hoeveelheid data die de KB met de nodige back-ups heeft opgeslagen in een extern datacenter. "De collectie groeit exponentieel", legt De Bode uit. Aanroepen gebeurt via de Open Wayback Machine van het Internet Archive, die de KB gebruikt om de eigen collectie aan te roepen. Een aanzienlijk deel van die collectie is een verzameling van websites van XS4ALL uit de periode 1993 tot 2001, waarvan een groot deel 25 jaar na dato nog steeds online staat. "Dat is heel bijzonder, want een gemiddelde webpagina staat negentig dagen online", vertelt Teszelszky.

De KB begon in 2019 met het verzamelen van die websites, uit angst dat ze offline zouden gaan vanwege de overname van XS4ALL door KPN. De KB archiveerde ruim drieduizend pagina's van wat Teszelszky 'echte internetpioniers' noemt. Een voorbeeld daarvan is Liesbet Zikkenheimer. Zij maakte in 1995 de persoonlijke website Liesbet's Atelier. Die site is nog steeds online, maar niet alles werkt meer naar behoren. "Wij proberen om die website zo authentiek mogelijk op te slaan", legt De Bode uit. Daarom heeft De Bode, samen met Johan van der Knijff en anderen geprobeerd zoveel mogelijk van de site te repareren in de gearchiveerde versie.

Liesbet's Atelier
De voordeur van Liesbet's Atelier. Door op de bel te klikken, kun je naar de hal toe, om vervolgens verschillende kamers te bekijken

Coronacollectie

Begin april rondde de nationale bibliotheek haar meest recente collectie af: een verzameling websites over de coronapandemie. Dit is een speciale collectie met websites die tijdens de coronapandemie online stonden. Er zitten natuurlijk overheidswebsites in, zoals van de RIVM, de Tweede Kamer, de Belastingdienst, het UWV, het CBS en de RVO, maar ook veel andere sites die iets over de tijdgeest zeggen. "Denk aan websites over Koningsdag en de 5-meiviering die ineens niet doorgingen", zegt De Bode. "Maar ook aan sites als Thuisarts.nl, de sites van het Longfonds en de KNVB, en kritische sites als die van Viruswaarheid en GeenStijl."

Omdat we zoveel online waren tijdens de pandemie, zijn websites uit die periode belangrijk om een beeld te vormen van hoe we die tijd hebben ervaren, stelt Teszelszky. De KB begon in maart 2020 met verzamelen en sloot 1 april 2022 de collectie. "Dat betekent niet dat we stoppen met verzamelen, maar de aanwas zal beduidend afnemen", zegt De Bode. De sites die gearchiveerd zijn, zijn voorzien van context in de vorm van een collectiebeschrijving met daarin precies wanneer en waarom een bepaalde site aan de collectie is toegevoegd.

Veel van de sites uit de beginperiode zijn nu weer offline, of de tekst die bijvoorbeeld verwijst naar de lockdowns en de gevolgen van verschillende maatregelen voor delen van onze samenleving, is alweer verdwenen. "Denk aan onderwijssites en hoe die sector met de pandemie omging, maar ook aan sites van verzekeraars, kerken en initiatieven als help a local." Een voorbeeld van een site die tijdens de collectie veranderde, vertelt De Bode, is die van Viruswaarheid. "Precies in de vier weken waarin we website-eigenaren op de hoogte stellen van het feit dat we hun website aan de collectie willen toevoegen - en waarin die eigenaren kunnen weigeren - veranderde Viruswaanzin zijn naam in Viruswaarheid. De website van Viruswaanzin hebben wij daardoor niet. Dat is zonde."

Sociale media en betaalmuren

Tot grote spijt van Teszelszky en De Bode kan de KB niet alles archiveren. Het archiveren van socialemedia-sites is bijvoorbeeld onmogelijk, en dat geldt ook voor sites als Funda en webshops. Bovendien zorgen JavaScript en Flash voor problemen. "JavaScript kost ons soms de nek", zegt De Bode. "Flash-websites waren een gruwel, want je kunt niet doorklikken. We kunnen de swf-bestanden zien, maar ze niet afspelen. En Funda is een database met een schil eromheen. Die schil kunnen we bewaren, de database niet. Met Marktplaats net zo. Webshops zijn berucht. De webarchiveersoftware probeert alles dat een webshop verkoopt in het winkelwagentje te stoppen en genereert daardoor een oneindig aantal links." Teszelszky vult aan: "Daar komt bij dat een site als Bol.com een persoonlijk aanbod laat zien. Elke keer als we de website zouden benaderen, zouden we dus iets anders zien."

Het is technisch onmogelijk om Facebook vast te leggen, en met Twitter is het niet te doen om toestemming te regelen, vertelt Teszelszky. Daarbij is het veel te groot om op te slaan. "De Amerikaanse Library of Congress heeft geprobeerd alles van Twitter te bewaren, maar kreeg daar spijt van en is er in 2017 stilletjes mee gestopt. Nu bewaart het nog maar een selectie", vertelt Teszelszky.

World of Tweaking op 30 januari 1999
De voorpagina van World of Tweaking, de voorloper van Tweakers.net, op 30 januari 1999

Daar is een recente belemmering bij gekomen: betaalmuren. "Ja, die zijn heel vervelend", zegt De Bode. "In feite komen we niet voorbij het inlogscherm. We hebben van twee uitgevers inloggegevens gekregen. Maar daarvoor moet je samenwerken met de website-eigenaar." En ja, zegt De Bode, dat is ook een probleem bij het archiveren van Tweakers. Nieuwsartikelen bewaren kan wel, Plus-artikelen niet.

"We hebben wel goed contact met de webbeheerder", legt De Bode uit. "Vorig jaar is het IP-adres van de crawler gewhitelist, omdat we tegen de firewall aanliepen." Met betrekking tot Tweakers is er een ander probleem: de site stopt niet. "We hebben de limiet op 50GB moeten zetten, want de archiveersoftware was anders nooit klaar. De aanwas van reacties is enorm; er blijven steeds nieuwe reacties onder artikelen komen, zodat de software gewoon niet stopt. We kunnen dagelijks zestien websites tegelijk archiveren, qua opslagcapaciteit en hardware- en softwarebeperkingen. Als we geen limiet in zouden stellen, zou Tweakers.net permanent een van die plekken innemen", zegt De Bode. Hetzelfde geldt overigens voor een site als het Viva-forum. "We hebben een versie van Tweakers.net, maar niet alles. Het is alsof Couperus blijft doorschrijven", zegt Teszelszky. "Op een gegeven moment moet je de archiefsoftware stoppen."

Het liefst zou de KB van Tweakers en andere sites bronbestanden krijgen om de site goed te kunnen opslaan. "Met archiveertechniek lopen we altijd achter op webtechniek en elke vorm van interactiviteit met de oorspronkelijke server is een probleem, omdat daar op een gegeven moment geen contact meer mee is", zegt De Bode. "We willen niet dat een site verdwijnt. Een boodschap aan website-eigenaren zou dan ook zijn: als je wil dat je site bewaard blijft, zorg dan dat hij archiveerbaar is", zegt Teszelszky. "Broken links are broken knowledge. Een website krijgt pas waarde als hij permanent is, en dus gearchiveerd."

Bannerfoto: onurdongel / Getty Images

Reacties (13)

13
13
10
3
0
3
Wijzig sortering
Kreeg al een tijdje geleden een mail dat mijn home page op xs4all (uit 1995) ook door hun gearchived is.

Wel grappig, geen idee dat ik zogenaamd "een pionier" was :)
Wat cool. Heb je nog een link naar je website? Als je in 1995 een website had was je zeker een pionier.
Volgens mij was je dan zeker een pionier. In 1995 hield een klasgenoot zijn spreekbeurt over internet. Ik toen huh? wat is dat? :? Ik kende toen ook niemand die het had. Zelf had ik het pas in 1999 toen ik mijn pa eindelijk zover kreeg. Planet Internet. Er ging een wereld voor me open met al die "planets" Ik zie dat Internet Archive nog wat heeft staan, soms kan je doorklikken maar ook een flink aantal dode links helaas.
Werd niet eerst om toestemming gevraagd? Mij wel.
Ja, bij mij ook.
Persoonlijk vind ik het erg goed dat dit soort dingen worden bewaard. Waar ik uit mijn kindertijd nog hele rijen encyclopedien thuis zag is het nu toch vooral een greep mobiele apparaten en computers met alleen al eigen backups van 100en TB’s (ja, datahoarder en veel daarvan is gewoon te verkrijgen op internet).

Welke techniek gebruiken ze op basis van hardware? Overheid financiert dat denk ik? En is er een backup? En stel; Tweakers zou een export aanleveren van de nieuwsdatabase in een vorm die leesbaar is, hoe veilig staat het daar dan?
Ook ben ik benieuwd naar het databaserecht. Je mag niet zover scrapen zodat je de complete site indexeert en dus de website kopieert zonder dat je er erg in hebt toch? (Als in de volledige database bijna 1 op 1 hebben, of was dit alleen met persoonsgegevens? Ik lees dit met een half bakkie koffie op dus heb zeker wat gemist. Een opt-out lijkt me daarvoor niet oke, maar ok überhaupt te kunnen indexeren weer wel).

De manier hoe Wikipedia het doet is ook zeer interessant. Verschillende torrents met complete archieven die zo peer2peer zich over het web verspreiden en prima offline is te gebruiken.

Interessant artikel, kreeg er alleen nog maar meer vragen van. Stuur eens een cameracrew langs Tweakers :P
De opslag gebeurt in een datacenter en er zijn inderdaad back-ups. Welke hardware er precies in het datacenter staat, dat weet ik niet, maar volgens mij is dit een 'gewoon' colocatiedatacenter. De financiering van de KB ligt voor een groot deel bij de gemeente Den Haag bij het ministerie van OCW, maar ze krijgen ook andere subsidies en natuurlijk lidmaatschapskosten.

Dat van het databankenrecht kan ik navragen, maar volgens mij ziet de KB websites juridisch als publicatie en niet als databank, waardoor deze onder de depotwetgeving valt. Voornamelijk omdat het ze om de tekstuele inhoud gaat.

Dat van hoe veilig een site is, heb ik niet eens over nagedacht. Kan ik ook nog wel ff achteraan. Misschien dat een van beide heren het leuk vindt om in de reacties te duiken. Leuk in ieder geval dat het artikel meer vragen oproept.

[Reactie gewijzigd door SirRosencrantz op 23 juli 2024 06:24]

Verbaast mij dat dit door een gemeente Den Haag wordt bekostigt. Je zou verwachten dat dit uit een landelijke pot komt.

[Reactie gewijzigd door Falcon op 23 juli 2024 06:24]

Het wordt dan ook door het ministerie van OCW gefinancierd, zie bv het jaarverslag https://www.kb.nl/en/file-download/download/public/365 waarin staat: "Sinds 1993 is de KB een zelfstandig bestuursorgaan (ZBO), gefinancierd door het ministerie van Onderwijs, Cultuur en Wetenschap (OCW)"
Dat heb je sneller gevonden dan ik. Ik keek naar de financiering van bibliotheken in het algemeen. Ik pas mijn reactie aan.
De webarchiveersoftware probeert alles dat een webshop verkoopt in het winkelwagentje te stoppen en genereert daardoor een oneindig aantal links.
Is het niet mogelijk die buttons en/of links op een blacklist te zetten tijdens het crawlen?
Voor je het weet staat er een grote vrachtwagen voor de deur bij de KB...
Anoniem: 111246 20 april 2022 11:00
Kun je het ook andersom doen? Ze bewust maken van je site, persoonlijk heb ik er nog wel wat content op staan dat denk ik wel interessant zou zijn voor de geschiedenisboeken. Met name beeld materiaal.

Op dit item kan niet meer gereageerd worden.