Internet Archive Europe opent nieuw hoofdkantoor in Amsterdam

Het Internet Archive Europe heeft zijn intrek genomen in een nieuw hoofdkantoor in Amsterdam. De Europese tak van de 29 jaar oude organisatie voor digitale archivering is in 2004 opgezet en Amsterdam is al de locatie van een volledige mirror van het internetarchief.

Internet Archive-oprichter Brewster Kahle heeft vrijdag het nieuwe hoofdkantoor van het Internet Archive Europe geopend in Amsterdam. De Amerikaanse digitale bibliothecaris riep in een korte toespraak op om te werken aan de ontwikkeling van 'een gezond informatie-ecosysteem', schrijft Flaming Hydra. Dat ecosysteem voor open toegang tot informatie moet in de woorden van Kahle alle mensen in staat stellen om te bloeien op basis van gedeeld cultureel erfgoed.

Bij de opening van het pand aan de Oudeschans in Amsterdam heeft ook Wilma van Wezenbeek, de directeur van de Nederlandse nationale bibliotheek KB, gesproken. Het aanwezige gezelschap was een internationale mix van bibliothecarissen, archivarissen, technologen, filantropen en uitgevers. Schrijverscoöperatie Flaming Hydra heeft Internet Archive-oprichter Kahle geïnterviewd over het belang van digitale archivering en het werk dat daarvoor wereldwijd wordt verricht.

Door Jasper Bakker

Nieuwsredacteur

25-09-2025 • 08:19

46

Reacties (46)

Sorteer op:

Weergave:

Ik zou graag wat meer in depth info willen zien over deze Internet Archive. Over hoeveel data hebben we het dan en hoe wordt dit opgeslagen en wat bij mij het meest in me opkomt is, waarom? Want ik weet dat niet alles is opgeslagen, dus wat is de criteria van het opslaan en gebeurd dit dmv scraping of door aanvragen door derden? En wat me ook boeit is, hoe wordt dit gefinancieerd? Ik heb ze nooit om enige cent zien vragen naar mijn weten, maar er gaat naar mijn mening wel een hoop centjes inzitten om dit op te kunnen slaan en weer op te kunnen laten vragen door derden.
Scraping van content die wordt aangedragen (submit this url) - zo werkte de zoekmachines ook ten tijde van oprichting.

Daarnaast kunnen mensen en partijen hun collectie aanbieden voor archivering. Er is een commerciële tak. Tweakers heeft daar contact mee gehad voor hardware.info.

Naast websites in de WayBack Machine slaan ze dus ook andere archieven op, zoals digitalisering en van zeer oude muziek.

Ze slaan op in WARC formaat, dat ontwikkeld is specifiek voor dit doel. Web Archive (WARC). Dat formaat is open en wordt ook gebruikt door https://commoncrawl.org/.
Bij dit formaat zit ook een index bestands structuur, deze is gebaseerd op Apache Parquet.

In vergelijking CommonCrawl heeft de meeste publieke content sinds 2013 opgeslagen - tot ongeveer 50.000 pagina's maximaal per website, de rest niet - alleen de html en de robots.txt en bestanden geserveerd met verkeerde mine-type. Dat is al ruim 30PetaBytes. En de index 26TB.

De WayBack Machine slaat ook plaatjes op en JavaScript, CSS en uiteraard ook PDF en Adobe Flash, Microsoft Silverlight, Microsoft ActiveX, HTC, downloads, plaatjes, muziek en film bestanden.
Dat archief is dus ruim meer dan 100PetaBytes groot (zeer ruim meer) en bevat dus alleen het web deel.
Het internet archief bevat ook veel meer andere collecties.
Wie betaald hier eigenlijk voor? Want 30PB aan storage laten draaien kost wel wat geld lijkt mij :D.
Het is een goed doel, dus die informatie is openbaar beschikbaar. Het komt voor een goed deel van donaties en subsidies. Maar je kan het gewoon opzoeken. Niet anders dan wikipedia het doet.

[Reactie gewijzigd door bzuidgeest op 25 september 2025 09:18]

CommonCrawl staat bij AWS op s3 en is daardoor goed met AWS Athena te bevragen en met AWS Lambda, Glue ETL of EC2 te verwerken.

CommonCrawl wordt door de meeste taalmodel trainers gebruikt als bron voor internet data.

Amazon heeft interesse in internet data, ze kochten eerder ook Alexa (niet te verwarren met de spraak assistent).

Wie wat betaalt weet ik niet. Maar o.a. dit programma bestaat: https://aws.amazon.com/opendata/

[Reactie gewijzigd door djwice op 25 september 2025 09:24]

Ik, en vele anderen betalen hiervoor door jaarlijks een donatie te doen. Ik vind het nuttig dat een dergelijk archief bestaat, om nu dingen terug te vinden, en later voor geschiedkundigen die gaan onderzoeken hoe de mensheid in een periode van 20 jaar zo ongelofelijk dom werd (gemaakt).
Bedankt voor je toegift hierin. Maar er reizen me toch wel een hoop vragen hierover. Want ik was al voor de millenium behoorlijk actief op het internet en dan met name in de duistere hoeken ervan. En toch zijn deze domeinen opgeslagen in het internet archive terwijl ik deze zekers niet heb aangemeld om ze te laten opslaan. Hoe zijn deze dan in het archief terecht gekomen?
Waarom denk je dat jij iets moet aanmelden. Een van de anderen op het internet zou dat gedaan kunnen hebben. Maar net als google zijn zoekmachine. Heet het archive ook gewoon een crawler die het internet afloopt.

De organisatie is ook nog eens een goed doel, met alle openbaarheid van boeken die daarbij komt kijken. Er is een schat van informatie over wat ze doen en hoe het financieel is beschikbaar. Ik snap niet waar jou ogenschijnlijke achterdocht vandaan komt. Het Internet Archive doet een verschrikkelijk belangrijke taak uitvoeren ondanks continue tegenwerking uit industrie en de dreiging met en starten van rechtszaken tegen ze. Hun archief word ook nog eens gevoed door de efforts van duizenden zo niet veel meer techmensen die hun tijd beschikbaar stellen om allerlei oude en zeldzame documentatie te scannen en breed beschikbaar te maken zodat kennis niet verloren gaat.
Achterdocht? Mag je tegenwoordig geen vragen meer stellen zonder weer in een complottheorie hoekje geplaatst te worden? Ik wil dat gewoon weten omdat ik dat interessant vindt. Ik ben ook blij met het IA, maar ik vroeg mij altijd af waarvan en waarom ze het doen. Of moet het juist geheimzinnig blijven? Want dat triggert me al helemaal lol.
Achterdocht vanwege de manier waarop je de vraag stelt. Het is ook verre van een geheimzinnige organisatie dus als je die antwoorden wil hebben kan je ze makkelijk vinden. Zelfs op hun eigen site en andere media kanalen. En zeker mag je vragen stellen, maar sommige vragen maken wel heel duidelijk dat je andere de moeite van even lezen wil laten doen. Zoals ik al stel, het is niet bepaald een geheimzinnige organisatie. Alles is openbaar.
Hij reageert op iemand anders die zei dat je je sites moest aanmelden.

Dat kan, maar ze hebben ook gewoon een crawler net als Google, dus of je het nu wilde of niet je site kon erin opgeslagen worden.

Niets geheimzinnigs aan.
Andere mensen hebben dat wel gedaan. Ook hebben ze archieven van andere partijen gekregen. Je kunt aan de structuur in de WARC zien of ze het zelf geschrapt hebben of niet.
Zelf betekent dat iemand ooit een site van die pagina heeft aangemeld of een site die er naar verwees.
Dank, en wel bijzonder eigenlijk. Vraag me dus af of stichting BREIN dat dan heeft gedaan of dat het door linking gekomen is (wat onwaarschijnlijk lijkt, want dan hadden ze wel meer data). Ik vind het bijzonder dat de domeinen die ik toen in mijn bezit had door autoriteiten offline gehaald moesten worden, maar deze wel gearchiveerd zijn door derden. Vind dat best wel interessant eigenlijk. Bedankt voor je toelichting.
Anderen hebben de rest al beantwoord, maar volgens mij is de waarom vraag nog niet beantwoord.

Waarom is de Internet Archive opgezet?
Daar heeft Jason Scott, medewerker van de Internet Archive en freerange archivist goeie praatjes over:
YouTube: Jason Scott | Update or Die conference
YouTube: Jason Scott - THE RACE TO UNDELETE HISTORY

Waarom zou jij er om moeten geven dat het bestaat?
Het makkelijkst uit te leggen is denk ik The Wayback Machine; die heeft als het ware een versie geschiedenis van veel websites. Daarmee kan je dus niet alleen websites die nu helemaal niet meer bestaan bekijken, maar ook vorige versies van websites.

Als bedrijven proberen dingen in de doofpot te stoppen, kunnen ze hun eigen website aanpassen zonder iemand daarover te informeren, en claimen dat de nieuwe versie is zoals het altijd al was. Dat is vooral belangrijk bij pagina's met de algemene voorwaarden of garantie voorwaarden, en wat daar op stond op het moment dat je en product koopt. En verschillende bedrijven hebben al geprobeerd om daar misbruik van te maken:

DCS past stilletjes hun garantie voorwaarden aan, maar werkt de "last modified date" niet bij,
Future home forceert een update die gebruikers verplicht om een abonnement te nemen om reeds bestaande toegang tot een lokale API te blijven gebruiken, en verwijdert die aankondiging stilletjes na kritiek:
YouTube: how lying companies damage the Rossmann brand

[Reactie gewijzigd door wild_dog op 26 september 2025 10:01]

Tijd voor een videorapportage van Tweakers op bezoek bij Internet Archive Europe. :P
Ik doneer jaarlijks aan het internet archive, krijg ook een banner te zien als ik op de homepage kom die vraagt om te doneren, en de donate button is vrij zichtbaar. Ik draag graag bij met een klein percentage van mijn IT inkomen om het internet erfgoed waarmee ik opgegroeid ben te bewaren voor toekomstige generaties.
Vind ik best nobel van je.

Wat mij persoonlijk dan een beetje tegenstaat dat als je afhankelijk bent van donaties, deze bedrijven op de duurste vierkantemeters van Nederland hun kantoor houden. Waarom niet een kantoor op een goedkoop industrieterrein, dan kan het geld nog meer aan het doel besteedt worden ipv huisvesting van kantoormensen.
(Dit geldt ook voor veel goede doelen)
Kijk, en dat is dus wat mij dus interesseert. Ik wilde namelijk niet typen wat jij net schreef, maar ik kan mij herinneren dat een appartementje in Adam van 40 vierkante meter gerust 4 ton op kan leveren. Dus dan gaat het bij mij malen in me hoofd, waarom slaan ze het internet op en voor welk doel, en wie betaald dat? En om dan idd om donaties te vragen is natuurlijk een vrij iets, maar waarom dan in een mooi pand? Kan toch ook een brievenbusfirma zijn dan? Vink leuk om onderzoek te doen ervoor. Gewoon voor persoonlijk gewin.
Misschien is het ook een bezoekkadres waar potentiële donoren kunnen langskomen of waar fundraisers georganiseerd kunnen worden. Het is een beetje zoals de kunstwereld. Die drijft ook op donaties van rijke stichtingen, erflaters en high society personen. En dan moet het wel enige uitstraling hebben en bereisbaar zijn. Een keet op een industrieterrein in Slubbekutveen heeft nu eenmaal een andere uitstraling dan een grachtenpand in hartje Amsterdam.
Dat begrijp ik ook niet, waarom perse in Amsterdam? Waarom inderdaad niet op een industrieterrein waar de m2 prijs vele malen goedkoper is.
Hm, dan zal het mijn adblockers wel zijn ofzo die deze banners verwijderd. Bedankt voor deze opheldering :)
Zou een mooie special zijn voor Tweakers!
Nou, ik speel al enige tijd met heel wat modellen de laatste tijd en als er iets is wat je niet (meer) moet geloven is het wel de output van deze modellen.

Maar ik vind het wel een interessant onderwerp, want wie bepaalt wat opgeslagen wordt? Want niet alles is opgeslagen, dus ik wil de criteria ervan wel weten. Het zelfde geld voor Wikipedia, wie bepaalt wie er in mogen komen. Want ik heb eens voor de grap een bio pagina van mijzelf op Wikipedia aangemaakt, maar deze werd binnen 24 uur gewoon verwijderd. Wie bepaalt of ik wel of niet interessant ben? En wat zijn de eisen die ze stellen ervoor.
Geen specialist hier, maar met wiki is het niet een individu dat bepaalt of pagina's al dan niet mogen bestaan maar verloopt het via community policies. Ik vermoed dat de pagina yzord hier dus niet aan voldoet. Pagina's dienen ook een bepaalde encyclopedische waarde te hebben maar tegelijkertijd mag het ook niet professioneel zijn (?), zo had ik ooit een tal van pagina's gebouwd rondom cement en staal physica en die werden verwijdert want... dat zag er te professioneel uit cq geript.
Een 1 seconde google had je vertelt dat je geen pagina mag maken voor jezelf. Dat word gezien als belangenverstrengeling. Dat moet iemand anders voor jou doen omdat ze je in essentie "de moeite waard vinden".
Je snapt natuurlijk wel dat ik iemand anders had verzonnen die mij wel interessant genoeg vond ;) uiteraard via een ander ip, met een andere browser uit een andere timezone haha.
Ook daar hebben ze vast wel ervaring mee om te detecteren.
Ik snap dat ze in Nederland willen zitten, maar waarom op een dure locatie zoals daar? Waarom niet wat verder van de ring zodat je niet de helft van je budget kwijt bent aan de locatie. Sowieso, is het voor het archief niet beter als ze in een of andere berggrot in Limburg gaan zitten?

[Reactie gewijzigd door Martinspire op 25 september 2025 10:45]

Ik snap, voor zo'n internet instantie, de keuze van Amsterdam wel in dat je dicht bij AMS-IX zit maar waarom hartje hartje Amsterdam volg ik inderdaad ook niet helemaal.
Bereikbaarheid met het OV?

[Reactie gewijzigd door Polderviking op 25 september 2025 11:12]

Amsterdam is niet het enige IX in Nederland.
Ja, maar allicht hebben ze meer zorgen, zoals mensen vinden en nabijheid tot internationale luchthavens.(lees: schiphol)
De keuze voor Nederland om het hoofdkantoor in te vestigen is logisch. Nederland staat hoog in de wereld persvrijheid index en heeft een belangrijk internetknooppunt.
Soms maakt het uit vanaf welke locatie een website bekeken wordt, bijvoorbeeld bij geoblocks.

IA archiveert normaal gesproken vanaf een US locatie voor zover ik heb gezien. Betekent dit nieuws dat IA Europe de pagina's (ook) vanaf een Europese locatie gaat archiveren?
Lees ik de kop en subtext nu verkeerd?
"een nieuw hoofdkantoor"

Dit suggereert dat er meerdere 'hoofdkantoren' zijn, maar er kan maar één hoofdkantoor zijn, anders is het gewoon een 'kantoor'.
Betekent dit ook dat ze nu wel moeten gaan reageren op verzoeken om bepaalde pagina's uit de index te halen en te laten?

Dat is mij helaas nog nooit gelukt namelijk.
Nvm

[Reactie gewijzigd door evmmb op 25 september 2025 08:34]

Zou zon bedrijf (stichting?) niet ontzettend veel waard zijn nu met zo'n berg aan kwaliteit data voor AI training? Of gebruiken ze dat allemaal al (gratis)?
Misschien gaat AI het internet zover vervuilen dat maagdelijke data geld waard word. een tijd van voor AI en daarna.
Naar mijn idee is deze move juist gemaakt om te zorgen dat ze niet aangepakt kunnen worden door Trump en co.

En dat is hetzelfde bij Wikipedia. Die zijn ook vaak een target voor alt-rechts omdat de realiteit een linkse inslag heeft en ze daar niet van houden.
Akkoord, waarom dan niet in een bunker in Zwitserland, IJsland of Singapore? Of zitten ze daar al? Mirrors natuurlijk altijd een goed idee met een project als dit.
De informatie op Wikipedia wordt toch zoals altijd al gewoon door de vrijwilligers onderhouden? Het is wel heel makkelijk om zonder enige onderbouwing te roepen dat Wikipedia een duidelijk uitgesproken politieke voorkeur heeft.


Om te kunnen reageren moet je ingelogd zijn