Bedrijf houdt een archief van alle Internetpagina's bij

Chillout schrijft: "Maakte ik van de week nog met een paar vrienden na een paar biertjes de opmerking: "Waarom slaan we het internet niet op op een mega-HD, dan kunnen we sneller downen enzo, en gaat surfen lekker snel!"

Nu lees ik net dus dit: "Company aims to preserve Web history." Datgene waar wij dus over spraken na een aantal pilsjes, is nu dus werkelijkheid!"

Het is enigszins anders, want als ik het artikel lees maak ik er uit op dat alleen pagina's en plaatjes worden opgeslagen. En hoewel dit een leuk initiatief is, lijkt het me niet mogelijk 'alles' op te slaan.

"We have a shadow of the world that we're able to capture and make available to the future," said Brewster Kahle, founder of the Internet Archive.

The Internet Archive is a massive collection of Web sites donated by the Alexa Internet, an arm of Amazon.com. It preserves those Web pages that would otherwise be wiped from computer memories and lost forever.

"The way we're able to pull this off is by having robots that go around and contact every Web server around the world periodically, and download each page -- each image -- off of every one of those sites," Kahle said.

Begun in 1996, the collection included only text until this year, when the Internet Archive began collecting images at a rate of about 200 images every five seconds.
(...)
Why save the entire Internet, when some would argue that most of it is junk?

Referring to newspapers of the past, Kahle said, "If we had been selective, we probably would have kept all the articles and thrown away those ads, but it's the ads that the historians really like. That's what gives them a much better glimpse of what life was like."

Klik hier voor een link naar het artikel.

Lees meer

IT-banen

Reacties (49)

Jelmer 9 juli 2000 16:24

Ja ze kunnen best alle webservers af, maar vergeet niet dat er ook een hoop virtual servers zijn die dus geen eigen ip hebben. Ook zul je niet zo eenvoudig alle isp-abbonee-pagina's kunnen vinden. Die van mij bijvoorbeeld staat bij hetnet, maar als ik dan ga zoeken in hun index staat ie nergens! Dit komt natuurlijk omdat ik heb niet heb aangemeld bij deze index. En zo zullen er nog vele anderen zijn die dat ook niet hebben gedaan en dat hoeft dan niet persee alleen bij hetnet te zijn, maar dat kan volgens mij bij de meeste gratis homepage aanbieders wel. Maar ook bijv pagina's zoals de webhomes van de users van tweakers server. Deze kun je op geen mogelijkheid vinden, alleen via proberen!

vanDaal 9 juli 2000 16:31

Overigens, hieronder staat de link naar de website van onze archivisten:

www.archive.org/

Te lezen is dat ze tot nu toe al 15 Terabyte aan informatie hebben opgeslagen. Deze informatie is gratis te doorzoeken. Je zult wel wat Unix capaciteiten moeten bezitten, aangezien je alleen via een secure shell toegang verbinding kunt maken met de resources. Voor de opslag van informatie zijn een heel aantal Linux bakken gebruikt met elk 12 tot 20 harde schijven daarin.

Het project wordt overigens gefinancierd met giften.

* 786562 vanDaal

Opa 9 juli 2000 16:54

Mr B: je draaft door.
Als IBM zegt "8 trillion bytes", dan bedoelen ze in goed Nederlands 8 biljoen bytes, dus 7450 GB dus 100 van die schijffies.

Blijft natuurlijk een slag in de lucht van IBM en persoonlijk denk ik eigenlijk ook dat het meer is.

Al met al betwijfel ik de haalbaarheid van dit project.

Verwijderd 9 juli 2000 17:14

Mag dit zomaar? Je komt toch al snel in conflict met auteursrechten en zo. Hoe zouden ze dat hebben afgetimmerd, ze kunenn toch moeilijk aan alle websites ter wereld toestemming gaan vragen.

Jasper Janssen 9 juli 2000 18:08

</div><div class=b4>Jaaaa, de reclames dat is de realiteit. Alsof je over 50 jaar nogeens het internet archief gaat doorspitten op zoek naar die ene .jpg van een één of ander merk. Die gasten hebben nix beters te doen zeker.</div><div class=b1>

Jij kent geen historici, das duidelijk.

</div><div class=b4>Dat kan ik me wel voorstellen. Eigenlijk is het ook gewoon jatten wat je doet. Ik vraag me af of dit allemaal wel zo legaal is. Op veel websites staat gewoon copyright, wat meestal al inhoudt dat er gewoon niet gecopieerd (laat staan zelf gebruiken) mag worden. </div><div class=b1>

Fair Use. Archivering mag over het algemeen gewoon, net als bijv. Dejanews^H^H^H^H.com niet illegaal bezig is.

basz 9 juli 2000 18:12

Ik denk dat het allemaal best haalbaar is.

Je hebt tegenwoordig van die schitterende storage-servers die stand-alone zo'n 5TB aan data kwijt kunnen. Kijk op www.adic.com (o.a. de scalar100 e.d.). Ze zijn er ook in tower-vorm met 3 servertjes gelinkt. 15TB dus. En dat kleiner dan een normale 19inch kast.
Uitgaande van de middeleeuwse schatting van IBM en de groeifactor van internet die op dit moment behoorlijk is moeten 10 van die torentjes toch genoeg zijn. 150TB aan dataopslag. (mp3.archive.org?)

En als je leest dat ze 200plaatjes per seconde binnen halen denk ik dat de connectie ook wel goed zit. Een gemiddeld plaatje is al gauw 40KB, dus 200x40KB=8000KB/s=8MB/s=80Mb/s. Een 80mbit verbinding dus.

Echt duur is het ook niet. Zo'n 5TB-servertje kost zo'n f50.000. Met sponsoring van een paar grote jongens haal je dat zo.

* 786562 Basz

knakworst 9 juli 2000 18:12

</div><div class=b4>Dat kan ik me wel voorstellen. Eigenlijk is het ook gewoon jatten wat je doet. Ik vraag me af of dit allemaal wel zo legaal is. Op veel websites staat gewoon copyright, wat meestal al inhoudt dat er gewoon niet gecopieerd (laat staan zelf gebruiken) mag worden. </div><div class=b1>
Hehe wou je ook zeggen dat een Proxy-server illegaal is?

vanDaal 9 juli 2000 18:49

Hieronder wat interessante informatie uit de FAQ, waarmee een aantal van de bovenstaande vragen worden beantwoord:

</div><div class=b4>Do you collect all the sites on the Web?
No, we collect only publicly accessible Web pages. If there is any indication that a site’s owner doesn’t want us to archive the site, we don’t.</div><div class=b1>

</div><div class=b4>Are you violating copyright laws?
No. Like your local library’s collections, our collections consist of publicly available documents. But in our case, the Archive has collected only pages that were available on the Internet at no cost and without passwords or special privileges. Even further, the authors of Web pages can remove their documents from the collection.</div><div class=b1>
Dit betekent dat dus lang niet alle sites worden opgenomen. Als je nagaat dat geen commerciële en geen afgeschermde sites worden gearchiveerd, vallen er toch een heel aantal af. Dat scheelt alweer in ruimte

. Dus movemoor, met auteursrechten wordt wel degelijk rekening gehouden.

</div><div class=b4>Like a public library, the Archive provides free and open access to its collections to researchers, historians, scholars, and possibly to the general public. Our cultural norms have long promoted access to documents that were, but no longer are, publicly accessible.</div><div class=b1>
Er is dus wel degelijk een belangrijk doel. Al die informatie is natuurlijk behoorlijk nuttig bij toekomstige onderzoeken.

</div><div class=b4>Storing the Archive’s collections involves parsing, indexing, and physically encoding the data. With the Internet collections growing at a rate of about 2 terabytes a month, this task poses a formidable challenge.For hardware, we use Linux PCs with clusters of IDE hard drives. Data collected until late 1998 was collected on DLT tape (a relatively inexpensive storage medium that is, however, too slow for querying). We are in the process of migrating that data to disk.</div><div class=b1>
Er worden dus geen SCSI drives gebruikt, maar gewone IDE drives. Voor de opslag worden DLT tapes gebruikt. Dit zijn relatief trage opslagmedia, waar varierend van 10 tot 70GB opgeslagen kan worden (zie www.gdcinc.com/dlt.html). Dit betekent dat er toch wel een heel aantal van die dingen worden gebruikt. Ik zie dat deze drives worden gesponsord door Quantum.

</div><div class=b4>rare knakkers, dit kost echt klauwen vol met geld.. wie betaald dit nou eigenlijk ? Ik zie geen commercieel nut hiervan .. tenminste niet eentje waarvan ze hun (ongetwijfeld) enorme omkosten meer kunnen compenseren</div><div class=b1>
Als je bekijkt dat de opslagmedia worden betaald door Quantum, verwacht ik dat de verdere financiers zijn:
- de overheid (publieke service met publiek doel)
- donateurs

knakworst:
hmm... zoals je hierboven kunt lezen ben ik al van mijn legitimiteitstwijfel af

* 786562 vanDaal

Jasper Janssen 9 juli 2000 22:47

</div><div class=b4>Wat ik gelezen heb was een vertaling; het ging wel degelijk om 8 triljoen bytes...</div><div class=b1>

Slechte vertaling, niet dat dat zeldzaam is.

8 triljoen == 8e18

Gemiddelde aantal bytes per IP adres: 8e18/2^32 == 1.86e9.

Wat natuurlijk volledige onzin is, gemiddeld ruim anderhalve gigabyte data op het web per computer, nog even afgezien van het feit dat achter lang niet ieder IP adres ook echt een computer zit, het overgrote merendeel van comps op het net zijn pure clients. Zelfs grote websites (tweakers, hotmail, tomshardware, etcetc.) hebben over het algemeen geen 1.5 GB aan publiek toegankelijke niet dynamisch gegenereerde informatie.

Budha 10 juli 2000 00:52

Jasper Janssen schreef:
</div><div class=b4>...nog even afgezien van het feit dat achter lang niet ieder IP adres ook echt een computer zit...</div><div class=b1>
Dat is waar, maar aan de andere kant kan een webserver op één IP adres wel meerdere sites hosten.

De grote sites der aarde zijn veelvouden van GBs groot. Denk maar aan een site als Terraserver waar satellietfoto's van bijna de hele bewoonde wereld staan. Zoals Robin al ongeveer zei worden duizenden sites gegenereerd door server side scripts op basis van databases. Als je alle pagina's die hieruit voort kunnen komen optelt kom je op enorme hoeveelheid data uit. Maar zelfs als je alleen de grootte van de database bij de omvang van alle afbeeldingen en html-code op zou tellen kom je nog makkelijk op GBs uit.

Naar mijn idee kun je geen reële schatting maken van de omvang van het "internet" of beter het World Wide Web. De verschillende onderdelen waaruit een webpagina is opgebouwd worden continu hergebruikt op een andere pagina, maar daarmee blijven die onderdelen afzonderlijk wel even groot. Net zoals je van de kleding uit je kast honderden combinaties kunt maken (hoewel ze niet allemaal even mooi zijn). Een robot kan niet weten wat jij in de kast hebt hangen en zal slechts die combinaties zien die jij buiten de deur draagt.

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (49)

Sorteer op:

Weergave: