Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 73 reacties
Submitter: ieperlingetje

De Internet Archive Organization opent woensdag officieel een nieuw modulair datacenter voor zijn Wayback Machine. Op de servers, die afkomstig zijn van Sun, komt in totaal twee petabyte aan extra opslagcapaciteit beschikbaar.

Internet ArchiveHet Internet Archive, dat wordt gerund door een nonprofit-organisatie, heeft zich tot taak gesteld om grote delen van het web te archiveren. Zo kan onder andere bekeken worden hoe Tweakers.net er in het verleden uitzag. Inmiddels heeft de Wayback Machine 85 miljard webpagina's gearchiveerd, goed voor in totaal drie petabyte aan data. Vijf jaar geleden bedroeg dat aantal 'slechts' 30 miljard pagina's. Het archief slaat naast pagina's ook software, muziek, boeken en audiofragmenten op. Uit veiligheidsoverwegingen is het gehele archief gemirrored in een rekencentrum in de Egyptische havenstad Alexandrië.

Omdat het archief maandelijks groeit met 100TB, stapt de organisatie deels over van 'klassieke' datacenters met linux-servers naar een Sun Modular Datacenter. Daarbij worden alle servers gehuisvest in een eenvoudig verplaatsbare zeecontainer. De data zal opgeslagen worden op Sun Fire x4500s-servers die draaien op Solaris 10 met het zfs-bestandssysteem. Volgens Sun is zijn modulaire datacenter in een tiende van de tijd gebouwd die nodig zou zijn om een traditioneel datacenter te bouwen. Verder weet de serverfabrikant te melden dat de Wayback Machine straks vijfhonderd aanvragen per seconde kan verwerken, maar dat de gebruikersinterface voorlopig niet zal veranderen.

Moderatie-faq Wijzig weergave

Reacties (73)

Ondanks dat ik het allemaal heel goed vind wat de organisatie doet (websites van ~10 jaar geleden bekijken is gewoon leuk, de nostalgie :)) vraag ik me toch wel af hoe ze aan het geld komen om even een setje x4500-servers te kopen bij Sun. Je ziet nergens advertenties, duidelijke donatie-knoppen of andere manieren om omzet te genereren.

Wat ik nog wel jammer vind is dat heel veel pagina's, ook die uit de zoekmachine komen rollen, linken naar een error dat het niet weergegeven kan worden. Blijkbaar bestaan ze dus wel maar is de server waarop deze opgeslagen staan niet bereikbaar. Dat werkt soms nog wel eens verwarrend.
Ik vraag het me ook al af hoor, maar ze hebben wl een donatie knop op hun website.
zie: http://www.archive.org/donate/ :)

Daarbij staat bij het lijstje van donateurs o.a. HP vermeld, waarschijnlijk zijn er gewoon wat bedrijven die het concern sponsoren met een vast bedrag per maand. Al het dan vreemd zou zijn dat ze servers van Sun kopen en niet van HP. Maar wellicht hebben die hun ook een passende aanbieding gedaan ;)

Voor een lijstje van donateurs zie: http://www.archive.org/donate/donors.php
Sun zal zelf ook wel een duit in het zakje hebben gedaan, dit is gewoon goeie reclame voor Sun! Niet dat ze zich meer hoeven te bewijzen, maar toch.
Op zich logisch dat ze ZFS ervoor inzetten omdat deze zijn data incremental opslaat, dus dat scheelt heel veel data.

Tevens valt er met de zogenoemde time-slider heel makkelijk terug te gaan naar een oude staat van bestanden/mappen. Dit is ideaal voor een dienst die dit als hoofddoel stelt.

Continue uitbreiding is vanwege de dienst ook noodzakelijk, en dit word on-the-fly aangeboden in ZFS.

Je zou haast denken dat ZFS speciaal voor de Wayback Machine is geschreven :D
Ik vind iets als lustre overigens veel logischer dan alleen ZFS omdat je het hier over meerdere servers hebt (een complete zeecontainer vol). ZFS met de features die je beschrijft is alleen nuttig indien je welgeteld 1 server hebt. ZFS werkt namelijk niet via een netwerk maar gewoon lokaal met de disks die fysiek in de machine zitten. Dat maakt het dan ook voor dit geval ongeschikt. Je hebt hier een zeecontainer vol met systemen die samen 1 groot filesystem vormen. Voor dat soort toepassingen heb je systemen als lustre. Wanneer er dan 1 systeem plat gaat vangt de rest dat op. Lokaal gezien kun je op iedere server dan nog wel iets van ZFS gebruiken maar de vraag is of het nog zinnig is om de features zoals de time-slider te gebruiken, het netwerk vangt dit in principe al af. Continue uitbreiding met ZFS is ook alleen mogelijk met disks die fysiek aan dat systeem zijn gekoppeld. Daar de machines al gewoon helemaal volgestouwd worden en ze eerder het aantal servers zullen uitbreiden is de ZFS mogelijkheid omtrent uitbreiding van de pool ook compleet zinloos. Uitbreiding komt er bij dit soort gevallen neer op het bijplaatsen van een of meerdere servers.

ZFS is hier dus helemaal niet ideaal omdat het zich beperkt tot de lokale disks en het niet over servers heen werkt. Dingen als lustre zijn voor dit soort toepassingen juist wel ideaal omdat je het met dit soort filesystems allemaal wel kunt. De combinatie daarentegen zou prima kunnen werken en zal ongetwijfeld wel worden gebruikt. De x4400 machines komen namelijk met OpenSolaris die standaard ZFS gebruikt. Lustre is ook een filesystem die van Sun is.

Het is leuk bedacht maar je zult echter op een veel grotere schaal moeten denken. Het verschil tussen een stuk of 70~80 servers die samen 1 filesystem moeten vormen en 1 fileserver is gigantisch; het vereist een compleet andere aanpak en dan is ZFS alleen niet meer genoeg, ook niet met de features die het biedt.
http://web.archive.org/web/*/http://tweakers.net

Het is wel eens leuk om te kijken hoe sites er vroeger uit zagen. Maar heeft dit ook een nut?
Die link staat ook al in het artikel zelf.
Maar om je vraag te beantwoorden: dat heeft nut. Het archiveren van het internet heeft alleen al nut omdat archieven een enorme historische waarde vertegenwoordigen. De enorme groei van de hoeveelheid informatie en de manieren waarop dat uitgewisseld wordt (zowel qua medium als qua format) levert archivarisen dan ook enorme hoofdbrekers op. Papier bewaren is moeilijk, maar digitale informatie paradoxaal genoeg nog veel moeilijker.

De opkomt van het internet heeft een behoorlijk aantal grote veranderingen in de maatschappij tegeweeg gebracht, in een hele korte periode. Het kunnen bestuderen van deze veranderingen, en van de veranderingen in het medium zelf is dan ook van historisch en sociologisch groot belang. Alleen al daarvoor zijn dit soort archieven een erg goede zaak.
Kan iemand zich het debacle omtrend gmail.de herinneren? Gast in duitsland die Google aanklaagde omdat het gebruik zou maken van zijn merknaam (Giersch Mail). Google mocht daarna de naam gmail niet meer in duitsland gebruiken en dit zou zich eventueel later verspreiden naar de rest van Europa.

Op de Wayback machine kan je mooi zien dat het opgezet spel is geweest. Had Google deze gegevens gebruikt in hun rechtzaak tegen Giersch dan hadden ze gewonnen. Je ziet op de wayback machine heel mooi dat het domein gmail.de voor hele andere dingen gebruikt wordt en pas nadat Google Mail gelanceerd werd, hij na een half jaar het gmail.de domein ging gebruiken voor een mailservice zodat hij een rechtzaak kon aanspannen.

De Wayback machine kan voor heel veel juridische zaken worden ingezet. Helaas moet je er wel even aan denken :)
In de Shareaza VS Discordia-zaak (linkje), dat spijtig genoeg nog altijd actief is, en waar ik nog altijd in touch bij blijf, is Wayback totaal geen geldig argument, het werd direct weggegooid als onbetrouwbaar bewijs
De verouderde rechtsystemen weigeren informatie van het internet te gebruiken, ook al is het afkomstig van een vertrouwde bron. Deze achterdocht is nefast voor een eerlijke zaak omtrent iets dat zich op het internet verhoudt.
Sad, but true, totdat er natuurlijk eens grondige (en globale) veranderingen teweeg gebracht worden.
Ik kan het wel begrijpen dat het rechtssysteem dit soort informatie van het internet niet als geldig of betrouwbaar bewijs ziet, het is immers zeer eenvoudig aan te passen, zeker als je de server in eigen beheer hebt. Al zou ik zelf zeggen dat het internet archive een betrouwbare bron zou moeten zijn. Echter ook dan nog is het mogelijk dat iemand in die servers inbreekt om de gegevens aan te passen.
Denk je echt dat de heren van google daar niet aan gedacht hebben? Lijkt mij stug om eerlijk te zijn.
Natuurlijk heeft dat nut, geschiedenis is niet geheel onbelangrijk me dunkt. En nu hebben we ook de tools om zo'n beetje alles op te slaan, kan je je de onderzoeken al voorstellen die men over 100-200 jaar gaat doen naar het dagelijkse leven in 1996? Via dit soort pages kunnen ze daar toch een redelijk beeld van proberen te scheppen. Dat is zowiezo al nostalgische waarde, maar ook bijv. nieuws over gebeurtenissen op de wereld die anders al verloren zijn gegaan...
Het is wel eens leuk om te kijken hoe sites er vroeger uit zagen. Maar heeft dit ook een nut?
Zekers, zo kun je bijvoorbeeld nog belangrijke gegevens / content van niet meer bestaande of afgesloten websites halen. En dat is slechts een voorbeeld van een praktische toepassing, zo is het ook gewoon leuk om oude versies van webpagina's te bekijken.
leuk ik krijg dit:
We're sorry, access to http://tweakers.net has been blocked by the site owner via robots.txt.
Gelukkig heeft Tweakers de extensie .net want anders zou het amper tot niet gearchiveerd zijn. De Internet Archive is namelijk een officieus deel van de Library of Congress en de Smithsonian Institute.

Men archiveert het Amerikaanse internet door alle .com .net .org regelmatig te bezoeken, filteren op locatie is lastig dus die paar miljoen extra buitenlandse sites gaan gewoon "mee" in de backup.
Je kunt je site toe laten voegen en ook laten verwijderen als je niet in het archief wil. De FAQ legt uit hoe: How can I get my site included in the Wayback Machine? & How can I remove my site's pages from the Wayback Machine?. Er zijn dus nogal wat mogelijkheden om niet .net, .com, etc. toe te laten voegen. Overigens ben ik ook al vaak genoeg de nodige .nl sites tegengekomen zoals die van diverse hogescholen.
Inmiddels heeft de Wayback Machine 85 miljard webpagina's gearchiveerd, goed voor in totaal drie petabyte aan data. Vijf jaar geleden bedroeg dat aantal 'slechts' 30 miljard pagina's.
Ben ik de enige die dat een trage groei vindt? Het betreft ietsje meer dan een verdubbeling in vijf jaar, terwijl het internet zelf (qua content) veel sneller gegroeid is. Dat betekent dat het gedeelte dat gearchiveerd wordt steeds kleiner is. Heeft iemand een idee hoe er besloten wordt wat er wel, en wat er niet gearchiveerd wordt in de Wayback machine?
Dat zat ik me ook al af te vragen. Een verdubbeling in vijf jaar is natuurlijk niet echt veel. Wel goed natuurlijk maar het archief wordt er in verhouding met het internet niet veel groter op.
als de vernieuwde versie er nog hetzelfde uitziet dan de vorige versie, dan moet er niet veel extra data opgeslagen worden.
Enkel nieuwe sites, of met een volledig nieuwe opmaak nemen dan dus extra ruimte in.
Omgerekend is dat gemiddeld 1 pagina per 5 km landoppervlakte per dag.

(85.000.000.000 - 30.000.000.000) / (5 jaar * 365 dagen * 148647000 km landoppervlakte) ≈ 0,2 per km dus ≈ 1 per 5 km

Dat is niet zo veel nee. De internetbubble is echt helemaal geknapt...
als ik even tussendoor mag rekenen, is het:
85/30=2.83

het is dus bijna een verdriedubbeling en geen verdubbeling.
Wat het nut hier van is? Archivering. Geschreven bronnen blijven, behalve de occasionele brand, raadpleegbaar. Het internet daarentegen is een constant stroom van vluchtige informatie. Vanuit een geschiedenisbeschrijvend oogpunt is het verschrikkelijk dat die informatie verloren gaat zonder een bewijs achter te laten. Nochtans kan het interessant zijn om een website te zien zoals ze ooit was, al geef ik toe dat er gigantisch veel informatie opgeslagen wordt die nooit enig nut zal hebben. Maar het is schier onmogelijk om op voorhand een selectie te maken van informatie die ooit nuttig zou kunnen zijn. Vergelijk met een klassiek archief van kranten: ook daar wordt veel (waarschijnlijk) overbodige informatie opgeslaan (bv. de zoekertjes, de contactadvertenties, de reclame,...). Maar je weet nooit waarvoor het kan dienen. En dat is net de kern van archivering.

-------

Best leuk, toen google nog een googletje was: http://web.archive.org/web/19990125084553/alpha.google.com/.

Spijtig dat ik m'n eigen eerste website uit 1996 niet meer terugvind :)
Zo'n mobiele serverkast zou ik ook wel willen hebben, 2 Petabyte ter grootte van een zeecontainer.... dan is met standaard schijven echt zeer zeker onmogelijk....
Als je de twee Terabyte schijven van WD green neemt heb je precies 1000 schijven nodig, dat moet wel te doen zijn denk ik zo.
dat zijn niet bepaald schijven die bedoeld zijn voor dit soort zaken echter.

dit soort toepassingen blijven het onbetwiste domein van SCSI.
Dan moet je je toch wat beter inlezen in de materie... Want de Sun Fire x4500 kan alleen met SATA-schijven geleverd worden ;) Wel gelijk 48 stuks in een 4U behuizing.

Tegenwoordig geldt dat als je veel, maar geen extreem snelle, storage moet hebben, dat ook SATA dan prima voldoet in een datacentrum.

[Reactie gewijzigd door ACM op 22 maart 2009 11:00]

De tijd van SCSI is definitief voorbij. "Enterprise SATA-disk met 24x7 certificatie" is waar tegenwoordig om gevraagd wordt. Er is voor specifieke toepassingen (o.a. databases) nog wel vraag naar SAS, maar het overgrote deel van de rekencentra wordt tegenwoordig gevuld door SATA-schijven.
De tijd van SCSI is zeker nog niet voorbij.

Zeker voor database toepassingen zijn SCSI HD's een must. Deze werken ook wat betrouwbaarder dan SATA.

Een gemiddelde LAMP gebruiker merkt daar natuurlijk niets van, maar wel als je met database systemen als ORacle, PostgreSQL, DB2 etc werkt.

Groet,
Ries
De tijd van SCSI is wel degelijk voorbij, SAS is al jaren de opvolger.
En SAS is Serial Attached Wat, precies...?
serial attached scsi :P
Met hedendaagse SAS disks die in heeeeeeeeel veel servers wordt geleverd (je krijgt haast niets anders), standaard SAS controllers die ook in servers met SATA disks zitten (SAS is backwards compatible met SATA wat het een hele mooie techniek maakt) en iSCSI is iets wat in de storage wereld enorm veel gebruikt wordt. Dat laatste is niet mogelijk met iets als SATA. De enige reden waarom je vaak SATA ziet in servers is vanwege de veel lagere aanschafskosten. Als je echter wat verder dan dat gaat kijken is SATA voor een aantal toepassingen toch niet meer zo heel erg handig omdat dan geldt dat goedkoop duurkoop is. Een SATA disk zie ik niet zo snel in 15k rpm variant en SATA support lang niet alle mogelijkheden die SCSI/SAS bieden.
iSCSI is een netwerkprotcool, waarom zou dat niet samen kunnen werken met SATA schijven :?
SATA Word juist icm iSCSI gebruikt. Voor "langzame" storage zoals bijvoorbeeld fileopslag of backup toepassingen op remote sites.

snelle iSCSI storage is met SAS 10K of SAS15K en tegenwoordig ook SSD.

voorbeeld van een flinke SATA iSCSI SAN.

[Reactie gewijzigd door loodgieter op 23 maart 2009 00:06]

En anders zitten we voor de servers al op SAS schijven de SATA-achtige interface... SCSI is wel erg uit de mode ;)
SAS is gewoon een SCSI variant netzoals SCSI-2 en UltraSCSI dat ook zijn. Als SCSI heel erg uit de mode zou zijn dan moet SAS dat dus ook zijn ;)
Het ext4 bestandssysteem ondersteunt filesystems tot 1 EB (exabyte), dus 1000 PB. Nu kun je je misschien niet indenken dat we ooit filesystems van 1 PB of zelfs 1 EB nodig zullen hebben, maar had jij 10 jaar geleden gedacht dat je ooit een harde schijf van 2 TB nodig zou hebben?
Ext4 is alleen een beetje een slecht voorbeeld omdat het leuk is om dat te gebruiken voor disks in 1 machine. Dit soort dingen worden eerder over netwerken gedaan waarbij je dan hele andere systemen/technieken gebruikt. Google doet dit o.a. ook net als zoveel anderen.
Vanwege deze "beperking" in ext4 dat het maximaal 1 EB aankan gebruikt men ZFS zodat men geen probleem heeft in de toekomst als die grens doorbroken word ;)
inderdaad want het ZFS bestandsysteem, kan al ZB's aan (Zotabyte) wat weer gelijk staat aan 1000 EB.
Ik vraag mij heel serieus af waar je 2 TB voor nodig zou hebben, nodig staat naar mijn gevoel in de context van 'als je dat niet hebt dan kun bepaalde zaken niet doen'. In het bedrijfsleven kan ik mij dat nog net een beetje voorstellen, geheel afhankelijk van het type onderneming uiteraard.

Alleen thuis? Nodig hebben? 2 TB :|
Ik geloof dat het meerdere containers zijn. Als je een modulair datacenter hebt van 1 module (1 container) is het niet modulair meer lijkt me?
n rack moet voldoende zijn voor die 2 PetaByte. Dus een 'prestatie' m.b.t. veel data in kleine ruimte is het iig niet.
Wayback machine gaat draaien op het ZFS Filesystem? Ik heb mij laten vertellen dat dit een tijd terug nog voor veel dataverlies na een crash heeft gezorgt.
Is dit tegenwoordig stabiel dan?
Dat is tegenwoordig in Solaris heel erg stabiel. Aangezien ze vast graag 1 grote storagepool willen hebben zullen ze nog wel wat meer dan alleen ZFS gebruiken.

Die instabiliteit van ZFS komt waarschijnlijk uit FreeBSD en Linux vandaan. In Linux gaat het via FUSE, in FreeBSD zijn er op dit moment nog wat problemen met geheugen wat komt door hoe de kernel met bepaalde geheugen omgaat. In versie 7.1 is het al stabieler geworden en in versie 8 zouden dit soort dingen opgelost moeten zijn net als dat bijna alle features van ZFS ondersteund zullen zijn. Desondanks is ZFS in FreeBSD heel stabiel te krijgen, het kost je alleen heel veel werk (je zult flink wat tijd moeten steken in het tweaken van settings). In OS X hebben ze ook wat zitten maar dat beperkt zich vooralsnog tot read-only, Snow Leopard moet rw support mee brengen. Overigens zijn al deze projecten nog bezig met een oudere versie van ZFS, in OpenSolaris en Solaris wordt een nieuwere versie gebruikt die ook meer features heeft.
maar dat de gebruikersinterface voorlopig niet zal veranderen.
Erg jammer, het is een geweldige site en vooral super handig als je informatie op een pagina wil bekijken die offline is gegaan. Maar de interface en design van de pagina is toch wel een beetje achterhaald. Het verdient nog net geen plekje in het 'Web 1.0 websites' topic op GoT maar het komt aardig in de buurt als je het mij vraagt.
het ziet er niet echt modern uit, akkoord. Maar het wrkt wel :) Zolang het werkt, is er geen noodzaak om de looks aan te passen. Zeker aangezien iemand de wijzigingen zou moeten betalen.

Bovendien ben ik vana mening dat de nostalgische looks van de pagina heel nauw aansluiten bij de functie; prima toch? :)
Wel jammer dat hij web 2.0 site niet heel goed opslaat, zie bijv. Tweakers.net op 30dec 2007 en ook de datums in 2008 geven een zelfde slecht resultaat

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True