Hoofdcategorieën
Device Settings

Wayback Machine krijgt modulair datacenter met 2 petabyte opslag

Door Dimitri Reijerman, zondag 22 maart 2009 10:13
Submitter: ieperlingetje, views: 22.930

De Internet Archive Organization opent woensdag officieel een nieuw modulair datacenter voor zijn Wayback Machine. Op de servers, die afkomstig zijn van Sun, komt in totaal twee petabyte aan extra opslagcapaciteit beschikbaar.

Internet ArchiveHet Internet Archive, dat wordt gerund door een nonprofit-organisatie, heeft zich tot taak gesteld om grote delen van het web te archiveren. Zo kan onder andere bekeken worden hoe Tweakers.net er in het verleden uitzag. Inmiddels heeft de Wayback Machine 85 miljard webpagina's gearchiveerd, goed voor in totaal drie petabyte aan data. Vijf jaar geleden bedroeg dat aantal 'slechts' 30 miljard pagina's. Het archief slaat naast pagina's ook software, muziek, boeken en audiofragmenten op. Uit veiligheidsoverwegingen is het gehele archief gemirrored in een rekencentrum in de Egyptische havenstad Alexandrië.

Omdat het archief maandelijks groeit met 100TB, stapt de organisatie deels over van 'klassieke' datacenters met linux-servers naar een Sun Modular Datacenter. Daarbij worden alle servers gehuisvest in een eenvoudig verplaatsbare zeecontainer. De data zal opgeslagen worden op Sun Fire x4500s-servers die draaien op Solaris 10 met het zfs-bestandssysteem. Volgens Sun is zijn modulaire datacenter in een tiende van de tijd gebouwd die nodig zou zijn om een traditioneel datacenter te bouwen. Verder weet de serverfabrikant te melden dat de Wayback Machine straks vijfhonderd aanvragen per seconde kan verwerken, maar dat de gebruikersinterface voorlopig niet zal veranderen.

Volgende 11:56 Lian-Li introduceert nieuwe htpc-behuizingen
Vorige 16:46 Microsoft dient nieuwe css-testen in bij W3C
Advertentie

Reacties

«  1  2  3  »

Ondanks dat ik het allemaal heel goed vind wat de organisatie doet (websites van ~10 jaar geleden bekijken is gewoon leuk, de nostalgie :)) vraag ik me toch wel af hoe ze aan het geld komen om even een setje x4500-servers te kopen bij Sun. Je ziet nergens advertenties, duidelijke donatie-knoppen of andere manieren om omzet te genereren.

Wat ik nog wel jammer vind is dat heel veel pagina's, ook die uit de zoekmachine komen rollen, linken naar een error dat het niet weergegeven kan worden. Blijkbaar bestaan ze dus wel maar is de server waarop deze opgeslagen staan niet bereikbaar. Dat werkt soms nog wel eens verwarrend.

Ik vraag het me ook al af hoor, maar ze hebben wél een donatie knop op hun website.
zie: http://www.archive.org/donate/ :)

Daarbij staat bij het lijstje van donateurs o.a. HP vermeld, waarschijnlijk zijn er gewoon wat bedrijven die het concern sponsoren met een vast bedrag per maand. Al het dan vreemd zou zijn dat ze servers van Sun kopen en niet van HP. Maar wellicht hebben die hun ook een passende aanbieding gedaan ;)

Voor een lijstje van donateurs zie: http://www.archive.org/donate/donors.php

Sun zal zelf ook wel een duit in het zakje hebben gedaan, dit is gewoon goeie reclame voor Sun! Niet dat ze zich meer hoeven te bewijzen, maar toch.

maar dat de gebruikersinterface voorlopig niet zal veranderen.
Erg jammer, het is een geweldige site en vooral super handig als je informatie op een pagina wil bekijken die offline is gegaan. Maar de interface en design van de pagina is toch wel een beetje achterhaald. Het verdient nog net geen plekje in het 'Web 1.0 websites' topic op GoT maar het komt aardig in de buurt als je het mij vraagt.

het ziet er niet echt modern uit, akkoord. Maar het wérkt wel :) Zolang het werkt, is er geen noodzaak om de looks aan te passen. Zeker aangezien iemand de wijzigingen zou moeten betalen.

Bovendien ben ik vana mening dat de nostalgische looks van de pagina heel nauw aansluiten bij de functie; prima toch? :)

petabyte? moet dat niet pentabyte zijn?:$

Petabyte is goed, ofwel:

1,000,000,000,000,000 (10^15) bytes

of

1000 TB

en dat 2 maal is dus 2000 Terabyte

[Reactie gewijzigd door jura321 op zondag 22 maart 2009 10:38]


Zo'n mobiele serverkast zou ik ook wel willen hebben, 2 Petabyte ter grootte van een zeecontainer.... dan is met standaard schijven echt zeer zeker onmogelijk....

Als je de twee Terabyte schijven van WD green neemt heb je precies 1000 schijven nodig, dat moet wel te doen zijn denk ik zo.

dat zijn niet bepaald schijven die bedoeld zijn voor dit soort zaken echter.

dit soort toepassingen blijven het onbetwiste domein van SCSI.

Dan moet je je toch wat beter inlezen in de materie... Want de Sun Fire x4500 kan alleen met SATA-schijven geleverd worden ;) Wel gelijk 48 stuks in een 4U behuizing.

Tegenwoordig geldt dat als je veel, maar geen extreem snelle, storage moet hebben, dat ook SATA dan prima voldoet in een datacentrum.

[Reactie gewijzigd door ACM op zondag 22 maart 2009 11:00]


De tijd van SCSI is definitief voorbij. "Enterprise SATA-disk met 24x7 certificatie" is waar tegenwoordig om gevraagd wordt. Er is voor specifieke toepassingen (o.a. databases) nog wel vraag naar SAS, maar het overgrote deel van de rekencentra wordt tegenwoordig gevuld door SATA-schijven.

De tijd van SCSI is zeker nog niet voorbij.

Zeker voor database toepassingen zijn SCSI HD's een must. Deze werken ook wat betrouwbaarder dan SATA.

Een gemiddelde LAMP gebruiker merkt daar natuurlijk niets van, maar wel als je met database systemen als ORacle, PostgreSQL, DB2 etc werkt.

Groet,
Ries

De tijd van SCSI is wel degelijk voorbij, SAS is al jaren de opvolger.

En SAS is Serial Attached Wat, precies...?

serial attached scsi :P

Met hedendaagse SAS disks die in heeeeeeeeel veel servers wordt geleverd (je krijgt haast niets anders), standaard SAS controllers die ook in servers met SATA disks zitten (SAS is backwards compatible met SATA wat het een hele mooie techniek maakt) en iSCSI is iets wat in de storage wereld enorm veel gebruikt wordt. Dat laatste is niet mogelijk met iets als SATA. De enige reden waarom je vaak SATA ziet in servers is vanwege de veel lagere aanschafskosten. Als je echter wat verder dan dat gaat kijken is SATA voor een aantal toepassingen toch niet meer zo heel erg handig omdat dan geldt dat goedkoop duurkoop is. Een SATA disk zie ik niet zo snel in 15k rpm variant en SATA support lang niet alle mogelijkheden die SCSI/SAS bieden.

iSCSI is een netwerkprotcool, waarom zou dat niet samen kunnen werken met SATA schijven :?

SATA Word juist icm iSCSI gebruikt. Voor "langzame" storage zoals bijvoorbeeld fileopslag of backup toepassingen op remote sites.

snelle iSCSI storage is met SAS 10K of SAS15K en tegenwoordig ook SSD.

voorbeeld van een flinke SATA iSCSI SAN.

[Reactie gewijzigd door loodgieter op maandag 23 maart 2009 00:06]


En anders zitten we voor de servers al op SAS schijven de SATA-achtige interface... SCSI is wel erg uit de mode ;)

SAS is gewoon een SCSI variant netzoals SCSI-2 en UltraSCSI dat ook zijn. Als SCSI heel erg uit de mode zou zijn dan moet SAS dat dus ook zijn ;)

Het ext4 bestandssysteem ondersteunt filesystems tot 1 EB (exabyte), dus 1000 PB. Nu kun je je misschien niet indenken dat we ooit filesystems van 1 PB of zelfs 1 EB nodig zullen hebben, maar had jij 10 jaar geleden gedacht dat je ooit een harde schijf van 2 TB nodig zou hebben?

Ext4 is alleen een beetje een slecht voorbeeld omdat het leuk is om dat te gebruiken voor disks in 1 machine. Dit soort dingen worden eerder over netwerken gedaan waarbij je dan hele andere systemen/technieken gebruikt. Google doet dit o.a. ook net als zoveel anderen.

Vanwege deze "beperking" in ext4 dat het maximaal 1 EB aankan gebruikt men ZFS zodat men geen probleem heeft in de toekomst als die grens doorbroken word ;)

inderdaad want het ZFS bestandsysteem, kan al ZB's aan (Zotabyte) wat weer gelijk staat aan 1000 EB.

Ik vraag mij heel serieus af waar je 2 TB voor nodig zou hebben, nodig staat naar mijn gevoel in de context van 'als je dat niet hebt dan kun bepaalde zaken niet doen'. In het bedrijfsleven kan ik mij dat nog net een beetje voorstellen, geheel afhankelijk van het type onderneming uiteraard.

Alleen thuis? Nodig hebben? 2 TB :|

Ik geloof dat het meerdere containers zijn. Als je een modulair datacenter hebt van 1 module (1 container) is het niet modulair meer lijkt me?

Één rack moet voldoende zijn voor die 2 PetaByte. Dus een 'prestatie' m.b.t. veel data in kleine ruimte is het iig niet.

Wel jammer dat hij web 2.0 site niet heel goed opslaat, zie bijv. Tweakers.net op 30dec 2007 en ook de datums in 2008 geven een zelfde slecht resultaat

Inmiddels heeft de Wayback Machine 85 miljard webpagina's gearchiveerd, goed voor in totaal drie petabyte aan data. Vijf jaar geleden bedroeg dat aantal 'slechts' 30 miljard pagina's.
Ben ik de enige die dat een trage groei vindt? Het betreft ietsje meer dan een verdubbeling in vijf jaar, terwijl het internet zelf (qua content) veel sneller gegroeid is. Dat betekent dat het gedeelte dat gearchiveerd wordt steeds kleiner is. Heeft iemand een idee hoe er besloten wordt wat er wel, en wat er niet gearchiveerd wordt in de Wayback machine?

Dat zat ik me ook al af te vragen. Een verdubbeling in vijf jaar is natuurlijk niet echt veel. Wel goed natuurlijk maar het archief wordt er in verhouding met het internet niet veel groter op.

als de vernieuwde versie er nog hetzelfde uitziet dan de vorige versie, dan moet er niet veel extra data opgeslagen worden.
Enkel nieuwe sites, of met een volledig nieuwe opmaak nemen dan dus extra ruimte in.

Omgerekend is dat gemiddeld 1 pagina per 5 km² landoppervlakte per dag.

(85.000.000.000 - 30.000.000.000) / (5 jaar * 365 dagen * 148647000 km² landoppervlakte) ≈ 0,2 per km² dus ≈ 1 per 5 km²

Dat is niet zo veel nee. De internetbubble is echt helemaal geknapt...

als ik even tussendoor mag rekenen, is het:
85/30=2.83

het is dus bijna een verdriedubbeling en geen verdubbeling.

http://web.archive.org/web/*/http://tweakers.net

Het is wel eens leuk om te kijken hoe sites er vroeger uit zagen. Maar heeft dit ook een nut?

Die link staat ook al in het artikel zelf.
Maar om je vraag te beantwoorden: dat heeft nut. Het archiveren van het internet heeft alleen al nut omdat archieven een enorme historische waarde vertegenwoordigen. De enorme groei van de hoeveelheid informatie en de manieren waarop dat uitgewisseld wordt (zowel qua medium als qua format) levert archivarisen dan ook enorme hoofdbrekers op. Papier bewaren is moeilijk, maar digitale informatie paradoxaal genoeg nog veel moeilijker.

De opkomt van het internet heeft een behoorlijk aantal grote veranderingen in de maatschappij tegeweeg gebracht, in een hele korte periode. Het kunnen bestuderen van deze veranderingen, en van de veranderingen in het medium zelf is dan ook van historisch en sociologisch groot belang. Alleen al daarvoor zijn dit soort archieven een erg goede zaak.

Natuurlijk heeft dat nut, geschiedenis is niet geheel onbelangrijk me dunkt. En nu hebben we ook de tools om zo'n beetje alles op te slaan, kan je je de onderzoeken al voorstellen die men over 100-200 jaar gaat doen naar het dagelijkse leven in 1996? Via dit soort pages kunnen ze daar toch een redelijk beeld van proberen te scheppen. Dat is zowiezo al nostalgische waarde, maar ook bijv. nieuws over gebeurtenissen op de wereld die anders al verloren zijn gegaan...

Kan iemand zich het debacle omtrend gmail.de herinneren? Gast in duitsland die Google aanklaagde omdat het gebruik zou maken van zijn merknaam (Giersch Mail). Google mocht daarna de naam gmail niet meer in duitsland gebruiken en dit zou zich eventueel later verspreiden naar de rest van Europa.

Op de Wayback machine kan je mooi zien dat het opgezet spel is geweest. Had Google deze gegevens gebruikt in hun rechtzaak tegen Giersch dan hadden ze gewonnen. Je ziet op de wayback machine heel mooi dat het domein gmail.de voor hele andere dingen gebruikt wordt en pas nadat Google Mail gelanceerd werd, hij na een half jaar het gmail.de domein ging gebruiken voor een mailservice zodat hij een rechtzaak kon aanspannen.

De Wayback machine kan voor heel veel juridische zaken worden ingezet. Helaas moet je er wel even aan denken :)

In de Shareaza VS Discordia-zaak (linkje), dat spijtig genoeg nog altijd actief is, en waar ik nog altijd in touch bij blijf, is Wayback totaal geen geldig argument, het werd direct weggegooid als onbetrouwbaar bewijs
De verouderde rechtsystemen weigeren informatie van het internet te gebruiken, ook al is het afkomstig van een vertrouwde bron. Deze achterdocht is nefast voor een eerlijke zaak omtrent iets dat zich op het internet verhoudt.
Sad, but true, totdat er natuurlijk eens grondige (en globale) veranderingen teweeg gebracht worden.

Ik kan het wel begrijpen dat het rechtssysteem dit soort informatie van het internet niet als geldig of betrouwbaar bewijs ziet, het is immers zeer eenvoudig aan te passen, zeker als je de server in eigen beheer hebt. Al zou ik zelf zeggen dat het internet archive een betrouwbare bron zou moeten zijn. Echter ook dan nog is het mogelijk dat iemand in die servers inbreekt om de gegevens aan te passen.

Denk je echt dat de heren van google daar niet aan gedacht hebben? Lijkt mij stug om eerlijk te zijn.

Het is wel eens leuk om te kijken hoe sites er vroeger uit zagen. Maar heeft dit ook een nut?
Zekers, zo kun je bijvoorbeeld nog belangrijke gegevens / content van niet meer bestaande of afgesloten websites halen. En dat is slechts een voorbeeld van een praktische toepassing, zo is het ook gewoon leuk om oude versies van webpagina's te bekijken.

leuk ik krijg dit:
We're sorry, access to http://tweakers.net has been blocked by the site owner via robots.txt.

Supergaaf dat ze een deel in Alexandrië hebben staan. Mooie hint naar de grote oude bibliotheken.

Ja inderdaad !
Ik moest er ook meteen aan denken toen ik het las.
linkje

Is 2 PT niet een beetje weinig met een groei van 100TB per maand ?

Daar houden ze het 20 maanden mee uit (anderhalf jaar), lijkt me voorlopig genoeg. En als ik het artikel goed begrijp kunnen ze dankzij deze servers deze ruimte eenvoudig uitbreiden, gewoon nog zo'n container erbijprikken en klaar.

Maar je mag er ook vanuit gaan dat de 100TB meer kan worden per maand.

10 maanden vind ik best wel lang, tegen die tijd zal het wel weer vergroot wezen.
«  1  2  3  »

Op dit item kan niet meer gereageerd worden.

Volgende 11:56 Lian-Li introduceert nieuwe htpc-behuizingen
Vorige 16:46 Microsoft dient nieuwe css-testen in bij W3C
VNU Media logo Hosted by True

© 1998 - 2012 Tweakers.net B.V. - Alle rechten voorbehouden - Contact - Jouw privacy - Algemene Voorwaarden

Uitgever van:

Website van het jaar 2011