Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 104 reacties
Submitter: Mystic_Slayer

Het Amerikaanse Nationaal Archief heeft tot een noodmaatregel besloten omdat het onzeker is of de organisatie de grote hoeveelheid elektronische data kan verwerken die president Bush na zijn presidentschap achterlaat.

Zegel van de Amerikaanse presidentDe enorme hoeveelheid elektronische data is het gevolg van de explosie in het gebruik van digitale communicatiemiddelen, schrijft The New York Times. Hierdoor zal president Bush ongeveer vijftig keer meer data achterlaten dan president Clinton, die in 2001 het Witte Huis verliet. Volgens de federale wetgeving is de Amerikaanse overheid de eigenaar van alle data die een president en zijn vicepresident achterlaten. Als op 20 januari 2009 Barack Obama president wordt, krijgt het Nationale Archief zeggenschap over het archief van George W. Bush.

Geschat wordt dat Bush en zijn medewerkers in acht jaar ongeveer 100 terabyte aan data geproduceerd hebben. Ongeveer een kwart hiervan bestaat uit e-mail. President Clinton had slechts 2 terabyte aan data geproduceerd, waarvan minder dan 1 terabyte uit e-mail bestond. Al deze data zal gearchiveerd moeten worden, aangezien de wet het Nationaal Archief niet de ruimte biedt om te selecteren.

Het Nationaal Archief ziet het echter niet zitten om de enorme hoeveelheid aan data per direct in het recent aangeschafte digitale archiveringssysteem te laden. Er is daarom voor gekozen om de relevante delen van de dataopslaginfrastructuur in het Witte Huis mee te nemen naar het Nationaal Archief en op een later moment alle data in het digitale archiveringssysteem te laden.

Volgens het Nationaal Archief worden de problemen met digitale archivering veroorzaakt door de aanwezigheid van een grote collectie digitale foto's en het feit dat alle documenten die door Bush en zijn medewerkers zijn opgesteld opnieuw geïndexeerd en doorzocht moeten worden. Daarnaast speelt mee dat digitale bestanden zo nodig geconverteerd moeten worden naar een open formaat, zodat ze ook over enkele decennia zonder moeite bekeken en geanalyseerd kunnen worden. Volgens de archivarissen kan dit hele proces weken of zelfs maanden in beslag nemen.

Moderatie-faq Wijzig weergave

Reacties (104)

Ja, maar je moet die 100 terabyte ook meerdere keren wegschrijven, om te vorkomen dat er data verloren gaat bij een crash. Je moet fatsoenlijke schijven hebben en een gigantisch server park en bijbehorende koeling.

Dat moet je dan ook weer beveiligen tegen bijna elke mogelijke dreiging, dus waarschijnlijk moet het in ieder geval onder de grond.

Dit alleen al kost klauwen vol met geld en moeite, dus ik snap hun probleem/frustratie wel.
Geen probleem voor de usa, server parken genoeg :D
Een gigantisch serverpark is een beetje overdreven. Een rack vol moet ook al 100Tb redundant op kunnen slaan lijkt mij. Waar wij nog zitten te spelen met schijfjes van 1Tb heeft de overheid zeer waarschijnlijk al de beschikking over de voor ons onbetaalbare multi-terabyte-schijven. Het wegschrijven kost wat tijd, maar is ook niet het probleem. Het grote probleem zit 'm in het indexeren van de data: 100Gb in /bush/dump is waardeloos; na goede indexatie kan diezelfde data juist weer heel waardevol zijn.
2 racks dan wel he: 1 boeing en je rackje is weg.
Ik denk ook niet dat de overheid 1Tb schijfjes gebruikt. Reguliere systemen zijn niet SATA maar SAS 15k schijven en die gaan niet tot 1 TB, eerder tot 500GB. Ook vermoed ik dat het niet allemaal online storage zal zijn maar een deel op tape of misschien near-line storage wat het wel goedkoper (maar ook complexer maakt). Ook de zoek-indices moeten natuurlijk ergens opgeslagen worden en dus ook ruimte kosten.
We pratem dan nog steeds over duizenden euro's dit is een schijntje voor een overheid dat miljarden per dag in oorlogen pompt
Ik denk eerder dat ze die zooi op een een redundant FC-SAN plempen met een of andere ingenieuze raid 51 erachter ofzo. Backup zou ik niet zo weten, maar ik denk dat ze het eerst naar een ander SAN gooien en vandaar naar tapes sturen en die gaan ergens de kluis in.

Maar ik zou het ook echt niet weten, misschien even mailen? :P
Je bent aan 28 back-ups nog geen 9 ton kwijt (puur op HDD's/SSD's)
Voor data-retentie is het bovendien belangrijk dat niet alle back-ups in emp-gevoelige gebouwen staan/liggen ;-p
Dus er zijn minstens 10 back-ups zonder 'werk'
& dan ben ik nog pessimistisch bezig en aan de dure hardware.. (met korting 8)7 )
¤ 700,-- p/ 1.6/2.3TB Bit-Micro SSD's _/-\o_
gedetailleerd kunnen vastleggen kunnen ze wel hoor, die software wordt waarschijnlijk al jaren gebruikt & bijgeschaafd. :z
& dan heb je evt. de 'andere' hard-copy's nog..
Klauwen met moeite idd. Geld is daar toch niet veel meer waard. (eigen schuld, dikke ***** & *****p)
Door de Presidential Records Act koos GWB ervoor niet meer gebruik te maken van email, Obama zal waarschijnlijk hetzelfde doen:
http://www.nytimes.com/20...berry.html?pagewanted=all
Vreemd dat er dan toch 25 TB aan email is gegeneerd.
Dat gaat over het gebruik van BlackBarry. Die kan niet goed genoeg als veilig worden gegerandeerd.
Het gaat ook over BlackBerry maar de regels gelden voor al het email verkeer van de president, lees de rest van het artikel maar eens.
Daarnaast speelt mee dat digitale bestanden zo nodig geconverteerd moeten worden naar een open formaat, zodat ze ook over enkele decennia zonder moeite bekeken en geanalyseerd kunnen worden.
Als de regering Obama nu gelijk zoveel mogelijk open formaten gebruikt, dan bespaard dat bij hun vertrek weer een hele hoop werk.

Jammer genoeg hebben ze in de VS nog niet zoveel trek in open standaarden:
- nieuws: Amerikaanse staten schieten open standaarden af
- http://arstechnica.com/ne...tandards-legislation.html

Hoe het met de federale overheid zit weet ik niet, maar dat zal wel niet veel beter zijn. Het probleem heeft alles te maken met het uitstekende talenten van lobyisten bij o.a. Microsoft.

Nu lijkt me die hoeveelheid gegevens opslaan niet direct zo'n probleem. Het voor zeer lange tijd betrouwbaar opslaan en het doorzoekbaar maken van deze berg info is veel moeilijker.

[Reactie gewijzigd door doeternietoe op 30 december 2008 13:59]

Nu kan je mij even paranoïde noemen, maar ik vind het vreemd dat het NA dat niet wilt in laden met hun gloednieuwe systeem. Het moet toch al een tijdje op voorhand (adhv de groei en alles) bekend zijn geweest dat Bush heel wat data ging achterlaten?

Waarom dan opeens niet meer archiveren ? Die 200TB aan data moet volgens mij een pinda zijn voor het NA, als je ziet wat er in een "NATIONAAL" archief allemaal zou moeten ingaan in de toekomst...

Ik stel me dan vragen zoals: "De schijven (=het opslagsysteem van het Witte Huis) wordt verplaatst naar het NA, wat gaat er ondertussen mee gebeuren? Wordt er ondertussen niets vernietigd? Wordt er ondertussen niets verduisterd?

Ik ben geen paranoia iemand die denkt dat de regering die van belang zijn voor de bevolking achterhoudt (zoals bv buitenaardse wezens), maar ik geloof wel dat er dingen zijn waarvan bepaalde regeringsfunctionarissen liever niet willen dat er gegevens openbaar van worden en die bereid zijn om daarvoor slinkse wegen te volgen om dat te voorkomen (=vernietigen/verdusiteren).

Wij weten niet wat er op staat, dus we kunnen het ook nooit missen, maar ik heb er wel mijn bedenkingen bij...
Ik stel me dan vragen zoals: "De schijven (=het opslagsysteem van het Witte Huis) wordt verplaatst naar het NA, wat gaat er ondertussen mee gebeuren? Wordt er ondertussen niets vernietigd? Wordt er ondertussen niets verduisterd?

Ik ben geen paranoia iemand die denkt dat de regering die van belang zijn voor de bevolking achterhoudt (zoals bv buitenaardse wezens), maar ik geloof wel dat er dingen zijn waarvan bepaalde regeringsfunctionarissen liever niet willen dat er gegevens openbaar van worden en die bereid zijn om daarvoor slinkse wegen te volgen om dat te voorkomen (=vernietigen/verdusiteren).
''Het Nationaal Archief ziet het echter niet zitten om de enorme hoeveelheid aan data per direct in het recent aangeschafte digitale archiveringssysteem te laden.''

Tja, zo hebben ze even rustig de tijd om een eerste selectie te maken, en met 'wat niet echt belangrijk is' nog wat langer te wachten. :P Ik kan me echt niet voorstellen dat iets wat staatsgeheim nu ineens openbaar mag worden.
Hoeveel is 100 terabyte nu voor een land? Met een paar duizend dollar ben je er van af...
Vraag maar eens bij een wetenschappelijke bibliotheek hoe moeilijk het is om alle data beschikbaar te houden.

Met beschikbaar wordt bedoelt: opvraagbaar en ook vindbaar.
Tegenwoordig is er ontzettend veel informatie opvraagbaar, maar om die informatie weer terug te vinden is best wel lastig. Je moet donders goede indexerings criteria hebben om later nog iets terug te kunnen vinden.
Immers, eigenlijk moet je 'met de hand' alle emails doorlezen en voorzien van de juiste steekwoorden ('tags') zodat het later ook nog in de juiste context bij een zoekopdracht boven water komt. Je kan immers niet zomaar aan een systeem vragen "geef me alle emails die relevant zijn voor dit specifieke onderwerp". In veel gevallen zal het letterlijke woord dat het onderwerp aangeeft helemaal niet in de email zelf terug te vinden zijn. En dan zijn er ook nog zoveel mails die slechts zijdelings relevant zijn....

Het zou makkelijker zijn als bij het opstellen van dat soort mails men meteen referenties aan ander werk aanbrengt en zelf meteen tags verzint. Maar man... dat kost gewoon te veel tijd. IMHO is dit probleem niet systematisch op te lossen. Economisch (en beveiligings-technisch: wie mag al die mails eigenlijk doorlezen om ze te indexeren?) is het gewoon niet haalbaar. Ik kan me voorstellen dat je op basis van neurale netwerken nog wat kan proberen, maar dan weet je nooit zeker of je alle relevante informatie terug krijgt.

Jah, ik kan alles op 1kTerabyte aan schijven plempen. Maar dan vind je echt niks terug. Speld->hooiberg :)
Zelfs op de manier die jij beschrijft is het eigenlijk onmogelijk om een goede index te maken. Het probleem is dat je nooit weet waarvoor de data in de toekomst gebruikt gaan worden, en dus ook niet op welke manier ze relevant zouden kunnen zijn. Het toekennen van tags helpt, maar is nooit volledig. Je kan namelijk alleen maar tags meegeven waarvan je nu kan verzinnen dat je ze relevant gaat vinden. Dit zelfde probleem speelt in wetenschappelijke bibliotheken trouwens, en ook bij wetenschappelijke datacollecties.
Lijkt mij dat je zo'n opmerking alleen kan maken als je weet aan welke randvoorwaarden het bewaren van die data aan moet voldoen. :)

Redundancy?
Availability?
Backups?

En dan vergeet je mee te nemen dat die 100 TB bovenop alle data is die ze al bewaren.

* Rob.. voelt een beetje een "nou, dan koop je toch ff 100 van die 1Tb schijfjes bij de mediamarkt!"-opmerking aankomen..
nou, dan koop je toch ff 100 van die 1Tb schijfjes bij de mediamarkt! :P


Overigens ben ik het met SlasZ wel eens, 100 TB is aan zich niet zo gek veel. Het maakt volgens mij niet uit of je nou 1 schijf of dat je een data center vol hebt hangen. De hardware zou nooit het probleem mogen zijn.

Wat wel een probleem is dat alles geindexeerd moet worden. En dat is een heel arbeidsintensief klusje
er zijn indexerings en datamine producten genoeg. en natuurlijk word het hele systeem redundant in elk opzicht en vervangen op de afschrijvingstermijn en dan nog is 100Tb prima te doen
Uuhm,.,. volgens mij zijn tapes daar geschik\ter voor dan harddisks,.
Prijs per hoeveelheid opslag ligt lager dus goedkoper redundant te maken.,.,,.
En daar komen ze nu achter... Maar goed, schijven zijn niet echt duur meer tegenwoordig en ook documenten verwerken gaat ook vrij eenvoudig dus ik zie het hele probleem niet eigenlijk
Het probleem is dat het gewoon veel tijd kost. Je wilt het namenlijk allemaal goed indexeren en opslaan, anders heb je er later natuurlijk helemaal niks meer aan.
- Er zijn twee problemen:
Hoe opslaan dat de data er over 100 jaar nog leesbaar is
Hoe opslaan dat je effectief door de data heen kan zoeken.

Waarschijnlijk moeten ze dus hun eigen zoek machine bouwen, gecombineerd met meerdere servers met hardeschijven en een beveiligd netwerk die wetenschappers en de rechtbank weer kunnen gebruiken.

Daarnaast moeten alle bestanden omgezet worden naar een formaat wat over 100 jaar nog lees baar is, en moet je een medium als tape hebben als backup.

Ik denk niet dat het nuttig is om een backup medium te zoeken wat over 100 jaar ook nog leesbaar is. Waarschijnlijk kunnen ze beter eens in de 5 jaar alles koppieren naar de dan gangbare media dragers.
Idd, punt 1 is dus ook geen probleem want alles waar je het nu mee opslaat is over 100 jaar meuk. Of ze het nu op tape, HDD, SSD of whatever opslaan en backupen maakt weinig uit. 20 jaar van nu is het waarschijnlijk toch tijd om weer naar iets nieuws te zetten.

En tja, waarschijnlijk moeten ze niet hun eigen zoekmachine bouwen; maar doen ze dat toch. Bestaande alternatieven gebruiken is altijd een optie, maar veel bedrijven en overheden zien er keer op keer vanaf.

Maar vooral de bestanden e.d. van juiste metadata voorzien is wat een hels karwei is. Zeker aangezien het over 100TB gaat, dat zijn nogal wat files. Zelfs met 1mb gemiddeld zouden het nog zo'n 100 miljoen bestanden zijn. Als je dat allemaal goed wilt indexeren aan de hand van meta data ben je ook al heb je 1000 man welk er non-stop mee bezig zouden zijn nog ongeveer 2.5 maand bezig.

Wat ik niet begrijp is waarom ze nu pas realiseren dat er een probleem is, hadden ze dit niet in 2002 al kunnen voorspellen? Of gewoon ieder jaar de administratie alvast verwerken voor in het systeem. Lijkt me toch een stuk effectiever als je het per jaar doet ipv geliijk voor een hele rit in 1 keer.
De data wordt pas vrijgegeven aan het archief op het moment dat een president aftreedt. Je kan dus niet al eerder aan de slag. Hoewel je kan voorspellen dat de hoeveelheid data is gegroeid, is het niet zo dat je eenvoudig van te voren kan schatten hoeveel het gaat worden.
Dit doet me denken aan een aflevering van "the batman" 1000 jaar verder in de toekomst in gotham city besloot mr. Freeze los te breken uit een cryostasis kamer. Ze wisten niet meer hoe en wat ze konden doen om hem tegen konden houden, alleen van dat er ooit een legende was van een vent die in een grot woonde en zich als vleermuis verklede, en o.a. op dit figuur jacht maakte. Toen ze op zoek gingen naar de batcave troffen ze een 1000 jaar oude computer aan die het uiteraard niet meer deed, en de HD's etc waardeloos waren. Op een bepaald moment zien ze dat de muren versterkt zijn met titanium, in het titanium stond een enorme sloot binaire waardes inge-etst. Dit bleek de database te zijn die batman op hoge leeftijd nog had "gebackupt". hoewel ik het idee in die aflevering briljant vond, bleek het echter niets nieuws, de oude egyptenaren kalkten muren vol met allerlei kwesties, en die kunnen wij duizenden jaren later nog steeds ontcijferen en lezen.

Ik denk niet dat magnetische opslag zo houdbaar is, en flash/SSD's hebben ook hun zwakheden...

[Reactie gewijzigd door Maikel_1976 op 30 december 2008 11:54]

om de zoveel jaar worden de servers toch vervangen en verhuisd de data altijd maar weer. Maar 100TB aan data van 1 presidentschap is wel heel veel.

Wat ze ook kunnen doen is de ex-president zelf laten selecteren wat er nog moet blijven en niet. Familie foto's enzo mogen toch weg :D
Het probleem ligt hem ook niet in hardeschijven waar het op moet passen. Alle data moet bekeken worden, daar moet metadata aan gekoppeld worden en het moet op de juist plek in het systeem gezet worden. Als je dus 100 tb aan documenten, foto's en e-mails moet verwerken heb je een hels karweitje.
Nee, dat moeten ze juist niet doen. Men wil voorkomen dat er informatie door de vertrekkende President en personeel wordt achtergehouden of wordt vernietigd. Ik weet niet of ik het hier heb gelezen of op een andere site (heb gezocht maar kan niet vinden), maar in het verleden schijnen er al zaakjes opgeschoond te zijn door de vertrekkende President. nieuws: Witte Huis verliest zaak over herstel verdwenen e-mails om maar wat te noemen
Openheid van zaken voor het volk wordt geëist.
en wat heb je aan binaire data? Het Egyptisch schrift is ook alleen maar (volledig) opgelost omdat men de Rosetta steen gevonden heeft.

Binair is leuk, als het om ascii tekst gaat... Ik denk niet dat de Word 97 specificaties ook op die titanium muur gaan passen. Of de PDF of de JPEG of de MP3 ... je snapt het wel.
Huren ze google in. die schijnen erug goedn te zijn in het indexeren en verwerken van data :P
lijkt me niet dat je zulke data aan een privé-onderneming wilt geven.

mailtjes a la: "hey george u want 5 or 10 missiles on sadam's palace? oh make it 10 just to make sure we ruin the bastard" wil je niet mogelijk publiek zien worden
Daar denken ze in de US heel anders over: menig ziekenhuis heeft zijn electronisch patienten dossier in beheer bij Google gegeven (en een ander deel bij Microsoft).
patientgegevens zijn niet direct staatsgeheim #1
Nou, ze zijn anders wel privé!
de data in het nationaal archief kan je als vs burger gewoon opvragen ;-).
Ik ga er vanuit dat ze die data niet zomaar 1 keer op een normale harddisk opslaan.
Dit riekt naar hele andere zaken dat moge toch duidelijk zijn voor een ieder!
clinton had een stagaire, misschien had bush een penvriendin? :9
Dat wordt nog wat als Obama klaar is...
Ik denk dat men wel voorzichtiger gaat zijn in wat men juist opslaat. Als je weet dat barneycam mee in die 100 TB zit dan weet je al genoeg. Barneycam is de camera die de hond van de president volgt.
Ligt het nu aan mij of valt 100 terabyte in 8 jaar tijd wel mee?
Denk dat het idd relatief meevalt.

Als je kijkt naar een een groot kantoor van ruim 1500 medewerkers. Die produceren ongeveer de helft per jaar!!

Digitale foto's en video's van hoge resolutie vreten een hoop data. Misschien dat dit in de toekomst kleiner wordt met behoud van gegevens. of dat opslag. Opslag ruimte zal wel toenemen.
Het is zo te lezen alleen de data van Bush en zijn medewerkers. Geen idee hoeveel het er zijn, maar het gaat in elk geval niet om de complete regering. Waarschijnlijk hebben ministeries weer hun eigen archieven (presidenten komen en gaan, maar ministeries gaan langer mee).
35 Gigabyte per kalenderDAG (inclusief weekenden). Vind ik best veel data.

Je zou het kunnen bekijken als 1 blu-ray disc per dag. Als een schijfje 1 mm dik is en je ze allemaal op een spindle zet, heb je na 8 jaar een stapel van 3 meter. (Terugzoeken wordt wat lastiger.)
als een kwart daarvan e-mail is vind ik dat best wel veel.
Valt wel mee vind ik zelf...

Wel vaag dat het archief niet op dezelfde standaard is gebaseerd als de operationele systemen :P
Je wil het archief in Exchange/Outlook beheren? Success :)
Nee en ja. Systemen als Hummingbird of TRIM kunnen een interface met Office (en dus Outlook maken. Zo kun je in je producten de oude data benaderbaar maken en is het bijvoorbeeld ook mogelijk dat nieuwe documenten alleen in het document manement system te stoppen zijn. Met een sjabloon kun je zelfs afvangen dat de gebruiker verplicht is om metadata toe te voegen, zodat je ook kunt zoeken.
Dan hebben ze nog mazzel dat de regering Bush een hele hoop data heeft verwijderd kwijt geraakt :+

Daar was iig toch een jaar geleden zoveel om te doen? http://webwereld.nl/artic...ail-niet-verwijderen.html

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True