Hoofdcategorieën
Device Settings

Bush laat meer data achter dan Nationaal Archief aankan

Door Harm Hilvers, dinsdag 30 december 2008 11:22
Submitter: Mystic_Slayer, views: 24.156

Het Amerikaanse Nationaal Archief heeft tot een noodmaatregel besloten omdat het onzeker is of de organisatie de grote hoeveelheid elektronische data kan verwerken die president Bush na zijn presidentschap achterlaat.

Zegel van de Amerikaanse presidentDe enorme hoeveelheid elektronische data is het gevolg van de explosie in het gebruik van digitale communicatiemiddelen, schrijft The New York Times. Hierdoor zal president Bush ongeveer vijftig keer meer data achterlaten dan president Clinton, die in 2001 het Witte Huis verliet. Volgens de federale wetgeving is de Amerikaanse overheid de eigenaar van alle data die een president en zijn vicepresident achterlaten. Als op 20 januari 2009 Barack Obama president wordt, krijgt het Nationale Archief zeggenschap over het archief van George W. Bush.

Geschat wordt dat Bush en zijn medewerkers in acht jaar ongeveer 100 terabyte aan data geproduceerd hebben. Ongeveer een kwart hiervan bestaat uit e-mail. President Clinton had slechts 2 terabyte aan data geproduceerd, waarvan minder dan 1 terabyte uit e-mail bestond. Al deze data zal gearchiveerd moeten worden, aangezien de wet het Nationaal Archief niet de ruimte biedt om te selecteren.

Het Nationaal Archief ziet het echter niet zitten om de enorme hoeveelheid aan data per direct in het recent aangeschafte digitale archiveringssysteem te laden. Er is daarom voor gekozen om de relevante delen van de dataopslaginfrastructuur in het Witte Huis mee te nemen naar het Nationaal Archief en op een later moment alle data in het digitale archiveringssysteem te laden.

Volgens het Nationaal Archief worden de problemen met digitale archivering veroorzaakt door de aanwezigheid van een grote collectie digitale foto's en het feit dat alle documenten die door Bush en zijn medewerkers zijn opgesteld opnieuw geïndexeerd en doorzocht moeten worden. Daarnaast speelt mee dat digitale bestanden zo nodig geconverteerd moeten worden naar een open formaat, zodat ze ook over enkele decennia zonder moeite bekeken en geanalyseerd kunnen worden. Volgens de archivarissen kan dit hele proces weken of zelfs maanden in beslag nemen.

Volgende 11:49 Mmo-gamesuitgever Ncsoft aangeklaagd wegens schending patent
Vorige 10:52 Intel introduceert vijf nieuwe mobiele processors
Advertentie

Reacties

«  1  2  3  4  »

En daar komen ze nu achter... Maar goed, schijven zijn niet echt duur meer tegenwoordig en ook documenten verwerken gaat ook vrij eenvoudig dus ik zie het hele probleem niet eigenlijk

Het probleem is dat het gewoon veel tijd kost. Je wilt het namenlijk allemaal goed indexeren en opslaan, anders heb je er later natuurlijk helemaal niks meer aan.

- Er zijn twee problemen:
Hoe opslaan dat de data er over 100 jaar nog leesbaar is
Hoe opslaan dat je effectief door de data heen kan zoeken.

Waarschijnlijk moeten ze dus hun eigen zoek machine bouwen, gecombineerd met meerdere servers met hardeschijven en een beveiligd netwerk die wetenschappers en de rechtbank weer kunnen gebruiken.

Daarnaast moeten alle bestanden omgezet worden naar een formaat wat over 100 jaar nog lees baar is, en moet je een medium als tape hebben als backup.

Ik denk niet dat het nuttig is om een backup medium te zoeken wat over 100 jaar ook nog leesbaar is. Waarschijnlijk kunnen ze beter eens in de 5 jaar alles koppieren naar de dan gangbare media dragers.

Huren ze google in. die schijnen erug goedn te zijn in het indexeren en verwerken van data :P

lijkt me niet dat je zulke data aan een privé-onderneming wilt geven.

mailtjes a la: "hey george u want 5 or 10 missiles on sadam's palace? oh make it 10 just to make sure we ruin the bastard" wil je niet mogelijk publiek zien worden

Daar denken ze in de US heel anders over: menig ziekenhuis heeft zijn electronisch patienten dossier in beheer bij Google gegeven (en een ander deel bij Microsoft).

patientgegevens zijn niet direct staatsgeheim #1

Nou, ze zijn anders wel privé!

de data in het nationaal archief kan je als vs burger gewoon opvragen ;-).

Dit doet me denken aan een aflevering van "the batman" 1000 jaar verder in de toekomst in gotham city besloot mr. Freeze los te breken uit een cryostasis kamer. Ze wisten niet meer hoe en wat ze konden doen om hem tegen konden houden, alleen van dat er ooit een legende was van een vent die in een grot woonde en zich als vleermuis verklede, en o.a. op dit figuur jacht maakte. Toen ze op zoek gingen naar de batcave troffen ze een 1000 jaar oude computer aan die het uiteraard niet meer deed, en de HD's etc waardeloos waren. Op een bepaald moment zien ze dat de muren versterkt zijn met titanium, in het titanium stond een enorme sloot binaire waardes inge-etst. Dit bleek de database te zijn die batman op hoge leeftijd nog had "gebackupt". hoewel ik het idee in die aflevering briljant vond, bleek het echter niets nieuws, de oude egyptenaren kalkten muren vol met allerlei kwesties, en die kunnen wij duizenden jaren later nog steeds ontcijferen en lezen.

Ik denk niet dat magnetische opslag zo houdbaar is, en flash/SSD's hebben ook hun zwakheden...

[Reactie gewijzigd door Maikel_1976 op dinsdag 30 december 2008 11:54]


om de zoveel jaar worden de servers toch vervangen en verhuisd de data altijd maar weer. Maar 100TB aan data van 1 presidentschap is wel heel veel.

Wat ze ook kunnen doen is de ex-president zelf laten selecteren wat er nog moet blijven en niet. Familie foto's enzo mogen toch weg :D

Het probleem ligt hem ook niet in hardeschijven waar het op moet passen. Alle data moet bekeken worden, daar moet metadata aan gekoppeld worden en het moet op de juist plek in het systeem gezet worden. Als je dus 100 tb aan documenten, foto's en e-mails moet verwerken heb je een hels karweitje.

Nee, dat moeten ze juist niet doen. Men wil voorkomen dat er informatie door de vertrekkende President en personeel wordt achtergehouden of wordt vernietigd. Ik weet niet of ik het hier heb gelezen of op een andere site (heb gezocht maar kan niet vinden), maar in het verleden schijnen er al zaakjes opgeschoond te zijn door de vertrekkende President. nieuws: Witte Huis verliest zaak over herstel verdwenen e-mails om maar wat te noemen
Openheid van zaken voor het volk wordt geëist.

en wat heb je aan binaire data? Het Egyptisch schrift is ook alleen maar (volledig) opgelost omdat men de Rosetta steen gevonden heeft.

Binair is leuk, als het om ascii tekst gaat... Ik denk niet dat de Word 97 specificaties ook op die titanium muur gaan passen. Of de PDF of de JPEG of de MP3 ... je snapt het wel.

Idd, punt 1 is dus ook geen probleem want alles waar je het nu mee opslaat is over 100 jaar meuk. Of ze het nu op tape, HDD, SSD of whatever opslaan en backupen maakt weinig uit. 20 jaar van nu is het waarschijnlijk toch tijd om weer naar iets nieuws te zetten.

En tja, waarschijnlijk moeten ze niet hun eigen zoekmachine bouwen; maar doen ze dat toch. Bestaande alternatieven gebruiken is altijd een optie, maar veel bedrijven en overheden zien er keer op keer vanaf.

Maar vooral de bestanden e.d. van juiste metadata voorzien is wat een hels karwei is. Zeker aangezien het over 100TB gaat, dat zijn nogal wat files. Zelfs met 1mb gemiddeld zouden het nog zo'n 100 miljoen bestanden zijn. Als je dat allemaal goed wilt indexeren aan de hand van meta data ben je ook al heb je 1000 man welk er non-stop mee bezig zouden zijn nog ongeveer 2.5 maand bezig.

Wat ik niet begrijp is waarom ze nu pas realiseren dat er een probleem is, hadden ze dit niet in 2002 al kunnen voorspellen? Of gewoon ieder jaar de administratie alvast verwerken voor in het systeem. Lijkt me toch een stuk effectiever als je het per jaar doet ipv geliijk voor een hele rit in 1 keer.

De data wordt pas vrijgegeven aan het archief op het moment dat een president aftreedt. Je kan dus niet al eerder aan de slag. Hoewel je kan voorspellen dat de hoeveelheid data is gegroeid, is het niet zo dat je eenvoudig van te voren kan schatten hoeveel het gaat worden.

Ik ga er vanuit dat ze die data niet zomaar 1 keer op een normale harddisk opslaan.

Dit riekt naar hele andere zaken dat moge toch duidelijk zijn voor een ieder!

clinton had een stagaire, misschien had bush een penvriendin? :9

Hoeveel is 100 terabyte nu voor een land? Met een paar duizend dollar ben je er van af...

Lijkt mij dat je zo'n opmerking alleen kan maken als je weet aan welke randvoorwaarden het bewaren van die data aan moet voldoen. :)

Redundancy?
Availability?
Backups?

En dan vergeet je mee te nemen dat die 100 TB bovenop alle data is die ze al bewaren.

* Rob.. voelt een beetje een "nou, dan koop je toch ff 100 van die 1Tb schijfjes bij de mediamarkt!"-opmerking aankomen..

nou, dan koop je toch ff 100 van die 1Tb schijfjes bij de mediamarkt! :P


Overigens ben ik het met SlasZ wel eens, 100 TB is aan zich niet zo gek veel. Het maakt volgens mij niet uit of je nou 1 schijf of dat je een data center vol hebt hangen. De hardware zou nooit het probleem mogen zijn.

Wat wel een probleem is dat alles geindexeerd moet worden. En dat is een heel arbeidsintensief klusje

er zijn indexerings en datamine producten genoeg. en natuurlijk word het hele systeem redundant in elk opzicht en vervangen op de afschrijvingstermijn en dan nog is 100Tb prima te doen

Uuhm,.,. volgens mij zijn tapes daar geschik\ter voor dan harddisks,.
Prijs per hoeveelheid opslag ligt lager dus goedkoper redundant te maken.,.,,.

Vraag maar eens bij een wetenschappelijke bibliotheek hoe moeilijk het is om alle data beschikbaar te houden.

Met beschikbaar wordt bedoelt: opvraagbaar en ook vindbaar.
Tegenwoordig is er ontzettend veel informatie opvraagbaar, maar om die informatie weer terug te vinden is best wel lastig. Je moet donders goede indexerings criteria hebben om later nog iets terug te kunnen vinden.
Immers, eigenlijk moet je 'met de hand' alle emails doorlezen en voorzien van de juiste steekwoorden ('tags') zodat het later ook nog in de juiste context bij een zoekopdracht boven water komt. Je kan immers niet zomaar aan een systeem vragen "geef me alle emails die relevant zijn voor dit specifieke onderwerp". In veel gevallen zal het letterlijke woord dat het onderwerp aangeeft helemaal niet in de email zelf terug te vinden zijn. En dan zijn er ook nog zoveel mails die slechts zijdelings relevant zijn....

Het zou makkelijker zijn als bij het opstellen van dat soort mails men meteen referenties aan ander werk aanbrengt en zelf meteen tags verzint. Maar man... dat kost gewoon te veel tijd. IMHO is dit probleem niet systematisch op te lossen. Economisch (en beveiligings-technisch: wie mag al die mails eigenlijk doorlezen om ze te indexeren?) is het gewoon niet haalbaar. Ik kan me voorstellen dat je op basis van neurale netwerken nog wat kan proberen, maar dan weet je nooit zeker of je alle relevante informatie terug krijgt.

Jah, ik kan alles op 1kTerabyte aan schijven plempen. Maar dan vind je echt niks terug. Speld->hooiberg :)

Zelfs op de manier die jij beschrijft is het eigenlijk onmogelijk om een goede index te maken. Het probleem is dat je nooit weet waarvoor de data in de toekomst gebruikt gaan worden, en dus ook niet op welke manier ze relevant zouden kunnen zijn. Het toekennen van tags helpt, maar is nooit volledig. Je kan namelijk alleen maar tags meegeven waarvan je nu kan verzinnen dat je ze relevant gaat vinden. Dit zelfde probleem speelt in wetenschappelijke bibliotheken trouwens, en ook bij wetenschappelijke datacollecties.

Dat wordt nog wat als Obama klaar is...

Ik denk dat men wel voorzichtiger gaat zijn in wat men juist opslaat. Als je weet dat barneycam mee in die 100 TB zit dan weet je al genoeg. Barneycam is de camera die de hond van de president volgt.

Ligt het nu aan mij of valt 100 terabyte in 8 jaar tijd wel mee?

Denk dat het idd relatief meevalt.

Als je kijkt naar een een groot kantoor van ruim 1500 medewerkers. Die produceren ongeveer de helft per jaar!!

Digitale foto's en video's van hoge resolutie vreten een hoop data. Misschien dat dit in de toekomst kleiner wordt met behoud van gegevens. of dat opslag. Opslag ruimte zal wel toenemen.

Het is zo te lezen alleen de data van Bush en zijn medewerkers. Geen idee hoeveel het er zijn, maar het gaat in elk geval niet om de complete regering. Waarschijnlijk hebben ministeries weer hun eigen archieven (presidenten komen en gaan, maar ministeries gaan langer mee).

35 Gigabyte per kalenderDAG (inclusief weekenden). Vind ik best veel data.

Je zou het kunnen bekijken als 1 blu-ray disc per dag. Als een schijfje 1 mm dik is en je ze allemaal op een spindle zet, heb je na 8 jaar een stapel van 3 meter. (Terugzoeken wordt wat lastiger.)

als een kwart daarvan e-mail is vind ik dat best wel veel.

Valt wel mee vind ik zelf...

Wel vaag dat het archief niet op dezelfde standaard is gebaseerd als de operationele systemen :P

Je wil het archief in Exchange/Outlook beheren? Success :)

Nee en ja. Systemen als Hummingbird of TRIM kunnen een interface met Office (en dus Outlook maken. Zo kun je in je producten de oude data benaderbaar maken en is het bijvoorbeeld ook mogelijk dat nieuwe documenten alleen in het document manement system te stoppen zijn. Met een sjabloon kun je zelfs afvangen dat de gebruiker verplicht is om metadata toe te voegen, zodat je ook kunt zoeken.

"Volgens het Nationaal Archief worden de problemen met digitale archivering veroorzaakt door de aanwezigheid van een grote collectie digitale foto's "

Are you thinking what I'm thinking ? ;)

"Volgens het Nationaal Archief worden de problemen met digitale archivering veroorzaakt door de aanwezigheid van een grote collectie digitale foto's "

Are you thinking what I'm thinking ? ;)
Een hoop satelietfoto's met vermeende massavernietigingswapens in irak? Of doel je op wat anders,

Ook een eindeloze discussie hier op het werk.. "mag mn quota verhoogt worden van de mailbox want hij zit vol?" ;)

Nu op alle desktops het programma ImageResizer van microsoft uitgerold en een goede werkinstructie gemaakt en nu vragen er al veel mensen of ze dat programmatje voor thuis kunnen krijgen...

image resizer

Alles heeft met opvoeding te maken :+

"mag mn quota verhoogt worden van de mailbox want hij zit vol?"
Dat is een heel terechte vraag. Mijn tijd om een mailbox op te schonen is veel duurder dan het uitbreiden van de diskspace.

Dat moet altijd een afweging zijn. In tegenstelling tot wat gebruikers denken komt er bij het uitbreiden van schijfruimte meer kijken dan een 500GB schijfje van 50 euro erbij prikken. Om te beginnen heb je een RAID-array. Dan heb je een redundante server met eenzelfde array. Dan heb je een off-site backup, waar zowel de opslagruimte als de bandbreedte geld van kost en tenslotte heb je nog de extra apparatuur en uren die een eventuele archivaris moet investeren zoals nu in de VS.

Bovendien vind je zelf makkelijker net die ene mail terug als je de boel overzichtelijk hebt gehouden, en dat kost dus gewoon je eigen productiviteit.

Conclusie: Als je uurloon lager is dat 250 euro wil ik de discussie niet eens voeren en als je loon hoger is maar in beperkte mate. Opruimen met die luie donder!

[Reactie gewijzigd door mae-t.net op woensdag 31 december 2008 03:31]


Dus jij beweert dat een stukje schijfruimte van 1 of 2 terra meer kost dan dat ca 130 man twee uur gaat zitten te kloten met hun mailbox. En vervolgens precies net dat ene mailtje wat ze dachten te kunnen deleten toch nog nodig hadden om een klant te helpen....
Wij hebben hier een mailbox van 250 Mb en dat is klein, krijg elke dag gegevens in pdf en andere zooi en nu moet ik dit elke dag "opruimen" ehh opruimen ik bedoel opslaan op de server want ja ik kan geen ontwerpgegevens wissen die gebruik je en moet je altijd en overal kunnen benaderen. Dus een grote mailbox kost dus altijd minder want de ruimte gebruik je toch al. Dat heeft dus niets met luiheid te maken maar met efficiency...

Jouw reactie is ongeveer die ik verwachtte, dus ideaal om wat misverstanden recht te zetten.

Voor een bedrijf waar veel attachments verzonden worden kan 250MB best te klein zijn, dus of die grootte ergens op slaat hangt af van de kwaliteit van jullie ICT-overleg. Actief gebruiken van netwerkshares en een intranetsite kan soms ook schelen trouwens, want intern stukken doormailen naar iedereen is zoooo 2008. Als je denkt dat die 250MB te weinig is, bewandel de daartoe ingestelde wegen en laat van je horen. Een beetje manager kan jouw belangen beter afwegen tegen de te maken kosten dan een werknemer of systeembeheerder vanuit het eigen standpunt kan.

Met opruimen bedoel ik inderdaad nadrukkelijk niet wissen, maar archiveren. Archiefmail heeft in de meeste goed opgezette organisatiestructuren absoluut niets te zoeken in een actieve mailbox, die is namelijk om mail te ontvangen en af te wikkelen. Mail van 5 jaar oud kan nuttig zijn om te raadplegen maar is zelden onderdeel van actuele projecten, zal dus niet meer veranderen en kan dus onder een goedkopere opslag- en backupstrategie vallen. Als de organisatie goed inelkaar zit, en jij hebt vanaf het begin je mailbox een beetje bijgehouden (daardoor neemt jouw eigen productiviteit ook drastisch toe als je eens iets terug moet vinden en is dus op zn minst kostenneutraal maar waarschijnlijk gewoon winstgevend), dan is opruimen geen kwestie van 2 uur kloten, maar in hooguit een kwartiertje even door je mappen heengaan en aangeven welke verhuisd mogen worden. Peanuts dus.

Een ander verhaal wordt het als je er altijd al een zootje van hebt gemaakt. Zolang je dan maar goed bent in je vak is er weinig aan de hand, maar de onwil om zo nu en dan je eigen ongeorganiseerdheid even op te ruimen (dat kan inderdaad zomaar 2 uur duren, maar er zijn natuurlijk in elk bedrijf wel eens verloren momentjes) kan natuurlijk altijd in een functioneringsgesprek tegen je gebruikt worden.

Bij een papieren archief is het heel normaal als je niet tussen stapels papier van 3 meter hoog je werk zit te doen (hoewel elk groter bedrijf wel zo'n type zal kennen, is het toch echt een uitzondering). Waarom zou dat bij een digitaal archief anders moeten zijn?

[Reactie gewijzigd door mae-t.net op donderdag 1 januari 2009 16:20]


Uitbreiden van de diskspace is lang niet altijd inzetbaar. Ik heb gebruikers meegemaakt die het verantwoord vonden om meer dan 20GB aan mail(per gebruiker) van de afgelopen 8 jaar continu beschikbaar te moeten hebben.

Als ze akkoord krijgen van het management dan is jouw opdracht dat te doen idd, Archiveren/opschonen hebben ze nog nooit van gehoord, en mail bewaren in je deleted items is ook normaal. Het is niet zoals het zou moeten, maar sommige mensen krijgen daadwerkelijk alles gedaan, logisch of niet.

De kosten van het bewaren en beschikbaar houden van al dit spul zijn aan het beleid van het management, en niet aan die van de IT-er, je kan hooguit adviseren of aanraden. Opslagruimte is relatief goedkoop, en er is wel een mouw aan te passen om het werkbaar te houden.

Zorg voor een betrouwbare backup en een strakke inrichting van je omgeving, en er zal weinig mis kunnen gaan.

Ja, maar je moet die 100 terabyte ook meerdere keren wegschrijven, om te vorkomen dat er data verloren gaat bij een crash. Je moet fatsoenlijke schijven hebben en een gigantisch server park en bijbehorende koeling.

Dat moet je dan ook weer beveiligen tegen bijna elke mogelijke dreiging, dus waarschijnlijk moet het in ieder geval onder de grond.

Dit alleen al kost klauwen vol met geld en moeite, dus ik snap hun probleem/frustratie wel.

Geen probleem voor de usa, server parken genoeg :D

Een gigantisch serverpark is een beetje overdreven. Een rack vol moet ook al 100Tb redundant op kunnen slaan lijkt mij. Waar wij nog zitten te spelen met schijfjes van 1Tb heeft de overheid zeer waarschijnlijk al de beschikking over de voor ons onbetaalbare multi-terabyte-schijven. Het wegschrijven kost wat tijd, maar is ook niet het probleem. Het grote probleem zit 'm in het indexeren van de data: 100Gb in /bush/dump is waardeloos; na goede indexatie kan diezelfde data juist weer heel waardevol zijn.

2 racks dan wel he: 1 boeing en je rackje is weg.
Ik denk ook niet dat de overheid 1Tb schijfjes gebruikt. Reguliere systemen zijn niet SATA maar SAS 15k schijven en die gaan niet tot 1 TB, eerder tot 500GB. Ook vermoed ik dat het niet allemaal online storage zal zijn maar een deel op tape of misschien near-line storage wat het wel goedkoper (maar ook complexer maakt). Ook de zoek-indices moeten natuurlijk ergens opgeslagen worden en dus ook ruimte kosten.

We pratem dan nog steeds over duizenden euro's dit is een schijntje voor een overheid dat miljarden per dag in oorlogen pompt

Ik denk eerder dat ze die zooi op een een redundant FC-SAN plempen met een of andere ingenieuze raid 51 erachter ofzo. Backup zou ik niet zo weten, maar ik denk dat ze het eerst naar een ander SAN gooien en vandaar naar tapes sturen en die gaan ergens de kluis in.

Maar ik zou het ook echt niet weten, misschien even mailen? :P

Je bent aan 28 back-ups nog geen 9 ton kwijt (puur op HDD's/SSD's)
Voor data-retentie is het bovendien belangrijk dat niet alle back-ups in emp-gevoelige gebouwen staan/liggen ;-p
Dus er zijn minstens 10 back-ups zonder 'werk'
& dan ben ik nog pessimistisch bezig en aan de dure hardware.. (met korting 8)7 )
¤ 700,-- p/ 1.6/2.3TB Bit-Micro SSD's _/-\o_
gedetailleerd kunnen vastleggen kunnen ze wel hoor, die software wordt waarschijnlijk al jaren gebruikt & bijgeschaafd. :z
& dan heb je evt. de 'andere' hard-copy's nog..
Klauwen met moeite idd. Geld is daar toch niet veel meer waard. (eigen schuld, dikke ***** & *****p)

Dan hebben ze nog mazzel dat de regering Bush een hele hoop data heeft verwijderd kwijt geraakt :+

Daar was iig toch een jaar geleden zoveel om te doen? http://webwereld.nl/artic...ail-niet-verwijderen.html
«  1  2  3  4  »

Op dit item kan niet meer gereageerd worden.

Volgende 11:49 Mmo-gamesuitgever Ncsoft aangeklaagd wegens schending patent
Vorige 10:52 Intel introduceert vijf nieuwe mobiele processors
VNU Media logo Hosted by True

© 1998 - 2012 Tweakers.net B.V. - Alle rechten voorbehouden - Contact - Jouw privacy - Algemene Voorwaarden

Uitgever van:

Website van het jaar 2011