GitHub gaat opensourcesoftware opslaan in Code Vault in Noorse mijn

GitHub heeft de start van de Arctic Code Vault aangekondigd. Het bedrijf gaat op 2 februari 2020 een snapshot van alle actieve repositories maken en het resultaat opslaan in de Noorse Arctic World Archive. De bedoeling is dat de code daar duizend jaar bewaard blijft.

Met de Arctic Code Vault wil GitHub dat opensourcesoftware behouden blijft voor toekomstige generaties en het project dient ook om het belang van de opensourcegemeenschap te benadrukken. De opslag in de mijn is bedoeld voor archivering op lange termijn waarvoor GitHub om de vijf jaar of langer een update wil maken. De snapshot van 2 februari 2020 lijkt dan ook de eerste in een reeks te zijn, in aanvulling op de maandelijkse tot jaarlijkse updates van de Internet Archive en de directe opslag van GitHub-repositories in meerdere datacenters wereldwijd.

Voor de snapshot slaat GitHub niet alleen elke actieve publieke GitHub-repository op, maar ook een deel van de 'slapende' repositories, waarbij de keuze wordt gebaseerd op het aantal sterren, dependencies en de mening van een adviserend expertpanel. De snapshot bevat de head van de standaard-branch van elke repository, minus binaries die groter zijn dan 100KB. De bestanden worden opgeslagen in een enkel tar-bestand en de meeste data wordt via qr-encoding vastgelegd.

De gegevens worden opgeslagen in het Arctic World Archive. Dit bevindt zich in een mijn die zich 250 meter diep in een berghelling op Spitsbergen in de Noordelijke IJszee bevindt. GitHub werkt samen met het Noorse mijnbedrijf Store Norske Spitsbergen Kulkompani en Piql, dat gespecialiseerd is in opslag voor de langere termijn.

Piql gebruikt hiervoor film op basis van zilverhalogeniden en polyester met een lengte van meer dan een kilometer. Voor het omzetten naar het juiste qr-bestandsformaat voert het bedrijf een virusscan uit en genereert het checksums voor de bestanden, ter verificatie. Vervolgens schrijft een 'piqlWriter' de data naar de speciale film, op 40MB/s. Voor ieder frame wordt een nieuwe checksum gegenereerd. Na het beschrijven wordt de film in een piqlBox-gestopt, een speciaal beschermde cartridge. De houdbaarheid zou 500 jaar bedragen, maar gesimuleerde tests van Piql zouden een indicatie vormen dat het dubbele daarvan haalbaar is. In de koude, droge omgeving van de Noorse mijn zou die termijn nog langer zijn.

Voor het terughalen van de data is er een piqlReader. Om toekomstige generaties op weg te helpen om de bestanden te kunnen herstellen, is aan het begin van elke film de broncode van de software van de reader toegevoegd, in zowel digitale als menselijk leesbare vorm. De specificaties van het bestandsformaat staan ook op die wijze opgeslagen.

Bron: Bloomberg

Door Olaf van Miltenburg

Nieuwscoördinator

15-11-2019 • 15:37

56 Linkedin

Submitter: aliencowfarm

Reacties (56)

56
55
42
5
1
10
Wijzig sortering
Kan er iemand een voorbeeld geven voor wat zo'n back up nog relevant zou zijn binnen 1000 jaar? Ok ik zie de Indiana Jones van de toekomst hier wel nog een mijn in zien voor afdalen maar toekomstige generaties zie ik daar toch wel hun neus voor ophalen. Misschien handig voor een fad van een maand waar de retro iPhone nog eens populair is in het jaar 2090 maar het is toch een beetje als naar een paard met kar kijken wat 1000 jaar geleden nog hoogtechnologisch spul was.
Ongeveer even relevant als een boek uit de middeleeuwen. Vooral heel interessant en leerzaam voor de historici van de toekomst.
Dat kan een leuke bijbedoeling zijn maar het echte doel is wel net iets anders. In de vault zitten bijvoorbeeld ook zaden tot -18 gekoeld om zoveel mogelijk leven op aarde te preserveren. Niet voor historici maar voor overlevende aardbewoners voor als het echt misgaat.

Het is dus vooral bedoelt voor het geval we worden getroffen door een globale catastrofe waarbij de mensheid bijna is vernietigd en we niet in staat zijn de bestaande maar gewone back-ups (cloud storage) op een nieuwe drager te plaatsen. Dan is zo'n vault natuurlijk erg handig omdat je dan niet van 0 moet starten met de opbouwen van kennis.

Los van dat is 500 tot 1000 jaar relatief kort. Er bestaat waarschijnlijk geen catastrofaal event dat zowel 99,999% van de mensen uitroeit en zowel de mensheid in staat stelt om per direct opnieuw te reproduceren, complexe computers en chips te bouwen, en code in te lezen in minder dan 1000 jaar. Het lijkt zelfs aannemelijk dat de aarde zelf honderden jaren moet herstellen alvorens het levens buiten de shelters weer mogelijk is. (Vergelijkbaar met de meteorietinslag op aarde die 65 miljoen jaar geleden 3/4 van het leven op aarde uitroeide.)

Zelfs Nash Papyrus gaat al meer dan 2000 jaar mee dus die max 1000 jaar is echt niet veel.

De volgende stap is project-silica (Ook Microsoft) Hier gaan ze op een glazen plaatje (een erg puur en inert quartz) van 7.5 cm x 7.5 cm x 2 mm 75.6 GB data laseren. Zo'n quarts kan honderden graden overleven, intense zonnewinden en brute g-force door impact. Deze opslagmethode zou minimaal 10.000 jaar meekunnen.

[Reactie gewijzigd door Coolstart op 15 november 2019 17:48]

Ja, maar wie kan dat uitlezen?
Maar een stuk minder leesbaar.
Dat de QR-codering het 1000 jaar gaat uithouden is erg onwaarschijnlijk. Laat staan dat wat ze encrypten begrijpelijk is. Laat staan dat ze nog iets van compilers/interpreters hebben die wat met de code kunnen.

Hierogliefen waren al bijna niet te ontcijferen, gelukkig was er de Rosetta steen. En dat was "gewoon" natuurlijke taal.
natuurlijke taal
Wat is er natuurlijk aan taal?
"Natuurlijke taal" geeft en taal aan die mensen onderling 'van nature' gebruiken om met elkaar te communiceren versus een geconstrueerde taal, zoals bijvoorbeeld een programmeertaal of andere 'codering'.

https://en.wikipedia.org/wiki/Natural_language

In principe talen die men leert als kind door ze te horen en te spreken vs. talen die men 'afspreekt'.

@DigitalExorcist
Ik heb dit onderscheid niet verzonnen, ofzo. Aramees en Sumerisch vallen onder natuurlijke talen. C# niet.

[Reactie gewijzigd door Keypunchie op 15 november 2019 22:33]

"Natuurlijke taal" geeft en taal aan die mensen onderling 'van nature' gebruiken om met elkaar te communiceren versus een geconstrueerde taal, zoals bijvoorbeeld een programmeertaal of andere 'codering'.

https://en.wikipedia.org/wiki/Natural_language

In principe talen die men leert als kind door ze te horen en te spreken vs. talen die men 'afspreekt'.

@DigitalExorcist
Ik heb dit onderscheid niet verzonnen, ofzo. Aramees en Sumerisch vallen onder natuurlijke talen. C# niet.
Da’s leuk en aardig maar tenzij je opgroeit met een natuurlijke taal zijn ze juist minder makkelijk te leren. Aangezien het organisch ontstaan is. Ga eens kijken naar alle uitzonderingen in Nederlands of Engels. Programmeertalen zijn juist vrij logisch en compact.
interessante vraag, wat is makkelijker zonder context te begrijpen: een natuurlijke of een programmeertaal.

Ik denk dat beide nauwelijks gaat lukken. Zelfs met context is het moeilijk. Zie opnieuw de Rosetta steen. En daar zit dan het voordeel van een natuurlijke taal, die zul je eerder aan iets kunnen ijken.

Een programmeertaal kun je op geen mogelijkheid zien waar het over gaat, zelfs als je eenmaal woorden of variabelen kunt ontcijferen dan kunnen die in principe op alles slaan.

Een variabele ‘gebruikersnaam’ kan in principe gebruikt worden voor het bevatten van je wachtwoord, het zijn maar labels. Nou zullen de labels doorgaans bewust gekozen zijn, maar er is geen consistentie over programma’s heen.

Waar je bij een stevige verzameling Nederlandse teksten allemaal woorden met dezelfde betekenis hebt, is dat bij een verzameling C-programma’s allerminst gegarandeerd.
Spreek jij nog Sumerisch of Aramees dan? Dat was best natuurlijk voor een behoorlijk relevante groep mensen destijds...
Dank, zo had ik em niet opgevat omdat het je wordt aangeleerd.
oke maar de kans bestaat natuurlijk dat een of andere computer het ook overleefd dan kan je met de instructies verder toch ?
is het dan niet interessanter om gans het internet er op te slaan ipv een stukje?
Ik denk dat de enige reden dat ze dat met deze data zomaar kunnen doen is dat alles wat op github staat open source is. Geen gezeur met rechten enzo.
Hoho. Code op Github != open source. Daarom hebben ze het ook expliciet over de open source stukken. Ik heb er bijvoorbeeld ook private repo’s staan en je hebt tegenwoordig ook GH enterprise hieronder vallen. Dat laatste is zeker niet per se open source.
Het is zeker niet allemaal open source wat er op GitHub staat, alleen mogen ze wel heel erg veel met de github repositories welke zij beheren. Als je gebruik maakt van GitHub voor je code (of GitLab, BitBucket, Azure DevOps of elke andere cloud (D)CVS), dan geef je hun expliciet toestemming om backups te maken van jouw software. En dat is precies wat een snapshot is.. Technisch gezien is dit slechts een offsite backup.

Maar, zij zullen voor deze eerste snapshot alleen de publieke repositories hebben gebruikt totdat legal voldoende heeft onderzocht wat de gevolgen mochten zijn als een private closed source repository over bijvoorbeeld 10 jaar ineens op straat komt te liggen omdat de mijn door de Russen/Chinesen/Noord Koreanen of de viking uit de oudheid zijn geplunderd en in 'verkeerde' handen is gevallen.. GitHub kan namelijk niet garanderen dat die films pas over 1000 jaar in andere handen komen..
Vast, maar daar heeft GitHub de rechten niet voor, voor dit wel.
Ongeveer even relevant als een boek uit de middeleeuwen. Vooral heel interessant en leerzaam voor de historici van de toekomst.
Er is al heel wat kennis verloren gegaan bij het verval van beschavingen. Wellicht hadden de middeleeuwen korter geduurd als we alle Romeinse kennis nog hadden. Denk bv aan Romeins beton.

Het is niet ondenkbaar dat de wereldbeschaving volgende eeuw in verval raakt door de opwarming, of dat b.v. een virus of nucleaire oorlog dat bespoedigt.
Het zou zomaar weer kunnen gebeuren zolang we hebben niet allemaal door 1 deur kunnen.
Hoe mooi zou het zijn geweest als we de 'broncode' van het beton dat de oude Romeinen hebben gebruikt nu nog zouden hebben? Dan zouden we ons beton beter bestand kunnen maken tegen zeewater...

Maar ik ben het wel met je eens: als er geen apocalyps komt om technologische ontwikkelingen te stoppen, is over 1000 jaar de broncode van een willekeurig iOS spelletje niet meer zo relevant. :)
Die 'broncode' hebben ze 2j geleden terug gevonden, Tobermoriet, vulkanisch as en zeewater geeft chemische reactie die dit mogelijk maakt.
https://pubs.geosciencewo...article-lookup/102/7/1435
Dus reverse engineering/lookup na +2000 jaar. Hadden wij iets eerder kunnen gebruiken. Als die Romeinen dat nou ergens hadden opgeslagen en goed hadden gedocumenteerd waar ze dat hadden gedaan, dan hadden wij het een stuk eerder en niet zoveel tijd en energie verspild.

Hierom is historisch zaken vastleggen belangrijk. Wij weten niet wat belangrijk is en wat niet. In de toekomst weten ze dat wel. Ontneem hen niet de mogelijkheid om dat uit te zoeken.

[Reactie gewijzigd door The Zep Man op 15 november 2019 16:47]

Als je niet weet wat je zoek en waar. Dan hadden de Romeinen voor je neus kunnen "verstoppen" maar dan had je het nog niet gevonden.
Romeinen zagen niet wat ze voor hun eigen neus hadden, laat staan dat ze het een ander uitleggen. Ze wisten bijvoorbeeld prima wat stoom was maar zagen er geen potentie in, en zo meer voorbeelden.
Daarom:
Als die Romeinen dat nou ergens hadden opgeslagen en goed hadden gedocumenteerd waar ze dat hadden gedaan, dan hadden wij het een stuk eerder en niet zoveel tijd en energie verspild.
Overigens is dat stukje dat ik vet heb gedrukt niet zo makkelijk als dat het lijkt. Er zijn hele onderzoeksvelden voor hoe een mens 1000 of 10.000 jaar in de toekomst het beste verteld kan worden dat ze niet radioactief afval moeten opgraven. Het stukje over de Romeinen was dus meer tongue-in-cheek. Wij hebben meer capaciteit en middelen om hierover na te denken en dit mogelijk te maken.

[Reactie gewijzigd door The Zep Man op 15 november 2019 18:04]

Dan ga je ervan uit dat er enkel technologische verbeteringen plaatsvinden.
Maar er is ook kans op grote rampen die vrijwel alles vernietigen.
De dino's dachten ook alles te overleven. En hoelang is de kennis van de maja, farao's, romeinen, grieken, etc. behouden gebleven? Een keer een opstand/oorlog en je bent zo een decennia aan kennis kwijt.
Goed voorbeeld is Alexandria in de oudheid, lijkt me niet onredelijk dat daar enorm veel kennis is verloren gegaan.
Code is niet alleen code, maar is ook een methode. Jij weet niet wat er in 500/1000 jaar kan gebeuren, even een 'human wipe' door wat rampen, elk stukje van geschiedenis kan ergens weer wat inzicht/hulp geven.

Niet alles hoeft een doel te hebben, dingen kunnen ook gewoon bewaard worden 'om het bewaren'. Boeit ons een auto uit 1915 met achterhaalde technologie? Een pot uit 14de eeuw waar niet eens water meer in kan? Ik denk ook niet dat die mensen duizenden jaar geleden dacht 'waarom deze pot bewaren? Welk nut heeft het bewaren van deze pot dan?'.
Misschien gaat het niet om relevant zijn, maar een backup als er een wereldwijde (computer)ramp zou gebeuren. Wat dan de waarde van de code op Github is, dat is twijfelachtig. Daar kan geen MRI scanner mee gemaakt worden. Ik denk dat het alleen maar is om publiciteit te genereren.
Een stevige bronzen deur van 1000 jaar oud is mogelijk: https://en.wikipedia.org/wiki/Bernward_Doors en er zijn zelfs documenten van 1000 jaar oud: https://commons.wikimedia.org/wiki/Category:1019_documents, maar zilverhalogeniden en polyester is heel wat anders.

[Reactie gewijzigd door Mignol op 15 november 2019 16:14]

Dat weet je niet want je weet niet hoe de wereld (lees: Aarde) er over 1000 jaar uit gaat zien. My take: zondvloed (lees: klimaatverandering) en dit eindigt ergens onder water en vinden archeologen van de volgende supreme race deze vondst. Ze begrijpen er geen hout van, net zoals wij geen hout van de tekeningen van de Egyptenaren, Sumerische kleitabletten, en de Maya's begrijpen.
Om Atari spelletjes te kunnen spelen?
Stoppen ze er dan ook blueprints in om computers te maken? dan dubbelt het gelijk als een knowledge vault voor apocalypse scenarios
Survivor: "Hey, what's this? It burns really well..."
Dit was dit gaande bij het pergamonaltaar in Turkije, waar de lokale bevolking in koude tijden onwetend panelen van dit altaar verbrandden. Is destijds door een Duitse onderzoeker beschermd en opgekocht voor Berlijnse musea.
Damn, nu heb ik net gisteren pas nog een domme bug gefixed. :+
Ik hoop dat je dan een beetje fatsoenlijke commitmessage hebt geschreven. Met een beetje pech sta je over duizend jaar in de boeken als “the dev that did a big oopsie”.
Nou, over 5 jaar wordt die uitgebracht ;)
Heel cool, maar dat ziet er wel heel gammel uit...
Heel cool, maar dat ziet er wel heel gammel uit...
Was ook mijn 1e gedachte. Stoer idee maar een beetje aardbeving of instorting lijkt me die koektrommel te vermorzelen.
Kijk eens naar die grotwand; helemaal bekleed met versterkt staaldraad. Ik denk dat je er wel van uit mag gaan dat betrokken partijen weten waar ze mee bezig zijn.
Ik heb zelf gewerkt met data uit 1996. 20 jaar oud (toen ik er mee aan de slag ging. Ik ben bezig geweest om de Freeze van De Digitale Stad (DDS) uit te pakken en te onderzoeken.

Er waren hele interessante bevindingen gedaan door mij en mede onderzoekers.

Er is ook een paper gepubliceerd (https://www.tandfonline.c...080/24701475.2017.1309852) waarbij we ook tegen problemen aanliepen met het uitpakken van compressed tarballs.
Corruptie van data, over een lange periode is aannemelijk, en er moet dus goed gezorgd worden dat hier rekening mee gehouden wordt. Ook de stappen goed documenteren, zodat in de toekomst deze stappen ook terug gemaakt kunnen worden. Maar niet alleen software stappen, maar ook op hardware gebied. Apparatuur die nu (nog) normaal werkt, hoeft dat niet over 20 of 100 jaar te doen.
Ik had recentelijk zelf nog een paar oude 20GB en 40GB schijven gevonden van mezelf. Usb adapter erop en graven maar (1 was helaas defect). Geen idee van wanneer maar iig uit de tijd dat die schijven normaal waren. Interessant om door te graven. En inderdaad, sommige dingen waren onleesbaar, en moest echt zoeken wat twin VQF ook weer was.
Gaaf artikel, met plezier gelezen. Vermakelijk om te zien hoe moeilijk het na 20 jaar al is om iets zinnigs uit een digitaal archief te halen.
Op eerste gezicht: he wat?

Na het lezen: Heel vet en tof om zo'n lange geschiedenis te kunnen terug zien 500 jaar verder. Zeker als het op zo'n relatief klein iets opgeslagen kan worden.
beetje schril contrast met de World seeds fault :| , die overigens ook niet zo stabiel leek na al een paar jaar
door veranderende temperaturen op spitsbergen
Maar, als ik mijn data wil laten verwijderen (GDPR) kunnen ze dat dan nog doen?
Code is toch geen persoonsgegeven?
Er staan wel persoonlijke dingen in dingen als de LICENSE.MD zoals bv je email adres.
Ik verwacht niet dat mijn emailadressen over een paar eeuwen nog werken.
Dat maakt toch niet uit voor de GDPR?
Interessante vraag.
Een email adres kun je nog wel herkennen en anonimiseren, maar met persoonsnamen wordt dat wel een uitdaging.
En dus verwijderen lijkt me vrijwel onmogelijk...
*verwijderd repositories van z'n studietijd zodat nakomelingen niet geconfronteerd worden met slechte keuzes die deels door z'n docenten opgelegd zijn* :+

Vergeten jullie allen ook niet om (de geschiedenis van) de repositories te checken op authenticatie & configuratie gegevens die ooit per ongeluk meegecommit zijn? O-)
Voor de mensen die net als ik even in de war waren. Dit is dus niet de Wereld zaden bank. Die bevindt zich op hetzelfde eiland en heeft eigenlijk hetzelfde doel maar dan voor alle soorten zaden van over de hele wereld (behalve de menselijke/dierlijke varianten).
Zit een kilometer verder ongeveer dan de zadenbank
Ik hoop dat het goed gaat want een jaar of twee geleden was in het nieuws dat die zadenbank last had van dooi door klimaatverandering.

Op dit item kan niet meer gereageerd worden.

Tweakers maakt gebruik van cookies

Tweakers plaatst functionele en analytische cookies voor het functioneren van de website en het verbeteren van de website-ervaring. Deze cookies zijn noodzakelijk. Om op Tweakers relevantere advertenties te tonen en om ingesloten content van derden te tonen (bijvoorbeeld video's), vragen we je toestemming. Via ingesloten content kunnen derde partijen diensten leveren en verbeteren, bezoekersstatistieken bijhouden, gepersonaliseerde content tonen, gerichte advertenties tonen en gebruikersprofielen opbouwen. Hiervoor worden apparaatgegevens, IP-adres, geolocatie en surfgedrag vastgelegd.

Meer informatie vind je in ons cookiebeleid.

Sluiten

Toestemming beheren

Hieronder kun je per doeleinde of partij toestemming geven of intrekken. Meer informatie vind je in ons cookiebeleid.

Functioneel en analytisch

Deze cookies zijn noodzakelijk voor het functioneren van de website en het verbeteren van de website-ervaring. Klik op het informatie-icoon voor meer informatie. Meer details

janee

    Relevantere advertenties

    Dit beperkt het aantal keer dat dezelfde advertentie getoond wordt (frequency capping) en maakt het mogelijk om binnen Tweakers contextuele advertenties te tonen op basis van pagina's die je hebt bezocht. Meer details

    Tweakers genereert een willekeurige unieke code als identifier. Deze data wordt niet gedeeld met adverteerders of andere derde partijen en je kunt niet buiten Tweakers gevolgd worden. Indien je bent ingelogd, wordt deze identifier gekoppeld aan je account. Indien je niet bent ingelogd, wordt deze identifier gekoppeld aan je sessie die maximaal 4 maanden actief blijft. Je kunt deze toestemming te allen tijde intrekken.

    Ingesloten content van derden

    Deze cookies kunnen door derde partijen geplaatst worden via ingesloten content. Klik op het informatie-icoon voor meer informatie over de verwerkingsdoeleinden. Meer details

    janee