GitHub gaat opensourcesoftware opslaan in Code Vault in Noorse mijn

GitHub heeft de start van de Arctic Code Vault aangekondigd. Het bedrijf gaat op 2 februari 2020 een snapshot van alle actieve repositories maken en het resultaat opslaan in de Noorse Arctic World Archive. De bedoeling is dat de code daar duizend jaar bewaard blijft.

Met de Arctic Code Vault wil GitHub dat opensourcesoftware behouden blijft voor toekomstige generaties en het project dient ook om het belang van de opensourcegemeenschap te benadrukken. De opslag in de mijn is bedoeld voor archivering op lange termijn waarvoor GitHub om de vijf jaar of langer een update wil maken. De snapshot van 2 februari 2020 lijkt dan ook de eerste in een reeks te zijn, in aanvulling op de maandelijkse tot jaarlijkse updates van de Internet Archive en de directe opslag van GitHub-repositories in meerdere datacenters wereldwijd.

Voor de snapshot slaat GitHub niet alleen elke actieve publieke GitHub-repository op, maar ook een deel van de 'slapende' repositories, waarbij de keuze wordt gebaseerd op het aantal sterren, dependencies en de mening van een adviserend expertpanel. De snapshot bevat de head van de standaard-branch van elke repository, minus binaries die groter zijn dan 100KB. De bestanden worden opgeslagen in een enkel tar-bestand en de meeste data wordt via qr-encoding vastgelegd.

De gegevens worden opgeslagen in het Arctic World Archive. Dit bevindt zich in een mijn die zich 250 meter diep in een berghelling op Spitsbergen in de Noordelijke IJszee bevindt. GitHub werkt samen met het Noorse mijnbedrijf Store Norske Spitsbergen Kulkompani en Piql, dat gespecialiseerd is in opslag voor de langere termijn.

Piql gebruikt hiervoor film op basis van zilverhalogeniden en polyester met een lengte van meer dan een kilometer. Voor het omzetten naar het juiste qr-bestandsformaat voert het bedrijf een virusscan uit en genereert het checksums voor de bestanden, ter verificatie. Vervolgens schrijft een 'piqlWriter' de data naar de speciale film, op 40MB/s. Voor ieder frame wordt een nieuwe checksum gegenereerd. Na het beschrijven wordt de film in een piqlBox-gestopt, een speciaal beschermde cartridge. De houdbaarheid zou 500 jaar bedragen, maar gesimuleerde tests van Piql zouden een indicatie vormen dat het dubbele daarvan haalbaar is. In de koude, droge omgeving van de Noorse mijn zou die termijn nog langer zijn.

Voor het terughalen van de data is er een piqlReader. Om toekomstige generaties op weg te helpen om de bestanden te kunnen herstellen, is aan het begin van elke film de broncode van de software van de reader toegevoegd, in zowel digitale als menselijk leesbare vorm. De specificaties van het bestandsformaat staan ook op die wijze opgeslagen.

GitHub Arctic Code Vault — Bron: Bloomberg

Vorig nieuwsartikel Volgend nieuwsartikel

Door Olaf van Miltenburg

Nieuwscoördinator

Feedback • 15-11-2019 15:37
56 • submitter: aliencowfarm

15-11-2019 • 15:37

Submitter: aliencowfarm

Lees meer

GitHub laat AI-kunstenaar nieuw ontwerp maken voor Arctic Code Vault .Geek van 21 september 2022

Internet Archive wil robots.txt negeren om accurater beeld te krijgen Nieuws van 24 april 2017

Opslag Github

Reacties (56)

-Moderatie-faq

Wijzig sortering

monojack 15 november 2019 15:49

Kan er iemand een voorbeeld geven voor wat zo'n back up nog relevant zou zijn binnen 1000 jaar? Ok ik zie de Indiana Jones van de toekomst hier wel nog een mijn in zien voor afdalen maar toekomstige generaties zie ik daar toch wel hun neus voor ophalen. Misschien handig voor een fad van een maand waar de retro iPhone nog eens populair is in het jaar 2090 maar het is toch een beetje als naar een paard met kar kijken wat 1000 jaar geleden nog hoogtechnologisch spul was.

MegaMGamer @monojack • 15 november 2019 15:53

Ongeveer even relevant als een boek uit de middeleeuwen. Vooral heel interessant en leerzaam voor de historici van de toekomst.

Coolstart @MegaMGamer • 15 november 2019 17:40

Dat kan een leuke bijbedoeling zijn maar het echte doel is wel net iets anders. In de vault zitten bijvoorbeeld ook zaden tot -18 gekoeld om zoveel mogelijk leven op aarde te preserveren. Niet voor historici maar voor overlevende aardbewoners voor als het echt misgaat.

Het is dus vooral bedoelt voor het geval we worden getroffen door een globale catastrofe waarbij de mensheid bijna is vernietigd en we niet in staat zijn de bestaande maar gewone back-ups (cloud storage) op een nieuwe drager te plaatsen. Dan is zo'n vault natuurlijk erg handig omdat je dan niet van 0 moet starten met de opbouwen van kennis.

Los van dat is 500 tot 1000 jaar relatief kort. Er bestaat waarschijnlijk geen catastrofaal event dat zowel 99,999% van de mensen uitroeit en zowel de mensheid in staat stelt om per direct opnieuw te reproduceren, complexe computers en chips te bouwen, en code in te lezen in minder dan 1000 jaar. Het lijkt zelfs aannemelijk dat de aarde zelf honderden jaren moet herstellen alvorens het levens buiten de shelters weer mogelijk is. (Vergelijkbaar met de meteorietinslag op aarde die 65 miljoen jaar geleden 3/4 van het leven op aarde uitroeide.)

Zelfs Nash Papyrus gaat al meer dan 2000 jaar mee dus die max 1000 jaar is echt niet veel.

De volgende stap is project-silica (Ook Microsoft) Hier gaan ze op een glazen plaatje (een erg puur en inert quartz) van 7.5 cm x 7.5 cm x 2 mm 75.6 GB data laseren. Zo'n quarts kan honderden graden overleven, intense zonnewinden en brute g-force door impact. Deze opslagmethode zou minimaal 10.000 jaar meekunnen.

[Reactie gewijzigd door Coolstart op 23 juli 2024 15:44]

ajolla @Coolstart • 15 november 2019 20:26

Ja, maar wie kan dat uitlezen?

Keypunchie @MegaMGamer • 15 november 2019 16:59

Maar een stuk minder leesbaar.
Dat de QR-codering het 1000 jaar gaat uithouden is erg onwaarschijnlijk. Laat staan dat wat ze encrypten begrijpelijk is. Laat staan dat ze nog iets van compilers/interpreters hebben die wat met de code kunnen.

Hierogliefen waren al bijna niet te ontcijferen, gelukkig was er de Rosetta steen. En dat was "gewoon" natuurlijke taal.

freaky @Keypunchie • 15 november 2019 19:14

natuurlijke taal

Wat is er natuurlijk aan taal?

Keypunchie @freaky • 15 november 2019 20:06

"Natuurlijke taal" geeft en taal aan die mensen onderling 'van nature' gebruiken om met elkaar te communiceren versus een geconstrueerde taal, zoals bijvoorbeeld een programmeertaal of andere 'codering'.

https://en.wikipedia.org/wiki/Natural_language

In principe talen die men leert als kind door ze te horen en te spreken vs. talen die men 'afspreekt'.

@DigitalExorcist
Ik heb dit onderscheid niet verzonnen, ofzo. Aramees en Sumerisch vallen onder natuurlijke talen. C# niet.

[Reactie gewijzigd door Keypunchie op 23 juli 2024 15:44]

Argantonis @Keypunchie • 16 november 2019 08:22

"Natuurlijke taal" geeft en taal aan die mensen onderling 'van nature' gebruiken om met elkaar te communiceren versus een geconstrueerde taal, zoals bijvoorbeeld een programmeertaal of andere 'codering'.

https://en.wikipedia.org/wiki/Natural_language

In principe talen die men leert als kind door ze te horen en te spreken vs. talen die men 'afspreekt'.

@DigitalExorcist
Ik heb dit onderscheid niet verzonnen, ofzo. Aramees en Sumerisch vallen onder natuurlijke talen. C# niet.

Da’s leuk en aardig maar tenzij je opgroeit met een natuurlijke taal zijn ze juist minder makkelijk te leren. Aangezien het organisch ontstaan is. Ga eens kijken naar alle uitzonderingen in Nederlands of Engels. Programmeertalen zijn juist vrij logisch en compact.

Keypunchie @Argantonis • 16 november 2019 09:15

interessante vraag, wat is makkelijker zonder context te begrijpen: een natuurlijke of een programmeertaal.

Ik denk dat beide nauwelijks gaat lukken. Zelfs met context is het moeilijk. Zie opnieuw de Rosetta steen. En daar zit dan het voordeel van een natuurlijke taal, die zul je eerder aan iets kunnen ijken.

Een programmeertaal kun je op geen mogelijkheid zien waar het over gaat, zelfs als je eenmaal woorden of variabelen kunt ontcijferen dan kunnen die in principe op alles slaan.

Een variabele ‘gebruikersnaam’ kan in principe gebruikt worden voor het bevatten van je wachtwoord, het zijn maar labels. Nou zullen de labels doorgaans bewust gekozen zijn, maar er is geen consistentie over programma’s heen.

Waar je bij een stevige verzameling Nederlandse teksten allemaal woorden met dezelfde betekenis hebt, is dat bij een verzameling C-programma’s allerminst gegarandeerd.

DigitalExorcist @Keypunchie • 15 november 2019 21:29

Spreek jij nog Sumerisch of Aramees dan? Dat was best natuurlijk voor een behoorlijk relevante groep mensen destijds...

freaky @Keypunchie • 18 november 2019 09:22

Dank, zo had ik em niet opgevat omdat het je wordt aangeleerd.

svennd @Keypunchie • 17 november 2019 09:21

oke maar de kans bestaat natuurlijk dat een of andere computer het ook overleefd dan kan je met de instructies verder toch ?

monojack @MegaMGamer • 15 november 2019 15:59

is het dan niet interessanter om gans het internet er op te slaan ipv een stukje?

MegaMGamer @monojack • 15 november 2019 16:12

Ik denk dat de enige reden dat ze dat met deze data zomaar kunnen doen is dat alles wat op github staat open source is. Geen gezeur met rechten enzo.

supersnathan94

Opslag

@MegaMGamer • 15 november 2019 16:15

Hoho. Code op Github != open source. Daarom hebben ze het ook expliciet over de open source stukken. Ik heb er bijvoorbeeld ook private repo’s staan en je hebt tegenwoordig ook GH enterprise hieronder vallen. Dat laatste is zeker niet per se open source.

Niemand_Anders @supersnathan94 • 16 november 2019 14:46

Het is zeker niet allemaal open source wat er op GitHub staat, alleen mogen ze wel heel erg veel met de github repositories welke zij beheren. Als je gebruik maakt van GitHub voor je code (of GitLab, BitBucket, Azure DevOps of elke andere cloud (D)CVS), dan geef je hun expliciet toestemming om backups te maken van jouw software. En dat is precies wat een snapshot is.. Technisch gezien is dit slechts een offsite backup.

Maar, zij zullen voor deze eerste snapshot alleen de publieke repositories hebben gebruikt totdat legal voldoende heeft onderzocht wat de gevolgen mochten zijn als een private closed source repository over bijvoorbeeld 10 jaar ineens op straat komt te liggen omdat de mijn door de Russen/Chinesen/Noord Koreanen of de viking uit de oudheid zijn geplunderd en in 'verkeerde' handen is gevallen.. GitHub kan namelijk niet garanderen dat die films pas over 1000 jaar in andere handen komen..

P_Tingen @monojack • 15 november 2019 16:09

Vast, maar daar heeft GitHub de rechten niet voor, voor dit wel.

Durandal @MegaMGamer • 16 november 2019 21:52

Ongeveer even relevant als een boek uit de middeleeuwen. Vooral heel interessant en leerzaam voor de historici van de toekomst.

Er is al heel wat kennis verloren gegaan bij het verval van beschavingen. Wellicht hadden de middeleeuwen korter geduurd als we alle Romeinse kennis nog hadden. Denk bv aan Romeins beton.

Het is niet ondenkbaar dat de wereldbeschaving volgende eeuw in verval raakt door de opwarming, of dat b.v. een virus of nucleaire oorlog dat bespoedigt.

blackmilo @Durandal • 17 november 2019 18:25

Het zou zomaar weer kunnen gebeuren zolang we hebben niet allemaal door 1 deur kunnen.

LeLo @monojack • 15 november 2019 16:00

Hoe mooi zou het zijn geweest als we de 'broncode' van het beton dat de oude Romeinen hebben gebruikt nu nog zouden hebben? Dan zouden we ons beton beter bestand kunnen maken tegen zeewater...

Maar ik ben het wel met je eens: als er geen apocalyps komt om technologische ontwikkelingen te stoppen, is over 1000 jaar de broncode van een willekeurig iOS spelletje niet meer zo relevant.

Verwijderd @LeLo • 15 november 2019 16:20

Die 'broncode' hebben ze 2j geleden terug gevonden, Tobermoriet, vulkanisch as en zeewater geeft chemische reactie die dit mogelijk maakt.
https://pubs.geosciencewo...article-lookup/102/7/1435

The Zep Man

Github

@Verwijderd • 15 november 2019 16:30

Dus reverse engineering/lookup na +2000 jaar. Hadden wij iets eerder kunnen gebruiken. Als die Romeinen dat nou ergens hadden opgeslagen en goed hadden gedocumenteerd waar ze dat hadden gedaan, dan hadden wij het een stuk eerder en niet zoveel tijd en energie verspild.

Hierom is historisch zaken vastleggen belangrijk. Wij weten niet wat belangrijk is en wat niet. In de toekomst weten ze dat wel. Ontneem hen niet de mogelijkheid om dat uit te zoeken.

[Reactie gewijzigd door The Zep Man op 23 juli 2024 15:44]

wica @The Zep Man • 15 november 2019 16:37

Als je niet weet wat je zoek en waar. Dan hadden de Romeinen voor je neus kunnen "verstoppen" maar dan had je het nog niet gevonden.

lezzmeister @wica • 15 november 2019 20:23

Romeinen zagen niet wat ze voor hun eigen neus hadden, laat staan dat ze het een ander uitleggen. Ze wisten bijvoorbeeld prima wat stoom was maar zagen er geen potentie in, en zo meer voorbeelden.

The Zep Man

Github

@wica • 15 november 2019 16:47

Daarom:

Als die Romeinen dat nou ergens hadden opgeslagen en goed hadden gedocumenteerd waar ze dat hadden gedaan, dan hadden wij het een stuk eerder en niet zoveel tijd en energie verspild.

Overigens is dat stukje dat ik vet heb gedrukt niet zo makkelijk als dat het lijkt. Er zijn hele onderzoeksvelden voor hoe een mens 1000 of 10.000 jaar in de toekomst het beste verteld kan worden dat ze niet radioactief afval moeten opgraven. Het stukje over de Romeinen was dus meer tongue-in-cheek. Wij hebben meer capaciteit en middelen om hierover na te denken en dit mogelijk te maken.

[Reactie gewijzigd door The Zep Man op 23 juli 2024 15:44]

SPee @monojack • 15 november 2019 16:07

Dan ga je ervan uit dat er enkel technologische verbeteringen plaatsvinden.
Maar er is ook kans op grote rampen die vrijwel alles vernietigen.
De dino's dachten ook alles te overleven. En hoelang is de kennis van de maja, farao's, romeinen, grieken, etc. behouden gebleven? Een keer een opstand/oorlog en je bent zo een decennia aan kennis kwijt.

Bjorn89 @SPee • 15 november 2019 18:47

Goed voorbeeld is Alexandria in de oudheid, lijkt me niet onredelijk dat daar enorm veel kennis is verloren gegaan.

SinergyX @monojack • 15 november 2019 16:07

Code is niet alleen code, maar is ook een methode. Jij weet niet wat er in 500/1000 jaar kan gebeuren, even een 'human wipe' door wat rampen, elk stukje van geschiedenis kan ergens weer wat inzicht/hulp geven.

Niet alles hoeft een doel te hebben, dingen kunnen ook gewoon bewaard worden 'om het bewaren'. Boeit ons een auto uit 1915 met achterhaalde technologie? Een pot uit 14de eeuw waar niet eens water meer in kan? Ik denk ook niet dat die mensen duizenden jaar geleden dacht 'waarom deze pot bewaren? Welk nut heeft het bewaren van deze pot dan?'.

Mignol @monojack • 15 november 2019 16:08

Misschien gaat het niet om relevant zijn, maar een backup als er een wereldwijde (computer)ramp zou gebeuren. Wat dan de waarde van de code op Github is, dat is twijfelachtig. Daar kan geen MRI scanner mee gemaakt worden. Ik denk dat het alleen maar is om publiciteit te genereren.
Een stevige bronzen deur van 1000 jaar oud is mogelijk: https://en.wikipedia.org/wiki/Bernward_Doors en er zijn zelfs documenten van 1000 jaar oud: https://commons.wikimedia.org/wiki/Category:1019_documents, maar zilverhalogeniden en polyester is heel wat anders.

[Reactie gewijzigd door Mignol op 23 juli 2024 15:44]

Jerie

@monojack • 15 november 2019 20:04

Dat weet je niet want je weet niet hoe de wereld (lees: Aarde) er over 1000 jaar uit gaat zien. My take: zondvloed (lees: klimaatverandering) en dit eindigt ergens onder water en vinden archeologen van de volgende supreme race deze vondst. Ze begrijpen er geen hout van, net zoals wij geen hout van de tekeningen van de Egyptenaren, Sumerische kleitabletten, en de Maya's begrijpen.

ajolla @monojack • 15 november 2019 20:25

Om Atari spelletjes te kunnen spelen?

Moortu 15 november 2019 15:48

Stoppen ze er dan ook blueprints in om computers te maken? dan dubbelt het gelijk als een knowledge vault voor apocalypse scenarios

Cergorach @Moortu • 15 november 2019 15:50

Survivor: "Hey, what's this? It burns really well..."

0timsmit0 @Cergorach • 15 november 2019 17:47

Dit was dit gaande bij het pergamonaltaar in Turkije, waar de lokale bevolking in koude tijden onwetend panelen van dit altaar verbrandden. Is destijds door een Duitse onderzoeker beschermd en opgekocht voor Berlijnse musea.

Geekomatic

15 november 2019 16:07

Damn, nu heb ik net gisteren pas nog een domme bug gefixed.

supersnathan94

Opslag

@Geekomatic • 15 november 2019 16:19

Ik hoop dat je dan een beetje fatsoenlijke commitmessage hebt geschreven. Met een beetje pech sta je over duizend jaar in de boeken als “the dev that did a big oopsie”.

Lagonas @Geekomatic • 16 november 2019 14:22

Nou, over 5 jaar wordt die uitgebracht

Cergorach 15 november 2019 15:44

Heel cool, maar dat ziet er wel heel gammel uit...

hawke84 @Cergorach • 15 november 2019 15:49

Heel cool, maar dat ziet er wel heel gammel uit...

Was ook mijn 1e gedachte. Stoer idee maar een beetje aardbeving of instorting lijkt me die koektrommel te vermorzelen.

Asitis @hawke84 • 15 november 2019 15:59

Kijk eens naar die grotwand; helemaal bekleed met versterkt staaldraad. Ik denk dat je er wel van uit mag gaan dat betrokken partijen weten waar ze mee bezig zijn.

Dunky13 15 november 2019 18:04

Ik heb zelf gewerkt met data uit 1996. 20 jaar oud (toen ik er mee aan de slag ging. Ik ben bezig geweest om de Freeze van De Digitale Stad (DDS) uit te pakken en te onderzoeken.

Er waren hele interessante bevindingen gedaan door mij en mede onderzoekers.

Er is ook een paper gepubliceerd (https://www.tandfonline.c...080/24701475.2017.1309852) waarbij we ook tegen problemen aanliepen met het uitpakken van compressed tarballs.
Corruptie van data, over een lange periode is aannemelijk, en er moet dus goed gezorgd worden dat hier rekening mee gehouden wordt. Ook de stappen goed documenteren, zodat in de toekomst deze stappen ook terug gemaakt kunnen worden. Maar niet alleen software stappen, maar ook op hardware gebied. Apparatuur die nu (nog) normaal werkt, hoeft dat niet over 20 of 100 jaar te doen.

lezzmeister @Dunky13 • 15 november 2019 20:37

Ik had recentelijk zelf nog een paar oude 20GB en 40GB schijven gevonden van mezelf. Usb adapter erop en graven maar (1 was helaas defect). Geen idee van wanneer maar iig uit de tijd dat die schijven normaal waren. Interessant om door te graven. En inderdaad, sommige dingen waren onleesbaar, en moest echt zoeken wat twin VQF ook weer was.

lvdgraaff @Dunky13 • 17 november 2019 21:18

Gaaf artikel, met plezier gelezen. Vermakelijk om te zien hoe moeilijk het na 20 jaar al is om iets zinnigs uit een digitaal archief te halen.

Byron010 15 november 2019 15:47

Op eerste gezicht: he wat?

Na het lezen: Heel vet en tof om zo'n lange geschiedenis te kunnen terug zien 500 jaar verder. Zeker als het op zo'n relatief klein iets opgeslagen kan worden.

Kermit123 15 november 2019 15:52

beetje schril contrast met de World seeds fault

, die overigens ook niet zo stabiel leek na al een paar jaar
door veranderende temperaturen op spitsbergen

StefanJanssen 15 november 2019 16:06

Maar, als ik mijn data wil laten verwijderen (GDPR) kunnen ze dat dan nog doen?

Caayn @StefanJanssen • 15 november 2019 16:14

Code is toch geen persoonsgegeven?

StefanJanssen @Caayn • 15 november 2019 16:26

Er staan wel persoonlijke dingen in dingen als de LICENSE.MD zoals bv je email adres.

Gerrit T. @StefanJanssen • 15 november 2019 16:41

Ik verwacht niet dat mijn emailadressen over een paar eeuwen nog werken.

StefanJanssen @Gerrit T. • 15 november 2019 16:54

Dat maakt toch niet uit voor de GDPR?

Bender @StefanJanssen • 15 november 2019 17:54

Interessante vraag.
Een email adres kun je nog wel herkennen en anonimiseren, maar met persoonsnamen wordt dat wel een uitdaging.
En dus verwijderen lijkt me vrijwel onmogelijk...

RoestVrijStaal 15 november 2019 16:52

*verwijderd repositories van z'n studietijd zodat nakomelingen niet geconfronteerd worden met slechte keuzes die deels door z'n docenten opgelegd zijn*

Vergeten jullie allen ook niet om (de geschiedenis van) de repositories te checken op authenticatie & configuratie gegevens die ooit per ongeluk meegecommit zijn?

MegaMGamer 15 november 2019 15:47

Voor de mensen die net als ik even in de war waren. Dit is dus niet de Wereld zaden bank. Die bevindt zich op hetzelfde eiland en heeft eigenlijk hetzelfde doel maar dan voor alle soorten zaden van over de hele wereld (behalve de menselijke/dierlijke varianten).

cricque @MegaMGamer • 15 november 2019 15:49

Zit een kilometer verder ongeveer dan de zadenbank

CAPSLOCK2000

Github

@MegaMGamer • 15 november 2019 16:53

Ik hoop dat het goed gaat want een jaar of twee geleden was in het nieuws dat die zadenbank last had van dooi door klimaatverandering.

Op dit item kan niet meer gereageerd worden.

Lees meer

Reacties (56)

Sorteer op:

Weergave: