GitHub heeft de start van de Arctic Code Vault aangekondigd. Het bedrijf gaat op 2 februari 2020 een snapshot van alle actieve repositories maken en het resultaat opslaan in de Noorse Arctic World Archive. De bedoeling is dat de code daar duizend jaar bewaard blijft.
Met de Arctic Code Vault wil GitHub dat opensourcesoftware behouden blijft voor toekomstige generaties en het project dient ook om het belang van de opensourcegemeenschap te benadrukken. De opslag in de mijn is bedoeld voor archivering op lange termijn waarvoor GitHub om de vijf jaar of langer een update wil maken. De snapshot van 2 februari 2020 lijkt dan ook de eerste in een reeks te zijn, in aanvulling op de maandelijkse tot jaarlijkse updates van de Internet Archive en de directe opslag van GitHub-repositories in meerdere datacenters wereldwijd.
Voor de snapshot slaat GitHub niet alleen elke actieve publieke GitHub-repository op, maar ook een deel van de 'slapende' repositories, waarbij de keuze wordt gebaseerd op het aantal sterren, dependencies en de mening van een adviserend expertpanel. De snapshot bevat de head van de standaard-branch van elke repository, minus binaries die groter zijn dan 100KB. De bestanden worden opgeslagen in een enkel tar-bestand en de meeste data wordt via qr-encoding vastgelegd.
De gegevens worden opgeslagen in het Arctic World Archive. Dit bevindt zich in een mijn die zich 250 meter diep in een berghelling op Spitsbergen in de Noordelijke IJszee bevindt. GitHub werkt samen met het Noorse mijnbedrijf Store Norske Spitsbergen Kulkompani en Piql, dat gespecialiseerd is in opslag voor de langere termijn.
Piql gebruikt hiervoor film op basis van zilverhalogeniden en polyester met een lengte van meer dan een kilometer. Voor het omzetten naar het juiste qr-bestandsformaat voert het bedrijf een virusscan uit en genereert het checksums voor de bestanden, ter verificatie. Vervolgens schrijft een 'piqlWriter' de data naar de speciale film, op 40MB/s. Voor ieder frame wordt een nieuwe checksum gegenereerd. Na het beschrijven wordt de film in een piqlBox-gestopt, een speciaal beschermde cartridge. De houdbaarheid zou 500 jaar bedragen, maar gesimuleerde tests van Piql zouden een indicatie vormen dat het dubbele daarvan haalbaar is. In de koude, droge omgeving van de Noorse mijn zou die termijn nog langer zijn.
Voor het terughalen van de data is er een piqlReader. Om toekomstige generaties op weg te helpen om de bestanden te kunnen herstellen, is aan het begin van elke film de broncode van de software van de reader toegevoegd, in zowel digitale als menselijk leesbare vorm. De specificaties van het bestandsformaat staan ook op die wijze opgeslagen.