Tja een aantal lastige dingen zijn natuurlijk je wensen en eisen. In backup-land zijn nogal veel meningen.
Daarom heb ik dus nagedacht over risico's:
-De kans dat een hardeschijf stuk gaat; dat is een risico op downtime en dataverlies: RAIDz1 vangt dit deels op. Ook het zorgen voor verschillende hardeschijven van verschillende merken en verschillende types/productiedata zorgt voor minder grote kans op (tegelijk) uitvallen.
-De kans op het verlies van (de hele of een deel) van de array; = risico op het verlies van data: een echte backup
-Kans op electrische/brand/waterschade: het liefst een offsite backup
-Kans dat de hardware in mijn systeem stuk gaat: geen hardware gebaseerde RAID maar software met gangbare tools (ZFS v5000) en om het risico van downtime te verminderen een kant en klaar backup-systeem waar ik mijn schijven naar toe kan verhuizen, inprikken en gaan.
Er is veel wat je moet overwegen voor je data.
Een aantal stelregels / dingen om te overwegen lijken mij in ieder geval:
- Welke data wil je ECHT een backup van? Wat is kritisch en wat is fijne data om te hebben.
- Wat zijn je financiële en praktische mogelijkheden?
- Hoeveel heb je over voor een eventuele 'recovery'
- Welke risico's accepteer je? Maak een risico analyse (bliksem, brand, hardware die stuk gaat, fouten die je zelf maakt op je systeem, etc.)
- Keep it stupidly simple: als je het moeilijk maakt ga je het waarschijnlijk niet doen.
- Zorg dat je data op 2 plekken staat (het liefst fysiek gescheiden)
- Raid is geen backup, zelfs mirror niet ; het geeft je wel minder downtime (en dus een grotere kans om je data veilig te stellen als er iets fout gaat).
- Gebruik een filesysteem en OS dat je vertrouwt (het liefst met bit-rot detectie zoals zfs) en gebruik dat op de juiste manier
- Heb een terugval plan: wat als het misgaat?
- Wil je zelf de regie, zorg en kosten of besteed je het liever uit ('cloudservice') met risico's, nadelen en voordelen van dien
On-topic over mijn eigen situatie:
[spoiler]
Ik ben ooit begonnen zonder backup (gewoon een dump), zonder parity. Daar heb ik 1x dataverlies in gehad (middelbare school periode, eigenlijk redelijk onbelangrijk). Toen naar een software RAID array (mdadm 5, ext4), daar 1 stervende disk gehad. Toen besloten een extra parity schijf te willen en dus RAID6 gemaakt. Door de kosten (6 terabyte data ruimte) nooit een echte backup van gemaakt. - Alles op 'normale' consumenten hardware (zoals RAID ook bedacht is). Onthoud: RAID is geen backup! Omdat er ergens een keer data bij kwam die wat belangrijker was 1,5 terabyte off-site via een rsync partner bij mijn ouders gezet. Dat ging na aardig wat instel werk (het moet wel veilig en versleuteld) voor ongeveer anderhalf jaar goed. Toen is er ergens iets in de configuratie omgevallen (ik gok de Wake-On-Lan en het IP van mijn ouders). Daar heb ik nooit meer iets aan gedaan.
Nu (8 jaar later) heb ik pas een 'echte' server gebouwd met ECC, 8tb bruikbare ruimte in RAIDz1 (3x4tb) en voor mijn wederhelft 2x1tb in mirror. Die schijven allemaal uit andere batches / andere types. Dat systeem zit achter een UPS die hem netjes uit zet als er stroomstoring is en zou moeten beschermen tegen blikseminslag.
Vervolgens heb ik nu een backup-machine gemaakt (zonder ecc) die de data volledig kopieert eens in de maand (zfs send met snapshots) op 1x8tb en 2x1tb mirror. Die staat nu (nog) niet off-site. Eigenlijk moet dat wel binnenkort eens gebeuren, maar mijn upload snelheid (0,5mb/s) is daar niet echt heel geschikt voor.
Er zijn mensen die mijn huidige setup zwaar overkill vinden (en misschien is dat ook wel terecht). Er zijn er ook genoeg die over mijn setup zouden vallen: mijn backup heeft geen ECC en bestaat uit 1 drive. Daarnaast heb ik 8 terabyte aan ruimte wat een enorme kans geeft op problemen tijdens een rebuild / aflezen van mijn data (zeker van 1 disk). Die schijf zit ook nog eens via USB3. In de 'hoofd' NAS staan dus 3 schijven van 4 terabyte in RAIDz1. Iets waar veel mensen ook over zullen vallen. Als namelijk 1 schijf uitvalt is de kans op een geslaagde rebuild van de (hele) dataset relatief klein. [/spoiler]
Als ik voor mij mijn stelregels doorloop is dit mijn gedachtegang geweest:
---- Welke data wil je veilig stellen ----
Foto's en video, belasting gegevens, etc.. Mijn eigenlijk belangrijke data is eerder 2 terabyte dan 8. Omdat ik al een grote array had met mediabestanden wilde ik die mee verhuizen en heb ik toch gekozen voor 8tb dataopslag.
---- Wat heb je er voor over aan euro's en tijd ----
Ik vind het leuk en wil er wat aan uitgeven

. Uiteindelijk in de orde van € 1000,- voor 3-4 jaar.
---- Wat wil je uitgeven aan recovery ---
Data die belangrijk is is belangrijk, daar mag eventueel geld aan worden uitgegeven. Kritische data wordt duur, de rest is belangrijk maar kan ik zonder. De prijzen gaan snel naar 150-900 euro +. Voor dat geld kan ik ook zelf iets in elkaar zetten dat zo'n 3-4 jaar voldoet. Dat doe ik dan liever.
---- Welk risico accepteer ik: ----
Sommige data wil ik niet kwijt. Punt. Daarvan mag wel downtime zijn van enkele dagen MITS er een kopie van de data is. Ik wil/mag dus eigenlijk nooit zonder backup zitten. Ik accepteer dat er een kans is van een tweede probleem in een periode van enkele dagen en ik dan nog maar 1 kopie heb.
---- Hou het simpel ---
Zo veel mogelijk automatiseren. De backups maak ik met de hand maar wel dmv een script dat ik alleen maar hoef af te trappen. Het systeem doet verder zelf: SMART scans en scrubben (fout detectie) en laat mij dit weten per e-mail. Dit heb ik bewust niet volledig automatisch gemaakt omdat ik dan vooraf kan kijken of alles nog werkt. Toen ik het wel vol-automatisch had merkte ik dat ik niet meer de tijd nam om het te repareren toen het stuk was.
---- 2 fysiek gescheiden locaties van je data ----
De backup staat nu nog bij mij thuis ......
---- Terugvalplan, RAID en ZFS ----
Voor mij is RAID meteen een deel van het terugval plan: als de hoofd opslag stuk gaat heb ik alsnog op 2 plaatsen mijn gegevens als het goed is. De degraded array en de backup; een soort mirror situatie dus. Er mag 1 ding fout gaan en dan heb ik ALSNOG mijn data in een relatief veilige opstelling. Had ik puur de RAID had ik nog maar op 1 plek mijn data en was ik dus 'onbeschermd'. Had ik 2x een mirror (een kopie dus) had ik ook nog maar op 1 plek mijn data en was ik ook onbeschermd. ZFS gebruik ik omdat dat hogere data integriteit (kan) geven dan andere filestystems (btrfs daargelaten)
---- Zelf of uitbesteden ----
Omdat ik het veel flexibeler vind om het zelf te regelen heb ik het zelf opgetuigd. Zo weet ik wat er staat, hoe het staat en is mijn downtime beperkt. Daarnaast is uploaden naar een service erg traag (je kan meen ik wel hardeschijven opsturen die ze dan inladen) en moet ik er maar van uitgaan dat dat bedrijf bereikbaar blijft en het goed en netjes blijft doen. Ik ga er gemakshalve even van uit dat ik dit ook echt kan.