Tweakers.net is de afgelopen 36 uur down geweest in verband met een ernstige probleem met de RAID in de database server. Zoals je twee dagen in deze .plan hebt kunnen lezen, was het woensdag de bedoeling om Aphrodite en Apollo (de tweede database server) bij in de serverruimte van Vuurwerk te plaatsen. Tegelijkertijd zou Artemis een geheugen upgrade van 1,5GB naar 2GB krijgen. De geheugen upgrade verliep volgens plan, maar na het vervangen van de SCSI kabel (waarvan een connector defect was) rapporteerde de RAID controller dat de tweede harddisk offline was. Normaal gesproken zou dit geen fataal probleem moeten zijn, ware het dat de de vier schijven niet juist als RAID0+1 geconfigureerd bleken te zijn.
Gedurende de anderhalf uur dat we toegang hadden tot de serverruimte van Vuurwerk is het ons niet gelukt om de RAID werkend te krijgen. Daarop is besloten om Artemis mee te nemen en de herconfiguratie van Athena uit te stellen. Kees Hoekzema, de nieuwe serverbeheerder die sinds vandaag de taken van Rick overneemt, is tot diep in de nacht bezig geweest om de data te herstellen. Wat in eerste instantie leek op een simpel probleem met de SCSI kabel, bleek uiteindelijk een volledig gecrashde harddisk te zijn. Hierdoor is alle (belangrijke) data op Artemis verloren gegaan.
Alsof dit geen ramp op zich was, bleek ook nog eens dat het scriptje dat dagelijks een backup maakt van alle databases niet meer functioneerde. Hierdoor moesten we terugvallen op een oude backup van 27 april.
Door de problematische en gehaaste situatie bij Vuurwerk zijn we er woensdag niet aan toegekomen om de installatie van Apollo te voltooien. Daniel, Floris en Kees hebben dit gisteren bij Vuurwerk hersteld. Apollo draait nu alle databases voor Tweakers.net en Fok!. De geheugen upgrade van Apollo is gelukkig wel gelukt, hij heeft nu evenals Artemis 2GB PC133 SDRAM (klein klein lichtpuntje).
Gelukkig zijn we er met de hulp van een aantal fanatieke tweakers (met name Burat en msturm10 hebben veel werk geleverd) in geslaagd om donderdag middag en vannacht veel nieuwspostings en .plans terug te zetten. Dankzij msturm10 hebben we zelfs alle data van de verloren nieuwspostings teruggekregen! De reacties, moderaties, pricewatch prijzen, karmapuntjes, user registraties en heel veel forumpostings zijn helaas wel in een diep gat verdwenen.
Uiteraard zijn we er ons van bewust dat er een aantal ernstige fouten zijn gemaakt wat betreft het beheer van de servers. In de eerste plaats had het backup scriptje moeten werken en in de tweede plaats had Artemis RAID0+1 moeten gebruiken. Vanzelfsprekend gaan we er voor zorgen dat dergelijke fouten in de toekomst niet meer zullen voorkomen. Samen met Kees zijn we al ongeveer een maand bezig met de ontwikkeling van een nieuw server plan, met als doelstelling een hogere redundancy, betere failover, hogere performance, betere beveiliging, betere schaalbaarheid en een hogere betrouwbaarheid van onze internet verbinding. Alle bestaande servers zullen onder uitvoering van dit plan opnieuw geconfigureerd worden door Kees. De plaatsing van Aphrodite en Apollo was de eerste stap in dit plan. Helaas heeft het daarvoor al mis moeten lopen...
Onze excuses voor de verdwenen postings, de bedorven tweakotine en de gestolen karmapuntjes . Voor ons rest niets meer dan vrolijk verder gaan waar we mee bezig waren, én lering trekken uit de gemaakte fouten.