Aanstaande maandag 8 december willen we de software op onze databaseservers Artemis en Apollo updaten. Daarnaast zullen we voorbereidingen voor het gebruik van replication treffen en worden de servers voorzien van een nieuwe kernel, waardoor een reboot onvermijdelijk is. Al met al verwachten wij dat de databaseservers tussen 7:30 tot 8:30 af en toe kort onbereikbaar zijn.
Het gebruik van replication staat al lang op onze verlanglijst. Helaas bevatte de door ons gebruikte Mysql-versie een lastig beestje. Elke keer als deze bug tevoorschijn kwam - en dat gebeurde meerdere keren per dag - stopte de replication en moesten we dat handmatig weer opstarten. Deze bug is opgelost in Mysql Community Server 5.0.67 zodat we eindelijk fatsoenlijk replication kunnen gebruiken.
De server die in eerste instantie de replication zou verzorgen - Ate, een oude versie van Artemis - kreeg in de tussentijd echter andere taken. Ook bleek dat deze niet genoeg capaciteit had om zowel Apollo als Artemis bij te houden. We moesten dus een andere server uitrangeren en deze de replication laten doen. De keuze viel op Atlas, een server die we een jaar geleden al wilden vervangen. De vervangende server, die als nfs-fileserver moest worden ingezet, bleek echter zo instabiel dat hij niet langer dan een week in ons netwerk heeft kunnen meedraaien.
Een andere oplossing was dus gewenst, en onze keuze viel uiteindelijk op een Dell MD3000i. Alle webservers kunnen op deze machine een van Ocfs2 voorziene iScsi-disk mounten. Dat biedt diverse voordelen boven nfs, waaronder een beter cachebeheer. In enkele tests bleek deze oplossing vijf tot tien keer sneller te werken dan een nfs-mount en sinds zaterdag 8 november komen alle gedeelde files vanaf deze MD3000i, die Athos is gedoopt. De verbinding van de servers met Athos verloopt via meerdere paden zodat, als er onverhoopt een switch uitvalt, een netwerkkabel breekt, een voeding stukgaat of een raidcontroller in Athos overlijdt, de servers nog steeds bij de files kunnen komen.
Ook de installatie van Athos verliep overigens niet geheel zonder problemen. In eerste instantie werd gewerkt met Gfs1 en Gfs2. De tweede versie bleek echter ook al enkele vervelende bugs te bevatten. Zo was het niet mogelijk om in sommige releases een file te maken die meer dan 4kB data bevat, en Gfs2 was dan ook totaal onbruikbaar voor productiemachines. Ook de eerste versie van Gfs bleek niet helemaal goed te werken; zodra een server uitviel dacht Gfs er verstandig aan te doen om het gebruik van de shared storage voor iedere aangesloten server af te sluiten, wat tot enige downtime leidde aangezien hij toen al een deel van de cluster van gedeelde files voorzag.
De specs van Athos zijn als volgt:
Merk | Dell |
Type | MD3000i |
Aantal disks | 15 |
Type disks | SATA |
Grootte disks | 500GB |
Snelheid disks | 7200 rpm |
Raidtype | RAID 5 |
Bruto ruimte | 7500GB |
Effectieve ruimte | ~6 TB |


Kortom, met een stabiele MD3000i, een Atlas die weinig te doen heeft en een Mysql-versie die eindelijk stabiele replication ondersteunt, is het tijd om de databaseservers Artemis en Apollo to voorzien van een nieuwe Mysql-installatie en de databases te kopiëren naar Atlas. Wij danken jullie bij voorbaat voor jullie geduld
Update 8:40: Iets later dan gepland, maar beide databaseservers zijn weer up and running. Alles wat gepland was is gelukt en de site zou, zodra de caches gevuld zijn, weer ouderwets snel moeten zijn.