Zaterdag 20 december zal de langverwachte upgrade van Apollo, de database-server van het forum, plaatsvinden. De huidige dual Athlon MP-configuratie lijdt sinds enkele maanden aan een instabiliteitskwaal waardoor deze afhankelijk van zijn humeur eens in de paar weken tot een aantal keren per week op zijn plaat gaat, met downtime en corrupte databases als gevolg. De nieuwe machine bestaat uit een Appro 2128Hs barebone met twee Opteron 242-processors, 6GB RAM en zes 10.000rpm SCSI harde-schijven. De vervanging van Apollo zal in de middag uitgevoerd worden en tot gevolg hebben dat het forum enige tijd onbereikbaar zal zijn. Bij een succesvolle upgrade zal de downtime ongeveer twee uur bedragen.
Apollo III is in grote lijnen gelijk aan de nieuwe database server van de frontpage die in november in bedrijf werd genomen. Verschillend zijn de snelheid van de processors (1,6GHz in plaats van 2,0GHz), de hoeveelheid geheugen (6GB in plaats van 4GB) en de snellere bootschijven (2x 36,7GB Cheetah 10K.6 in plaats van 2x 9,2GB Cheetah 18XL). Beide servers hebben twee schijven in RAID 1 als boot array, drie schijven in RAID 5 voor data en een zesde schijf als hotspare.
De configuratie van Apollo liep enige vertraging op door problemen met de beta van SuSE Linux 8 voor het AMD64-platform en een slecht werkende MegaRAID-driver onder SuSE Linux 9. De machine draait inmiddels stabiel onder SuSE Linux 9. Onze eerste benchmarks wijzen uit dat de MySQL performance van Apollo III ondanks zijn lagere kloksnelheid niet slechter is dan van Artemis III. Waarschijnlijk is dit te danken aan de recentere SuSE-versie op Apollo III.
| Apollo I | Apollo II | Apollo III | ||||||
| Ingebruikname | 15-06-2001 | 31-08-2002 | 20-12-2003 | |||||
| Processors | 2x PIII-1000 | 2x Athlon MP 1900+ | 2x Opteron 242 | |||||
| Geheugen | 2GB PC133 | 3,5GB PC2100 | 6GB PC2100 | |||||
| Moederbord | Asus CUV4X-D | Tyan Tiger MP | Tyan Thunder K8S | |||||
| Chipset | VIA Apollo Pro 133A | AMD 760MP | AMD-8000 | |||||
| RAID-adapter | Adaptec 3200S | Adaptec 3200S | LSI MegaRAID Elite 1600 | |||||
| Harde schijven | 2x 18,4GB Atlas 10K II | 1x 20GB ATA 5x Cheetah 36XL 36,7GB | 6x Cheetah 10K.6 36,7GB | |||||
| Behuizing | Antec U3U20ATX300 3U | CI-Design RS4100 4U | Appro 2128Hs 2U | |||||
Voortgang van de werkzaamheden:
- 15:40: Kees en Femme zijn gearriveerd in TeleCity. Artemis II (die nog in het rack draaide) is net down gehaald na 450 dagen uptime. Naast de bovengenoemde werkzaamheden zal vandaag tevens gepoogd worden om de database-server van Fok! een upgrade te geven van dual PIII 1GHz naar dual Athlon MP 1600+ en is het de bedoeling dat Aphrodite (webserver van Fok!) wordt vervangen door een dual Opteron 240.
- 16:00: De database van Apollo wordt gekopieerd naar de nieuwe server. Dit zal enige tijd duren (~2 uur) in verband met de grootte van de database en het feit dat de oude server geen gigabit ethernet heeft. In de tussentijd is het forum onbruikbaar.
- 16:30: De mailserver (Arethusa) is downgehaald wegens vervanging van een schijf die nodig is voor de nieuwe Aphrodite.
- 17:20: De harde schijf in de mailserver is vervangen. Mail en IRC zijn weer online.
- 17:50: De databases zijn gekopieerd naar Apollo III. De server is op zijn plaats gezet en het forum draait weer. Er zal nu begon worden met de ontmanteling van Apollo II zodat Alicia kan worden geupgrade naar dual Athlon MP.
- 0:20: Apollo gedraagt zich helaas nog niet helemaal naar behoren. De oorzaak is nog onduidelijk. Apollo zal om die reden voorlopig met 4GB geheugen gaan draaien. Uit de restanten van Apollo II, Artemis II en de storage hardware van Alicia wordt een nieuwe super-Alicia gecreeërd.
- 1:04: Alicia is weer online na transplantatie van een Thunder K7, twee Athlon MP 1900+, 3GB DDR SDRAM en de 20GB bootdrive van Apollo II.
- 2:40: Rond 01:45 hebben Femme en Kees na 10 uur zwoegen TeleCity-2 verlaten, een instabiele Apollo achterlatend. Om onverklaarbare reden crasht Apollo soms al binnen een half uur, vele nachten testen, proefdraaien en benchen ten spijt. Daarbij wordt de volgende warning in het syslog achtergelaten:
Dec 20 22:35:00 apollo kernel: Unable to handle kernel paging request at virtual address 00000103c003a644
Op dit moment hebben we geen idee wat de oorzaak is en we raadplegen uiteraard alle bronnen die ons aan een oplossing zouden kunnen helpen. Hierdoor is het onmogelijk een prognose te geven hoelang de problemen nog voort zullen duren.
Dec 20 22:35:00 apollo kernel: printing rip:
Dec 20 22:35:00 apollo kernel: ffffffff80148b29
Dec 20 22:35:00 apollo kernel: PML4 8063 PGD 0 - 16:00: Vandaag om 14:30 was Roelant ter plaatse om Apollo wederom wat bemoedigende woordjes toe te spreken. Na de nodig fsck's durfde Apollo het weer aan om normaal te booten en maakte ACM van de gelegenheid gebruik om de kernel bij te werken en wat instellingen te wijzigen. Het lijkt er op dat alles nu naar behoren functioneert, maar we willen nog even wachten met juichen tot het een paar uur stabiel draait.
- 23:35: Apollo draait nu zo'n 8,5 uur zonder problemen en suggereert daarmee weer stabiel te zijn. Daarmee mag het onderhoud van 20 (en 21) december definitief als 'ten einde' worden beschouwd.

Apollo III tijdens het kopiëren van de databases

Onze Appro serverfarm met van boven naar beneden Apollo, Artemis en de vier webservers

