Problemen met de servers en de netwerkverbinding van Tweakers.net worden in deze .plan gemeld. De laatste informatie over de serverloads en -uptimes kun je volgen op de statistiekenpagina.
Statusmeldingen
18-01-10 ocfs2 veroorzaakt meer problemen. Vandaag is blijkbaar een van de harde schijven overleden, wat zo te merken voor ergere problemen zorgt dan we tot nog toe van dit iscsi-systeem "gewend" waren. Kees is druk bezig met in ieder geval een firmware-update, die ons door de Dell-supportafdeling is aanbevolen, versneld te installeren. Misschien dat dat wat helpt, morgen krijgen we de nieuwe disk.
18-01-10 Nouja, ocfs2 gaat nu voor de verandering eens niet over de zeik, maar de achterliggende bak, aka, athos, onze iscsi bak. Ben blij dat er atm op kantoor een vervanger ligt waar we mee bezig zijn, dit begint te irritant te worden. Dus alle problemen die je ziet, icoons die niet willen uploaden, missende plaatjes, search die brak is, je weet nu waar je je fanmail heen kan sturen :|
31-12-09 Een klein eindejaarskadootje van OCFS2; servers achter elkaar rebooten omdat het cluster niet lekker werkt. Uiteindelijk deze deathmatch kunnen onderbreken.
18-12-09 Replicatie ging b0rked, dus de rootdisk van Artemis was met een onwijze noodgang aan het vollopen aka, we waren even down ;( Nu maar weer eens zien waarom het deze keer stukkig ging.
27-11-09 Even een MySQL restart. We lopen tegen een zeldzame bug aan, en de 'mensen van mysql' wilden graag wat veranderde settings zien. Bij deze dus.
12-11-09 Tsja, onze ocfs2 gaf weer eens het stokje aan ehm.. niemand. Maar! We zijn inmiddels wel hoopvol dat het zeer snel opgelost kan worden, we zijn al een tijdje aan het testen met een andere oplossing waardoor dit soort problemen hopelijk tot het verleden zullen behoren, want een t.net dat down is, dat kan natuurlijk niet.
30-10-09 Deze nacht zal er kort onderhoud uitgevoerd worden aan de database server. Hierdoor zal de site enkele minuten niet bereikbaar zijn.
update 0:10 We zijn er weer!
15-10-09 Gisteren ging het al niet helemaal tof met Ocfs2, toen we twee servers van rack aan het verplaatsen waren en Ocfs2 besloot dwars te gaan liggen. Ocfs2 is een cluster systeem, en houdt zijn eigen status in de gaten door te kijken hoeveel servers er nog goed werken. Doordat er twee kampen gevormd waren, waarvan elk van de twee vond dat de andere down was, bleek we uiteindelijk een situatie te hebben waar je eigenlijk he-le-maal niets aan hebt, aka downtime. Dat was gelukkig alleen maar tussen de webservers, maar vannacht/vanochtend was het zo erg dat zelfs onze monitoring server het te druk had met zichzelf op te hangen om ons ook maar even een berichtje te sturen. Vandaar dat de downtime wat ongewoon lang was. Nu maar eens iets gaan verzinnen wat beter werkt dan dit systeem, want op dit moment zijn we vaker down dan in de tijd dat we gewoon nog NFS gebruikten, en daarvan vonden we de downtime eigenlijk al vervelend. We'll keep you posted..
25-09-09 Binlogs zijn leuk... maar niet als je harde schijf volloopt omdat je replicatie achter loopt :X En dat legt dan uiteraard je database weer plat.
19-09-09 Aye me mateys, we be back again! Weer een DDoS, ze worden telkens iets groter. Kap nu eens met die onzin.
13-09-09 Vanochtend hebben we weer even plat gelegen vanwege een DDoS, gevolgd door een bokkende fileserver. De DDoS was redelijk snel onder controle, maar het duurde even voordat we opmerkten dat de fileserver om een of andere reden er ook maar mee gestopt was. Afijn, de DDoS loopt nog steeds door, en het kan zijn dat we daardoor af en toe minder goed bereikbaar zijn.
Nadat men de colo alweer had verlaten bleek dat Ate weer problemen gaf en zo goed als dood was. Door een wat onhandige poging om Ate te reboten werd per ongeluk een van de vier redundant uitgevoerde netwerkswitches uitgeschakeld. In theorie had dat foutje geen problemen mogen veroorzaken, maar het zorgde er voor dat het interne iSCSI-verkeer zich helemaal in de soep werkte. Daardoor werden de aangesloten servers ruwweg in twee kampen verdeeld die elkaar continu de toegang tot het filesystem op de MD3000i weigerden. Dit zorgde voor meer downtime terwijl het oorspronkelijke probleem al lang en breed was verholpen met dank aan een hulpvaardige medewerker van True die binnen twintig minuten onze switch weer van prik voorzag.
Toch bleven de servers elkaar in de weg zitten, waarna de eenvoudigste oplossing bleek om ze alle zeven tegelijk te reboten... En toen moesten we het probleem met Ate nog oplossen. Dat hebben we uiteindelijk voorlopig maar opgelost door de nieuw geplaatste server direct in te zetten voor de twee belangrijkste taken; memcached en ActiveMQ draaien dus per direct op de nieuwe server.

CRITICAL - load average: 46.17, 34.02, 16.53
Na een inlog op onze kvm kregen we een aantal regels te zien:
sd 0:0:0:0:1 rejecting I/O to offline device
In niet *nix taal: scsi stuk. Op dit moment hebben we net in de raidcontroller gekeken en zijn we erachter dat er volgens de areca kaart niets bijzonders aan de hand is..
Serverstatus (5 minuten vertraagd)