Problemen met de servers en de netwerkverbinding van Tweakers.net worden in deze .plan gemeld. De laatste informatie over de serverloads en -uptimes kun je volgen op de statistiekenpagina.
Statusmeldingen
30-10-09 Deze nacht zal er kort onderhoud uitgevoerd worden aan de database server. Hierdoor zal de site enkele minuten niet bereikbaar zijn.
update 0:10 We zijn er weer!
15-10-09 Gisteren ging het al niet helemaal tof met Ocfs2, toen we twee servers van rack aan het verplaatsen waren en Ocfs2 besloot dwars te gaan liggen. Ocfs2 is een cluster systeem, en houdt zijn eigen status in de gaten door te kijken hoeveel servers er nog goed werken. Doordat er twee kampen gevormd waren, waarvan elk van de twee vond dat de andere down was, bleek we uiteindelijk een situatie te hebben waar je eigenlijk he-le-maal niets aan hebt, aka downtime. Dat was gelukkig alleen maar tussen de webservers, maar vannacht/vanochtend was het zo erg dat zelfs onze monitoring server het te druk had met zichzelf op te hangen om ons ook maar even een berichtje te sturen. Vandaar dat de downtime wat ongewoon lang was. Nu maar eens iets gaan verzinnen wat beter werkt dan dit systeem, want op dit moment zijn we vaker down dan in de tijd dat we gewoon nog NFS gebruikten, en daarvan vonden we de downtime eigenlijk al vervelend. We'll keep you posted..
25-09-09 Binlogs zijn leuk... maar niet als je harde schijf volloopt omdat je replicatie achter loopt :X En dat legt dan uiteraard je database weer plat.
19-09-09 Aye me mateys, we be back again! Weer een DDoS, ze worden telkens iets groter. Kap nu eens met die onzin.
13-09-09 Vanochtend hebben we weer even plat gelegen vanwege een DDoS, gevolgd door een bokkende fileserver. De DDoS was redelijk snel onder controle, maar het duurde even voordat we opmerkten dat de fileserver om een of andere reden er ook maar mee gestopt was. Afijn, de DDoS loopt nog steeds door, en het kan zijn dat we daardoor af en toe minder goed bereikbaar zijn.
27-05-2009 Blijkbaar heeft ons iSCSI verhaal toch een vervelend staartje. Aangezien we ons serverpark graag up-to-date houden en ook graag nog even semi-live testen, hebben we de server Achelois om ervoor te zorgen dat er nog even getest kan worden, waarna met een script de code/veranderingen online gezet worden. Om dit goed te kunnen doen hebben we ook Achelois in ons iSCSI cluster gegooid. Helaas betreft het een testmachine, dus wil het nog wel eens voorkomen dat Achelois wat minder bereikbaar is. Dit maakt voor het testen an sich weinig uit, maar sinds we iSCSI gebruiken wil Achelois nog wel eens 'eeuh.. ik ben druk, tief op' terug geven naar ocfs, waardoor het cluster over de toeren raakt. We gaan dit uiteraard fixen, maar voorlopig is Tweakers.net weer bereikbaar voor jullie, wat ons net even wat belangrijker leek ;)
30-01-2009 En toen kwam Murphy langs. Voor de piepende server van 24 december (Ate) was ondertussen een vervanging aangeschaft en die ging vandaag het rack in (een .plan met details volgt nog) om komende week geleidelijk aan in gebruik genomen te worden. Tijdens het plaatsen bleek overigens dat er een harde schijf van Apollo stuk was, maar dat zorgde niet voor de problemen van vanmiddag.
Nadat men de colo alweer had verlaten bleek dat Ate weer problemen gaf en zo goed als dood was. Door een wat onhandige poging om Ate te reboten werd per ongeluk een van de vier redundant uitgevoerde netwerkswitches uitgeschakeld. In theorie had dat foutje geen problemen mogen veroorzaken, maar het zorgde er voor dat het interne iSCSI-verkeer zich helemaal in de soep werkte. Daardoor werden de aangesloten servers ruwweg in twee kampen verdeeld die elkaar continu de toegang tot het filesystem op de MD3000i weigerden. Dit zorgde voor meer downtime terwijl het oorspronkelijke probleem al lang en breed was verholpen met dank aan een hulpvaardige medewerker van True die binnen twintig minuten onze switch weer van prik voorzag.
Toch bleven de servers elkaar in de weg zitten, waarna de eenvoudigste oplossing bleek om ze alle zeven tegelijk te reboten... En toen moesten we het probleem met Ate nog oplossen. Dat hebben we uiteindelijk voorlopig maar opgelost door de nieuw geplaatste server direct in te zetten voor de twee belangrijkste taken; memcached en ActiveMQ draaien dus per direct op de nieuwe server.
24-12-2008 Vanwege een piepende server (nooit een goed teken) was voor vanmiddag een extra bezoekje aan de servers ingepland. Om te kunnen onderzoeken waar Ate (de piepende server) precies last van had, moest hij even uit. Nadat hij weer aanging was zijn piep verdwenen, en waar die noodkreet precies voor was, heeft hij ons niet bekend kunnen maken. Helaas waren door het rebooten van Ate het forum en de frontpage even onbereikbaar, maar het zou inmiddels allemaal opgelost moeten zijn en weer als vanouds werken.
15-12-2008 En na nog een aantal crashes hebben we een nieuwe bug in MySQL gevonden die nog niet in oudere versies aanwezig was. De bug is gereport, en de data die het zou kunnen veroorzaken is aangepast. Kortom, de database zou niet meer moeten crashen.
11-12-2008 Zoals sommige bezoekers al hebben gemerkt, ligt de database van het forum af en toe plat. Als dat gebeurt is de database gecrasht, en ging er dus iets fout. Wat er precies fout gaat weten we nog niet en aangezien er bij de laatste update een aantal zaken veranderd zijn, is het lastig uit te vogelen welke update er nu precies voor de problemen zorgt. We houden de database in de gaten en hopen dat deze hiccups van korte duur zijn.
26-10-2008 Na enige tijd met GFS getest te hebben op onze Dell MD3000i hadden we voldoende vertrouwen om een deel van onze files erop te hosten om te zien hoe het voor het eggie draait. Met als uitkomst: het kan opeens vastlopen en al je webservers plat trekken *O* Anyways.. We snappen totaal niet wat er aan de hand is, maar voorlopig staan de files allemaal weer gezellig bij elkaar op Atlas, en ga we volgens een oud gebruik weer terug naar de tekentafel.. Het lijkt erop dat Atlas gewoon niet vervangen wil worden ofzo
9-10-2008 Het is zeldzaam de laatste tijd, maar wij lagen er weer even uit. De reden van de downtime was een 'performance issue' op de routers van onze provider. Gelukkig kon True de oorzaak redelijk snel vinden en oplossen zodat wij je weer van een verse portie Tweakotine kunnen voorzien.
22-06-2008 De mensen die gisteren vroeg huilend in slaap zijn gevallen is het opgevallen, aphrodite (onze zoekmachine) reageerde niet meer vanaf zo'n uur of 3:33. Op de console wat de melding 'rejecting I/O to offline device' te vinden. Wat dus dezelfde melding was als op 3-3 , alleen... weer nergens een reden te vinden waarom, oftewel, we gaan weer zoeken..
16-05-2008 Zoals de hardcore forumbezoekers al wel hebben gemerkt, lag het forum er van 0:50 tot 2:20 uit. De reden was dat de databaseserver van het forum opeens een verschil van mening had met de Apollo-slet. Zoals een echte vrouw betaamt, wilde de Apollo-slet niet meer met de database praten, met als gevolg dat de database gereboot moest worden en op een lang recovery process gewacht moest worden. Op het moment lijkt alles weer te werken, maar we gaan de komende dagen eens erg goed naar deze relatie kijken en zien te achterhalen waarom deze op de klippen liep.
03-03-2008 Iets na 18:00 is Aphrodite, onze searchserver voor zowel het forum als de pricewatch, ermee gestopt, laatste melding die we toegestuurd kregen was:
CRITICAL - load average: 46.17, 34.02, 16.53
Na een inlog op onze kvm kregen we een aantal regels te zien:
sd 0:0:0:0:1 rejecting I/O to offline device
In niet *nix taal: scsi stuk. Op dit moment hebben we net in de raidcontroller gekeken en zijn we erachter dat er volgens de areca kaart niets bijzonders aan de hand is..
18-01-2008 Rond 13:40 vielen we opeens van het internet af. Vrij snel kwamen we erachter dat we niet de enigen waren. Helaas heeft het tot 15:10 moeten duren voordat we weer online waren. Het voorlopige verhaal is dat er 'iets' mis ging bij True, waardoor in eerste instantie True totaal van het internet verdween. Kort hierna kwam Redbus wel online, maar EUNetworks heeft tot 15:10 platgelegen.
Serverstatus (5 minuten vertraagd)
Maart 2007 - December 2007 statusmeldingen VIII