Hoofdcategorieën
Device Settings

Server- & netwerkstatusmeldingen IX

Door Hylke Witjens, woensdag 17 februari 2010 19:40, views: 256.494

Problemen met de servers en de netwerkverbinding van Tweakers.net worden in deze .plan gemeld. De laatste informatie over de serverloads en -uptimes kun je volgen op de statistiekenpagina.

*Statusmeldingen

 

* 18-01-10 ocfs2 veroorzaakt meer problemen. Vandaag is blijkbaar een van de harde schijven overleden, wat zo te merken voor ergere problemen zorgt dan we tot nog toe van dit iscsi-systeem "gewend" waren. Kees is druk bezig met in ieder geval een firmware-update, die ons door de Dell-supportafdeling is aanbevolen, versneld te installeren. Misschien dat dat wat helpt, morgen krijgen we de nieuwe disk.

* 18-01-10 Nouja, ocfs2 gaat nu voor de verandering eens niet over de zeik, maar de achterliggende bak, aka, athos, onze iscsi bak. Ben blij dat er atm op kantoor een vervanger ligt waar we mee bezig zijn, dit begint te irritant te worden. Dus alle problemen die je ziet, icoons die niet willen uploaden, missende plaatjes, search die brak is, je weet nu waar je je fanmail heen kan sturen :|

* 31-12-09 Een klein eindejaarskadootje van OCFS2; servers achter elkaar rebooten omdat het cluster niet lekker werkt. Uiteindelijk deze deathmatch kunnen onderbreken.

* 18-12-09 Replicatie ging b0rked, dus de rootdisk van Artemis was met een onwijze noodgang aan het vollopen aka, we waren even down ;( Nu maar weer eens zien waarom het deze keer stukkig ging.

* 27-11-09 Even een MySQL restart. We lopen tegen een zeldzame bug aan, en de 'mensen van mysql' wilden graag wat veranderde settings zien. Bij deze dus.

* 12-11-09 Tsja, onze ocfs2 gaf weer eens het stokje aan ehm.. niemand. Maar! We zijn inmiddels wel hoopvol dat het zeer snel opgelost kan worden, we zijn al een tijdje aan het testen met een andere oplossing waardoor dit soort problemen hopelijk tot het verleden zullen behoren, want een t.net dat down is, dat kan natuurlijk niet.

* 30-10-09 Deze nacht zal er kort onderhoud uitgevoerd worden aan de database server. Hierdoor zal de site enkele minuten niet bereikbaar zijn.

update 0:10 We zijn er weer!

* 15-10-09 Gisteren ging het al niet helemaal tof met Ocfs2, toen we twee servers van rack aan het verplaatsen waren en Ocfs2 besloot dwars te gaan liggen. Ocfs2 is een cluster systeem, en houdt zijn eigen status in de gaten door te kijken hoeveel servers er nog goed werken. Doordat er twee kampen gevormd waren, waarvan elk van de twee vond dat de andere down was, bleek we uiteindelijk een situatie te hebben waar je eigenlijk he-le-maal niets aan hebt, aka downtime. Dat was gelukkig alleen maar tussen de webservers, maar vannacht/vanochtend was het zo erg dat zelfs onze monitoring server het te druk had met zichzelf op te hangen om ons ook maar even een berichtje te sturen. Vandaar dat de downtime wat ongewoon lang was. Nu maar eens iets gaan verzinnen wat beter werkt dan dit systeem, want op dit moment zijn we vaker down dan in de tijd dat we gewoon nog NFS gebruikten, en daarvan vonden we de downtime eigenlijk al vervelend. We'll keep you posted..

* 25-09-09 Binlogs zijn leuk... maar niet als je harde schijf volloopt omdat je replicatie achter loopt :X En dat legt dan uiteraard je database weer plat.

* 19-09-09 Aye me mateys, we be back again! Weer een DDoS, ze worden telkens iets groter. Kap nu eens met die onzin.

* 13-09-09 Vanochtend hebben we weer even plat gelegen vanwege een DDoS, gevolgd door een bokkende fileserver. De DDoS was redelijk snel onder controle, maar het duurde even voordat we opmerkten dat de fileserver om een of andere reden er ook maar mee gestopt was. Afijn, de DDoS loopt nog steeds door, en het kan zijn dat we daardoor af en toe minder goed bereikbaar zijn.

  • 27-05-2009 Blijkbaar heeft ons iSCSI verhaal toch een vervelend staartje. Aangezien we ons serverpark graag up-to-date houden en ook graag nog even semi-live testen, hebben we de server Achelois om ervoor te zorgen dat er nog even getest kan worden, waarna met een script de code/veranderingen online gezet worden. Om dit goed te kunnen doen hebben we ook Achelois in ons iSCSI cluster gegooid. Helaas betreft het een testmachine, dus wil het nog wel eens voorkomen dat Achelois wat minder bereikbaar is. Dit maakt voor het testen an sich weinig uit, maar sinds we iSCSI gebruiken wil Achelois nog wel eens 'eeuh.. ik ben druk, tief op' terug geven naar ocfs, waardoor het cluster over de toeren raakt. We gaan dit uiteraard fixen, maar voorlopig is Tweakers.net weer bereikbaar voor jullie, wat ons net even wat belangrijker leek ;)
  • 30-01-2009 En toen kwam Murphy langs. Voor de piepende server van 24 december (Ate) was ondertussen een vervanging aangeschaft en die ging vandaag het rack in (een .plan met details volgt nog) om komende week geleidelijk aan in gebruik genomen te worden. Tijdens het plaatsen bleek overigens dat er een harde schijf van Apollo stuk was, maar dat zorgde niet voor de problemen van vanmiddag.
    Nadat men de colo alweer had verlaten bleek dat Ate weer problemen gaf en zo goed als dood was. Door een wat onhandige poging om Ate te reboten werd per ongeluk een van de vier redundant uitgevoerde netwerkswitches uitgeschakeld. In theorie had dat foutje geen problemen mogen veroorzaken, maar het zorgde er voor dat het interne iSCSI-verkeer zich helemaal in de soep werkte. Daardoor werden de aangesloten servers ruwweg in twee kampen verdeeld die elkaar continu de toegang tot het filesystem op de MD3000i weigerden. Dit zorgde voor meer downtime terwijl het oorspronkelijke probleem al lang en breed was verholpen met dank aan een hulpvaardige medewerker van True die binnen twintig minuten onze switch weer van prik voorzag.
    Toch bleven de servers elkaar in de weg zitten, waarna de eenvoudigste oplossing bleek om ze alle zeven tegelijk te reboten... En toen moesten we het probleem met Ate nog oplossen. Dat hebben we uiteindelijk voorlopig maar opgelost door de nieuw geplaatste server direct in te zetten voor de twee belangrijkste taken; memcached en ActiveMQ draaien dus per direct op de nieuwe server.
  • 24-12-2008 Vanwege een piepende server (nooit een goed teken) was voor vanmiddag een extra bezoekje aan de servers ingepland. Om te kunnen onderzoeken waar Ate (de piepende server) precies last van had, moest hij even uit. Nadat hij weer aanging was zijn piep verdwenen, en waar die noodkreet precies voor was, heeft hij ons niet bekend kunnen maken. Helaas waren door het rebooten van Ate het forum en de frontpage even onbereikbaar, maar het zou inmiddels allemaal opgelost moeten zijn en weer als vanouds werken.
  • 15-12-2008 En na nog een aantal crashes hebben we een nieuwe bug in MySQL gevonden die nog niet in oudere versies aanwezig was. De bug is gereport, en de data die het zou kunnen veroorzaken is aangepast. Kortom, de database zou niet meer moeten crashen.
  • 11-12-2008 Zoals sommige bezoekers al hebben gemerkt, ligt de database van het forum af en toe plat. Als dat gebeurt is de database gecrasht, en ging er dus iets fout. Wat er precies fout gaat weten we nog niet en aangezien er bij de laatste update een aantal zaken veranderd zijn, is het lastig uit te vogelen welke update er nu precies voor de problemen zorgt. We houden de database in de gaten en hopen dat deze hiccups van korte duur zijn.
  • 26-10-2008 Na enige tijd met GFS getest te hebben op onze Dell MD3000i hadden we voldoende vertrouwen om een deel van onze files erop te hosten om te zien hoe het voor het eggie draait. Met als uitkomst: het kan opeens vastlopen en al je webservers plat trekken *O* Anyways.. We snappen totaal niet wat er aan de hand is, maar voorlopig staan de files allemaal weer gezellig bij elkaar op Atlas, en ga we volgens een oud gebruik weer terug naar de tekentafel.. Het lijkt erop dat Atlas gewoon niet vervangen wil worden ofzo
  • 9-10-2008 Het is zeldzaam de laatste tijd, maar wij lagen er weer even uit. De reden van de downtime was een 'performance issue' op de routers van onze provider. Gelukkig kon True de oorzaak redelijk snel vinden en oplossen zodat wij je weer van een verse portie Tweakotine kunnen voorzien.
  • 22-06-2008 De mensen die gisteren vroeg huilend in slaap zijn gevallen is het opgevallen, aphrodite (onze zoekmachine) reageerde niet meer vanaf zo'n uur of 3:33. Op de console wat de melding 'rejecting I/O to offline device' te vinden. Wat dus dezelfde melding was als op 3-3 , alleen... weer nergens een reden te vinden waarom, oftewel, we gaan weer zoeken..
  • 16-05-2008 Zoals de hardcore forumbezoekers al wel hebben gemerkt, lag het forum er van 0:50 tot 2:20 uit. De reden was dat de databaseserver van het forum opeens een verschil van mening had met de Apollo-slet. Zoals een echte vrouw betaamt, wilde de Apollo-slet niet meer met de database praten, met als gevolg dat de database gereboot moest worden en op een lang recovery process gewacht moest worden. Op het moment lijkt alles weer te werken, maar we gaan de komende dagen eens erg goed naar deze relatie kijken en zien te achterhalen waarom deze op de klippen liep.
  • 03-03-2008 Iets na 18:00 is Aphrodite, onze searchserver voor zowel het forum als de pricewatch, ermee gestopt, laatste melding die we toegestuurd kregen was:
    CRITICAL - load average: 46.17, 34.02, 16.53
    Na een inlog op onze kvm kregen we een aantal regels te zien:
    sd 0:0:0:0:1 rejecting I/O to offline device
    In niet *nix taal: scsi stuk. Op dit moment hebben we net in de raidcontroller gekeken en zijn we erachter dat er volgens de areca kaart niets bijzonders aan de hand is..
  • 18-01-2008 Rond 13:40 vielen we opeens van het internet af. Vrij snel kwamen we erachter dat we niet de enigen waren. Helaas heeft het tot 15:10 moeten duren voordat we weer online waren. Het voorlopige verhaal is dat er 'iets' mis ging bij True, waardoor in eerste instantie True totaal van het internet verdween. Kort hierna kwam Redbus wel online, maar EUNetworks heeft tot 15:10 platgelegen.

    * Serverstatus (5 minuten vertraagd)

    * Maart 2007 - December 2007 statusmeldingen VIII

  • Volgende 02-'10 Nieuwe fileserver in gebruik genomen
    Vorige 02-'10 Tweakers.net introduceert forumtags

    Reacties

    «  1  2  3  4  ...  15  16  »

    Behoorlijk irritant, een uur zonder tweakers, een uur niet geleeft! :o

    Erg raar.. Een aantal servers die o.a. ik beheer, op redbus, waren de hele tijd gewoon bereikbaar.... in het 87.233.8.255 block.
    Core routertje die het heeft begeven?

    [Reactie gewijzigd door Reneger op vrijdag 18 januari 2008 15:40]


    Zeker geen TRUE netwerk?

    Heb begrepen dat de oude ip range (eerste ip range van TRUE) wel bereikbaar was @ redbus.

    true.nl zelf was ook niet bereikbaar.. Fijne stroring.. :/

    Geen idee, ik was ook een tijdje offline (Exonet rack) en was vrij snel weer up, toen t.net nog down was. Iets met redundant denk ik... Vraag me af in hoeverre er een aanwijsbare oorzaak is, waar bedrijven op kunnen teruggrijpen als het gaat om schadeclaims inzake misgelopen inkomsten.

    Grr, zal wel weer iemand door 0 gedeeld hebben waardoor een deel van het internet in een zwart gat verdween.


    :+.

    Is er misschien ergens een site van Tweakers.net, die buiten True ligt, waarop statusmeldingen staan...? Webhostingtalk.nl werkt op zich ook wel, daar niet van...

    Irc draait op 2 servers, irc.tweakers.net (volgens mij arethusa) en osiris.parse.nl

    Die 2e kon ik wel opkomen :)

    Grmbl ik de ISA server hier gereboot omdat T.net plat ging dus zaten 400 man ineens zonder internet en dan blijkt het aan True te liggen :P
    Volgende keer check ik het wel eerst via de ADSL backuplijn.

    Lol :D

    Die hoge uptimes van T.net kunnen wel eens lastig uitpakken ja :P Ik dacht hier ook eerst aan onze verbinding.

    Ik mag hopen dat je een geintje maakt :P

    Als ik zoiets zo doen, puur en alleen omdat t.net down is, kan ik denk ik op zoek naar een nieuwe baan.

    noc.true.nl was trouwens wel beschikbaar, maar daar kan je toch niks vinden.

    OMG :X
    een ping deed ook wonderen.. want tis wel raar dat google enz. wel werkt en de t.net niet ;)

    btw valt me net opeens op dat alle servers met een 'A' beginnen..
    misschien een idee om de volgende 'Adriaantje' te noemen ;)

    das geen griekse god/held/mythisch figuur ;)

    dat is jouw mening.. bassie zelf denk daar heel anders over ;)

    Wat ik me afvraag is waarom er allerlei verschillende uptime tijden zijn, alles alles plat ging dan zouden toch alle servers dezelfde uptime tijden moeten vertonen?

    Ares is misschien een idee voor de volgende keer.

    [Reactie gewijzigd door Vae Victus op woensdag 23 januari 2008 11:41]


    Die uptime is eerder de uptime van de servers zelf. Niet of de website bereikbaar was vanaf het internet.
    Dus wanneer er een fout optreed bij de verbindingen van True zal deze niet als downtime gezien worden bij de uptime van een server zelf, aangezien deze de uptime meet vanaf het moment dat deze geboot is geweest.

    Zoals in andere replies al aangegeven is, moet je voor zo'n reboot toch ff checken of het de internetconnection is of dat tweakers.net eruit ligt.

    Nu moet ik wel toegeven dat mijn eerste idee was, t.net niet te bereiken -> whoops DSL verbinding weg. Maar na ff Google.com en nu.nl gecheckt te hebben was de conclusie: vreemd iets met tweakers, maar eh da's niet belangrijk voor 't werk komt later wel.

    Als je geen grapje maakt:
    Misschien de volgende keer ff nu.nl oid intikken en een traceroute doen? De traceroute laat dan namelijk zien waar 't mis gaat, en als je dan eenmaal ergens op de AMS/IX zit dan is het niet jouw probleem meer...

    En inderdaad, ivm de hoge uptime van tweakers.net en eigenlijk nooit onaangekondigde downtime is de eerste reactie: Help geen internet?

    [Reactie gewijzigd door Little Penguin op vrijdag 18 januari 2008 23:36]


    op truecare is hetvolgende te lezen.

    [Solved] Connectivity problems
    Around 13:40 CET we started to experience unexplainable connectivity issues between segments of the network. The problems occurred between random source addresses and random destination addresses which made it difficult to find the cause. After thorough investigation we swapped one routing engine on the primary router at the euNetworks facility and brought on a separation between two parts of the network. After these measures the network became more predictable and all sessions were restored. We will keep monitoring the network closely and keep engineers at site for the next few hours. Together with Force10 we will keep investigating to find the exact cause which led to the connectivity issues. We apologise for any inconvenience this issue may have caused. Please do not hestitate to contact our support engineers in case you still experience issues on the network or your machines.

    recentelijk ook eens wat servers bij true neergezet.. mede omdat tweakers er al zo lang zit... heb ik meteen dit aan mijn broek hangen...

    was dus ff schrikken.. maar aan de andere kant is dit volgens truecare pas weer de eerste storing sinds een half jaar...
    «  1  2  3  4  ...  15  16  »

    Op dit item kan niet meer gereageerd worden.

    Volgende 02-'10 Nieuwe fileserver in gebruik genomen
    Vorige 02-'10 Tweakers.net introduceert forumtags
    VNU Media logo Hosted by True

    © 1998 - 2012 Tweakers.net B.V. - Alle rechten voorbehouden - Contact - Jouw privacy - Algemene Voorwaarden

    Uitgever van:

    Website van het jaar 2011