Door Kees Hoekzema

BOFH

Server- & netwerkstatusmeldingen

01-02-2006 • 20:12

120

Problemen met de servers en de netwerkverbinding van Tweakers.net worden in deze .plan gemeld. De laatste informatie over de serverloads en -uptimes kun je volgen op de Statusmeldingen

  • 01-02-06 Het zal sommigen ongetwijfeld zijn opgevallen, maar vanaf ongeveer vier uur vanmiddag is er een probleem bij True opgetreden waardoor sommige tweakers niet bij onze servers kunnen komen, er is een probleem opgetreden met de route naar abovenet, en blijkbaar maken aardig wat mensen daar gebruik van. Uiteraard is men bij True druk bezig om dit probleem op te lossen.

  • 25,26-01-06 Rond 23:10 viel de stroom van het complete Tweakers.net rack uit, en als logisch gevolg daarvan was de site onbereikbaar. Dit viel ook True op, en die stuurden direct iemand op pad om te zien waar het aan lag. De uiteindelijke oorzaak is (nog) niet achterhaald, maar wel bleek een van de servers een voorliefde te hebben om vanaf nu kortsluiting te veroorzaken. Deze (web)server is nu uitgezet en de rest van het rack is weer aangezet. Vervolgens hadden we enkele problemen met de database server van de frontpage. Rond 0:00 waren deze echter ook weer verholpen en was de site weer in zijn geheel beschikbaar. Dat de downtime relatief kort was, is geheel te danken aan de mensen van True en Redbus die op deze tijd van de nacht beschikbaar waren om te helpen.

  • 16-12-05 Zojuist heeft irc.tweakers.net een kleine upgrade gekregen zodat je nu via poort 6697 irc-ssl kunt gebruiken, uiteraard blijft 6667 zoals altijd openstaan voor degene die niet van nieuwerwetse onzin houden. Hoe het e.e.a. is in te stellen in je irc client kun je Omdat we de 3com-wazigheden inmiddels zat zijn zullen beide switches de komende week vervangen worden door twee HP Procurve 2824-exemplaren.

  • 27-01-05 Rond 1 uur vannacht was de frontpage niet meer bereikbaar van buitenaf. Intern leek alles goed te werken, en ook was de frontpage bereikbaar van buiten het eigen netwerk, maar binnen het netwerk van Trueserver. Na een reset van de externe switch bleek het probleem opgelost te zijn, blijkbaar moest de switch nog even wennen aan de nieuwe routers. Al met al is de frontpage ongeveer een half uur onbereikbaar geweest.

  • 25-01-05 De komende weken gaat Trueserver hard aan haar netwerk klussen. Het huidige netwerk is in de loop van de jaren uitgegroeid tot een volledige redundante setup voornamelijk gebasseerd op de producten van Juniper. De storingen van de afgelopen tijd hebben echter uitgewezen dat deze setup niet meer afdoende is, dus heeft Trueserver besloten zijn netwerk te vervangen.

    Trueserver Force10 E600 routerDe nieuwe apparatuur voor het netwerk wordt geleverd door Force10. Gekozen is voor E600 routers met een backplane van 900GBit. In totaal worden er vier Force10 Networks E600 core routers geinstalleerd; twee hiervan komen op Redbus, de andere twee op Telecity waardoor de totale backplane op 3.6TBit uitkomt. Deze routers worden onderling verbonden door een aantal verbindingen met een totale capaciteit van 40GBit. Naast TrueServer maakt bijvoorbeeld de UvA gebruik van deze apparatuur ten behoeve van hun ontwikkelingen rond snelheidrecords en schakelen onder andere Yahoo en Google over op Force10 voor hun connectiviteit.

    Verder wordt de verbinding met de AMS-IX opgewaardeerd naar een tweetal 10GBit verbindingen (ten opzichte van twee 1GBit verbindingen nu). Een schematische weergave van het nieuwe netwerk kan hier gevonden worden.

    Aangezien een netwerk vervangen altijd een riskante bezigheid is kan downtime niet worden uitgesloten. De komende tijd zullen we dus rekening moeten houden met (korte) downtimes in verband met de werkzaamheden. Deze zullen aanstaande nacht beginnen met het vervangen van de eerste BlackDiamond te Redbus.

    Meer informatie over het nieuwe netwerk kun je hier vinden.

    Update 26-01-05 Ook het verkeer van en naar Tweakers.net loopt nu via de nieuwe routers, dit ging gepaard met een nauwelijks merkbare downtime.

  • 18-01-05 Vanochtend zijn de nameservers van tweakers.net verhuisd van eigen beheer naar beheer door Trueserver. Dit heeft voor ons als grote voordeel dat we nu alle drie de nameservers op een andere lokatie hebben staan in plaats van in ons eigen netwerk. Theoretisch gezien merkt niemand wat van de verhuizing. Als je onverhoopt toch hoort van mensen dat ze DNS-problemen hebben met Tweakers.net, dan mag je dat melden op het forum of in een reactie.

  • 02-01-05 Als gevolg van een storing in één van de core devices op de Redbus facility van TrueServer was Tweakers.net zojuist volledig onbereikbaar. Met dank aan de snelle reactie en een creatieve oplossing van John van Trueserver was de storing echter van korte duur.

  • 21-12-04 Tijdens het verwijderen van de oude Arethusa, leek het rode waarschuwingslampje op de nieuwe Arethusa ons op de hoogte te willen brengen van een kritieke storing. Nadat softwarematig onderzoek niets opleverde, was een reboot noodzakelijk om een kijkje in het BIOS te kunnen nemen, alwaar bleek dat het loos alarm was. Enkele minuten downtime van Arethusa (oa. IRC) was hiervan het gevolg.

  • 08-12-04 Al enkele dagen hangt er een nieuwe server in het rack. Deze gaat dienen ter vervanging van Arethusa, onze laatste zelfbouwserver. De nieuwe Arethusa heeft de beschikking over twee 2,4GHz Intel Xeon centrale verwerkings eenheden en 1GB intern geheugen. Ruimte voor zijn taken zal hij hebben op een 200GB IDE schijf van Maxtor. Dit geheel zit in een zelfde HP Proliant 140 behuizing als Achelois.

    Ondanks onze pogingen de taken van de oude naar de nieuwe server over te hevelen zo soepel mogelijk te laten verlopen, is enige downtime onvermijdelijk. Met name de IRC-daemon zal enige downtime voor zijn kiezen krijgen. Dit zal in de loop van de avond gebeuren.

    * Serverstatus (5 minuten vertraagd)

  • Reacties (120)

    120
    115
    66
    3
    0
    36
    Wijzig sortering
    Ik heb nu bij diverse nieuwsberichten dat de regels niet worden afgebroken, maar dat het gehele bericht op 1 regel staat, waardoor ik de hele tijd horizontaal moet scrollen.
    op dit tijdstip werkt het hier nog niet helemaal optimaal.
    Eerst krijg ik de melding dat de pagina niet kan worden gevonden en na een keer verversen staat hij er wel op
    Het was bij mij goed, maar sinds vannacht krijg ik weer regelmatig de melding dat de remote server de verbinding closed.
    Hoezo wordt zoiets niet opgevangen door de noodstroom?
    Ik ga er vanuit dat de noodstroom gekoppeld is aan het hele complex. Deze gaat dan enkel maar aanspringen als er op een veel hoger niveau een panne is.

    Wel netjes dat enkel t.net eruit knalt :) Sommige datacenters gaat de hele gang eraan als je een kortsluiting veroorzaakt :P Stopcontacten en lampen op dezelfde schakelaar aansluiten is ook een leuke :Y)
    Een server die kortsluiting veroorzaakt kun je nog zoveel noodstroom tegenaangooien, maar dan loop je alleen maar het risico van een stevige fik
    als je kortsluiting hebt zal een UPS ook netjes uitgaan hoor, anders is het hele idee van een zekering (brand voorkomen door te grote stromen) nogal zinloos..

    UPS neemt t bij spanningsuitval over, niet bij kortsluiting. Enige optie zou zijn om de hele zooi te voorzien van redundant voedingen, dubbel gevoed, bij kortsluiting zal 1 voedingsrail dan wegvallen maar draait alles door op de andere, maar goed, daar hangt ook prijskaartje aan, en in 1U is het helemaal wat lastiger/duur om 2 voedingen ook nog eens erin te vrotten
    GoT lijkt er even mee opgehouden te zijn. Heb ik iets gemist (React-upgrade, onderhoud?) of is er weer een 3com switch in coma geraakt?
    GoT is idd down. Athena lijkt nog te werken alleen is de load 0 :?
    tracert + ping == time out :'(

    * 786562 nero355
    Als het aan de switch zou liggen zou de fp het ook niet moeten doen zou ik zeggen tenzij die precies op de andere switch zit natuurlijk :P Ik denk dat de fp precies op de goede switch zit en got niet als de servert een load heeft van 0 is er dus weinig dat ie moet afhandelen oftewel geen verkeer er naar toe. (of waren jullie soms tot de zelfde conlusie gekomen :+ .
    Maar we wachten af (en ik doe tenminste weer wat voor school :+)
    Hij doet t inmiddels weer :)

    op het mededelingenbord staat nix, dus misschien hebben ze net weer een 3com faillure gehad of hebben ze net die 3coms vervangen...
    De switches waren weer aan het bokken.

    Deze switches doen pas sinds de grote netwerkupgrade bij true zo raar, ze laten voor 1 IP de dat niet door, of het wordt al bij de router geblokt.

    Voorbeeld; 213.239.154.36 is wel te pingen, maar .36 niet, terwijl beide aan dezelfde netwerkkaart hangen. Intern (vanaf de servers en vanaf een ander rack op redbus) kan ik het wel pingen, extern niet. Dus het is eerder een combinatie van factoren dan puur onze switches.

    Daar deze switches onderhand ook al weer behoorlijk oud zijn en aan vervanging toe (oke, de interne gbit switch is niet heel erg oud, maar vertoont ook kuren; zijn management interface houd er na ~1-2 maand mee op, snmp, telnet, serieel, niets doet het meer).

    De procurves komen eind deze week binnen, en zullen dan zsm door naar het rack.

    -kees @ account van broertje
    (ps fpadmins, ja dat is accountsharing, sue me :P)
    Nu we toch over nieuwe servers bezig zijn, wanneer komt die 3de database server (dual Opteron ?) ?
    Die ligt nog op het kantoor. De bedoeling is dat deze ingezet gaat worden als test-webserver (zien hoe de opteron het als webserver doet) en replication doos.
    De dual Xeon 2400 bakkies bevallen goed zie ik :+

    Maar heb ik het goed als ik concludeer dat jullie een server aanschaffen die op het moment van aanschaf nog geen echt concreet doel heeft, maar dat na verloop van tijd zo ontstaat? ;)

    Zo van: Hmmm.. wat zullen we eens met die dual opteron bak doen? ;)
    Dat is dus de oude db servert die brak was afaik. vervangen is en nu weer opgelapt is.
    Maar heb ik het goed als ik concludeer dat jullie een server aanschaffen die op het moment van aanschaf nog geen echt concreet doel heeft, maar dat na verloop van tijd zo ontstaat?
    Wat nu op kantoor ligt is dus de oude server die een 4GB limiet heeft door een bug in de Tyan-plank. Deze machine is een tijdje geleden vervangen door een nieuwe doos met 8GB RAM, 15K SCSI-schijven, een dikke RAID-adapter en meer mooie onderdelen. Het klopt wel dat er niet echt haast is gemaakt met het opnieuw inzetten van de oude database-server, maar veel haast is hier ook niet bij geboden.
    Maar heb ik het goed als ik concludeer dat jullie een server aanschaffen die op het moment van aanschaf nog geen echt concreet doel heeft, maar dat na verloop van tijd zo ontstaat? ;)

    Zo van: Hmmm.. wat zullen we eens met die dual opteron bak doen? ;)
    Niet echt :P (was het maar zo :D )
    Op het moment dat 'ie opgehangen wordt kan de rest van de configuratie vanaf een andere locatie worden gedaan, waarna we ip's en services over kunnen gaan zetten vanaf de oude bak (of dupliceren in het geval van een webserver).
    Die is er al, geloof ik tijdens de verhuizing naar Redbus is deze meegegaan. Op de verhuizingspagina zie je nu onder de vier witte webservers in het midden het volgende hangen: Apollo, Artemis en de server zonder naam (de oude Apollo). Of deze al gebruikt wordt weet ik niet. :)
    Arethusa is plat hoor :O
    Dus? :) We hebben het over de databaseservers: de nieuwe Apollo doet nu de DB van GoT, en de oude wordt/gaat worden ingezet als calamiteitenserver die het werk overneemt mocht Apollo of Artemis (DB server van FP) wegvallen.

    En mocht Arethusa niet meewerken kan je nog altijd IRC'en op osiris.parse.nl. ;)
    Waarom eigenlijk wordt de krachtigste server ingezet als backup server ? De taak van backup server kan toch prima gedaan worden door bijv de 2x opteron 242 of een willekeurige xeon machine? Of zie ik het nu even te simpel?
    Die server is nog nieuw, dus nog niet in gebruik, daarnaast moet hij zo te zien webserver worden en de backupserver is dus een "bijbaantje" :Y)

    Zoals je ziet zijn de database servers ook de zwaarste servers op die backupserver na, dit is omdat die ook het meeste te verwerken krijgen, het is wel handig als je backupserver die load ook aankan als het nodig is ;)
    Hmmja, dat komt onbedoeld zo uit :)
    Processorkracht zegt overigens niets over de kracht van de server zelf. Apollo is voorzien van een veel krachtiger I/O-setup.
    Maar het zit er wel in dat we die processors nog om gaan wisselen.
    Er was toch al een One4Net B-100 loadbalancer? Ik snap niet precies wat er nu gaat gebeuren.
    Die voldeed niet aan al onze eisen, dus hebben wij een zelf een loadbalancer gebouwd die wel aan onze eisen voldoet
    Maar daar krijgen nog een mooie revieuw over toch? :P Ben altijd wel geïnteresseerd in die dingen en ik denk niet dat ik de enige ben.
    was dus schijnbaar toch een grap ofzo, want forum doet het weer ?
    en die link naar de MED van Paul doet het ook niet

    naja vreemde humor zullen we maar zeggen :z
    ACM Software Architect @DDX23 september 2005 23:32
    Denk je werkelijk dat wij voor de grap de boel een paar uur downgooien?
    Nou, niet dus.

    Het is gefixed, zie hierboven wat het probleem was en wat er zoal tijd kostte bij het fixen.
    ik had het niet over sql probleem, tuurlijk kan een forum dan een tijdje down zijn

    maar over de melding de modjes zijn een weekend weg dus het forum is uit voorzorg hele weekend down
    zie ook posting van Paul Nieuwkamp
    tja dat dit schijbaar dus wel een grapje was...
    Tuurlijk is dat een grap :) Denk eens na zeg :P :> Er zijn wel vaker BBQ's / meetings / etc / etc gehouden, en dan ding GoT ook niet dicht.

    Daarnaast: GoT is dood -> er staat iets over modjes die weg zijn en over een bokkende MySQL-server. Goh, welke van die 2 is het meest waarschijnlijk? Je weet toch van vorige #1's, 1 april, CA etc dat ze een geweldige humor hebben?
    centrale verwerkings eenheden
    OMG ik dacht dat ik die basisschool term nooit meer tegen zou komen :'(
    Eerst vond ik het ook zo'n suffe vertaling, maar nu ik hem (sinds enkele jaren) weer eens tegenkom, vind ik hem wel stoer eigenlijk. CVE, klinkt veel beter dan CPU.

    CVE!
    ...Tweakers.net heden ten dage vier dual Opteron-servers en één Athlon XP-machine...
    Deze quote komt uit de tekst onder het AMD logo hieronder. Geloof dat die tekst 's geupdate moet worden? :P
    ik meende dat er ook 2 dual mp's waren die zijn zeker weg.

    Op dit item kan niet meer gereageerd worden.