Hoofdcategorieën

Server- & netwerkstatusmeldingen

Door Kees Hoekzema, dinsdag 7 december 2004 22:30, views: 2.668

Problemen met de servers en de netwerkverbinding van Tweakers.net worden in deze .plan gemeld. De laatste informatie over de serverloads en -uptimes kun je volgen op de statistiekenpagina.

*Statusmeldingen

  • 07-12-04 In verband met een storing in het netwerk van onze hostingprovider en sponsor TrueServer is Tweakers.net sinds het eind van de middag moeilijk bereikbaar. De storing heeft betrekking op het netwerk tussen de locaties Redbus Interhouse en TeleCity 1 op het Amsterdam Science Park en heeft tot gevolg dat het algemene VLAN tussen Redbus en TeleCity 2 offline is. Hierdoor zijn systemen die op Redbus Interhouse staan maar hun gateway op Telecity 2 hebben voor de buitenwereld onbereikbaar.

    Als gevolg van de storing moet het netwerkverkeer over andere links zoals bijvoorbeeld Level3 gerouteerd worden en dat resulteert in de nodige traagheid. De overlast verschilt per provider.

    Meer informatie van TrueServer:

    Een van de glasleveranciers van trueserver kampt met een fiberbreuk. Naar aanleiding hiervan hebben we een performance probleem op het interne netwerk op Telecity en zijn wij genoodzaakt om binnen nu en een uur onderhoud te plegen op een van de twee Juniper M20's op Telecity. Tijdens dit onderhoud zullen er verschillende interfaces op de router gewisseld moeten worden. Deze werkzaamheden zullen ongeveer 45 minuten in beslag nemen. Een van de interfaces die gewisseld gaat worden is de glasmodule die aangesloten is op een van de core-switches op Telecity er zal daarom een onderbreking in de connectivity plaats vinden. We verwachten dat dit een totale downtime van maximaal 15 minuten met zich mee zal brengen.

    De onderbreking van de connectiviteit heeft inmiddels plaatsgevonden maar men is nog aan het switchen.

    21-09-04 Vannacht zal het forum meer dan een uur offline zijn. De nieuwe database server (een dual Opteron 244, met 8GB geheugen) zal de taken van de oude database server overnemen. Om dataverlies te vermijden zal het forum enige tijd niet bereikbaar zijn. De werkzaamheden beginnen na middernacht.

  • 11-09-04 De fileserver is heel even offline geweest om een nieuwe kernel te proberen, dit ging niet geheel volgens plan.

  • 11-09-04 Zoals al gemeld in het aboneeforum, wordt dit weekend de mailserver overgezet naar een andere server, dit ging helaas een beetje met horten en stoten, op dit moment wordt eraan gewerkt en we verwachten dat het probleem vrij snel is opgelost.

  • 17-08-04 De fileserver is nog steeds niet stabiel. Ondanks dat hij nu niet midden in de nacht zichzelf ophangt heeft hij wel andere problemen. Hierom zullen we er vanmiddag wederom mee bezig gaan en een aantal dingen bij langs lopen. De search zal uitgeschakeld zijn, de rest van de site zal enige minuten downtime te verduren krijgen.

  • 11-08-04 De fileserver is ondanks een aantal veranderingen nog steeds niet stabiel. Ondanks dat hij nu niet midden in de nacht zichzelf ophangt heeft hij wel andere problemen. Daarom zullen er vanavond enige diagnostische programma's gedraaid worden waardoor de search, plaatjes en usericons het tijdelijk niet zullen doen.

  • 27-05-04 Vannacht rond een uur of twee is de fileserver gecrasht. De oorzaak van deze crash is een al langere tijd minder goed functionerende IDE raid. We waren al bezig met het zoeken naar alternatief voor deze raid, maar uiteindelijk heeft hij het sneller laten afweten dan wij een vervanging konden regelen.

    Op het moment werken de volgende onderdelen niet, of minder goed: De search van GoT, plaatjes op de frontpage, usericons van users op GoT, private storage en fotoalbums van de abonnees. Er is naar verwachting geen data verloren gegaan, maar de data zal helaas enige tijd niet bereikbaar zijn.

    Update 8:25: Daniel en Kees zijn inmiddels in Telecity aanwezig om de problemen te verhelpen. Het vermoeden is gerezen dat de middelste positie van de IDE-bay kaduuk is. Met de schijven zelf lijkt niets mis te zijn.

    Tegelijkertijd heeft (ter verhoging van de feestvreugde) forumserver Apollo ook besloten er de brui aan te geven. Slechts met een hele harde power-cycle (voeding eruit en er weer in) was Apollo weer tot leven te wekken. Op dit moment wordt een backup teruggezet om de corrupte database te vervangen. Omdat de backupserver er om 02:00 mee ophield en de backups van Apollo normaliter om 04:00 worden gemaakt houdt dit mogelijk in dat alle postings en topics van gisteren verloren zullen gaan. Uiteraard doen we er alles aan om dat te voorkomen.

    Update 9:35: Om te voorkomen dat alle postings, topics en users van de afgelopen 30 uur verloren gaan wordt de database van Apollo op dit moment gedumpt en vervolgens geforceerd weer ingelezen. Daarmee hopen we het overgrote deel van de data te kunnen herstellen. E.e.a. heeft wel tot gevolg dat Apollo nog een aantal uurtjes zoet zal zijn. Atlas is inmiddels weer hersteld, maar de reden van het uitvallen is ons tot nu toe nog niet duidelijk. Er is niets kapot gegaan, dus waarom hij er afgelopen nacht ineens mee ophield na ruim anderhalve maand probleemloos gewerkt te hebben is een raadsel. Bijkomend probleem is dat de situatie alleen verbeterd kan worden door een volledige herinstallatie.

    Update: 28-05-04: De recovery van de database gisteren is gelukt, echter hield atlas er vannacht weer mee op. Atlas is onderhand weer gefixt, en zal een aantal taken verliezen zodat hij niet om de haverklap over de kop gaat.

  • 10-04-04 Vanmiddag vanaf 15:00 uur zullen de schijven (1 x HP/Seagate 36,7GB 10k rpm SCSI en 1 x 200GB Maxtor 7200 rpm) die afgelopen dinsdag overleden zijn vervangen worden. Omdat IDE-schijven niet hot-swappable zijn zal fileserver Atlas daarvoor enige tijd uit de lucht moeten. Verder zal van de gelegenheid gebruik gemaakt worden om een tweede Xeon-processor in development-server Achelois te plaatsen.
    Als alles goed gaat zal er nauwelijks downtime zijn.

    Update 16:15 uur: De werkzaamheden zijn zonder problemen verlopen en alles draait weer zoals vanouds .

  • 6-04-04 Het forum en de frontpage waren enige tijd down. Dit was het gevolg van een overleden schijf in de SCSI-array van de fileserver.

    Alhoewel er twee hotspares aanwezig zijn (omdat de fileserver nogal eens SCSI-disks opeet) heeft de RAID-controller eenzijdig besloten om het filesystem van de array stuk te maken, waardoor er een backup teruggezet moest worden van vannacht 2.00 uur. Hierdoor kan het zijn dat vandaag geüploade usericons, private storage of een foto in het fotoalbun, helaas verdwenen zijn.

    Daar wij nu de RAID-controller niet meer vertrouwen zal deze zo snel mogelijk door een nieuwe controller vervangen worden, eentje die niet de RAID-array met zich meesleept als hij een hotspare rebuildt.

    Tevens zal de search van het forum langere tijd niet bereikbaar zijn daar deze opnieuw geïndexeerd moet worden.

  • 8-03-04 Als alles meewerkt gaan we dinsdagmiddag de forumsoftware van een upgrade voorzien. Het grootste deel van het database-onderhoud is al gedaan dus de downtime zal redelijk kort zijn; we gokken op ongeveer een uur. Mocht alles niet op schema lopen, dan wordt het pas woensdagmiddag dat we het updaten.

  • 5-03-04 Vanmiddag wordt er op kleine schaal onderhoud gepleegd aan de servers. De verwachting is dat de downtime mee zal vallen. De langste downtime zal Atlas hebben, in deze server wordt een nieuwe netwerkkaart geplaatst. We zijn er echter vrij zeker van dat dit binnen enkele minuten geklaard kan worden.

  • 29-02-04 GoT is rond 23:00 uur uit de lucht gehaald om enige wijzigingen aan de message table van de database door te kunnen voeren. Deze aanpassingen zijn nodig om de upgrade naar React 1.9.2 mogelijk te maken. Er is voor gekozen om dit voorbereidende werk op zondagnacht uit te voeren, om de overlast tot een minimum te beperken. De schatting was dat de operatie minstens vijf uur in beslag zou nemen. Het voordeel is dat er bij de daadwerkelijke upgrade naar de nieuwe versie van React door deze voorbereiding waarschijnlijk geen langdurige downtime zal zijn. Rond een uur of 1 konden we echter concluderen dat de database een stuk sneller is dan de vorige keer, na amper 65 minuten waren alle aanpassingen doorgevoerd.

  • 11-02-04 Zoals men al wel heeft kunnen bemerken is de upgrade gister niet helemaal vlekkeloos verlopen. De meeste downtime was niet de switch, maar Artemis die na een ongeplande reboot geheel onverwacht de geest gaf en helemaal opnieuw geinstalleerd moest worden. De combinatie van hardware die wij hebben (een Tyan opteron plank met een Megaraid controller erop, evenals een zeer trage boot) zorgde ervoor dat ik de hele avond nog van het geluid van een stapel servers heb kunnen genieten in telecity. De grootste problemen (oa een webserver die om onbekende redenen down ging en niet door de loadbalancer eruit gepikt werd) zijn nu opgelost. We hopen vanmiddag nog een aantal dingen op te lossen die nu nog liggen.

  • 10-02-04 Vandaag zal de interne switch van het serverpark vervangen worden door een 3Com 3824 Gigabit Ethernet switch. Verder zal Achelois (development-server) vervangen worden door een HP Compaq Proliant DL140-server (dual Intel Xeon 2,4GHz, 1GB geheugen, twee 80GB ATA schijven, 1U rackmount) en zal een Cyclades Alterpath ACS console switch in het rack gehangen worden. Op de werking en het nut van dit laatste apparaat zullen we binnenkort verder ingaan. De werkzaamheden zullen enige downtime met zich meebrengen omdat Atlas enige tijd down zal moeten voor het plaatsen van een Intel Pro/1000 MT Dual Port netwerkadapter. Zie voor meer informatie deze .plan.

    * Juni 2003 - januari 2004 statusmeldingen

    * Serverstatus (5 minuten vertraagd)

  • Volgende 13:06
    Vorige 22:16

    Reacties

    «  1  2  3  4  5  6  »

    De werkzaamheden zullen enige downtime met zich meebrengen
    er staat niet nader beschreven welke delen van tweakers en of fok down gaan, maar het forum is op dit moment (voor mij) niet bereikbaar, als jullie op dit tijdstip onderhoud plegen heb ik daar enorm respect voor en vind ik dit zeker een grote stap voorwaards in de professionaliteit!

    ik ben op dit uur alleen maar wakker omdat ik de slaap niet kan vatten, als de crew nu aan het werk is ... wow

    edit:
    ik zie bij de stats van de servers dat alle servers op dit moment buiten bedrijf zijn :7 dat kan geen juiste info zijn aangezien ik dit post :D

    Respect Kees 8-)

    Absoluut geweldig. Een beetje van 19:00 ? tot 3:00 in Telecity zitten! Petje af! :Y)

    Dit soort dingen zijn behoorlijk standaard in de serverruimte... Ga je bijv. je webserver updaten, en dan boot hij niet meer, dan bouw je hem weer helemaal terug, nope... En dan zit je ergens in the middle of nowhere, een kuttijd elke winkel dicht maar je moet je systeem weer up krijgen... Tjah...

    Maar inderdaad Kees, bikkelen :)


    De serverstats werden niet geupdate waardoor alle servers een kruisje kregen.

    @ kees

    er staat een typfout, einde van de eerste paragraaf
    opgelostt met een dubbele T.

    Mvg

    Sven

    Achelois 2 x Xeon 2400, 1GB
    Omdat we toch mierenneuken :Y) Klein schoonheidsfoutje :)

    is got down?


    @junkbuster.. hier krijg ik alleen maar dns errors.. dat ie het adres niet kan vinden.. op 2 pc's geprobeert en 2 verschillende proxy servers in het pand.

    Nee hoor, hier werkt 'ie nog steeds.

    zorgde ervoor dat ik de hele avond nog van het geluid van een stapel servers heb kunnen genieten in telecity.
    Ik ken het ja...en wat een stilte als je weer buiten staat! :)

    10 uur geen GOT, dat wordt afkicken:

    Maar even serieus, natuurlijk gaat een upgrade van een systeem als GOT niet on-the-fly en uiteraard is de zondagavond daarvoor het meest aangewezen tijdstip. Maar ik geef in overweging om dit voortaan aan te kondigen.... (als ik het gemist heb dan heb ik niet op de juiste plaats gekeken - af was het te ver verstopt ;) - en ja hoor het was aangekondigd en ik heb niet goed opgelet |:(

    De schatting van 10 uur is die alleen nodig om alle records door te lopen of zit daarin ook tijd gecalculeerd voor het maken van een backup en ander onderhoud. Ik zou nl. verwachten dat Artemis met 6 gig en 2x opteron 246 sneller door zijn tabellen zou lopen :).

    het was een dag ofzo geleden aangekondingd.

    Er heeft wel degelijk vandaag (of eerder?) een aankondiging gestaan in MED op GoT, lijkt mij toch voldoende :)

    Daarin was trouwens een schatting van 5 uur gemeld, maar ik denk dat ze tactisch keer 2 gedaan hebben uit voorgaande ervaring :P

    En de Opterons i.c.m. 6 gig en LSI controller hebben toch met een record-tempo de records doorgeploegd.

    Zou leuk zijn om de serverbelasting tijdens de werkzaamheden te weten.

    De serverbelasting (load, processorgebruik, disk I/O's, mysql stats enz.) kun je hier bekijken. Overigens heeft Apollo op dit moment maar 4GB omdat 6GB nog niet stabiel wil draaien. Dit probleem wordt waarschijnlijk veroorzaakt door een combinatie van processor, moederbord en RAID-adapter, maar zeker weten we dat niet (en helaas is het ook moeilijk te achterhalen omdat we natuurlijk niet zomaar van alles kunnen gaan uitproberen op een productieserver).

    We gaan met nieuwe hardware proberen om wel een systeem te maken dat goed werkt met 6GB. Het extra geheugen kan goed gebruikt worden op Apollo.

    Chips, ik had nog niet verder gekeken dan de samenvattingen voor alle servers bijeen. Blijkt dat ik gewoon door had kunnen klikken. Hoe simpel kan een mens worden |:(

    is er ook nog bekend wat react 1.9.2 gaat brengen ?

    Zolang de nieuwe versie nog niet definitief uit de CVS is getrokken door de Parse mensen is er nog geen lijst met nieuwe features. Maar het zal vast niet zo'n grote stap worden als tussen 1.8 en 1.9

    Wow! Nu al klaar, ging sneller dan verwacht dus :*)
    «  1  2  3  4  5  6  »

    Op dit item kan niet meer gereageerd worden.

    Volgende 13:06
    Vorige 22:16
    VNU Media logo Powered by True

    © 1998 - 2008 Tweakers.net - Alle rechten voorbehouden

    Uitgever van: