Hoofdcategorieën

Server & netwerk statusmeldingen

Door Kees Hoekzema, vrijdag 16 januari 2004 13:10, views: 3.071

Problemen met de servers en de netwerkverbinding van Tweakers.net worden in deze .plan gemeld. De laatste informatie over de serverloads en -uptimes kun je volgen op de statistieken pagina.

*Statusmeldingen

  • 28-01-04 Vanmiddag worden er enkele schijven bij Atlas en Apollo gezet die gaan dienen als hotspare. Ook zal er een vervanging voor athena in het rack gehangen worden. Er wordt geen downtime verwacht, maar de plaatjes en het forum kunnen enige tijd minder snel reageren dan normaal vanwege de backups van de data die vooraf gedraait worden. Athena (de Fok!-frontpage server) zal later omgezet worden naar de nieuwe server, ook bij deze upgrade verwachten we geen grote downtime.

  • 20-01-04 Vanwege plotselinge en onverwachte performanceproblemen was het forum tijdelijk onbereikbaar. We hebben een aantal dingen veranderd die als mogelijke oorzaak aangewezen konden worden. Het forum is weer online.

  • 12-01-04 Apollo heeft sinds vanochtend last van instabiliteit. Eens in de zoveel tijd loopt het geheugen compleet vol waardoor het forum plat gaat. Na een tijdje herstelt de server zich vanzelf weer en is het forum weer te bereiken.
    Er zijn geen recente wijzigingen aan de configuratie gedaan dus het is ons een compleet raadsel waar dit nu ineens vandaan komt. We zoeken echter verder in de hoop het snel op te kunnen lossen.

  • 05-01-04 Later in de middag zal Kees de in gebruik genomen hotspare voor Atlas definitief in de RAID-Array opnemen en een nieuwe hotspare plaatsen. Daarnaast krijgt Atlas een algehele checkup, in een poging uit te vinden wat de instabiliteit van gisteren veroorzaakt heeft. Een aantal reboots en downtime is hierbij helaas onvermijdelijk, maar zal uiteraard tot een minimum worden beperkt.

    Update 21:30: En klaar is Kees. Atlas lijkt voorzien van een nieuwe schijf al zijn taken weer naar behoren uit te voeren en is sneller dan daarvoor. Het is even afwachten of de stabiliteit weer als vanouds is. Tevens heeft Kees tijdens het rebuilden van de RAID-Array van Atlas tijd gevonden om Aphrodite te vervangen met de nieuwe Dual Opteron 240 configuratie, zoals onder andere in het fotoverslag al werd aangekondigd.

  • 04-01-04 Na de problemen van gisteren was Atlas nog niet weer helemaal de oude waardoor er opnieuw problemen ontstonden. Dit heeft er onder andere voor gezorgd dat het forum en de frontpage tijdelijk onbereikbaar zijn geweest. De serveradmins hebben de bak meermalen gereboot, maar deze vertoonde ook daarna nog diverse kuren bij het succesvol opbrengen van services/daemons. Op dit moment draait het allemaal weer stabiel. Wanneer er meer informatie komt, zal dit gemeld worden.

  • 03-01-04 De fileserver (Atlas) had het vannacht begeven en heeft helaas een van zijn schijven verloren. Gelukkig werden er twee helden bereid gevonden om naar Amsterdam te fietsen en aldaar het powerknopje enige malen hardhandig te hanteren. Ook vanavond was het weer zover, de fileserver had er wederom geen zin in. Gelukkig werd er ook deze keer iemand van Trueserver bereid gevonden om even bij telecity de boel in orde te maken.

  • 15-11-03 De database server van GoT heeft er steeds minder zin in en houd het momenteel maar liefst 1 seconde uit voor hij crasht. Daar dit gedrag niet gewenst is zijn we druk bezig met het oplossen hiervan. Het probleem is bekend maar om het op te lossen moet alle data gedumped en geimporteerd worden, dit kan snel enkele uren duren, we verwachten dat GoT aan het begin van de avond weer online is.
    Inmiddels is alle data weer geimporteerd en zou GoT weer moeten werken.

    12-11-03 Door een crash van de forum database server, heeft het forum vanmiddag enige tijd down gelegen. Omdat deze server de laatste maanden steeds vaker zonder reden uitvalt, staat hij al op de zwarte lijst van servers die zo snel mogelijk een upgrade moeten hebben. We hopen dan ook dat dit de laatste keer is dat Apollo crasht voor hij zijn update kan ontvangen.

  • 03-11-03 Er zijn problemen met de queuing van de mailserver op Arethusa. Mail komt hierdoor vertraagd aan op zijn bestemming. Er wordt gewerkt aan een oplossing van het probleem.

  • 22-10-03 Na enkele aanloopproblemen, die onder andere werden veroorzaakt door brak geheugen, is de nieuwe Artemis inmiddels stabiel aan het proefdraaien op kantoor. De machine heeft momenteel een uptime van vijf dagen en heeft in een periode van drie dagen zonder problemen bijna 200 miljoen queries verwerkt. De doos draait op 64-bit SuSE Linux met MySQL 4.0.15 voor AMD64-processors. De eerdere stabiliteitsproblemen bij het gebruik van meer dan 4GB geheugen zijn eveneens verholpen.

  • 07-10-03 Zojuist hebben we van onze leverancier Melrow twee nieuwe Appro-machines ontvangen, zodat er eindelijk weer gewerkt kan worden aan de configuratie van de nieuwe Artemis en Apollo-servers.

    Appro 2128Hs barebones voor Artemis en Apollo

  • 22-09-03 De situatie begint steeds merkwaardiger te worden. Met nieuwe processors wil de Appro-barebone nog steeds geen tekenen van leven vertonen, dus er rest ons geen andere optie dan het hele apparaat retour naar de leverancier te sturen. Het enige wat nu nog stuk kan zijn is het power-circuit (voeding/power distribution unit) en dat hebben we niet in reserve. Saillant detail hierbij is dat de twee omgeruilde Opteron 244-processors waarschijnlijk niet eens kapot waren

    Anyway, om onze upgradeplannen niet nog meer vertraging op te laten lopen is direct een tweede Appro-server besteld. Deze zal worden uitgerust met twee Opteron 242-processors en 6GB PC2700 ECC Registered geheugen. De opslag wordt verzorgd door een viertal Seagate Cheetah 10k6 36,7GB SCSI schijven die in RAID 5 aan een LSI Logic MegaRAID Elite 1600 zijn geknoopt. Omdat het forum nogal zwaar op het beschikbare systeemgeheugen leunt en minder op processorkracht zal deze machine worden ingezet als vervanger voor Apollo.

    Voor Artemis geldt juist het omgekeerde: die kan met 4GB geheugen prima uit te voeten maar heeft daarentegen weer veel baat bij zoveel mogelijk processorkracht. Om daaraan tegemoet te komen zal Artemis v2.0 uitgerust worden met AMD's paradepaardje, de Opteron 246 . Voor het overige zal Artemis niet verschillen van Apollo.

  • 12-09-03 Helaas heeft het Tyan-moederbord bij het sterven ook de Opteron-processors meegenomen naar de eeuwige jachtvelden . Omdat onze leverancier de Opteron 244 niet meer op voorraad heeft zal de server nu uitgerust worden met twee Opteron 242-processors.

  • 09-09-03 Omdat het moederbord uit de Opteron-server die Apollo zou moeten gaan vervangen is doorgefakkeld heeft de upgrade enige vertraging opgelopen. Inmiddels is er wel een nieuw moederbord binnengekomen en we hopen dat dat wel heel blijft. Verder zijn er (en niet alleen bij ons) onverklaarbare stabiliteitsproblemen bij Opteron-systemen met 6 GB geheugen aan boord. Daarom zal de server vooralsnog worden uitgerust met 4 GB geheugen. We overwegen ook om eerst Artemis te gaan vervangen en daarna pas Apollo. Artemis heeft het veel drukker en de stabiliteitsproblemen van Apollo zijn vooralsnog weer uit de wereld geholpen.

  • 16-08-03 Nadat de schijf in Atlas vervangen was, ging het filesystem op de scsi raid array onderuit. Hierdoor zullen de komende tijd de images, usericons, private fiilestorage, fotoalbums en de banners niet weergegeven worden. Hier is enige tijd mee gemoeid, maar het geheel wordt ietwat lastiger gemaakt omdat de laatste backups van de fileserver mislukt zijn.

  • 14-08-03 Vannacht rond 6 uur is fileserver Atlas uitgevallen. Bij een checkup ter plaatse bleek er een harde schijf overleden te zijn. Het is ons echter onduidelijk waarom de server toch gecrashed is: normaliter moet het uitvallen van een schijf zonder problemen overleefd kunnen worden. De defecte schijf is meegenomen en aan het eind van de middag zal een vervangende schijf geplaatst worden.

  • 24-06-03 Zoals bekend heeft Tweakers.net afgelopen week een nieuwe fileserver aangekondigd en geïnstalleerd. Deze fileserver is nu ook in gebruik genomen. Atlas draait momenteel de zoekmachine voor het forum en ook serveert Atlas nu alle files voor het webserver cluster. Hierdoor was er heel afentoe enige downtime te bespeuren, maar in het algemeen is de overzetting soepel verlopen.

    Zoals de vaste bezoeker van het forum vast al heeft opgemerkt is de databaseserver van het forum de laatste tijd niet heel stabiel. Om dit euvel verhelpen zal er binnenkort een nieuwe dual Opteron ter vervanging komen.

    Deze nieuwe .plan wordt u aangeboden naar aanleiding van dit topic op het forum.* Serverstatus

  • Volgende 17:43
    Vorige 09:45

    Reacties

    «  1  2  3  4  5  6  7  8  »


    Omdat het overgrote deel van de reacties daar niet erg veel meer van toepassing waren en door sommigen als storend werden ervaren. Voor meer informatie moet je dit topic maar even doornemen: [.PLANS] Reacties op Server & Netwerkmeldingen .

    Ik denk als je het er bij gooit dat het dan onoverzichtelijk worde met bijvoorbeeld reacties

    Aan dat rode kruisje te zien is de server nog niet volledig in gebruik ofzo :?

    Tevens zie ik Atlas nog niet in de statistieken tevoorschijn komen. Mag ik hieruit opmaken dat de server nog niet geheel in gebruik is genomen en nog in een testfase bevindt?

    Atlas draait nog niet mee in de statistieken waardoor hij een rood kruisje heeft.

    Hangt styx nog steeds in het rack? Anders mag die ook wel een keer uit het tabelletje met de status. Hij is nou al tijden buiten gebruik.

    Styx weghalen? voor je het weet zit je dan tussen je voor vaderen... of krijg je dan allemaal gedelete files terug en verlies je files die je nog wou houden? hmmz ;)

    [edit]
    voor de onwetende, Styx is de rivier die het dodenrijk van onze wereld scheid in de Egyptische mytologie...

    De Artemis en Alicia draaien nu al bijna 300 dagen... proficiat! Gaat het ook lukken om die een jaar aan een te laten draaien? Zou wel tof zijn.

    Het zou er haast nog wel eens in kunnen zitten ook voor Artemis :)
    Zeker met de vakantie voor de deur, en een aantal tentamens, ga ik komende 2 maand niet echt actief met artemis bezig, ook aan het einde van de vakantie zal ik daar niet aan toe komen. Waarschijnlijk gaat artemis pas uit als hij vervangen wordt, en ik denk dat dat wel na 365 dagen is :)

    En toen lagen zowel het lichtnet als de generator bij Telecity eruit :+

    Wil je dat alsjeblieft niet roepen, dat is ni grappig :(

    Is al eens gebeurd hoor.

    Zou dat een record zijn of zijn er wel vaker servers geweest die het zo lang hebben uitgehouden ??

    Wel een hele prestatie, een server die het een jaar uithoudt zonder crashes, bugs etc. !!! Ik haal nog geeneens 3 dagen :+

    Hier op tweakers is dat bij mijn weten een record ....

    globaal gezien gebeurt een uptime van 1 jaar wel vaker ...... zonder afbreuk te doen aan de prestatie overigens.

    3 dagen is wel erg extreem..
    Mijn server draait nu een maand zonder problemen. Reden van de laatste reboot was een stroomstoring in de hele regio. Het is een pentium 80 en draait nt4.0.

    Voorheen draaide deze server op Windows 98 met winroute om internet te delen. Toen ging hij ook minimaal een maand mee zonder te rebooten.

    Het wachten is nu op een nieuwe computer die de server taken gaat overnemen. Alleen komt er dan geen windows op.

    Als je zoekt naar uptime en record dan vindt je servers die 500 dagen in de lucht zijn.

    Kortom: nog ff volhouden Kees! :)

    Hmz ... 500 dagen is voor mietjes: All times Top 10 uptimes :+

    die kloppen volgens mij niet....

    1790 dagen uptime met kernel 2.4.20....
    zolang is ie nog niet eens uit....

    Je kan gewoon kernel updaten zonder te rebooten.

    In sprookjes kan dat wel. In de praktijk niet.

    Overduidelijk fake die uptimes:
    zie hier

    Mja ik vind et opzich zoizo dom. Als je zo'n lange uptime hebt (Met Windows) dan wil het gewoon zeggen dat je dus ook zolang geen security patches e.d. hebt geinstalleerd.

    @ Coen Rosdorff

    Wedden van wel? Compilen gaat prima, je kan hem alleen niet booten.

    Wedden van wel? Compilen gaat prima, je kan hem alleen niet booten.
    Beetje rare definitie van updaten heb je dan...

    @Kix_Ass

    Voor Windows NT4.0 komen toch geen patches meer uit.. :+ Dus ik zit goed met m'n NT4.0 bak :P

    Maar Linux is door de modulaire opbouw vaak te patchen zonder te rebooten.

    True indeed. Wat dat betreft moet je met een Windows server niet voor de uptime gaan, zodra je voor Windows kiest, weet je dat iedere update een reboot met zich meebrengt.

    Wie trouwens een leuke top10 van uptimes wil zien, over het algemeen is de uptime van Netcraft redelijk betrouwbaar, en ook daar hebben ze een lijstje met de longest uptimes. Het record staat daar op 1745 dagen, en gezien dat met tussentijdse samples gaat is dat redelijk betrouwbaar.

    Mijn linux-server is hier thuis heeft trouwens een uptime van 323 dagen, ook niet onaardig. Laatste reboot was door een stroomstoring, daarvoor 80 dagen uptime.

    Het record van mijn server is 80 dagen ;(

    Valt het op dat de top50 van die site allemaal BSD systemen zijn en niet Linux? :)

    En dat zo'n beetje de helft co.jp servers zijn...

    Ben benieuwd hoe je dat onder Linux wilt realiseren wat betreft kernel updaten zonder te booten.
    Neerzetten alla, grub/lilo aanpassen ook inderdaad. Maar het laten gebruiken van de nieuwe kernel, lijkt me onmogelijk.
    Modules willen nog wel met een live system mits je de module tijdelijk kan missen maar goed, ben zeer benieuwd hoe je dat gedaan hebt.

    niet.

    Is ook niet nodig, aangezien ze nu beide 2.4.19 draaien, en er geen remote exploits of ernstige bugs tot 2.4.21 zijn gefixt.

    Wat normaal is, aangezien er in Linuxkernel lang geen functie zat om een uptime van langer dan 497 dagen bekend te maken. Die functie zit er nog maar een jaar in.

    (windows 95 crashte trouwens automatisch na 49 dagen).

    Is GoT down? Ik krijg een 'HTTP-fout 403 - Verboden'-melding. ;(

    Got-samme, nu alweer volgens mij, want ik kom er maar niet op!

    Er staat in de status beschreven dat er een dual Opteron aankomt. Nu beginnen mijn oren gelijk te flapperen van enthousiastme :P
    Wanneer wordt zo'n beest verwacht?

    Waarom zijn Aphrodite & Athena down?
    En waarom werken er heel wat plaatjes niet http://www.tweakers.net/reviews/269 ?

    Waarom zeu je zo? :+

    Er staat in de status beschreven dat er een dual Opteron aankomt. Nu beginnen mijn oren gelijk te flapperen van enthousiastme
    Wanneer wordt zo'n beest verwacht?

    http://www.tweakers.net/plan/208

    ooit dat is een iets minder leuke zaak!

    RAID werkt niet, laatste backup mislukt... * 786562 jurrian

    Yep, in dat artikel staat o.a. deze zin:
    Vanzelfsprekend gaan we er voor zorgen dat dergelijke fouten in de toekomst niet meer zullen voorkomen. Samen met Kees zijn we al ongeveer een maand bezig met de ontwikkeling van een nieuw server plan,
    Blijkbaar is het nog steeds lastig om te controleren of de backup wel goed verloopt, want dit is dus de tweede maal dat er een probleem is met een backup.

    Het eerste wat je met het maken van een backup script/oplossing doet is het controleren of de data die gebackuped wordt ook weer terug te zetten is om zo een werkende situatie op te leveren, iets wat duidelijk niet gebeurd is, altans, niet recentelijk genoeg.

    Want het gaat niet om de laatste backup, maar om de laatste backups, een teken dat ze al lange tijd niet gecontrolleerd zijn.

    Niet echt goede reclame voor Tweakers.net lijkt me zo, juist van een site als deze mag je veronderstellen dat dit soort dingen goed geregeld zijn...
    «  1  2  3  4  5  6  7  8  »

    Op dit item kan niet meer gereageerd worden.

    Volgende 17:43
    Vorige 09:45
    VNU Media logo Powered by True

    © 1998 - 2008 Tweakers.net - Alle rechten voorbehouden

    Uitgever van: