Server Administrator

Feedback • 28-03-2007 16:12 130

Server- & netwerkstatusmeldingen

28-03-2007 • 16:12

Problemen met de servers en de netwerkverbinding van Tweakers.net worden in deze .plan gemeld. De laatste informatie over de serverloads en -uptimes kun je volgen op de Statusmeldingen

11-12-2006 En zojuist viel Artemis even helemaal uit, damn that Murphy

Artemis is uiteraard weer op z'n pootjes terug gezet en aan ons nu de taak om erachter te komen waarom dit gebeurde.

11-12-2006 Mocht je op dit moment verbinding met ons zoeken met behulp van een Planet Internet-verbinding dan hebben we medelijden met je

. De verbinding tussen True en Planet schijnt aan de kant van Planet brak te zijn waardoor het lijkt alsof Tweakers.net traag is, wat uiteraard niet het geval is. Wanneer dit opgelost zal worden weten wij helaas niet.

08-12-2006 00:50 Apollo had er ff geen zin meer in, al z'n mysqlverbindingen zaten vol waardoor de webservers weinig content meer hadden om door te geven, even mysql herstart en het werkt weer, al vragen we ons wel oprecht af waar de huge piek in de insertqueries vandaan komen, maar dat zoeken we morgen wel uit

25-11-2006 00:45 Goed, we zitten dus redelijk in de shit. MySQL blijkt niet in staat te zijn de database-dumps van deze middag op correcte wijze te importeren waardoor we terug hebben moeten grijpen op de backup van 04:00 uur 's ochtends. Dat houdt in dat alle forumposts sinds dat tijdstip verloren zijn gegaan. Andere tabellen zoals de topictabel zijn nog wel heel. Om het leed enigszins te verzachten hebben we goede hoop dat we een deel van de verloren postings alsnog kunnen herstellen uit een dump van 14:30 uur. Desondanks, grote suckage

Wederom een ongelofelijke samenloop van omstandigheden die onze zorgvuldige voorbereidingen teniet doet.

24-11-2006 22:35 Het forum ligt al sinds vanmiddag plat zoals velen al wel gemerkt hebben. Dit komt doordat de databaseserversoftware minder goed om bleek te kunen gaan met het losraken van de kabel die van de server naar de disk-array loopt. De puinhoop is alleen op te lossen door dezelfde procedure te doorlopen als die hieronder werd toegepast op Artemis. Dit kan gezien de grootte van de database nog wel enige tijd in beslag nemen en het verlies van enkele forumposts kan helaas niet worden uitgesloten.

06-11-2006 18:00-03:00 Zoals je misschien wel gemerkt hebt, heeft de frontpage van Tweakers.net er de hele avond uitgelegen. De reden hiervoor was dat aan het begin van de avond een onze oudste APC Masterswitch (veredeld stekkerblok) het begaf. Deze masterswitch voorzag een aantal servers van stroom. Onder deze servers was ook de enige database server in het rack zonder redundant voeding (iets wat op de planning staat om zeer binnenkort verholpen te worden). Deze database serveerde de data voor Frontpage, maar door een tweetal stroomonderbrekingen met enkele minuten speling was deze corrupt geraakt. Dit noodzaakte ons eerst tot het veilig stellen van de niet-corrupte data, en vervolgens het verwijderen van de oude bestanden en deze opnieuw aan te maken daar de database niet meer op de oude bestanden wilde draaien. Dit heeft al met al langer gekost dan ons lief was, maar de site is weer op.

02-11-2006 11:41 Op dit moment ondervinden gebruikers van het KPN netwerk (Planet, XS4All, etc.) problemen om onze website(s) te bezoeken. KPN heeft op het moment waarschijnlijk netwerkproblemen, waardoor onder andere verkeer van KPN naar True niet of slechts beperkt doorkomt. In ons serverpark draait alles (zoals je met eigen ogen kunt zien) naar behoren, ook bij True zijn er geen problemen bekend. Om nog onduidelijke redenen kun je dan waarschijnlijk wel op onze IRC server komen, dus helemaal verstoken van je tweakersvriendjes ben je niet.

27-09-2006 Voor degenen die ons zojuist even gemist hebben: dat klopt, blijbaar zijn er wat problemen met de stroom bij Redbus waardoor een deel van ons rack tijdelijk geen stroom kreeg, Het probleem is inmiddels gevonden en opgelost, het bleek om een van de UPS'en te gaan die door een softwarefout een tiende van een seconde te weinig stroom leverde. Voor degenen die niet geloven dat Redbus inderdaad gedeeltelijk down is (geweest) hebben we nog even een plaatje van de AMS-IX waarop een aardige dip te zien is

15-09-2006 Bij het aanpassen van een tabel op Artemis, hetgeen normaal maar enkele secondes zou moeten duren zonder dat iemand er last van heeft, besloten alle webservers collectief het spreekwoordelijke bijltje erbij neer te gooien en onder luid protestgeroep hun load naar hoge waarden te laten stijgen. Wij zijn op dit moment druk op zoek naar de oorzaak hiervan.

11-09-2006 Wegens werkzaamheden aan de loadbalancers waren zowel het forum als de frontpage een korte tijd minder goed bereikbaar.

28-08-2006 Door een zeldzaam voorkomende samenloop van omstandigheden lagen zowel de frontpage als het forum er enkelen minuten uit. Inmiddels is de bug gefixt die hiervoor zorgde, maar doordat de load op de webservers redelijk hoog was opgelopen duurde het even voor alles weer zichtbaar was.

19-08-2006 Apollo begint de hete adem van de nieuwe databaseserver in zijn nek te voelen ofzo, want de laatste tijd gaat hij gebukt onder aardig wat load, vandaar dat we besloten hebben om mysql even te herstarten om de caching en dergelijk weer fris te krijgen. Hierdoor kwam dus rond 13:25 even wat rare foutmeldinkjes voorbij van React die het daar niet eens mee was

07-08-06 Van die dingen die je nooit wilt zien:
hylke@aphaea:~$ uptime
13:58:59 up 138 days, 21:23, 2 users, load average: 62.77, 23.30, 16.46
Na even de frontpage uit te hebben gezet en de load wat te hebben laten dalen proberen we het nu weer opnieuw

18-07-06 Op dit moment ondervindt True een netwerkstoring waardoor onze servers helaas wat onbereikbaar zijn. Het kan dus zo zijn dat je van het forum/frontpage/IRC afgegooid wordt met een melding dat we onbereikbaar zijn. We hebben helaas nog geen ETA over wanneer dit probleem is opgelost.
Update 22:31 Op dit moment lijkt het al weer enige tijd stabiel

22-06-06 Het zal jullie vast zijn opgevallen: Apollo heeft weer besloten de handdoek in de ring te gooien. Het lijkt erop dat het kreng last heeft van geheugenproblemen, dit gaan we zo snel mogelijk uitzoeken. Tegelijkertijd worden de plannen om de server geheel te vervangen versneld uitgevoerd. De nieuwe Apollo belooft in ieder geval geheel nieuwe standaarden te gaan zetten qua monsterlijkheid

20-06-06 Nadat gistermiddag we ook al problemen met apollo hadden in combinatie met mySQL, besloot hij op dit onchristelijke tijdstip (03:17 uur) het bijltje er helemaal bij neer te gooien. Na een reboot werkt het allemaal weer.

01-06-06 Vanochtend besloten Aphaea en Astraeus dat ze de dnsgegevens niet meer geloofden, waardoor er wel verbindingen opgezet konden worden naar ze toe, maar ze zelf geen verbindingen terug konden leggen. Waardoor dus een aantal minuten er een melding is geweest dat de mysql server sliep, aangezien Aphaea en Astraeus op dit moment de meeste views voor ons verzorgen. Dit is inmiddels uiteraard gefixed.

24-04-06 Zojuist viel even beide websites weg, onze loadbalancer besloot dat de webservers geen pagina's mochten serveren, we zijn op dit moment nog op onderzoek wat het precies was.

18-04-06 We hebben tijdelijk de apache op arethusa onbereikbaar gemaakt omdat er enkele foutjes in de configuratie zaten en we daar nog wat testjes op uit willen voeren voor het weer online komt.
Omdat dit maar weinig invloed heeft voor de gebruikers, proberen we dit weliswaar vlot maar niet overhaast op te lossen. Dit heeft gevolgen voor irc.tweakers.net, faq.tweakers.net en crew.tweakers.net.
Update Inmiddels is het onderhoud klaar, en kan er gewoon weer gebruik gemaakt worden van bovenstaande url's

03-04-06 Bij het weghalen van een stel oude kabels in verband met het uit dienst nemen van Ares en Abaris hebben we blijkbaar een kabel aangeraakt waardoor de gotsearch (Aphrodite) geen verbinding meer heeft met de rest van het netwerk, helaas hebben we dit pas zojuist (16 uur) ontdekt waardoor we al lang en breed in Amersfoort zitten. Vanavond zal iemand even gaan kijken wat er aan de hand is en de situatie rechtzetten.
Update 19:25: Inmiddels is de kabel die het had aangedurft om te falen vervangen door een ander exemplaar.

02-04-06 Op dit moment lijkt het erop dat Arethusa(irc en crew ftp) er geen zin in heeft, veel verder dan het starten van lilo komen we niet, we zijn nog aan het onderzoeken wat precies het probleem is.
Update : Blijkbaar heeft Arethusa er totaal geen zin meer in, er zijn 3 verschillende kernels geprobeerd maar remote komen we geen stap verder. Aangezien we morgen toch al van plan waren om naar de colo te gaan om een aantal oude webservers uit het rek te halen, gaan we dan verder kijken. We denken dat er of iets mis is met de netwerkverbinding, of dat de hardeschijf stuk is, hetgeen vanzelf duidelijk zal worden met een knoppix cd.
Update2: Inmiddels heeft Kees Arethusa zover gekregen om hem weer te laten booten, morgen gaan we nog even wat dingen on-site nakijken dus dan zal irc en faq.tweakers.net & crew.tweakers.net er weer heel even uitliggen.

21-03-06 Update Het onderhoud is afgelopen en de loodzware 'oude' atlas ligt weer op het kantoor. De nieuwe atlas, aphrodite en een masterswitch konden de lege plek opvullen zodat het rack nu weer enigszins ruimte heeft voor als we in de toekomst weer meer servers nodig hebben.

21-03-06 Ondertussen is duidelijk dat de nieuwe Atlas geen rare kuren heeft. Ook hebben we ontdekt wat er mis was met de nieuwe Dual-Core Opteron's. Vooralsnog lijkt het er op dat Linux moeite heeft met de onboard SATA-controller (met Marvell chip), om die aan de praat te krijgen is een "highly experimental" kernelmodule nodig en die doet blijkbaar zijn waarschuwing eer aan. Daarom hebben we er nu een tweetal losse Adaptec SATA-kaartjes bij gekocht (met SIL chip), waarmee de beide servers wel stabiel zijn.
Vanmiddag gaan we daarom de nieuwe webservers (opnieuw) in het rack plaatsen en de oude Atlas ophalen. Nadat de oude Atlas uit het rack gehaald is zullen we de nieuwe Atlas en Aphrodite op de plek die dan vrijgekomen is plaatsen, zodat het rack weer een wat handigere indeling krijgt dan nu het geval is.

Dat laatste zal niet zonder downtime kunnen, maar we verwachten niet meer dan enkele minuten voor Atlas en een minuutje of tien voor Aphrodite (GoT-search).

08-03-06 Vanavond zullen we de nieuwste reincarnatie van Atlas definitief in gebruik nemen, dit houdt in dat de frontpage en de Gathering webservers even stilgelegd zullen worden zodat we de laatste files van de oude atlas naar de nieuwe atlas kunnen pompen. Verder zullen er een aantal links gelegd worden op het filesysteem van de verschillende servers zodat de files in het vervolg op de nieuwe Atlas geplaatst zullen worden. De volgende stap is Atlas uit het rack halen, maar dat stellen we nog even uit totdat we zeker weten dat de nieuwe Atlas geen rare kuren heeft

Update: De migratie van de oude atlas (liefdevol Atlas v3 genoemd in de wandelgangen) door zijn opvolger (Atlas v4) is succesvol verlopen, het enige wat er even mis ging was dat Abaris even de weg kwijtraakte naar de verschillende databaseservers, maar we hebben hem weer snel de juiste weg kunnen wijzen.

28-02-06 Vanmiddag zullen we wederom richting de colo vertrekken, dit keer om Anteros weer terug te plaatsen na een tijdje @ kantoor te hebben gelegen. Dit is nodig nadat we dachten dat de schijven stuk waren van Anteros, wat achteraf gezien niet zo bleek te zijn, het lag puur aan de kabels. Verder zal ook aphrodite (search database van GoT) even offline gaan om de raidkaart af te configureren(en een utp kabel erin te proppen) zodat we remote de status ervan uit kunnen lezen met snmp

. Verder zullen we uiteraard ook naar Astraeus kijken aangezien die op dit moment problemen heeft met zijn glibc waardoor we geeneens remote de bak meer kunnen booten.

07-02-06 Zojuist is de searchdatabase van Gathering of Tweakers verplaatst naar de nieuwste aanwinst in ons rek, Serverstatus (5 minuten vertraagd)

Vorige .plan Volgende .plan

Reacties (130)

-Moderatie-faq

130

Wijzig sortering

webfreakz.nl 7 februari 2006 14:50

Wat als Atropos nu uitvalt? En een hele server voor een search database?

Auteur

moto-moi @webfreakz.nl • 7 februari 2006 15:05

Wat als Atropos nu uitvalt?

Het is wel de bedoeling dat die het op zeer korte termijn het weer gaat doen, maar helaas groeien harddisks nog steeds niet onze achtertuin, dus we zitten even op een levering daarvan te wachten

Verder hebben we jaren met een one4net loadbalancer gedraait, en zo vaak gaan die dingen nou ook weer niet stuk

En een hele server voor een search database?

Ik gok dat meer dan de helft van de load op de oude atlas kwam door de search, dus een eigen server hiervoor is wel zinvol

ACM Software Architect @moto-moi • 7 februari 2006 16:11

Hou het gerust maar op meer dan 75 of zelfs 90% van de load van atlas.

En kijkend naar de specs en belasting van atlas zal je zien dat een dedicated search-server helemaal niet zo'n gek idee is

De "gecomprimeerde" versie van de Xapian-database voor GoT is momenteel 12GB en hoewel dat kwa aantal queries/sec laag belast wordt ivt de gewone SQL-database is het kwa zwaarte per query een heel ander verhaal.

TeeDee @webfreakz.nl • 7 februari 2006 15:08

Zouden er gevolgen moeten zijn dan als Atropos uitvalt? Volgens mij niet.
Atropos is 1 vd Loadbalancers... dan kunnen de gevolgen idd wel wat groter zijn

En een hele server voor een search db is wel het minste/makkelijkste wat men op GoT kan gebruiken om te zoeken. Ik neem aan dat jij ook wel weet hoe groot de DB's van alleen GoT al zijn. Als je die wil doorzoeken, dan wil je dat niet op een "shared" bak doen, maar een dedicated bak. Lekker zoveel mogelijk in de cache stoppen en gaan.

webfreakz.nl @TeeDee • 7 februari 2006 15:11

Ik heb géén idee hoe groot ze zijn...

BlackIce @webfreakz.nl • 7 februari 2006 15:50

Een redelijke tijd terug was er 10gb aan pure tekst. Best lastig te doorzoeken dus

Verwijderd @TeeDee • 3 maart 2006 17:38

Over Atropos... wat voor software gebruiken jullie eigenlijk voor de Load Balancing? Dat vroeg ik mij al een tijdje af...

DJSmiley 22 juni 2006 11:19

Volgens mij is MySQL weer in een middagdutje geraakt....

Pascal @DJSmiley • 22 juni 2006 11:21

tja, kan gebeuren

alleen nu weet ik nie wat ik moet doen @ werk/inet

DarthPlastic

@DJSmiley • 22 juni 2006 11:39

Germ, het beest laat n boertje

Kan een van de adjes hem gauw een klopje op de rug geven voor ie straks nog moet

Profidiam 1 juni 2006 16:34

Komt er nog een bericht over de huidige loadbalancer oplossing, of kunnen jullie daar wat meer info over geven?

Auteur

moto-moi @Profidiam • 2 juni 2006 01:04

Wat voor informatie zou je precies willen hebben?

Profidiam @moto-moi • 3 juni 2006 12:51

Gebruiken jullie een appliance of een andere oplossing?

Wat is die oplossing dan, welke software gebruiken jullie, wat is de strategie (weighted, etc ...)?

Ik had gewoon gehoopt van hierover eens een .plan te zien.

Auteur

moto-moi @Profidiam • 3 juni 2006 15:20

Gebruiken jullie een appliance of een andere oplossing?

We gebruiken lvs met een eigen webfrontend geprogrammeerd door kees

wat is de strategie (weighted, etc ...)?

We controlleren de webservers elke tig secondes om de load ervan te zien, aantal procs enzo wordt rekening mee gehouden waardoor we uiteindelijk een getal krijgen aan de hand waarvan we kunnen zien welke server het minste te doen heeft, en die krijgt dan de volgende hit(s).

Ik had gewoon gehoopt van hierover eens een .plan te zien.

Kees heeft het allemaal opgezet, dus als je het echt graag wilt kun je hem altijd mailen, zijn email-adres is vrij eenvoudig te raden denk ik

FlorisB 19 april 2006 19:18

Statusmeldingen

18-04-06 We hebben tijdelijk de apache op arethusa onbereikbaar gemaakt omdat er enkele foutjes in de configuratie zaten en we daar nog wat testjes op uit willen voeren voor het weer online komt.

Wat voor foutjes moet ik aan denken bij een apache config? Ik bedoel, veel kan er niet fout zijn aan een apache config.

Auteur

moto-moi @FlorisB • 19 april 2006 20:06

Ik zie er niet staan dat het om de apache config ging hoor ?

FlorisB @moto-moi • 21 april 2006 19:55

Grapjas

Verwijderd 8 maart 2006 14:13

Net zag ik in mijn FF RSS feed ook "Server en Statusmedlingen" maar toen ik erop klikte kwam ik bij "Tweakers.net Editor Login" ?

Niet dat ik in kon loggen...

Auteur

moto-moi @Verwijderd • 8 maart 2006 17:35

2 mogelijkheden:

Femme heeft kees en mij even getest op de snelheid waarmee we een backup terug konden zetten, en we zijn geslaagd \o/

Of Femme had per ongeluk mijn .plan gesloopt en het embargo er even opgegooit bij gebrek aan content, kies zelf maar eentje

Verwijderd 4 april 2006 09:35

Inmiddels is de kabel die het had aangedurft om te falen vervangen door een ander exemplaar.

"Failure is not an option"

pietje63 @Verwijderd • 6 april 2006 21:46

Ik wilde al zeggen, ik zal die kabel meteen ontslaan! Wat zeg ik op de brandstapel ermee.

Erycius 19 juni 2006 14:14

* Erycius wacht op een melding over de huidige databeest problemen

GoT Index » Error™
Error™

Er is iets fout gegaan. Probeer het later nog eens, of ga terug.

Er kon geen verbinding worden gemaakt met de MySQL database.
(interne identificatie: database::database::error_connect)

Valt me nu pas op: waarom staat er een TM achter die Error? :-)

TommyGun

@Erycius • 20 juni 2006 02:47

Maar idd, GoT is down. Mijn leven

Reinier 24 november 2006 21:10

Op Asclepius krijg je geen random meldingen te zien, op de andere webservers wel. Klopt het dat de webservers dus niet dezelfde software configuratie hebben?

crisp Senior Developer @Reinier • 24 november 2006 22:25

De rsync van asclepius werkt niet zo te zien waardoor ik de maintenance configuratie niet kan syncen

Verwijderd @crisp • 24 november 2006 22:34

balen, is voor jullie ook een gezellig avond zo.
na veel succes in ieder geval, zien het morgen
wel weer

XplodingForce @crisp • 24 november 2006 22:39

Mmm, * XplodingForce mompelt iets met murphy
Balen, succes.

XplodingForce @Reinier • 24 november 2006 22:11

Ja, da's best raar.
(dat zijn ook echt van die dingen die je alleen bij downtime op kunnen vallen...)

Gaitman

8 december 2006 23:13

08-12-2006 00:50 Apollo had er ff geen zin meer in, al z'n mysqlverbindingen zaten vol waardoor de webservers weinig content meer hadden om door te geven, even mysql herstart en het werkt weer, al vragen we ons wel oprecht af waar de huge piek in de insertqueries vandaan komen, maar dat zoeken we morgen wel uit

Nog uitgezocht?

Auteur

moto-moi @Gaitman • 10 december 2006 00:23

We verdenken de cronjobs die rond 12 uur 's nachts worden gestart, die dus aangepast zullen worden

The Ghost 8 februari 2006 19:22

Atlas draait bijna 1 jaar onafgebroken, tijd voor een verjaardags feestje lijkt mij

Op dit item kan niet meer gereageerd worden.

Reacties (130)

Sorteer op:

Weergave: