Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 130 reacties

Problemen met de servers en de netwerkverbinding van Tweakers.net worden in deze .plan gemeld. De laatste informatie over de serverloads en -uptimes kun je volgen op de Statusmeldingen

  • 11-12-2006 En zojuist viel Artemis even helemaal uit, damn that Murphy Artemis is uiteraard weer op z'n pootjes terug gezet en aan ons nu de taak om erachter te komen waarom dit gebeurde.

  • 11-12-2006 Mocht je op dit moment verbinding met ons zoeken met behulp van een Planet Internet-verbinding dan hebben we medelijden met je . De verbinding tussen True en Planet schijnt aan de kant van Planet brak te zijn waardoor het lijkt alsof Tweakers.net traag is, wat uiteraard niet het geval is. Wanneer dit opgelost zal worden weten wij helaas niet.

  • 08-12-2006 00:50 Apollo had er ff geen zin meer in, al z'n mysqlverbindingen zaten vol waardoor de webservers weinig content meer hadden om door te geven, even mysql herstart en het werkt weer, al vragen we ons wel oprecht af waar de huge piek in de insertqueries vandaan komen, maar dat zoeken we morgen wel uit

  • 25-11-2006 00:45 Goed, we zitten dus redelijk in de shit. MySQL blijkt niet in staat te zijn de database-dumps van deze middag op correcte wijze te importeren waardoor we terug hebben moeten grijpen op de backup van 04:00 uur 's ochtends. Dat houdt in dat alle forumposts sinds dat tijdstip verloren zijn gegaan. Andere tabellen zoals de topictabel zijn nog wel heel. Om het leed enigszins te verzachten hebben we goede hoop dat we een deel van de verloren postings alsnog kunnen herstellen uit een dump van 14:30 uur. Desondanks, grote suckage Wederom een ongelofelijke samenloop van omstandigheden die onze zorgvuldige voorbereidingen teniet doet.

  • 24-11-2006 22:35 Het forum ligt al sinds vanmiddag plat zoals velen al wel gemerkt hebben. Dit komt doordat de databaseserversoftware minder goed om bleek te kunen gaan met het losraken van de kabel die van de server naar de disk-array loopt. De puinhoop is alleen op te lossen door dezelfde procedure te doorlopen als die hieronder werd toegepast op Artemis. Dit kan gezien de grootte van de database nog wel enige tijd in beslag nemen en het verlies van enkele forumposts kan helaas niet worden uitgesloten.

  • 06-11-2006 18:00-03:00 Zoals je misschien wel gemerkt hebt, heeft de frontpage van Tweakers.net er de hele avond uitgelegen. De reden hiervoor was dat aan het begin van de avond een onze oudste APC Masterswitch (veredeld stekkerblok) het begaf. Deze masterswitch voorzag een aantal servers van stroom. Onder deze servers was ook de enige database server in het rack zonder redundant voeding (iets wat op de planning staat om zeer binnenkort verholpen te worden). Deze database serveerde de data voor Frontpage, maar door een tweetal stroomonderbrekingen met enkele minuten speling was deze corrupt geraakt. Dit noodzaakte ons eerst tot het veilig stellen van de niet-corrupte data, en vervolgens het verwijderen van de oude bestanden en deze opnieuw aan te maken daar de database niet meer op de oude bestanden wilde draaien. Dit heeft al met al langer gekost dan ons lief was, maar de site is weer op.

  • 02-11-2006 11:41 Op dit moment ondervinden gebruikers van het KPN netwerk (Planet, XS4All, etc.) problemen om onze website(s) te bezoeken. KPN heeft op het moment waarschijnlijk netwerkproblemen, waardoor onder andere verkeer van KPN naar True niet of slechts beperkt doorkomt. In ons serverpark draait alles (zoals je met eigen ogen kunt zien) naar behoren, ook bij True zijn er geen problemen bekend. Om nog onduidelijke redenen kun je dan waarschijnlijk wel op onze IRC server komen, dus helemaal verstoken van je tweakersvriendjes ben je niet.

  • 27-09-2006 Voor degenen die ons zojuist even gemist hebben: dat klopt, blijbaar zijn er wat problemen met de stroom bij Redbus waardoor een deel van ons rack tijdelijk geen stroom kreeg, Het probleem is inmiddels gevonden en opgelost, het bleek om een van de UPS'en te gaan die door een softwarefout een tiende van een seconde te weinig stroom leverde. Voor degenen die niet geloven dat Redbus inderdaad gedeeltelijk down is (geweest) hebben we nog even een plaatje van de AMS-IX waarop een aardige dip te zien is

  • 15-09-2006 Bij het aanpassen van een tabel op Artemis, hetgeen normaal maar enkele secondes zou moeten duren zonder dat iemand er last van heeft, besloten alle webservers collectief het spreekwoordelijke bijltje erbij neer te gooien en onder luid protestgeroep hun load naar hoge waarden te laten stijgen. Wij zijn op dit moment druk op zoek naar de oorzaak hiervan.

  • 11-09-2006 Wegens werkzaamheden aan de loadbalancers waren zowel het forum als de frontpage een korte tijd minder goed bereikbaar.

  • 28-08-2006 Door een zeldzaam voorkomende samenloop van omstandigheden lagen zowel de frontpage als het forum er enkelen minuten uit. Inmiddels is de bug gefixt die hiervoor zorgde, maar doordat de load op de webservers redelijk hoog was opgelopen duurde het even voor alles weer zichtbaar was.

  • 19-08-2006 Apollo begint de hete adem van de nieuwe databaseserver in zijn nek te voelen ofzo, want de laatste tijd gaat hij gebukt onder aardig wat load, vandaar dat we besloten hebben om mysql even te herstarten om de caching en dergelijk weer fris te krijgen. Hierdoor kwam dus rond 13:25 even wat rare foutmeldinkjes voorbij van React die het daar niet eens mee was

  • 07-08-06 Van die dingen die je nooit wilt zien:
    hylke@aphaea:~$ uptime
    13:58:59 up 138 days, 21:23, 2 users, load average: 62.77, 23.30, 16.46

    Na even de frontpage uit te hebben gezet en de load wat te hebben laten dalen proberen we het nu weer opnieuw

  • 18-07-06 Op dit moment ondervindt True een netwerkstoring waardoor onze servers helaas wat onbereikbaar zijn. Het kan dus zo zijn dat je van het forum/frontpage/IRC afgegooid wordt met een melding dat we onbereikbaar zijn. We hebben helaas nog geen ETA over wanneer dit probleem is opgelost.
    Update 22:31 Op dit moment lijkt het al weer enige tijd stabiel

  • 22-06-06 Het zal jullie vast zijn opgevallen: Apollo heeft weer besloten de handdoek in de ring te gooien. Het lijkt erop dat het kreng last heeft van geheugenproblemen, dit gaan we zo snel mogelijk uitzoeken. Tegelijkertijd worden de plannen om de server geheel te vervangen versneld uitgevoerd. De nieuwe Apollo belooft in ieder geval geheel nieuwe standaarden te gaan zetten qua monsterlijkheid .

  • 20-06-06 Nadat gistermiddag we ook al problemen met apollo hadden in combinatie met mySQL, besloot hij op dit onchristelijke tijdstip (03:17 uur) het bijltje er helemaal bij neer te gooien. Na een reboot werkt het allemaal weer.

  • 01-06-06 Vanochtend besloten Aphaea en Astraeus dat ze de dnsgegevens niet meer geloofden, waardoor er wel verbindingen opgezet konden worden naar ze toe, maar ze zelf geen verbindingen terug konden leggen. Waardoor dus een aantal minuten er een melding is geweest dat de mysql server sliep, aangezien Aphaea en Astraeus op dit moment de meeste views voor ons verzorgen. Dit is inmiddels uiteraard gefixed.

  • 24-04-06 Zojuist viel even beide websites weg, onze loadbalancer besloot dat de webservers geen pagina's mochten serveren, we zijn op dit moment nog op onderzoek wat het precies was.

  • 18-04-06 We hebben tijdelijk de apache op arethusa onbereikbaar gemaakt omdat er enkele foutjes in de configuratie zaten en we daar nog wat testjes op uit willen voeren voor het weer online komt.
    Omdat dit maar weinig invloed heeft voor de gebruikers, proberen we dit weliswaar vlot maar niet overhaast op te lossen. Dit heeft gevolgen voor irc.tweakers.net, faq.tweakers.net en crew.tweakers.net.
    Update Inmiddels is het onderhoud klaar, en kan er gewoon weer gebruik gemaakt worden van bovenstaande url's

  • 03-04-06 Bij het weghalen van een stel oude kabels in verband met het uit dienst nemen van Ares en Abaris hebben we blijkbaar een kabel aangeraakt waardoor de gotsearch (Aphrodite) geen verbinding meer heeft met de rest van het netwerk, helaas hebben we dit pas zojuist (16 uur) ontdekt waardoor we al lang en breed in Amersfoort zitten. Vanavond zal iemand even gaan kijken wat er aan de hand is en de situatie rechtzetten.
    Update 19:25: Inmiddels is de kabel die het had aangedurft om te falen vervangen door een ander exemplaar.

  • 02-04-06 Op dit moment lijkt het erop dat Arethusa(irc en crew ftp) er geen zin in heeft, veel verder dan het starten van lilo komen we niet, we zijn nog aan het onderzoeken wat precies het probleem is.
    Update : Blijkbaar heeft Arethusa er totaal geen zin meer in, er zijn 3 verschillende kernels geprobeerd maar remote komen we geen stap verder. Aangezien we morgen toch al van plan waren om naar de colo te gaan om een aantal oude webservers uit het rek te halen, gaan we dan verder kijken. We denken dat er of iets mis is met de netwerkverbinding, of dat de hardeschijf stuk is, hetgeen vanzelf duidelijk zal worden met een knoppix cd.
    Update2: Inmiddels heeft Kees Arethusa zover gekregen om hem weer te laten booten, morgen gaan we nog even wat dingen on-site nakijken dus dan zal irc en faq.tweakers.net & crew.tweakers.net er weer heel even uitliggen.

  • 21-03-06 Update Het onderhoud is afgelopen en de loodzware 'oude' atlas ligt weer op het kantoor. De nieuwe atlas, aphrodite en een masterswitch konden de lege plek opvullen zodat het rack nu weer enigszins ruimte heeft voor als we in de toekomst weer meer servers nodig hebben.

  • 21-03-06 Ondertussen is duidelijk dat de nieuwe Atlas geen rare kuren heeft. Ook hebben we ontdekt wat er mis was met de nieuwe Dual-Core Opteron's. Vooralsnog lijkt het er op dat Linux moeite heeft met de onboard SATA-controller (met Marvell chip), om die aan de praat te krijgen is een "highly experimental" kernelmodule nodig en die doet blijkbaar zijn waarschuwing eer aan. Daarom hebben we er nu een tweetal losse Adaptec SATA-kaartjes bij gekocht (met SIL chip), waarmee de beide servers wel stabiel zijn.
    Vanmiddag gaan we daarom de nieuwe webservers (opnieuw) in het rack plaatsen en de oude Atlas ophalen. Nadat de oude Atlas uit het rack gehaald is zullen we de nieuwe Atlas en Aphrodite op de plek die dan vrijgekomen is plaatsen, zodat het rack weer een wat handigere indeling krijgt dan nu het geval is.

    Dat laatste zal niet zonder downtime kunnen, maar we verwachten niet meer dan enkele minuten voor Atlas en een minuutje of tien voor Aphrodite (GoT-search).

  • 08-03-06 Vanavond zullen we de nieuwste reincarnatie van Atlas definitief in gebruik nemen, dit houdt in dat de frontpage en de Gathering webservers even stilgelegd zullen worden zodat we de laatste files van de oude atlas naar de nieuwe atlas kunnen pompen. Verder zullen er een aantal links gelegd worden op het filesysteem van de verschillende servers zodat de files in het vervolg op de nieuwe Atlas geplaatst zullen worden. De volgende stap is Atlas uit het rack halen, maar dat stellen we nog even uit totdat we zeker weten dat de nieuwe Atlas geen rare kuren heeft
    Update: De migratie van de oude atlas (liefdevol Atlas v3 genoemd in de wandelgangen) door zijn opvolger (Atlas v4) is succesvol verlopen, het enige wat er even mis ging was dat Abaris even de weg kwijtraakte naar de verschillende databaseservers, maar we hebben hem weer snel de juiste weg kunnen wijzen.

  • 28-02-06 Vanmiddag zullen we wederom richting de colo vertrekken, dit keer om Anteros weer terug te plaatsen na een tijdje @ kantoor te hebben gelegen. Dit is nodig nadat we dachten dat de schijven stuk waren van Anteros, wat achteraf gezien niet zo bleek te zijn, het lag puur aan de kabels. Verder zal ook aphrodite (search database van GoT) even offline gaan om de raidkaart af te configureren(en een utp kabel erin te proppen) zodat we remote de status ervan uit kunnen lezen met snmp . Verder zullen we uiteraard ook naar Astraeus kijken aangezien die op dit moment problemen heeft met zijn glibc waardoor we geeneens remote de bak meer kunnen booten.

  • 07-02-06 Zojuist is de searchdatabase van Gathering of Tweakers verplaatst naar de nieuwste aanwinst in ons rek, Serverstatus (5 minuten vertraagd)

  • Moderatie-faq Wijzig weergave

    Reacties (130)

    1 2 3 ... 7
    Wat als Atropos nu uitvalt? En een hele server voor een search database? :o
    Wat als Atropos nu uitvalt?
    Het is wel de bedoeling dat die het op zeer korte termijn het weer gaat doen, maar helaas groeien harddisks nog steeds niet onze achtertuin, dus we zitten even op een levering daarvan te wachten :)

    Verder hebben we jaren met een one4net loadbalancer gedraait, en zo vaak gaan die dingen nou ook weer niet stuk :)
    En een hele server voor een search database?
    Ik gok dat meer dan de helft van de load op de oude atlas kwam door de search, dus een eigen server hiervoor is wel zinvol :)
    Hou het gerust maar op meer dan 75 of zelfs 90% van de load van atlas.

    En kijkend naar de specs en belasting van atlas zal je zien dat een dedicated search-server helemaal niet zo'n gek idee is :)

    De "gecomprimeerde" versie van de Xapian-database voor GoT is momenteel 12GB en hoewel dat kwa aantal queries/sec laag belast wordt ivt de gewone SQL-database is het kwa zwaarte per query een heel ander verhaal.
    Zouden er gevolgen moeten zijn dan als Atropos uitvalt? Volgens mij niet.
    Atropos is 1 vd Loadbalancers... dan kunnen de gevolgen idd wel wat groter zijn ;)

    En een hele server voor een search db is wel het minste/makkelijkste wat men op GoT kan gebruiken om te zoeken. Ik neem aan dat jij ook wel weet hoe groot de DB's van alleen GoT al zijn. Als je die wil doorzoeken, dan wil je dat niet op een "shared" bak doen, maar een dedicated bak. Lekker zoveel mogelijk in de cache stoppen en gaan.
    Ik heb géén idee hoe groot ze zijn...
    Een redelijke tijd terug was er 10gb aan pure tekst. Best lastig te doorzoeken dus ;)
    Over Atropos... wat voor software gebruiken jullie eigenlijk voor de Load Balancing? Dat vroeg ik mij al een tijdje af...
    Op Asclepius krijg je geen random meldingen te zien, op de andere webservers wel. Klopt het dat de webservers dus niet dezelfde software configuratie hebben?
    De rsync van asclepius werkt niet zo te zien waardoor ik de maintenance configuratie niet kan syncen
    balen, is voor jullie ook een gezellig avond zo.
    na veel succes in ieder geval, zien het morgen
    wel weer :)
    Mmm, * XplodingForce mompelt iets met murphy
    Balen, succes.
    Ja, da's best raar.
    (dat zijn ook echt van die dingen die je alleen bij downtime op kunnen vallen...)
    Zo, dat was daarnet ff een flinke storing :o
    No shit; zowel E als F lagen eruit voor een zeer korte tijd.
    Niet helemaal volgens mij, een aantal servers hebben deze powerfailure overleefd, het lijkt erop dat een van onze voedingslijnen eruit heeft gelegen.
    Yup, lekker dikke storing en dikke chaos. Een rotte APC fzo.
    http://www.webwereld.nl/ref/rss/43067
    Mijn server ligt er ook nog steeds uit ;(
    Heb je geen remote restart of restart bij powerloss?
    Uiteraard wel :)
    En alle servers kwamen ook netjes up, alleen mysql houdt niet zo van keihard uitgezet worden en wilde eerst zijn schijven controlleren :)
    Als 'ie op F1 staat, wil ik 'm wel voor je aanzetten maar dan moet je wel ff een kastcode genereren. :+
    Volgens mij is MySQL weer in een middagdutje geraakt....
    tja, kan gebeuren :P alleen nu weet ik nie wat ik moet doen @ werk/inet |:(
    Germ, het beest laat n boertje :+

    Kan een van de adjes hem gauw een klopje op de rug geven voor ie straks nog moet :r ? ;)
    Beetje vreemd. Volgens mij heb je geen last vanaf planet als tweakers..et toch echt zelf down is geweest.
    SQL server niet bereikbaar of ligt te slapen als boodschap. Beetje vreemd dat deze info nergers verwerkt word. Zo kan ik ook aan een uptime van 100% komen. Gewoon de boel verdraaien heet dat.
    Uhm...
    Dat van planet en die SQL server waren 2 verschillende problemen.
    Waar staat ergens dat tweakers.net een uptime van 100% heeft?
    99.8% uptime zitten we over de laatste 31 dagen volgens nagios ;)

    En verder zijn dit 2 aparte problemen geweest en heeft Artemis er welgeteld 10 minuten uitgelegen, i.t.t. Planet dat al in ieder geval 2 dagen lang problemen heeft :)
    Als ik dit allemaal nu lees, krijg ik echt wel de indruk dat servers en dergelijke helemaal niet stabiel zijn en om de haverklap crashen :s Zijn die dingen en hun software nu net niet gebouwd om super stabiel en betrouwbaar te zijn?
    Zijn die dingen en hun software nu net niet gebouwd om super stabiel en betrouwbaar te zijn?
    Jazeker, maar onze servers staan dag en nacht aan, en hebben een vrij behoorlijke load, iets wat niet te vergelijken valt met een thuisservertje. En echt instabiel is het niet, we hebben alleen wat capaciteitprobleempjes op Artemis die we binnenkort gaan oplossen.
    Hoe komt die load eigenlijk zo hoog op het moment? Ik zie al een tijdje de webservers met een load tussen de 1 en de 2. Dat lijkt me toch voor continu gebruik nogal aan de hoge kant? Ook Artemis is van tijd tot tijd aardig druk. Heeft dat allemaal nog te maken met de after-merge-url-herparsing?
    React 1.9.4 en de nieuwe pricewatch eisen op dit moment wat veel van de webservers, al moet je niet vergeten dat al onze webservers smp machines zijn, en dus pas bij een load 2.0 hun theoretische top hebben.
    Daar heb je natuurlijk een punt. BTW, jullie doen echt een prima job om heel die set-up mooi draaiende te houden hoor :Y)
    Komt er nog een bericht over de huidige loadbalancer oplossing, of kunnen jullie daar wat meer info over geven?
    Wat voor informatie zou je precies willen hebben? :)
    Gebruiken jullie een appliance of een andere oplossing?

    Wat is die oplossing dan, welke software gebruiken jullie, wat is de strategie (weighted, etc ...)?

    Ik had gewoon gehoopt van hierover eens een .plan te zien.
    Gebruiken jullie een appliance of een andere oplossing?
    We gebruiken lvs met een eigen webfrontend geprogrammeerd door kees
    wat is de strategie (weighted, etc ...)?
    We controlleren de webservers elke tig secondes om de load ervan te zien, aantal procs enzo wordt rekening mee gehouden waardoor we uiteindelijk een getal krijgen aan de hand waarvan we kunnen zien welke server het minste te doen heeft, en die krijgt dan de volgende hit(s).
    Ik had gewoon gehoopt van hierover eens een .plan te zien.
    Kees heeft het allemaal opgezet, dus als je het echt graag wilt kun je hem altijd mailen, zijn email-adres is vrij eenvoudig te raden denk ik O-) :P
    jeuh, en toen waren alle posts sinds gisteren weg zo te zien? beetje jammer :'( :P
    Maar de topic titels en pagina's zijn er nog wel.
    Dat is lijkt mij niet helemaal de bedoeling. ;)
    De topicstabel is wel correct teruggehaald. De posts tabel is een oudere backup. Topics en posts zijn dus niet helemaal gelijk waardoor er topics zijn zonder posts.
    zo te zien hebben ze nog ergens een backupje gevonden... zie nu weer posts van vrijdag 14:30 :P
    Statusmeldingen

    18-04-06 We hebben tijdelijk de apache op arethusa onbereikbaar gemaakt omdat er enkele foutjes in de configuratie zaten en we daar nog wat testjes op uit willen voeren voor het weer online komt.
    Wat voor foutjes moet ik aan denken bij een apache config? Ik bedoel, veel kan er niet fout zijn aan een apache config. :+
    Ik zie er niet staan dat het om de apache config ging hoor ? ;)
    1 2 3 ... 7

    Op dit item kan niet meer gereageerd worden.



    Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

    © 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True