Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 150 reacties

  • 25-08 Als gevolg van problemen met de primaire NFS server, die een ketting-reactie op alle webservers veroorzaakte, is Tweakers.net gedurende een half uur niet beschikbaar geweest. Inmiddels is dit opgelost.

  • 09-08 Wederom ligt er een Fok!server uit, we hopen dit in de loop van de avond te kunnen oplossen. Inmiddels is dit opgelost, tevens is Ares gereanimeerd (een stekker voor de fans was losgeschoten) zodat ook hij weer volop kan meedoen.

  • 06-08 Aphrodite (de server van onder andere het Fok!Forum) is vanmiddag na een reboot niet weer tot leven gekomen. Marcel (van Trueserver) was toevallig in Telecity aanwezig en heeft het probleem voor ons verholpen, hartelijk dank Marcel .

  • 06-08 De server die de statische content voor GoT en Fok leverde was aan het bokken, hierdoor vielen er regelmatig plaatjes en CSS weg waardoor beide websites erg langzaam waren. Dit probleem is nu gevonden en opgelost (er was nog een oud scriptje aanwezig dat per abuis werd aangeroepen).


  • 4-08 Vanavond is de main fileserver (Atlas) eruit gevlogen, de webservers halen hun files nu van de backup webserver af, maar er ontbreekt dus nu niet alleen een fileserver, ook een webserver die toch een fors gedeelte van de requests voor zijn rekening nam heeft er de brui aan gegeven. Op dit moment zullen helaas de pagina's trager dan normaal op je beeldscherm verschijnen.
    Om de gebruikelijke vragen maar voor te zijn: Ja er is een failover mechanisme dat automagisch in werking treed bij dit soort gevallen, en Ja dat mechanisme heeft ook gewerkt, alleen duurt het tot 30 seconden voordat er van fileserver veranderd wordt. De loadbalancer doet ook nu weer uitstekend werk, zonder hem zou nu elke server plat zijn gegaan .


  • 24-07 Vanmiddag is de Boa webserver op Apollo, die onder andere de statische plaatjes en javascripts van het forum serveert, kortstondig down geweest. Het forum was daardoor moeilijk toegankelijk voor browsers die de onbereikbare afbeeldingen en javascripts niet lokaal of in een proxy hadden gecached.

  • 21-06 Om voor de geplande test met de door Parse ontwikkelde nieuwe forumsoftware wat meer serverpower te hebben zijn de twee extra servers die vorige week geplaatst zijn gisteren voorzien van AMD Athlon XP 2100+ processors. Nadat Blub en Flep (nee, dat hebben wij niet verzonnen ) hun taken als testserver vervuld hebben zullen ze als webserver in het serverpark worden opgenomen. De facultatieve upgrade van Artemis naar dual Athlon MP 2000+ heeft geen doorgang gevonden vanwege het feit dat de huidige indeling van het cabinet een snelle upgrade onmogelijk maakt.
    Deze upgrade zal nu plaatsvinden op het moment dat er toch downtime noodzakelijk is vanwege de verhuizing naar een dieper cabinet (90 cm ipv 80) en de plaatsing van twee nieuwe switches. Dit zal voor de verandering 's nachts plaatsvinden om de overlast tot een minimum te beperken.

  • 19-06 Naar aanleiding van eerder nieuws en de release van de exploit voor deze bug in Apache zijn vanavond (en gisteravond) alle webservers voorzien van een nieuwe Apache, PHP en ZendOpimizer instalatie. Tevens is getracht de MySQL up te graden naar 3.23.51 maar deze bleek dermate instabiel te zijn. Hierom blijft 2.23.49a op de servers draaien, deze versie draaide al meer dan 3 maanden uiterst stabiel op de servers. Dit geheel bracht een downtime met zich mee van een aantal minuten.

  • 07-06 10:20: De Dane-Elec artikel is op Slashdot.org. Uit voorzorg is een extra webserver toegevoegd aan de DNS van www.tweakers.net. Tweakers.net wordt nu geserveerd door drie webservers, een Tbird 1333, Tbird 1200 en een dual PIII-1000. We verwachten niet dat de extra traffic van Slashdot een negatieve invloed zal hebben op de performance van de site.

  • 18-05 1:37: Op dit moment vindt er onderhoud plaats aan de reactietabel waardoor het niet mogelijk is om reacties te plaatsen of te lezen. Het onderhoud is noodzakelijk in verband met wijzigingen aan de tabel en toekomstige wijzigingen in de scripts die de performance zullen verbeteren. Om 1:48 waren de reacties weer zichtbaar.

  • 16-05 22:00: Vanwege een paar corrupte tables is GoT platgegaan. Dankzij snel ingrijpen van Kees heeft het slechts een minuut of twintig geduurd.

  • 06-05 21:00: Als gevolg van de tragische aanslag op Fortuyn ondervindt Achelois, de GoT webserver, op dit moment een buitengewoon hoge traffic van 20 pageviews per seconde. De (Het was ook de masterswitch die er uit was, maar hij stootte er per ongeluk ook de uplink naar de 2e switch uit.)

  • 03-05 17:15: Aphrodite is inmiddels tot leven gewekt, waardoor het hele serverpark weer normaal operationeel is.

  • 03-05 15:15: Vanwege een stroomstoring in de Telecity-serverruimte waar de Tweakers.net-servers gehuisvest zijn is er tussen 13:00 en 13:30 vanmiddag een klein half uur downtime geweest. Op één server na (Aphrodite) draait alles nu weer zoals het hoort. Omdat Aphrodite nog plat ligt is het Fok!Forum helaas nog onbruikbaar. We proberen dit uiteraard zo snel mogelijk op te lossen.

  • 02-05 18:05: Gathering of Tweakers is op dit moment niet beschikbaar door problemen met de InnoDB database-software. Na het verwijderen van een ongebruikte tabel werd het ineens onmogelijk om nog stabiel te draaien. Het probleem wordt op dit moment onderzocht, mogelijk zijn enkele bestanden corrupt geraakt. 18:12: De database lijkt weer stabiel te zijn, voor de zekerheid worden de tabellen nog gecontroleerd voor het forum weer in de lucht gaat. 18:52: Inmiddels is GoT weer operationeel.

  • 27-04 14:15: Door een probleem met de adserver software was er vanmorgen sprake van zeer hoge load op Iris, Achelois en Atlas. Daardoor waren geen banners te zien en werden de pagina's traag geserveerd.

  • 05-04 Vanmiddag rond 15:00 uur wordt er weer onderhoud aan de servers en de switches gepleegd. Onder andere wordt de van TrueServer geleende 3Com switch weer vervangen door een eigen exemplaar. Tevens zal er een korte routinecheck worden uitgevoerd. De verwachte duur van dit onderhoud is één uur, en het kan dus zijn Tweakers.net en GoT vandaag tussen 15:00 en 16:00 af en toe onbereikbaar zijn.

  • Extreme Networks Alpina 3804 core-switch 21-03 15:45: TrueServer heeft een nieuwe Extreme Networks Alpine 3804 core-switch op TeleCity 2 geplaatst, die de huidige Summit4 zal vervangen. De Alpine heeft een vier keer zo snelle backplane van 32Gbps. Morgenvroeg om 9:30 zullen de verbindingen van de Summit4 overgezet worden op de Alpine.

  • 20-03 22:25: Zojuist werden we door TrueServer geïnformeerd dat de AMS-IX sinds 19:00 problemen heeft met packetloss naar een aantal peering partners op de verbinding tussen SARA en NikHef. Men probeert dit op te lossen door het verkeer te spreiden over de verbindingen. Het is onduidelijk of er providers zijn voor wie dit probleem relevant is voor de bereikbaarheid van Tweakers.net.

  • 18-03 20:30: Er waren wat performance problemen met Apache op Atlas als gevolg van access logging. Hierdoor werden de t.net pagina's die vanaf deze server werden opgeroepen erg traag geserveerd. Het probleem is opgelost.

  • 3com switch 16-03 Om 22:05 is onze switch vervangen door Marcel. Hij heeft om half tien de auto richting de serverruimte gepakt en heeft de oude (micronet) switch vervangen door een (tijdelijke) 24-poorts 3com. De problemen lijken nu opgelost te zijn. Onze grote dank gaat uit naar Marcel die dit op dit nachtelijke uur voor ons heeft willen doen, bedankt!

  • 16-03 Al een tijdje is Tweakers.net slecht bereikbaar, er is veel packetloss en mensen krijgen timeouts voor hun neus in plaats van webpagina's. De oorzaak ligt bij de uploadport op de switch, deze geeft erg veel fouten waardoor er packetloss ontstaat. Op het moment is het niet op afstand te repareren aangezien de interface op de switch niet tot erg slecht reageert. Komende maandag zal TrueServer de switch handmatig in de serverruimte resetten. Mocht deze maatregel niet genoeg zijn, dan zal er een managable 3com switch in het rack gehangen worden als vervanging van de huidige switch.

  • 12-03 15:45 tot 16:20: Artemis werd aangetroffen onder een zeer hoge load als gevolg van de ksoftirqd processen die alle CPU tijd opeisden. Na een afkoelperiode van ongeveer 5 minuten lukte het uiteindelijk om Artemis weer online te krijgen. Momenteel wordt de oorzaak van het probleem onderzocht. De temperatuur sensors melden een zeer hoge temperatuur van meer dan 60 graden Celsius. Ook lijkt de NMB voeding af en toe een steekje te laten vallen. Veel meer informatie is nog niet beschikbaar omdat Tyan haar moederbord van een niet al te bugvrije i2c chip heeft voorzien.

De huidige serverloads, uptimes en MySQL statussen kun je volgen op de Delen

Door Femme Taken

- Architect

Femme is in 1998 als oprichter met Tweakers begonnen en werkt tegenwoordig als ontwerper in het productteam van Tweakers. In de vrije tijd knutselt Femme fanatiek aan zijn domoticasysteem.

Moderatie-faq Wijzig weergave

Reacties (150)

1 2 3 ... 7
Na het verwijderen van een ongebruikte tabel werd het ineens onmogelijk om nog stabiel te draaien
Toch niet zo ongebruikt als gedacht? }> ;)
Die database was al een maand of 2-3 niet meer gebruikt en ook niet echt nodig...

Maarja, mysql ging ineens op zijn bek toen ik iets ala 'delete from tabel1' deed...
Met een hele serie crashes tot gevolg.
zijn er wel backups :? :)

edit:

heb het al gelezen, 'k was niet snel genoeg :)
Jahoor, die worden tegenwoordig dagelijks gemaakt :)
Die database heette toch niet backups he? ;)
'messages' kan nooit belangrijk zijn toch? :+ :P
BC4?

Denk het niet.
Sowieso zijn er vannacht nog werkende backup's gemaakt.
BC4?

Denk het niet.
Sowieso zijn er vannacht nog werkende backup's gemaakt.
Gelukkig maar :)
Gepost door veldmuizzz donderdag 2 mei 2002 - 18:21 Score: 1
zijn er wel backups
Ja dus

Maarre wat gaat er nu met die tabellen gebeuren?
We kunnen vanavond toch wel weer gewoon GoTten he ;) (addict jah)
hey Femme wat dacht je van wat babe-pics (je mag er zelfs van BMW tussenstppen :P) ipv vvan het 14 december spul....

alhoewel dan begint iedereen eerst spontaan F5 te rammen om de site plat te krijgen en daarna nog een F5-ram-sessie om die babes allemaal te zien :P
F5?

Refresh Machine is helaas naar het crewforum verplaatst :+

Daarmee hadden we 1 markplaats advertentie ff aan >270000 views geholpen...
:D :D

Maar is het dan slecht dat ze zo'n hoge load hadden, moeten ze daar niet gewoon tegen kunnen? (Heb niet zo'n verstand van servers hoor ;) )
Hoge load is nooit goed, of ze er tegen moeten kunnen is weer wat anders.

Services als Sendmail (mail deamon) zet zichzelf default uit als de load boven de 15 uit komt. En zo zijn er meer services die dat doen.

Het is gewoon zo dat het systeem waarschijnlijk te zwaar belast wordt (of dat er iets gelocked is en niet snel genoeg vrij gegeven wordt) als de load zo hoog is.

Een hoge load is dus vaak een indicatie van echte problemen.
Een hoge load is dus vaak een indicatie van echte problemen
Of een indicatie dat een patser bezig is MySQL te compileren en vergeet een nummertje mee te geven: make -j...

Doei server, sendmail plat (gelukkig nu Qmail, kan ik beter mee omgaan). Zelfs het routen naar mn printertje deed ie net niet meer (is gewoon ethernet, geen LPT)
Die eigen switch, welk merk is dat? (De oude) Micronet?
Nee, een level one niet-managable 16 poorts switch die hier thuis testwerkzaamheden ondesteunde :)

Plaatje:
http://athena.tweakers.net/images/7506

Het is de middelste.


Switch overzetten is makkelijk btw :)
Switch erin hangen, crossover naar de oude switch, en dan kabeltjes overpluggen :) maximale downtime is de tijd die je nodig hebt om je hand van het ene gat naar het andere te brengen (en eventueel een flinke ruk te geven zodat je ruimte genoeg hebt ;))
Jammer, heb je net gemist, ik was vanmiddag rond 17:00 ook nog bij Telecity in de Trueserver zaal :)
ik was 17:30 pas uitgeschreven :)

Heb jij een toetsenbord geleend? :)
KEES:

quote:
Switch overzetten is makkelijk btw

Switch erin hangen, crossover naar de oude switch, en dan kabeltjes overpluggen maximale downtime is de tijd die je nodig hebt om je hand van het ene gat naar het andere te brengen
unquote:

En de tijd die er nodig is om in de ARP/MAC/CAM tables van de switches te 'leren' dat een mac-address ineens is verhuist (en als er dingen als spanning-tree worden gebruikt duurt dit NOG langer) en kan het je zo 30+ tot evt. 60sec kosten.......
De hoogste uptime is 14 dagten volgens de stats page. Van 8 servers! Gemiddeld 10 dagen. Is wel erg weinig allemaal.

-edit-
Sterk argument van ACM, zie 2 posts verder.
Nog afgezien van de masterswitch die klapte denk ik dat er VEEL te veel gekeken wordt naar uptime.

Rebooten is _niet_ slecht. ongeplanned rebooten is verkeerd.

Als ik een keertje de colo in kom dan update ik meestan even de kernel, en geef de machines iig even een reboot, om de nieuwe kernel te controleren, en om te kijken of alle start scripts nog optimaal werken, om - in het geval dat er iets mis gaat - er op te kunnen vertrouwen dat een machine ook fatsoenlijk opstart als dat een keer remote moet gebeuren.

En ja, dan is de uptime van mijn servers ook voor allemaal 0 dagen.

een jaar uptime wil meestal inhouden dat je ook achter loopt met je kernel patches enzo (beveiliging.) In het geval van windows zou ik zelfs willen stellen dat degene met de langste uptime de grootste sukkel is (gezien alle beveiligings patches die geregeld uitgebracht worden, en die bij installatie allemaal een reboot vereisen)

Nogmaals, rebooten is niet slecht, als het maar gecontroleerd gebeurt, en niet omdat die bak uit zichzelf tegen de vlakte gaat.
Ja zo uiitgelegd is windows NT 4.0 het meest stabiele platvorm die er bestaat :+

Immers reboot de server elke dag, dan blijven zwaar belaste NT bakken ook wel draaien.

De grap van linux en unix is, dat je deze kan updaten zonder ooit te rebooten. Maar heeft natuurlijk als nadeel dat dit nogal diepgaande kennis van het systeem vereist. Echter op zo marnier is het wel degelijk mogelijk uptimes vaneen jaar of meer te behalen zonder achter te lopen met de beveiligin updates.
Da's onzin.

Unix/Linux systemen zijn opzich wel stabieler. Maar je platform moet je niet kiezen op grond van uptime.
Bovendien zal je zien dat heel zwaar belaste NT servers ook uit zichzelf onderuit gaan. Da's geen geplande reboot, maar een keiharde crash. Het is namelijk natuurlijk nog wel zo dat je NT server niet midden in productie tijd "geplanned" gereboot kan worden omdat de load een tikkie te hoog oploopt.

(Net zo goed is het op zijn minst een erg slecht teken om services waar het bedrijf gebruik van maakt geforceerd te moeten stoppen omdat de load te hoog gaat. Databases kunnen daar niet echt goed tegen bijv.)

Daarnaast moet je om - ook na een aantal maanden/jaren - je NT omgeving echt stabiel te houden, en zonder rare verschijnselen te krijgen echt wel wat meer van NT weten dan een beetje sleur en pleur.

De grens om met NT te werken is misschien wat lager, maar om _GOED_ met NT te werken moet je er ook heus wel wat dieper in duiken.

Maar wel opvallend dat er nu weer een wellis nietus spelletje ontstaat over wat beter is (NT/Unix) op grond van uptimes die "stabiliteit" zouden weer geven. Maar goed, NT kan ook uitstekend hele hoge uptimes halen als een beheerder het goed heeft opgezet. Alleen istie wel een enorme luie flikker omdattie verder geen onderhoud doet... Maarjah. da's dus een andere discussie en redelijk offtopic. Mijn ervaring in - vooral - de linux wereld is dat veel te veel "beheerders" bang zijn om de services asap te restoren door een reboot. Van Primair belang in mijn optiek is dat de diensten die de server voor het bedrijf aanbiedt zo'n hoog mogelijke beschikbaarheid hebben op de door het bedrijf gewenste tijdstippen, zowel nu als in de toekomst. Als ik kan kiezen tussen nu even een nieuwe kernel installeren en rebooten voor een check op de bootscripts, of een paar uur later van 100 km afstand en er achter komen dat het niet werkt... dan weet ik het wel.
Ze doen wel veel. Iig een stuk meer dan de servertjes en routertjes die de gem. tweaker thuis heeft staan... Vind het niet gek iig..
Niet zo gek he...

14 dagen geleden vond de Masterswitch het een goed idee het te begeven.
Oftewel al onze servers waren uit...
Chief, ik denk zelf ergens in de vakantie.. iig wanneer t.net wat minder word bezocht dan normaal :) anders krijgen de servertjes het moeilijk!
Chief, ik denk zelf ergens in de vakantie.. iig wanneer t.net wat minder word bezocht dan normaal anders krijgen de servertjes het moeilijk!
Eehm, dan hebben juist de meeste Tweakers vrij en dan wordt alles juist zo druk bezocht. Het is maar dan ook de vraag of de crewleden dan niet apart op vakantie gaan :o

Als ze het goed hebben geregeld, dan hebben ze tezamen vakantie en kunnen ze samen de servers modden naar de nieuwe cases :P

Als het aan mij ligt had ik liever gisteren dan vandaag alles in orde (en dan ook meteen de nieuwe frontpage van Tweakers.net gezien :P )

De verandering van de hardware is niet zoveel spectaculair te noemen :) :
Ze krijgen allemaal dezelfde hardware (moederbordjes, geheugen etc.) om ervoor te zorgen dat alle servers een "eenheid" vormen en makkelijker te onderhouden zijn :)

http://gathering.tweakers.net/showtopic.php/473353
Kleine screenshot van nieuwe hardware
Grote screenshot van de nieuwe hardware

:9~ :9~ :9~
Nice

Ik dacht dat ze alleen maar werden omgebouwd in andere kasten. Tweakers.net gaat er steeds beter op vooruit :D .

Hoelang zal tweakers.net wel niet plat liggen en de rest. Zal wel de nodige uurtjes zijn.
Ik ben benieuwd naar die .plan, dat zal me een grote worden! }>
Ja leuk dat er stroomuitval was, maar waarom was de boel nu down dan ?
Er was stroomuitval, en de generatoren waren niet aangegaan. Waarom weet ik ook niet.
edit:

op GoT schrijft Daniel:
[quote]
Tja, na 45 minuten was de UPS leeg, en de generator is blijkbaar niet aangegaan. En je kunt het wel kneuterig vinden, maar als een server niet uit zichzelf opnieuw up komt (en dat kan makkelijk gebeuren) moet het wel met de hand.
Er hangt bij de ingang van Telecity helaas geen grote knop 'alle servers up' :P
second hand info trouwens, dus ik sta niet in voor de correctheid :))
[/quote]
Er was stroomuitval, en de generatoren waren niet aangegaan. Waarom weet ik ook niet.
Da's minders, word dat niet regelmatig getest ?
Een static-switch zit NA de generatoren/UPS. Het is het apparaat wat er voor zorgt dat ALS de stroom van buitenaf uitvalt dat de stroom uit de UPS/generatoren komt.
Ja leuk dat er stroomuitval was, maar waarom was de boel nu down dan ?

omdat er geen stroom was?
omdat er geen stroom was?
Daar heb je dus UPS-en en generatoren voor.
Om voor elke server cq. colo een UPS te gaan gebruiken kost ook weer een boel ¤¤ en weer 1 tot 4 units van je colo. Dus dan moet het wel haalbaar zijn voor Telecity of de serverbeheerder(s) zelf :)
TeleCity heeft een onderzoek ingesteld naar de oorzaak van de stroomuitval. TrueServer zal ons daar over informeren als er nieuwe info bekend is.
Er was onderhoud aan de Static-Switches (stroom verdeler); en een engineer zette de verkeerde uit ipv aan... (waarschijnlijk), waardoor TrueServer, Interned Services, IO, NLhosting, BIT, AboveNet en nog een stel zonder stroom zaten in de colocatie.
ligt het aan mij of ligt GoT eruit? want bij mij doet die het niet
Bij mij ook niet, dus het zal wel niet aan jouw liggen. Trouwens, de tweakers fp is ook erg traag :).
Der zijn verschillende servers met een hoge load, Argus heeft zelfs meer dan 140 als load.
http://www.tweakers.net/etc.dsp?Action=Stats
Aha vandaar dat we enige tijd T.net voorgeschoteld kregen zoals ie op 14 december was :)
Artemis 56 min, load average: 1.11, 0.57, 0.57 24,0%
Gelukkig draaid alles weer !
Ja, ik dacht al dat het aan mijn verbinding lag, maar dat was dus niet zo.
Alles draaid nu weer :)

waarom is dat replication gebeuren niet aan eigenlijk?
Replication wil ik weer gaan draaien als de nieuwe database server voor Fok! in het rack komt te hangen.
Volgens mij wordt de NMB-voeding al een paar maanden niet meer gecertificeerd door Tyan...
Dat van die NMB voeding klopt, en het allerleukste is toch wel dat die NMB voeding uiteindelijk een eigen produktie van Tyan blijkt te zijn... :(
Er kan niet geupgrade worden zolang alle hardware nog niet binnen is en Kees niet is teruggekeerd uit Sri Lanka.
Wanneer gaan ze eigenlijk alles ombouwen is er al een datum gezet.
waarom is dat replication gebeuren niet aan eigenlijk?
Het nadeel van replication is dat het zichzelf nogal eens onderuit schopte.
En nog erger, als een van de twee databases erg instabiel was ging gelijk de replication mee onderuit.

Doordat het zo instabiel was is het verder niet meer aangezet.
Wat staat er nog meer gepland behalve het vervangen van die switch en wat wordt er verstaan onder routine checks?

En tot slot ;) Wie gaat ze uitvoeren, Kees?
Kees gaat dat inderdaad doen.

Routinechecks is toch wel duidelijk? :)
Gewoon kijken of de HD's geen enge geluiden maken, of de fans allemaal nog wel draaien etc etc.

En moet kees ook nog es de switch zo "stil mogelijk" vervangen :)
Maw zo snel mogelijk de patch kabeltjes versteken. Zodat het lijkt of er niks offline gaat :)

Succes kees :)
En moet kees ook nog es de switch zo "stil mogelijk" vervangen :)
== eruit trekken, zo snel mogelijk een nieuwe er in en hopen dat niemand het merkte ;)
1 2 3 ... 7

Op dit item kan niet meer gereageerd worden.



© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True