Hoofdcategorieën
Device Settings

Server- & netwerkstatusmeldingen X

Door Daniel Kegel, donderdag 17 juni 2010 22:13, views: 25.234

 

Problemen met de servers en de netwerkverbinding van Tweakers.net worden in deze .plan gemeld. De laatste informatie over de serverloads en -uptimes kun je volgen op de statistiekenpagina.

*Statusmeldingen

* 17-06-10 Zoals je hebt kunnen merken hebben we er even een half uurtje uitgelegen. De oorzaak hiervan lag in het netwerk van onze hostingprovider, iets wat wij nog niet vaak meegemaakt hebben. We zijn er weer, en we hopen ook weer te blijven!

* 17-02-10 Dus het was stuk, geen idee wat er nu weer aan de hand was, maar na tig machines te hebben gereboot (nieuw load record gehaald trouwens, 10000!), alles stijf te hebben gescholden wat er maar voor handen was, hebben we nu weer een semi site. Nu alle kleine puntjes weer aflopen..

* 19-01-10 Goed, zoals jullie merken hebben we nog altijd geen afbeeldingen. Ons filesysteem weigert na een disk failure de aanwezige hotspare te gebruiken, en nu blijkt ook met een nieuwe schijf aan boord dat het geval het hardnekkig blijft vertikken op normale wijze een rebuildcyclus uit te voeren. De machine gedraagt zich dusdanig wazig en tegenstrijdig dat we op dit moment geen idee hebben waar de uiteindelijke oorzaak gezocht moet worden.

Terwijl de engineers van Dell trachten het systeem toch tot leven te wekken zijn wij bezig met het optuigen van een andere machine die tijdelijk de taken van athos kan overnemen. Omdat zolang het kreng bokt geen data van het filesysteem kunnen trekken zullen we hiervoor een backup moeten terugzetten. In ieder geval hopen we in de loop van de avond weer afbeeldingen te kunnen serveren.

* 18-01-10 ocfs2 veroorzaakt meer problemen. Vandaag is blijkbaar een van de harde schijven overleden, wat zo te merken voor ergere problemen zorgt dan we tot nog toe van dit iscsi-systeem "gewend" waren. Kees is druk bezig met in ieder geval een firmware-update, die ons door de Dell-supportafdeling is aanbevolen, versneld te installeren. Misschien dat dat wat helpt, morgen krijgen we de nieuwe disk.

* 18-01-10 Nouja, ocfs2 gaat nu voor de verandering eens niet over de zeik, maar de achterliggende bak, aka, athos, onze iscsi bak. Ben blij dat er atm op kantoor een vervanger ligt waar we mee bezig zijn, dit begint te irritant te worden. Dus alle problemen die je ziet, icoons die niet willen uploaden, missende plaatjes, search die brak is, je weet nu waar je je fanmail heen kan sturen :|

 

Volgende 06-'10 Nieuwe databaseserver op 23 juni - update
Vorige 06-'10 Tweakers.net geeft kaarten voor Hack in the Box weg - update

Reacties

«  1  2  3  4  5  »

Wow, dat is pittig, en vooral erg ruk (voor jullie met name)

Erg jammer dat de server dienst blijft weigeren. Toch maar eens kijken naar een andere opstelling?

Daar waren wij al mee bezig, maar de recente problemen maken dat steeds meer een haastklus. De vervangende server is er iig al en grotendeels geinstaleerd.

Haast is een ziekte. Gewoon rustig aan, goed eten en op tijd naar bed, morgen is er weer een dag. Niemand sterft, lijdt zelfs geen honger, door een paar dagen zonder TN. :)

OpenSolaris werkt als een trein ;) Installatie... 30 minuutjes ;)

Ohja vergeet niet te unplumben ;) (en IPv6 uitzetten op een netwerk wat het niet praat kan ook voordelen hebben)

[Reactie gewijzigd door Skinkie op woensdag 20 januari 2010 00:26]


als je de installatietijd als de tijd die een migratie van een serverpark naar een compleet ander systeem kost ziet getuigt dit van absoluut geen gevoel voor de werkelijkheid.

dat een installatie 30 minuten, 1 uur of 5 uur duurt maakt niet uit, dat je minimaal een half jaar aan het plannen, scenario schrijven, testen, herschrijven, hertesten en uiteindelijk implementeren lijkt een heel stuk realistischer.

Ik heb nog wel een IBM deathstar liggen, mogen jullie zo ophalen :)

Volgende oplossing toch maar van HP nemen ? O-)

Zelf ook een gelijkwaardige situatie meegemaakt, alleen ik ben alle data verloren (had nog wel een back-up). Dit was trouwens op HP hardware, dus persoon boven mij; HP of Dell het maakt niks uit, alles kan kapot. ;)

Hoop dat jullie snel weer de server weer online hebben, zonder verlies van data. :)

Succes

@ r.vd.essenburg

Meneer, uiteraard is het gezegde alles kan kapot zo. Echter is het wel bijzonder dat een simpele handeling zoals hotspares die de taken eigenlijk zonder problemen moeten overnemen, niet werkt. Het systeem is daar juist voor bedoeld en als dit vervolgens niet werkt, dan is dit in mijn ogen best wel jammer/zorgwekkend.

Echter is het wel bijzonder dat een simpele handeling zoals hotspares die de taken eigenlijk zonder problemen moeten overnemen, niet werkt. Het systeem is daar juist voor bedoeld en als dit vervolgens niet werkt, dan is dit in mijn ogen best wel jammer/zorgwekkend.
Exact. Het is juist de core functionaliteit van die bak om de array in stand te houden d.m.v. een failover systeem dat zeer gangbaar is, namelijk RAID. Als het dat al niet eens voor elkaar krijgt... Triest gewoon.

Waarom is er eigenlijk niet voor een eigen setup gekozen? Een (kale) Linux distro, software RAID, iSCSI serveren... lijkt me een veel makkelijker te debuggen setup namelijk. Nu hangt er een grote afhankelijkheid op de Dell bak/implementatie/software/support en dat is daarmee gelijk een 'extra' SPOF t.o.v. een eigen bak imo.

[Reactie gewijzigd door gertvdijk op dinsdag 19 januari 2010 17:43]


+1

Eigenlijk dacht ik min of meer hetzelfde. Maar ik wilde geen kritiek geven omdat het makkelijk praten is vanaf de zijlijn. O-)

Waarom is er eigenlijk niet voor een eigen setup gekozen? Een (kale) Linux distro, software RAID, iSCSI serveren... lijkt me een veel makkelijker te debuggen setup namelijk. Nu hangt er een grote afhankelijkheid op de Dell bak/implementatie/software/support en dat is daarmee gelijk een 'extra' SPOF t.o.v. een eigen bak imo.
Tsja, je gaat ervanuit dat iets hips als iscsi (wat we trouwens nog steeds vinden) hardwarematig meestal wel de voorkeur heeft tov. software. Alleen blijkbaar is er altijd iets mis als we storage willen hebben, de IBM die liep te kloten met z'n raidarray, nu dit graftakken ding, ik mag hopen dat ons nieuwe idee (opensolaris,zfs) beter gaat werken :/

Verder, spofs voorkomen is uiteraard tof, maar het moet wel enigzinds redelijk blijven qua prijs. Sowieso is dit iscsi gedrocht uitgevoerd met dubbele interfaces en zou 'ie -in theorie- niet stuk moeten kunnen. Blijkbaar lopen wij weer tegen een edgecase aan waardoor we zo'n ding in een paar dagen compleet aan de grond weten te krijgen. Mike Rowe zou trots op ons zijn :P

iSCSI is een prima protocol. En ben het zeker eens met moto-moi, redundantie is prima om je spofs zo min mogelijk te maken, maar je moet een bovengrens trekken en dat is bijna altijd de financiën. Je kunt een iSCSI systeem zo duur maken als jezelf wilt.
Toch blijf je afhankelijk van een stukje software, hoe redundant je het ook maakt. Het kan het iscsi protocol of de software van je raid controller zijn, het maak niks uit. Als je redundantie hebt, zit je vaak gebonden aan gelijke firmware versies, waardoor het andere stukje hardware precies dezelfde fout heeft als de originele hardware en je dus geen mogelijkheid hebt om terug te vallen op je back-up systeem.

Zoals eerder beschreven, heb ik een gelijkwaardige situatie meegemaakt en een firmware update zou dit moeten voorkomen (Vertelden de mensen van HP mijn achteraf). Maar mijn motto "if it's aint broken, don't fix it", was van toepassing voordat de boel op z'n gat ging. Ben hier nu wel iets op terug gekomen en lees nu wel altijd de release notes voor elke nieuwe firmware versie uitgebracht voor mijn hardware, om toekomstige problemen te voorkomen.

Maar ben heel blij met mijn back-up systeem, wat nog wel netjes heeft gelopen van die dag ervoor. :+

Zie nog geen status update van de huidige situatie van tweakers.net, succes mensen. Jullie zullen vannacht wel doorgaan, ik duik zo mijn nest in.

Tsja, je gaat ervanuit dat iets hips als iscsi (wat we trouwens nog steeds vinden) hardwarematig meestal wel de voorkeur heeft tov. software.
Waarom? Hip is geen argument. En iSCSI is niet iets wat alleen in hardware voorkomt.
ik mag hopen dat ons nieuwe idee (opensolaris,zfs) beter gaat werken :/
Dat wordt dan een software oplossing? Daar heb ik dan inderdaad meer vertrouwen in.
Verder, spofs voorkomen is uiteraard tof, maar het moet wel enigzinds redelijk blijven qua prijs. Sowieso is dit iscsi gedrocht uitgevoerd met dubbele interfaces en zou 'ie -in theorie- niet stuk moeten kunnen.
En wat als je zelf een bak samenstelt met gelijke specs in eigen config? Lijkt mij alleen maar goedkoper dan zo'n zeer specifiek product.
En stuk kan iets altijd gaan; het gaat om de oplosbaarheid wanneer een probleem optreedt. En juist dat is véél beperkter bij zo'n hardwarematige oplossing.

[Reactie gewijzigd door gertvdijk op woensdag 20 januari 2010 10:27]


hmmm, hardware is hardware. ze hebbe allemaal hun goede en kwade dagen.

veel sterkte met de problemen.

(ps: is de vervanger van athos eenzelfde beestje? zoja, misschien ook ff firmware update doen.... O-) )

Vast de laptops van de medewerkers in een cloud ofzo :+

Nee de iPods van de medewerkers in cloud! :D

Dat wil ik wel eens zien :P

[Reactie gewijzigd door robbert15 op dinsdag 19 januari 2010 23:14]


Nieuwe dag, ziet er goed uit, meeste plaatjes lijken weer te werken.
Opgelost? Of tijdelijke workaround?

http://twitter.com/keeshoekzema/status/7965192029
meeste plaatjes zouden weer moeten werken. Video's komen zo (die zijn ietsjes groter)

Volgens mij is er een nieuwe server ingericht voor levering van de pics en vids.
Oude athos wordt door Dell onder handen genomen in de martelkamer op het hoofdkantoor inmiddels? 8)7

Hmm Dell storage :+

Ik ben 4 jaar buitendienst monteur geweest om storage problemen en dergelijke op te lossen en ik durf wel te beweren dat Dell en IBM behoorlijk zuigen, met HP systemen ging ook weleens wat mis maar dat was tenminste te herstellen en meestal was het gewoon schijfjes vervangen.
IBM is helemaal een verhaal apart, ooit op een hele drukke server een schijf moeten rebuilden en toen liep alles in de soep, daarna zei IBM dat rebuilden maar niet meer vanuit het OS mocht en alleen vanuit de RAID manager waardoor je een paar uur downtime hebt, leuk spul hoor :P
De Dell's van nu zijn eigenlijk EMC spul met een andere sticketje dus daar is niet zoveel mis mee.

zou het voor zo'n centrale storage pool niet interessant zijn om Network storage te gebruiken. Een NAS van NetApp (FAS2050??) kost je vandaag de daag ook niet de kop, en je hebt geen OCFS meer nodig, maar zo;n doos kan direct NFS uitserveren.
en voor de betrouwbaarheid, deze dozen ondersteunen raid6 en backups kan je maken via een snapshot.
(Ik werk niet voor netapp !)
«  1  2  3  4  5  »

Op dit item kan niet meer gereageerd worden.

Volgende 06-'10 Nieuwe databaseserver op 23 juni - update
Vorige 06-'10 Tweakers.net geeft kaarten voor Hack in the Box weg - update
VNU Media logo Hosted by True

© 1998 - 2012 Tweakers.net B.V. - Alle rechten voorbehouden - Contact - Jouw privacy - Algemene Voorwaarden

Uitgever van:

Website van het jaar 2011