Hoofdcategorieën
Device Settings

Databasestoring legt registratiesysteem SIDN plat

Door Olaf van Miltenburg, dinsdag 30 november 2010 11:05
Submitter: pierino, views: 16.666

De SIDN kampt met diverse storingen waardoor geen domeinnamen kunnen worden aangevraagd. De stichting zag zich maandag genoodzaakt over te stappen op zijn fail-over-locatie, maar ook daar deden zich problemen voor.

Sinds half acht vanochtend kunnen registrars geen nieuwe .nl-domeinnamen registreren of wijzigingen in bestaande domeinnamen doorvoeren. Ook whois-opvragen zijn onmogelijk. De problemen bij de SIDN ontstonden maandag door haperingen die met de database in combinatie met de switch in het datacenter in Ede te maken hadden. Na een herstart van de database hield de switch er helemaal mee op, maar door de sneeuwval en de als gevolg daarvan ontstane files konden medewerkers niet snel bij het datacenter komen om de hardware te vervangen. Daarop werd besloten naar de fail-over-locatie over te schakelen.

"In eerste instantie ging dat goed en vannacht konden mensen weer domeinnamen registreren", vertelt Lycke Hoogeveen, woordvoerster van de SIDN. "Daarna trad Murphy's law echter in werking." De database van de backupsite raakte ontregeld door een kapotte harddisk. "We hebben helaas moeten constateren dat de monitoring ook niet goed werkte", aldus Hoogeveen.

De SIDN is momenteel de problemen aan het herstellen, waarna er een intaketest zal plaatsvinden. "Door de combinatie van problemen kunnen we nog niet zeggen wanneer alles weer naar behoren draait", zegt de woordvoerster. Er zou in ieder geval geen verlies van data zijn opgetreden.

Volgende 11:46 'LG Star heeft aangepaste Android 2.2-interface en hdmi'
Vorige 10:41 Palit verklapt releasedatum Nvidia GeForce GTX 570
Advertentie

Reacties

«  1  2  3  »

Het blijkt dat geen enkel systeem bestand is tegen murphy's law. Maar dat is ook de aard van de wet ;)

Murphy's Law: "If there are two or more ways to do something, and one of those ways can result in a catastrophe, then someone will do it."
Finagle's Law: "Anything that can go wrong, will"

Murphy's Law: Je kiest de verkeerde rij bij de supermarkt, waardoor iedereen om je heen eerder weg is dan jij
Finagle's Law: Je kiest de verkeerde rij bij de supermarkt, de kassa juffrouw ontdekt dat de kassa niet goed bliept, vervolgens scheurt je tas met boodschappen en kom je eindelijk buiten rijdt er net iemand met zijn auto tegen de jouwe...

Even een duidelijk vertaling :)

Ja, maar ik ben wel heel benieuwd of die kapotte harddik al langer in het systeem zat (dan lok je Murphy's Law ook wel uit) of dat die heel toevallig ook vandaag kapot is gegaan. Daarnaast hoort ook een backupserver in mijn ogen redundant uitgevoerd te zijn. Ik neem aan dat ze een soort wachtrij opzetten voor de aanvragen en dat alles nog steeds volgens 'First Come, First Get' wordt afgehandeld?

[Reactie gewijzigd door Xirt op dinsdag 30 november 2010 11:27]


Ze melden zelf al dat hun monitoring niet werkte dus de kans is heel groot dat die al kapot was.

LOL inderdaad, "de harddisk was kapot en de monitoring werkte niet". De hele SIDN database met domeinnamen op 1 harddiskje?!?

What's next? Straks alle domeinnamen weer vrij omdat de enige backup per ongeluk werd overschreven met de eruit geklapte versie? :)

Ik vermoed dat de meeste infra IT'ers hier al ergere dingen gezien hebben dan dat :p

Dit klinkt mij niet als Murph's law in de oren...

Wel héél erg toevallig dat de fail-over in zo'n kort tijdbestek ook kapot ging. En dan blijkbaar ook geen redundantie had voor een simpele kapotte harddisk? Uiterst twijfelachtig.

Klinkt eerder als gewoon heel erg slecht beheer. Failover die gewoon niet goed onderhouden wordt, en nooit getest wordt om te kijken of die zijn taak wel kan uitvoeren.

Ook Murphy's Law hoort wel eens te falen.. Anders klopt zijn eigen wet niet.. ;-)

kijk, als dan de boel plat gaat, heb je in ieder geval alles geprobeerd. Hier kan de PrulRail nog wat van leren

Als je hele failover cluster uitvalt door 1 kapotte disk? Dan heb je misschien alles geprobeerd... Maar dat zou toch niet mogen gebeuren... Ik neem aan dat het cluster waar naartoe over-ge-failt word ook in clustering staat...

Dat zegt een woordvoerder, wij (MKB bedrijfje) gebruiken nog geen non-raid config voor servers die uberhaubt geen local storage gebruiken, en wiens taken mochten ze uitvallen ook door andere servers kunnen worden overgenomen. Ik verwacht daar niets anders, dus een stukke RAID controller, plus misschien iets bezuinigd op redundantie in het cluster zelf voor een failover configuratie lijkt me waarschijnlijker. Als je er maar genoeg geld tegenaan gooit kan je alles up houden (tot op zekere hoogte).
Dit is overigen ook niet de eerste storing van SIDN, ik ben al een tijdje weer uit het hosting wereldje, maar 'kuch, rochel' in mijn tijd stoorden ze regelmatig, met name tijdens de migratie van v3 naar v4 (DRS3 naar DRS4 heet dat geloof ik).

van DRS4 naar DRS5 was ook geen verbetering ;-)

Niet? Sinds die invoering van DRS5 draait alles juist als een trein. Helemaal met EPP.

Alleen jammer dat het - als het plat gaat - ook goed plat gaat. ;)

Zelf ben ik met mijn eenmanszaak drie jaar deelnemer van de sidn geweest, na een kleine berekening was dat van alle kanten beter tenmiste... als alles werkte, heel kort gezegd wat een hel. Inmiddels alles overgezet naar TransIP, nu heb ik het honderd keer makkelijker. :)
Voor mij geen sidn meer, zelden zo'n maffe organisatie/stichting gezien waar het een zootje was! :X

Helaas dat SIDN alle .nl domeinen beheerd en TransIP alleen een registrar is waar je ze kan beheren.

Nu SIDN plat ligt kan niemand (waar dan ook ter wereld) meer .nl domeinen aanvragen, omdat deze allemaal via hun gaan. Als het goed is heeft TransIP een eigen queue staan, zodat het lijkt alsof het geregistreerd wordt, maar in werkelijkheid wachten ze nu gewoon tot de servers van SIDN weer online zijn om de registratie echt af te handelen.

Dat de organisatie van SIDN slecht is was al langer bekend, maar daarom is het ook niet meer mogelijk om direct bij hun domeinen te registreren.

Oh, meen je dat? :+ Jaja begrijp ik, maar nu kan ik gemakkelijker en sneller meerdere domeinnamen registeren. Ook kan ik nu andere extensies samen met een .nl naam in een klap registreren, yeah! :9

Het lijkt me sterk dat registrars dit nu in een queue plaatsen. Het is ook niet mogelijk om de beschikbaarheid te controleren, omdat die servers er ook uit liggen.

En toch is dit het geval :) Beschikbaarheid controleren is inderdaad niet mogelijk, maar waarom zou je ze dan niet kunnen queuen? TransIP gaf bij een eerdere storing zelfs aan dit te doen. Er zitten juridisch gezien wel wat haken en ogen aan en je klanten kijken je wel scheef aan als achteraf blijkt dat iemand je voor was, maar die kans is over het algemeen heel er gklein.

Beschikbaarheid is daarnaast ook te bepalen aan de hand van een DNS lookup, alhoewel dat natuurlijk niet 100% betrouwbaar is. Zelf gebruiken wij dit als alternatief bij dergelijke storingen, en tot nu toe geeft dat geen problemen.

Ter info; ik werk als programmeur de grootste shared webhosting leverancier van Nederland.

Ah vandaar dat de wijzigingen die ik vannochtend heb doorgevoerd zo lang duren. Dat is mooi vervelend zo'n storing. Wel typisch dat alles tegelijkertijd stuk gaat. Jammer maar helaas, ik wacht wel een tijdje langer. Het heeft toch geen haast.

Murphy weer, en hij nam zijn hele familie mee. Zo zie je maar, het ongeluk komt zelden alleen. Op zich weer een leuk leermoment voor de beheerders.

wanneer gaan ze die wet eigenlijk afschaffen ik begin er een beetje genoeg van te krijgen.

Ik zou zeggen, schrijf je favoriete partij om te vragen of ze een wetsvoorstel in willen dienen. Wie weet, misschien krijg je nog wel iemand zo ver.

Wat betreft het SIDN, het ziet er naar uit dat ze hun uiterste best hebben gedaan om de boel zsm op de rails te krijgen. Ze hadden gewoon pech.

Ik vermoed wel dat er wat beter getest zal worden in de nabije toekomst, maar te vermijden zal dit waarschijnlijk toch niet zijn geweest.

Ik zou zeggen, schrijf je favoriete partij om te vragen of ze een wetsvoorstel in willen dienen. Wie weet, misschien krijg je nog wel iemand zo ver.
Ik zie de PVV er nog wel toe in staat.

Laten we dan gelijk stemmen voor het afschaffen van de wet van behoud van energie en de zwaartekracht, scheelt weet 2 keer parlementaire rompslomp. :+

Dat zou wel een leuke 1 april grap zijn trouwens...

Het vervelende in dit soort situaties is ook dat je alleen maar er iets over hoort als daadwerkelijk alles mis gaat. Was de fail-over gewoon goed gegaan, dan had niemand er ooit iets over gehoord, dat er iets mis was. Daardoor kun je het idee krijgen dat men zijn zaakjes niet op orde heeft. IK vraag me af wat dit soort statistieken zijn bij inderdaad bedrijven als ProRail.

Was de fail-over gewoon goed gegaan, dan had niemand er ooit iets over gehoord, dat er iets mis was.
Nee inderdaad, omdat er, vanuit de gebruiker gezien, ook niks mis zou zijn. Storingen komen gewoon voor, daar kun je niks aan doen. Het afvangen van die storingen wel (meestal), zodat de klant gewoon zijn ding kan blijven doen.

Hoe graag ik ook mopper op de SIDN, het is niet zo dat er pas gecommuniceerd werd toen ze over wilden stappen naar de fail-over locatie:

29-11 16:17: Omdat er problemen zijn met het bijwerken van de physical standby database waardoor het ook niet mogelijk is een zonfile te genereren, zijn wij genoodzaakt onze primaire databaseprocessen te herstarten. Hierdoor zijn tijdelijk alle services niet beschikbaar. Wij verwachten dat alle services binnen 45 tot 60 minuten weer beschikbaar zijn.

29-11 17:14: De onderhoudswerkzaamheden vergen meer tijd dan vooraf is berekend. Hierdoor zijn wij genoodzaakt het onderhoudsvenster te verlengen. Wij informeren u via de registrarssite en per e-mail wanneer het onderhoudsvenster is afgerond.

29-11 18:54: Na het rebooten van de primaire database is er helaas een hardwareprobleem opgetreden. Deze hardware bevindt zich op een externe locatie, waardoor het in verband met de weersomstandigheden niet mogelijk is deze direct te vervangen. Wij zijn daarom parallel daaraan de procedure gestart om over te schakelen naar onze fail-over locatie. Op dit moment wordt gecontroleerd of de situatie stabiel is alvorens we naar de fail-over locatie overschakelen.
Binnen een uur zullen wij een update geven.

Er is dus wel duidelijk gecommuniceerd over de problemen, wat in het verleden nooit gebeurde (in de tijd van DRS3/4). Langzaam maar zeker leren ze dus wel iets ;)

Ze bedoelen waarschijnlijk Finagle's Law?

Even toepasslijk als Murphy's, imo ;)

Oracle staat hiermee ook aardig voor schut:
While restarting our database we have encountered an Oracle bug. Therefore the database crashes immediately. We're working on a work around.
Al zijn dit soort storingen altijd een combinatie van problemen, hoogst persoonlijk uitgevoerd door Murphy :'(

Ligt eraan... misschien was de bug gefixt in een patch die nog niet uitgerold is?!

"Unfortunately the patch for the Oracle bug didn't help. We're currently testing a work around and will know within 30 minutes if that works."
http://twitter.com/SIDN/status/9561953521369088

sinds wanneer stopt een server door een defecte harddisk?

Als de raid array niet kan rebuilden stopt misschien niet de server, maar wel de data stroom...

Een defect in een haddisk kan read/write errors geven op een database. In het geval van een goede raid array zou het echter niet lastig mogen zijn de defecte hdd uit te schakelen/te verwijderen (Raid 5 bijv) en de rest van de schijven door te laten draaien.
Enige dat dan rest is het herstarten van de database zelf en wellicht de server in geval dat de fouten in de schijf het besturingssysteem lieten crashen.

Een raid is ook geen garantie.
RAID werkt het beste als schijven helemaal stuk gaan. Schijven die af en toe een bitje laten vallen worden meestal niet gedetecteerd totdat het te laat is.

Voor omgevallen bitjes heeft Oracle dan weer zijn run time checks voor (mits aangezet en juiste licenties) of bijvoorbeeld tijdens het maken van backups. Dan is er data corruptie wat Oracle dan precies kan pin-pointen.
Met het gebruik van Oracle ASM voor storage redundantie op Oracle niveau, kan er dan niet corrupte data van een andere disk gelezen worden.

[Reactie gewijzigd door airell op dinsdag 30 november 2010 12:02]


Iemand anders schreef al dat een zekere Database leverancier wat uit heeft te leggen.

Voor omgevallen bitjes zijn er crc, sha1 en andere controles mogelijk. en op basis daarvan kunnen complete backup systemen volautomatisch ingeschakeld worden.

Kwestie van maatwerk :)

dat ligt eraan, welke disk, en hoe de diskfailover is geregeld en natuurlijk of de failover software correct werkt... vaak kom je daar op de lulligste momenten achter (nu dus)
«  1  2  3  »

Op dit item kan niet meer gereageerd worden.

Volgende 11:46 'LG Star heeft aangepaste Android 2.2-interface en hdmi'
Vorige 10:41 Palit verklapt releasedatum Nvidia GeForce GTX 570
VNU Media logo Hosted by True

© 1998 - 2012 Tweakers.net B.V. - Alle rechten voorbehouden - Contact - Jouw privacy - Algemene Voorwaarden

Uitgever van:

Website van het jaar 2011