Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Je kunt ook een cookievrije versie van de website bezoeken met minder functionaliteit. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , reacties: 61, views: 22.731 •

Microsoft heeft de problemen met SkyDrive, Hotmail en Outlook opgelost. De oorzaak lag bij een snelle stijging van de temperatuur in een datacenter, na een mislukte firmware-update bij een centraal onderdeel. De storing duurde uiteindelijk 16 uur.

Outlook.comWoensdagochtend meldde Microsoft op zijn statuspagina dat gebruikers problemen konden ervaren bij de toegang tot Outlook.com en Hotmail, terwijl ook onlineopslagdienst SkyDrive enige tijd onbruikbaar was. De problemen zijn inmiddels verholpen en Microsoft geeft op zijn Outlook Blog details over wat er mis ging.

"In de namiddag van 12 maart voerden we zoals gebruikelijk een firmware-update uit bij een core-onderdeel van een van onze datacenters", schrijft de Nederlander Arthur de Haan, die bij Microsoft de functie vice-president van de Windows Live Test and Service Engineering-afdeling bekleedt. Het zou om een update gaan die voorheen nooit tot problemen leidde, maar die nu onverwacht fout ging.

"De fout zorgde voor een snelle en substantiële stijging van de temperatur in het datacenter", aldus De Haan. Door de hittestijging werden bij veel servers in het rekencentrum automatisch beveiligingsmaatregelen in werking gezet, waarna toegang tot de Hotmail- en Outlook-postvakken niet meer mogelijk was. Ook konden andere delen van Microsofts infrastructuur de werking niet overnemen.

Een van de redenen waarom de storing zo lang duurde was dat menselijk ingrijpen noodzakelijk was, iets wat volgens De Haan 'niet de norm' bij dergelijke diensten van Microsoft is. Microsoft zegt niet hoeveel gebruikers getroffen werden door de storing, maar niet iedere gebruiker had er last van. Het was de derde grote storing in een halfjaar die Hotmail- en Outlook.com-gebruikers treft en het gebeurde op een moment dat Microsoft Hotmail-gebruikers automatisch overzet naar de Outlook-maildienst.

Reacties (61)

Opgelost? Ik krijg anders nog steeds de melding: "Kan op dit moment geen verbinding maken met Hotmail. Probeer het later opnieuw."
Flush je DNS cache ;)
Ik heb de afgelopen week totaal geen problemen gehad met hotmail/outllook. Via m'n PC en ook op m'n telefoon kon ik de website gewoon benaderen. Ook de mail app op m'n HTC kon gewoon alle mails ophalen.
Gefeliciteerd dan maar? Je bent kennelijk die 'niet iedere gebruiker' uit het nieuws.
Microsoft zegt niet hoeveel gebruikers getroffen werden door de storing, maar niet iedere gebruiker had er last van.
Nouja, het is fijn om te weten dat dat gedeelte dus inderdaad waar is. Het is nog afwachten hoeveel mensen er daadwerkelijk last van hebben gehad, maar moet zeggen dat ze aardig wat informatie bieden over wat er nou precies aan de hand was.
apart bij mij werkt het prima hoor, dus wss is dat lokaal bij jou.

OT: ja slordig maar dit gebeurt wel eens natuurlijk, ik heb het persoonlijk niet eens gemerkt, wel vervelend voor de anderen, en de 3e keer op rij is natuurlijk teveel, al heb ik er nooit iets van gemerkt.

zijn er nog gevolgen voor die mensen die over gezet werden terwijl de storing aan de hand was? dat zou wel vervelend zijn natuurlijk...
Bij mij werkt het wel goed, geen probleem, ik maak er alleen geen gebruik van en zakelijk zou ik het zelfs niet eens overwegen, niet alleen door de vele storingen maar omdat ik het idee dat mijn data bij een ander staat om te gruwen vind.
Om 13.43 CET gisteren was de storing verholpen bij Outlook/Hotmail. De skydrive galerie was om 10.40 CET al weer volledig bereikbaar.

Jammer dat berichtgeving vaak is dat alles plat ligt terwijl er sprake was van een klein gedeelte.
Zo ging het alleen om de adressen op die servers aldaar en de fotogalerie van Skydrive die daar ook ondergebracht is.

Bijvoorbeeld zelfs de link naar dat Skydrive onbruikbaar was vertelt je dat het alleen om de fotogalerie en fotobestanden gaat.
(overigens grappig schrijffoutje in de tekst bij Updates, dat wordt inderdaad maar een eind in de ruimte gedaan door velen als zich een storing voordoet. "Bedankt voor je geluld." :9~ )

Of, quote Arthur de Haan;
"These safeguards prevented access to mailboxes housed on these servers and also prevented any other pieces of our infrastructure to automatically failover and allow continued access. This area of the datacenter houses parts of the Hotmail.com, Outlook.com, and SkyDrive infrastructure, and so some people trying to access those services were impacted."

"Ook konden andere delen van Microsofts infrastructuur de werking niet overnemen." is dus niet correct, ze kunnen dit wel automatisch, maar door de snelle veiligheidsmaatregelen na het optreden van de temperatuurstijging binnen het datacenter werd dit verhinderd.

Het zijn vaak die kleine nuances in vertalingen, helaas, die je een geheel andere indruk geven.

[Reactie gewijzigd door Teijgetje op 14 maart 2013 11:54]

Vreemd ik heb helemaal geen problemen gehad met Hotmail, als ik het niet gelezen had wist ik geeneens dat er wat aan de hand was met Hotmail.
Zeggen ze nu dat ze niet automatisch konden overfalen naar een ander datacenter?
"Ook konden andere delen van Microsofts infrastructuur de werking niet overnemen."

In feite zeggen ze dat dus inderdaad. ;)
misschien moeten ze maar eens overstappen naar de cloud, zodanig dat ze zelf geen critische apparatuur meer moeten hosten :+


(ja mega-throll laat die -1 ongewenst maar komen, droogkakkers)
Of gewoon linux clusters implementeren over verschillende datacenters ;-)
En waar komt de cloud vandaan? Juist, van grote bedrijven ala MS :+
Ze zeggen dat dat normaal wel zou moeten werken, maar dat juist dat ook kapot ging.

Tja het zal niet de eerste en ook niet de laatste keer zijn, dat een failover niet werkt als er iets mis gaat in de core van een systeem, hoe dubbel uitgevoerd dat ook is gebouwd.
Eigenaardig genoeg zouden de safeguards die ervoor zorgden dat de servers down gingen er dus de reden zijn dat de failover niet werkte:

"These safeguards prevented access to mailboxes housed on these servers and also prevented any other pieces of our infrastructure to automatically failover"
Klinkt voor mij eerder alsof ze met de safeguard de temperatuur sensor bedoelen die de server uit zet als ie te heet wordt. Het lijkt me sterk dat er safeguards zijn die alleen de mailservice uitschakelen terwijl de hitte blijkbaar ergens anders vandaan komt.
Ja.
Ik vind het een vaag verhaal.

Een firmware upgrade van 1 core component die altijd goed gaat, maar nu het hele DC plat legt.

Vragen die ik heb zijn:
1. Hebben ze dan niet het core component dubbel uitgevoerd, zodat je terug kunt naar de fail-over?

2. Updaten ze alle core-componenten (incl. de fail-overs) tegelijk met foute patches?

3. Hoe kan 1 component zo warm worden dat hij een heel DC onderuit haalt? Of was het core-component de airco? Heeft MS dan geen heatmapping tool in hun DC zodat ze zo'n core-component meteen uit kunnen zetten.

4. Had het core-component zelf geen temperature threshold? Dan had het zichzelf uitgezet. En was er even misschien geen email verkeer geweest, maar had een fail-over het over kunnen nemen.

5. Anders ging het altijd goed. Testen ze een firmware upgrade dan niet eerst voordat ze hem aanbrengen?

Het antwoord op alle vragen zou kunnen zijn dat men teveel voor alles de goedkoopste oplossing hebben gekozen, waardoor ze nu een dergelijke service leveren.

Misschien een tip voor de budgetbewakers bij hotmail/live.com: Zet een banner op de web-inlog pagina en je hebt er weer genoeg budget om alles dubbel en met de goede procedures uit te voeren.
Uit het bronartikel:
On the afternoon of the 12th, in one physical region of one of our datacenters, we performed our regular process of updating the firmware on a core part of our physical plant. This is an update that had been done successfully previously, but failed in this specific instance in an unexpected way. This failure resulted in a rapid and substantial temperature spike in the datacenter. This spike was significant enough before it was mitigated that it caused our safeguards to come in to place for a large number of servers in this part of the datacenter.
Het gaat dus om een update die eerder succesvol was uitgevoerd, maar dit keer kennelijk verkeerd liep. Je tweede punt klopt dus niet. Verder gaat het om een "core part of our physical plant", dus als antwoord op je derde en vierde vraag: waarschijnlijk is het inderdaad een onderdeel van de airco voorziening. Geen airco -> warmte. Het gaat hier dus waarschijnlijk niet om een onderdeel wat zelf de warmte genereerde.
En als de servers dan snel genoeg uitschakelen kan ik me voorstellen dat de andere datacenters dat niet direct kunnen overnemen en dat dit risico ingecalculeerd is voor de gratis diensten.

Heb ook geen mensen gehoord met problemen die een betaalde dienst gebruikten.
Dan nog verklaard het niet waarom er geen redundantie is.. Zelfs een "core part of our physical plant" zou een dubbelganger moeten hebben waarop terug te vallen is bij een upgrade.

Vaak staan die airco's in schakeling. bij een upgrade kan je een airco uit die schakel halen en die "stand alone" upgrade.
Een klein kantoor airco'tje (nog) niet nee.

Of denk je dat die 10-ton chillers enkel een thermostaat a-la draaiknop heeft die ze even een tik geven als het te warm is?

Zo'n DC airco-systeem gaat via scada-achtige systemen. Dat kunnen ze dus via het noc van het datacenter, of zelfs van buitenaf uitlezen en beheren. Zo'n systeem is natuurlijk ook automatisch, zo'n ding heeft overal sensors en meet vanalle temps over het hele DC of een bepaalde room, adhv. deze gegevens zou zo'n systeem overal de temperatuur stabiel moeten houden.

Achter zo'n airco zit dus heel wat software, firmware zit er dus zeker in.


Volgens mij, van alles wat ik hier lees denk ik dat de situatie als volgt is.
De servers van Hotmail & outlook.com staan in 1 bepaalde room voor een bepaalde regio. Dus in een MS dc niet ver van hier zal heel west-Europa serveren.
Blijkbaar was het dus echt een storing in de airco, naar verluit omdat 1 airco systeem het opgaf tijdens een update. Of dat dat ding niet meer wou starten na de installatie van die nieuwe firmware, speculeer maar. Denk aan een brakke windows installatie die niet meer verder wilt. Omdat die 1 airco ermee uit scheet is er minder koelings capaciteit.
In een normale situatie heb je iets van een cascade opstelling van airco's (of iets moderners). Zo'n cascade opstelling bestaat uit een aantal kleinere AC's die samen alles koel moeten houden, als er 1 uitvalt is dat geen probleem en vangen de anderen dit op. Denk aan een vliegtuig, 1 motor valt uit, geen probleem, er zijn er nog 3 (bv.). Het ding blijft dan vliegen maar iets minder snel en efficient. Met je datacenter hetzelfde, elk zelfrespecterend DC heeft dan ook overcappaciteit in koeling.
Hier had volgens mij die room 1 grote AC die misschien wel overcappaciteit kon leveren, maar het bleef maar 1 AC. Doordat die uitviel steeg de temperatuur, denk aan al die stroom die verstookt word, dan is het in een mum van tijd warm en klappen die servers er gewoon uit!

Het erge is dat zoiets gebeurt op de dag van een (Europeese) sneeuwstorm (ik neem aan dat dat dc hier in de buurt zit). De meeste moderne DC's werken ook met chillers, water wordt in het dc opgewarmd en via chillers op het dak afgekoeld met de buitentemperatuur, veel effiecientere koeling. Wat zou helpen met de koeling, meestal is zo'n chiller veel efficienter omdat je enkel een paar pompen moet hebben wat meteen al redundanter is.
Een ruimte terug brengen naar een acceptabele temperatuur kan (afhankelijk van de mogelijkheid tot luchten en de buiten temperatuur) anders snel een aantal uren duren.
Sterker nog, je wilt dat ook niet al te snel laten gebeuren. Probeer als je dat heel snel afkoelt de RH% maar eens binnen de grenzen te houden...
[...]
En zit hun koeling ook gekoppeld aan Hotmail o.i.d.? :o
Ik zie je punt hier niet? De koeling van het complete datacentrum had problemen, en ja, in dat datacentrum hingen dan weer Hotmail servers die uit zichzelf afsloten (klaarblijkelijk). Dus ja, de koeling heeft invloed op de werking van Hotmail, net als koeling in het algemeen invloed heeft op de hele werking van het internet.
Ik snap dat het wat lastiger kan liggen dan "git reset --hard [hash]", maar een backup terug zetten moet in een een paar uurtjes toch wel te doen zijn?
Zoals MS aangeeft gaat het om een firmware update die fout ging. Dit kan de hardware in een onbereikbare staat brengen en kan inderdaad een stuk lastiger zijn dan een backup terugzetten.

Ik ben zelf ook nog altijd gespannen een beetje zenuwachtig met een firmware update, zou jij ook moeten zijn als je de term brick kent. Daarom updat ik ook mijn SSD niet. If it ain't broken, don't fix it, tenzij de release notes issues melden waar ik last van kan krijgen.
Dat is te makkelijk, want:
1. Wie zegt dat het een component was waar MS-software op draaide? (ik verwacht meer dat het een core-switch is geweest. ik zie bij bedrijven dat de meeste outages liggen in het netwerk of storage)

2. Plus je moet als bedrijf geen enkele update installeren voordat je hem goed getest hebt. Tenzij je een hele goede fail-over hebt ingericht en je binnen minuten over en terug kunt zijn.
Het was geen switch, het had met warmte te maken, dat had je kunnen weten als je het artikel nog eens had doorgelezen.
Toch handig he, die cloud.
Man man, lekker gek als je hierop blindelings vertrouwt.
Daar hebben ze colocatie, dedicated servers en VPS-en voor uitgevonden ;)
sommige mensen hebben dat soort dingen helemaal niet nodig en het kost geld
en hebben het liever gewoon thuis draaien zodat ze er makkelijk bij kunnen

vps via teamviewer ofzo zou wel kunnen dan heb je alleen je code nodig en een internet aansluiting

[Reactie gewijzigd door firest0rm op 14 maart 2013 13:06]

En op de colo heb je ook factoren buiten jouw eigen server die van invloed zijn, zoals stroom en netwerk. Overal kan t fout gaan.
Ik heb mijn mail op colo gehad, en toen ging ook van alles onverwachts fout. Heb netwerk en stroomstoringen meegemaakt en een firmware bug in de RAID controller die hard disks corrupt maakte.

En dat was ook allemaal buiten mijn macht om. Sindsdien wil ik alleen nog maar cloud. Ook geen 100%, maar het wordt wel snel, goed en goedkoop door derden uitgevoerd.
Een firmware update die je aircon molt?
Ik heb nergens last van gehad ...
Nu veel software vendors overgaan op een al-dan-niet-betaalde abonnementenservice overgaan in combinatie met een clouddienst, wordt het wel en wee van de diverse datacentra opeens belangrijk voor de consument. Interessant dat dit nu nieuws is voor grote groepen mensen, terwijl een datacentre failure voorheen toch vooral een ICT-feestje bleef.
Dit klinkt als een human error.

Feitelijk zeggen ze dat ze niet konden overfailen naar een ander datacenter. Dat is echt een must-have is als je een 24/7 ( Lees: Wereldwijd gebruikte dienst ) dienstverlening hebt.

Het lijkt me vreemd te noemen dat een firmware upgrade zorgt voor het volledig opwarmen van je datacenter; de basis uitvoering van een datacenter is zo dat alles via meerdere feeds aangeleverd moet worden, zoals bijv stroom, gekoelde lucht, koel installaties, bekabeling. Microsoft zal de datacenters ook zo ingericht hebben.

Met het oog op die redundante uitvoering is het vreemd te noemen dat de dit kan gebeuren bij een firmware upgrade, dat zou namelijk impliceren dat je op allebei de feeds aan het werken bent geweest ipv van feed voor feed zodat je eerst met een backup kan testen of je upgrade naar behoren werkt.
In het blog valt te lezen dat de update eerder succesvol geinstalleerd werd, waarom kon er dan geen fallback gedaan worden voordat de safeguard inschakelde?

Qoute van blog: "This is an update that had been done successfully previously, but failed in this specific instance in an unexpected way. "
- Waarom was er geen tijdige fallback?

Qoute van blog: "This spike was significant enough before it was mitigated that it caused our safeguards to come in to place for a large number of servers in this part of the datacenter"
- Als je de temperaturen van je datacenter goed in de gaten houdt, wat mij gebruikelijk lijkt bij zo'n upgrade, is er tijd zat om te reageren. Tenzij je safeguards te strak ingesteld staan en/of je fallback scenario is niet in orde

Al met al lijkt het een gek verhaal.

[Reactie gewijzigd door Giftcard op 14 maart 2013 11:24]

Je vergeet voor het gemak dat het alleen ging om de gratis diensten die problemen hadden. Alle betaalde diensten hadden er geen probleem mee. De vraag is of je gratis diensten geheel redundant wil uitvoeren of dat je het risico wil lopen dat x% van de mensen tijdelijk een probleem heeft.

Ik had bijvoorbeeld wel problemen om mijn gratis skydrive te benaderen, maar mijn skydrive pro draaide gewoon door.

[Reactie gewijzigd door SunnieNL op 14 maart 2013 11:32]

Fair punt.
Maar als counterargument zijn die gratis diensten vaak wel waar het begint en je dus het grootste gezichtsverlies lijdt.

Het lijkt mij dat je verdienmodel zo in elkaar zit dat je betaalde klanten ook de systemen van de niet betalende klanten bekostingen... Maar dat is een aanname, daar heb ik geen verstand van.
Dat klopt. Maar daarom kan je nog wel een Platinum, Gold, Bronze SLA implementeren, afhankelijk hoeveel mensen willen betalen. Hoe hoger de uptime, hoe meer hardware je nodig hebt om alles redundant aan elkaar te knopen.
Het lijkt me vreemd te noemen dat een firmware upgrade zorgt voor het volledig opwarmen van je datacenter; de basis uitvoering van een datacenter is zo dat alles via meerdere feeds aangeleverd moet worden, zoals bijv stroom, gekoelde lucht, koel installaties, bekabeling. Microsoft zal de datacenters ook zo ingericht hebben. ...
Maar als je risico-management 101 toepast, dan hebben ze ofwel met relatief weinig schade een ontwerpfout ontdekt, danwel dat er iets op het meso-niveau verkeerd is gegaan. In het laatste geval kun je denken aan bijv uitgelopen onderhoud van een op het oog ongerelateerd subsysteem (van een redundant systeem). Hoeveel veerboten, kerncentrales, vliegtuigen, etc. zijn op die manier niet in de problemen gekomen/verongelukt?

Op dit item kan niet meer gereageerd worden.



Populair: Vliegtuig Luchtvaart Crash Smartphones Google Laptops Apple Games Politiek en recht Rusland

© 1998 - 2014 Tweakers.net B.V. onderdeel van De Persgroep, ook uitgever van Computable.nl, Autotrack.nl en Carsom.nl Hosting door True

Beste nieuwssite en prijsvergelijker van het jaar 2013