Xbox Live en deel Microsoft Azure-platform hadden problemen

Microsofts Xbox Live-gamedienst heeft in de nacht van zondag op maandag flinke downtime gehad. De storing viel samen met uitval van een deel van Microsofts Azure-clouddienst. Een Amerikaanse regio van die dienst had te maken met stroomuitval.

Onder andere diverse Xbox Live-diensten en de streamingdienst Mixer hadden te maken met verstoringen. Gebruikers konden niet inloggen en matchmaking functioneerde eveneens niet. Inmiddels zijn deze verholpen. Bij het maken van dit bericht was Looking for Groups nog in storing, maar inmiddels is deze dienst ook beschikbaar.

Tegelijkertijd vond een storing plaats bij de West Central US-regio van Azure. Volgens Microsoft was er sprake van stroomuitval die 'een beperkt deel van de infrastructuur' trof en ook zou die storing slechts betrekking hebben gehad op een beperkt deel van de klanten in die regio. De storing had impact op virtuele machines op Azure en SQL Server. Daarnaast toonde het statusboard dat diensten als IoT Hub en Cognitive Search getroffen waren.

Niet duidelijk is of de Azure-storing verband hield met de Xbox Live-downtime. Xbox Live draait wel op Microsofts cloudplatform, dat echter datacenters in veel meer regio's wereldwijd, naast West Central US heeft.

Door Olaf van Miltenburg

Nieuwscoördinator

16-03-2020 • 08:17

29

Reacties (29)

29
26
2
0
0
21
Wijzig sortering
Waarschijnlijk nog steeds. Op dit moment veel problemen met versturen van berichten in MS Teams

edit: Volgens mij hebben ze nog steeds problemen. Krijg een boel foutmeldingen terug vanuit SharePoint Online via PowerShell. "The remote server returned and error: server unavailable". De ene keer doetie t wel de andere keer weer niet. Elke minuut is het weer anders.

[Reactie gewijzigd door Qlusivenl op 22 juli 2024 15:25]

Ditto, misschien door de extra load i.v.m. extra thuiswerkers?
Dat is hoogtwaarschijnlijk wel de oorzaak natuurlijk.
Ik hoop dat ze dit snel oplossen, want ze adverteren mooi met veel gratis licenties voor 6 maanden, maar dan moeten ze het wel aankunnen. Als opeens het gebruik binnen 1 a 2 dagen groeit met bijv. 200%...
Mee eens. ze waren wss absoluut niet voorbereid op de load, en ik kan het ze niet echt kwalijk nemen.
Als ze niet voorbereid zijn - wat je lijkt mij echt wel weet / redelijk kan inschatten - moet je ook geen reclame gaan maken en gratis licenties gaan weggeven...
Oportunisme he. als nu veel mensen die stap nemen, gaan ze misschien merken dat het wel handig is, en het na de crisis betalend behouden. WIN op lange termijn. De issues die er nu zijn zullen ze vermoed ik relatief snel op kunnen lossen, dus na een paar weken zijn die door de meesten al vergeten.
Klopt, maar je ziet 1 ding over het hoofd.

Mensen willen NU thuiswerken en NU vergaderen. De lokale IT afdeling rolt teams uit en activeert licenties. Mensen loggen in en willen bellen en chatten, maar hebben gelijk vanaf het begin al problemen. Kunnen niet inloggen of berichten komen neit aan.

Wat doen ze? Ze klagen bij de IT Afdeling dat het niet werkt of gaan zelf applicaties gebruiken. De IT Afdeling rolt Slack uit bijv, en he, dat werkt wel. Is gratis te gebruiken tot op zekere hoogte, maar werkt voor dat moment prima.

Puntje bij paaltje blijkt slack in de organisatie erg fijn te werken en zijn ze na een week Teams alweer vergeten ;)
Dat klopt, maar ik ken niet veel bedrijven die Teams binnen 2 dagen achter zich gaan laten, en ik verwacht eerlijk gezegd dat ze het binnen die tijd wel in orde hebben.
Al met al zie je een psychologisch effect. Iedereen is zoekend en dat merk je... Wij zien bijv enorm veel VPN connecties die niet echt gebruikt worden

Denk dat je pas over een aantal dagen kan zien hoe dit zich gaat ontwikkelen. Dan heeft iedereen een beetje door wat diegene nodig heeft qua faciliteiten. Mijn ervaring is dat bijna iedereen denkt veel nodig te hebben maar dat dit in de praktijk enorm meevalt
Ik wel. Dit is namelijk waarvoor de cloud hoort te zijn. Dat is precies waarmee ze adverteren namelijk. Aanbieders als AWS, GCP of Azure gaan volledig over schaalbaarheid die je met een traditionele eigen on-prem omgeving niet kunt krijgen zonder daarvoor een infra van jewelste neer te zetten.

[Reactie gewijzigd door geeMc op 22 juli 2024 15:25]

Dat klopt, maar het lijkt me wel dat dit ver buiten de normale waarden valt die nodig zijn.
https://allestoringen.nl/...ring-bij-microsoft-teams/

Wij hebben ook problemen met status updates van collega's binnen skype for bussiness
Had gisteravond laat ook een paar login probleempjes. Geen idee of dat ermee te maken had.
Ik probeerde samen met een vriend via Xbox te gamen. Bij ons hielden de problemen aan tot ongeveer 22.00 uur. Daarna kon hij inloggen. We spelen crossplay Rocket League waarbij ik op pc speel. We hebben altijd voice via Xbox dan. Mijn Xbox companion op de pc kon rond 22.30 uur weer inloggen. De hele nacht problemen is wat ons betreft dus wat overdreven. We hebben daarna zonder problemen kunnen spelen
ik heb zelf last van problemen met onedrive, ik krijg constant error 102 of mijn onedrive desktop app loopt vast :/
Beheer binnen Office365 werkt op moment van schrijven ook niet:
Er is iets misgegaan. De pagina kan niet worden weergegeven.
Foutcode: ‎undefined‎
totaal geen problemen :)

Alles werkt en met normale snelheid.
Anoniem: 767041 16 maart 2020 16:19
Microsoft teams heeft nu weer problemen
Hoe is het mogelijk dat zo iets gebeurd? Je voert je toevoer van elektriciteit toch dubbel uit en zorgt er voor dat het twee onafhankelijke leveranciers zijn zo dat als de een omvalt de andere het over kan nemen? Daar naast heb je toch een diesel generator staan die minimaal 24h de hele boel draaiende kan houden voor het geval dat op magische wijze beide leveranciers een probleem hebben?

Ik kan maar moeilijk begrijpen hoe het mogelijk is dat een datacenter tegenwoordig nog door stroom uitval kan falen? Het enige dat ik me voor kan stellen bij zo'n verhaal is dat er iemand iets heel erg fout heeft gedaan en alle mogelijke beveiligingen om dit soort fouten te voorkomen heeft weten te omzeilen iets wat eigenlijk alleen met opzet mogelijk zou moeten zijn.

Met andere worden ik vrees met grote vrezen dat Microsoft hun zaakjes niet op orde heeft want dit had natuurlijk nooit mogen gebeuren, stroom uitval in 2020 in een groot datacenter is simpel weg onzin. Dat mag niet meer mogelijk zijn tenzij er wel heel erg grote fouten zijn gemaakt.
Hmm stel dat de airco water afvoer leiding bevroren was of verstopt zit en water uit airco langzaam naar beneden drupt, het kwam zo op de server kast lekte en zo de stroom verdeling van het rack binnen loopt. Of dat ze een verkeerd voltage schakelen op het hoofdnet.
En daar door zijn een paar gevoelig components omzeep geholpen, hier door werkt je backup installatie ook niet meer....
Het zijn maar een voorbeelden Hoe goed je alles ook plant er kan van alles gebeuren, down time dus ook en daarom hebben ze in de kleine lettertjes vaak een specificatie staan van uptime als je geluk hebt 99% kun je 2,5 dag per jaar down zijn..
onzin, dan is het ontwerp van de DC simpel weg fout. Dit kan gewoon niet gebeuren in een modern goed ontworpen en onderhouden DC.
Ik weet niet wat je met DC bedoeld, maar ik heb alles al zo een beetje mee gemaakt. En elektrische componenten defect zien geraken van bliksem, menselijke schakel fouten, water. Defecte condensators, Niet maandelijks testen van back up units, vervuilde oude diesel accu's die defect zijn lekkages ect ect
Je kunt niet 100% uptime garanderen hoe goed je ontwerp is.. Er is altijd iets waar jij niet aan gedacht hebt. Je hebt leveranciers waar je afhankelijk van bent, mensen die dome dingen doen of laks zijn, hackers etc.
DC = DataCenter
Natuurlijk is 100% uptime niet te garanderen, maar bliksem dat een probleem op levert waardoor een deel of zelfs een heel data center plaat gaat is echt iets dat je gewoon kan voorkomen. menselijke fouten is een process dat fout is mensen zouden niet instaat moeten zijn om zulke catastrofale fouten te maken dat een deel of een heel data center down gaat. Water in een data center is een ontwerp fout. Defecte condensator en dan een deel van een data center verliezen is een ontwerp fout. Niet testen van backup units process fout, oude diesel process fout, defecte accu process fout (die hoor je ook te testen)

Nee het is na zo'n 50 jaar data centers bouwen geen excuus meer om een deel van je data center te verliezen omdat de stroom uitvalt. In middels hebben we als industrie genoeg geleerd omdat soort dingen echt uit te sluiten.

Er zijn altijd redenen dat dingen fout kunnen gaan zeker weten en dat zal waarschijnlijk altijd wel zo blijven maar dat soort outages horen niet meer te gebeuren door dat de stroom uitvalt dat is echt iets dat je misschien nog kon verkopen in de jaren '90 van de vorige eeuw als je een klein net beginnende speler was, maar nu 30 jaar later als de op een na grootste cloud provider van de wereld is een deel van een data center verliezen omdat de stroom uitvalt simpel weg niet meer te verkopen en echt een hele goede reden om als potentieel klant eens heel goed na te denken of je wel op zo'n bedrijf kunt vertrouwen.
Mensen bouwen ook al 50 jaar kerncentrales, met elke voorzorgsmaatregelen en ontwerpen die je maar kunt bedenken en dan gaat het nog mis.... Je hebt niet alles in de hand en ontwerpen kun je tot je een ons weegt, het is ook kosten die het met zich mee brengt en tja als de goedkoopste aanbieder wint, willen er wel eens kost cuts gedaan worden, of je hebt een leverancier die gewoon bagger materiaal aan leverd. Of je hebt nood weer water/ wind overlast. Je hebt niet alles in de hand. Ik werk voor een Disney bedrijf zeg ik altijd wat je niet voor mogelijk houd gebeurt gewoon.
Je hebt het bij het rechte eind en stelt de juiste vragen. Ik dacht dat het algemeen bekend was dat Azure met grote problemen kampt en het lang niet zo goed doet als mensen denken.
Voor zo ver ik weet (correct me if i'm wrong) opereert Microsoft geen energie centrales en hebben ze dus wel degelijk een externe leveranciers als het op energie aankomt. Ik ga er wel van uit dat ze heus wel wat zonnepanelen op het dak hebben gegooid want besparingen en zo, maar ze zullen daar echt onmogelijk een heel DC mee van prik kunnen voorzien.
Ook is het simpel weg zo dat men al sinds jaar en dag in elk data center dat zijn geld waard is twee onafhankelijke energie leveranciers gebruikt worden die elk via een volledig gescheiden net hun energie leveren. Om die reden ook hebben servers eigenlijk altijd twee power supplies een voor leverancier A en een voor leverancier B, mocht een van de twee uitvallen dan blijft de server gewoon draaien. Om die reden hebben racks dus ook eigenlijk altijd aan de achter kant van het rack aan weerszijde power strips zodat ze ook op die manier zo ver mogelijk van elkaar verwijderd zijn. Allemaal om zo min mogelijk kans te lopen dat al een ernstig beschadigd raakt (smelten door over verhitting of brand, bijvoorbeeld) dat de andere daar hopelijk geen of veel minder last van heeft.

Zelfs als er een pandemie gaande is wil dat niet zeggen dat je een deel van de data center uit kunt zetten of er zo'n rommeltje van kan maken dat een deel uitvalt door stroom gebrek. Als dat wel het geval zou zijn dan is er nog heel erg veel meer mis met de Azure cloud dan tot op heden bekend. Dat zou er namelijk op duiden dat de processen en procedures om het geheel in de lucht te houden niet goed gedocumenteerd is waar door de vervanger van de zieke persoon niet goed weet wat hij of zij aan het doen is. En dat is nog heel erg veel erger dan een slecht ontworpen, getest of onderhouden data center. Een ontwerp fout kun je namelijk herstellen testen kun je doen, onderhoud is ook niet zo ingewikkeld maar als er maar een persoon is die weet hoe het geheel werkt en die ligt nu op bed te vechten voor zijn leven dankzij de Chinese kriebelhoest dan is er een veel groter probleem dat je niet even snel kunt oplossen, dat is namelijk een cultuur probleem waar het bedrijf het mogelijk maakt voor mensen op zulke onmisbare schakels te zijn. En dat vergt heel erg veel meer tijd en geld die cultuur aan te passen.

Op dit item kan niet meer gereageerd worden.