Volgens Amazon zouden de gevolgen van de storing die de clouddienst van het bedrijf in de nacht van zondag op maandag lamlegde, maximaal twee dagen duren. Dat blijkt echter niet gehaald te zijn; nog niet alle klanten zijn weer online.
De stroomstoring ontstond nadat een transformatorhuisje van het Amazon-datacenter in Dublin werd geraakt door blikseminslag. Door de inslag ontstond een explosie, gevolgd door brand. Als gevolg daarvan waren veel websites die in dat deel van de Elastic Compute Cloud van Amazon werden gehost offline. Het verhelpen van de storing bleek door een samenloop van omstandigheden aanzienlijk langer te duren dan verwacht. Hoewel de stroomvoorziening redelijk snel was hersteld, bleek het terug online krijgen van diverse volumes een probleem. Maandag liet Amazon weten dat het bedrijf verwachtte nog 24 tot 48 uur nodig te hebben voor alle noodzakelijke stappen om de storing voor alle klanten op te lossen.
Naar nu blijkt, heeft Amazon ook deze 'deadline' van 48 uur niet gehaald. Naar verwachting kan bovendien niet iedere klant de storing zonder verlies van data uitzitten. In enkele gevallen kwamen Elastic Block Storage-servers zonder stroom te zitten voordat de gegevens fatsoenlijk waren weggeschreven. In die gevallen zal Amazon een snapshot van een herstelkopie terugzetten, die dus misschien niet helemaal actueel is.
In de praktijk blijkt dat het maken van die snapshot ook niet altijd goed gaat. Amazon heeft in ieder geval met een deel van de getroffen klanten contact gehad. Naar verluidt wordt met deze klanten gesproken over een vorm van compensatie, al is niet bekend of deze zich beperkt tot de reguliere compensatieregeling of ruimer van opzet is.
Klanten die Amazon op basis van de service level agreements willen aanspreken op zijn verantwoordelijkheden, komen mogelijk niet allemaal in aanmerking voor compensatie. Amazon heeft als voorwaarde in zijn SLA opgenomen dat, om in aanmerking te komen voor de compensatieregeling, de storing diverse Availability Zones moet hebben getroffen. Bovendien moet de beschikbaarbeid op jaarbasis beneden de 99,95 procent zijn gezakt, wat neerkomt op ruim 4 uur downtime.
Hoewel de storing zich in een datacenter voordeed, beschikt de faciliteit in Dublin over drie van dergelijke Availability Zones. Het is niet bekend of al deze drie zones gelijktijdig en langdurig onbeschikbaar zijn geweest. Amazon adviseert overigens om een failover in te richten in een datacenter in een andere geografische regio om downtime als gevolg van een storing in een andere regio te beperken, al betekent dit voor veel bedrijven een forse kostenstijging.
Dit is de tweede storing bij Amazon in korte tijd. In april dit jaar werd de aanbieder ook al getroffen door een forse downtime van zijn clouddiensten. De problemen bij het Elastic Compute Cloud-platform van Amazon zouden destijds zijn ontstaan door een foutieve upgrade-procedure, vermoedelijk het gevolg van een menselijke fout.