Amazon heeft het boetekleed aangetrokken nadat vermoedelijk een menselijke fout een langdurige storing veroorzaakte. De cloudaanbieder belooft aanpassingen in zijn upgradesysteem door te voeren om de kans op dergelijke fouten te verkleinen.
Vorige week werden de clouddiensten van Amazon getroffen door een ernstige storing. Hierdoor waren een aantal grote websites dagenlang moeilijk of geheel niet bereikbaar. Amazon heeft inmiddels een post-mortem-rapportage vrijgegeven, waarin meer informatie wordt gegeven over de oorzaken van de grootschalige storing.
De problemen bij het Elastic Compute Cloud-platform van Amazon zouden zijn ontstaan door een foutieve upgrade-procedure, vermoedelijk het gevolg van een menselijke fout. Tijdens het uitvoeren van de upgrade werd het dataverkeer tijdelijk via een andere router gebruikt, maar deze bleek niet in staat om de datastroom af te handelen.
Nadat de router was gecrasht, raakten diverse onderdelen van het Elastic Block Store-opslagsysteem van slag. De instances probeerden steeds nieuwe spiegelbestanden aan te maken met een re-mirroring storm tot gevolg. EC2-systeembeheerders hadden vervolgens dagen nodig om de cloudsystemen weer onder controle te krijgen.
Amazon heeft zijn excuses aangeboden aan zijn klanten. Ook belooft het bedrijf dat klanten die door de storing zijn getroffen compensatie krijgen: zij kunnen tien dagen kosteloos gebruik maken van Amazons clouddiensten. Daarnaast stelt het bedrijf dat het zijn update-procedures verder zal automatiseren, waardoor de kans op menselijke fouten verkleind moet worden. Verder moet de EC2-infrastructuur beter bestand worden gemaakt tegen storingen.
De grootschalige storing bij Amazon laat volgens sommige analisten zien hoe kwetsbaar clouddiensten kunnen zijn. Toch zouden deels ook websitebeheerders fouten hebben gemaakt doordat een deel van hen geen draaiboeken hadden klaarliggen mocht hun cloudaanbieder in de problemen komen.