Google laat weten dat de recente wereldwijde storing van het cloudplatform veroorzaakt werd door een update zonder 'flagprotection'. Hierdoor kon een bug geïntroduceerd worden waardoor Googles clouddienst urenlang onbereikbaar was.
In het rapport over de storing van donderdag 12 juni schrijft Google dat de oorzaak aanvankelijk met een functie-update voor Service Control eind mei is geïntroduceerd. Dit onderdeel van Googles cloudplatform autoriseert en beheert api-verzoeken. Een probleem met een gedeelte van de code voor deze update werd toen echter niet geautomatiseerd opgemerkt omdat hiervoor een policy update nodig was.
De ingebouwde noodoplossing om de uitrol van dergelijke probleemcode te stoppen werkte ook niet goed en de update was niet flag protected. Dat laatste had ervoor moeten zorgen dat de code geleidelijk werd uitgerold, eerst intern en daarna naar de individuele regionale systemen. Google schrijft dat flagprotection het probleem vroegtijdig had kunnen voorkomen, maar dat dat niet is gebeurd.
Op 12 juni werd een update uitgerold naar Service Control. De update bevatte 'onbedoeld lege vlakken'. Het Service Control-systeem deed beroep op deze waarden en kwam daardoor in een crashloop terecht. Google claimt dat het managen van api-verzoeken van een wereldwijde aard is en dat de bug daarom 'binnen enkele seconden na de uitrol' wereldwijd regionale systemen deed crashen.
Volgens Google werd het probleem binnen enkele minuten opgemerkt en binnen veertig minuten zou er een bugfix beschikbaar zijn geweest. De storing duurde echter bijna drie uur. Het bedrijf geeft toe dat de crash- en herstartloop de lokale infrastructuren overbelastte, waarvoor geen voorzorgsmaatregelen getroffen waren. Hierdoor moest het bedrijf eerst problemen met de onderliggende serverinfrastructuur oplossen voordat de bugfix uitgerold kon worden.
Door het beschreven probleem waren volgens het rapport ruim tachtig diensten en functies van Google Cloud onbereikbaar. Niet alleen Googles diensten zelf werden getroffen. Omdat veel bedrijven gebruikmaken van de clouddienst van Google, waren ook partijen als Cloudflare, Spotify en IKEA niet of niet goed bereikbaar.
Update, 17.10 uur: De verwijzingen naar 'nullwaarden' zijn uit het artikel en de titel gehaald omdat deze mogelijk onjuist waren. Met dank aan Aftansert.