Facebook heeft donderdag te kampen gehad met een storing van 2,5 uur. Een intern controlesysteem veroorzaakte een soort interne ddos-aanval op de database. Dit leidde tot de grootste storing in vier jaar bij de sociale-netwerksite.
In een reactie op de storing schrijft Robert Johnson, hoofd software engineering bij het Amerikaanse bedrijf, dat Facebook beschikt over een geautomatiseerd systeem om de configuratie van de site te controleren. Na een wijziging in een van de instellingen dacht het controlesysteem dat het om een foute waarde ging, waarna het systeem probeerde in te grijpen en de problemen pas echt begonnen.
"De bedoeling van het automatische systeem is om ongeldige waarden in de cache op te sporen en deze te vervangen door de nieuwe waarde", aldus Johnson. "Dit werkt prima voor een losstaand probleem met de cache, maar werkt niet als de persistent store niet klopt." Het gevolg hiervan was dat elke client de ongeldige waarde zag en deze probeerde te repareren. "Omdat hierbij een query naar het databasecluster wordt gemaakt, raakte dit cluster overspoeld met honderdduizenden queries per seconde."
De enige manier om het probleem te herstellen bleek een herstart van het hele databasecluster te zijn, een proces dat ruim twee uur duurt. Nadat de database weer online was, liet Facebook langzaam gebruikers toe en functioneerde de site een half uur later weer als vanouds.