Grote Cloudflare-storing werd niet door cyberaanval veroorzaakt maar door bug

Cloudflare benadrukt dat de recente wereldwijde storing van zijn diensten niet door een cyberaanval of 'kwaadwillende handelingen' werd veroorzaakt. Volgens de ceo en medeoprichter werd de storing door een bug in een van de databases van de dienst veroorzaakt.

Specifiek zou het probleem ontstaan zijn in het Bot Management-systeem: "Een verandering in de machtigingen van een van onze databases zorgde ervoor dat er meerdere entries in een 'featurefile'-configuratiebestand geplaatst zijn voor het Bot Management-systeem." Dit bestand, dat groter dan normaal was, werd gedeeld met alle systemen in het netwerk. Deze systemen hebben echter een maximale bestandsgrootte die zij kunnen verwerken en het bestand bleek te groot te zijn, waardoor de Cloudflare-diensten crashten.

Het Bot Management-systeem is een tool die op basis van machinelearning bepaalt hoe betrouwbaar een bot zoals een scraper is. Op basis van die score kunnen klanten bepalen of zij een bot toelaten of blokkeren. Het configuratiebestand bevat het aantal functies die Bot Management mag gebruiken. Dit is handmatig begrensd op 200 om overmatige invloed op de prestaties van het systeem te voorkomen. Normaal heeft dat bestand grofweg 60 'features', maar het foutieve bestand bevatte meer dan het maximum aantal functies, waardoor het systeem op momenten minder dan de helft van alle verzoeken kon verwerken.

Volgens de ceo was de recente storing de ergste sinds 2019. Naar eigen zeggen verloopt twintig procent van het wereldwijde internet via Cloudflare. Als het bedrijf een storing heeft, worden daarom talloze websites en diensten getroffen. Om toekomstige storingen te voorkomen belooft hij dat er maatregelen genomen worden, waaronder het verbeteren van het configuratiebestandsysteem en het implementeren van meer kill-switches.

IT-banen

Reacties (63)

multiplexer 19 november 2025 14:56

Ik heb de post-mortem zojuist gelezen, maar haal daar toch een iets andere conclusie uit dan "Volgens de ceo en medeoprichter werd de storing door een bug in een van de databases van de dienst veroorzaakt." ... de database was prima. Clickhouse kun je dit m.i. niet aanrekenen. In de overige reacties zie ik ook allerlei conclusies die zich niet echt laten staven door de officiële lezing van wat er aan de hand is.

Blow-by-blow is dit het verhaal, met wat vereenvoudiging:

Achtergrond
Binnen één database server kun je meerdere databases hebben. De "features" data voor Bot Management staat in twee databases: één heeft de echte data, en de andere is een transparant doorgeefluik naar die data, zodat ClickHouse queries over de andere database servers kan verspreiden. Laten we deze twee database "Distributed" en de "Echte" database noemen. Queries worden dus altijd tegen de Distributed database uitgevoerd.

De Wijziging
Via die Distributed database heb je dus ook toegang tot de "Echte" database. Dit was altijd impliciet. Ze wilden dit expliciet maken, vanuit een security-oogpunt: duidelijk maken dat de database-user toegang heeft tot die onderliggende tabellen. Een prima change, in principe. Wat ze dus feitelijk gedaan hebben is "Geef user `database user` toegang tot database `Echt`, naast de rechten die hij al heeft op database `Distributed`".

De Root Cause
In de Bot Management applicatie gebruikte men een metadata query om de tabelstructuur van de database uit te lezen. In Jip-en-Janneke taal: "Hey database, welke kolommen heb je in tabellen met de naam "http_request_features" staan?". Let op het meervoud daar. Ze dachten dat ze vroegen "in de tabel binnen deze specifieke database". Metadata queries werken echter niet op één specifieke database, die werken op alles waar je toegang toe hebt. Dat kun je in de metadata-query afbakenen, maar dat moet je wel zelf doen. Omdat er nooit een tweede database was waar de query toegang toe had is dit nooit opgevallen, tot gisteren.

Direct Gevolg
Voor de volledigheid: de database engine geeft vervolgens een lijst met kolomnamen terug. Voor de change: (A, B) -- en daarna: (A, B, A, B). Want: "A-in-database-1", "A-in-database-2", "B-in-databae-1", "B-in-database-2". Het opbouwen van het config bestand op basis van dit queryresultaat had nu dus opeens 2x zoveel rijen. Dit bestand wordt vervolgens naar alle nodes van het netwerk gepushed als configuratie, die opeens iets defects krijgen.

Downstream Gevolgen
Van daaruit moeten we nog een paar stappen doorlopen voor we bij de crash komen, waarbij uiteindelijk gebrek aan validatie en foutafhandeling, en een performance-optimalisatie: van te voren één blok met geheugen reserveren met ruimte voor een fixed aantal elementen. Het uiteindelijke resultaat was catastrofaal, omdat de hele Cloudflare proxy server onderuit ging, en in een generieke foutafhandeling (de error page die iedereen zag) terecht kwam.

Interessant uit de post-mortem is dat de change in het rechtenmodel gefaseerd uitgerold wordt over de database servers. De Bot Management query liep om de 5 minuten, met elke keer dus een bepaalde kans (die steeds verder opliep) dat de query door een database server afgehandeld zou worden waar het probleem op van toepassing was. Dit is de oorzaak van het "klapperen"... en zette hem team op een dwaalspoor, omdat ze hierdoor dachten dat het een aanval van buitenaf was.

[Reactie gewijzigd door multiplexer op 20 november 2025 12:09]

Lees meer

IT-banen

Reacties (63)

Sorteer op:

Weergave: