De grote storing in Windows-computers die eerder deze week door een CrowdStrike-update werd veroorzaakt, gebeurde omdat de software niet goed werd gevalideerd door de codecontrolesoftware. CrowdStrike zegt zijn interne processen aan te scherpen.
CrowdStrike geeft in een voorlopige Post Incident Review meer details over de wereldwijde storing van Windows-computers van vorige week. Die bleek te worden veroorzaakt door een update van CrowdStrikes Falcon Sensor, die Windows-systemen in een bootloop bracht met een blue screen of death. Dit is de eerste keer dat CrowdStrike aangeeft wat er precies fout ging met de software en het releaseproces. Eerder gingen er al veel geruchten rond van experts die bijvoorbeeld het betreffende updatebestand analyseerden.
Volgens CrowdStrike ontstond het probleem in de Rapid Response Content-functie van Falcon. Falcon is het beveiligingspakket van CrowdStrike en installeert de Falcon Sensor op pc's van gebruikers. Dat heet Sensor Content en wordt periodiek bijgewerkt met nieuwe updates die aanvallen en aanvalspatronen kunnen detecteren. Dat gebeurt onder andere via Rapid Response Content, dat bestaat uit zogeheten Template Instances, die weer bestaan uit Template Types. Een Template Instance bevat informatie over een specifieke dreiging, terwijl een Template Type daar vervolgens iets van maakt dat de Falcon Sensor kan gebruiken om dreigingen te herkennen.
Template Types worden regelmatig toegevoegd aan de Rapid Response Content-tool. Die wordt vervolgens periodiek toegevoegd aan updates voor Sensor Content. CrowdStrike zegt dat het Sensor 7.11, waar nu een probleem ontstond, in februari van dit jaar voor het eerst uitbracht. In die versie zaten toen voor het eerst nieuwe Template Types. In maart en april werden er opnieuw nieuwe Template Types uitgebracht voor de Sensor.
Dat ging op 19 juli echter mis. Toen bracht CrowdStrike twee nieuwe Template Types uit voor de Sensor, maar die bleken fouten te bevatten. Daardoor ontstond een out-of-boundsmemoryreadbug in Windows-systemen, wat leidde tot de bsod's.
Bug in codecontrole
Een van de belangrijkste vragen rondom het incident is tot nu toe altijd geweest hoe het kon dat CrowdStrike een update kon versturen die zo'n schade kon veroorzaken op zoveel computers. Daar blijft CrowdStrike wat vaag over. Het bedrijf zegt dat eerdere Template Types door een eigen stresstest in een testomgeving met verschillende systeemconfiguraties kwamen en dat ze daarna werden uitgebracht. De fout die in een van de twee updates van juli zat, werd echter 'niet opgemerkt vanwege een bug in de Content Validator', zegt het bedrijf.
CrowdStrike zegt niet welke software het gebruikte voor codevalidatie en om welke bug het zou gaan. "Op basis van de eerdere release van de Template Types in maart, vertrouwen in de controle van de Content Validator en eerdere succesvolle releases van Template Instances werd deze software in productie uitgebracht", aldus het bedrijf.
CrowdStrike zegt dat het in de toekomst nieuwe maatregelen wil treffen om te voorkomen dat een dergelijk probleem nog eens voorkomt. Het bedrijf gaat onder andere rollbacks testen en controleren op inhoud en stabiliteit. Daarnaast komen er nieuwe validaties voor de Content Validator. Ook gaat het bedrijf de uitrol van Rapid Response Content aanpassen. Dat wordt een gefaseerd proces, dat bovendien beter wordt gemonitord. Ook komen er releasenotes beschikbaar en krijgen klanten meer mogelijkheden om te kiezen welke updates ze willen installeren en wanneer.