Microsoft organiseert conferentie om CrowdStrike-problemen te bespreken

Microsoft gaat een conferentie organiseren waar beveiligings- en ict-bedrijven kunnen leren over hoe ze om moeten gaan met situaties zoals de grote CrowdStrike-storing. CrowdStrike is een van de organisaties die de Windows Endpoint Security Ecosystem Summit mee organiseert.

De conferentie heet Windows Endpoint Security Ecosystem Summit. Die vindt op 10 september plaats in Microsofts hoofdkwartier in Redmond in Washington. Op de top komen verschillende organisaties bijeen om 'concrete stappen te bespreken die we allemaal moeten nemen om de beveiliging en veerkracht van gezamenlijke klanten te versterken'.

Tijdens de top komen volgens Microsoft ook ambtenaren vanuit de overheid langs. Het bedrijf verwijst naar de wereldwijde storing bij CrowdStrike, die voor grote problemen zorgde omdat het blue screens of death veroorzaakte in Windows-computers. Het bedrijf verwacht dat uit de top 'lange- en kortetermijnacties voortkomen' die moeten helpen om beveiliging op te krikken, maar ook om problemen zoals die tijdens de CrowdStrike-storing ontstonden te voorkomen.

Er wordt inmiddels steeds meer duidelijk over de storing. Die had deels te maken met het feit dat CrowdStrike zijn interne testproces niet goed op orde had, bijvoorbeeld door geen rollbacks aan te bieden en door software niet gefaseerd uit te rollen, bleek uit een onderzoek van het bedrijf zelf.

Door Tijs Hofmans

Nieuwscoördinator

23-08-2024 • 20:17

71

Lees meer

Reacties (71)

Sorteer op:

Weergave:

De oplossing is heel simpel; Windows moet gewoon de mogelijkheid hebben om gewijzigde (systeem)bestanden automatisch terug te draaien wanneer een computer binnen vijf minuten vast loopt. En dan niet één keer terugdraaien, maar na elke reboot weer een versie verder terug, net zo lang tot het systeem gewoon aan blijft na een herstart.

Edit: knap hoe het bericht dat de meest relevante discussie van dit artikel aanwakkert, als irrelevant wordt gemod.

[Reactie gewijzigd door Skit3000 op 24 augustus 2024 08:58]

Maar dat kan Windows al. Het is zelfs in staat om veel drivers te rollbacken doordat het doorgaans best wel wat versies zelf al bijhoud en doorheen cycled. Kijk maar eens rond in de WinSxS map, hele stapels drivers om naar te rollbacken als je systeem al wat ouder is.

Maar het kan niet elke fuckup van derden herstellen. Wat ik begrijp is dat de driver dus vrolijk zichzelf update en alsnog BSOD'd. Volgens het internet is 1 van de fixes blijven rebooten tot het zichzelf naar een werkende versie update. Dat 3-15 keer rebooten nadat de update offline was gehaald, is dus zeer waarschijnlijk een zelfherstellende Windows die (o.a) drivers aan het rollbacken is.
Microsoft is nog steeds verantwoordelijk dat het besturingssysteem blijft werken. De oplossing die Skit3000 noemt zal prima werken, als ook na een rollback de gebruiker wordt gevraagd: applicatie x wilt een driver installeren, vind je dit een goed idee?
Alleen vergeten jullie 1 verdomd belangrijk detail: aan de software die Crowdstrike in de kernel inlaad was NIETS veranderd. Die versie was al meer dan een maand daarvoor bijgewerkt en heeft tot op dat moment zonder problemen gewerkt.

Het probleem is geintroduceerd door bijgewerkte definities, en de Windows kernel is zich helemaal NIET bewust van die bijgewerkte bestanden.

Verder is het bij bedrijfssystemen, waar het bij de Crowdstrike bug exclusief om ging, helemaal te gek voor woorden als je gebruikers zou laten kiezen of dat ze beveiligingssoftware al dan niet wensen te installeren.
Precies dat.

Maar nog verder denkend. Als het enkel definities zouden zijn die worden bijgewerkt dan zouden dat heel simpel uitgedrukt cnstructies als If This Then That moeten zijn. Dit levert in principe voorspelbare condities op en daar zou de software dus nooit op mogen crashen.

Het lijkt er echter op dat het dus mogelijk is om aanvullende code in die definities te stoppen. En daar lijkt het te zijn misgegaan.

In ieder geval een goede stap om er over na te denken hoe hier mee om te gaan.
Ik las in de comments van het vorige artikel hierover dat het ging om een array zonder boundary validatie, dus een bug in de interpreter van de definities, die er al maanden in zit maar tot nu toe nog niet buiten zijn array size kwam.
Dat doet me denken aan een neerstortende Boeing omdat het getal 2^32 ergens werd bereikt. (Zoiets.) Dat kan (tientallen) jaren goed gaan, totdat er een bepaalde waarde wordt bereikt.
Benieuwd wat er in 2037 gaat gebeuren, als oude Linux-systemen tegen zo'n limiet aanlopen. Maar goed, dat is nog ver weg...

[Reactie gewijzigd door kimborntobewild op 24 augustus 2024 16:27]

Het lijkt er echter op dat het dus mogelijk is om aanvullende code in die definities te stoppen. En daar lijkt het te zijn misgegaan.
Hoe ik hem had meegekregen was het niet zo zeer aanvullende code dat in de geupdate definitie zat, maar meer een syntax error. En om bij je if-then statement te blijven, met een syntax error in je if statement crashed je code.
Kijk eens op youtube Dave's Garage is een oud developer van windows
Die zegt kernel errors leiden automatisch tot een BS error trap.
Dit is om schade te voorkomen omdat niet meer kan worden gegarandeerd dat de kernel juist werkt

Als je als software leverancier een update file levert en je verzuimt om een hash te controleren of anderzijds de validiteit van de file te checken dan is dat eigen stomme schuld , was te voorkomen dit
how on earth kun je nou MS de schuld geven van dit?

Gewoon even logisch na en doordenken.
Dat is een beetje beste stuurlui aan wal of je weet niet waarover je praat. Er zijn en blijven hoe dan ook kernel hooks of drivers. Hoe dacht je dat een virusscanner werkt? Die hookt ook ergens op in (file system filter) en ook ergens op de netwerk stack. Als je je technisch in wil lezen, zie bijv. https://learn.microsoft.c...s/filter-manager-concepts. Voor de meeste IT-afdelingen gaat dit ook al veel te diep.

Microsoft kan - al zou ze dat willen - niet alles in eigen beheer houden. Dus komen er per definitie spullen van derden, die inherent aan de plek waar ze in het OS inhaken, met veel rechten draaien.

Veelal zullen (grote) bedrijven policies hebben, waar een AV pakket, een deep-inspection tool, end-to-end security ding zal draaien. Want dat wil management c.q. is ook nodig omdat Truus en Gerrit overal op klikken en een virus of malware wel wat drempels of deuren tegen moet komen, anders heeft een bedrijf ook een probleem. Dus het ergere kwaad wordt bestreden met veelal externe software, waarvan een IT-afdeling (het grondpersoneel) ook niet altijd weet wat het doet. En als techneut mopper je ook weer over de vele PKs CPU power die verstookt wordt aan dit soort producten, maar helaas, company policy (waar ook wat voor te zeggen valt).

Als het zo simpel was al jij zei, dan had het al lang zo gemaakt geweest. Bij (bijvoorbeeld) Microsoft zijn ze niet helemaal gek (integendeel: daar lopen ook knappe koppen rond).

PS. volgens mij zijn alle systemeem bestanden al gesigned/hashed of whatever. Kijk maar naar DISM of SFC.
Daarom had ik het niet over alleen systeembestanden, maar alle bestanden.
Alle bestanden signen/hashen, of alle bestanden terugdraaien?

Een signature / hash zou niet hebben geholpen voor CrowdStrike. Het bestand was "correct" in de zin dat het de juiste versie was, die rechtstreeks van CrowdStrike kwam. Er zat gewoon een fout in.

Alle bestanden terugdraaien is onhaalbaar, en ronduit een slecht idee. Stel je voor, je hebt een BSOD aan het einde van een lange werkdag, en je computer start opnieuw op met de blije boodschap "Windows encountered an issue and rolled everything back to this morning. You may have lost... absolutely everything you did today. Good luck!"
Dit stond eerst boven mijn vorige opmerking, maar is ondertussen wat verschoven. Windows heeft al een functie om shadow copies te maken waarbij je meerdere versies terug kunt halen (mits er schijfruimte beschikbaar is om deze versies op te slaan). Dit kan gewoon toegepast worden.
Ze kunnen de teruggedraaide bestanden nog steeds apart zetten zodat je ze weer terug kunt halen, maar zorgen dat niet met deze bestanden word opgestart.
Overigens moet er na een reboot waarbij bestanden teruggedraaid zijn, natuurlijk wel een (enorm goede) wizard getoond worden waarbij dit aan je duidelijk wordt gemaakt, en waarbij je kunt kiezen om alle bestanden weer terug te plaatsen. Start je computer dan weer opnieuw op, dan weet je dat je in ieder geval even moet wachten tot de juiste (Windows) update is geïnstalleerd die het probleem moet verhelpen, om daarna nogmaals je bestanden terug te plaatsen.
Als je automatisch gaat terugdraaien dan kan er ook data verloren gaan.
Verder ging het bij het CrowdStrike probleem om een channel file (291)
Dit bestand werd door de CrowdStrike kernel driver geladen maar dit valt niet onder een systeembestand
Dus heel simpel zou ik het niet noemen.

Als Windows het bootproces zou verbeteren en je veel eenvoudiger in safe mode of in een recovery Windows PE zou kunnen komen dan zou dat al helpen.
Daarnaast zou Windows eens beter moeten kijken naar Linux.
Bij Linux kun je het bootproces simpel onderbreken.
Verder zie je exact wat er tijdens het opstarten gebeurd en heb je veel sneller door waar het mis gaat.
Windows is een vastgeroest besturingssysteem met backwards compatibility tot in de eeuwigheid.
Men vernieuwd bijna niets, men verzint er alleen maar dingen bij.
Als je bij Linux het bootprocess gaat onderbreken, weet je wat je dan nodig hebt als gebruiker? Het root wachtwoord. Wat heb je op bedrijfscomputers nooit als eindgebruiker? Het admin wachtwoord. Als deze bug zich op Linux systemen had voorgedaan met een encrypted systeem volume had je bijna evenveel kopzorgen gehad.

Bijkomend onderbreek je het init process onder Linux op een veel later moment dan hier zou geholpen hebben. De kernel zal zichzelf eerst volledig laden, inclusief alle kernel modules voordat je maar de kans krijgt in te grijpen in het bootprocess. En waar zat hier het probleem? Juist ja, in een driver die in de Windows kernel wordt geladen.

Bedrijven nemen veel controle van eindgebruikers weg, en met goede redenen. De vertrouwelijkheid van bedrijfsdata is te belangrijk om mensen zomaar alles te laten doen met hun systeem. Hoe vaak ik niet zie dat mensen zich als een duivel in een wijwatervat gedragen om toch maar te proberen door beveiligingslagen heen te prikken, dan zie ik ook direct waarom dit soort toegang net moet verdwijnen.
Volgens dit artikel op NeoWin was dezelfde fout ook al opgetreden in Linux maanden voor de Windows uitval.

Daar hoorde je echter minder tot niets van, want beter oplettende sysadmins en testsysteem uitrol voor goedkeuring uitrol op productie-systemen.
Als mensen niet door hebben dat je als OS bouwer verantwoordelijk bent voor het stabiel houden van het systeem, kun je de zaak in de soep laten draaien en daarna de held spelen door het "op te lossen". Als je je zaakjes technisch goed op orde hebt, gaat het niet zo mis als het bij Windows ging, maar hoort ook niemand over je goede werk en kun je niet de held spelen. Het is walgelijk, maar zo gaat het helaas in deze wereld van onwetendheid.
Volgens dit artikel op NeoWin was dezelfde fout ook al opgetreden in Linux maanden voor de Windows uitval.

Daar hoorde je echter minder tot niets van, want beter oplettende sysadmins en testsysteem uitrol voor goedkeuring uitrol op productie-systemen.
En? Dat kan toch ook bij Windows?
Note1: of het nu Linux of Windows is: als je elke update eerst moet testen op een test-systeem, kan dat een groot bedrijf makkelijk miljarden per jaar kosten.
Note2: als je updates eerst allemaal uitgebreid test op een test-systeem: dan is je software intussentijd niet voorzien van de nieuwste security updates. Hoe los je dat op?
Note3: je kan testen wat je wil: een micro-klein verschil tussen een test-systeem en een productie-systeem kan ervoor zorgen dat het probleem zich niet voordoet op het test-systeem, maar wel op het productie-systeem.
Note4: als het goed is, heeft het bedrijf (Microsoft danwel het betreffende beveiligingsbedrijf) die de softwareupdate uitbracht, zelf al getest. Welk niet-beveiligingsbedrijf heeft betere test-capaciteiten dan die gigantisch grote bedrijven? Kortom: Microsoft en CrowdStrike zullen vooral de hand in eigen boezem moeten steken, op dat congres. Toegeven dat hun testmethodes danwel softwarestructuur niet voldoende goed was.
Me dunkt dat @GeroldM bedoelt dat Crowdstrike zich bewust had moeten zijn dat dezelfde coderingsfout ook in de Windows-versie van hun software zou kunnen zitten. Het was een kritische fout in de Linux software en kritisch is reden genoeg dan ook de Windowsvariant te checken. Hier heeft iemand geblunderd (of teveel bezuinigd).
Dat haal ik niet uit zijn tekst... :|
Ook niet na herlezen met jouw gedacht in het achterhoofd.
Als Windows het bootproces zou verbeteren en je veel eenvoudiger in safe mode of in een recovery Windows PE zou kunnen komen dan zou dat al helpen.
Daarnaast zou Windows eens beter moeten kijken naar Linux.
Bij Linux kun je het bootproces simpel onderbreken.
Dat is iets wat de IT afdeling van het bedrijf waar ik werk onder geen enkele voorwaarde wil vanuit een security oogpunt. Ik denk dat primair het pakket in kwestie zelf de boel moet oplossen door te detecteren wat er misgaat en zelfstandig een rollback moet kunnen doen. Secundair zou je OS wellicht na drie opvolgende vastlopers datzelfde kunnen afdwingen. Maar ook iets dergelijks is niet zonder risico's ...
Als je automatisch gaat terugdraaien dan kan er ook data verloren gaan.
Ze kunnen de teruggedraaide bestanden nog steeds apart zetten zodat je ze weer terug kunt halen, maar zorgen dat niet met deze bestanden word opgestart.
Als je automatisch gaat terugdraaien dan kan er ook data verloren gaan.
Data waar je niet bij kunt, is toch ook al verloren? En nieuwe data die door een storing niet kan worden verwerkt, zal in veel gevallen ook verloren gaan.
Vroeger ging windows een herstelpunt maken en kon je die herstellen mocht er iets mis gaan, zit dit er nog in? Heb al in tijden geen melding gehad.
Dat gaat niet weken omdat die optie voor Windows programma’s is . En er was niks aangepast. Ook niet aan de driver die de boel liet omvallen. Het ging eigenlijk om een data file.
Voor je het weet heb je dan weer Win95 op je systeem staan. :+
Er zijn nog meer simpele oplossingen:
- Een kernel API voor beveiligingsapplicaties (zoals Linux dit heeft) ipv elke ontwikkelaar die het wiel opnieuw moet uitvinden
- Een paar van deze oplossingen in de Windows kernel: https://docs.kernel.org/security/self-protection.html

Inderdaad er is veel foutgegaan in de CrowdStrike applicatie om die code uiteindelijk te publiceren, maar had CrowdStrike binnengedrongen geweest (wat veel mensen de eerste paar uur dachten) was dit evengoed hetzelfde verhaal.

Dit was tov de Windows kernel een out-of-bounds memory error in een driver die de hele kernel neerhaalt, dat zou dag van vandaag niet meer mogelijk moeten zijn, noch Microsoft noch de ontwikkelaar mag zich zomaar vertrouwen op het onfeilbaar zijn van de andere. Als de nVIDIA driver in Linux niet goed meespeelt wordt die er eventueel automatisch uitgeknikkerd maar ik weet hoe ik vb. met CUDA de GPU driver kan laten vastlopen en op Linux blijft alles (SSH, web etc) draaien, in Windows krijg je meestal een BSOD.

[Reactie gewijzigd door Guru Evi op 23 augustus 2024 23:30]

Simpel, computer loopt vast binnen 5 minuten, herinstalleer Windows vanaf 0. Dat is in essentie wat je hier voorstelt. Gaan vele mensen blij mee zijn.

Ik wel, zal mijn gebruikers eindelijk eens leren dat hun harde schijf niet de juiste plaats is om belangrijke data op te slaan, we hebben geen backups jongens!

Neen, tenzij in zeer specifieke gevallen wil je niet achteruit, je wil vooruit. De functie die jij beschrijft bestaat trouwens voor een stuk. Je kan Windows in een goede staat brengen en dan een virtueel bestandssysteem over heel het OS leggen dat je op elk moment kunt verwijderen of net kunt committen. Maar ook dat vereist wel dat je systeem kan opstarten. Maar dat is uiteraard niet bedoeld om je systeem te redden van een slechte definitie update van je virusscanner, maar meer om (semi-)publieke systemen zeer snel naar een werkende staat te kunnen terugbrengen.
Ik zou dan voorstellen als het systeem de module kan identificeren die crasht (door core dump analytics oid) dat deze specifiek wordt teruggedraaid na 3x crashen binnen een uur oid. En als dat niet helpt de module uitschakelen en beheer notificeren. De beveiligingsringen om dat soort software zou in principe bescherming moeten bieden/opvangen zodat je snel kunt ingrijpen zonder dat gebruikers in een cloud systeem er last van heeft en je een al te groot risico loopt op hacks en andere aanvallen.

Wat ook zou kunnen is updates cascadisch doorvoeren en als er een aantal servers omvallen de uitrol stoppen/terugdraaien.

Microsoft zou een robuuster systeem kunnen maken door automatische/unattended rollbacks te integreren in active service systemen bij crashes waarvan je zeker weet dat het in een bepaalde stuk software zit of bepaalde module. Daar hangt natuurlijk wel een prijskaartje aan.
Alleen viel hier niets terug te draaien, er waren geen recente aanpassingen aan de systeembestanden die Crowdstrike laat inladen. En gegeven het doel van de software wil je net niet dat een systeem kan opstarten zonder dat deze software actief is. Anders krijgen malwareschrijvers het weer een stuk eenvoudiger: zoek een bug die de driver laat crashen en Windows zal hem wel uitschakelen waarna je je malware zonder problemen kunt loslaten op het systeem.
De Crowdstrike situatie legt gewoon bloot dat MS niks, maar dan ook helemaal niks test.

Hoeveel gangbare virusscanners zijn er ? ( 5-10)

Is best met een paar test pc`s te doen en ook goed te automatiseren, hoeven echt geen complete game pc`s te zijn.

De NUC`s op ons werk hadden er ook last van. hoeveel ruimte/energie kost een NUC moederbord. (helemaal niks)

MS test niks, zelfs MS insiders waren niet gebruikt om dit soort patches te testen. Alle updates zijn untested meuk, waarin de gebruiker de tester is, updates met het oog op "veiligheid" :P. Lachwekkend gewoon.

Enige oplossing voor grote bedrijven om uit MS`s gijzeling te komen is alle Windows Update services en automatische updates te blokkeren. En 1 keer per half jaar een geteste grote update te doen.
Maarja dat is tegenwoordig unfashionable.

Belachelijk dat het genormaliseerd is om een extern bedrijf volledige macht te geven over eigen bedrijven.
Blijkbaar wordt aan de basis van het probleem helemaal voorbijgegaan.

Een bedrijf dat zeer kritieke software schrijft die wereldwijd op kritieke systemen wordt gebruikt, maar er niet in slaagt om in hun controle protocols vast te stellen dat het parsen van een corrupte config file alles onderuit haalt..

Daar moet nu een conferentie voor georganiseerd worden?

Zou een diepgaande interne audit niet beter op zijn plaats zijn?
Volgens mij is het verhaal veel ingewikkelder dan dat:
https://x.com/Dorizzdt/status/1816890372314071335

Microsoft werd gedwongen om kernel extensions aan te bieden, met dit als het gevolg... Dit "probleem" speelt al bijna 2 decennia maar afgelopen CS f*ckup was de eerste major outage ooit, daarom deze conferentie denk ik.
Ook bij Linux speelt dit issue en die intrusie is misschien nog wel erger dan op Windows (maar het merkbare effect is minder "heftig").

Wordt hoogtijd dat hier beter mee omgegaan wordt in de toekomst.
Volgens mij werd Microsoft alleen gedwongen om concurrenten dezelfde API's te bieden als die door Microsoft's securityproducten worden gebruikt. Dat hoeft niet te betekenen dat ze voor eeuwig kernel extensies toestaan. Ze mogen ook een API aanbieden waarop zowel zij als hun concurrenten producten kunnen bouwen. Blijkbaar is dat Microsoft nog niet gelukt in al die jaren.
Dit dus. Alleen was dat ofwel te moeilijk ofwel te duur voor MS in die tijd om te doen en dus gaven ze maar kernel toegang aan concurrenten. Er staat helemaal nergens in die overeenkomst met de EU dat kernel toegang MOET, er staat alleen dat concurrerende producten dezelfde toegang moeten krijgen als gelijkwaardige producten van MS zelf. Dus als MS nu besluit Defender en andere sec software geen kernel toegang meer te geven, is dat ook volgens overeenkomst.
Microsoft is niet de oorzaak van de bug, maar wil samen met de industrie op zoek gaan naar hoe ze Windows veiliger kunnen maken zonder de neerwaartse compatibiliteit te breken, zonder Windows onveiliger te maken en wil uitzoeken hoe ze beter met bedrijven kunnen samenwerken, hoe ze hen beter kunnen bijstaan om herhaling te voorkomen.

Wat is daar mis mee?

Een RCA bij Crowdstrike is gebeurd, daarmee los je het huidige probleem bij Crowdstrike op, Maar we zijn en blijven mensen, en we zullen fouten blijven maken. Dan is het beter dat we eens samen nadenken over hoe we ons beter kunnen wapenen tegen zulke fouten.
Ik zou zeggen: hier is het eindrapport van Crowdstrike: https://www.crowdstrike.c...e-Analysis-08.06.2024.pdf

Toon mij even waar ze de schuld bij Microsoft leggen voor het laten crashen van systemen:
In summary, it was the confluence of these issues that resulted in a system crash: the mismatch between the 21 inputs validated by the Content Validator versus the 20 provided to the Content Interpreter, the latent out-of-bounds read issue in the Content Interpreter, and the lack of a specific test for non-wildcard matching criteria in the 21st field. While this scenario with Channel File 291 is now incapable of recurring, it also informs process improvements and mitigation steps that CrowdStrike is deploying to ensure further enhanced resilience.
In heel dat rapport wordt nergens gesproken over het nullen van een bestand. Alles is terug te brengen naar 21 inputs die gevalideerd moesten worden door een systeem dat slechts 20 inputs verwachtte gecombineerd met de gaten in hun testen die ervoor zorgden dat dit tot in release is geraakt.

Maar laat me raden, je hebt het rapport nooit gelezen en herhaalt hier iets wat iemand op het internet heeft geschreven?
Dat is niet wat ik lees in de opmerking van CrowdStrike. Ze zeggen dat het gedefinieerd (mogelijk) gedrag is bij een crash en noemen zelfs de reden waarom Microsoft daarvoor gekozen heeft.

Het enige dat ze duidelijk willen maken richting hun klanten is, dat de NUL bytes niet expliciet geschreven zijn door CrowdStrike, maar een gevolg zijn van dit gedrag bij een crash, ook al heeft CrowdStrike de door hun bedoelde definitie in de file geschreven.
Het was geen corrupte file volgens CrowdStrike.

Er waren verhalen over een "configuratie" file met NUL bytes, maar volgens CrowdStrike zijn die het gevolg van het crashen van Windows voordat de inhoud van de file naar de disk is geschreven (sync). De CrowdStrike software kon die data wel al lezen, omdat die in de (write) cache stond. Wat ik ze niet expliciet zie beschrijven, is dat het betreffende systeem dan maar eenmalig zou crashen, en de CrowdStrike software de file na de crash als ongeldig zou behandelen.

In de root cause analysis van CrowdStrike wordt beschreven dat er eerder dit jaar een module was toegevoegd die verdacht gedrag met betrekking tot Windows (IPC) pipes kon detecteren. De bijbehorende "configuratie" files hadden 21 parameters, waarvan er tot het incident maar 20 werden gebruikt. De nieuwe "configuratie" gebruikte als eerste de 21e parameter en dat triggerde de crash.

CrowdStrike gebruikt andere termen voor "module" en "configuratie".

Er is een hoop fout gegaan in het testen en het bieden van mogelijkheden om de impact te verminderen. Ze hebben intussen wat verbeterd en hebben daar nog meer plannen voor. Onder andere klanten in staat stellen tot het gefaseerd uitrollen van nieuwe "configuraties". Tot nu toe konden klanten alleen de software zelf gefaseerd uitrollen (cq één of twee versies achterlopen).

Ik blijf het bizar vinden dat het op alle systemen impact had, maar dat het toch door hun tests is gekomen. Je zou verwachten dat hun standaardtests op z'n minst de wijziging uitrollen op een systeem en dat dit daarna normaal moet kunnen rebooten. En eerder in het jaar moet die 21e parameter al niet getest zijn.

Dit is voorzover ik hun uitleg heb begrepen en het me herinner.
Betere audits is al jaren een te makkelijk excuus. Het verbeteren zorgt namelijk duidelijk niet zomaar voor miljoenen afhankelijken voor enorme probleme problemen in tijd en geld of nog erger.

Een groot gebrek is dat de meeste kopers nauwelijks eisen stellen dat hun leveranciers en softwarebedrijven transparant zijn in de kwaliteit. Men doet vooral aan het niet willen weten hoe men werkelijk werkt, afschuiven van verantwoordelijkheid terwijl men deze software op plaatsen gebruikt waar een fout hele grote gevolgen kan hebben, en als het mis gaat dan gaat men wijzen.

Er zijn bedrijven die wel eisen stellen aan transparantie, die zowel de auditresultaten en de gebreken van die audits inzichtelijk eisen, of die zelf de software (laten) testen en het niet zomaar vertrouwen. Maar dat lijkt niet de gebruikelijke praktijk.

Bij Microsoft kun je verwachten dat ze vooral gaan herhalen nhoe je
hun software en dienstverlening beter kan gebruiken. Bijvoorbeeld door controle te hebben niet alle belangrijke systemen tegelijk van updates te voorzien, de (on)beschikbaarheid van systemen kan meten, hoe je logbestanden kunt gebruiken om oorzaken van problemen vast te stellen enz.

Maar als Microsoft zelfs maar gaat noemeb dat je kan eisen dat softwareontwikkelaars transparanter te zijn over de kwaliteit van hun broncodes, de werkelijke manier van ontwikkeling en gebreken in audits dan zou dat mij verbazen. Dat is voor hun, en veel andere ontwikkelaars, een te groot risico. Anders had men het allang breed aangeboden.
'Niet alle eieren in een mandje.' Al is dat in de praktijk vaak lastig.
Op hoog niveau binnen de Rijksoverheid wordt voortdurend gepleit voor normering en standaardisatie op set producten. Het maakt ook heel kwetsbaar.
** Sarcasm mode **

Mooi om te horen dat er hier velen zijn die een hele simpele oplossing hebben. Ik zou vooral zeggen, ga naar die conferentie bied je diensten aan.

** Serieuze mode **

Wat ik eigenlijk hoop dat de bedrijven als Microsoft een pas op de plaats gaan maken.

In plaats van focussen op weer nieuwe halfbakken features, ai, halve configuratie schermen aanpassen en weer iets anders, eens fundamenteel gaan werken aan de kwaliteit en veiligheid van hun producten.

Dus Microsoft e.a, doe de komende 3 jaar nu eens geen nieuwe product launches maar zet al je tijd en middelen in om je producten te fixen en zorg dat we eigenlijk eens echt kwaliteit krijgen.
Niet Microsoft verdedigende zie ik die feature-hijgerigheid bij meer grote software bedrijven. Wat ik ook zie is dat het update regiem zo dominant lijkt te zijn geworden dat het losgezongen lijkt te raken van de eigenlijke redenen van updates, software repareren en functioneel verbeteren.

Om alles aan de druk van de marketing te wijten is misschien te simpel. Door de dominantie van de sturing op tijd is zo wel een risico geintroduceerd dat vernieuwing in de software en softwarereparaties te snel beschikbaar komen. Dit is geen oorzaak van alles, die pretentie ga ik niet hebben, maar die druk kan wel tot gevolg hebben dat bochten bij Crowdstrike afgesneden raakten.

Wat ik in totaal niet aan dit topic gerelateerde software meemaak is dat ontwikkelingen jaren te vroeg voor gebruik worden vrijgegeven. Vernieuwde functionaliteit is op zo'n moment niet volwassen, onvolledig en werkt zelfs disruptief op het functioneren van de software en de eerdere functionaliteit die het moet vervangen. Jaren later, en meerdere software versies verder raakt de eerder ingezette verandering compleet en valt ze functioneel op haar plek. In de tussentijd hebben gebruikers met mankerende functionaliteit gewerkt.

Ik zie een beetje een analogie in wat hier met nog meer bedrijfskritischer software is gebeurd. Het dwingende tijdgeregeerde regiem in combinatie met te snel willen veranderen of veranderen om maar te kunnen veranderen zorgt voor een toxische cocktail waardoor de eigenlijke softwarekwaliteit zo kan ondersneeuwen als we hier zien gebeuren.

Zo'n conferentie is helemaal niet zo gek, misschien is alleen een andere meer naar achter stappende vraagstelling nodig.
De crowd strike storing heeft vrij weinig te maken met jou verhaal.
Sterker nog Microsoft wil bedrijven helemaal niet de mogelijkheid gegeven om in deze mate in het OS te zitten.
Echter onder de druk van de Europese Unie als ik me niet vergis, is afgedwongen dat derde partijen zoals crowd strike de zelfde mogelijkheden moeten hebben als Microsoft zelf.
Is dit niet bij uitstek waarom je een recovery environment hebt?

Dit geautomatiseerd afvangen gaat natuurlijk nooit voor alle gevallen lukken, reserveer maar een losse partitie met een kopie van het basis systeem (op patch niveau -1 ofzo) en start daar in op als je in een crashloop komt op je primaire partitie. Zorg dat remote access mogelijk is voor de industriële machines.

Soort van Android A/B systeem.

[Reactie gewijzigd door Steef op 23 augustus 2024 22:53]

Dit is toch echt een probleem waar allang een oplossing voor bestaat...
Gewoon niet updates geforceerd verspreiden en meteen installeren op alle systemen. Dit is echt niet zo moeilijk om te bedenken. Maar CrowdStrike heeft weer eens duidelijk gemaakt waarom dat gewoon gezond verstand is. Dat ze deze mogelijkheid niet eens volledig boden (niet alle updates waren te vertragen) voordat ze miljoenen systemen lieten crashen, is gewoon pure onkunde. Elke (half) competente IT'er begrijpt dit. Je vertrouwt als regel geen enkele update zomaar. Dus je draait dus iets van een pre productie/test/acceptatie voordat er updates naar alle systemen gaan.

En nu moeten we conferenties krijgen waar zeker allemaal "briljante" oplossingen worden bedacht voor dit "probleem". Alles om maar af te leiden van wat hier gebeurd is. CrowdStrike heeft een enorme fout gemaakt omdat ze hun interne procedures niet op orde hadden. Dat is heel fijn voor een bedrijf dat zo aangeraden is door adviesbureaus en organisaties en zoveel systemen van grote bedrijven beveiligd. Iets waarvoor ze kernel level toegang hebben. Ze hebben geen marge voor fouten of dit soort amateurisme. Niet met EDR/XDR systemen die enorm veel rechten hebben op systemen. Dat ze het echt verprutst hebben, hebben ze eigenlijk ook al moeten toegeven. Om het maar even te stellen op een manier die aandeelhouders wel begrijpen; dat is corporate governance failure. En dat Microsoft ze de hand boven het hoofd lijkt te houden, vind ik echt onbegrijpelijk. Nota bene omdat je heel veel over Microsoft kan zeggen. Maar Microsoft geeft je tenminste wel ruime mogelijkheden om updates gefaseerd te verspreiden.
Je moet de update zien zoals een anti- virus lijst waar bijvoorbeeld een hash in staat. Het was geen software upgrade maar een configuratie update ( patern).
Die ga je als klant nooit testen, komen soms meerdere keren per dag binnen
Ik werk zelf met een concurrent systeem. ;)
edit: Weggehaald omdat ik dit verder niet wil bespreken.

[Reactie gewijzigd door DaniëlWW2 op 24 augustus 2024 11:36]

Dus als een bug pas bij de volgende herstart zich zal voordoen heb jij alsnog al je systemen gepatcht tegendat je doorhebt dat er toch iets mis was.

En al je dominos staan alsnog op 1 lijn en vallen allemaal om.

Wat hier met Crowdstrike gebeurt is, is zo verdomd uniek en gebeurt zo zelden, en gelukkig maar, dat we ook vandaag nog niet weten wat de goede oplossing is om het goed tegen te gaan.

Jij hebt een risico afweging gemaakt en daarbij voor een bepaalde strategie gekozen, en dat is goed. Maar niet iedereen zal bij diezelfde afweging dezelfde keuze maken. Soms is het belang van snel je definities updaten belangrijker dan de zeer kleine kans dat het misgaat.
Signature updates vragen niet om een reboot. ;)
Dat is precies wat er misging met CrowdStrike. Het was een update die zich meteen installeerde en bij het uitlezen meteen voor een BSOD zorgde omdat een kernel level driver een fatale fout onderging en Windows haar zelfbeschermingsmechanisme activeerde en het OS liet crashen.
En wat gaat ier op die top dan besproken worden?
Het afsluiten van de kernel voor derden (en 99% van de Microsoft sofware).
Er hoeft niets veranderd te worden. Als bedrijf bepaal je zelf met welke software leveranciers je zaken doet, en daar ben je dan afhankelijk van. Het is net welke mensen je in je land binnenlaat en raar opkijkt als er een incident is. De oplossing is simpelweg geen zaken doen met CrowdStrike.
Krijgen we ook geleerd hoe we om moeten gaan met de maandelijkse blunders van Microsft bij updates?
Dat is wel een mooie manier, nu is het ineens "ons" probleem. Misschien niet een aantal bedrijven die zo'n grote invloed op onze dagelijkse infrastructuur hebben zonder dat er ook maar een manier van overzicht is op hoe deze bedrijven hun processen hebben ingericht.
Ik heb genoeg dingen met updates fout zien gaan. Grote bedrijven die zelf hun update-pakketten maken, die uitvoerig testen en na uitrol er alsnog onvoorziene fouten optreden. Je kunt niet alles testen en voor zijn maar eens, gemakzucht, haast, kosten/bezuinigingen, gebrek aan discipline en genoeg andere redenen waardoor zoiets fout kan gaan.
Tuurlijk, neemt niet weg dat het wel grote gevolgen heeft voor onze steeds meer digitale samenleving. Daar kunnen we het best wel eens over hebben lijkt me.
Heel simpel; gewoon geen klant worden van een bedrijf waar je geen inzicht hebt in hoe ze hun processen hebben ingericht.
Hoe zou je dat inzicht willen verkrijgen? Crowdstrike heeft alle bekende certificeringen die zo op het eerste gezicht genoeg garantie zouden moeten geven. https://www.crowdstrike.c...compliance-certification/
Certificeringen zijn heel mooi op je sheet met vakjes die je mooi kan aanvinken, echter in de praktijk blijkt het vaak een wassen neus. Ik heb bij verschillende bedrijven certificeringen voorbij zien komen en toch ging er van alles mis.
Ik heb bedrijven gezien waar het prima werkt dus daar heb je je n= 1. Maar goed, dat was niet mijn vraag. Ik ben erg benieuwd hoe de vraagsteller de processen gaat checken van alle partijen waar hij mee samenwerkt.
Klopt maar hoe zou jij het dan oplossen? Wat jij stelt, ik ben het daarmee eens hoor, maar ik vraag me dan af of dit überhaupt, met de beste wil, te voorkomen? Er is altijd in het proces, hoe goed dan ook, een menselijke schakel.
Moeilijk, meestal gaat het mis op management niveau en de certificerende instantie kan niet altijd goed toetsen of de normen goed geïmplementeerd zijn. Implementatie kost tijd en geld en als er weinig controle op is wordt ermee gesjoemeld.
Als het verdien model het bedrijf niet stimuleert om kwaliteit te leveren dan gaat het vaak mis.
Ik zeg altijd dat security van de ontwikkelaars moet komen en certificering van managers. Het heeft in de praktijk niet heel veel met elkaar te maken.
Okay, noem dan eens een bedrijf met meer dan één medewerker en wat niet jouw eigen bedrijf is, waarvan je weet hoe hun processen zijn ingericht. Alle multinationals vallen al af, zelfs de lokale bakker om de hoek is al geen optie meer voor de broodjes tijdens de lunch...
Dus jij bent nergens klant?
Beetje lastig als diegenen (NHS bijvoorbeeld) diensten afnemen van deze partijen en jij alsnog de sjaak bent: geen operatie.
Dat is lastig wanneer je in de UK woont: Wikipedia: National Health Service

Op dit item kan niet meer gereageerd worden.