Microsoft: CrowdStrike-storing trof 8,5 miljoen Windows-apparaten

Zo'n 8,5 miljoen Windows-apparaten zijn getroffen door de storing in de beveiligingssoftware van CrowdStrike, waardoor afgelopen vrijdag systemen van tal van organisaties plat kwamen te liggen. Dat schrijft Microsoft in een blogpost.

Volgens Microsoft zorgde de storing voor crashes bij 'minder dan een procent' van alle Windows-apparaten, maar doordat de beveiligingssoftware vooral gebruikt wordt door grote organisaties, heeft deze alsnog tot een hoop problemen geleid. Het is voor het eerst dat er iets bekend is over de schaal van de wereldwijde storingen die vrijdag plaatsvonden.

Volgens de BBC is dit hiermee mogelijk de grootste wereldwijde computerstoring ooit. Hiervoor zou dat record op naam staan van de WannaCry-ransomware, die er in 2017 voor zorgde dat naar schatting zo'n 300.000 systemen plat kwamen te liggen.

Microsoft zegt in zijn blogpost verder samen met CrowdStrike te hebben gewerkt aan een 'schaalbare oplossing waarmee Microsofts Azure-infrastructuur kan zorgen voor een snellere fix voor de defecte update'. De techgigant werkt hiervoor ook samen met zowel Amazon Web Services als Google Cloud Platform.

CrowdStrike heeft zelf inmiddels ook wat meer details over de storing openbaar gemaakt. Volgens het bedrijf vond deze plaats door een sensorconfiguratieupdate en niet door een kerneldriverupdate, zoals eerder werd gedacht. Configuratieupdates vinden meerdere keren per dag plaats als reactie op 'nieuw ontdekte tactieken, technieken en procedures', zegt het bedrijf. Volgens CrowdStrike is het continu verzenden van deze updates een normaal onderdeel van de Falcon-software.

Het beveiligingsbedrijf beweert dat de update die vrijdagochtend leidde tot de grootschalige storing, bedoeld was om pas ontdekte, kwaadaardige named pipes te identificeren die in cyberaanvallen gebruikt zouden worden. De update werd uitgevoerd in de .sys-configuratiebestanden waarvan de naam begint met 'C-00000291' en veroorzaakte 'een logicafout die leidde tot systeemcrashes en blue screens op getroffen systemen'. CrowdStrike zegt niet hoe die logicafout precies plaats kon vinden.

Windows-apparaten die CrowdStrike Falcon-versie 7.11 of hoger draaiden en vrijdag tussen 06:09 en 07:27 uur de update installeerden, kregen te maken met de storing. Op het laatstgenoemde tijdstip draaide CrowdStrike de update terug. De storing heeft voor grootschalige problemen gezorgd in onder meer de luchtvaart en bij ziekenhuizen.

Door Kevin Krikhaar

Redacteur

21-07-2024 • 10:30

206

Submitter: wildhagen

Lees meer

Reacties (206)

206
202
111
7
0
58
Wijzig sortering
De update werd uitgevoerd in het configuratiebestand C-00000291*.sys en veroorzaakte 'een logicafout die leidde tot een systeemcrashes en blue screens op getroffen systemen'. CrowdStrike zegt niet hoe die logicafout precies plaats kon vinden.

Op diverse fora gaat rond dat het om een null point error gaat, naar iets verwijzen in het geheugen dat er niets is.
https://www.thestack.tech...-null-pointer-blamed-rca/
https://mcsee.medium.com/...dstrike-null-4d73806a8d25
Dat bleek dus niet te kloppen. Iemand op Twitter schreeuwde dat op basis van het benaderde geheugenadres, maar in de code zelf staan de nodige null checks. Bij een null dereference met de Microsoftcompiler zou je andere assembly verwachten, al dus Google's expert in reverse engineering.

Het lijkt om C(++) z'n andere grote valkuil te gaan: ongeinitialiseerd geheugen.
Ugh, je hoopt toch dat je dat eruit haalt met een static analyzer. Maar goed, die zijn nog steeds niet volledig dekkend en ik vermoed dat ze dat ook nooit worden (vanwege Halting problem). Toch vraag ik me dan wel af of die tools gedraaid zijn, want de meeste problemen zouden toch gedetecteerd moeten worden. Nou zijn dit soort tools meestal niet de netst geprogrammeerde programma's: je doet eigenlijk een kernel hack om het ding überhaupt uit te kunnen voeren (hoewel de meeste OS makers ondertussen natuurlijk wel "hooks" beschikbaar stellen voor veel taken).
Laat het nu net een Kernel gerelateerde systeem bug zijn die gewoon je hele systeem kan doorzien en kan plat leggen zoals we hebben gezien , een Kernel Load Module als een *.sys , we zeuren over anti cheat software die kernel gerelateerd zijn maar dit lijkt me toch een stapje erger dat er zo maar even 8.5 miljoen systemen plat gelegt kan worden , veronderstel dat een hacker toegang zou hebben dan leg je de hele wereld plat zo ongeveer.
Ik weet niet hoeveel checks er zijn op de pipeline van Windows Update, maar iemand die een succesvolle Supply Chain attack kan uitvoeren op Windows Update, en dit doet met een kritieke beveiligingsupdate kan dan in een zeer korte tijd nog vééél meer schade aanrichten. (doorgaans worden die niet vertraagd en onmiddellijk geïnstalleerd)
Ik ben het met je eens dat het probleem niet slechts de fout in het programmeren is. Maar laten we dan wel naar de werkelijke omstandigheden wijzen.

Het bestand had de sys-extensie, maar het was geen Kernel-module. Net als bestanden met een doc-extentie nooit zomaar een microsoft-word-bestanden zijn. En de fout kwam ook niet omdat het systeem de extentie of het bestand interpreteerde als kenel-module.

De software van de fabrikant bleek niet in staat goed met het bestand om te kunnen gaan en die software heeft nogal veel rechten om zware gevolgen voor belangrijke systeemfunctionaliteiten te hebben. Nu was de oorzaak een update van detectiegegevens waar de software zich in verslikte, de volgende keer misschien een update van belangrijke drivers/modules. Hoe dan ook kunnen gebruikers zich maar beter afvragen waaruit blijkt dat als het vaak wel goed gaat het dus maar verstandig is standaard maar zoveel rechten en vertrouwen te geven.
Anoniem: 334725 @wow721 juli 2024 18:20
Als hacker is dit precies wat je wilt: Een backdoor naar miljoenen systemen met automatische updates. 1 enkele vendor attack en je hebt de wereld in je handen.
Dat is ook waar regeringen het meeste voor waarschuwen. Supply chain attacks. Zijn enorm populair in landen zoals Rusland en Iran.
En ook interessant was dat het al de tweede CrowdStrike-update in korte tijd was die voor problemen zorgde: https://www.thestack.tech...requires-windows-reboots/
Zag ook posts dat in april er een kernel panic op linux was met crowdstrike en ubuntu -1 version.
En iedereen heeft het maar over Microsoft, maar blijkbaar is CrowdStrike er dus ook voor Linux?
En Mac - vanaf MacOS 11
Ja het is een complete suite, dus ook voor Iphone en Android. Het is wel makkelijk om vanuit mobile device management alles bij 1 leverancier te leggen dan heb je dus 1 dashboard. Gevaar is wel dat het goed fout kan gaan.

Waarom je met Mac en Linux crowdstrike zou willen geen idee, kun je beter en anders beveiligen.
Om wat je zelf eigenlijk al zegt; overzicht houden. Kan me voorstellen dat het bij threat hunting en (forensische) analyse ook handig is.

Maar ik ken de software niet persoonlijk, dus het is gissen.
In de 8088-real mode kun je geheugen "aanspreken" wat er niet is en dan loopt je systeem vast. Maar sinds de 80286 in protected mode kun je toch geen geheugen aanspreken buiten dat virtuele gedeelte wat je hebt gekregen? Dus dan zou het OS dat moeten afvangen en gewoon verder moeten gaan? Of wordt de driver al geladen voordat Windows omschakelt van real mode naar protected mode? Een moderne CPU start toch nog steeds op in real mode?
Wat jij zegt klopt voor user-mode programma's. Meer kernel-mode kan gewoon overal bij en als je naar een virtueel adres wijst dat fysiek niet bestaat, dan gaat het alsnog mis. Die scheiding tussen kernel en user-mode is juist wat een modern OS zo stabiel maakt. Deze driver draaide volledig in kernel-mode en een fout in de driver kan dus je hele systeem onderuit trekken.
Maar dan wil je toch geen software in kernel mode (ring 0?) draaien? Een third party die in kernel mode draait zou dus eigenlijk verboden moeten zijn. Dan haal je het hele concept van de 80286 en latere processors en hun privileged ringen (ring 0 t/m 3) onderuit.
Welke software zou je dan wel in ring-0 willen toelaten? Er zijn gewoon drivers nodig die in ring-0 moeten draaien vanwege toegang tot bepaalde hardware, geheugen, interrupts, ... maar vaak ook vanwege performance of andere eisen die niet mogelijk zijn in user-mode.

Zowel Windows, Linux en MacOS (is een Unix-derivaat) gebruiken kernel-mode drivers, omdat dit de enige manier is om low-level in te grijpen in het systeem. Maar behalve op kernel niveau heb je ook nog BIOS code dat low-level kan ingrijpen, dus er zijn sowieso al meerdere partijen op heel diep niveau toegang hebben.

Je kan niet van MS verwachten dat die drivers voor alle hardware maken. Dat kan de fabrikant vaak veel beter, maar soms gaat het mis. Kernel drivers schrijven is een vak apart. Fabrikanten hebben ook geen trek in een slechte naam doordat ze rotte drivers leveren die hele systemen down brengen. Daarom worden ze vaak ook best goed getest.

Tegenwoordig komen BSODs ook nog maar amper voor. Het probleem hier is vooral de schaalgrootte waarop die crash heeft plaats gevonden. Miljoenen systemen zijn binnen een uur geupdate en de oplossing is vaak handwerk. Dat maakt het zo ingrijpend.
Super interessant. Zou de hal.dll niet in Ring 0 moeten draaien en alle communicatie met peripherals moeten regelen zodat die andere dll's gewoon in Ring 3 draaien? Waarschijnlijk kan een Ring 3 programma dan alsnog een crash veroorzaken door gewoon met hal.dll te communiceren? Het voelt nu een beetje alsof de LPT poort die aan de DMA controller hangt een enorm beveiligingsrisico is.
Elke driver in ring 0 is een potentieel risico, maar (mits goed geschreven) is het vrijwel nooit een probleem. Het probleem is dat software steeds complexer wordt, waarbij de programmeertaal niet is meegegroeid. In de basis is C/C++ die we gebruiken voor kernel-ontwikkeling niet grondig meer aangepast sinds de jaren 90. Dat is allemaal ontwikkeld in een tijd dat CPUs nog 1 core hadden en synchronisatie een minder groot issue was dan nu.

Je ziet wel dat veel fabrikanten overstappen van de C/C++ programmeertaal naar Rust voor driver-ontwikkeling. Die taal heeft veel ingebouwde features, waardoor je minder snel dit soort fouten krijgt. Die taal is ontwikkeld om hetzelfde te kunnen als C/C++ (begrijpelijk, snel, geen garbage collection nodig, ...), maar als primaire voorwaarde dat die veel veiliger is. Een probleem dat twee threads in hetzelfde blokje geheugen zitten te rommelen zonder goede synchronisatie zal in Rust vaak al tijdens het compileren naar voren komen i.p.v. tijdens executie van de code. Hetzelfde met out-of-bounds addressering of uninitialized memory. Bij Rust zal dat vaak al veel eerder opgemerkt worden. Niet 100% veilig, maar wel een stuk veiliger...
jetspiking Freelanceredacteur @H92!21 juli 2024 11:43
Het is geen null pointer, immers gaat het in de afbeeldingen in de links om een valide gebeugenadres. Het lijkt eerder om een niet correcte pointer dereference of verkeerd gealloceerd / geïnitialiseerd geheugen te gaan.
Anoniem: 334725 @H92!21 juli 2024 18:19
Het is een definitie bestand die beschrijft wat de engine moet doen. Blijkbaar heeft het iets gemarkeerd dat nodig is voor je systeem, en dat is waarom het onderuit gaat.

Ik vind het apart dat dit blijkbaar nodig word bevonden door auditors. Kernel level bescherming was en blijft een slecht idee. En dan ook nog automatische updates doen... lol
Ben benieuwd of Microsoft nu eindelijk eens wat gaat doen om 3rd party drivers te isoleren van de kernel. Helemaal bij het opstarten zou deze uitgeschakeld en overgeslagen moeten worden zodat het OS verder opstart. Wellicht mis je dan wel een bepaalde functie of ziet je beeld er wat slecht uit omdat de 'basic driver' het overneemt maar in ieder geval geen bootloop.
Microsoft wilde er iets aan doen in Windows Vista; low-level functionaliteit via API’s beschikbaar maken in plaats van een iets op kernel-niveau te laten draaien. De antivirus-industrie had geen zin om dingen te herschrijven en dreigde met rechtszaken. (Mede) daardoor zitten we nu in deze situatie.

Wanneer een kernel driver de mist in gaat, kun je eigenlijk geen aannames meer doen over de stabiliteit van het systeem; ‘overslaan’ is dus niet zo simpel. Bovendien zou dat in dit geval de veiligheid in het gedrang brengen en het mogelijk makkelijker maken om bij systemen binnen te dringen.
Met een beetje mazzel zorgt dit incident er voor dat ze in de volgende versie van Windows directe kernel toegang wel kunnen blokkeren.
gebruiken nu de nieuwste anti-cheat software niet ook dit toegang tot de kernel?
Dat is inherent onmogelijk. Dergelijke drivers moeten directe toegang hebben tot alle aspecten van het OS en de hardware. Er is wel enorm veel werk verricht om het stabieler te krijgen als je kijkt naar het Win9* tijdperk, maar op een bepaald punt houdt het op. Die verantwoordelijkheid ligt bij de ontwikkelaar van de driver, niet bij Microsoft.
Het is niet onmogelijk, dat is al lang en breed ontkracht. Er wordt alleen geen gevolg aan gegeven. Wat @Korben schetst is heel basaal hoe een driver zou moeten functioneren. Werken met calls zodat de kernel de 'ring 0' niet direct beschreven kan worden of gedwongen in een fout. Deze zou volledig geïsoleerd moeten draaien waardoor de integriteit beschermd blijft.

Als dit niet genoeg de noodzaak aantoont voor een verandering dan weet ik het ook niet meer. Dan hoop
ik bijna dat dit soort incidenten vaker gaan gebeuren waardoor hier meer respect en ruimte voor gegeven gaat worden. De hele wereld draait op IT maar verbeteringen worden door 'het grote geld' tegengehouden. Dat vind ik een zorgelijke combinatie.
Anoniem: 1849202 @naaitsab21 juli 2024 18:00
Hoe gaat dit in zijn werk als beveiligingssoftware op bij wijze van Ring 1/2/3 mag werken, maar malware zich nestelt in Ring 0 via een (0-day) bug in bijvoorbeeld de kernel?

Krijg je dan geen situaties waarbij de malware niet te detecteren is tenzij er hele opvallende zaken op je computer gebeuren?

Datzelfde zie je met Cheat-software dat werkt op kernelniveau en om dit af te stoppen moet de anti-cheat software dus ook in de kernel draaien... anders gaat dit volledig ongemerkt zijn gang.

[Reactie gewijzigd door Anoniem: 1849202 op 22 juli 2024 13:17]

Zelf verwacht ik dat jouw oplossing wordt gezien als een 'breken van backwards compatibility'-geval en dat er daarom weinig tot geen moeite in word gestoken. Dit is namelijk zo heilig bij Microsoft dat het ongezonde vormen begint aan te nemen.
De dag dat Microsoft dit gat dichtgooit hebben ze rechtszaken van alle 3rd party aanbieders van beveiligingssoftware op hun nek.
Als er genoeg tijd gegeven wordt voor aanpassingen en Microsoft/Linux ontwikkelt een degelijke API oplossing dan wens ik deze bedrijven met voorbeelden als deze Crowdstrike storing veel success in de rechtszaal.

Dit is niet morgen geregeld, dat snapt iedereen maar achter een systeem blijven hangen wat super kwetsbaar is en in essentie stamt uit 1980 is natuurlijk niet houdbaar in de huidige IT-afhankelijke wereld.
Dus je wil je beschermingssoftware in Windows niet de kans geven om al tijdens het opstarten van het OS je te beschermen terwijl malware zich niets van dat soort principes hoort aan te trekken.
Niet op deze manier nee. De 'veiligheids-driver' in kwestie is in dat stadium schijnveiligheid gezien de EDR/XDR service/software erachter zelf niet actief is. Drivers worden geladen voor services. Als de stof je interesseert kijk eens naar o.a. "AvNeutralizer" van FIN7 om te zien hoe kwetsbaar de meeste pakketten zijn.
Let op dat dit issue in mei speelde bij Debian/RedHat/Rocky Linux. Het OS zou inderdaad resistent moeten zijn, maar die pruters van Crowdstrike moeten een keer iets testen voor ze het op grote schaal doorvoeren....

https://forums.rockylinux...x-after-9-4-upgrade/14041

https://www.techspot.com/...y-linux-earlier-year.html
Wel bijzonder dat je nergens leest hoe het komt dat deze update niet getest lijkt. Zoals ik het lees ging het systematisch mis op alle windows computers, dat zouden ze toch moeten hebben kunnen zien in een testomgeving?

Of gewoon gevalletje wel gebouwd niet getest?
Dit soort updates moet je vergelijken met antivirus definities, niet met applicatie/OS updates. Soms zijn er meerdere versies per dag en tegen de tijd dat je klaar bent met testen is de update al weer verouderd. Als IT afdeling moet je dus de afweziging maken wat een groter bedrijfsrisico vormt: achterlopende antivirus definities, of een fout zoals afgelopen week. Een hogere frequentie van probleem of een hoge impact van problemen. Meestal is dat ene grote incident minder erg dan een constante stroom kleine incidenten.
Dat kan wel zo zijn, maar een paar weken daarvoor had CrowdStrike ook al een serieuze nare bug met grote impact: https://www.thestack.tech...requires-windows-reboots/ Er lijkt dus wel een patroon in te zitten.

[Reactie gewijzigd door TheVivaldi op 22 juli 2024 13:17]

Misschien dat er op een dag dezelfde etnische normen worden gehanteerd in de ICT als in de zorg. Een tuchtcollege voor programmeurs wellicht?
Etnische of ethische?
Ik mag hopen dat laatste.
En wat zou dat oplossen? Stel dat iemand een fout heeft gemaakt, dan stuur je die nu de laan uit met een boete. Dat helpt niet... Kijk liever naar de luchtvaartindustrie waar men probeert te leren van fouten, waardoor het steeds veiliger wordt. Maar 100% veilig is een utopie en ga je niet redden. Er zullen altijd risico's blijven.

Het probleem is ook niet dat iemand een fout heeft gemaakt in de code. Het probleem lijkt dat de procedures om dit soort fouten tijdig te onderkennen niet afdoende waren. Maar je kan niet alle mogelijkheden testen. Daar is dit soort software te ingewikkeld voor. Je kan wel proberen de boel zo op te zetten dat het beter testbaar is, maar ook dat is geen 100% garantie.

CrowdStrike wordt keihard afgestraft, want het bedrijf heeft veel beurswaarde ingeleverd. Dat doet ze flink pijn en wellicht volgen er nog wel meer sancties (bijv. schadevergoedingen). Het is te kort door de bocht om deze fout bij één programmeur neer te leggen...
Ik weet niet waar ik het las, mogelijk ook op Tweakers, naar het schijnt heeft Crowd Strike vrij recent hun ontwikkeling naar India verplaatst. Mijn eigen ervaring is dat het dan kwa kwaliteit eerst enorm inzakt en soms een paar jaar duurt voordat het weer op hetzelfde niveau zit of gewoon niet meer hersteld wordt. Ikzelf heb daar al genoeg slechte ervaringen mee op gedaan bij verschillende opdrachtgevers, geldt zowel voor support zaken als ontwikkeling.

Dat wat men denkt te besparen, gaat elders weerverloren, maar omdat dit dan verschillendepotjes zijn "ziet men dit niet".

[Reactie gewijzigd door _Dune_ op 22 juli 2024 13:17]

Developmenbt verplaatsen doet dat altijd gelijk waar naar toe, goed controles en testen is de oplossing.
Die zitten trouwens als jaren in india zoals zowat elke andre grote bedrijf.
Dit had CrowdStrike moeten testen, niet de organicities in kwestie. Antivirus definities worden doorgaans ook automatisch uitgerold zonder dat deze hiervoor door de OTAP gaan, dus je vergelijking is prima.
Aangezien die definities niet worden verspreid om de snelheid en hoeveelheid maar om te beveiligen (en dus ook dit soort massaal onbruikbaar maken van miljoenen apparaten en alle gevolgen daarvan te voorkomen) is het dan aan een securitybedrijf om aan te tonen dat die snelheid en gebrek aan testen gepaster zijn dan de wil om alle klanten maar massaal en snel van dit soort updates te voorzien.
Daarbij zijn van groot belang dat lang niet alle risico's voor alle klanten even relevant zijn en de verhouding tussen tijd nemen om te analyseren van malware en tijd nemen een deugdelijke oplossing te bieden ook niet zomaar in redelijke verhouding staan.

Het probleem is dat dit soort bedrijven nauwelijks transparant zijn hoe ze zelf verantwoordelijkheid nemen voor wat ze doen en laten. Er is heel veel marketing over wat ze voor een klanten als 'oplossingen' bieden en hoe lang dat al goed zou gaan, maar er is weer bar weinig inhoudelijke verantwoording hoe ze hun processen ingericht hebben en welke gebreken er allemaal zijn die juist risico's voor klanten vormen. Waarbij men het kennelijk ook liever niet heeft over hun verantwoordelijkheid richting de miljoenen afhankelijken waarvan men op de vingers kon natellen dat ze met de hoge rechten op al die systemen enorme problemen kunnen veroorzaken. Ze zijn vooral als het mis is gegaan eens heel erg sorry. Wat absoluut niet genoeg is om dit soort problemen te voorkomen.
Hij heeft het over testen bij de leverancier die gewoon een defecte update rondgestuurd hebben pats boem wereldwijd die alle Windows installaties met hun pakket liet crashen. Hoop dat onderste steen boven komt. Flater van jewelste.
Dat bedrijven deze definities niet testen is volstrekt logisch. Maar CrowdStrike had dat natuurlijk wel moeten doen. Als ik de tekst goed begrijp zat er een fout in de driver, die bij bepaalde definities dus onderuit gaat. Dat is op zich al een fout, maar software heeft nu eenmaal fouten en dat is niet het grootste probleem. Als je niet weet waar de fout zit, dan is het soms lastig om er op te testen.

Wat ik niet begrijp is waarom CrowdStrike deze foute definities niet zelf heeft opgemerkt. Je zou verwachten dat zo'n configuratie-update op een aantal systemen getest wordt voordat het de deur uit gaat. Of dat is helemaal niet gebeurd of niet goed genoeg. Wat ik lees gaat vrijwel elke server onderuit bij het laden van deze configuratie. Als het nu enkel was in combinatie met een bepaalde RAID driver, dan had ik mij er nog iets bij voor kunnen stellen.

Ik ben heel benieuwd naar het uiteindelijke verhaal en waarom dit is misgegaan. Dit is niet zozeer een fout van een programmeur, maar denk ik eerder toe te wijzen aan een falend testbeleid.
Omdat je niet alle configuraties kunt testen? Dat is meestal het standaardantwoord.
Maar als ik het zo zie, leek het wel op iedere configuratie mis te lopen? 8.5 miljoen Windows apparaten die getroffen zijn. Dat zijn 8.5 miljoen Windows apparaten die tussen 06.09 en 7.27 online waren. Dat is een behoorlijk korte tijdspanne om zoveel toestellen die update te bezorgen, die dan ook nog eens over Crowdstrike moeten beschikken. Stel de vraag eens omgekeerd: hoeveel toestellen met Crowdstrike, die online waren op die tijdstippen en die de update binnengehaald hebben, hebben geen problemen gehad? Denk met zulke getallen dat je bijna 0 zult kunnen zeggen.

Maw: Dit zal configuratie onafhankelijk zijn geweest en zou vrijwel meteen door de mand moeten zijn gevallen bij tests.
Ik zei alleen wat meestal het standaardantwoord is, niet dat ik het daar ook mee eens ben. Zie ook mijn reactie daarboven: TheVivaldi in 'Microsoft: CrowdStrike-storing trof 8,5 miljoen Windows-apparaten' Dat was ook zo'n fout die iedereen trof en voorkomen had kunnen worden.
Ja dat weet ik, maar met zulke getallen geraak je echt niet weg met dat standaardantwoord.
Het heeft imo weinig zin om met "het standaardantwoord" te reageren als dat overduidelijk niet het geval is hier. En ondanks dat je zegt dat dat het standaardantwoord is impliceert die reactie op zichzelf al dat dat is wat je denk dat er is gebeurd.
Als het op zoveel machines impact heeft us het een vrij standaard configuratie die niet getest wordt. Het lijkt er eerder op dat het een last minute change was na het testtraject( ervan uitgaan dat alles standaard getest wordt).
Dat vind ik veel interessanter ja: hoe is dit in door de tests gekomen? Het is niet zo dat een specifieke arcane Windows configuratie geraakt is, dus zelfs met een batterij standaard VMs om de test op te draaien zou dit al ontdekt zijn geweest.
Op basis van de analyses die ik gelezen heb, lijkt het probleem te zijn ontstaan door uninitialized memory. Dat is niet voorspelbaar, en kan op het ene systeem niks crashen en gewoon doorgaan en op het andere een bluescreen veroorzaken. Je zult maar net de pech hebben dat je lokale pipelines niet crashen, het kan gewoon gebeuren. Helemaal als hun test-VM's vanaf een standaardimage zijn afgeleid, zoals je toch veel ziet met automatische tests.

Wat ze hebben verspreid is ook een configuratiebestand (dat ze in system32 stoppen met een naam eindigend op .sys), waardoor bedrijven die software-updates niet automatisch installeren ook getroffen zijn: het is een problematisch definitiebestand dat een oudere, bestaande bug in de code triggert. Aan de code zelf was niks veranderd, dus dat zal wellicht ook tot een lichter testproces hebben geleid.
Als 8.5 miljoen systemen de geest geven, dan kan ik me niet voorstellen dat dit niet uit je tests kwam, of je tests zijn niet goed.
Dat de tests niet goed waren staat buiten kijf, het is alleen prima denkbaar dat ze tijdens hun tests geen problemen tegenkwamen. 8,5 miljoen computers crashte, maar dat is ook maar een percentage van het aantal computers dat crowdstrike draait.

Dit betreft een stuk definitie-update dat meerdere malen per dag wordt uitgerold. Die kun je niet even een dag lang testen, het hele punt van het product is dat je definities uitbrengt zodra je hackpogingen herkent, zodat iedereen zo snel mogelijk beschermd is. Om dit op te lossen zullen ze beter moeten testen en ten gevolge daarvan langzamer hun definities bij moeten werken, wat hun klanten wellicht ook niet zo leuk zullen vinden. Beter dan crashen, maar minder mooi dan beloofd.
29000 klanten maakt gemiddeld 293 windows installaties per klant. Wat me erg redelijk lijkt. Dus ja, lijkt er sterk op dat alle pc's werden getroffen. Onmogelijk dat dit niet in een test naar voren zou komen.
29000 klanten maakt gemiddeld 293 windows installaties per klant. Wat me erg redelijk lijkt. Dus ja, lijkt er sterk op dat alle pc's werden getroffen. Onmogelijk dat dit niet in een test naar voren zou komen.
Gezien het tijdstip zal toch een groot deel van de pc’s uitgeschakeld zijn geweest en daardoor niet getroffen. Dat percentage kan zomaar richting de 30-50% lopen.
Soms vraag je je dat af, ja. Net als met die Chrome OS-update die alle Chrome OS-machines brickte door een typfout in de code van het inlogscherm.
vakantie periode weinig personeel en dan ga je onnodig risico's nemen?
Roekeloos is het meer. Het lijkt inderdaad alsof elke machine die de update heeft ontvangen getroffen is. Als dat het geval is dan is de update gewoon niet getest. Zeker met een driver is dat echt wel een blunder. Vaak is het een bepaalde combinatie van factoren voordat iets mis gaat en dus lastig voor QA maar hier lijkt het een structureel issue te zijn.

Ook vind ik het onbegrijpelijk dat een update voor zowel clients als servers tegelijk wordt gepushed en het geheel ook wereldwijd is gepushed. Er zijn hier zo veel dingen mis gegaan dat ik me afvraag of dit bedrijf het gaat overleven. Is het niet vanwege de miljarden claims dan wel de groot-zakelijke klanten die niet zo makkelijk prutswerk vergeven.

[Reactie gewijzigd door naaitsab op 22 juli 2024 13:17]

Eigenlijk zou did net zo door een personeel gebeurt zijn die ontslagen woord.
Zou wat zijn.. ik er uit iedereen eruit.. 8)7
Zoals je ook zegt ik hoop voor hun dat zij het overleven maar als al die bedrijven straks met claims komen dan is het over en uit.
Vooral als je vervangbaar bent.
Wat wil je dan met een beveiligingsupdate? Wil je daar een rolling-update, waarbij een zero-day exploit een week de tijd heeft om systemen die achteraan in de rij stonden te updaten? Dit is gewoon een risico-afweging en het is anno 2024 heel normaal om security definities constant te updaten. De fout ligt bij CrowdStrike die dit niet heeft opgemerkt. Daar is wat fout gegaan in het test-protocol.
Zelfs buiten vakantieperiode is dit een rare zet op een vrijdag. Doe zoiets lekker op maandag/dinsdag of zo zodat er IT'ers aan het werk zijn.
Er wordt meermaals per dag een update uitgerold, is gewoon te lezen in het artikel. Dan zal dat dus óók vrijdags en weekends gebeuren.
Dat is was lastig met sommige 0-dag aanvallen natuurlijk
Tjah, anderzijds zijn er ook voordelen voor de business dat dit over het weekend kan worden opgelost. Dan zijn er een pak minder mensen aan het werk, dus de impact op de business is op dat moment heel wat kleiner.

Het kan zelfs comfortabeler zijn om dit te kunnen oplossen zonder al die idiote managers die “dringend” de zoveelste nietszeggende euh ik bedoel “bedrijfskritische” powerpoint moeten maken aan de deur. (En dat weet ik uit ervaring, ik ben zelf geen ITer maar onze ITer is er onderdoor gegaan toen ons bedrijf getroffen werd door NotPetya, heb toen zelf de re-install gedaan van alle on-site PCs, en ik kan je zeggen dat ik kapot was op het einde van de dag door al dat gezaag).

Ik ga er vanuit uit dat IT op vrijdag overigens gewoon aan het werk was, het is niet zo dat ze heel veel hebben “voorkomen” als je de impact ziet… Uiteraard niet fijn om je weekend in rook op te zien gaan, maar of het echt de slechtste optie is, weet ik eigenlijk niet zeker.
Ik las gisteren een aardig essay over hoe dit soort slordigheden te verwachten zijn als je alleen maar voor winstmaximalisatie gaat en massa’s cruciale mensen ontslaat om Wall Street tevreden te houden. Ed Zitron: CrowdStruck.

Het is als buitenstaander lastig te zeggen of het kernel module test team van Microsoft veel last heeft gehad van massaontslagen maar het is een interessante theorie en lijkt aan te sluiten bij de patronen dat golven van massaontslagen meestal gevolgd worden door crises.
Outsourcing is ook een deel van het verhaal. Net als de Nederlandse overheid die voor Capgemini koos. “Ja want goedkoop” zou een waarschuwing a la “geld lenen kost geld” moeten krijgen: let op: goedkoop is duurkoop.
Anoniem: 1849202 @Mosterd21 juli 2024 17:50
Bij mijn werkgever gaan ze ook de volledige interne IT outsourcen naar India... en dit bij een grote kabelaar om kosten te besparen. Verwacht persoonlijk een hoop problemen, daar een hoop kennis verloren gaat en er een hoop bedrijfsprocessen zijn die echt geen vertraging mogen hebben.

Dat terwijl we intern al met een partij werken die volledig in India zit... Als je een case doorzet naar hun servicedesk, vragen ze aan jou waar het heen moet.... maar niet voordat ze eerst de case 1-3 weken ongeroerd laten ondanks meerdere verzoeken hier z.s.m. naar te kijken.

Heb nog nooit meegemaakt dat outsourcen naar het buitenland een succesverhaal is gebleken.

Persoonlijk ben ik van mening dat outsourcen naar het buitenland verboden moet worden, in de toekomst zal er alleen maar meer beroepen bijkomen die digitaal verlopen, terwijl fysiek werk steeds meer geautomatiseerd wordt.

Dan wordt geschoold Nederlands personeel volledig aan de kant gezet om lekker goedkoop in het buitenland in bulk medewerkers te werven. Waar gaat het Nederlands geschoolde personeel heen? Uitkering trekken? Emigreren naar het buitenland? Dit kan toch niet de bedoeling zijn?

Dit neemt al steeds idiotere vormen aan zoals dit:
YouTube: NYC restaurants using remote hosts to seat guests

Nu gun je het deze mensen wel omdat ze nu veel meer geld pakken dan ze in eigen land ooit zouden kunnen, maar wat voor toegevoegde waarde heeft studeren straks in Nederland als alles extern gedaan kan worden?

[Reactie gewijzigd door Anoniem: 1849202 op 22 juli 2024 13:17]

Capgemini doet ook heel erg veel voor de overheid.
Outsourcing is ook een deel van het verhaal.
Ik heb geen bewijs, maar waarom heb ik mijn vermoedens. Moet zeggen dat mijn ervaring meespreekt, maar dan niet met code.
Ik vind het dan weer bijzonder dat zovele mensen lijken te denken dat deze update niet getest is geweest of dat je met testen elke fout kunt afvangen.

Vooreerst ga je alleen maar testen op problemen die ofwel gekend zijn ofwel problemen waarvan je denkt dat ze ooit eens kunnen gebeuren. Je kan ook niet elke situatie voorzien. Als je alles altijd kon testen, dan zouden er nooit bugs zitten in software. Dat is dus al niet het geval.

De kans dat er ergens iets is misgelopen is evenwel groot, maar zonder de post mortem te zien van dit incident bij Crowdstrike valt er simpelweg niets te zeggen over wat ze wel of niet gedaan hebben en of er fouten in hun procedures zitten.

Misschien zit er een fout in hun testprocedures waardoor dit probleem net niet is opgevallen bij hen, bijvoorbeeld door voor zulke updates gewoon cleane machines op te starten en de nieuwe versie van scratch te installeren terwijl het probleem net kan zitten in de update procedure. Misschien heeft iemand na het testen de verkeerde binary gemarkeerd voor release en is dat bij de daarop volgende checks ook door de mazen van het net geglipt. We weten het niet. We weten ook niet of het een menselijke fout dan wel een procedurele fout is. We weten niets. Waarom dan altijd maar suggereren dat Crowdstrike het niet getest zou hebben blijf ik vreemd vinden.
waarschijnlijk laten testen door een algoritme (ai dus) ipv een mens en de aanname gedaan (=fataal) dat dat wel goed zou moeten zijn.

als je ziet wat voor waarheden mensen tegenwoordig voor zoete koek aannemen omdat 'chatGPT zegt dat het zo is' dan zou dat een verklaring zijn

anders had je die update even op 3 systemen getest en geconcludeerd dat hij 100% faalt. we kunnen dus aannemen dat dit niet is gebeurd
Antivirus software getest?

Antimalware wordt echt nooit fatsoenlijk getest. En als het wel getest wordt dan heb ik wel heel veel pech gehad in mijn 25+ jarige IT carrière.

Antimalware is een rat race. Zo snel als mogelijk reageren, fatsoenlijke change procedures zijn secundair.

En 99/100x worden fouten enkel gevoeld door een klein percentage van de klanten (fout in fingerprint bestand of tcp filter: app xyz wordt geblocked) dus... Loopt het meestal af met een sisser.

Maar deze keer....

Ik ben niet verbaasd dat dit eindelijk op deze schaal is gebeurd. Zat er aan te komen.

En nee, ik heb ook geen beter idee. Die rat race is er niet zonder reden.

Waarschijnlijk moet er wel gekeken worden of dergelijke low level toegang echt nodig is. (antwoord : ja, want anders werken kopieer en anti tamper beveiligingen ook niet meer)
Bor Coördinator Frontpage Admins / FP Powermod @redniels21 juli 2024 11:53
Antimalware wordt echt nooit fatsoenlijk getest. En als het wel getest wordt dan heb ik wel heel veel pech gehad in mijn 25+ jarige IT carrière.

Antimalware is een rat race. Zo snel als mogelijk reageren, fatsoenlijke change procedures zijn secundair.
Dit is gewoonweg niet waar. Natuurlijk worden anti malware producten ook getest, net als alle andere software. Fatsoenlijke change procedures zijn ook niet secundair.
Antivirus updates hebben haast. Je kan als antivirus engineer eenvoudigweg niet meer doen dan (vooral) geautomatiseerde sanity checks, voor meer is geen tijd. Zelfs het scannen van repositories met systeembestanden op false positives kan onder druk komen te staan. Bijvoorbeeld bij McAfee worden beta DAT files beschikbaar gemaakt. Die zijn nog niet door het hele testtraject gekomen.

Grote geplande wijzigingen in de software kunnen wel op de voor software gebruikelijke wijze worden getest.

Het is in het verleden voorgekomen dat updates de oorzaak waren van problemen bij diverse antivirus software. Bijvoorbeeld omdat er een fout zat in een regular expression of door false positives. Het is aan de kwaliteit van de antivirus engineer te danken dat het niet veel vaker voorkomt.
Niet getest natuurlijk. Maar ja dat gaan ze niet zeggen. Of de test compiuter was de enige computer in de hele wereld waarbij het wel werkte.
Het lijkt dus te gaan om een soort van “definities” file, dat is meer content dan logica.

Tweakers post ook niet eerst alle nieuwsberichten op acceptatie.

De les zal wel getrokken worden dat voor deze definities er iets (of beter) getest moet worden.
Het probleem was, zoals ik dat begrijp, dat de fout zat in bestaande logica, maar dat dat werd getriggerd door een definitie update.
Ik zou verwachten dat het opspinnen van een windows vm in je automatische test pipeline dit probleem direct kenbaar had gemaakt.
Interessanter is wat is de schade/kosten die al die bedrijven hebben opgelopen?
De media heeft ook wat schade toegebracht. Vooral voor Microsoft.

Men riep 'Windows update' en dat later in het verhaal iets met CrowdStrike had te maken.

En dan later weer. Wanneer de Windows update is opgelost is onbekend.
De standaard media praat elkaar na en heeft weinig kennis van IT-zaken. Dat is helaas een gegeven. Ook valt voor jan met de pet "Windows update" makkelijker te plaatsen dan een 'driver update die zorgt dat windows crashed bij het opstarten'.

Aan de andere kant kan Microsoft hier zelf ook wat aan doen door de 'macht' van drivers sterk in te perken en te zorgen dat het niet een OS onderuit kan halen of in een bootloop kan forceren. Dit is al jaren een issue bij Windows wat niet structureel wordt aangepakt. Dus treft Microsoft hier wat mij betreft ook zeker enige blaam.
Bij linux niet anders. Ik heb Crowdstrike op een paar linux servers draaien, maar dat is echt smerig.
Je moet bij een kernel update van je distributie wachten met rebooten tot Crowdstrike een binary kernel module voor jouw versie heeft. Lekker veilig: kiezen tussen een zeroday bug in je netwerkstack of een werkende security tool.
Als je die module vervolgens inlaadt haakt het overal tussen. Cloudprovider heeft een hickup met z'n storage? Backtrace vol met falcon symbols ertussen. Bij storingen die backtraces genereren heb je nergens support want kernel is tainted en zelf weet je niet of Crowdstrike iets uitspookt of dat het iets anders is.
Linux komt met LSM en Audit subsystemen. De ene die door de hele kernel loopt voor access control en logging, de ander om security-gerelateerde dingen te kunnen loggen.
LSM is de basis van systemen als AppArmor en SELinux, wat in elke beetje zichzelf respecterende distributie wordt ondersteund. Crowdstrike had ook gewoon in LSM kunnen haken, maar in plaats daarvan maken ze een kerneldriver die diep in de kernel inhaakt buiten alle andere subsystemen om. Verkeer dat over je netwerk binnenkomt en door iptables of netfilter gefirewalld wordt is eerst al door Crowdstrike geweest bijvoorbeeld.

Dan nog het stukje binary kernel module: ze hebben een binary blob en voor elke kernel versie een binary stukje loader code. Nagenoeg alle linux software die met kernelmodules werkt gebruikt DKMS. Software als VEEAM of Acronis bijvoorbeeld met hun snapshot drivers, Nvidia met hun binary display drivers, allemaal DKMS. Kan me er wel iets bij indenken hoor, als je zo diep in een kernel inhackt met je driver wil je zeker weten dat je systeem niet plat gaat als je van linux 6.1.94 naar 6.1.98 gaat, maar een stukje compileerbare shim-code maakt je software zoveel bruikbaarder.

Edit:
https://www.neowin.net/ne...s-ago-but-no-one-noticed/
Debian 12 ging in April ook plat omdat ze bij Crowdstrike recent wel Debian 12 support hebben toegevoegd, maar hun updates daar niet op testen. Het is dat ik alles nog op 11 heb draaien omdat ze ruim een jaar nodig hadden voor Debian 12 support, maar anders had ik ook crashende systemen gehad.

[Reactie gewijzigd door _JGC_ op 22 juli 2024 13:17]

Tijd voor een andere leverancier en sowieso jammer dat er (nog steeds) gekozen werd voor CrowdStrike ondanks je beargumenteerde bezwaren. Ze hebben blijkbaar connecties en de marketing op orde als je kijkt naar wat voor soort klanten ze trekken.
Opgelegd door hogerhand vanuit Amerika. Ik kende deze tool voorheen niet, maar als ik de keuze als systeembeheerder had moeten maken was de tool er nooit gekomen.

Maargoed, hogerhand doet alleen windows, toen ze een partij overnamen die 75% van de system op Debian heeft draaien, hebben ze het beheer bij ons gelaten, wij moesten alleen wel al die security meuk op de servers installeren.

[Reactie gewijzigd door _JGC_ op 22 juli 2024 13:17]

Software als die van crowdstrike is er dan ook vooral voor bedrijven om te laten zien dat ze het maximale doen en realistisch gezien zijn er niet genoeg beheerders met de juiste kennis om het allemaal maar zonder te doen.
Daar sta je nog van te kijken. Ze hebben in Amerika, Europa en Azië hele security teams zitten die de hele dag naar dashboards van Tenable, Crowdstrike, Bigfix en Cloudflare zitten te turen. Zodra die het minste vermoeden hebben dat er iets niet in de haak is hangen ze aan de lijn.
Het mag technisch dan niet het beste stukje software zijn, maar het geeft die mensen wel gereedschap om dat te kunnen doen.
Tja, en toch blijkt er dan een goede reden te zijn om de weg te kiezen voor kernel integratie die crowdstrike kiest omdat de andere manieren die jij aangeeft misschien toch niet veilig genoeg zijn.
Eens. En tegelijkertijd moeten bedrijven misschien eens nadenken over een ander updatebeleid. Als een deel van de klanten een uurtje langer had gewacht, dan hadden ze geen problemen gehad, omdat toen al bekend was dat er iets mis was. Op de volautomatische versnelling updaten is niet zo verstandig.
Klanten die automatische softwareupdates uit hadden staan, waren helaas ook getroffen, omdat het een combinatie van een langer bestaande driverbug + een nieuwe definitieupdatebug was, en de definities hier werden verspreid. Ik geloof niet dat crowdstrike de optie biedt om definities staggered te verspreiden binnen een bedrijf, ze willen heel graag dat iedereen zo snel mogelijk bij is (dit soort snel schakelen bij hacks is ook soort van de hoofdreden om voor hun product te gaan).

Je wilt ook weer niet inde situatie van vroeger komen, waar IT iedere update handmatig moet gaan checken. Er zijn meerdere definitieupdates per dag, je zou er een heel team op moeten zetten om die allemaal te testen voor je ze uitrolt.
Men moet een dergelijke update niet direct op alle systemen loslaten, dit dien je gefaseerd te doen in ‘ringen’. Niet critische systemen eerst en critische systemen als laatste. Hoeveel tijd tussen elke ring zit is een kwestie van een balance tussen risico’s afwegen.
Precies dit !!! Een gefaseerde uitrol.
Je sql server die niet aan het internet hangt heeft een ander risico profiel dan je citrix servers die bereikbaar zijn van zowat iedere plek ter wereld

[Reactie gewijzigd door klakkie.57th op 22 juli 2024 13:17]

Dat lijkt een goede oplossing, met als nadeel dat je dat weer niet moet doen met beveiligingsupdates voor zero-days. 't is ook nooit goed :P
Dat ligt er maar net aan waar de betreffende zero-day gevonden is. Als je het goed doet heb je altijd verschillende lagen kwa security en hoef je nooit op één laag te vertrouwen. Ook een update van een zero-day installeer je eerst op een testomgeving of niet-crusiaal(e) systemen.
Het punt is wel een beetje dat de systemen aan de buitenkant het meest geraakt worden door exploits. Dus die zal je het snelst willen voorzien van security updates. Maar als de "buitenkant" wegvalt is het achterliggende systeem ook plat. Dus wellicht zou je SQL Server nog prima draaien, maar krijgt die gewoon geen aanvragen meer, omdat de reverse-proxy er al uit ligt...
Ik zei ook niet dat alle updates uitvoerig getest moeten worden door it-personeel van bedrijven, alleen dat ze iets langer zouden moet wachten, dus bijvoorbeeld gewoon een uurtje langer, om te zien of er bij anderen geen problemen zijn.

Maar goed, blijkbaar had dat in dit geval niet geholpen.
Als er nu 1 product is waar je net NIET wenst te wachten op updates, dan is het wel je malwarescanner. Die moet gewoon up-to-date zijn. Wat betreft feature/version updates bij zulke software is dat een ander verhaal, maar de definitie updates en dergelijke meer, die moeten gewoon zo snel mogelijk verspreid worden. En dat is exact wat hier gebeurd is.
configuratie of niet, is er geen ruimte te creëren in faseren en compartimentaliseren? Het hectische virus/antivirus kat-en-muis spel vraagt misschien ook om continue gefaseerde rollouts? En misschien ook niet leunen op 1 technologie stack/leverancier.
Hmm, klinkt complex :)
Helemaal mee eens. Als je wat van IT kent prik je zo doorheen de fearmongering en ronduit verkeerde informatie die over IT-related topics wordt gespuwd. Zij het AI, cybersecurity of nieuwe aankondigingen. Telkens ik zo'n artikel lees (en je ziet ze echt overal, zowel op de afval-nieuwssites als staatsmedia), vraag ik me af wat ze allemaal verkeerd rapporteren over topics waar ik dan weer helemaal niets vanaf weet.
Maar dan moet je je eens afvragen hoe het zit met rapportages over onderwerpen waar je helemaal niets van kent.
Dit is echt niet enkel een MS probleem. Ook lnx hangt op het moment dat een rotte "driver" wordt geladen.

Maar dat hoef ik je niet te vertellen.
Aan de andere kant kan Microsoft hier zelf ook wat aan doen door de 'macht' van drivers sterk in te perken en te zorgen dat het niet een OS onderuit kan halen of in een bootloop kan forceren. Dit is al jaren een issue bij Windows wat niet structureel wordt aangepakt. Dus treft Microsoft hier wat mij betreft ook zeker enige blaam.
Dit is al jaren een probleem omdat iedere keer dat Microsoft er iets aan probeert te doen ze voor de rechter gesleept worden voor concurrentie belemmering.

Los daarvan staand hebben Linux distro's en macOS dit "structureel probleem" ook (iets waar Crowdstrike zelf ook gebruik van maakt), ze vielen in dit geval er gewoon niet ten prooi aan...
Meeste drivers draaien dan ook in User mode maar zo’n pakketten als Crowdstrike maken gebruik van een kernel level driver omdat dit niet anders kan. Deze worden dan ook gecertificeerd maar als een config bestand dit dan veroorzaakt, daar kan je als MS weinig aan doen en dit geldt trouwens ook voor Linux systemen…

[Reactie gewijzigd door Lvwp op 22 juli 2024 13:17]

Ik zag echt tenenkrommend journalistiek rond de storing zelfs van zogenaamde beveiligers experts die niet eens het verschil tussen microsoft en crowdstrike konden uitleggen… en het een Microsoft storing noemde 8)7

[Reactie gewijzigd door HKLM_ op 22 juli 2024 13:17]

Iedereen mag zich in Nederland expert noemen, dat is geen officiële titel dus zegt precies niks. Bij het journaal zie je ook wel eens van die stukjes van een 'IT expert' waar informatie wordt gedeeld die niet klopt of gewoon nergens op slaat. Het zou prettig zijn als de media alleen mensen aan het woord laat die daadwerkelijk aantoonbare kennis van zaken hebben. Dat gebeurt ook wel eens, dat merk je gelijk in de content.

Buiten dat het knullig is kan het ook zorgen voor desinformatie of bepaalde bedrijven/mensen onterecht in kwaad daglicht zetten. Een hoop mensen volgt blind de media zonder eigen onderzoek, dus gedegen en neutrale journalistiek is erg belangrijk.
Het helpt ook niet dat vlak voordat crowdstrike de problemen veroorzaakte er ook een daadwerkelijke storing was bij Microsoft (aan de cloudkant). Eerst ging een gedeelte van Azure down, en daarna gingen ineens allemaal computers crashen. De eerste berichtgeving nam aan dat dat dezelfde storingen waren en journalisten hebben daarna niet het verhaal nog een keer door experts laten bekijken.
Anoniem: 1028301 @HKLM_21 juli 2024 11:41
Wat denk je van deze;
https://www.hbvl.be/cnt/dmf20240720_94328577

Als je die tekst seleceteerd op slaat in een tekstverwerker zie nog een aantal misselijkmakend regels staan die de lezer anders niet te zien krijgt.
Ik zie geen verschil..?
Anoniem: 1028301 @Dennisb121 juli 2024 14:14
Ik zie geen verschil..?
Je hebt gelijk, zag de schuifbalk rechts over het hoofd,
hoe heet dat ding in correct Nederlands eigenlijk.
Precies dit. Waarschijnlijk is ex Tweaker Daniel Verlaan die nu bij RTL zit op vakantie? Als IT aanbod komt kan die het altijd wel prima uitleggen.
Om nog maar te zwijgen van de "experts" in de media die krampachtig "te technische termen" vermeden en het verhaal zo simpel probeerden uit te leggen dat het nergens meer over ging.

We hebben nu wat, dertig jaar computers overal? Kijk, dat ze in de jaren negentig wat moeilijk keken als het over cyberdit en webdat ging snap ik nog maar in deze tijd, nee. Alsof je garagist een nieuwe bobine gaat uitleggen als een "benzineaansteker" oid, in de meeste vakgebieden wordt er normaal met de leek omgegaan. Alleen bij IT doen sommigen nog alsof het allemaal onbegrijpelijke magie is, heel raar...
Je lacht wel, maar heb geen idee wat een bobine is... een benzineaansteker wel. En auto's zijn nog ouder dan computers ;).

Probleem dat bijna elke IT'er heeft is dat sommige termen voor ons zo vanzelfsprekend zijn dat het nog niet eens in ons gedacht op komt dat iemand die niet met computers bezig is het niet begrijpt.

Het probleem zit m soms meer in kromme vertalingen waardoor het nergens om slaat. Sommige termen kan je nu éénmaal niet één op één vertalen. Zo gebeurd het wel eens dat ik de Engelse versie van een handleiding beter kan lezen dan de Nederlandse (door AI vertaald natuurlijk) versie.
En hoe zou het niveau van verslaggeving zijn over zaken waar je zelf niets van kent? Zet je aan het denken he….
Wat vooral hiermee de prut'journalisten' mee naar boven deed drijven. Engadget bv bleef het zelfs nog na herhaaldelijke opmerkingen gewoon Microsoft in de titel houden ongeacht dat ze dondersgoed wisten dat Microsoft er niets mee van doen had. Maar Microsoft levert meer kliks op dan een voor de meeste onbekende CrowdStrike.
Ik geloof dus rustig dat er heel veel meer media bewust voor microsoft in de headlines hebben gekozen.
Dat zal, alles bij elkaar opgeteld, flink in de miljoenen lopen, wereldwijd gezien.

Denk aan personeelskosten (dat personeel dat met de storing bezig was kon ander werk immers op dat moment niet doen), reputatie/imago-schade, schade door misgelopen/stilgelegde productie/operaties etc etc.

En om de vervolgvraag alvast maar voor te zijn: Waarschijnlijk draaien de bedrijven met de storingen er zelf voor op, stond gisteren een artikel over op nu.nl:
De computerstoring heeft veel financiële schade veroorzaakt bij bedrijven. Wie draait daarvoor op?

"Getroffen bedrijven gaan mogelijk proberen om de schade te verhalen op CrowdStrike. Maar het is de vraag of dat lukt. De meeste bedrijven dekken zich goed in tegen aansprakelijkheid via contracten en algemene voorwaarden."

"Een andere optie is om de schade te verhalen op een verzekering. Maar of dat lukt is afhankelijk van de voorwaarden van de verzekering die is afgesloten. Valt de schade niet te verhalen, dan zal het getroffen bedrijf er zelf voor moeten opdraaien."
Zie Jullie vragen over de computerstoring: 'Wie draait op voor de schade?'
En de gedupeerden van die bedrijven kunnen ook fluiten naar hun geld denk ik?

https://www.hartvannederl...-fluiten-naar-compensatie (kon zo snel geen betere bron vinden)

Best lullig
De luchtvaartmaatschappij heeft daar geen invloed op en kan dus ook niet aansprakelijk worden gesteld
Dat vind ik wel erg makkelijk. Een hagelstorm of een vulkaanuitbarsting is iets waar je geen invloed op hebt, hoeveel single points of failure je in je computersysteem zet, heb je wel degelijk in de hand. Als je één boarding passprinter op een vliegveld zet en die storing heeft, vind ik dat je ook niet mag claimen dat je er niks aan kon doen, dat is gewoon gebrek aan vooruitschrijdend inzicht.

Wat hier speelt is gewoon het resultaat van besparing op redundantie en/of foute keuzes door het IT-beheer, ik vind niet dat ze hier met overmacht weg moeten mogen komen.
Dat is wel erg makkelijk gesteld. Normaal gesproken draait een redundant systeem op dezelfde software dus daar schiet je niets mee op. Alles dubbel ontwikkelen is veel te duur. Dus je hebt sowieso te maken met risico's van heterogene systemen. Je zou kunnen proberen om het op 2 besturingssystemen te draaien, maar dan verdubbel je nog steeds de administratie en test kosten (aangenomen dat je een high level language gebruikt).

Eerlijk gezegd wordt ik zelf wel een beetje treurig van dit soort geroeptoeter. Als ik er zelf langer over nadenk dan zie ik het meeste in een beheer-op-afstand chipje in de computer zelf zodat je in ieder geval de systemen snel kan booten (dit is vaak ook mogelijk met een KVM over ethernet overigens).
Ik ben het in principe met je eens maar ik denk dat je beter kunt beschrijven dat IT afdeling van grote bedrijven zoals luchtvaart, banken, etc. een fatsoenlijk DTAP beleid moet hanteren (je hint naar bezuinigingen, en resulteert vaak in het slopen van een fatsoenlijke DTAP straat), dan was dit allemaal niet gebeurd. Een fatsoenlijk DTAP beleid zal dan ook kleinere testringen hebben waar als er een verkeerde update uitgerold word, wellicht 100 machines geraakt worden ipv duizenden machines. Ook voor CrowdStrike kun je dat zo instellen, maargoed, in the best practices van CrowdStrike zal wel hebben gestaan om auto-update aan te zetten op clients voor de laatste beveiliging.

Ps voor onze cloud liefhebbers, zelfs met cloud kan dit beleid ingeregeld worden, het kan alleen iets meer moeite kosten,

[Reactie gewijzigd door xMuchux op 22 juli 2024 13:17]

Of je kunt fluiten naar je centen hangt echt van je eigen geval af. Ja, reizigers met het vliegtuig gaan beperkt gecompenseerd worden net omdat het hier door overmacht gaat. Maar er zijn vele andere sectoren die ook getroffen zijn, en daar kan het een ander verhaal worden. Bijkomend hebben al die getroffen luchtvaartmaatschapijen sowieso een enorme meerkost door deze storing, en wees maar zeker dat daar dit weekend advocaten al mee aan de slag gaan om te zien of ze die kunnen terugvorderen van Crowdstrike.
Denk aan personeelskosten (dat personeel dat met de storing bezig was kon ander werk immers op dat moment niet doen), reputatie/imago-schade, schade door misgelopen/stilgelegde productie/operaties etc etc.
Lekker overdreven.
Het personeel heeft gewoon gewerkt maakt niet uit waaraan, zelfde kosten.
Niemand gaat het Schiphol kwalijk nemen dat ze last hadden van die storing. Imago blijft hetzelfde.
Heel veel personeel heeft niet zijn normale taken kunnen doen waarvoor ze zijn aangenomen. En enorm veel mensen hebben heel wat overuren moeten maken door deze problemen. Dat zijn dus niet dezelfde kosten, dat brengt bijkomende kosten met zich mee.

En heel veel klanten van betrokken bedrijven, zeker particulieren, kunnen zo een problemen echt niet relativeren. Je zal bijv. maar net op vakantie willen vertrekken (of terugkeren) en je vlucht kan niet doorgaan. Dat kost je als particulier ook gewoon geld. Je zal maar net bij de notaris alle papieren getekend hebben om een woning te kopen, en de bank kan ineens het geld niet overmaken. Dat kan jouw ook gewoon geld gaan kosten. Je zal maar net een vrije dag genomen hebben om naar het ziekenhuis te gaan voor niet spoedeisende hulp en je wordt terug wandellen gestuurd. Die vrije dag is ineens verloren, en het is niet alsof je er honderden van hebt.

Nee, dit is niet zomaar even iets dat zonder gevolgen en zonder schade verloopt.
[Schade]
Dat zal, alles bij elkaar opgeteld, flink in de miljoenen lopen, wereldwijd gezien.
Het gaat niet om 'flink in de miljoenen' maar om miljarden aan schade.

[Reactie gewijzigd door kimborntobewild op 23 juli 2024 01:12]

Ik denk dat Microsoft hierna ook moet nadenken over een beter beleid voor recovery's.
Als een systeem 2-3 keer tegen dezelfde BSOD aanloopt in 1 uur, dan zou er bijvoorbeeld automatisch voor gekozen moeten worden om terug te gaan naar een herstelpunt (ervan uitgaande dat zo'n update automatisch een herstelpunt heeft aangemaakt).
Mja precies. Een paar keer opnieuw opstarten, moet gewoon automatisch iets ondernemen om te zorgen dat het door kan gaan. De vraag is wel hoe je dat dan doet en hoe je ervoor zorgt dat de gebruiker ook weet dat er iets aan de hand is en ook actie moet ondernemen. Want als je crowdstrike kunt uitschakelen als hacker, is dat ook weer een beveiligingsrisico.
Daarin zijn allerlei voorwaarden te stellen.
Zelf vind ik het - al jaeren - irritant dat een systeem keihard met een xSOD blokkeert/stopt en dan lokaal interventies nodig zijn om het toegankelijk/bereikbaar te maken. Dit laatste is dan soms weer te ondervangen met remote KVM of networkboot/disk (PXE, iScsi e.d.)

Niet heel moeilijk om een A/B update te doen waar als B-situatie crasht, alsnog op het A-image/snapshot kan worden voortgegaan en een toepasselijke fallback mode boodschap stuurt.
Een failback-mechanisme dat in menige hardwarebox en redundante omgeving aanwezig is.
Ik zag intel een post doen op linkedin of x (kan hem alleen niet meer vinden) waarbij ze cleamde dat je remote control kon doen vanaf het boot proces en dus ook dr BSOD kon managen.

Voor IT zou zo iets native in sccm of bijvoorbeeld intune al geweldig zijn voor beheerders.
Ja maar dan moet je dat "Intel® Active Management Technology" systeem hebben. Een remote KVM (VNC protocol) dat onderdeel is van de BIOS. Zelf vind ik het wat gekunsteld werken.

Het mechamisme via de al of niet gedeelde netwerkinterface werkt remote wel aardig maar vraagt nog steeds een individuele aanpak. Is verder meeer om een bootgebrek op te lossen dan dat dit het voorkomt.
Beter zou zijn imo dat systemen beschikken over een fallback image voor tenminste het OS en dat natuurlijk gescheiden houden van toepassingen/data daarvan.

[Reactie gewijzigd door PtrO op 22 juli 2024 13:17]

Je komt automatisch in een recovery terecht als je pc 2x achter elkaar niet kan opstarten. Maar daarin zit waarschijnlijk niet een oplossing voor dit probleem, waarschijnlijk valt het CrowdStrike configuratiebestand niet in de herstelpunten? Wellicht kunnen ze de automatische recovery uitbreiden zodat dit soort zaken beter gaan werken.

Veilige modus werkte wel. Misschien dat de recovery tool dit op den duur wel voor gaat stellen, maar dan ben je nog op jezelf gewezen om het verder op te lossen.

[Reactie gewijzigd door xFeverr op 22 juli 2024 13:17]

Hier stond dat je na 15 keer rebooten eventueel in de recovery terecht kan komen. Als dat aantal lager zou zijn, dan kan elke eindgebruiker de pc herstellen:

Skit3000 in 'CrowdStrike-problemen veroorzaken wereldwijd storingen in computersystemen'
Nou, dat staat er niet. Er staat dat er gebruikers zijn die 15x moesten herstarten. Maar dat is zeker niet hoe het hoort te gaan.
Probleem is dat het om een malware definitie update ging. Het is maar de vraag of dat dat met een rollback wordt teruggedraaid. En als dat al zo zou zijn, dan wordt direct weer opnieuw de foute definitie file opgehaald.

Het echte probleem zal al langer in het systeem met een fout in de logica, wat werd getriggerd door de definitie update.
Ik vraag me af hoeveel van die vitale systemen überhaupt een direct verbinding nodig hebben met internet en de cloud.
Hoeveel van die systemen overbodig aan het internet hangen vanwege nice-to-have ipv essentieel belang.

Dat is iets om naar te kijken om in de toekomst zulke grote en wereldwijde storingen te voorkomen.
Zelfs als ze de verbinding niet direct nodig hebben, zitten ze vaak in een netwerk met apparaten die het wel moeten, of communiceren met die apparaten, of gebruiken die apparaten als databron, of hebben te maken met "handige" gebruikers die even het netwerkkabeltje in een andere poort steken of een USB-stick in het apparaat steken, of er gewoon op in kunnen loggen. En dan kan je wel met allerlei dingen als netwerksegmentatie e.d. de risico's beperken, maar dat is en/en en niet of/of.
Ik probeer nog te duiden wat in het artikel "Windows 7.11" is?
Volgens mij is 't een foutje, en ging het om de "crowdstrike sensor voor Windows" 7.11+

Terechte opmerking van je, rare moderatie weer van medetweakers (0).

Edit: artikel is al aangepast, nu klopt 't wel. En de moderatie van je opmerking ook.

[Reactie gewijzigd door maartenvdezz op 22 juli 2024 13:17]

De +1 die hij krijgt is inderdaad rare moderatie. Want voor schrijffoutjes en opmerkingen over taalgebruik in een artikel hoor je gewoon op het forum een melding te maken. Er is een heel subforum voor. De correcte score hoort dan ook gewoon een 0 te zijn, irrelevant voor enige inhoudelijke discussie van het nieuwsartikel.
Als er iets onduidelijk is in het artikel mag je dat prima hier bediscussiëren zonder daar een officiële melding voor te maken. Dit zijn inhoudelijke comments en ik ken geen regel die zegt dat je dat niet zou mogen.

Daarnaast: het gebeurt vaak zat en als degene die de fout aandraagt ook gelijk de oplossing beschrijft krijg ie meestal een +2.

Overigens, z'n moderatie was eerst 0, niet +1 en het ging niet over een typo.

Als laatste: ja, deze comment is wel off-topic.
1 Procent? Zeg maar minder dan half procent. Als je uitgaat van 2.5 miljard pcs, waarvan 73 procent Windows.
Je vergeet servers. (Zowel fysiek als virtueel)
Het lijkt niet zoveel, maar dat is het wel omdat CrowdStrike juist draait op vitale infrastructuur.
Wat mensen niet weten doordat de media alleen maar op dit incident focust is dat diezelfde dag ook 4 Azure regios plat gingen. Ongerelateerd aan het Crowdstrike incident :?
Wel ideale 'timing' voor zoiets.. weinig merkschade.
Die 2 storingen waren inderdaad ongerelateerd, zie nieuws: Microsoft: geen verband tussen Azure- en CrowdStrike-storingen

De Azure storing was een configuratiefout van Microsoft in de Azure omgeving. De door CrowdStrike (of iig de software) veroorzaakte crash had niets te maken met (acties van) Microsoft zelf.
Mja Azure zelf heeft nu niet zoveel schade geleden als anders, maar Microsoft wel degelijk, dus dat heft het wel weer een beetje op.
Dat weten mensen niet omdat ze dit bericht niet hebben gelezen? :? nieuws: Microsoft: geen verband tussen Azure- en CrowdStrike-storingen
Als "mensen" == Tweakers en media == tweakers.net voor jou snap ik je verbazing ja ;)
Als je buiten die wereld naar de grote nieuwssites gaat vind je het niet. Denk dat zelfs menig redactielid dat over dit soort dingen schrijft het niet weet.

Net zoals dat er heel veel IT specialisten op LinkedIn het Crowdstrike incident gebruikten om aan te stippen dat je wel goede backup locaties voor recovery etc moet hebben, van die onderwerpen die eigenlijk niets hiermee te maken hebben en het ook niet oplossen..
Treurige bende..
Je schrijft dit op Tweakers als “wat mensen niet weten is dat […]”, dus in die zin associeer ik “mensen” met “tweakers”.

Op dit item kan niet meer gereageerd worden.