CrowdStrike-problemen veroorzaken wereldwijd storingen in computersystemen

Wereldwijd hebben honderden bedrijven verbindingsproblemen die waarschijnlijk door een storing in beveiligingssoftware CrowdStrike worden veroorzaakt. De storing leidt tot bsod's op Windows-computers, waardoor vaak hele systemen plat komen te liggen.

CrowdStrike erkent de problemen op zijn eigen forum. "We krijgen veel berichten binnen over bsod's op Windows-hosts, dat op verschillende sensorversies voor lijkt te komen", schrijft het bedrijf. Het zegt dat te onderzoeken en later met meer informatie te komen. Ook op Reddit verschijnen updates van het bedrijf.

Voor zover bekend komen de problemen wereldwijd voor. Dat gebeurt zowel op Windows 10- als op Windows 11-machines. CrowdStrike zegt zelf dat er een probleem zit in de Falcon Sensor-software.

Onder andere op GoT melden Tweakers problemen met de tool. Die lijken te zijn ontstaan door een recente update van de beveiligingssoftware. De blue screens of death lijken te worden veroorzaakt in csagent.sys. Beheerders kunnen dat omzeilen door Windows in safe mode te starten en in C:\Windows\System32\Drivers\Crowdstrike de .sys-bestanden waarvan de naam begint met 'C-00000291' te verwijderen.

Probleem en oplossing

De exacte oorzaak van de storing is nog niet bekend, maar beveiligingsonderzoeker Kevin Beaumont zegt op X het betreffende .sys-bestand te hebben bemachtigd. Volgens Beaumont heeft die driver een verkeerd bestandsformaat, dat niet goed wordt gevalideerd.

CrowdStrike heeft inmiddels wel een oplossing voor het probleem, zegt ceo George Kurtz. Ook daarover zijn geen details, maar waarschijnlijk gaat het om een verbeterde driver. Die wordt gepusht naar klanten. Het probleem bij endpointsoftware is dat die update vervolgens naar de eindstations, zoals desktops en laptops, moet worden gestuurd. En juist die apparaten zitten vast in een bootloop. Die moeten in safe mode worden gestart, maar dat is in veel gevallen een handmatig proces. Het is moeilijk om dat op grote schaal te automatiseren.

Afgelaste operaties en vliegtuigen aan de grond

Ook op Allestoringen komen veel meldingen binnen. Zo zijn onder andere diensten van banken, ziekenhuizen, DigiD en providers slecht bereikbaar. De exacte omvang van de storing is niet duidelijk, maar die lijkt op het eerste gezicht enorm te zijn. In Australië liggen bijvoorbeeld supermarkten plat en hebben luchthavens last van de storing.

De NOS meldt dat in Nederland onder andere problemen ontstaan op Schiphol. De luchthaven zegt zelf ook op X dat er gevolgen zijn voor vluchten, maar het is onduidelijk hoe omvangrijk die zijn. Onder andere Transavia zegt dat sommige vluchten mogelijk uitvallen. Ook Ryanair meldt op een statuspagina dat het problemen heeft. In de Verenigde Staten ligt een groot deel van het vliegverkeer plat, onder andere door storingen bij de twee grootste maatschappijen, Delta en United.

Ziekenhuizen lijken eveneens kwetsbaar. Het Scheper-ziekenhuis in Emmen zegt dat het geen patiënten meer ontvangt in de polikliniek. Ook gaan operaties niet door en is de spoedeisende hulp gesloten. Een woordvoerder bevestigt aan Tweakers dat dat te maken heeft met de CrowdStrike-storing. Hetzelfde gebeurde met het Slingeland-ziekenhuis in Doetinchem.

Ziekenhuis crowdstrike

Het is overigens lastig te zeggen of de meldingen op Allestoringen verband houden met de problemen bij CrowdStrike. Zo komen er momenteel veel meldingen binnen over een stroomstoring van Liander, maar volgens een woordvoerder heeft dat niets te maken met CrowdStrike. "Wij nemen die dienst niet af. Dat is puur toeval."

Het Nederlandse UWV is ook slecht bereikbaar. De websites zijn niet bereikbaar, inclusief werk.nl, waarin werkzoekenden terechtkunnen. Maar ook daar is niet zeker of dat komt door de storing bij CrowdStrike. De instantie onderzoekt dat nog, maar kan er geen uitsluitsel over geven.

Het Nederlandse Nationaal Cyber Security Centrum zegt de situatie in de gaten te houden. Het NCSC zorgt onder meer voor de beveiliging van vitale infrastructuur. Nederlandse gemeenten lijken weinig last te hebben van de storing, schrijft Binnenlands Bestuur.

Wat is CrowdStrike?

CrowdStrike maakt endpointbeveiligingssoftware, met name voor het bedrijfsleven. De voornaamste software is Falcon, dat bestaat uit een serie verschillende tools die bedoeld zijn om systemen te beveiligen. Falcon doet, net als veel andere securityproducten vandaag de dag, méér dan alleen malwaredetectie en -verwijdering. Zo is er een antivirustool Prevent, maar ook Device Control dat geïnfecteerde USB-sticks kan herkennen of Sandbox dat malware kan analyseren. Daarmee is CrowdStrike niet alleen interessant om virussen buiten de deur te houden, maar ook om bijvoorbeeld securitybeleid op te zetten en (forensische) data te analyseren over beveiligingsaspecten en -incidenten.

De tool draait vaak op centrale servers en stuurt dan updates naar individuele apparaten om die te beveiligen. Juist daardoor kan het problemen veroorzaken op die endpointapparaten. Als de tool bijvoorbeeld alleen maar wordt ingezet op Active Directory-servers die in een bedrijf worden gebruikt om gebruikers te authenticeren op het netwerk, kan dat al problemen veroorzaken voor iedere gebruiker die inlogt. Op die manier kan een storing in de tool grote gevolgen hebben.

De software is beschikbaar voor veel systemen: Windows Server, Windows 10, 11 en zelfs nog 7, maar ook macOS sinds Big Sur 11 en de meeste grote Linux-distro's. De huidige problemen ontstaan nu alleen op Windows-pc's. Een van de veroorzakers van het probleem is dat Falcon alleen cloud based werkt als een SaaS-pakket. Het is niet mogelijk de software on-prem te draaien, waardoor het ook niet mogelijk is om updates als deze tegen te houden. Die komen automatisch binnen bij klanten. Dat is overigens anno 2024 de norm voor endpointsecurity.

CrowdStrike heeft zo'n 29.000 klanten wereldwijd. Het is niet bekend hoeveel er daarvan in Nederland zitten, maar een grote distributeur zegt tegen Tweakers dat het er naar schatting 'duizend, zo niet duizenden' zijn. "Het is een van de grootste spelers op cybersecuritygebied." Een waarschijnlijk complicerende factor is dat steeds meer bedrijven hun ict-omgevingen uitbesteden aan zulke managed service providers. Als zulke bedrijven CrowdStrike gebruiken voor hun beveiliging, kan dat doorsijpelen naar allerlei kleine klanten, zoals midden- en kleinbedrijven.

Bannerafbeelding: SolStock / Getty Images

Crowdstrike BSOD

Reacties (845)

845

805

502

117

Wijzig sortering

Ankh 19 juli 2024 08:54

Niet alleen op werkstations, maar ook op servers.
Schijnbaar grote issues in Australia: https://www.abc.net.au/ne...lines-australia/104119960

Workaround Steps:
Boot Windows into Safe Mode or the Windows Recovery Environment
Navigate to the C:\Windows\System32\drivers\CrowdStrike directory
Locate the file matching “C-00000291*.sys”, and delete it.
Boot the host normally.

Skit3000

@Ankh • 19 juli 2024 09:12

Workaround voor wie veel (virtuele) servers heeft waarbij je niet in safe mode kunt komen is om de virtuele schijf los te koppelen, daarna als secundaire schijf aan een nog werkend systeem te koppelen, daar bovenstaande stappen uit te voeren, en daarna weer terugkoppelen aan de originele virtuele server.

Lees de topic start van het Wereldwijde Crowdstrike BSOD issue (troubleshoot topic) voor een verzameling oplossingen voor verschillende situaties.

Volgens Microsoft zijn er berichten dat sommige gebruikers Windows hebben kunnen laten herstellen naar de systeembestanden van vóór de CrowdStrike update, door hun systeem tot 15 keer achter elkaar opnieuw op te starten.

We have received reports of successful recovery from some customers attempting multiple Virtual Machine restart operations on affected Virtual Machines.
...
We've received feedback from customers that several reboots (as many as 15 have been reported) may be required, but overall feedback is that reboots are an effective troubleshooting step at this stage.

Dit kan een oplossing zijn voor niet-technische gebruikers die systeembeheerders en landelijke media makkelijk kunnen delen (al moet die nog wel geverifieerd worden).

Mijn voorspelling: Het lijkt mij dat Microsoft na dit incident wel een aanpassing gaat maken en zorgt dat bij een BSOD standaard de vorige juist-werkende systeembestanden teruggeplaatst worden zonder dat verdere interactie van de gebruiker nodig is.

[Reactie gewijzigd door Skit3000 op 22 juli 2024 13:17]

bastiaansmit199 @Skit3000 • 19 juli 2024 12:49

Als ICT Werkplek Engineer heb ik te doen met de bedrijven die getroffen zijn, een enorme opgave om dit te herstellen. Zeker als er veel werkplekken zijn die overal en nergens staan en als BitLocker is ingeschakeld (vrij gebruikelijk tegenwoordig). Dan komen er nog meer stappen bij om de disken nog te ontgrendelen alvorens aan de herstel actie te kunnen beginnen.
Ik ben blij dat wij gelukkig geen gebruik maken van Crowdstrike, anders was ik met mijn collega's verantwoordelijk geweest om 15000+ werkplekken met spoed te herstellen (publieke impact zou enorm zijn). Ik zou gaan kijken naar een WinPE i.c.m. netboot oplossing en scripts om dit automatiseren, anders is er op grote schaal geen beginnen aan en ben je weken dan wel maanden verder voordat alles is hersteld.
Servers kun je dan hopelijk vrij snel herstellen maar met laptops ben je sowieso wel even zoet.

Ik wens de ITers bij deze bedrijven veel sterkte!

gpglang @bastiaansmit199 • 19 juli 2024 16:28

Vandaag Crowdstrike, morgen ????
Dit zal met/door/vanuit Crowdstrike niet meer voorkomen denk ik. Reken maar dat zij hun processen op de mm opnieuw gaan bekijken waarom dit heeft kunnen gebeuren. Eén keer kan maar een tweede keer denk ik dat ze kunnen opdoeken.
Ik denk idd dat bij deze getroffen bedrijven een aantal mensen geen weekeinde gaan hebben. Sterkte!

Blokker_1999

Crowdstrike
storing

@gpglang • 19 juli 2024 19:15

Zelfs nu vraag ik me af hoe ze dit gaan overleven. De schadeclaims gaan in in de miljarden lopen.

gpglang @Blokker_1999 • 19 juli 2024 20:11

tenzij de kleine lettertjes...
Hopen dat de MSP's dan dezelfde kleine lettertjes gebruiken....

DdeM @Blokker_1999 • 19 juli 2024 20:48

Zal wel meevallen. Als je voor bugs schade claims had kunnen voeren had microsoft, en waarschijnlijk elke andere software boer, allang failliet geweest. Schat de kans in op 0 dat ze in hun overeenkomsten bug vrije software beloven.

xian05 @DdeM • 20 juli 2024 00:44

Uptime garanties worden wel beloofd

DdeM @xian05 • 20 juli 2024 08:22

Maar niet 100% uptime

manuarmata @DdeM • 20 juli 2024 17:49

bedrijven zullen hun schade verhalen op de veroorzaker. Geen enkel bedrijf incasseert dit zomaar.

Grootsnor @bastiaansmit199 • 19 juli 2024 14:37

Bij 1 klant van ons werd wel Crowdstrike gebruikt en daar is de hel wel losgebroken helaas. Maar inmiddels is de grootste druk gelukkig alweer van de ketel.

Vullisbak @bastiaansmit199 • 19 juli 2024 15:32

Thanks! Het feit dat het bij de boot mis gaat is de grootste uitdaging.

Hier duizenden servers en clients getroffen, DCs waren de eerste prio, toen de rest van de core servers. Heeeel veeel werk, met veel handjes uit alle IT teams wereldwijd. De grotere uitdaging zijn de wat langer geleden deployed cloud hosts (customer managed encryption, restore van backups) en de remote en field workers.

[Reactie gewijzigd door Vullisbak op 22 juli 2024 13:17]

Quisple @bastiaansmit199 • 20 juli 2024 10:00

Afgelopen vrijdag heb ik zelf hiermee te maken gehad. Bitlocker draait standaard op alle end point systemen en had de bitlocker key nodig om überhaupt bij het opslagmedium te kunnen komen om de bestanden (in dit geval …031.sys en …032.sys) te verwijderen. Maar ook MBAM lag grotendeels plat waardoor het niet eenvoudig was om de bitlocker keys te achterhalen. Naast de safe mode feature beschikte ik over een speciale boot disk (gebaseerd op PE) met ingebouwde bitlocker en remote beheer functionaliteit waarmee we vrij snel de bitlocker keys konden kopiëren en plakken om vervolgens de bestanden geautomatiseerd te verwijderen. Het vergt nog steeds manuele interventie, maar een aantal die niet konden werken heb ik uitgelegd hoe van deze usb stick te starten en zo kon ik achter elkaar bitlocker keys invoeren, waarna automatisch de sys bestanden werden verwijderd en systeem gereboot waarna ze het weer deden. Dit heeft mijn weekend gered, nu lekker vrij

wica @Skit3000 • 19 juli 2024 09:40

maal duizend(en).... Lekker

Is het dan niet handiger om een fullrestore te doen vanuit je backup? In de zin, minder werk en dus sneller herstellen.

Skit3000

@wica • 19 juli 2024 09:44

Dat is de oplossing die Amazon aandraagt bijvoorbeeld inderdaad.

We have also been able to confirm that the update that caused the CrowdStrike agent issue is no longer being automatically updated, so relaunching an EC2 instance from the original, or recent, image (AMI) may also be a path to recovery.

Als je virtuele machines draaien op AWS, Azure, of ergens anders in de cloud denk ik dat wachten tot hun engineers een script hebben geschreven dat het genoemde bestand op alle instances hernoemt wellicht sneller is...?

[Reactie gewijzigd door Skit3000 op 22 juli 2024 13:17]

wica @Skit3000 • 19 juli 2024 09:49

engineers een script hebben geschreven dat het genoemde bestand op alle instances hernoemt

Ik denk niet dat een bedrijf, zomaar aan de images van klanten gaan zitten. Te minste voor mij is dat altijd een no go, zonder expliciete toestemming van de klant.

Skit3000

@wica • 19 juli 2024 09:56

Ze beheren miljoenen systemen die allemaal in een bootloop zitten. Nood breekt wet, zou ik zeggen.

Natuurlijk moeten ze voordat ze iets draaien wel een back-up maken zodat wie dat niet wil, terug kan naar de (corrupte) status.

Cartman!

@Skit3000 • 19 juli 2024 10:16

Daar zijn managed services voor, als je het zelf wil beheren moet je het ook zelf oplossen. De pleuris zou uitbreken als AWS ineens aan de images van hun klanten gaat zitten, gaan ze echt niet doen. Vraag me af of t uberhaupt technisch mogelijk is voor ze.

Skit3000

@Cartman! • 19 juli 2024 10:36

Laat ik het anders zeggen; ze kunnen een script klaarzetten dat hun klanten met één klik kunnen draaien om het corrupte bestand te verwijderen.

Fermion @Skit3000 • 19 juli 2024 12:08

Dit zou een grote security breach zijn als Azure of AWS dit zou kunnen doen. In een keer weg al je security certificeringen zoals PCI DSS, IEC62443, etc, etc. Gaat nooit gebeuren.

marcel_76 @Fermion • 19 juli 2024 12:24

Precies, als het goed is zijn al je machines encrypted met alleen bij jou bekende sleutels (in je eigen vault waarbij alleen jij als klant kunt). Kortom als iemand anders hier toegang tot krijgt ligt gelijk het hele cloud model op zijn gat.

Dus even die disk koppelen aan een ander systeem kan een iets bredere uitdaging zijn dan simpelweg beschreven wordt.

[Reactie gewijzigd door marcel_76 op 22 juli 2024 13:17]

satya @marcel_76 • 19 juli 2024 16:59

Dat hangt er van af, ik kan mij voortellen dat AWS disk based snapshots maakt en je zelfs partieel terug kunt naar een vorige versie van je configuratie, net voor de update. Bij VBware kan dat ook op bloknivo.

pgmvdm @Fermion • 19 juli 2024 17:04

Hun servers kunnen die VM’s draaien, dus Amazon zelf kan er ook bij. Hoe zou je dat willen voorkomen? Al die certificeringen beloven niet meer dan dat ze procedures hebben om ervoor te te zorgen dat ze dit niet doen en dat ze het opmerken als het toch wel gebeurt.

Squixx @Cartman! • 19 juli 2024 10:38

Ze kunnen ook gewoon het script aanbieden aan de klant natuurlijk.

'draai dit en t is gefixt' (wel zelf doen)

Cartman!

@Squixx • 19 juli 2024 10:39

Dat lijkt me aan de makers van Crowdstrike.

PhWolf @Skit3000 • 19 juli 2024 10:39

Ze beheren miljoenen systemen

Dat is veel te kort door de bocht. Dit gaat feitelijk over incorrecte configuratie van het systeem en het is vrijwel nooit de taak van het cloud platform om daarop in te grijpen. Zie elk tabelletje met verdeling verantwoordelijkheden on-prem/iaas/paas/saas.
Het is gewoonweg niet de rol van een Azure, AWS etc. om in de configuratie van de machines van hun klanten te rommelen, hoe groot de nood ook is. Het brengt ook enorme risico's met zich mee, als het goed is weten die platforms helemaal niet wat voor afhankelijkheden er zijn binnen die configuraties dus ze kunnen het probleem zomaar 10x erger maken.
De fabrikant van de brakke software heeft dit veroorzaakt, dus die mag een fix gaan bedenken en (ism de daadwerkelijke beheerders) toepassen.

[Reactie gewijzigd door PhWolf op 22 juli 2024 13:17]

Skit3000

@PhWolf • 19 juli 2024 11:02

De fix bestaat al, het probleem is alleen dat je deze niet op afstand uit kunt voeren omdat de getroffen systemen niet eens opstarten.

Op hosted environments is het potentieel wél mogelijk om de fix op afstand toe te passen, maar zelfs daar niet als je geen toegang hebt om in veilige modus op te starten. In dat geval wordt het wel de verantwoordelijkheid van het cloud platform om je a) de tools te geven dit toch te doen of b) een script gereed te maken dat dit voor haar klanten kan doen.

Of dit script wel of niet automatisch moet draaien kan je over debatteren, maar er zullen vast bedrijven zijn met beheerders die door deze fout hun complete PC opnieuw moeten installeren en niet meer op de gebruikelijke manier bij hun cloudprovider in kunnen loggen om überhaupt dat script te draaien.

PhWolf @Skit3000 • 19 juli 2024 13:42

Dat de fix al bestaat doet niets af aan het feit dat een cloud platform dit probleem niet gaat oplossen omdat hun klanten expliciet akkoord zijn gegaan met de eerder benoemde verdeling van verantwoordelijkheden. Ze gaan never nooit niet rommelen met scripts.
Zij leveren platform/infra waar alles op draait en de klant configureert alles wat zich daarop bevindt, en never the two shall meet. Als die configuratie leidt tot een niet bootable staat van het systeem heb je als klant dus pech. Zelfs als je het heel lief vraagt zal de cloudboer je veel succes wensen, of eventueel wijzen naar backup images/snapshots etc. En zo hoort het ook want die boer hoort zich daar helemaal niet mee te kunnen bemoeien.

Skit3000

@PhWolf • 19 juli 2024 15:24

Om maar over boeren te blijven praten; dit is alsof een boer niet verder kan rijden met de trekker omdat er een paaltje in de grond staat, en de boer van de fabrikant niet uit de trekker mag stappen en dus het paaltje niet weg kan halen. Sterker nog, de fabrikant heeft de deuren dicht gelast. De boer kan dus niet verder; is het in dat geval niet de aansprakelijkheid van de fabrikant om het paaltje weg te halen?

BugBoy @PhWolf • 20 juli 2024 22:11

Het zou natuurlijk wel aardig zijn om een soort van script te maken dat gewoon van een hele set EBS volumes die bestand zou kunnen verwijderen. Dat is best lastig zelf te automatiseren (helemaal als het volume al gemount is). AWS zou zoiets kunnen aanbieden en het aan de klant overlaten of je het wel/niet gebruikt.

WaaaghNL @Skit3000 • 19 juli 2024 10:23

Nu weet ik niet wat die bestanden precies doen maar ik zou als een Amazon of MS mijn vingers niet willen branden als het achteraf grotere problemen met zich mee brengt. Wat ongeautoriseerde toegang mogelijk maakt etc. Daarnaast zou ik persoonlijk nooit een systeem aan willen raken wat niet van mij is, zelfs niet als het contractueel opgenomen is dat het mag. Puur zelfbescherming

Stemis @Skit3000 • 20 juli 2024 15:34

Crowdstrike heeft met Intel samengewerkt om actief een oplossing uit te rollen:

7/19/2024 7:58PM PT: We have collaborated with Intel to remediate affected hosts remotely using Intel vPro and with Active Management Technology.

Read more here: https://community.intel.c...p/1616593/thread-id/11795

https://www.reddit.com/r/crowdstrike/s/NlrRYbhuYF

Sniels @wica • 19 juli 2024 11:41

Daarbij zullen de grotere bedrijven Customer Managed Keys gebruiken, waardoor de cloud provider niet eens iets in hun data-at-rest kan al zouden ze het willen.

YoMarK @wica • 19 juli 2024 11:51

Het niet hebben van een echte console, waardoor recovery extra tijdrovend wordt is wat mij betreft ook al een no-go. Maar ik zal wel hopeloos ouderwets zijn.

LeNNy

@wica • 19 juli 2024 09:43

Is wel lastig als je backup omgeving ook op WIndows draait. Zoals vaak het geval is bij Veeam of Commvault.

wica @LeNNy • 19 juli 2024 09:46

Commvauilt update enkel, als ze een nieuwe versie uitrollen. Vermoed daardoor, dat dit voor nu geen probleem is.

SpamLame @wica • 19 juli 2024 12:50

Commvault is gewoon een applicatie afhankelijk van het OS, wellicht heb je een punt als je naar de appliance variant kijkt.
Als het OS is gebricked nu door crowdstrike, dan doet Commvault het ook niet.
Commvault of Veaam of MSSQL of random software X staat hier los van.

wica @SpamLame • 19 juli 2024 15:14

Maar een image restore, kan je vanuit VMware uitvoeren, heb je de agent in de client niet voor nodig.

SpamLame @wica • 19 juli 2024 17:48

Misschien dat ik de eerdere context heb gemist danwel verkeerd begrepen.

Ik weet niet wat je precies bedoelt met "image restore", maar laat ik het zo zeggen als die image restore niet leunt op functionaliteit die door Crowdstrike stuk is gegaan dan ja klaar ben je, zolang je niet ook de data hebt teruggebracht naar datum van creatie van die image.

bartoque @wica • 19 juli 2024 12:05

staat natuurlijk helemaal los van wat commvault of wat voor backup software dan ook gebruikt wordt als op het onderliggende windows OS een update wordt geinstalleerd door Crowdstrike? Da's namelijk wat het probleem is, waardoor ook backup servers op een Windows platform geraakt kunnen worden als die extra beveiligd worden middels Crowdstrike.

Echelon2011 @LeNNy • 19 juli 2024 15:37

Je zet je commvault of VEEAM omgeving toch niet open naar het internet?
ELKE update die daar nog maar overwogen wordt passeert toch eerst langs DEV en ACC omgeving in volledig afgescheiden VLAN?

The Realone @Echelon2011 • 19 juli 2024 16:47

En toen werd je wakker.

Blokker_1999

Crowdstrike
storing

@Echelon2011 • 19 juli 2024 19:18

Totdat je bedenkt dat je gewoon op Windows draait en je security oplossing zeker ook op die machines wenst te draaien want 1 van de meest kritieke punten van infrastructuur in je omgeving als het op disaster recovery aankomt.

En als er 1 stukje software is dat bij zowat iedereen gewoon zijn updates zo snel mogelijk krijgt, dan is het wel de software die ook dienst doet als malwarescanner.

LeNNy

@Echelon2011 • 19 juli 2024 20:20

Voor veel software klopt dat zeker en vaak ook nog via een proxy, zodat enkel bereikt kan worden wat nodig is. Testen van elke CS sensor update of bijvoorbeeld voor normale anti-virus definitie updates is natuurlijk niet te doen.

The Zep Man @wica • 19 juli 2024 09:44

maal duizend(en).... Lekker

Dat is toch prima te automatiseren? Prepareer éénmalig een Windows image dat automatisch opstart en vanaf de 2e disk de betreffende bestanden verwijdert. Configureer, start en stop dat image als 1e disk op de getroffen VM's, en herstel daarna de originele disk weer als 1e disk.

Prima als bulkoperatie uit te voeren.

[Reactie gewijzigd door The Zep Man op 22 juli 2024 13:17]

Z80 @The Zep Man • 19 juli 2024 10:12

Ik mag toch hopen dat alle disken gecrypt zijn. Alle data van klanten open en bloot beschikbaar voor iedereen met voldoende rechten is een nogo.
Wat dus betekend dat elke klant zelf het kunstje moet gaan uitvoeren. Dat zou wel met een script kunnen.

The Zep Man @Z80 • 19 juli 2024 10:36

Ik mag toch hopen dat alle disken gecrypt zijn.

Waar wordt sleutelmateriaal opgeslagen?

Verder zijn klanten die VM's afnemen zelf verantwoordelijk voor de software die daarop draait. Als hoster kan je het benodigde gereedschap voor herstel als handreiking geven, maar niet meer dan dat.

[Reactie gewijzigd door The Zep Man op 22 juli 2024 13:17]

Blokker_1999

Crowdstrike
storing

@The Zep Man • 19 juli 2024 11:18

Bitlockersleutels staan in de TPM, waar je vanuit een recovery omgeving niet bijkunt. Dan moet je handmatig de recovery key van je bitlockervolume opzoeken in je AD/Azure/Intune omgeving om de 48 cijferige key daarna over te typen op het apparaat.

Dus nee, een automatische recovery is echt niet eenvoudig. Voor laptops kan je al bijna sneller aan je gebruikers vragen om even Windows opnieuw te installeren als je kunt deployen met Autopilot bijvoorbeeld.

wica @Z80 • 19 juli 2024 10:46

Ik mag toch hopen dat alle disken gecrypt zijn

LOL, alles staat bij je cloudprovider. Of wil jij handmatig je systemen unlocken bij het booten?

Sniels @wica • 19 juli 2024 11:43

Er bestaat natuurlijk zoiets als Customer Managed Keys. Daar hoef je heus niet iets handmatig voor te unlocken.

Edit: Oh wacht we hebben het over individuele hosts. Ik was even in de war door de cloudprovider.

[Reactie gewijzigd door Sniels op 22 juli 2024 13:17]

HollowGamer @Skit3000 • 19 juli 2024 14:40

Maar je wilt toch juist dat het crasht? Dat klinkt een beetje gek, maar het idee is juist van deze software dat het malware vroegtijdig oppakt, en dat de PC niet verder boot.

Als dit namelijk malware was geweest, dan had Windows een vorige versie teruggezet, wat mogelijk ongewenst was geweest.

Sluuut @HollowGamer • 19 juli 2024 20:19

Dat werkt tegenwoordig anders, als er malware gevonden word dan isoleer je die machine, dus hij draait gewoon vrolijk Windows in de normale modus maar kan niet op intra/inter-net.

blinchik @Skit3000 • 19 juli 2024 16:44

Even een vraag van een Windows-leek. Kan dat nog niet? Ik dacht dat je gewoon restorepoints had? Onder Linux heb je gewoon timeshift en kan je inderdaad "gewoon" terug.

Skit3000

@blinchik • 19 juli 2024 16:59

Die heb je wel in Windows, maar aangezien het OS crasht voordat het op start kan je deze niet zelf terugplaatsen. Het lijkt er op dat na ~15 keer rebooten, Windows dat soms toch wel automatisch doet, maar in alle andere gevallen moet je dus alsnog handmatig in Safe Mode zien te komen om daar de foutieve Crowdstrike-update ongedaan te maken.

Electro Wim @Skit3000 • 19 juli 2024 11:54

Wat ik van onze IT'ers begrijp had dit bij ons betekend dat we een complete recovery hadden moeten doen omdat we bovenop Azure ook nog Bitlocker hebben draaien. En dan werkt het niet want je kan niet in de image komen. Maar klopt dat wel?

Blokker_1999

Crowdstrike
storing

@Electro Wim • 19 juli 2024 19:21

Encryptie van data-at-rest is de normaalste zaak van de wereld. Je harde schijven zijn gewoon versleuteld, ook van je VMs in Azure. Je wil namelijk niet dat de FBI zomaar je data kan komen opvragen.

scsirob @Skit3000 • 19 juli 2024 14:26

15x rebooten? Dat klinkt als een fallback naar "Last Known Good", een mechanisme wat in NT 4.0 zat om te recoveren van slechte driver installaties. Stelregel was toen altijd om na installatie en reboot niet direct in te loggen, omdat dat dan je Last Known Good werd. Als een rotte driver nét iets later geactiveerd werd dan kon je niet meer recoveren.

Kevinp @Skit3000 • 19 juli 2024 09:34

laat maar verkeerd gelezen

[Reactie gewijzigd door Kevinp op 22 juli 2024 13:17]

mmols4088 @Skit3000 • 21 juli 2024 09:06

Dat zou inderdaad heel mooi zijn als MS voor deze oplossing kiest

Marve79 @Ankh • 19 juli 2024 09:21

Je zal maar een beheerder zijn met duizenden PC's en servers en dit overal manueel uit moeten voeren. Dit is niet iets wat je op afstand even op kunt lossen. Wat een major clusterfuck dit. Dit zou weleens het einde van crowdstrike kunnen betekenen. Degene die die update gepushed heeft ouch, ik zou niet graag in zijn (of haar) schoenen willen staan.

Wat ook raar is, je zou denken dat die updates gradueel worden uitgerold. Dus eerst over 5% van de clients. Dan een tijdje wachten voor je de rest doet. Nu snap ik dat er vaak meerdere updates per dag zijn wat het lastig maakt.

Ik vraag me ook al snel af wat de toegevoegde waarde is van dit soort software boven bijv Windows Defender. Het is meer om breaches en encrypties te voorkomen maar vaak is dat toch wel realtief eenvoudig te omzeilen wanneer hackers eenmaal binnen zijn.

vali @Marve79 • 19 juli 2024 09:58

Je zal maar een beheerder zijn met duizenden PC's en servers en dit overal manueel uit moeten voeren. Dit is niet iets wat je op afstand even op kunt lossen. Wat een major clusterfuck dit. Dit zou weleens het einde van crowdstrike kunnen betekenen. Degene die die update gepushed heeft ouch, ik zou niet graag in zijn (of haar) schoenen willen staan.

Als je om dit soort cijfers moeilijk doet is het moment om je boel te automatiseren.. Beetje IT-er geeft vrij weinig om paar duizend servers opnieuw in te spoelen....

Marve79 @vali • 19 juli 2024 10:03

Het gaat ook om laptops die in heel het veld zitten, hoe ga je dat doen via internet als ze BSOD's geven?

En duizenden servers opnieuw inspoelen? Servers waar bijv SQL databases opdraaien kun jij automatisch herinstalleren en de databases herstellen? Wat een onzin zeg. Je hebt het hier over weken, zo niet maanden werk. Er is werkelijk niemand die even in een paar minuten of uur een volledige disaster recovery gaat doen.

Blijkbaar ben jij geen IT-er.

bzuidgeest @Marve79 • 19 juli 2024 10:28

Niet in minuten, maar als je zorgt dat al je pc's kunnen netbooten (verplichten we aan klanten) dan kan elke machine in record tempo opnieuw een schoon image hebben. Het zou de infra belasten, maar met de vele softwaredistributie punten valt dat te overleven. Zeker geen weken of maanden. De servers is wat lastiger, maar de restore is zo ingezet. Alleen de uitvoer neemt tijd. Maar geen weken. De meeste servers zijn toch virtueel en kunnen gewoon terug naar een vroeger snapshot en dat is bijna instant. Storage array's waar de echte data staat hebben er niet eens last van, die draaien geen windows.

De vraag is natuurlijk of al die bedrijven zich zo zwaar ingedekt hebben. Maar elke grote IT beheerder zou dat moeten hebben.

[Reactie gewijzigd door bzuidgeest op 22 juli 2024 13:17]

Marve79 @bzuidgeest • 19 juli 2024 10:52

Lekker simplistisch, 'even' een snapshot terugzetten. Ben benieuwd of je domain controllers dat leuk vinden. Of je SQL Servers die ineens data hebben van een paar uur geleden. Handig voor de bedrijfsvoering. Banktransacties die ineens een paar uur zijn teruggedraaid bijv.

En netbooten? Tegenwoordig werkt iedereen remote. Hoe ga je dat doen over internet. Die PC's gaan toch binnen moeten komen.

Nee, mensen hier hebben er weinig kaas van gegeten zo blijkt maar weer. Ik denk dat het gewoon server per server safe booten wordt en dat bestandje terugzetten. En dit is voor servers zeker wel te automatiseren via netboot. Maar voor laptops op afstand minder eenvoudig.

vali @Marve79 • 19 juli 2024 11:14

Nee, mensen hier hebben er weinig kaas van gegeten zo blijkt maar weer. Ik denk dat het gewoon server per server safe booten wordt en dat bestandje terugzetten. En dit is voor servers zeker wel te automatiseren via netboot. Maar voor laptops op afstand minder eenvoudig.

Zoals ik al aangaf, vele omgevingen hebben ze hun automation niet op orde. Als je nog op deze manier werkt zou ik echt gaan nadenken om een redesign van je omgeving op te zetten. Een VM zou je als een container moeten behandelen, is hij kapot? Rol hem opnieuw uit.

Want als je per server via safe boot de fix gaat uitvoeren over tientallen servers is het niet raar dat je lang bezig bent.

Marve79 @vali • 19 juli 2024 11:17

Ja inderdaad, je moet eens kijken hoeveel systemen nog met de hand zijn opgezet. Ik doe het zelf ook niet maar ik ken er helaas genoeg.

svennd @Marve79 • 19 juli 2024 13:03

Automatisatie is leuk en al, maar waarom zou je 3 uur spenderen om iets te automatiseren als je het in 5 minuten kunt doen en maar 1x moet doen (om de 5-7 jaar) ? voor gevallen als deze ? Tuurlijk. Maar kleine / middelgrote bedrijven hebben daar de middelen en kennis gewoon niet voor.

Als je 15K clients hebt hoop ik dat je automatisatie hebt, maar bij een stuk of 100 clients ligt dat compleet anders. Als IT'r is het onze taak om aan te passen aan de omgeving en mogelijkheden. Daarnaast is automatisatie maar een part, dat schalen naar de grote van het bedrijf is een ander probleem. In plaats van 10 clients per dag te installeren moet je opeens enkele 100'den allemaal tegelijk gaan doen, daar is infra & netwerk niet altijd op voorbereid.

Kortom "IT moet het maar klaar hebben liggen" is nogal kort door de bocht. Vele factoren hangen af van wat klaar ligt.

Roy23 @vali • 19 juli 2024 17:01

Nu hadden wij het "geluk" dat alle machines waarop wij CrowdStrike hadden staan VMs waren. Dus we konden die via de remote console in safe mode booten en de fix uitvoeren.
Maar stel je voor dat je CrowdStrike ook op je laptops hebt staan die mensen vanuit huis gebruiken? Die mensen hebben thuis toch geen PXE boot netwerk?

Hoe groot je problemen zijn is echt afhankelijk van hoe je omgeving eruit ziet, en je hebt je omgeving niet altijd helemaal in de hand. Niet iedere omgeving bestaat uit servers / VMs in een datacenter.

Keypunchie

storing
Netwerk

@Marve79 • 19 juli 2024 11:11

Sorry, maar als je in deze situatie niet je backups/snapshots kunt terugzetten, wanneer dan wel?

Een beetje beheerder heeft systeem en data gescheiden, dus dat zou echt moeten kunnen en als je servers in de honderden of duizenden lopen, dan moet je het ook kunnen als een ‘matter of routine’

Ja, ook je SQL servers en ook je Domain Controllers: Let wel, op dit moment doen de machines waar we het over hebben het *niet*.

Marve79 @Keypunchie • 19 juli 2024 11:15

Het kan zeker he maar het is niet zo ideaal, ik denk dat er in dit geval gewoon betere opties zijn.

Ik denk ook dat je de gemiddelde IT omgeving en beheerders overschat

Keypunchie

storing
Netwerk

@Marve79 • 19 juli 2024 11:25

Ik heb niet zoveel ervaring met Windows.

In de Linux en tegenwoordig Kubernetes-serverparken waar ik veel mee werk zou zoiets een redelijk standaard operatie zijn.

Gewoon weggooien en opnieuw uitrollen vanuit automatisering (yay for Infra-as-code).

“Treat your servers like cattle, not like pets”

klakkie.57th @Keypunchie • 19 juli 2024 12:29

Nou nou nou , da praat je over heel “gewone” servers niet op speciaal ingerichte softwarepakketen met honderd en 1 dependencies.

Disaster recovery is vaak toch echt een ver van mijn bed show voor bedrijven, iets waar ze tekening mee houden in geval van brand ofzo niet in geval van een software update.

Heeft deze software dan niet een soort van stepped/staged deployment ??

koppie @Keypunchie • 19 juli 2024 12:36

Je hebt gelijk, servers zouden geen state moeten hebben, maar dat is echt nog lang niet overal (goed) geïmplementeerd... Hele gevirtualiseerde farms liggen op hun gat, hebben ergens op hun disk nog iets van state (afgehandelde berichten, commits enz) en moeten dus nu met de hand worden aangepast... Want dit is zo te zien lastig te scripten, behalve als je de disks aan een andere omgeving kan knopen.

dcm360

@Keypunchie • 19 juli 2024 14:36

Klinkt geweldig dat je zo met wat code een heel nieuwe user space kan uitrollen, maar dan moet je nog wel de infra met werkende kernel hebben om het mee uit te gaan rollen. Op het moment dat je geen infra met stabiele kernel meer hebt, gaat Kubernetes je nergens meer mee redden.

CPM @Marve79 • 19 juli 2024 17:31

"De kleintjes"

En daarom is het wereld nieuws.

bzuidgeest @Marve79 • 19 juli 2024 10:55

De data staat op een storage array, domain controller vind het ook niet erg. Disaster recovery is toch gewoon getest en uitgezocht? Of heb je dat niet gedaan? Dus bij een goede infra is er geen data verlies als je een server opnieuw een OS geeft of een snapshot terugzet. Het is de OS "disc" maar.

Tja, ze zullen even op het "bedrijfsnetwerk" moeten zitten voor de netboot. Maar voor verruit het grootste deel kantoormedewerkers is dat niet een issue.

Ik denk dat jij gewoon niet gewend bent aan grote infra. Ik kan echt geen duizenden servers 1 voor 1 aanpakken, totaal niet nodig.

[Reactie gewijzigd door bzuidgeest op 22 juli 2024 13:17]

roffeltjes @bzuidgeest • 19 juli 2024 11:04

Probleem is niet zomaar de server, maar het samenspel aan servers. Even los van de interdependencies binnen je park, hebben we het hier over een orkest van systemen tussen bedrijven (Ziekenhuizen, vliegvelden etc).

bzuidgeest @roffeltjes • 19 juli 2024 11:11

Elk goed ingericht systeem met redundancies kan het wegvallen van elke server overleven. Interdependencies maken het wat lastiger soms, maar alles kan kapot, dus je moet van 0 terug kunnen.
Als je dat niet kan heb je een groter probleem.
Links en rechts moet je een beetje duwen, even letten op de volgorde. Maar het kan, zeker zonder dat het maanden of weken duurt zoals gesuggereerd word links en rechts.
Het echte probleem is dat veel bedrijven gewoon niet goed voorbereid zijn op iets als dit.

Garyu @bzuidgeest • 19 juli 2024 12:57

Elk goed ingericht systeem met redundancies kan het wegvallen van elke server overleven.

Het wegvallen van elke server individueel is goed op te vangen. Het wegvallen van de helft of meer van je servers tegelijk is een stuk moeilijker.

Ook leuk op vrijdag zoiets, waar 90% van ons kantoorpersoneel vanuit thuis werkt, en dus eerst maar eens te weten moesten te komen dat het niet alleen hun individuele probleem is dat ze een BSOD krijgen. En e-mail niet kunnen lezen etc., en het samenspel tussen HR en IT blijkbaar ook niet goed genoeg is dat ze even een massa-SMS uitsturen of zo.

bzuidgeest @Garyu • 19 juli 2024 13:08

Nietemin duurt het geen weken zoals @Marve79 beweerde, ik heb dat net ook moeten quoten voor @roffeltjes , blijkbaar leest niemand de hele thread. En ja voor sommige beheerders word het gewoon nachtwerk. Jammer dan, dit gebeurd nou ook weer niet dagelijks. Maar als je voorbereid bent is er geen reden tot paniek.

Marve79 @bzuidgeest • 19 juli 2024 13:46

Er zijn genoeg voorbeelden waarbij het weken geduurd heeft. Bijv bij de Cyber attack op maersk. Toch geen kleine speler.

bzuidgeest @Marve79 • 19 juli 2024 13:51

Dan was maersk slecht voorbereid, dat komt ook bij grote spelers voor. Het was in dat geval ook nog eens een cyber attack niet een mislukte update. Als al je infra inclusief je backups in ransomware of virus zit of zo dan is het game over.
Als je patches op je servers uitrolt zonder testen is het helemaal erg.

Marve79 @bzuidgeest • 19 juli 2024 13:55

Die IT omgeving was ook bagger. Die liep zelfs jaren achter met patching. Maar zo gaat het overal. Iedereen hier denkt dat die grote bedrijven allemaal state of the art IT draaien met goed ingerichte processen e.d.

In de praktijk valt dat gewoon heel hard tegen. Er wordt al amper maandelijks gepatched.

bzuidgeest @Marve79 • 19 juli 2024 14:04

Dat is dan jammer als bedrijven hun zaken niet op orde hebben. Maakt niet dat het niet technisch prima mogelijk is. Je patch status is overigens niet echt van belang voor je recovery mogelijkheden. Je hoort alleen over de slechte bedrijven, zat goed ook, maar die komen dus niet in het nieuws.

Het simpelste patch beleid is gewoon een week uitstellen. Eventuele problemen zijn lang en breed bekend dan. En je kan ook nog gefaseerd uitrollen op je eigen omgeving zodat nooit alles offline gaat.

En een oude server kan ook nog steeds bij zijn met patches etc. Dat het wat ouder is maakt niet uit. Ja als je nog server 2012 draait, dan vraag je er ook om. Niet upgraden is gewoon lui. Windows zijn backward compat is bijna 100%.

[Reactie gewijzigd door bzuidgeest op 22 juli 2024 13:17]

Marve79 @bzuidgeest • 19 juli 2024 14:19

Het kost vooral geld. En downtime en daar hebben ze veelal geen zin in. En als hun patches al niet bij zijn ga er dan maar vanuit dat de rest ook niet op orde is. Technisch kan het zeker allemaal prima, maar alles heeft zijn prijs. En op ieder bedrijf en elke IT afdeling zitten managers die van boven als doel krijgen om zoveel mogelijk kosten te besparen. En dat gaat dan helaas ten koste van de kwaliteit. En dan gebeurt er zoiets als dit en dan krijgen ze ineens wel meer geld, maar over een jaar is iedereen het weer vergeten

En om dat nou lui te noemen. Ik ken genoeg rommel die nog op 2012 draait wat bedrijfskritisch is waarvan niemand weet hoe het werkt en de leverancier failliet is en niemand zijn vingers aan wil branden. Dat heeft niks met luiheid te maken, dat is gewoon de praktijk.

bzuidgeest @Marve79 • 19 juli 2024 14:54

Zeker een vorm van luiheid, dat iets moeilijk is om aan te pakken wil niet zeggen dat je het niet moet doen.
Dat hele excuus van we weten niet hoe het werkt. bah. Neem dan intelligente mensen in dienst. Het is geen magie, het is gewoon techniek.
Er zijn blijkbaar veel te veel incompetente IT-ers die alleen maar in hun eigen vakje kunnen denken of trucjes herhalen.

Marve79 @bzuidgeest • 19 juli 2024 14:56

Je trekt niet even een blik competente IT-ers open. Er is ontzettend veel krapte op de arbeidsmarkt en de echt goede IT-ers vragen veel geld en zijn heel selectief waar ze willen werken.

bzuidgeest @Marve79 • 19 juli 2024 14:59

Maar elk bedrijf met meer dan 1000 gebruikers of zou zou toegang moeten hebben tot minstens 1 of 2 al dan niet via inhuur.

Freee!!

@Marve79 • 19 juli 2024 18:50

[...]
Iedereen hier denkt dat die grote bedrijven allemaal state of the art IT draaien met goed ingerichte processen e.d.

In de praktijk draaien die grote bedrijven vrijwel allemaal state of the ark.

roffeltjes @bzuidgeest • 19 juli 2024 12:56

Succes met je vlucht van Schiphol naar Berlijn als Schiphol de zaak wel draaiend heeft, maar berlijn niet.

Succes met je operatie als je dossier van het Noordwest Ziekenhuis niet bij het Amstellandziekenhuis binnenkomt, ook al is het Amstelland up and running.

Jouw idee dat het allemaal nietr uirtmaakt isvolkomen losgezogen van de relaiteit.

En niemand claimt hier in deze draad dat het weken gaat duren. Ik gok dat het vandaag wel weer draait waardoor morgens het meeste wel weer doorgang kan vinden. Maar dat is een heel ander scenario dan "elke ITer van statuur kan dit met een scriptje fluitend oplossen".

bzuidgeest @roffeltjes • 19 juli 2024 13:07

Niemand? quote van @Marve79

En duizenden servers opnieuw inspoelen? Servers waar bijv SQL databases opdraaien kun jij automatisch herinstalleren en de databases herstellen? Wat een onzin zeg. Je hebt het hier over weken, zo niet maanden werk. Er is werkelijk niemand die even in een paar minuten of uur een volledige disaster recovery gaat doen.

Ik heb het bold gemaakt om je te helpen....

Ik spreek natuurlijk ook alleen in de context van enkele bedrijven. Schiphol en berlijn zouden natuurlijk onafhankelijk van elkaar disaster recovery moeten hebben. Elk bedrijf is verantwoordelijk voor zijn eigen zaken. En als berlijn langzaam zou zijn en schiphol en parijs niet dan gaan alleen de vluchten berlijn niet door.

Ik denk dat je de reacties nog eens goed moet lezen. Ik zie eerder een lees probleem bij jou dan een realiteitsprobleem bij mij.

roffeltjes @bzuidgeest • 19 juli 2024 13:15

Akkoord, dat is veel te dramatisch. Maar ook jouw korte klap is dus zoals je nu toegeeft te snel, het gaat alleen op voor je eigen infra.

Betreft Vliegvelden: nee, zo simpel werkt het niet. Er is altijd een waterval probleem als je een knooppunt eruit trekt en we hebben het nu over een aantal hele grote jongens.

Airbus 123 kan niet weg bij Gate4 => Uur lang Gate 4 bezet.
Airbus 123 wordt daarna weggesleept naar een parkeerplek ==> Moeten uitzoeken welke parkeerplek, alle partners moeten weten waar het vliegtuig staat en de groundcrew moet het vliegtuig afsluiten.

Ondertussen zou Airbus 123 van Berlijn naar Rome moeten vliegen en daarna weer van Rome naar Schiphol. Maar Airbus 123 staat vast op Schiphol.

Ondertussen heb je hordes passagiers die vastzitten en een hotel moeten krijgen. Sterker nog, die moeten ook nog ergens worden ingepast in volgende vluchten.

Dit proces over tienduizenden vluchten over de hele wereld. Dat dit wel een weekje gaat naschokken? ja dat geloof ik wel.

En in Ziekenhuizen idem ditto... alles wat is geroosterd gaat schuiven en je moet het ook nog ergens inhalen.

[Reactie gewijzigd door roffeltjes op 22 juli 2024 13:17]

bzuidgeest @roffeltjes • 19 juli 2024 13:54

Maar altijd is er minder verstoring als er een paar wel vliegen dan dat ze allemaal niet vliegen. Tuurlijk geeft multihop een issue, maar heel veel is ook city to city. Het kan lang naschokken zoals je het noemt, maar vliegen zou binnen de kortste keren weer moeten beginnen, niet pas na dagen of weken.

Ziekenhuizen kunnen ook onaangekondigd operatie doen. Je kan namelijk noodgevallen niet voorspellen. Ja een tijdje druk, maar ook daar zouden ze daar plannen voor moeten hebben. Niet anders dan bij een uitbraak van iets. Je mag hopen dat dit geleerd is na covid.

J_van_Ekris @roffeltjes • 19 juli 2024 20:00

Betreft Vliegvelden: nee, zo simpel werkt het niet. Er is altijd een waterval probleem als je een knooppunt eruit trekt en we hebben het nu over een aantal hele grote jongens.

Het is inderdaad een erg technocratische benadering, terwijl het proces gewoon gierend uit de bocht vliegt. Systemen in luchthavens etc. zijn redundant en er kan er best eens eentje uitvallen (essentiele info gaat vaak nog op papier), maar veel gelijktijdige uitval verstoord het proces, en dan krijg je een lawine-effect.

Ik ben betrokken geweest bij de ingebruikname van Heathrow T5. Je krijgt hele rare problemen als veel systemen onafhankelijk falen. Bij de opening van Heathrow verdwaalden mensen in de baggage-afhandelingsystemen, waardoor ze hun werk niet deden. Paar uur later stonden de koffers overal en werden vliegtuigen tegengehouden om nog naar Heathrow te vliegen omdat het in een totale chaos was geeindigd.

Wat jij schetst: je vliegveld wordt een grote parkeerplaats en je weet niet meer wat nu met welke kist moet gebeuren en om de geparkeerde toestellen heen werken wordt al een probleem. Je hebt (transit)passagiers die vast staan in je terminal, maar die blokkeren de doorstroming van de passagiers die wel nog kunnen vertrekken. Maar wie dat zijn weet je niet want de systemen die dat bijhouden zijn uitgevallen of overbelast. Maar omdat de ontbrekende passagiers vermoedelijk baggage bij zich hebben mag de kist niet vertrekken van de gate (veiligheidsdingetje). Dit soort issues zijn enorm lastig op te lossen.

Smijas @bzuidgeest • 20 juli 2024 00:42

Een werkend, door het C-level afgetekend, regulier getest DR-plan en risico-(actie)houders, met werkende backup en restore scenario's is een zeldzaamheid. Nieuwe veiligheid standaards (normen) moeten deze verantwoordelijkheden voor veel meer bestuurders voelbaar maken. Ze worden hier hoofdelijk verantwoordelijk en aansprakelijk voor.

Marve79 @bzuidgeest • 19 juli 2024 10:58

Een Disaster Recovery doe je enkel in een zeer extreme situatie, bijv bij een grote hack of datacenter wat in brand vliegt. Dat is hier niet het geval. Hier zijn betere oplossingen dan een disaster recovery.

Je hoeft ze niet 1 voor 1 aan te pakken, je kunt ze ook PXE booten en die file terugzetten. Dat is niet lastig te maken. Lijkt me sneller en minder risicovol dan een full disaster recovery.

bzuidgeest @Marve79 • 19 juli 2024 11:02

dat is dus nog steeds een (pxe) netboot. Maar een disc modificeren die encrypted is? Misschien is het mogelijk, maar zeker voor desktops is gewoon restoren makkelijker. Staat toch geen data op. Dat is allemaal remote en de machines komen in een gegarandeerd know good state. Niet een state met een half verwijderde update. Voor servers is het niet veel anders.

Voor een netwerkje met 2 of 10 computers is het overdreven, maar we hebben het over grote netwerken.

[Reactie gewijzigd door bzuidgeest op 22 juli 2024 13:17]

GeroldM @Marve79 • 19 juli 2024 17:57

Op afstand machines zijn inderdaad een probleem. De Proxmox opzet die ik lokaal heb draaien hier heeft een knop 'Console'. Bij een virtuele Windows server betekent dat er een VNC verbinding wordt opgezet ermee en deze laat mij de hele boot-procedure zien (en onderbreken wanneer nodig).

Nu is VNC niet zo populair als remote toegang software, maar het is daardoor wel mogelijk om redelijk snel de bootloop te onderbreken en de fix uit te voeren. Als VNC nog niet op het problematische systeem stond voor deze update, dan heeft mijn opmerking nog steeds geen nut. Maar mocht dat wel het geval zijn, dan is enigszins hoop dat remote servers in datacenters redelijk makkelijk manueel zijn aan te passen.

Vond de aanwezigheid van de knop 'Console' in Proxmox een heel sterk punt van deze software.

mangahuisman @bzuidgeest • 19 juli 2024 10:36

Al deze acties, terwijl 1 file deleten het probleem kan oplossen?

Sandwalker

@mangahuisman • 19 juli 2024 10:44

Er zijn maar zoveel mensen die de bit locker code kunnen invoeren dus dan zijn deze mensen de rare limiting stap.
Liever gewoon inprikken en booten. Uiteindelijk kun je dan na het weekend wel weer live zijn.

bzuidgeest @mangahuisman • 19 juli 2024 10:52

Als je duizenden gebruikers/machines hebt om te doen? Denk het niet. Het is maar 1 file, maar gebruikers zijn zo slecht onderlegd dat het net zo goed hogere wiskunde had kunnen zijn.

En wat is er lastig aan een snapshot van een server terug zetten? een paar seconde werk en voila. Geen data verlies want die staat toch op storage array's en die draaien geen windows.

Skit3000

@bzuidgeest • 19 juli 2024 10:53

Tot er natuurlijk in de toekomst een keer een update is waardoor netboot niet meer werkt, gevolgd door een update zoals deze (verpakt in bijvoorbeeld een Windows-update) waarbij mensen hun pc niet meer op kunnen starten.

(Ik geef even een mogelijk scenario van een cybersecurity aanvalwaarbij je écht handmatig alle werkstations opnieuw moet installeren).

bzuidgeest @Skit3000 • 19 juli 2024 10:59

Netboot zit in de firmware van de machine/netwerkcard, niet in windows. Dus als iets de firmware om zeep helpt dan is het een probleem, maar dan kan je de computer wel weggooien of terug sturen naar bv hp.

Op dit moment gaat het om windows installaties met een probleem, dus netboot kan gewoon, staat helemaal los van het OS. Werkt ook zonder OS.

Skit3000

@bzuidgeest • 19 juli 2024 11:05

Dat begrijp ik, maar als de hele wereld op Netboot zou vertrouwen en er komt een firmware update uit die (automatisch) wordt geïnstalleerd en bij een bepaalde trigger opeens stopt met functioneren, dan zit je dus met hetzelfde probleem en moet je alsnog handmatig alle systemen langs.

bzuidgeest @Skit3000 • 19 juli 2024 11:14

Ik kan nog wel een paar scenario's maken over wat in de toekomst kan, maar we hebben het over hoe we dit kunnen oplossen en dit oplossen hoeft in een goed voorbereid bedrijf geen enkel probleem te zijn en zelfs relatief weinig tijd te kosten.

Ik kan ook denk hoeveel tijd het kost als allee pc's smelten en wat er gebeurt als er een EMP afgaat en alle chip fabrieken kapot zijn, maar dat is voor dit probleem niet relevant.

Skit3000

@bzuidgeest • 19 juli 2024 11:44

Mee eens dat er van alles kan gebeuren, maar er zijn nu dus bedrijven die met het probleem zitten dat ze niet bij de bootloader kunnen van hun hosted servers, en daardoor dus de handmatige stappen (verwijderen van de CrowdStrike update) niet uit kunnen voeren. Hun enige hoop is dat hun cloud provider dit voor/namens hen doet. Dat is de echte wereld.

bzuidgeest @Skit3000 • 19 juli 2024 12:07

Niet bij de bootloader kunnen? Hebben die geen ilo of andere remote management interface in hun hardware? Elke HP en vast Dell machine heeft er eentje.

Liebensraum @bzuidgeest • 19 juli 2024 12:27

al je pc's netbooten is echt 2005, dat doet in de praktijk bijna niemand meer m.u.v. de echt grote corporates, en ook daar lopen vaak al zat mensen rond met een BYOD etc achtig device en is netbooten alleen voor de 'vaste' machines. bijna iedereen zit of al op Autopilot of is er mee bezig.

Dat gezegd hebbende, meeste moderne IT omgevingen gebruiken wellicht ook geen Crowdstrike maar gewoon MDE e.d, of draaien Mac.

bzuidgeest @Liebensraum • 19 juli 2024 13:03

Niemand draait mac in een grote omgeving. In vergelijking met windows een zeldzaamheid. Een mac kan netbooten.
Autopilot kan je nog steeds uitvoeren vanuit een netboot. Je hebt gewoon niets aan iets dat gebaseerd is op dat windows (uitgekleed of niet) draait. Voor recovery wil je iets onafhankelijks.

Dus ook moderne omgevingen hebben netboot als ze slim zijn. Ja het is een techniek voor vaste machines en laptops. Mogelijk sommige windows tablets. Maar het merendeel is nog steeds laptops of desktops bij grote bedrijven.

Wat jij vooral bedoelt zijn kleine omgevingen.

Liebensraum @bzuidgeest • 19 juli 2024 14:53

Ik werk voornamelijk voor beide, en kan je garanderen dat deze omgevingen in de top 10 staan qua gebruikers/devices. (>800k users is de grootste).

En daar zij heel wat Macs in gebruik. Weet niet waar jij werkt(e), maar je statements reflecteren in ieder geval niet mijn realiteit de afgelopen ~5 jaar.

bzuidgeest @Liebensraum • 19 juli 2024 14:56

Het scheelt per branche. Maar kijk naar de algemene gebruiks cijfers van mac en windows en dan weet je vlug genoeg dat de wereld op windows draait. Als mac verkocht in dezelfde aantallen als windows zag de wereld er heel anders uit. Wat vlugge stats:

Microsoft Windows is the most used at 72.22%, followed by Apple's macOS at 14.73%, desktop Linux at 3.88%, and Google's ChromeOS at 2.45%.

Die 14% zijn nog steeds miljoenen gebruikers, maar windows is vele malen groter, al helemaal in enterprise.

SPee @bzuidgeest • 19 juli 2024 11:57

Niet in minuten, maar als je zorgt dat al je pc's kunnen netbooten (verplichten we aan klanten) dan kan elke machine in record tempo opnieuw een schoon image hebben.

Leuke oplossing.

Dat is ook de goto oplossing van onze IT afdeling, lekker een schoon image erop.
Maar besef je dan wel dat die systemen voor specifieke functies zijn ingericht en software en configuratie hebben die per machine verschillen? Of data die op de schijf staat?
Met een nieuwe schoon image erop ben je dat alles kwijt. Kun je weer opnieuw beginnen alles in te richten.
Die impact is wat groter dan op elk pc inloggen en het bestandje in de safe mode verwijderen.

bzuidgeest @SPee • 19 juli 2024 12:11

Maar besef je dan wel dat die systemen voor specifieke functies zijn ingericht en software en configuratie hebben die per machine verschillen?

Daar is software distributie voor zoals intune en soortgenoten. Software en config rolt automatisch uit.

Of data die op de schijf staat?

Sta je dat toe dan? IT beleid regel 1, Lokale data word niet gegarandeerd. En bij voorkeur met security zo veel mogelijk onmogelijk gemaakt.

Met een nieuwe schoon image erop ben je dat alles kwijt.

Je bent niets kwijt want alles staat op servers. Zelfs je persoonlijk instellingen folders kunnen worden geredirect.

Die impact die jij omschrijft bestaat niet in een goed ingerichte omgeving. Je redeneert vanuit klein en simplistisch en ja veel grote bedrijven zijn ook slecht voorbereid. Maar als je voorbereid dan zijn jou argumenten gewoon geen enkel issue.

Fermion @bzuidgeest • 19 juli 2024 12:11

De meeste servers zijn toch virtueel en kunnen gewoon terug naar een vroeger snapshot en dat is bijna instant.

Hoop voor je dat dit een denkfout is, en niet jouw dagelijkse werkwijze is dat je Snapshots gebruikt als een backup mechanisme gebruikt, dan heb jij een probleem aan je hand.

bzuidgeest @Fermion • 19 juli 2024 12:12

Nee, niet als totaal backup mechanisme, daar is echte backup software voor. Maar waarom niet OOK snapshots hebben? Dat is voor dingen als dit goud.

Ik stel nergens dat snapshots backups zijn, ze zijn echter wel heel handig in dit soort gevallen. Recente snapshots houden naast een backup is gewoon handig en kost nagenoeg niets.

[Reactie gewijzigd door bzuidgeest op 22 juli 2024 13:17]

Verwijderd @bzuidgeest • 19 juli 2024 13:20

Het is echt onzin wat je schrijft. Context; Laptops in het veld.

Niet in minuten, maar als je zorgt dat al je pc's kunnen netbooten (verplichten we aan klanten) dan kan elke machine in record tempo opnieuw een schoon image hebben

Laptops in het veld met Bitlocker en wellicht 4G simcard. Hoe the F ga jij netwerkbooten naar je server met nieuwe image?

bzuidgeest @Verwijderd • 19 juli 2024 13:58

Laptops in het veld is een minderheid en de meeste daarvan zitten nog op rij afstand van een kantoor. Het kost tijd, maar geen weken zoals @Marve79 schreef. Het is onhandig, maar verre van onmogelijk.

Met de juiste config en een hulp pc of router kan je zelfs netbooten via een lokale switch en een VPN kunnen ze niet uit het veld, dan stuur je het netwerk het veld in.

Het word een beetje schrikbarend als ik lees hoe veel "IT" mensen de opties niet kennen. Het is geen dagelijks doen, maar dat maakt het niet onmogelijk. Wat een gebrek aan creatief denken.

[Reactie gewijzigd door bzuidgeest op 22 juli 2024 13:17]

Marve79 @bzuidgeest • 19 juli 2024 14:20

Alles kan maar het kost allemaal tijd, geld en uren.

bzuidgeest @Marve79 • 19 juli 2024 14:58

Maar niet zo lang zoals jij stelt, niet als je netjes voorbereid. En op dit moment hebben ze weinig keuze.
Elk slim bedrijf zal zijn balans hierna opmaken en recovery en uitrol opnieuw overwegen.

HollowGamer @Marve79 • 19 juli 2024 16:14

Waarom moet je de databases herstellen? Die zijn toch niet corrupt geraakt ofzo?

Als je zoveel klanten heb, dan heb je meestal een safe/failover. Die neemt het dan over.

Niet dat ik het ITers gun, want het is in alle gevallen altijd veel werk en gedoe.

vali @Marve79 • 19 juli 2024 10:51

En duizenden servers opnieuw inspoelen? Servers waar bijv SQL databases opdraaien kun jij automatisch herinstalleren en de databases herstellen? Wat een onzin zeg. Je hebt het hier over weken, zo niet maanden werk. Er is werkelijk niemand die even in een paar minuten of uur een volledige disaster recovery gaat doen.

Blijkbaar ben jij geen IT-er.

Ook dit zou geen probleem moeten zijn... Herinstallatie zou het niet eens moeten zijn, ze zouden opnieuw ingespoeld moeten worden. Als je de backend qua storage geregeld hebt (ZFS of andere oplossingen waar je database opstaat) zou je ook hier gemakkelijk terug kunnen gaan naar een snapshot waar issues niet zijn.

Dus nee, zelf in het verleden meerdere grote changes terug moeten draaien en had hier geen problemen mee. Tegenwoordig gaat dit met gitops en containers wat makkelijker maar met VM's zou dit met goede automation geen probleem moeten zijn. Mensen die hier wel issues mee hebben moeten serieus nadenken of ze hun automation wel op orde hebben...

Het gaat ook om laptops die in heel het veld zitten, hoe ga je dat doen via internet als ze BSOD's geven?

Hiervoor zou een procedure moeten zijn, laptops zouden in het veld ook problemen moeten ervaren, gaan we hiervoor dan maar dag niet werken? Lijkt mij onwenselijk.

[Reactie gewijzigd door vali op 22 juli 2024 13:17]

Fermion @vali • 19 juli 2024 12:13

Servers waar bijv SQL databases opdraaien kun jij automatisch herinstalleren en de databases herstellen?

Probleem is het OS, dus als jij je zaken goed op orde hebt gebracht, dan draait jouw SQL database niet op hetzelfde partitie van je OS. Het enige probleem met SQL is dat de database niet goed is afgesloten door de blue screen, maar je runbook zou jou over dit probleem moeten kunnen helpen. Succes.

Marve79 @vali • 19 juli 2024 10:56

Meeste databases staan gewoon op een VMDK anders heb je geen storage vmotion. Bovendien staat je configuratie op de VM zelf. Die gaat dan ook mee terug. Voor veel servers kan dit zeker werken maar voor bepaalde systemen is een snapshot terugzetten gewoon veel te risicovol of zelfs onmogelijk (bijv domain controllers). Als het mis gaat ben je echt zwaar genaaid. Ik zou dan toch maar even safe booten en die file terugzetten. Lijkt me minder risicovol.

RiDo78 @Marve79 • 19 juli 2024 11:41

Meeste databases staan gewoon op een VMDK anders heb je geen storage vmotion. Bovendien staat je configuratie op de VM zelf. Die gaat dan ook mee terug. Voor veel servers kan dit zeker werken maar voor bepaalde systemen is een snapshot terugzetten gewoon veel te risicovol of zelfs onmogelijk (bijv domain controllers). Als het mis gaat ben je echt zwaar genaaid. Ik zou dan toch maar even safe booten en die file terugzetten. Lijkt me minder risicovol.

Heb je ooit in VMWare naar de instellingen van een virtuele disk gekeken en je afgevraagd wat de instelling Disk Mode doet? Het is heel simpel, zet die op independant en de disk wordt uitgesloten van snapshots. Dus heb je het over VMDK's dan moet je overwegen om je databases (maar ook andere software die het niet leuk vinden om 'terug in de tijd' te gaan) op een 'independent persistent' disk zetten. _{-- disclaimer, lees je eerst goed in voor je als een malle allehande VMDKs gaat aanpassen. --}

Daarnaast geef je het idee dat een machine geen storage-vmotion kan doen als er data buiten een VMDK leeft. Dat is natuurlijk stierenpoep. VMWare heeft er totaal geen problemen mee als je de C-drive in een VMDK op een andere datastore wilt hebben dan je doorgemapte FC-adapter. Maar ergens heb je toch wel een punt, want je kunt met een doorgemapte FC adapter geen compute-vmotions uitvoeren; de VM life naar een andere host verplaatsen is dan vrij lastig. Het is puur een design-keuze want een doorgemapte FC is wel lekker snel. Zeker als je ook NVME-over-FC draait op een professionele dedicated storagebak.

Maar je kunt je storage een paar layers hoger aanbieden en gebruik maken van een vorm van netwerk-storage. FCoE, iSCSI of desnoods NFS. Of je gaat een tikkeltje moderner en je gebruikt object-storage.

Er zijn meerdere wegen die naar Rome leiden. En je kunt wel naar elkaar blijven roepen dat de ander geen IT-er is, maar laten we het netjes houden en zeggen dat niet iedere IT'er even veel van die wegen bewandeld heeft endus niet even veel ervaring heeft.

YoMarK @RiDo78 • 19 juli 2024 12:36

Allemaal dingen die je kunt doen, maar je doorgaans niet zou moeten doen, uitzonderingen daargelaten.
Als je duizenden VM's hebt met RAW device mappings dan ga je voorbij aan wat een VM eigenlijk zou moeten zijn: een verzameling files zonder afhankelijkheden van hardware die je feitelijk overal kunt opstarten. Als je dat gaat beperken dan mis je op 101 andere plekken de voordelen van dat concept.

RiDo78 @YoMarK • 19 juli 2024 13:37

Buiten FCoE hoor je mij ook geen RAW-device mappings aanbevelen. Die zijn inderdaad voor uitzonderingsgevallen.

Netwerk-gebaseerde protocollen als iSCSI en NFS kun je in je VM laten uitkomen zodat VMWare er geen weet van heeft. Eventuele verstoringen door een vMotion worden dan ofwel door de transport-layer (iSCSI of TCP) ofwel de application-layer (NFS) opgevangen.

En voor FCoE heb je NPIV waardoor je ook een VM met een virtuele FCoE adapter kunt vmotionen. Mits je hardware het ondersteund.

Maar we gaan te ver offtopic. Het gaat hier niet storage-protocollen of om wie wel of geen IT'er is en wie de meeste ervaring heeft. Het ging even over VMWare snapshots nuttig kunnen zijn om te herstellen van de crowdstrike-problemen.

Dus om terug on-topic te komen denk ik dat het afhankelijk is of de data in een snapshot zit (zoals bij een Dependent VMDK) of niet (Independent VMDK, RDM of netwerkgebaseerde storage). In het eerste geval ben je ook X aantal uren of dagen aan data kwijt als je terug gaat in de tijd. En in het tweede geval zul je moeten kijken of je data geen afhankelijkheden heeft met componenten (zoals software of andere data) die op een van de dependent disken staat. Als je namelijk je database-software recent geupgrade hebt en je snapshot maakt die upgrade ongedaan dan wordt het alweer wat complexer (en lastiger te automatiseren).

Hoe dan ook 'zomaar' even wat machines terug inspoelen kan vaak niet. En het zal per systeem / omgeving of bedrijf bekeken moeten worden hoe je het probleem gaat verhelpen. Als je VMWare omgeving bijvoorbeeld NFS gebruikt om met de storage te verbinden en je hebt je VMDK's niet versleuteld dan zou je het volgende kunnen overwegen:
1 - Alle getroffen VM's uitzetten en hun hostnames in een lijst zetten
2 - Linux-VM, voorzien van NTFS drivers of een Windows VM aftrappen met NFS client en die laten verbinden met de NFS-datastore.
3 - Scriptje maken dat alle VM's in de lijst opzoekt op de storage, hun C-disk koppelt, de betreffende CrowdStrike-file verwijdert, terug ontkoppelt en eventueel een API-call naar VMWare stuurt om die VM weer te starten.

Heb je FCoE dan ligt er waarschijnlijk VMFS op de LUN en zou je het kunnen proberen met VMFS tools zoals hier beschreven: https://www.nakivo.com/bl...re-in-linux-windows-esxi/

vali @Marve79 • 19 juli 2024 11:00

Meeste databases staan gewoon op een VMDK anders heb je geen storage vmotion. Bovendien staat je configuratie op de VM zel

No offense, maar je maakt de opmerking van "ben je wel een IT-er" en je komt dan met zo'n opmerking? Hoop dat je op de hoogte bent dat je database niet op een vmdk hoeft te zetten en dat je de backend van VMware ook tegen iets anders kan laten praten? Storage kan je ook via nfs/ multipath en vele andere plekken laten landen en dan zit het niet in een vmdk van de server zelf.

bepaalde systemen is een snapshot terugzetten gewoon veel te risicovol of zelfs onmogelijk (bijv domain controllers).

Ik het had in dit geval over ZFS waar de data staat. Beetje IT omgeving staat de data niet binnen de server maar op een andere locatie. Dan is het wel goed om te weten hoe je met de data omgaat in geval van een disaster zoals deze.

[Reactie gewijzigd door vali op 22 juli 2024 13:17]

Marve79 @vali • 19 juli 2024 11:26

Dat hoeft zeker niet, en dat is de betere oplossing. Maar je hebt het over systeembeheerders he, die kiezen voor de makkelijkste weg. Als het maar werkt.

En dan nog, staat je data wel extern, maar je config staat nog wel op de VM zelf en die kan ook veranderen binnen het window waarin je een snapshot terugzet.

Maar ik ben het zeker met je eens dat je beter niet je data op een VMDK zet. Maar de praktijk is helaas anders.

bzuidgeest @Marve79 • 19 juli 2024 11:08

Ook voor domaincontrollers kan het, niets is onmogelijk. En Vmotion? wie gebruikt die troep van vmware nog? Er zijn zo veel betere, nieuwere en goedkopere opties. En data heb je op een dedicated storage array zoals HPE 3PAR. Niet op een virtual disk, bah zeg.

Sandwalker

@Glashelder • 19 juli 2024 10:42

Was het maar zo’n feest.
Is het lekker weer en je weet dat je IT-vrienden niet mee naar het strand gaan. Ik ga zo maar eens even een doos ijsjes halen en afgeven. Dan gaat het idee van mooi weer niet helemaal aan ze voorbij.
En dan maar hopen dat er een goede te pushen update komt.

Sjoan @Sandwalker • 19 juli 2024 12:00

Zo heeft iedere beroepssector wel iets.

Glashelder

@vali • 19 juli 2024 11:20

Ja allemaal SQL, AD en applicatieserver natuurlijk. Met duizend tegelijk en over een uurtje klaar!

vali @Glashelder • 19 juli 2024 11:32

Ja allemaal SQL, AD en applicatieserver natuurlijk. Met duizend tegelijk en over een uurtje klaar!

Misschien is het moment om niet zo sarcastisch erin te zitten en te leren hiervan. Want ja ook SQL, AD en applicaties kan je gemakkelijk opnieuw uitrollen. Kom eens in een goede enterprise omgeving en je zult hopelijk nieuwe dingen leren qua beheer.

Glashelder

@vali • 19 juli 2024 12:39

Ik ken die ideaalplaatjes en ik weet dat het bij het leeuwendeel van de enterprise omgevingen gewoon niet zo werkt. Er is zoveel mogelijk en in de praktijk vaak zo weinig ingericht om dit soort, zeer zeldzame gevallen op te kunnen vangen.

Daarom neem ik opmerkingen zoals die van jou gewoon niet serieus, sorry.

Marve79 @vali • 19 juli 2024 13:54

Ik kom bij ontzettend veel bedrijven over de vloer en bij 90% is het kommer en kwel en is niemand voorbereid op zoiets als dit. Maar goed om te horen dat jullie dat wel zijn. Prijs jezelf gelukkig.

vali @Marve79 • 19 juli 2024 13:58

Ik kom bij ontzettend veel bedrijven over de vloer en bij 90% is het kommer en kwel en is niemand voorbereid op zoiets als dit. Maar goed om te horen dat jullie dat wel zijn. Prijs jezelf gelukkig.

In het verleden bij veel bedrijven de automation uitgedacht en opgezet waarbij veelal een mix was van Windows, Linux en/of Unix .. Tegenwoordig doe ik het amper nog (doelend op oudere omgevingen met VM's), en werk ik voornamelijk nog met kubernetes en cloud oplossingen.

Zeker wel leuk om mee bezig te zijn, je leert er veel van.

[Reactie gewijzigd door vali op 22 juli 2024 13:17]

YoMarK @vali • 19 juli 2024 15:19

Ik ga het even generaliseren, maar kubernetes is leuk voor de applicaties die conceptueel op elkaar lijken en dan kan je mooi schalen en snel upgraden, etc.
Omgevingen met vele honderden VM's waarvan er geen één hetzelfde is, honderden softwarepakketten(specialistisch) van tientallen leveranciers komen nog veel voor en het kan zomaar zijn dat dé manier is om de business te voorzien van wat nodig is.
Niet overal voldoen de standaard cloud abonnementen en wat webservetjes.

vali @YoMarK • 19 juli 2024 15:43

Ik ga het even generaliseren, maar kubernetes is leuk voor de applicaties die conceptueel op elkaar lijken en dan kan je mooi schalen en snel upgraden, etc.

Kubernetes is alleen leuk als je daadwerkelijk goed met gitops werkt. Het maakt daarbij niet uit dat de applicaties conceptueel niet op elkaar lijken. Ook kunnen er afhankelijkheden zijn van tientallen leveranciers.

Omgevingen met vele honderden VM's waarvan er geen één hetzelfde is, honderden softwarepakketten(specialistisch) van tientallen leveranciers komen nog veel voor en het kan zomaar zijn dat dé manier is om de business te voorzien van wat nodig is.

Zie je veel, maar als je hier bij de bouw er rekening mee houdt maakt het weinig uit. De problemen gaan ontstaan als er handwerk wordt toegepast en het niet in GIT wordt weggeschreven.

Blokker_1999

Crowdstrike
storing

@vali • 19 juli 2024 11:21

Ik denk dat er maar heel weinig organisaties zijn die daar vrij weinig om gaan geven. Zeker als je Crowdstrike in je volledige omgeving gebruikt en alle systemen er last van hebben, tot aan je domain controllers toe. Dat los je niet snel even op.

vali @Blokker_1999 • 19 juli 2024 13:59

Hopelijk is dit het moment dat die bedrijven hiervan leren en het meenemen in hun disaster plan..

roffeltjes @vali • 19 juli 2024 10:46

Jaja, ik ken blijkbaar geen ITers van statuur. Blijkbaar zijn die wereldwijd ook heel schaars.

Of misschien is het niet zo simpel als dat jij hier voordoet?

vali @roffeltjes • 19 juli 2024 10:56

Jaja, ik ken blijkbaar geen ITers van statuur. Blijkbaar zijn die wereldwijd ook heel schaars.

Goede IT-ers zijn altijd schaars, waarom denk je dat uur tarrief zo hoog is nu.

roffeltjes @vali • 19 juli 2024 10:58

Zo'n vliegveld of ziekenhuis met al die verbonden systemen? Appeltje eitje, scriptje knallen tussen de donut en de koffie, boem wereld\wijd probleem opgelost door de echte ITer die met zijn mega brein alle afhankelijkheden overziet.

Of misschien is het allemaal troch wat lastiger dan dat jij hier rondtoetert met een gebrek aan kennis over de infra van de getroffen bedrijven

[Reactie gewijzigd door roffeltjes op 22 juli 2024 13:17]

Ricco02 @vali • 19 juli 2024 11:18

En hoe ga jij alle computers en systemen centraal benaderen om dit automatisch uit te voeren als die computers en systemen niet eens normaal naar windows booten?

Dan zijn ze namelijk ook niet te benaderen, ongeacht hoe ver je automation bij een bedrijf is.

Ricco02 @vali • 19 juli 2024 11:40

Geef mij dan even uitleg hoe jij dit even oplost zonder handmatig te desbetreffende computers te moeten benaderen?

Zelfs crowdstrike geeft aan om dit voor nu op te lossen je handmatig fysiek de systemen moet benaderen.

vali @Ricco02 • 19 juli 2024 11:41

Zelfs crowdstrike geeft aan om dit voor nu op te lossen je handmatig fysiek de systemen moet benaderen.

Nieuwe template maken waar deze handeling in is uitgevoerd en die vervolgens opnieuw uitrollen naar alle machines. Vervolgens alle data terugzetten. Data van het OS en die van de applicatie zouden los van elkaar moeten staan.

Al zijn er uiteraard ook andere oplossingen, worden hier ook gegeven.

[Reactie gewijzigd door vali op 22 juli 2024 13:17]

Ricco02 @vali • 19 juli 2024 11:47

Leg mij uit hoe je die uitrolt naar machines die niet normaal opstarten?

Of kan dat zonder dat windows normaal boot?

RiDo78 @Ricco02 • 19 juli 2024 14:07

In de kern heeft @vali wel een punt.
Wanneer je omgeving compleet IAAS/PAAS waarbij alle machines via een tool als Teraform worden uitgerold dan is het gewoon een kwestie van alle getroffen machines glashard naar /dev/null verplaatsen en Teraform opnieuw aftrappen. TF zal zien dat de omgeving niet aan zijn documentatie voldoet en rolt alle getroffen (en verwijderde) machines weer terug uit.

Eens de machines weer draaien, moeten de applicaties er natuurlijk weer op, maar ook dat is te automatiseren (SCCM/Ansible/Puppet/etc). En tot slot moeten ze geconfigureerd worden wat in een aantal gevallen ook prima te automatiseren is... maar lang niet altijd.

Waar dit scenario alleen mank gaat is dat je vaak met afhankelijkheden zit. Zo wens ik je succes als je uitrolstraat gebruik maakt van een getroffen DHCP server. Of dat je moet authenticeren tegen een AD waarvan elke controller op z'n rug ligt. Of dat je admin-wachtwoorden uit CyberArk moet halen, die het nu even niet doet. En dan heb ik het enkel nog over het stukje uitrollen.

Zo kun je ook nog afhankelijkheden hebben:
- Als bijvoorbeeld alle AD-controllers onderuit liggen dan kun je het beste als eerste de DCs met de belangrijkste FSMO-rollen online brengen. Teraform zal daar geen rekening mee houden.
- Clusternodes die moeten aan hun quorum komen en kunnen ook niet allemaal tegelijk opgebracht worden. Dat moet gecontroleerd gebeuren.
- Halfbakken wanna-be applicatie-clusters zoals PRTG zijn helemaal een draak. Succes daarmee.

Dus in theorie heel leuk om alles te automatiseren, maar er zijn ook grensen.

Al-met-al denk ik dat veel mensen vandaag geleerd hebben dat een single-point-of-failure niet alleen betrekking heeft op hardware. Maar als je overal dezelfde software gebruikt, is dat evengoed een single-point-of-failure. Of misschien is Single-point-of-misery een betere term?

vali @RiDo78 • 19 juli 2024 14:17

Dus in theorie heel leuk om alles te automatiseren, maar er zijn ook grensen.

Er zullen altijd grenzen zijn inderdaad, maat de discussie is ontstaan dat dit weken ging duren en dat er voornamelijk handwerk verricht moest gaan worden.

vali @Ricco02 • 19 juli 2024 11:52

Leg mij uit hoe je die uitrolt naar machines die niet normaal opstarten?

Of kan dat zonder dat windows normaal boot?

Je kan met automation tegen een vmware/promox of wat dan ook tegenaan praten. Ook ILO zou geen issue moeten zijn om hem bepaalde boot mode te zetten.

Jasperrr @vali • 19 juli 2024 12:16

Dan zit je dus nog steeds met het probleem dat je alles fysiek moet benaderen om te kunnen uitrollen.

roffeltjes @vali • 19 juli 2024 12:59

Aha, dus de "Echte ITer" van Schiphol moet ff met boss rechten alles op Berlijn uitrollen?

Misschien zijn de interdependencies tussen grote instanties als ziekenhuizen, vliegvelden en gelieerde groepen anno 2024 iets complexer dan het serverparkje waar jij overgaat.

Een echte ITer van statuur zou toch niet zo druk bezig moeten zijn met het bestuderen van het pluis in zijn eigen super interssante navel en moeten nadenken over de grotere verbanden.

[Reactie gewijzigd door roffeltjes op 22 juli 2024 13:17]

RiDo78 @roffeltjes • 19 juli 2024 14:47

In gedachten zie ik die IT'er in een kist rondjes om Berlijn vliegen om uiteindelijk van de verkeerstoren te horen dat ze geen vluchtinformatie hebben en ze daarom geen toestemming krijgen om te landen. Om vervolgens met amper branstof terug bij Schiphol te komen en daar van de verkeerstoren te horen: "Wacht even, wat doen jullie in de lucht? Volgens onze informatie zouden jullie kist hier aan gate D3 moeten st.... oh wacht, IT belt... daar ben ik weer, ze hebben net een backup terug gezet eeeeennneehh NIET IN HET GOOIMEER LANDEN!!"

[Reactie gewijzigd door RiDo78 op 22 juli 2024 13:17]

roffeltjes @vali • 19 juli 2024 13:05

Dit is een wereldwijde storing. Tenzij jouw eigen disaster plan is " Ik eis de sleutels op van al mijn partners en ram eigenhandig ff mijn super scriptje door hun infra" is er voor Ziekenhuizen en Vliegvelden die hierdoor zijn getroffen geen disaster plan die dit oplost.

Dat je het probleem niet ziet vind ik verbijsterend.

Tonkie1967 @Marve79 • 19 juli 2024 09:56

Kan ook een combinatie van issues zijn: bv Cloud strike update getest met de vorige MS monthly update: geen issues, vervolgens gaat de maandelijkse Windows update eroverheen en....
Zeg niet dat dit vandaag het geval is, maar combinatie storingen bestaan en zal ook vast niet laatste keer zijn.

Marve79 @Tonkie1967 • 19 juli 2024 09:57

Laatste patch tuesday is al 10 dagen terug, dus dat lijkt me sterk. Als crowdstrike hun updates dan nog niet getest heeft met die patch, dan is het wel echt een waardeloos bedrijf.

memphis @Marve79 • 19 juli 2024 10:38

Een beetje bedrijf doet geen auto updates omdat er bij Microsoft ook wel eens wat fout gaat. Een beetje bedrijf maakt maandelijks zelf een updatepakket van de updates en test deze ook eerst op een kleine groep computers voordat er een algehele uitrol komt.

Ricco02 @memphis • 19 juli 2024 11:19

Systeembeheerders halen deze updates van crowdstrike niet handmatig binnen. Zodra crowdstrike deze update uitrolt word dat stilletjes automatisch geinstalleerd op systemen en toegepast.

Daar kunnen systeembeheerders bij bedrijven niks tegen doen en ook niet tegenhouden. Om die dan de schuld te geven om eerst te moeten testen vind ik erg onnodig.

Jasperrr @Ricco02 • 19 juli 2024 12:15

Het lijkt mij dat hij doelde op Crowdstrike en niet op de systeembeheerders van de nu-getroffen bedrijven.

Marve79 @memphis • 19 juli 2024 10:46

Inderdaad, of er is gewoon een test/acceptatie omgeving

Seal64 @memphis • 19 juli 2024 11:20

Allicht, maar dan wacht je met je eigen updates tot die patchronde alsnog getest is. Het feit dat jij je updates zelf managed wil niet zeggen dat al je klanten dat doen, en als daar dus klanten bij zitten die óf gewoon direct updaten, óf die een sneller testproces hebben dan jij, dan moet je dus alsnog uitsluiten dat jouw update daar geen conflicten mee heeft.

Oftewel, je update moet getest zijn tegen de meest recente updates die je in het wild kunt aantreffen, niet tegen degenen die bij jou intern aangetroffen worden.

Electro Wim @Marve79 • 19 juli 2024 12:03

Je zal maar de beheerder zijn die uit luiheid dacht, hey een update van een diep in het OS zittend 3e party software, laat is die maar gewoon zonder een week in een test omgeving te draaien op onze hele productie uitrollen.

In mijn werk doen we dat bij ingewikkelde omgevingen ook voordat we het vrijgeven (daarvoor zijn tenslotte "veiligheids" procedures en ISO certificeringen). Het zijn bij mij dan geen computers maar uitgebreide elektrische installaties. Maar veiligheid staat voorop. Even een nieuw type alamat of klem, altijd eerst goed testen.

Dus mijn vraag is, waarom wordt er bij nieuwe belangrijke software niet getest?

Marve79 @Electro Wim • 19 juli 2024 13:49

Je praat over antivirus patterns, die worden meerdere keren per dag bijgewerkt. Wij doen ook niet elke defender update uitvoerig testen, dat is niet te doen. Bovendien loop je dan altijd achter de feiten aan en heb je geen zero day bescherming meer. Het is altijd een afweging die je moet maken.

Electro Wim @Marve79 • 19 juli 2024 14:26

Hoe kan een AV definitie de boel onderuit trekken dan, dit is echt meer dan een definitie wat ik zo begrijp van IT collega's. Ik ben maar een leek, maar een .dll file in de system32 is volgens mij gewoon een software update.

Maar gezien de schade is het misschien een idee om toch een 24 uur delay te hebben.

Marve79 @Electro Wim • 19 juli 2024 14:46

Dat is al vaker gebeurd in het verleden, bijv dat een kritisch bestand ineens als virus werd aangezien en in quarantine werd geplaatst

Ik weet niet om wat voor update dit ging. Maar als er miljoenen systemen ineens down gaan lijkt het me toch een definitie update.

jimbo123 @Electro Wim • 20 juli 2024 10:44

Maar gezien de schade is het misschien een idee om toch een 24 uur delay te hebben.

Dat is idd een oplossing voor dit soort issues. Besef wel dat je dan door ransomware besmet kunt raken omdat je virusscanner altijd 24 uur achterloopt. En wat denk je dat men van je 24 uur delay keuze gaat vinden wanneer ransomware toeslaat? Dan ben je de dommerik. Het zijn dus altijd afwegingen. Je kunt niet alles voorkomen. Soms ben je gewoon de pineut ondanks dat je goed gehandeld hebt

Electro Wim @jimbo123 • 21 juli 2024 02:50

Maar ik kan mij voorstellen dat wanneer je een klein bedrijf hebt je gewoon de pineut bent want ik vermoed dat de grote dienstverleners dan eerst hun grote klanten helpen en daarna pas de kleintjes.

jimbo123 @Electro Wim • 21 juli 2024 18:55

Maar ik kan mij voorstellen dat wanneer je een klein bedrijf hebt je gewoon de pineut bent want ik vermoed dat de grote dienstverleners dan eerst hun grote klanten helpen en daarna pas de kleintjes.

In essentie is dat wel wat er vaak zal gebeuren idd. Tenzij een kleine klant een betere SLA zou hebben afgesloten. Dan zou die voorrang moeten hebben.

Electro Wim @jimbo123 • 21 juli 2024 19:48

Hmmm. Schade claim van een ton door niet nakomen SLA klein bedrijf…. Versus Grote miljoenen klant kwijt of claim van enkele miljoenen.

Kortom, kleine m’n/bedrijf is altijd de pineut.

Ik vraag mij af hoe nu al die economische schade verhaald kan worden.

SunnieNL

@Marve79 • 19 juli 2024 10:50

Ze geven aan dat het met meerdere versies gebeurd, dus ik vraag mij af of het niet een combi is met de juli update van patch tuesday.
Dat zou ook verklaren waarom bijvoorbeeld mijn laptop niet het probleem heeft. Die heeft al 2 maanden problemen met updaten van windows zelf, maar heeft wel niet zo lang geleden een crowdstrike update gehad.

Marve79 @SunnieNL • 19 juli 2024 11:00

Zou kunnen inderdaad, dat is ook direct het nadeel van 3rd party software, zeker als de software zo ingrijpend veel rechten heeft op het systeem tot kernel level. Komt MS met een patch en boem alles plat.

JoStad @Marve79 • 19 juli 2024 12:17

Toch blijft het vreemd dat deze software niet eerst goed is uitgetest voordat het naar gebruikers wordt gestuurd. In zo'n geval denk ik toch aan opzet, bijvoorbeeld door een rancuneuze medewerker of iets politieks.

PtrO @JoStad • 19 juli 2024 16:44

Goed testen is minstens een kunde waar je goed op kun afstuderen. Wraak en opzet, lijkt mij vooral een onwaarschijnlijke complottheorie.

Zelf wel vaker gehad - in oudere tijden - dat cruciale bestanden zomaar door (AV)software in ins blaues hinein werden gezet. Sindsdien (zelf) altijd gezorgd voor een day-after-care systeem.
Erg lastig bij bedrijven die min of meer "verplicht" zijn direct te patchen en dan gewoonweg vertrouwen op hun leveranciers.
Het is met recht een strike op de crowd. Menig bedrijf zal zich achter de oren krabben hoe dit voortaan te mitigeren.

TD-er

@Marve79 • 19 juli 2024 09:47

[...]

Wat ook raar is, je zou denken dat die updates gradueel worden uitgerold. Dus eerst over 5% van de clients. Dan een tijdje wachten voor je de rest doet. Nu snap ik dat er vaak meerdere updates per dag zijn wat het lastig maakt.
[...]

Misschien zit het probleem juist in het update-proces. Dus verkeerde file naar verkeerde groep gestuurd. Bijv. versie voor interne test door een bug globaal uitgerold.
Kan me namelijk inderdaad niet voorstellen dat zo'n bedrijf als dit niet zo'n update policy zou hebben als je benoemt.

sparcle @Marve79 • 19 juli 2024 09:59

Dit is niet puur de persoon die de versie heeft gepushed naar de klanten. Hier zit een heel systeem achter van tijdsdruk, verkeerde targets etc.
Komt inderdaad mogelijk nog wel wat over naar boven in de komende maanden.
En het einde van crowdstrike zou mij ook niets verbazen.

Da_maniaC @Ankh • 19 juli 2024 08:58

Niet enkel in Australië. Ik log net in en verneem dat vrijwel alle workstations binnen mijn organisatie dit probleem ervaren gevestigd in vrijwel heel West Europa.
Raakt zo'n 3000 Workstations en Laptops voor ons (gelukkig door het update beleid slechts een enkele Windows Server die hierdoor geraakt is).

SunnieNL

@Da_maniaC • 19 juli 2024 10:01

Vrijwel alle Windows laptops van mijn collega's booten ook niet meer. Apple gebruikers werken nu door, en ik... want mijn windows laptop heeft nergens last van.
Ik vraag mij dan ook af of het een combinatie is met patch tuesday en crowdstrike. Meeste laptops zullen gisteren die patch gekregen hebben en zijn nu herstart deze ochtend. Mijn laptop heeft al 2 maanden moeite met installeren van de maand updates van Windows zelf.

Octopuz @SunnieNL • 19 juli 2024 12:05

De nieuwste Windows updates hebben inderdaad een issue met 'signed' Windows Defender Application Control (WDAC) policies. Daar kan zeker een verband zitten. Falcon kan namelijk ook met Defender integreren.

WaaaghNL @SunnieNL • 19 juli 2024 10:18

Om niet buiten de boot te vallen kun je natuurlijk altijd even een Fake BSOD website openen in fullscreen

vrow @WaaaghNL • 19 juli 2024 10:53

Of de BSOD-screensaver natuurlijk :-)
Daar hebben we vroeger wel heel veel lol mee gehad. Toen konden dat soort grappen nog :-)

ShockWave_Omega @Da_maniaC • 19 juli 2024 09:09

Yup onze organisatie heeft er ook last van.

Meemzeh @Da_maniaC • 19 juli 2024 09:27

Oh nee... dat wordt de hele dag gamen!

Pathogen @Meemzeh • 19 juli 2024 10:13

...maar niet op Windows?

Ricco02 @Pathogen • 19 juli 2024 11:14

Ik denk niet dat hij op zijn persoonlijke PC Crowdstrike heeft draaien

fRiEtJeSaTe @Meemzeh • 19 juli 2024 10:38

Behalve als je op de helpdesk werkt.
Dan mag je dit weekend door. Krijg je straks wel een "we're sorry" mailtje voor terug.

[Reactie gewijzigd door fRiEtJeSaTe op 22 juli 2024 13:17]

Mastermind @Meemzeh • 19 juli 2024 13:32

Ik denk dat het wel langer dan een dag gaat duren. Dit is een major clusterfuck.

LongBowNL

@Ankh • 19 juli 2024 08:57

Helaas is dat voor de eindgebruiker niet te doen, aangezien je Admin rechten nodig hebt om dit bestand te verwijderen.

wwdtourkane @LongBowNL • 19 juli 2024 09:04

Mijn laptop zit ook vast in de BSOD bootloop tijdens het booten.
Het mooie is ik heb wel lokale administrator rechten, maar ik mag ik niet zelf in Safe mode booten.
Dus ik kan het probleem ook zelf niet oplossen

dehardstyler @wwdtourkane • 19 juli 2024 09:13

Je kan proberen om wanneer je het Windows laadscherm / splashscreen ziet, de laptop gewoon weer uit te drukken. Zo kan je Safe Mode soms forceren.

Hou er wel rekening mee dat als je dit op een (zakelijke) laptop doet met Bitlocker, je ook de key nodig hebt.

wwdtourkane @dehardstyler • 19 juli 2024 09:20

Dat is mijn probleem helaas, en de service desk is niet bereikbaar op dit moment.
Interne pagina om je eigen code op te halen via een laptop van een ander werkt niet, dus die optie valt ook weg.

(Het is niet dat die pagina nu niet werkt, maar die werkt in het algemeen gewoon niet)

[Reactie gewijzigd door wwdtourkane op 22 juli 2024 13:17]

Marve79 @wwdtourkane • 19 juli 2024 09:24

Ach ja het wordt mooi weer, dagje vrij en naar het strand.

nzall

@Marve79 • 19 juli 2024 10:13

In België hebben ze daar een begrip voor genaamd "technische werkloosheid". En tijdens de eerste 7 dagen van een technische werkloosheid wordt je loon gewoon doorbetaald.

maar een werkgever mag in zo'n geval ook alternatief werk voorstellen, en als dat gepast werk is moet de werknemer dit aanvaarden, anders krijgt hij geen loon.

Badtothebone @nzall • 19 juli 2024 14:56

En wat is gepast werk als je niet in kan loggen op je laptop?

Je plantjes water geven of de auto van de buurvrouw wassen?

nzall

@Badtothebone • 19 juli 2024 15:03

Dat hangt af van je taakomschrijving, je lichamelijke en verstandelijke bekwaamheden, en welke taken er voorhanden zijn. Deze regels dateren natuurlijk ook uit de tijd dat er nog geen computers waren en de meeste werknemers handenarbeid verrichtten, dus de kans is groot dat het gepast werk inhield dat je moest helpen met de machine te herstellen of het opruimen van de werkplaats. Wat wel aangenaam is: als deze andere taak normaal een hoger loon omvat, moet de werknemer effectief dit hoger loon krijgen. Het omgekeerde geldt niet: iemand die lager verloond werk aangeboden krijgt moet betaald worden aan zijn normaal loon.

Overigens had ik wel een kleine vergissing gemaakt: de werknemer is niet verplicht om de alternatieve taak te aanvaarden, maar als deze dat niet doet heeft hij geen recht op loon.

https://www.securex.be/nl...he-stoornis-recht-op-loon

QuatroXL @wwdtourkane • 19 juli 2024 10:32

Wellicht heb je een recovery usb vanwaar je kan starten, een soort WinPE?

Neus @Ankh • 19 juli 2024 08:57

Alle Virgin vluchten in Australie blijven op de grond door dit probleem - wow !

Danster @Neus • 19 juli 2024 09:01

KLM ook..zit er in 1.

Odie

storing

@Danster • 19 juli 2024 09:05

KLM vliegt gewoon (nog).

Danster @Odie • 19 juli 2024 09:08

We staan anders al 35 minuten stil door de storing. Misschien dat het langzaam weer begint op te starten maar zie weinig vanuit dit kleine raampje

MrR0b3rt @Danster • 19 juli 2024 09:20

Het zal ook aan de luchthaven liggen. Want de vliegtuigen zelf hebben er geen last van.

Schiphol melde ook al problemen hoorde ik

Blokker_1999

Crowdstrike
storing

@MrR0b3rt • 19 juli 2024 09:42

Het hoeft niet noodzakelijk de luchthaven te zijn. Het is niet alsof piloten vandaag de dag aankomen op hun werk, in de cockpit stappen en op goed geluk naar hun bestemming vliegen. Daar komt veel administratie en informatie bij te kijken die allemaal digitaal wordt aangeleverd vanuit verschilllende systemen.

MrR0b3rt @Blokker_1999 • 19 juli 2024 12:52

Dat weet ik, maar Danster zat al in het vliegtuig en als de boarding al plaats heeft gevonden, kun je er van uitgaan dat die administratie etc. al gedaan is

bwerg @MrR0b3rt • 19 juli 2024 10:38

Als één van de vinkjes voor het opstijgen niet gezet kan worden staat een vliegtuig stil. En die vinkjes gaat niet alleen om het vliegtuig zelf. Als de luchtverkeersleiding een blinde vlek heeft staat al snel het hele vliegverkeer stil.

Hmmbob @Danster • 19 juli 2024 09:19

Misschien problemen op je destination, niet bij KLM zelf.

Ik lees dat Berlijn airport bijvoorbeeld issues heeft.

HaikoW

@Hmmbob • 19 juli 2024 10:49

https://www.ad.nl/binnenl...-op-vliegvelden~a2d9305e/

Ocin32 @Hmmbob • 19 juli 2024 09:28

bestemming...
problemen...

en als je dan toch de luchthaven van berlijn bij zijn engelse naam noemt ga dan voor de volledige "Berlin airport".

Of ben ik nu een zure mopperpot die zich verzet tegen een overdaad aan engelse woorden

[Reactie gewijzigd door Ocin32 op 22 juli 2024 13:17]

vrow @Ocin32 • 19 juli 2024 10:59

Nee, wij worden gewoon oud :-)

Kijk naar een Emma in 'Wie is de mol?-stromende editie die je nu kunt kijken.
Zij gooit in elke zin ook gewoon 1 of 2 Engelse woorden. En dan niet omdat het woorden zijn zoals 'computer' of 'e-mail' wat toch van oorsprong Engelse woorden zijn.
Ik heb ook een collega van ongeveer die leeftijd die precies hetzelfde praat.

Wij worden gewoon oud!

Goz3rr @Ocin32 • 19 juli 2024 11:25

De officiele naam van vliegveld Eindhoven is toch ook gewoon Eindhoven Airport?

Madshark @Goz3rr • 19 juli 2024 12:19

Ik ben blijven hangen dat we het nog Welschap noemde.

KoningsGap @Goz3rr • 19 juli 2024 12:20

Eindhoven heeft dan ook geen Engelse naam, Berlijn wel.

Geim @Ocin32 • 19 juli 2024 13:41

Of ben ik nu een zure mopperpot die zich verzet tegen een overdaad aan engelse woorden

Airport is een Nederlands woord, althans het staat in Van Dale: https://www.vandale.nl/gr...erlands/betekenis/airport

jbhc @Ocin32 • 19 juli 2024 19:43

Als mensen het over hun keyboard hebben vraag ik of ze daar dan ook een mouse bij gebruiken.

Het zal de tijd wel zijn. Ik ben ook nogal allergisch voor het woord apps of bijvoorbeeld insta en over (het hippe woord) kids zal ik het maar helemaal niet hebben

Huby @Ocin32 • 20 juli 2024 08:40

Of gewoon een ZeurPiet, is ook lekker Nederlands …

Odie

storing

@Danster • 19 juli 2024 11:01

Met je 'KLM ook' in reactie op "alle virgin vluchten in Australie blijven aan de grond" suggereer je dat KLM grounded is. Dat is niet zo, dat kun je zelf zien op Flightradar. Het heeft impact op vluchten ja, maar de suggestie dat KLM grounded is is (als in: niemand erin en niemand eruit) gewoon niet correct.

[Reactie gewijzigd door Odie op 22 juli 2024 13:17]

Valentijn @Danster • 19 juli 2024 09:21

Doet me denken aan dat verhaal uit de podcast over de file op de afsluitdijk..

steveman @Danster • 19 juli 2024 09:21

https://www.schiphol.nl/en/departures/ lijkt vrij rustig. Kan natuurlijk ook iets anders zijn met net jouw vlucht.

Extreme smell @Odie • 19 juli 2024 09:37

Edit: Weggehaald

[Reactie gewijzigd door Extreme smell op 22 juli 2024 13:17]

slaay @Extreme smell • 19 juli 2024 09:49

Je werkgever zal het waarderen dat je interne informatie openbaar deelt.

Eric H @slaay • 19 juli 2024 09:52

Is ondertussen gewoon openbare informatie. (Zie site RTLNieuws)

aadje93 @Eric H • 19 juli 2024 10:02

Nog steeds ben je dan fout bezig. Jij deelt interne berichten ipv info uit een persbericht (bij voorkeur met link om je eigen hachje te redden)

OMEGA_ReD @slaay • 19 juli 2024 10:21

Grote bedrijven zoals KLM hanteren vaak een intern is extern beleid. Daarmee bedoel ik dat ze er vanuit gaan dat interne berichten zonder expliciete C-level extern kan komen.

Mijn werkgever doet dat bv ook.

loekf2

@Ankh • 19 juli 2024 09:01

Ook in de US zo te zien. Airlines ook in de shit, oa Delta.

Dat is toch weer een mega cluster fuck up als je als bedrijf een update pushed en die "borked" de PCs/servers van je klanten.

Clowdstrike is een Amerikaans bedrijf, Austin TX zo te zien. Australie zal ongetwijfeld met de datum grens te maken hebben, dus die waren eerst de klos.

rene2024 @loekf2 • 19 juli 2024 13:47

Ja Amerikaans bedrijf maar hebben sinds februari 2024 een groot gedeelte van het ontwikkel werk naar India verhuist. Je verwacht het niet he? Nou ik eigenlijk wel.

loekf2

@rene2024 • 19 juli 2024 13:57

Ik eigenlijk ook wel. Shareholder value gaat altijd voor.

(maar outsourcen naar India is niet altijd goedkoper is mijn ervaring)

Unknowntje @Ankh • 19 juli 2024 09:17

Helaas is dit afgeschermd op een shell laptop

Simon Shipperd @Ankh • 19 juli 2024 09:51

Werkt natuurlijk niet zo handig op toestellen die volledig in een bootloop vastzitten. En als uw bitlocker keys globaal opgeslagen worden op een server die zelf ook plat ligt schiet het al helemaal niet op.

fastedje @Ankh • 19 juli 2024 11:12

Het wordt toch eens tijd dat alle OSen een file system met snapshots gaan krijgen voor het systeem volume, iets wat SUSE al jaren doet met BTRFS voor het root file system.

harrytasker @Ankh • 19 juli 2024 11:41

Ben benieuwd of zo'n bedrijf zo iets kan overleven... Ik zie alle schadeclaims al in aantocht.

uiltje @Ankh • 19 juli 2024 18:11

Daar de bestandsnaam zit een sterretje. Is het nou één bestand, een bestand met verschillende namen of verschillende bestanden?

Morgoth @Ankh • 19 juli 2024 10:52

Bijzonder. Vanmorgen vroeg (lokale tijd) van Perth naar Alice Springs gevlogen, boodschappen gedaan en toen maar eens een jetlag dutje. Vervolgens knallen alle Australische vliegvelden eruit vanwege dit probleem. Gelukkig hoef ik de komende weken niet meer te vliegen 😅.

mplaats @Ankh • 19 juli 2024 15:28

Wat mij verbaast is dat ze het niet een hack of terroristische aanslag noemen. Je zou denken dat de patch naar aanleiding van een Lek die feitelijke aanslag is geweest. Als men vooraf weet dat het eindresultaat dit zou zijn..... Ze noemen het geen aanslag, maar vind het toch wel een terechte gedachte gezien de impact.

Vraag me ook af welke aanhangels er nog meer zijn naast CrowdStrike. En welke risico's je IT hiermee heeft, wil je zo'n product blijven gebruiken of zijn er betere alternatieven? Niet dat andere vendors beter zijn, en je 1 maal per jaar wel zoiets hebt heeft M$ een reputatie als het gaat om security issue's.

epicurist_dirk @Ankh • 19 juli 2024 19:54

Verontschuldig mij want ik ken er niets van.

Toch schiet er door mijn hooft: Is' t Poetin en zen CCCP internet leger die even iets probeerden..... ? En als het niet zo is dan zullen ze zeer zeker wel deze wereldwijde crash ver oorzaak door 1 bedrijf ten gronde analyseren. Om dit als soort wapen te verwezenlijken..... denk ik, maar wie ben ik. Groetjes Dirk,

roffeltjes @SillieWous • 19 juli 2024 10:55

Hier is een fix ipv workaround:
Installeer Linux.

Bijkomend voordeel: je bent van de grootste spyware af.

Het is echt geen domheid dat Linux maar niet wil door breken. De voornaamste reden is dat veel software nu eenmaal alleen op Windows draait. En zelfs als er alternatieven zijn die vaak functioneel net een slag minder (want minder kapitaal dan de big boys). De grote gorilla is natuurlijk O365, wat voor heel veel bedrijven de ruggengraat is geworden op de werkvloer.

12_0_13 @roffeltjes • 19 juli 2024 11:56

Ik werk inmiddels al 10 jaar op Ubuntu ivp Windows en met O365 via Web kan ik eigenlijk alles doen wat collega's ook doen in Office.

Het probleem is echt niet O365, maar onwetenheid, en legacy windows apps. .NET applicaties draaien eignelijk ook gewoon op linux, dmv de .NET runtime.

roffeltjes @12_0_13 • 19 juli 2024 14:21

Iedereen weet van Linux, het is geen onwetenheid. Zeker in grote bedrijven draait er echt wel op plekken Linux en is er kennis. Linux breekt niet door omdat het niet de 1-op-1 oplossing is die mensen claimen dat het is.

En nee, met O365 web kan je niet alles doen... was het maar waar.

DutchITMaster @SillieWous • 19 juli 2024 10:09

Oh damn, ja ik ben heel blij dat ik alleen nog maar op Linux werk.

Dit veroorzaakt echt een gigantisch probleem, misschien dat bedrijven dit ook gaan inzien.

Al snap ik dat het niet zomaar kan.

BruT@LysT @DutchITMaster • 19 juli 2024 11:33

Oh reken maar dat dit soort grappen op Linux netzogoed zullen gebeuren. Helemaal als de userbase net zo groot zou zijn als Windows en problemen die worden veroorzaakt door software van derden is natuurlijk niet een fout van het besturingsstyteem zelf. Om die reden maakt het dus helemaal niet uit welk OS er wordt gebruikt. Het gaat erom dat je de juiste maatregelen kunt nemen tegen dit soort grappen en ik gok dat veel servers die deze virtuele machines hosten zelf geen Windows draaien. Dit soort f*ckups gaan voorkomen in alle denkbare scenarios, het OS heeft er niets mee te maken.

Heel leuk dat jij overal op Linux werkt maar in deze context is dat een vrij flauwe opmerking, de getroffen eindgebruikers hebben helemaal geen keuze op dit gebied. En als jij het gewoon over je Linux thuiscomputertje hebt, heb je tevens niets te maken met Enterprise software van Crowdstrike, evenals ik om diezelfde reden geen problemen ervaar met mijn Windows systeem.

Sorry voor de rant, maar ik vind dat eindeloze verheerlijken van Linux vrij irritant. Het is niet de magische oplossing voor alle problemen. Het is gewoon wat het is, een alternatief. Een alternatief die gelijkaardige problemen zou kennen als het net zo groot zou zijn als Windows. Maar nogmaals, we hebben het hier niet eens over een Windows probleem.

DutchITMaster @BruT@LysT • 19 juli 2024 12:23

Helaas is mijn ervaring niet zozeer op mijn thuiscomputertje, maar juist ook in de enterprise omgevingen die ik beheerde. En jazeker ook op Linux gaan dingen wel eens mis, herstellen gaat over het algemeen wel makkelijk.

Maar was jij op de hoogte dat dit een probleem was wat kon ontstaan? Kon jij met Windows hierop anticiperen? Dat vind ik het nadeel namelijk , allemaal closed source, allemaal door je strot geduwd. Allemaal bijgewerkt tijdens het opstarten .

Nee ik heb liever een systeem waar ik zelf de hand in heb.

En nee ik had geen duizenden servers in beheer, maar wel honderden Linux machines.

En allemaal wel kritische systemen, als internet en telecom provider.

mjtdevries @DutchITMaster • 19 juli 2024 13:53

En was dit dan voorkomen als Crowdstrike open sources was geweest?
NEE!

BruT@LysT @DutchITMaster • 19 juli 2024 15:10

Je neemt nu ook servers als voorbeeld, ik had het over de eindgebruikers/thuisgebruikers. Ik ga ervanuit dat het meerendeel van de servers die nu kampen met deze problemen ook geen Windows machines zullen zijn. Dat de vm's nu problemen hebben is lullig, maar dat kun je toch vrij gemakkelijk terugdraaien lijkt mij. Je zult ook af en toe eens een rotte windowsupdate hebben, daar wordt standaard al op geanticipeerd. Maar het blijft wel een vervelend probleem wat niet zomaar even 1-2-3 opgelost vanwege logistiek en dan krijg je dat de halve wereld even stilstaat. Als ergens een heel serverpark uitvalt heb je ook issues, heeft het OS niets mee te maken.

En ja ik snap dat je graag een systeem hebt wat je zelf in de hand hebt maar vrijwel niemand heeft in dit genoemde scenario zijn PC zelf in de hand. Als thuisgebruiker kan je lekker alles zelf bepalen, dan is Windows ook niet zo'n probleem als het misgaat want alles is relatief snel opgelost als je genoeg ervaring hebt. En dat je persoonlijk liever met Linux werkt is allemaal helemaal prima. Dit gaat voorbij het aan het punt van mijn eerdere reactie.

BruT@LysT @Blorgg • 19 juli 2024 14:16

Ik heb het hier over eindgebruik, niet over servers. En nee ik doe geen aannames.

therijn @SillieWous • 19 juli 2024 10:05

Altijd een goeie tip, maar helaas, CrowdStrike beveiligd bij ons ook de Linux servers.

coolkil @therijn • 19 juli 2024 10:11

Hebben die hier ook last van dan? in andere hoedanigheid uiteraard, kernel panic of iets dergelijks?

dmantione @therijn • 19 juli 2024 10:57

Die hebben hier toevallig geen last van. Ik denk evenwel dat de kwestie niet zozeer is dat deze specifieke uitglijder nu een probleem is van Windows, maar eerder de fundamentele kwestie blootlegt dat op Windows dusdanig veel veiligheidsissues heeft dat bedrijven dit soort software kopen. Dat de bedrijven de software dan ook op Linux-systemen gaan installeren is meer een gevolg van beveiliingsgevaren in het algemeen.

psychicist @SillieWous • 19 juli 2024 20:49

Maar denk aan al de Windows beheerders en zogenaamde IT-ers die dan werkloos geraken. Dat kun je toch niet maken?

jschoonh 19 juli 2024 23:52

Ik ben al enige jaren gepensioneerd. Daarvoor netwerken beheerd, ontworpen en gebouwd. Ik begrijp totaal niet dat iedereen het alleen over de fout van crowdstrike heeft. Ik vind het ronduit bizar dat veel cruciaal netwerken de deur openzetten voor automatische update’s. Heel veel jaren geleden werd onder de naam IBM naar politie bureaus en update floppy gestuurd. Iedereen verklaarde de netwerkbeheerders toen voor gek dat ze die daadwerkelijk gebruikt hadden. Het liep ook behoorlijk uit de hand. Maar automatische update’s gewoon hun gang laten gaan is in mijn opinie ongeveer hetzelfde.
Wij hadden toentertijd een geïsoleerde PC staan waar de automatische update’s op binnen kwamen. De PC werd gemonitord en als na enige tijd het “licht op groen ging” werden binnen het “Novell” update systeem de update’s naar de PC geuploaded. Is niet echt “raket wetenschap” maar wel een heel stuk veiliger zoals nu weer bewezen.

Kees BOFH @jschoonh • 20 juli 2024 10:43

Omdat het vaak van bovenaf opgelegt word dat er een virusscanner/automatisch pattern herkenning software op de servers moet staan.

Vrijwel altijd zullen bedrijven daarvan de automatische software-updates uitzetten door bijvoorbeeld op 'n-1' te draaien. Echter was dit geen 'software-update' maar een definitie update, bedoeld om bijvoorbeeld nieuwe malware te detecteren met enige urgentie.

Heel veel systeembeheerders zullen dat niet vervelend vinden, want die hebben liever een up-to-date virusscanner dan een virusscanner die een maand achterloopt waardoor je een maand langer kwetsbaar bent voor on-ontdekte problemen. En op het moment in die maand dat ze wel besmet worden met dat virus en de hele omgeving ligt plat, dan zijn zij verantwoordelijk en hun baan kwijt. Als Crowdstrike die malware had gezien dan was er niets aan de hand geweest.

In dit geval is er voor de meeste systeembeheerders, afgezien van (veel) werk, niets aan de hand. De meeste mensen zullen het nieuws volgen en weten dat de systeembeheerders hier niets aan kunnen doen.

Grappig dat je trouwens IBM noemt, want die hebben een soortgelijke uitspraak: Niemand is ooit ontslagen omdat hij iets van IBM kocht. Hier gaat (ging?) eigenlijk hetzelfde op, niemand is ooit ontslagen omdat hij automatische updates van virus definities niet had uitgezet (en andersom wel).

gelfer @jschoonh • 20 juli 2024 17:00

Je wil dat concept niet uitvoeren voor antivirus signature updates, die komen per 5 minuten met updates. Waar het hier misgaat, is dat er low-level driver updates worden gedaan met dezelfde automatische 'goedkeuring' die nodig en nuttig (en ongevaarlijk) is zoals voor definitie-updates.

Kecin

19 juli 2024 09:31

Ondertussen zie ik dat er al Tweakers zijn die een topic hebben geopend voor hulp en support

forumtopic: [CrowdStrike] BSOD

Succes allemaal die hierdoor flink aan de bak moeten!

EdvanAl 19 juli 2024 10:59

Dit moet toch een signaal zijn voor Microsoft: hoe kan het zijn dat een fout bij een softwareleverancier, waarvan het er vele heeft, de hele infrastructuur, het ontwerp van Microsoft kan aantasten”, zegt tech-expert Danny Mekić. „Daar zit iets niet goed. Dit mag nooit gebeuren. Microsoft zal zijn systemen snel moeten verbeteren.

Inderdaad!!

[Reactie gewijzigd door EdvanAl op 22 juli 2024 13:17]

RiDo78 @EdvanAl • 19 juli 2024 14:37

Dat is echt gewoon pure stierenkak!

Windows zit (net als Linux, MacOS en veel andere OS'sen) gelaagd in elkaar.
Onderop zit de hardware met firmware en microcode. Strikt gesproken is dat nog niet het OS, als zie je wel vaak dat het OS bepaalde patches uitvoert in de microcode om bekende bugs in de CPU op te lossen.

Daarboven draait de kernel-space. In de kernelspace zit de kernel met allehande hardware-drivers en kritieke OS-componenten zoals de interrupt-handlers, filesystem-drivers, proces-scheduler enzovoort. In de kernelspace zijn er weinig rechten die (kunnen) worden afgedwongen, feitelijk kun je zeggen dat alles in kernelspace in theorie ongelimiteerde rechten heeft.

En tot slot heb je de userspace. Dat is de omgeving waar wij in werken. Waar je applicaties in draaien en waar rechten kunnen worden afgedwongen. En tegenwoordig is het vrij lastig (maar niet onmogelijk) om in userspace een blue-screen te veroorzaken. Mocht je het als applicatie willen proberen dan heb je grote kans dat het ergens in kernel-space wordt afgevangen en jouw gewoon je nek om wordt gedraaid.

Antivirus-producten hebben alleen veel, erg veel toegang nodig in om alles in de gaten te kunnen houden. Dus die draaien (zoals je zou verwachten) doorgaans in kernelspace. Daar haken ze in op de filesystem-driver om lees/schrijfacties in de gaten te houden. Ook kunnen ze vanuit kernel-space bij elk stukje geheugen van elk proces om te kijken of daar gekke dingen gebeuren.

En daar, zit meteen ook het probleem. Doordat ze overal 'as designed' bij kan, kan een klein een foutje desastreuze gevolgen hebben. Dus stel, je installeert een stukje malware wat jouw login-gegevens wil bemachtigen. Om dat te doen zorgt de malware eerst dat het opstart voor de gebruiker inlogt en vervangt het het oorspronkelijke loginscherm. De virusscanner zal dit dan opmerken en daar een stokje voor steken. Maar wat, als het geen malware was, maar juist een update van microsoft zodat je (beter/sneller) in kunt loggen met je Microsoft account? Dan sloopt de virusscanner ineens je systeem.

Dus is het dan een probleem van Microsoft? Nou nee... als je wilt dat je systeem veilig is en blijft dan moeten sommige processen gewoon met alle rechten van dien in kernelspace kunnen draaien. En dan is het de verantwoordelijkheid van de applicatiebouwer om te zorgen dat alles goed verloopt.

Sowieso, als je geen third-party-processen in kernelspace zou toestaan dan ga je ook geen dedicated-grafische kaart kunnen gebruiken. Want ALS er 3rd-party software is die prominent aanwezig is in kernelspace, dan is het wel de software van je dedicated-grafische kaart. En dat moet ook wel; processen in userspace hebben slechts beperkt mogelijkheden om de hardware aan te spreken. Laat staan vele gigabits per seconde over de PCIe bus heen te rammen. Ain't gonna work.

machiel @RiDo78 • 19 juli 2024 16:41

Microsoft kan op z'n minst meer zelfherstelling inbouwen, als een programma niet met succes kan inladen. Of een soort pre-check uitvoeren voordat de sleutels overhandigd worden aan een programma.

RiDo78 @machiel • 19 juli 2024 17:39

Microsoft kan op z'n minst meer zelfherstelling inbouwen, als een programma niet met succes kan inladen.

Eenmaal in kernelspace valt er niet veel te checken. Een foute instructie KAN niet afgevangen of hersteld worden. Want er IS geen vangnet.

Neem bijvoorbeeld het lezen van een blokje data uit het geheugen. Zodra een programma dat doet wordt er gechecked of de data binnen het gebied zit waar het programma mag lezen. Zoniet dan wordt het programma afgeschoten. Daarnaast wordt er gekeken wat voor data het is en of het gevlagd is als uitvoerbaar. Zo niet, en probeert het programma er een IP (instruction-pointer) naar te laten wijzen wordt het ook afgeschoten. Dus voordat het programma dat blokje data heeft gekregen is er al behoorlijk wat gechecked. Die checks gebeuren door in kernelspace en hebben onder andere tot doel dat het ene programma niet gaat lopen zieken in geheugen van een ander programma.

Maar de reden dat antivirussoftware in kernelspace bevind is JUIST omdat het andere programma's in userspace in de gaten moet houden. Het kan zich als het ware 'abonneren' op events die programma's genereren zoals 'schrijf dit naar disk'. Als de antivirus-software ook kernelspace in de gaten zou houden, zou je kunnen krijgen dat twee antivirus-pakketten elkaar gaan controleren en je hele systeem gewoon vast loopt. Dus dat wil je ook niet.

Nogmaals, er is in kernelspace gewoon geen vangnet meer. En dat kan ook niet. Net als dat er in je auto 1001 veiligheidssystemen zitten, maar die helpen je niet meer als je dieseltje ineens motorolie aanzuigt. De motor slaat dan op hol en is niet meer te stoppen, zelfs niet door het contact af te zetten. Datzelfde geldt voor de motor van Windows. Als daar iets mis gaat... is er niets meer tegen te doen.

Of een soort pre-check uitvoeren voordat de sleutels overhandigd worden aan een programma.

Dat is simpel gezegd, maar we weten niet wat de oorzaak is. Het kan een fout zijn die al jaren in de software zit maar nog nooit aan het licht is gekomen omdat dit specifieke stukje code niet eerder met de data uit deze virusdefinities te maken heeft gekregen. Dus dan kan de software wel tot in den treuren getest zijn en netjes voorzien zijn van een digitaal certificaat, als de data uit de virusdefinities verandert kan het alsnog mis gaan.

En nogmaals, we weten niet wat de oorzaak is. Voor het zelfde geld is Crowdstrike gehacked en is dit de wraak van een hackersgroep omdat ze niet wilden betalen. Het lijkt me sterk, maar... we weten het niet.

machiel @RiDo78 • 20 juli 2024 09:03

We weten wel wat er mis is gegaan. Als het programma een soort smoke test had gehad om te checken of alles goed staat had het wellicht verholpen kunnen worden. Bovendien is de taal/raamwerk waarin het is geschreven niet bestand tegen het inlezen van een foutief sys bestand. Allemaal zaken die aan te pakken zijn IMO.

RiDo78 @machiel • 21 juli 2024 20:59

Dan nog kun je het Microsoft niet kwalijk nemen. Het is ‘de schuld’ van Crowdstrike.

Ik vind dat vergelijkbaar als dat je je benzine auto aan een valetservice toevertrouwd die hem voor je aftanken met diesel. Dat je motor dan in de soep draait is niet de fabrikant van je auto kwalijk te nemen. Ook al hadden die misschien iets kunnen ontwikkelen die bij het vullen van de tank de verkeerde brandstof kan detecteren.

Froos

@RiDo78 • 19 juli 2024 18:26

Qua techniek heb je volkomen geljik. Er zit echter ook een andere kant aan deze zaak en dat is het stuk afhankelijkheid dat gecreeerd is door de implementatie van 1 oplossing.

In dit geval betekent het dat de impact gigantisch is. Dat hebben we met z'n allen mogen aanschouwen vandaag. Nou is de verwachting dat er geen kwade opzet in het spel is. Dat is een prettig idee. Maar wat als dat wel het geval was? De Solarwinds affaire van niet al te lang geleden heeft ons geleerd dat het ook anders kan zijn.

Moet je, functioneel gezien, al je eitjes wel in het mandje van Crowdstrike willen leggen? Kun je het risico niet beter verdelen? Die vraag zou ik, naar aanleiding van vandaag, wel gaan stellen als ik solution architect bij Microsoft zou zijn.

SambalBij @EdvanAl • 19 juli 2024 11:54

Wat een onzin.
Microsoft heeft hier geen schuld aan.

Misschien moeten we de fout bij HP en Dell leggen, want hoe kan het dat een fout bij een software leverancier heel het ontwerp van die door hun ontworpen laptop kan aantasten?
Of maar bij Intel of AMD? Want hoe kan het dat hun CPU's in staat zijn om deze software te draaien die zo maar heel het systeem kunnen aantasten?

Nee, laten we de schuld bij de schuldigen laten?
Hey Crowdstrike, hoe kan het zijn dat jullie development en QA proces zo ongelovelijk slecht en rammelig is dat een update met een dergelijke fout ooit maar in de buurt van je release software heeft kunnen komen?

Chopper_Rob @SambalBij • 19 juli 2024 15:28

Microsoft heeft er in zoverre schuld aan dat ze een externe kernel module het hele systeem plat laat leggen. Hier kan ongetwijfeld wel wat aan worden gedaan. Jaren geleden hadden we ook soortgelijke issues met de normale drivers die kernel panics gaven, dat hebben ze ook opgelost, of had Microsoft daar ook niks aan moeten doen?

Ik denk alleen niet dat Microsoft het gaat oplossen aangezien Windows niet echt belangrijk meer lijkt te zijn voor Microsoft. Tenzij ze het kunnen oplossen met een bing search of een copilot integratie die je data verzamelt.

Stannieman @Chopper_Rob • 19 juli 2024 21:48

Maar Crowdstrike komt niet zomaar op je systeem terecht. Bij installatie geef je het expliciet admin rechten waarmee het zich enorm diep in het systeem kan nestelen, tot op een niveau waar vergissingen dit soort impact hebben.

Als ik iemand mijn autosleutels geef en die iemand besluit dan om tegen 150km/h frontaal tegen een muur te rijden, is het dan de schuld van Volkswagen/Audi/...? Want zij hebben een slechte auto ontworpen die toelaat dat die tegen hoge snelheid tegen een muur wordt geparkeerd?

Dit soort zaken kan op Linux trouwens net zo goed voorkomen. Een programma wat je daar met sudo uitvoert zou in principe ook een libc of iets dergelijks kunnen verwijderen. Dat gaat je OS ook niet overleven en mag je ook handmatig gaan herstellen.

moonlander @EdvanAl • 19 juli 2024 11:14

Dit heeft niks met microsoft te maken, en er is een workaround om het op te lossen. Je moet je eerder afvragen waarom Crowdstrike geen gefaseerde updates uitvoeren...

marcelvb

@moonlander • 19 juli 2024 15:39

De grap van security updates is natuurlijk wel dat je ze zo snel mogelijk wilt uitrollen. Sneller dan de bad guys je proberen aan te vallen.

jcvw @moonlander • 19 juli 2024 12:43

En ook waarom er iets uitgerold wordt op een vrijdag - da's bij ons een grote zonde.

moonlander @jcvw • 19 juli 2024 12:47

In principe moet zo'n update prima op een vrijdag gedraaid kunnen worden, anders zouden hotfixes het weekend overslaan en dat kan dan weer veiligheidsproblemen veroorzaken. En vooral voor een bedrijf dat je beschermt tegen cyberaanvallen etc..

jcvw @moonlander • 19 juli 2024 13:00

Wij hebben zo goed als overal CI/CD voor, software en configs worden continu uitgerold, maar op vrijdag (en in het weekend) niet omdat je niet wil dat er iemand buiten kantooruren gepaged wordt als het (zelf ondanks een uitrol in verschillende test en staging omgevingen vooraf).

Ik ben een keer vrijdagnacht gepaged omdat iemand in Californië op vrijdagmiddag een config push gedaan had die fout was, wat enige uren later in onze pijplijn een probleem opleverde... En ja, het SRE team waar ik in zat had follow-the-sun oncall (met een zuster team in de USA) maar in het weekend niet.

marcelvb

@moonlander • 19 juli 2024 15:41

Als miljoenen pc's niet opstarten, dan kun je dat beter in het weekend hebben doordeweeks denk ik, qua hoeveel last je er van hebt. Maar voor de IT-mensen is het minder.

Roy23 @moonlander • 19 juli 2024 13:01

Ik denk dat ze bij CrowdStrike wel gefaseerde updates hebben.
Eerder deze week had ik al enkele blue screens op Windows machines met CrowdStrike. Echt precies het probleem wat zich vanmorgen massaal voordeed op alle machines.
Daar heb ik een support ticket over ingeschoten, en ik was toen al ontevreden over hoe het is opgepakt.

Nu dat vanmorgen het hele serverpark blue screens kreeg hadden wij wel een kleine voorsprong omdat we vanmorgen vroeg direct al dachten dat CrowdStrike de veroorzaker was, dus alle VMs opstarten in Safe Mode en CrowdStrike met wat trucjes de nek omgedraaid. Daarna startte de VMs weer op. Gelukkig hadden wij ons serverpark dus weer in de lucht voordat het grootste deel van onze klanten aan het werk ging.

Maar ik ga in dit ticket dus wel even mijn gram halen dat wij eerder deze week dit probleem al hebben aangekaart en de afmelding van het incident terecht onvoldoende vonden.

m_snel @Roy23 • 19 juli 2024 23:53

Je kan natuurlijk ook gewoon de VN’s zo inrichten dat ze compleet automatisch opnieuw geïnstalleerd worden.

Seal64 @EdvanAl • 19 juli 2024 11:14

Maar dan kan je antivirus weer niet zijn werk doen. Die moet zo diep in het OS zitten, minstens even diep of liever nog een laag dieper als waar een virus kan komen, want anders heeft het virus evenveel of zelfs meer rechten dan het programma dat hem moet verwijderen.

En sinds wanneer is Danny Mekić een techexpert? Ik zal niet zeggen dat hij niet zeer getalenteerd is, maar zijn expertise ligt voor zover ik weet toch echt bij rechten en ondernemen en niet bij hoe een OS in elkaar steekt.

marcelvb

@Seal64 • 19 juli 2024 15:38

Ik vind het eigenlijk bizar dat je een virusscanner nodig hebt, zeker een die zich op kernel niveau installeert. Is er dan niet gewoon iets mis met je OS en security architectuur? En je OS patchbeleid? En met je browser en je mail programma?

m_snel @marcelvb • 19 juli 2024 23:51

Je kan inderdaad beter gewoon de producten van MS gebruiken. Zeker als bedrijf , zijn er genoeg opties.

CPV @Seal64 • 19 juli 2024 11:28

En TV optredens.

Ocin32 @EdvanAl • 19 juli 2024 13:48

Precies deze stemmingsmakerij ben ik mij hier op de werkvloer nu ook stevig tegen aan het verzetten.

Danny, de zelfbenoemde "tech expert" die volgens zijn linkedin toch vooral een zakenman lijkt te zijn, roept hier maar wat vanuit zijn eigen invalshoek maar begrijpt duidelijk niet veel van de technisch kant van deze zaak.

Bijzondere trend weer om met een beschuldigende vinger te wijzen naar Microsoft, een beetje het zelfde als bij vernieling of vandalisme de schuld niet te leggen bij de daders maar bij de slechte beveiliging.

freestyler2 19 juli 2024 09:06

Dit soort problemen toont aan hoe afhankelijk we zijn geworden van beveiligingssoftware. Het is schrikbarend dat een enkele update zoveel chaos kan veroorzaken, zeker bij essentiële diensten zoals ziekenhuizen.

Hopelijk komt er snel een oplossing, want de workaround met safe mode en het verwijderen van bestanden is niet bepaald gebruikersvriendelijk in een groot netwerk.
Bedrijven moeten echt gedegen testproces en fallback-opties bij software-updates blijven uitvoeren om dit soort ellende (zo goed als mogelijk) te voorkomen.

[Reactie gewijzigd door freestyler2 op 22 juli 2024 13:17]

SambalBij @freestyler2 • 19 juli 2024 09:22

Hoe ga je die beoogde oplossing installeren, wanneer je systemen niet meer booten? Je zult eerst het systeem weer moeten booten via die workaround, voordat je wat kunt updaten. En pc's booten via netwerk of USB stick om het enigszins geautomatiseerd te fixen klinkt als het handmatig intypen van heeeeeel veel bitlocker keys...

En inderdaad, lullig foutje dit, maar als nu je hele serverpark plat ligt, dan is dat toch ook wel je eigen schuld wanneer je updates van software niet goed test op een testomgeving alvorens de boel naar al je productie-servers te pushen. (En dan nog update je dan de helft van je (redundante) servers en volgende week de rest...) Maar nee we vertrouwen lekker op de blauwe ogen van de sales consultant van de leverancier, en laten gewoon het 'auto update' vinkje aan staan...

JWPrutser @SambalBij • 19 juli 2024 09:33

Ik weet niet of het zo gebruikelijk is om antivirus updates allemaal eerst uitgebreid te testen op een test omgeving. Dat zijn er zoveel en je kunt/wilt daar ook niet te lang mee wachten. Als je teveel tijd neemt om antivirus updates dan is het security risico weer veel te groot.
Voor de maandelijkse security patches zal dit doorgaans nog wel gebeuren, of op zijn minst in ringen waardoor het niet meteen bij iedereen is. Maar antivirus updates hebben volgens mij gewoon overal auto-update aan zodat ze zo snel mogelijk up-to-date zijn voor maximale bescherming.

SambalBij @JWPrutser • 19 juli 2024 09:38

Bij AV software is er een verschil tussen de software (de applicatie, de drivers) en de definities (de database met signatures van welke zaken hij herkent)
Die laatste kun je over het algemeen zo updaten, maar die eerste toch niet. Maken ze een foutje in een filter driver, dan krijg je dit soort ellende...

ccnl @SambalBij • 19 juli 2024 10:35

Wat gebeurt als een false positive signatuur in de database laat de AV software jouw een essentieel bestand wissen en jouw computer niet meer bootet?

Kees BOFH @ccnl • 19 juli 2024 11:24

Dan kun je dat mogelijk herstellen voordat je reboot. En ja, dat is ook wel eens voorgekomen.

Het probleem met deze update is echter dat je hele computer meteen onbruikbaar is geworden en je dus geen mogelijkheid hebt om het (automatisch) te verhelpen, je zal dus een manuele actie moeten doen (minimaal een reboot) en kan het dus niet helemaal atumatisch fixen.

ccnl @Kees • 21 juli 2024 08:11

Maar het is precies hier gebeurd, een AV signatuur laat de computer niet meer booten en van afstand herstellen.
https://news.ycombinator.com/item?id=41013642

This "channel file" is equivalent to an AV signature file

SunnieNL

@JWPrutser • 19 juli 2024 10:40

Bij een antivirus product met een on-premises server kan dat in ringen updaten nog wel gedaan worden, al ken ik niemand die het doet. Maar dan kun je de uitrol mogelijk nog blokkeren naar machines die het nog niet hebben.

In dit geval is het een cloud dienst. Het voordeel van cloud diensten is dat je je geen zorgen hoeft te maken over updates... behalve als die een fout maken in hun agent en daarmee de hele machine in een bootloop crash gooien.

arjanvdwal1992 @SambalBij • 19 juli 2024 09:38

Helemaal mee eens. Auto update is echt een no-go, tenzij deze beveiligingssoftware deze optie niet heeft?

Kees BOFH @arjanvdwal1992 • 19 juli 2024 09:57

Je kan volgens mij wel instellen dat je niet altijd de laatste versie wil, maar 1 versie ouder ofzo.

Volgens mij doen wij dat ook, maar deze update zal dan wel een 'rule' update zijn of iets dergelijks wat je wel automatisch bij wil houden. Dat het dan een blue screen veroorzaakt is wel apart.

Een paar weken geleden was het juist andersom, omdat wij op een oudere versie van Crowdstrike zaten krijgen wij een (linux) kernel panic met een 'te nieuwe' versie van de kernel en moesten wij juist crowdstrike updaten naar de laatste versie om de servers te redden.

marcelvb

@Kees • 19 juli 2024 15:43

Ah, dus deze grappenmakerij zit ook in de linux versie?

Kees BOFH @marcelvb • 19 juli 2024 17:09

Yep ze hebben ook een linux versie, en die is niet perse heel veel beter. Alleen heb je met linux wat meer opties om een systeem te redden dan met windows, dus als het mis gaat is het meestal niet een enorm probleem.

[Reactie gewijzigd door Kees op 22 juli 2024 13:17]

GertMenkel @SambalBij • 19 juli 2024 09:47

Ik weet niet hoe dit met Crowdstrike zit, maar normaal wordt bij dit soort updates een herstelpunt gemaakt dat je kan herstellen nadat je PC drie keer niet opstart (sterker nog, Windows 11 vraagt het standaard tegenwoordig niet eens meer voor crashes na sommige updates).

Problematische driverupdates zijn al sinds ergens tussen XP en Vista automatisch op te lossen, mits de fabrikant hun software goed inricht.

maevian @SambalBij • 19 juli 2024 10:45

Zou je de pc’s niet allemaal kunnen wipen en dan via autopilot weer goed zetten? Dan heb je geen bit locker keys nodig. Vraagt blijft hoe wipe je ze van op afstand als je ze niet op het netwerk krijgt.

Ricco02 @SambalBij • 19 juli 2024 11:57

Systeembeheerders halen deze updates van crowdstrike niet handmatig binnen. Zodra crowdstrike deze update uitrolt word dat stilletjes automatisch geinstalleerd op systemen en toegepast.

Daar kunnen systeembeheerders bij bedrijven niks tegen doen en ook niet tegenhouden, er is hier geen vinkje waarbij je auto updates uit kan zetten. Om die dan de schuld te geven om eerst te moeten testen vind ik erg onnodig.

maevian @SambalBij • 19 juli 2024 15:36

Je kan dit bij crowdstrike niet uitzetten, auto update is er niet optioneel omdat de back end in de cloud draait.

Erwin1967 @freestyler2 • 19 juli 2024 10:16

Ik vind het een grote fout van Windows dat je in een bootloop terecht komt. Waarom kan Windows niet verder zonder dit programma/driver? Er is blijkbaar geen rekening gehouden dat soms iets fout gaat en dan wordt maar weer de eenvoudigste oplossing gekozen om maar te herstarten. Het probleem wordt dan bij de gebruiker neergelegd.

Sniels @Erwin1967 • 19 juli 2024 11:07

Windows kan nog altijd in bv. safe mode booten en zo de 'foute' driver omzeilen.

Het probleem is dat we het hier over beveiligde endpoints hebben (anders zou men geen Crowdstrike gebruiken). Op dat soort endpoints worden vaak recovery opties beperkt (om misbruik te voorkomen) en additionele beveiligingen geconfigureerd (zoals Bitlocker). Dat maakt dat het voor een eindgebruiker een onherstelbare situatie oplevert.

Dennis van der Stelt @freestyler2 • 19 juli 2024 09:38

Die enkele update, die zoveel invloed en rechten heeft op elke machine, had niet in een klap uitgerold moeten worden op honderd miljoen computers. Er had een feedback loop moeten zijn ofzo of op z'n minst maximaal een paar duizend computers en daarna uitbreiden naar meer na een paar dagen ofzo.

iRob87 @freestyler2 • 19 juli 2024 09:41

Bedrijven moeten echt gedegen testproces en fallback-opties bij software-updates blijven uitvoeren om dit soort ellende (zo goed als mogelijk) te voorkomen.

Is dat reëel in het geval van endpoint protection software? Nu zit de fout in de endpoint protection software zelf, de volgende keer is het een zero day waarvoor je zo snel mogelijk een update wilt uitrollen. Op welk moment mag je verwachten dat een vendor zijn OTAP proces zodanig voor elkaar heeft dat foutjes geen wereldnieuws worden? Daarnaast toont vandaag tevens aan dat de getroffen organisaties waarbij complete diensten omvallen kennelijk geen, of onvoldoende, nood scenario's klaar hebben liggen.

boxlessness @freestyler2 • 19 juli 2024 09:41

Goed plan he, automatische updates. ;) .. vooral wanneer de applicatie in kernelspace zit en je hele systeem down kan brengen.

rjberg @boxlessness • 19 juli 2024 18:04

TBF, voor de meeste gebruikers is het waarschijnlijk niet te doen om elke week of maand updates handmatig te doen. En het kan denk ik wel uitgezet worden.

vali @freestyler2 • 19 juli 2024 10:00

Dit soort problemen toont aan hoe afhankelijk we zijn geworden van beveiligingssoftware. Het is schrikbarend dat een enkele update zoveel chaos kan veroorzaken, zeker bij essentiële diensten zoals ziekenhuizen.

Het is een gegeven dat we dat zijn (en al voor lange tijd), wat dit soort problemen aangeven is hoe belangrijk automation is bij een uitrol maar vooral hoe belangrijk het test gedeelte daarvan is.

Als je de boel goed op orde hebt kan je issues op een server/desktop zeer gemakkelijk oplossen... Nieuwe uitrol en de data terugzetten. Kan je binnen korte tijd weer online zijn, zelfs als het om paar duizend servers gaat.

[Reactie gewijzigd door vali op 22 juli 2024 13:17]

3raser @freestyler2 • 19 juli 2024 10:20

Dit had net zo goed een Windows update kunnen zijn. Het is niet alleen beveiligingssoftware die ons afhankelijk maakt. Het is eigenlijk alle belangrijke software die veel gebruikt wordt.

Ik vind het vooral bijzonder hoe deze update tot stand kon komen. Slecht testwerk?

EstiematiesEnzo @freestyler2 • 19 juli 2024 11:00

Van wat ik heb begrepen van het artikel is dat de tool op externe servers (bij de vendor) draait en daar ligt het probleem. Is lastig om version control te hebben in dit geval omdat het om een endpoint solution gaat. Je kan bijv. niet zomaar de connectie verbreken of blokeren om vervolgens een slot te kiezen wanneer je wilt gaan updaten. In de meeste security tools betreffend endpoint management met een vergelijkbare configuratie, als je de connectie blocked dan werkt niks meer en gaat de software schreeuwen.

Is tevens ook het grootste gevaar met SaaS applicaties. Recentelijk een migratie geblocked naar SaaS ivm een gebrek aan version control. Zou mooi zijn als SaaS vendors gewoon een knop inbouwen zodat je zelf op de knop update kan clicken. Nog geen vendor tegengekomen die dit heeft.

In het geval van endpoint security, hadden de security mensen kunnen aankaarten dat dit een probleem is. Het is altijd beter om je endpoint software zelf te hosten omdat je dan wel version control hebt in "zekere mate".

[Reactie gewijzigd door EstiematiesEnzo op 22 juli 2024 13:17]

cracking cloud @freestyler2 • 19 juli 2024 10:50

Hoe kan dit mis gaan als het getest is?

HitDyl @cracking cloud • 19 juli 2024 11:16

Je kan testen wat je wilt. Maar een bug is eigenlijk altijd simpel gezegd een test die nog niet geschreven was. Het is waarschijnlijk een samenhang van omstandigheden die de bug veroorzaakt en is dan complexer om vooraf een test voor te bedenken.

Dat praat het niet goed, maar het is altijd een kosten overweging hoe ver je kan gaan met testen. Want testen kost geld. Management ziet vaak/soms pas in na dat het misgaat dat er meer budget moet zijn om meer test scenario's te bedenken en te schrijven en zelfs dan sluit het nog niks uit want het blijft ook nog eens mensenwerk.

Hetzelfde kan je overigens afvragen voor de bedrijven die deze software updaten. Waar is hun acceptatie omgeving in dit geval toegepast? Waarschijnlijk ook een budgetair issue die mogelijk na vandaag opgelost kan worden.

mjtdevries @HitDyl • 19 juli 2024 14:29

en is dan complexer om vooraf een test voor te bedenken.

Ja, dat antwoord klopt als het een issue is dat alleen bij bepaalde configuraties optreedt.

Maar daar heb ik in dit geval helemaal niets over gehoord. Het lijkt in alle configuraties op te treden.
En dan had dus ook in elke test scenario naar voren moeten komen.
Mensen die er geen last van hebben lijken hun computer gestart te hebben nadat Crowdstrike de update gefixed had.

(Ben zelf test manager geweest, dus ik realiseer me maar al te goed dat je niet alles met tests kunt vinden)
Crowdstrike heeft hier heel wat uit te leggen.

[Reactie gewijzigd door mjtdevries op 22 juli 2024 13:17]

CivLord

@cracking cloud • 19 juli 2024 12:37

Misschien een paar cruciale mensen op vakantie en dan iemand van de achtervang ziek.
Vervanger 1 dacht dat de volgende persoon de test zou uitvoeren en Vervanger 2 dacht dat de vorige persoon de test uit zou voeren. Beiden hadden ze gelijk, maar Vervanger drie dacht dat hij het bestand alleen maar over hoefde te zetten.
Of een vertraging in de oplevering van de update, waardoor het hele proces in het honderd dreigde te lopen (lees: de afdelings BBQ dreigde uitgesteld te moeten worden). En de afgelopen 100 keer leverde de test ook geen issues op, dus dat kan deze keer wel overgeslagen worden.
Of nog een paar honderd scenario's die niet voor zouden mogen komen, maar die er bij elke organisatie op een gegeven moment insluipen en gelukkig vrijwel nooit tot problemen leiden.

swhnld @freestyler2 • 19 juli 2024 10:19

Nee, dit toont hoe afhankelijk we geworden zijn van centrale diensten van hele grote bedrijven.
Zou je dit decentraal uitvoeren en eerst op een test omgeving de update controleren, kun je veel makkelijker dit voorkomen, maar dat testen kost menskracht, dus geld.
En dan komt de afweging voor een bedrijf, de kans op storing en de kosten voor dat bedrijf als het gebeurt.
Dus na deze storing zullen sommige bedrijven hun opzet aanpassen, en andere zullen zeggen, gelukkig viel het mee voor ons op vrijdagochtend in de vakantie, dit was de eerste keer in x tijd, hopelijk verbeterd de leverancier zijn opzet en test de updates beter in de toekomst.

swhnld @rene2024 • 19 juli 2024 16:05

Nee we zijn te afhankelijk geworden van prutsers uit India.

Er zijn zeker bedrijven die hun softwareontwikkeling uitbesteden naar India, maar of Crowdstrike dat doet weet ik niet.
Wat ik wel weet, uit ervaring, dat er in India goede en slechte programmeurs zijn, maar wanneer het fout gaat, het vooral fout gaat in de aansturing en door hebzucht.
Je kunt geen topkwaliteit verwachten van de goedkoopste programmeur vers uit de schoolbanken zonder die goed aan te sturen en zonder het proces robuust in te richten, van architect tot kwaliteit bewaking.
En zoals mijn vorige Amerikaanse werkgever ontdekte toen hij hier de kennis ontsloeg bij een goede samenwerking met een partij in India, zodra je wisselt naar een goedkopere (of andere) leverancier in het buitenland ben je de kennis kwijt, zowel inhoudelijk als cultuur, die is opgebouwd, en mis je dan de kennis in je eigen bedrijf, ben je uiteindelijk duurder uit en moet je fors investeren die terug te krijgen. Uiteindelijk bij de volgende economische tegenspoed maakten ze dezelfde fout weer de kennis te ontslaan om winst te maximaliseren op korte termijn voor de aandeelhouders.
En daar zit dan ook de schuld. Aandeelhouders die korte termijn kijken voor winst en bedrijfsleiding die daar op aangestuurd worden met hun bonus.

dentinox 19 juli 2024 09:27

Het wordt tijd dat de europese unie boetes oplegt bij dit soort dingen. Als wij zo afhankelijk zijn gemaakt van software dan moet er maar eens goed geïnvesteerd worden in een test-team ipv dat de gebruikers testen. Zeker bij microsoft updates waar het regelmatig mis gaat.

Verwijderd @dentinox • 19 juli 2024 09:35

Ja, boetes, dat helpt.
Dan gaat niemand nog software ontwikkelen. Bugs kun je nou eenmaal gewoon niet uitsluiten. Misschien als iedereen 100% dezelfde computer plus software heeft . Misschien een idee voor de eu, in elk huis een eu staats pc, met extra gratis geen encryptie en achterdeur

kodak

storing

@Verwijderd • 19 juli 2024 11:48

Toen er ruim 100 jaar geleden veel duidelijker boetes en transparantie over (mogelijk) gezondheidsgevaar bij goederen en levensmiddelen gewoon werden is er ook niet zomaar minder geproduceerd of verkocht. Eerder juist meer. Waar vraag is ontstaat aanbod. Springen 1 miljoen ondernemers niet in het gat dan doen een paar anderen het wel.

JoStad @kodak • 19 juli 2024 15:39

@kodak
Gezien het wereldwijde probleem veroorzaakt door beveiligingssoftware kan je je afvragen of dit soort beveiligingssoftware niet een taak is van de overheden?

kodak

storing

@JoStad • 19 juli 2024 16:57

Met één soort dienstverlener voor de beveiligingssoftware is er niet de uitgebreide keuze die nu zorgt dat je als klanten met beveiligingssoftware niet perse een probleem hebt.

Opmerkingen over de keuzes als programmeertalen, of combinaties van rechten en vertrouwen gaan eerder om het zorgen dat er bij belangrijke keuzes ook transparantie nodig is waarom men de keuzes die gemaakt zijn acceptabel zouden zijn.

Pathogen @Verwijderd • 19 juli 2024 10:16

Of, idee, dan wordt het geld dat anders aan de boete zou moeten worden besteed, ingezet om software beter te testen

(ik weet het, software testen is echt een ingenieus revolutionair idee! /s)

Helaas is testing bijna overal een ondergeschoven kindje.

BruT@LysT @Pathogen • 19 juli 2024 11:50

Dat is natuurlijk heel makkelijk gezegd maar de scope van 'testen' is in veel gevallen onvatbaar. Hiermee probleer ik deze Cloudstrike blamage niet goed te praten overigens, het lijkt erop dat dit voorkomen had kunnen worden maar misschien heeft een samenloop van omstandigheden roet in het eten gegooid.
Uiteraard is hier getest, dat zal standaard protocol zijn. Het zal dus geen problemen gegeven hebben in dat scenario. Dit bewijst ook gelijk hoe lastig het is om alle problemen te vermijden.

Development is echt nasty wat dat betreft. Daarom is het nóg veel belangrijker dat we dit soort issues snel kunnen oplossen. Je moet er altijd vanuit gaan dat het mis gaat. Beboeten heeft geen zin, meer geld erin drukken ook niet. Geld kan menselijke fouten niet voorkomen.

Meteen @Verwijderd • 19 juli 2024 10:45

Bugs kun je nou eenmaal gewoon niet uitsluiten.

Door alle fout die te vóórkomen zijn een bug te noemen, lijkt het er op dat fouten niet vóórkomen hoeven te worden? Bugs zijn net zoiets als een regenbui? Het overkomt je gewoon en je kan er echt niets aan doen?

CivLord

@Meteen • 19 juli 2024 12:58

Testen is in jouw voorbeeld als het kijken naar buitenradar en voorkomen van de bug is in jouw voorbeeld het meenemen van een paraplu. Dan noch kan je daarmee niet 100% voorkomen dat je in een onverwachte regenbui terecht komt. Je kan alleen de kans op een nat pak verkleinen.

Harm_H @Verwijderd • 19 juli 2024 11:33

Ja, boetes, dat helpt.
Dan gaat niemand nog software ontwikkelen.

CrowdStrike is 80 miljard waard. Microsoft 3200 miljard. Geld is geen issue, 5 ton jaarsalaris voor een senior engineer geen probleem. Komen ze met boetes van miljoenen, terwijl het miljarden moeten zijn.

rene2024 @Harm_H • 19 juli 2024 13:54

Ze hebben al het ontwikkel werk geoutsourced naar India sinds februari. Daar werken dus Indiërs voor 9 dollar per uur.

dentinox @Verwijderd • 19 juli 2024 20:07

Moet jij eens opletten of dat gaat helpen. Als een firma zoals bijvoorbeeld microsoft welke jaren geleden het test team opgeheven heeft grote boetes krijgt, dan wordt er zo weer een goed test team neergezet. Dan hebben er weer een hoop mensen werk.

Maar als een grote firma zoals crowdstrike een update uitrolt welke BSOD levert op wereldwijde schaal dan is er duidelijk geen "bug" maar een cruciale fout. De software is simpelweg niet getest voor het live brengen. Dit had een test team eruit kunnen vissen. Het is namelijk niet maar een update waar enkele gebruikers hinder ondervinden.

deephallow1 @dentinox • 19 juli 2024 09:52

Dit is dat ook geen microsoft update probleem, maar eentje van crowdstrike.

Verder wel eens dat er te vaak issues zijn met updates die verspreid worden.

pegagus @dentinox • 19 juli 2024 10:32

Met dit soort fouten graaf je als bedrijf je eigen graf. Voordat men aan de deur klopt om die boete te innen, zijn ze al failliet.

SlaSauS @dentinox • 19 juli 2024 10:44

Als wij zo afhankelijk zijn gemaakt van software

Tja gemaakt. Consumenten en bedrijven spelen zelf natuurlijk ook een rol bij het uitkiezen van veilige software, als in veilig dat het zelf niet aangevallen wordt of problemen veroorzaakt. Juist beveiligingsproducten zoals bijvoorbeeld virusscanners zijn berucht in dat ze zelf een aanvalsvector vormen omdat ze niet altijd veilig zijn ontworpen en met de hoogste privileges draaien.

Hoover @dentinox • 19 juli 2024 10:57

Echter gaat dit niet om een Microsoft update.
Daarnaast gaat niemand dan nog iets programmeren voor klanten.
Alles wordt gemaakt door mensen, en die maken eenmaal fouten.
Hoeveel geld je er ook tegen aan smijt.

Wij zijn toevallig aan het migreren naar een nieuw platform en hebben een volledige Ontwikkel,test straat staat .
Testen aan onze kant zijn geautomatiseerd, maar nog komen er issues en bugs naar boven in productie.
Systemen in productie lopen namelijk vaak achter op test of wijken qua inrichten net wat af waardoor er ongezien problemen kunnen ontstaan in releasen naar productie.
Het enige wat je kunt doen is het zo veel mogelijk proberen te verminderen en een mechanisme hebben om snel terug te kunnen naar een oude versie. Voorkomen is vrijwel onmogelijk zolang er mensenhanden aant te pas komen.

AlainG

19 juli 2024 09:31

In Belgie heeft Brussels Airport problemen en de NMBS, treinen rijden wel volgens VRTNieuws.

dengregg @AlainG • 19 juli 2024 10:09

Bij NMBS ligt inderdaad enkel het ticketing systeem plat, dus gratis treinreizen momenteel

SMGGM @dengregg • 19 juli 2024 11:46

Het zou inmiddels weer werken.
https://twitter.com/NMBS/status/1814223800944169070

Het personeel op de trein is wel op de hoogte van het probleem en men zou flexibel omspringen met mensen die geen ticket hebben.
https://twitter.com/NMBS/status/1814230869072101763

Maar finaal heb je gelijk, vermoedelijk zal je nog voor enige tijd dit excuus kunnen gebruiken om gratis te reizen

[Reactie gewijzigd door SMGGM op 22 juli 2024 13:17]

Fermion 19 juli 2024 09:13

Dus als een bedrijfs computer nu niet plat ligt, deden ze dan te weinig aan beveiliging?

Wel, ik hoop dat de backups het goed doen. Voor servers zou dit geen probleem mogen zijn. Maar dit kan nog wel een een probleem zijn als de backup orchestrator/manager zelf getroffen is.

Maar goed, enterprise heeft dit wel goed voor elkaar…. kuch.

[Reactie gewijzigd door Fermion op 22 juli 2024 13:17]

Meteen @Fermion • 19 juli 2024 09:21

Ik denk niet dat ik een backup zou gaan terugzetten, als het verwijderen van één bestand de boel oplost.

MiesvanderLippe @Meteen • 19 juli 2024 11:25

Je VM een uurtje terugzetten is veel minder werk dan de schijf mounten en het bestand verwijderen. Als je regelmatige backups draait en je bestanden op een ander volume zet dan tenminste.

Meteen @MiesvanderLippe • 19 juli 2024 11:59

En hoe wou je dat doen als je systeem niet meer opstart? Dan kun je ook geen backup meer terugzetten.

MiesvanderLippe @Meteen • 19 juli 2024 12:18

VM = Virtual Machine. Het is gebruikelijk om je servers niet direct op de hardware te draaien maar in VMWare, Proxmox o.i.d. Op die manier ontkoppel je hardware, tussenlaag, OS, opslag en netwerk.

Meteen @MiesvanderLippe • 19 juli 2024 17:57

Ok!
Maar de endpoints ook op een VM?

Webgnome @Fermion • 19 juli 2024 09:19

Dus als een bedrijfs computer nu niet plat ligt, deden ze dan te weinig aan beveiliging

Nee, dan is er of geen beveiligingssoftware of andere software die vergelijkbare functionaliteit heeft maar deze bug dus niet.

Fermion @Webgnome • 19 juli 2024 14:45

Waar het omdraait is dat veel bedrijven acceptatie omgeving onderschat en ik zie ze altijd worden wegbezuinigd.

FreshMaker @Fermion • 19 juli 2024 09:52

Dus als een bedrijfs computer nu niet plat ligt, deden ze dan te weinig aan beveiliging?

Neuhh, er zijn er nog wel een paar
McAfee ePO, SentinelOne, Duo Security en DarkTrace zijn ook grote spelers.

Pecunia-18 @Fermion • 19 juli 2024 09:54

<knip>Dus als een bedrijfs computer nu niet plat ligt, deden ze dan te weinig aan beveiliging? /plak.

Dat is iets te kort door de bocht. Crowdstrike is natuurlijk niet de enige partij die beveiligingssoftware aanbied.

kodak

storing

@Fermion • 19 juli 2024 11:36

Het bruikbaar houden van bijvoorbeeld belangrijke dienstverlening of gegevens is ook onderdeel van beveiliging. Dus wie nu gewoon bruikbare dienstverlening en gegevens heeft kan dus juist een prima keuze hebben gemaakt vergeleken met wie te veel op dit product en services vertrouwde.

nehal3m 19 juli 2024 09:02

Ironisch dat beveiligingssoftware exact het soort probleem veroorzaakt dat het probeert te voorkomen.

The Zep Man @nehal3m • 19 juli 2024 09:03

Niet zozeer ironisch, en ook niet echt onbekend. Er zijn zat voorbeelden uit het verleden waarbij virusscanners zorgde voor systemen die niet meer geboot kunnen worden. Dat krijg je als je brak programmeert en geen goede QA hebt voor zaken op kernelniveau.

DeerDitch @The Zep Man • 19 juli 2024 09:10

Is dat je onderbuikgevoel of weet jij meer over de oorzaak van dit probleem?

The Zep Man @DeerDitch • 19 juli 2024 09:14

De blue screens of death lijken te worden veroorzaakt in csagent.sys. Beheerders kunnen dat omzeilen door Windows in safe mode te starten en in C:\Windows\System32\Drivers het bestand C-00000291*.sys te verwijderen.

In Windows betreffen .sys bestanden (low-level) drivers. Naast hardware worden die bijvoorbeeld ook gebruikt door monitoring software (zoals Crowdstrike's falcon sensor), virusscanners en DRM van computerspellen om in te haken op alles dat Windows ziet en doet. Het is makkelijk om op een dergelijk niveau een onherstelbare fout te maken.

Doordat deze bestanden vroeg worden ingeladen in het opstartproces is het niet mogelijk om ze zomaar uit te schakelen. Daarvoor is toegang tot Safe Mode (die met minimale "known working" drivers opstart) met de juiste rechten nodig.

Als Windows een fout aangeeft in een .sys bestand, dan mag je ervan uitgaan dat het probleem bij dat .sys bestand ligt (tenzij uitzonderlijke unieke situaties op kleine schaal, zoals hardwarefalen).

Als op zulke grote schaal BSOD's worden veroorzaakt door een enkele, automatisch geactualiseerde driver, dan is er iets ernstigs misgegaan in het QA-proces (tot zover dat bestaat).

[Reactie gewijzigd door The Zep Man op 22 juli 2024 13:17]

DeerDitch @The Zep Man • 19 juli 2024 09:49

Thanks!
Vroegah typte de Tweakers redactie dit soort informatie bij het nieuwsartikel. Fijn dat de community dit nu oppikt /i

rjberg @DeerDitch • 19 juli 2024 18:05

Een voorbeeld, een oude stemcomputer had ook wel eens antivirusproblemen:

https://xkcd.com/463/

Blokker_1999

Crowdstrike
storing

@nehal3m • 19 juli 2024 09:46

Nee, deze software is niet gemaakt om BSODs te voorkomen, het is Crowdstrike is een beveiligingsproduct. En de veiligste computer is een computer die uitstaat. Doet zijn werk dus perfect.

nehal3m @Blokker_1999 • 19 juli 2024 14:04

Beveiligingssoftware dient er onder anderen voor om te voorkomen dat je computer onklaar wordt gemaakt, en Crowdstrike maakt nu je computer onklaar. Daar doelde ik op qua ironie.

willieverhoef @nehal3m • 19 juli 2024 09:49

Tja, heel vaak waar. Heb je fail over routers, gaat er iets fout in de firmware update, waardoor alles plat ligt. Heb je een supper beveiligd systeem. Gaat er iets fout met een update. Natuurlijk door alle gebruikte oplossing wordt het proces vaak ingewikkeld waardoor het proces een probleem wordt.
Het houdt ons bezig 😇.

downtime @willieverhoef • 19 juli 2024 10:46

Natuurlijk door alle gebruikte oplossing wordt het proces vaak ingewikkeld waardoor het proces een probleem wordt.

Bekend inderdaad. Juist door de redundantie wordt alles complexer en heb je meer storingen. En vaak bestaat de redundantie uit twee identieke apparaten die op hetzelfde moment last van dezelfde storing krijgen.

En soms heb je te maken met beheerders die de complexiteit niet meer snappen en daardoor de boel zo inrichten dat de secundaire server een afhankelijkheid van de primaire server heeft en niets meer doet zodra de primaire server eruit ligt.

uiltje @nehal3m • 19 juli 2024 18:23

Maar ook logisch als je kijkt hoe die software met het systeem communiceert. En het is nog lang niet zo ironisch als de GUI van McAfee die op admin niveau blijkt te draaien en daarmee een beveiligingslek veroorzaakt.

Septillion Moderator Duurzame Energie & Domotica 19 juli 2024 09:09

Ik mis in het artikel even wat de link tussen Crowdstrike en Windows is. Is het gewoon losse software of is het native onderdeel van Windows? Ofwel, ben je alleen de sjaak als je het zelf (of je bedrijf) het pakket gebruikt?

[Edit] Zie dat artikel ondertussen de broodnodige aanvulling heeft gekregen

Anderen ook bedankt!

[Reactie gewijzigd door Septillion op 22 juli 2024 13:17]

Wouterie @Septillion • 19 juli 2024 09:23

De berichtgeving op prachtsites zoals nu.nl doen inderdaad suggereren dat het om een Windows fout gaat en sommigen claimen zelfs dat het gaat over een Micorsoft update. Maar het is inderdaad beveiligingssoftware die bar weinig met Microsoft te maken heeft.

loekf2

@Wouterie • 19 juli 2024 09:27

Zo te lezen waren er 2 issues (toevallig):

- Mega fuck up met een Crowdstrike update
- Een 365 of Microsoft Azure issue

michelr @loekf2 • 19 juli 2024 09:55

Wellicht gebruiken ze Crowdstrike in Azure en is het daarom niet helemaal toevallig.

DaniëlWW2 Moderator GC @michelr • 19 juli 2024 11:03

Ik zou niet verbaast zijn als ze dat doen. Maar ik weet dit niet zeker.

Dat zou denk ik een extra beveiligingslaag kunnen zijn. Want Microsoft heeft hun eigen concurrerende pakket met de Defender XDR suite, gelieerde Defender producten en Microsoft Sentinel. Daarmee zijn ze een van de grootste spelers. Een andere grote is juist CrowdStrike. Het zou me niet echt verbazen als ze ook de systemen van hun grootste concurrenten zouden gebruiken. Niet alleen om mogelijk downtime of problemen met hun eigen beveiligingssystemen voor te zijn. Maar ook voor het geval een van hun concurrenten iets detecteert en hun systemen niet. Dan moet je denk ik niet alleen aan malafide zaken denken. Mogelijkerwijs ook een legitiem bestand dat geflagged word in een productie omgeving. Microsoft leert daar waarschijnlijk ook van. Zo kunnen ze ook snel reageren als er iets misgaat. Want ze zien het dan als eerste zelf.

Ook zou ik niet verbaast zijn als Microsoft per datacenter, een ander product zou gebruiken of binnen datacenters een sub verdeling heeft. Vervolgens hebben ze binnen Azure de meeste data gedupliceerd opgeslagen staan. Dit kan afhankelijk van je contract of de dienst, binnen het datacenter, verdeeld tussen twee datacenters, binnen een grotere regio waarbij minstens drie aparte datacenters of nog breder verdeeld zijn. Bijvoorbeeld OneDrive for Business data is opgeslagen in drie verschillende datacenters.

Wat Microsoft dan kan doen bij een probleem is overschakelen naar andere servers en storage. Dat kost even en performance technisch is het ook niet geweldig als veel klanten opeens van host gewisseld moeten worden. Maar ze kunnen functionaliteit dan relatief snel herstellen aan de eindgebruikers. Daarna gaan ze hun problemen oplossen. Dit hoort ook bij hun contracten. Daarin zijn percentages opgenomen waarbinnen een dienst moet functioneren. Als ik zie wat voor diensten getroffen waren, dan vallen die waarschijnlijk allemaal onder de gegarandeerde 99,99% uptime. Halen ze dat niet, wat ze waarschijnlijk nu niet gehaald hebben, dan kan je als afnemer, credits krijgen waarmee je eigenlijk korting krijgt voor de volgende afrekening.

https://learn.microsoft.c...l-agreement-issues-credit

[Reactie gewijzigd door DaniëlWW2 op 22 juli 2024 13:17]

Wouterie @loekf2 • 19 juli 2024 09:28

Ik zie dat ze inderdaad de artikelen nu aan het aanpassen zijn. Tja, logisch, je moet mij ook geen stuk laten schrijven over auto's. Dan komt er ook een hoop onzin uit.

jacobras @Wouterie • 19 juli 2024 09:32

Schiphol zelf ook. De pushnotificatie die ik zojuist kreeg:

"Impact of global Microsoft system failure on Schiphol."

ibmpc @Wouterie • 19 juli 2024 18:45

Klopt, nu.nl meldt dat het om een Microsoft update gaat. En zo ontstaat dus helaas nepnieuws en fakenieuws

Jboeren @Septillion • 19 juli 2024 09:14

Het heeft niks met Windows te maken. Extra software dus.

Erwin1967 @Jboeren • 19 juli 2024 10:24

Het heeft weldegelijk met Windows te maken. Windows genereert de BSOD om dat het in een situatie terechtkomt waar het niet mee om kan gaan. Ik vind dat Microsoft zich dit moet aantrekken maar dat denk ik wel een behoorlijke impact hebben op de interne (verouderde) werking van Windows.

Verwijderd @Erwin1967 • 19 juli 2024 13:36

Er is geen enkel OS dat goed kan omgaan met een driver that memory corruptie veroorzaakt in de kernel. Wat blijkbaar hier gebeurt ...

Linus of MacOS gaan beide ook onderuit in zo een situatie. Heeft niets te maken met de OS maar hoe software werkt. Het is geen magie ... zeker niet op software dat direct memory toegang heeft, en ja, zelf Rust (memory safe taal) kan dit niet oplossen als een driver geschreven in de taal, corrupt is. Rust checked enkel tijdens de compile time, als je een beschadigde driver hebt, dat in de run-time stoten uithaalt, tja...

Note: Het Rust voorbeeld is dat, voorbeeld dat zelfs de beste geheugen safe talen, bepaalde fouten niet kunnen tegenhouden. Vaak zijn de drivers nog altijd C geschreven.

marcelvb

@Verwijderd • 19 juli 2024 17:14

De vraag is ook of je dit soort software op kernel niveau zou moeten draaien...

Verwijderd @marcelvb • 19 juli 2024 21:37

Performance ... Je kan proberen drivers te isoleren, maar niemand dat zal toehappen als hun systeem 50, 70 ... whatever procent trager draait. Window doet al lang isolatie van heel wat spullen, maar ja, ... dan nog, het probleem zover ik hoor, is gewoon dat de drivers corrupt was (aka, een aantal bytes in de header dat ergens corrupt geraakt zijn). Hoe wapen je daartegen, ... Dan moet je de header valideren, ok, maar wat als het valideren van de header, voor de crash zorgt!

Ik schrijf hier een geo-distrubuteerde systeem, en de hoeveelheid denkwerk dat gaat in "wat als de plaats op is in een storage node, wat doe ik met de data, probeer ik een andere node, geef ik een error, schrijf ik weg als ik de total grote niet ken van de upload, wat met de header (of tail block) "... En dan is gewoon een zeer basis vraagje. Wat als er schade is in de data dat weggeschreven is (CRC checksum is aanwezig) maar dat zit in de header van de data block. Wat als die block beschadigt is, ja, het is een GC taal dat ik gebruik maar de resultaten kunnen best leuk zijn, met grotere data corruptie of gewoon het systeem dat platgaat.

Kan je verzekeren, dat het schrijven van software enorm ver kan gaan, en sommige zaken je gewoon niet kan tegen wapenens, of denk "dat kan nooit gebeuren". Zie al de problemen met de HT exploits in AMD en Intel CPUs.

marcelvb

@Verwijderd • 22 juli 2024 14:21

Ik schrijf zelf ook software (in memory safe talen, dat wel), dus ik snap de complexiteit. Maar precies daarom wil je ook niet teveel zooi in device drivers hebben. Die moeten simpel zijn en weinig fouten of geen fouten hebben. Virusscanners etc. zijn enorm complex neem ik aan, dus er kunnen veel dingen fout zijn. Ik weet niet of ik, als gebruiker, veiligheid/stabiliteit wil inruilen voor performance va m'n security software. Want op een gegeven moment wordt je virusscanner gevaarlijker dan een virus.

Zelf draaien er een tiental Sophos processen op m'n werklaptop. Geen idee wat ze doen maar ze maken m'n systeem wel traag. Volgens mij scant het elk IP-pakketje en elk block van en naar disk. Kun je niet beter gewoon een goede check hebben als je iets download in je browser of als attachment binnenhaalt in je mailprogramma? Of als je een usb stick in je laptop stopt?