[English]Durch ein fehlerhaftes Update der CrowdStrike Falcon-Software wurden zum 19. Juli 2024 um die 8,5 Millionen Windows-Rechner lahm. Der Vorfall gilt bereits als die bisher weltweit der größte Computerpanne, und dürfte Milliarden Schaden verursachte haben. Seit Freitag kämpfen Administratoren damit, die ausgefallenen Systeme zu reparieren und es laufen "Aufräumarbeiten". Ein Blog-Leser hat mich bereits zum Wochenende kontaktiert, weil ihm als Administrator einige Nebenwirkungen aufgefallen sind, die bisher öffentlich so noch nicht angesprochen wurden. Auch nach der Reparatur des BlueScreen-Verhaltens sind ggf. Falcon Sensor-Agenten nicht mehr arbeitsfähig. Ich stelle mal einige Informationen im Blog-Beitrag zusammen.
Anzeige
Der CrowdStrike-Vorfall
Am 19. Juli 2024 kam es weltweit zu zahlreichen Störungen an IT-Systemen mit Windows. Der Betrieb an Flughäfen stand, Banken konnten nicht mehr arbeiten, Züge fielen aus, und Firmen schickten ihre Mitarbeiter nach Hause (z.B. Tegut), weil die IT-Systeme nicht mehr gingen. Auch deutsche Kommunen, Firmen und Banken waren betroffen. Ich hatte zeitnah im Beitrag Ausfall von Microsoft 365 und weltweite Störungen – wegen CrowdStrike-Update, was zum BSOD führt? berichtet.
Es war aber kein Cyberangriff, sondern ein fehlerhaftes Update für eine EDR-Sicherheitslösung des US-Anbieters CrowdStrike, die Windows-Systeme mit einem BlueScreen abstürzen ließen. Eine erste Analyse, was passiert sein könnte, findet sich in meinem Blog-Beitrag CrowdStrike-Analyse: Wieso eine leere Datei zum BlueSceen führte.
In diesem Tweet zitiert jemand, dass das fehlerhafte Update neu beobachtete, bösartige "named pipes", die von gängigen C2-Frameworks bei Cyberangriffen verwendet werden, ins Visier nehmen sollte. Ich hatte hier im Blog zeitnah berichtet und den Vorfall in diversen Beiträgen nachbearbeitet (siehe Links am Artikelende).
Neue CrowdStrike-Probleme/Nebenwirkungen?
Ein Blog-Leser hat mich per E-Mail kontaktiert, weil er als Administrator auch für CrowdStrike verantwortlich ist und von dem Vorfall betroffen war. Ihm sind im CrowdStrike-Fall neue Probleme bzw. Nebenwirkungen aufgefallen. Der Leser schrieb mir, dass das Unternehmen eine großen Teil seiner Landschaft wieder in Betrieb habe.
Anzeige
Als er sich aber in der CrowStrike-Console die Server des Unternehmens angesehen hat, musste er feststellen, dass sich ca. 10% der Server seit Freitag nicht mehr gemeldet haben (obwohl die Server selbst laufen). Falls das CrowdStrike-Icon in der CrowStrike-Console aktiviert wurde, zeigt das Icon diesen Fehler.
Die Konsole meldet, dass der Treiber gestoppt wurde, obwohl der Dienst läuft. Sprich: Die CrowdStrike Falcon Sensoren liefern keine Rückmeldungen an die Konsole.
Agent nicht mehr arbeitsfähig
Nach einem Upgrade der Version funktioniert es wieder aber was ist die Ursache? Der Leser hat dann geforscht und ist dem Problem auf die Spur gekommen. Der CrowdStrike-Support meldet folgendes.
File not found: %SYSTEMROOT%\system32\drivers\CrowdStrike\csagent.sys
it seems that CSAgent.sys has been renamed to CSAgent.sys.old:
CSAgent.sys.old 09.07.2024 14:50:46 7.15.18513.0
The reason why an upgrade solved it, it is probably because that also triggered a repair and renamed CSAgent.sys.old to its original name.
Current suggestion is to check the the impacted Channel File has been removed from the System and then rename the CSAgent.sys.old back to its original name CSAgent.sys and reboot the host.
Bedeutet also, auch wenn der BlueScreen (BSOD) unter Windows auf Grund des fehlerhaften Updates repariert wurde, ist der Falcon Sensor-Agent ggf. nicht lauffähig. Betroffene Server lassen sich aber ganz gut in der CrowdStrike-Console über die Abfrage "last seen" filtern. Server sollten sich ja durch ihren Dauerbetrieb regelmäßig melden.
Schwierigkeit bei Clients
Der Leser schrieb noch, dass es bei Clients anders aussieht, da diese unregelmäßig online sind und sich daher nicht regelmäßig melden. Er stellte die Frage: "Wer will da jetzt noch herausfinden, welcher Client wurde repariert, und meldet sich aber nicht?" Das ist eher schwierig.
Sofern das oben erwähnte Icon aktiviert wurde, könnten die User selbst nachsehen, ob die Falcon-Software am Client arbeitet. In seiner Mail merkte der Leser noch an, dass er erst am gestrigen Montag mit der Client-Reparatur beginne und dort das als Prüfschritt mit einbauen will. Danke an den Leser für die Hinweise – noch jemand mit dieser Beobachtung?
Ähnliche Artikel:
Weltweiter Ausfall von Microsoft 365 (19. Juli 2024)
Ausfall von Microsoft 365 und weltweite Störungen – wegen CrowdStrike-Update, was zum BSOD führt?
Wieso weltweit zahlreiche IT-Systeme durch zwei Fehler am 19. Juli 2024 ausfielen
CrowdStrike-Analyse: Wieso eine leere Datei zum BlueSceen führte
Nachlese des CrowdStrike-Vorfalls, der bisher größten Computerpanne aller Zeiten
CrowdStrike-Vorfall: Sensor-Ausfall als bisher unbekannte Nebenwirkung?
Anzeige
Es hätte ja schon etwas, wenn eine Software zur Schädlingsbekämpfung sich selbst als Schädling erkennt und entfernt. Ersatzweise mehrere davon gegenseitig. :)
Die Umbenennung zu CSAgent.sys.old hat vermutlich ein anderer Administrator gemacht und dem Montags-Admin nichts davon gesagt oder der Montags-Admin hat noch nicht die Dokumentation des anderen Admins gelesen.
CrowdStrike schaltet sich nicht selber aus, indem es seinen Treiber umbenennt.
Das Reparatur-Script von Microsoft (MsftRecoveryToolForCSv31.ps1) fasst CSagent.sys auch nicht an, also auch von da keine Umbenennung.
Wenn CrowdStrike einen Schädling erkennt, dann lässt er ihn nicht in dem selben Ordner liegen und benennt ihn nur um, sondern er verschiebt ihn in Quarantäne (vermute ich).
Die repair-Funktion des Installers renamed auch keine der bereits installierten Dateien, sondern holt die Dateien neu aus dem Installer.
Dieses "it seems" des CrowdStrike-Supports bezieht sich nicht auf das allgemeine Verhalten von CowdStrike, sondern der Support versucht den konkreten Zustand bei diesem einen Kunden zu analysieren.
ja. Diese Datei ist doch eine "Named Pipe", die nennen das "Channel File". Soweit ich deren Voodoo aus den Kommentare nachvollziehen kann, kommen über diese Pipe Befehle, die der Treiber auf Ring-0 in Echtzeit ausführen soll. Da wer bestimmt ganz stolz, alle Sicherheitssperren die MS und Intel eingebaut haben umgangen zu haben…
was für ein Wahnsinn.
Aktuelle Meldung des Termin Centers einer Radiologischen Praxis:
WARTUNGSARBEITEN
Liebe Patientinnen, liebe Patienten,
aufgrund einer Systemumstellung sind Terminbuchungen erst wieder ab Montag, den 22.07.2024 möglich. Wir bitten um Ihr Verständnis.
Vielen Dank.
Wir haben den 23.7. und es geht immer noch nicht.
Immerhin steht wo anders
Es findet gerade eine Systemumstellung statt* Ab Dienstag (23.07.24) steht Ihnen die Termin- vergabe online wieder zur Verfügung.
Mein Portal
Dafür haben die Zeit, das Datum anzupassen?
Wohl aus Verzweiflung haben die jetzt ein Formular gemacht, mit dem der Kunde eine Email an den Sachbearbeitenden schickt damit man die kostbaren Termine zumindest absagen kann und die Kunden per SMS informiert wo sie den Link finden…
Die Telefon Warteschleife endet nach 10 im Schweigen
was zu funktionieren scheint ist das
Fax!
Das mit der "Systemumstellung" halte ich für kleinkariert arogant gelogen. Man nennt seine Kunden ja nicht umsonst "Patient"…
So etwas dauert nicht mehrere Tage und macht man nicht während der Öffnungszeiten.
Vermutlich ist nur der Dienstleister für das Webfrontend ausgefallen. Und intern geht's noch, im großen Buch?
Crowdstrike ist eine ziemlich große und teure Lösung, braucht unbedingt geschulte Admins. Wenn ich mir die Praxisausstattungen so ansehe, glaube ich nicht, dass das dort zum Einsatz kommt. Mein Hausartzt verwendet Avira, weil es ihm sein Einmann-Dienstleister so eingerichtet hat "es läuft", der hat nichtmal eine Domäne, der Praxis-PC am Empfang ist gleichzeitig "Server".
die fassen etliche Praxen zu dämmen und bieten Servicescaj.
Vielleicht so wie Datev vergleichbar?
Und so ein Röntgen "Studio" hat ja schon ein paar TB zu lagern und zu verwalten, auch wenn die Daten Recht statisch sind.
Und die Daten sollten gut verfügbar sein.
Die zeitliche Korrelation (die Meldung kommt schon seit mehreren Tagen) ist schon bemerkenswert.
>>> Diese Datei ist doch eine "Named Pipe" <<<
Das ist Unsinn. /1/: "Named pipes cannot be created as files within a normal filesystem, …"
/1/ wikipedia.org/wiki/Named_pipe
Bolko's Version scheint mir auch plausibler zutreffend zu sein…
Sehe ich auch so, da war jemand besonders eifrig bei der Reperatur der betroffenen Systeme.
Durfte der Admin, der von Freitag bis Sonntag aktiv war, diesen CrowdStrike-Treiber (CSagent.sys) deaktivieren, also ohne Kenntnis und ohne Befehl der Geschäftsführung?
Haftet der Admin1, wenn die Firma jetzt erfolgreich angegriffen wird, weil er eigenmächtig den CrowdStrike Schutz abgeschaltet hat?
Falls es mit Wissen der Geschäftsführung deaktiviert wurde, darf der Montags-Admin das dann eigenmächtig wieder aktivieren, ohne Wissen der Geschäftsführung?
Darf es da überhaupt drei Meinungen geben (Geschäftsführung, Admin 1, Admin 2)?
Die Geschäftsführung entscheidet, und die Admins setzen das dann wie gewünscht um.
Der Montags-Admin sollte also mal dringend die Geschäftsführung fragen, was Stand der Dinge ist, was Freitag bis Sonntag gemacht wurde und ob CrowdStrike aktiviert oder deaktiviert werden soll.
Da darf doch nicht jeder einfach so nach Gutdünken dran rumfummeln, je nach Wochentag mal ein oder ausschalten und niemandem irgendwas davon erzählen?
Auch, wenn das Umbenennen einer Datei sicherlich schwer nachzuvollziehen ist, sollte sich doch in den Eventlogs zumindest nachvollziehen lassen, ab wann der Treiber nicht mehr geladen werden konnte und welcher Administrator (oder heißen die alle so?) von welcher IP aus sich zu diesem Zeitpunkt eingeloggt hat.
Wenn das ein missionskritisches System ist würde ich auch erwarten, daß das "Security" Log etwas mehr als den Windows-Default eingeschaltet hat und diese Daten ggf. auch an einen zentralen Loghost weitergeleitet werden.
Alles andere, was Du genannt hast sind keine technischen, sonder arbeitsorganisatorische Prozesse (Genehmigung, Dokumentation…).
OK – bin schon weg und gehe weiter von einer idealen Welt träumen 🤣
>>> sollte sich doch in den Eventlogs zumindest nachvollziehen lassen, ab wann der Treiber nicht mehr geladen werden konnte <<<
Wovon träumen Sie nachts? Welche Windows Event ID soll das sein?
Der Admin der das gemacht hat war wahrscheinlich einfach nur pragmatisch, Falcon deaktiviert, Server läuft wieder. Vielleicht schon durchgeführt, bevor die offizielle Lösung kam. Die Geschäftsführung muss nicht jeden Mausklick, den ein Admin durchführt, absegnen, sonst könnte sie das auch selbst tun, das ginge schneller und würde Personalkosten sparen.
jeder Admin der crowdstrike auf seinem Server oder seinen Clients deaktiviert, tut seinem Arbeitgeber gutes.
Na, hast du in "Crowdstrike" nun deinen neuen "Big Evil" gefunden? Bei McAfee gabs 2009/2010 einen ähnlichen Vorfall, da hat der AV damals die system32.dll (odersowas) als schadhaft erkannt und in Quarantäne verschoben. Das war von der Ausfallgröße vergleichbar, da startete Windows auch nicht mehr. McAfee (heißt heute nicht deswegen Trellix) und Windows gibts immer noch.
Wieviele Flüge fielen wegen McAfee 2009/2010 aus?
Kannst du bestimmt googlen. Selbst der Born dürfte damals darüber geschrieben haben. McAfee wurde damals gerade in größeren Umgebungen eingesetzt. Kurz bevor das passierte war ich noch in einem Unternehmen, in dem ich eine einzelne OU mit PCs, Servern und Softwarenetwicklern verwaltet habe, das waren nur etwa 400 PC/User und 50 Server, überschaubar, aber das Gesamt-AD erstreckte sich über 25.000 User und PCs und ich weiß nicht mehr wieviele Server, McAfee wurde damals für dieses AD aber nicht von mir betreut, sondern von jemand außerhalb von meiner OU. Könnte sein, dass es dort damals richtig geknallt hat, gehört habe ich aber nichts, die hatten wohl irgendwie Glück. ansonsten hätte die Fahrzeugproduktion vielleicht stillgestanden…
ich habe generell was gegen schlangenöl. und wer war damals bei mcafee am ruder? und wer ist jetzt bei crowdstrike am ruder?
die fassen etliche Praxen zu sammen und bieten Services an.
Vielleicht so wie Datev?
Und so ein Röntgen "Studio" hat ja schon ein paar TB zu lagern und zu verwalten, auch wenn die Daten Recht statisch sind.
Und die Daten sollten gut verfügbar sein.
Die zeitliche Korrelation (die Meldung kommt schon seit mehreren Tagen) ist schon bemerkenswert.
Damals mit dem gleichenn Häuptling. Naja, konsequente Arbeitsleistung…
Es war keine DLL, sondern einer der wichtigsten Prozesse bei Windows.
Das sagt Chip: ei svchost.exe handelt es sich um eine Systemdatei. Sie finden Sie im Verzeichnis "C:\Windows\System32".
Die Exe-Datei ist ein sogenannter Host-Prozess. Windows nutzt sie, um damit Dienste ausführen zu lassen.
Die svchost.exe führt die Windows-Dienste aus, indem Sie zu jedem Dienst den Programm-Code der zugehörigen DLL (Dynamic Link Library) abarbeitet.
Für jeden auszuführenden Dienst wird eine neue Instanz der svchost.exe gestartet. Je mehr Windows-Dienste gerade laufen, um so mehr Exe-Dateien werden gestartet."
Microsofts Definition von "named pipes":
Named pipes are used to transfer data between processes that are not related processes and between processes on different computers. Typically, a named-pipe server process creates a named pipe with a well-known name or a name that is to be communicated to its clients. A named-pipe client process that knows the name of the pipe can open its other end, subject to access restrictions specified by named-pipe server process. After both the server and client have connected to the pipe, they can exchange data by performing read and write operations on the pipe.
learn[.]microsoft[.]com/en-us/windows/win32/ipc/interprocess-communications#using-pipes-for-ipc
CrowdStrike hat dadurch die Befähigung, beliebige Befehle und Daten in beide Richtungen von und zu den Kunden Computern zu transferieren und auszuführen.
Sowas könnte auch missbraucht werden, um Daten vom Kunden-Computer abzuziehen und auf dem CrowdStrike-Server zu speichern oder die Kunden-Computer gezielt abzuschalten.
Die US-Geheimdienste sind auch befugt, eigene Tarn-Firmen zu gründen und eine davon zum Beispiel CrowdStrike zu nennen.
Crowdstrike hat vor allem die Fähigkeit, diese Named-Pipes zu überwachen und Angriffe darüber auf Systemprozesse zu erkennen und zu verhindern. Darum geht es!
Um Daten abzugreifen, braucht es keine Angriffe auf Named-Pipes, da reicht normaler lesender Dateizugriff und Internetzugriff völlig. Angriffe über Named-Pipes macht man, um Systemprozesse anzusprechen, um sie dazu zu bringen, fremden Code mit Systemrechten ausführen zu lassen. Da gehts ums Tafelsilber eines Betriebssystems. Übrigens kann jedes Unix und Linux auch Pipes.
>>> CrowdStrike hat dadurch die Befähigung, beliebige Befehle und Daten in beide Richtungen von und zu den Kunden Computern zu transferieren und auszuführen. <<<
Unisnn, Sie haben die entscheidende Passage überlesen: "subject to access restrictions"! Details s. /1/.
/1/ learn.microsoft.com/en-us/windows/win32/ipc/named-pipe-security-and-access-rights
ist das mit der entheidenden Passage zu Access rights jetzt irgendwie zynisch gemeint?
Sind Cyberangriffe nicht just deshalb möglich, weil es irgendwo mit evend diesen Schutzrechten nicht klappt wie geplant?
Lesestoff: Das Crowdstrike-Fiasko: Ursachenforschung und erste Lehren
Wir können das Verhalten nicht nach vollziehen. Tatsächlich war unser betroffenes Unternehmen mit etwa 10.000 Devices um den Globus am Freitag wieder online. Von den 10.000 Devices sind 100 (!) hard failed. alle anderen konnten durch mehrfaches Neustarten wieder online gebracht werden. Alle die Online sind melden korrekt zu Crowdstrike.
Ihr benutzt dieses Zeug also weiter? Und wenn das gleiche wieder passiert, aber keine Updates mehr nachgeschoben werden, die nach zig Reboots vielleicht eintrudeln?
Warum nicht? Lesson learned. Crowdstrike wird diese Signaturupdates nun SEHR genau prüfen.
Und hast du eine Ahnung, wie lange es dauern würde, so eine Sicherheitslösung abzulösen? Es reicht nicht, einfach nur die Software zu deinstallieren. Es muss was neues her. Das muss natürlich vorher im POC ausprobiert werden, dass damit alle eingesetzte Software läuft, es muss das Userverhalten wieder neu lernen, es muss an die Umgebung angepasst werden (Ausnahmeregeln für bestimmte Anwendungen usw.). Es müssen die Admins geschult werden, es muss das Rollout getestet werden, es müssen Firewall-Regeln, Proxy und was weiß ich noch alles angepasst werden. Weißt du, was das für ein Aufwand ist? Da sind 2 Mann locker ein halbes Jahr neben den Sachen die sie auch noch tun damit beschäftigt.
Das macht man nicht mal eben so. Vor allem nicht bei 10.000 Endpoints.
Nein, leider genau nichts gelernt.
Die Alternative wäre das komische System, das ohne 3rd Party Schlangenöl – pardon das heißt Reverse-Ransomware – offensichtlich nicht sicher zu betreiben ist, hochkant rauszuwerfen.
Korrekt.
CrowdStrike hat sich als externer single point of failure herausgestellt, dem man das ganze Unternehmen freiwillig ausliefert.
Was kürzlich mutmaßlich versehentlich passiert ist, kann in Zukunft auch mal mit voller Absicht passieren, global oder auch regional.
Konkret: Wenn lokale Politiker eines Tages mal irgendwas entscheiden, das dem nationalen Interesse der USA widerspricht, ist CrowdStrike ein jetzt gut erprobter Erpressungshebel.