Software-Bug Grund für Fastly-Ausfall

Am 8. Juni 2021 gab es eine Störung im Content Delivery Network (CDN) des US-Anbieters Fastly. Damit waren sehr viele Webseiten plötzlich nicht mehr erreichbar. Die Störung war zwar nach einer Stunde wohl wieder behoben. Aber der Grund für den Ausfall war unklar: Hardware kaputt, DDoS-Angriff, Software-Fehler, alles war möglich.


Anzeige

Nun hat Fastly in einem Blog-Beitrag die Ursache für den gravierenden Ausfall mitgeteilt – es war ein Software-Bug und eine Verkettung unglücklicher Umstände.

Der Ausfall: Internet kaputt

Es war eine heftige Störung, die am 8. Juni 2021 so gegen 12:00 Uhr deutscher Zeit das Internet traf. Alle Webseiten, die das Content Delivery Networks (CDN) des US-Anbieters Fastly verwendeten, waren plötzlich nicht mehr erreichbar. Ich hatte versucht, die Seite von reddit.com im Browser abzurufen und habe die nachfolgende Fehlerseite angezeigt bekommen.

Error 503

Der ca. 80 Minuten dauernde Ausfall betraf von Amazon über Reddit bis zu Twitch eine Reihe prominenter Namen. Ich hatte im Blog-Beitrag StackOverflow, Twitch, Reddit, etc. down – Fastly CDN-Ausfall (8.6.2021, 12:00 Uhr) berichtet. Die Hintergründe, warum der Ausfall so gravierende Folgen hatte, habe ich im Blog-Beitrag Der Ausfall der Fastly-Cloud-Server und die Folgen angesprochen. Beim Amazon geht man davon aus, dass der Ausfall um die 32 Millionen US-Dollar an Umsatzverlusten verursacht hat.

Softwarefehler führt zum Ausfall

Im Blog-Beitrag Summary of June 8 outage gibt Nick Rockwell, Senior Vice President of Engineering and Infrastructure bei Fastly einen Abriss, was passiert ist. Am 12. Mai begannen die Techniker von Fastly mit einer Softwareimplementierung für das CDN. Dieses Software-Update enthielt aber einen Fehler, der durch eine bestimmte Kundenkonfiguration unter bestimmten Umständen ausgelöst werden konnte.

Am 8. Juni 2021 führte ein Kunde recht früh am Tag eine gültige Konfigurationsänderung durch, die die spezifischen Umstände beinhaltete, die den Fehler in der CDN-Software auslösten. Dieser Bug führte dazu, dass 85 % des Fastly-Netzwerks Fehler zurückgaben. Die Techniker bemerkten die Störung innerhalb einer Minute, identifizierten und isolierten dann die Ursache. Im Anschluss deaktivierten sie die betreffende Konfiguration. Innerhalb von 49 Minuten funktionierten 95 % unseres Netzwerks wieder wie gewohnt. Hier nach der zeitliche Ablauf der Störung (alle Zeiten sind UTC):

09:47 Initial onset of global disruption
09:48 Global disruption identified by Fastly monitoring
09:58 Status post is published
10:27 Fastly Engineering identified the customer configuration
10:36 Impacted services began to recover
11:00 Majority of services recovered
12:35 Incident mitigated
12:44 Status post resolved
17:25 Bug fix deployment began

Nach diesem Fix wurde eine dauerhafte Lösung für den Fehler erstellt und um 17:25 Uhr (UTC) mit der Bereitstellung begonnen. Der Fall zeigt, wie fragil das Ganze doch geworden ist.

 


Anzeige

 

 

 

 

Der Ausfall der Fastly-Cloud-Server und die Folgen


Cookies blockieren entzieht uns die Finanzierung: Cookie-Einstellungen

Dieser Beitrag wurde unter Störung abgelegt und mit verschlagwortet. Setze ein Lesezeichen auf den Permalink.

3 Antworten zu Software-Bug Grund für Fastly-Ausfall

  1. JohnRipper sagt:

    Try & Error. Macht MS bei 365 dauernd…

    Aber ernsthaft: wieso konnte man die Konfig nicht mal den großen Kunden (Amazon, Twitch, Reddit, usw) testen??

    • Martin sagt:

      Die werden schon ausreichend getestet haben.

      Wenn die großen Kunden genau diese eine Konfiguration nicht nutzen, die den Bug auslöst, wäre es ja auch nicht aufgefallen. Außerdem steht im Text "ein Kunde führte durch" – vielleicht war es ja einer der Großen?

      Frage mich eher, wie die Konfiguration bei einem Kunden solche gravierenden Auswirkungen haben kann.

  2. Al CiD sagt:

    Tja, keine ausreichenden Tests gefahren und keine Fallback-Strategie.
    Die Großen machen es vor, wie man es nicht machen sollte…

    Wie soll man es dann dem Chefe nahe bringen, dass Zeit- und Kostenintensive Test- und Vorsichtsmaßnahmen erforderlich sind?

Schreibe einen Kommentar zu JohnRipper Antworten abbrechen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Hinweis: Bitte beachtet die Regeln zum Kommentieren im Blog (Erstkommentare und Verlinktes landet in der Moderation, gebe ich alle paar Stunden frei, SEO-Posts/SPAM lösche ich rigoros). Kommentare abseits des Themas bitte unter Diskussion.