Facebook legt Ursachen für Störung vom 4.10.2021 offen

[English]Am 4.10.2021 kam es gegen 17:30 zu einem sechsstündigen Diensteausfall bei Facebook, der auch die Dienste Instagram und WhatsApp umfasste. Ich hatte im Beitrag Facebook, Instagram und WhatsApp weltweit ausgefallen berichtet und im Nachgang erste Hinweise auf die Ursache geliefert. Jetzt hat Facebook eine etwas umfassendere Erklärung zu den Gründen des Ausfalls geliefert.


Anzeige

Die Störung zum 4.10.2021 war schon massiv, alle Facebook-Dienste waren komplett aus dem Internet verschwunden und Browser lieferten nur eine leere Seite mit einer Fehlermeldung.

Facebook, Instagram und WhatsApp weltweit ausgefallen

Nach gut sechs Stunden konnten die Techniker von Facebook die Webseiten wieder ins Internet bringen. Von Cloudflare gab es bereits während der Störung den Artikel Understanding How Facebook Disappeared from the Internet mit einer Beschreibung der Beobachtungen. Ursache war aber wohl, dass die Routing-Angaben für die Facebook-Domains aus dem Border Gateway Protocol (BGP) schlicht verschwunden  waren. Facebook hatte nach einigen Stunden diesen Blog-Beitrag mit ersten Hinweisen veröffentlicht. Dort wird erklärt, dass Facebook-Technikteams feststellten, dass Konfigurationsänderungen an den Backbone-Routern, die den Netzwerkverkehr zwischen den Facebook-Rechenzentren koordinieren, Probleme verursacht haben. Durch diese Änderungen wurde die Kommunikation zwischen den Rechenzentren unterbrochen und in Folge auch die Einträge aus dem BGP entfernt.

Neue Analyse von Facebook

Im Beitrag More details about the October 4 outage geht Facebook nun noch detaillierter auf die Gründe des Ausfalls und die Frage, warum es dann 6 Stunden bis zur Beseitigung dauerte, ein.

Dieser Ausfall wurde durch das System ausgelöst, welches die Kapazität des globalen Facebook Backbone-Netzwerks verwaltet. Das Backbone ist das Netzwerk, das Facebook aufgebaut hat, um alle seine Rechenzentren miteinander zu verbinden. Es besteht aus Zehntausenden Kilometer Glasfaserkabel, die alle Rechenzentren rund um den Globus miteinander verbinden.

Diese Datenzentren gibt es in verschiedenen Formen. Einige sind riesige Gebäude, in denen Millionen von Maschinen untergebracht sind, die Daten speichern und die großen Rechenlasten ausführen, um die Plattformen am Laufen halten. Greift ein Nutzer auf einen Facebook-Dienst zu,  wird die Datenanforderung an die nächstgelegene Einrichtung von Facebook weitergeleitet, die dann direkt über unser Backbone-Netz mit einem größeren Datenzentrum kommuniziert und die Antwort zurück liefert.

Der Datenverkehr zwischen all diesen Rechenzentren wird von Routern verwaltet. Zur Aufrechterhaltung dieser Infrastruktur müssen unsere Techniker oft einen Teil des Backbone für Wartungsarbeiten abschalten – vielleicht um eine Glasfaserleitung zu reparieren, mehr Kapazität hinzuzufügen oder die Software auf dem Router selbst zu aktualisieren.

Wartungsarbeiten führen zur Störung

Während einer dieser routinemäßigen Wartungsarbeiten wurde ein Befehl mit der Absicht erteilt, die Verfügbarkeit der globalen Backbone-Kapazität zu prüfen. Dadurch wurden unbeabsichtigt alle Verbindungen im Facebook Backbone-Netzwerk unterbrochen, wodurch die Datenzentren von Facebook weltweit abgeschaltet wurden. Die Systeme sind zwar darauf ausgelegt, solche Befehle zu prüfen, um Fehler wie diesen zu vermeiden. Aber gemäß Mc Murphy verhinderte ein Fehler in diesem Prüfwerkzeug, dass der Befehl ordnungsgemäß gestoppt wurde.


Anzeige

Diese Änderung führte zu einer vollständigen Unterbrechung der Serververbindungen zwischen den Facebook Datenzentren und dem Internet. Dies war die Ursache für den gestrigen Ausfall. Und dieser totale Verbindungsverlust verursachte ein zweites Problem, das die Sache noch schlimmer machte.

Eine der Aufgaben einer Einrichtung ist die Beantwortung von DNS-Anfragen (also die Auflösung von URLs auf facebook.com etc. auf die betreffenden IP-Adressen der Server). Diese Übersetzungsanfragen werden von den maßgeblichen Facebook Namensservern beantwortet, die selbst bekannte IP-Adressen haben, die wiederum über ein anderes Protokoll, das so genannte Border-Gateway-Protokoll (BGP), an den Rest des Internets weitergegeben werden.

Um einen zuverlässigen Betrieb zu gewährleisten, ziehen die Facebook DNS-Server diese BGP-Ankündigungen zurück, wenn sie selbst nicht mit den Facebook Rechenzentren kommunizieren können. Denn dies ist ja ein Hinweis auf eine gestörte Netzwerkverbindung. Bei dem jüngsten Ausfall wurde das gesamte Backbone außer Betrieb genommen, so dass sich diese Standorte selbst für gestört erklärten und die BGP-Anzeigen zurückzogen. Das Ergebnis war, dass die Facebook DNS-Server nicht mehr erreichbar waren, obwohl sie noch in Betrieb waren. Damit war Facebook samt allen seinen Diensten aus dem Internet gefegt.

Und dann geht alles schief

All dies geschah extrem schnell, so dass die Techniker bei der Fehlerdiagnose vor zwei großen Hindernissen standen: Erstens war es wegen des Netzwerkausfalls nicht möglich, auf normalem Wege auf die Rechenzentren zuzugreifen. Und zweitens machte der Totalausfall des DNS viele der internen Tools funktionslos, die normalerweise zur Untersuchung und Behebung von Ausfällen verwendet werden.

Da der primäre und Out-of-Band-Netzzugang von Facebook ausgefallen war, also schickte das Management Techniker vor Ort in die Rechenzentren, um das Problem zu beheben und die Systeme neu zu starten. Aber das dauerte seine Zeit, denn diese Einrichtungen sind mit Blick auf ein hohes Maß an physischer Sicherheit und Systemsicherheit konzipiert. Es ist schwer, in das Rechenzentrum hinein zu gelangen – es gab ja Berichte, dass die Zugangssysteme blockiert waren.

Und für Mitarbeiter, die in das Rechenzentrum eingedrungen waren, sind die Hardware und die Router so konzipiert, dass sie nur schwer verändert werden können, selbst wenn man physischen Zugang hat. Es brauchte also zusätzliche Zeit, um die sicheren Zugangsprotokolle zu aktivieren, die erforderlich waren, damit die Mitarbeiter vor Ort an den Servern arbeiten konnten. Erst dann konnten die Techniker das Problem bestätigen und das Facebook Backbone wieder in Betrieb nehmen.

Es war also wirklich die alte Erfahrung von Mc Murphy: Was schief gehen kann, geht schief. Sobald die Backbone-Netzwerkverbindung in den Rechenzentren wiederhergestellt war, funktionierte auch alles wieder. Aber das Problem war noch nicht gelöst, denn die Techniker wussten, dass die Wiedereinschaltung aller Facebook-Dienste auf einmal durch die Datenlast zu einer neuen Runde von Abstürzen führen könnte. Einzelne Rechenzentren meldeten Einbrüche im Stromverbrauch im Bereich von mehreren zehn Megawatt, und eine plötzliche Umkehrung eines solchen Einbruchs im Stromverbrauch könnte alles gefährden, von den elektrischen Systemen bis zu den Caches.

Dank früherer Vorbereitungen und Übungen war man auf dieses Ereignis (Simulation eines größeren Systemausfalls) gut vorbereitet. Auf Grund dieser Erfahrung ließen sich die Dienste wieder online bringen und die zunehmende Last verwalten. Das klappte dann, ohne dass es zu weiteren systemweiten Ausfällen kam. Jetzt analysiert Facebook, wie solche Situationen verhindert werden können.

Der Ausfall von WhatsApp hat anderen Messenger-Diensten einen massenhaften Zulauf beschert. Techcrunch berichtet hier, dass Telegram 70 Millionen zusätzliche neue Nutzer während des Facebook WhatsApp-Ausfalls verbuchen konnte. Auch Signal vermeldete Millionen neuen Nutzer auf Grund des Ausfalls.


Cookies blockieren entzieht uns die Finanzierung: Cookie-Einstellungen

Dieser Beitrag wurde unter Facebook, Störung abgelegt und mit , verschlagwortet. Setze ein Lesezeichen auf den Permalink.

7 Antworten zu Facebook legt Ursachen für Störung vom 4.10.2021 offen

  1. Peter Pan sagt:

    > a command was issued with the intention to assess the availability of global backbone capacity, which unintentionally took down all the connections in our backbone network

    Klingt sehr nach marketingenglisch, was genau heisst das auf technikdeutsch?

    Hat jemand statt sowas wie traceroute versehentlich sowas wie rm -rf eingetippt? Welche Art Kommando könnte beides?

    • Peter Pan sagt:

      Bin ich anhand der sonstigen Antworten hier (in einem doch ansonsten sehr technikaffinen Forum) wirklich der Einzige, der diesen "ein Befehl war schuld, bitte weitergehen, nichts zu sehen" Narrativ nicht erstnehmen kann?

  2. chw9999 sagt:

    Alles, was man wissen muss, steht in der URL ;)
    h**ps://www.welt.de/satire/article234234138/Friedensnobelpreis-fuer-Kerl-der-Facebook-und-Instagram-lahmlegte.html

  3. Tom sagt:

    [QUOTE]
    Für Facebook war der jüngste Ausfall eine blamable Krönung schwieriger Wochen. Erst kürzlich hatte sich die ehemalige Mitarbeiterin Frances Haugen als Whistleblowerin zu erkennen gegeben und dem Online-Netzwerk vorgeworfen, Profit über das Wohl der Nutzer zu stellen.

    Quelle: WELT/Steffen Schwarzkopf
    [/QUOTE]
    Nein, echt jetzt: ein Konzern stellt Profit über das Wohl seiner Mitarbeiter/Nutzer – hätte ich doch echt nicht für möglich gehalten und das auch noch ausgerechnet in unserer heutigen doch so aufgeklärten (westlichen)Welt ;-)

    [QUOTE]
    Der Ausfall von WhatsApp hat anderen Messenger-Diensten einen massenhaften Zulauf beschert. Techcrunch berichtet hier, dass Telegram 70 Millionen zusätzliche neue Nutzer während des Facebook WhatsApp-Ausfalls verbuchen konnte. Auch Signal vermeldete Millionen neuen Nutzer auf Grund des Ausfalls.
    [/QUOTE]
    …kein Kommentar…

  4. Tom sagt:

    Da hat sich einer eine Fehlermeldung geschnitzt, die über alle Zweifel erhaben ist. Wir glauben das alles, wie es dort steht und wünschen Facebook und Co noch gute Geschäfte. Ironie OFF.

  5. Andy sagt:

    Da hat Facebook wohl den Murphy nicht verstanden.
    Alle mit Murphy beschriebenen Folgen waren folgerichtig und letztlich in der gewollten Funktion fehlerfrei.
    Insofern ist es kein Murphy, sondern Grund sich zu freuen, dass es wirklich so aufwendig und zeitfressend war, wie es letztlich geplant wurde.
    Ergebnis entspricht Planung ist ja zunehmend rar, weshalb man das gar nicht genug loben kann…

  6. Itchy sagt:

    "Murphy's Law doesn't meant that something bad will happen.
    It means that whatever can happen, will happen."—Cooper.
    Quelle: Interstellar

    ;-)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Hinweis: Bitte beachtet die Regeln zum Kommentieren im Blog (Erstkommentare und Verlinktes landet in der Moderation, gebe ich alle paar Stunden frei, SEO-Posts/SPAM lösche ich rigoros). Kommentare abseits des Themas bitte unter Diskussion.