Analyse des Azure/Office365.com-Problems letzte Woche

Microsoft wurde letzte Woche ja bei seinen Diensten Azure/Office365.com durch Anmeldeprobleme geplagt. Jetzt gibt es Informationen, was schief gelaufen ist – es waren gleich drei Fehler, die zuschlugen. Und die berühmte Telemetrie, die alles weiß, suggerierte den Microsoft-Operatoren, dass alles in bester Ordnung wäre. Glücklicherweise gab es Medien wie Twitter und Blogs, so dass die Microsoftler irgendwann mit bekamen, dass was nicht stimmt.


Anzeige

Kurzer Rückblick

Ich hatte am 19. November 2018 im Beitrag Anmeldeprobleme bei Azure/Office365.com über Anmeldeprobleme bei Microsoft Azure und Office365.com berichtet. Das betraf Nutzer in Europa und Asien, die von der Zweifaktor-Authentifizierung komplett ausgesperrt waren. Die Statusseite von Office 365 zeigt diese Meldung mit dem Hinweis, dass eine Anmeldung gestört sei:

Office 365 Status

Die Störung dauerte 14 Stunden an. Einige Tage zuvor hatte ich im Beitrag Office365.com/Outlook.com mit Problemen über die letzte Störung berichtet. Das zeigt, wie wackelig das Ganz Cloud-Geschäft im Grunde ist. Alle Räder stehen still, wenn Microsoft (oder Mc Murphy) das will …

Ursachenanalyse: Dreifachfehler, dumm gelaufen

Inzwischen hat Microsoft einen Dreifachfehler in Form von Bugs für diesen Ausfall und vor allem für die Zeit, bis die Ursache bekannt war, verantwortlich gemacht. Die Information findet sich im Statusbereich (11/19):

There were three independent root causes discovered. In addition, gaps in telemetry and monitoring for the MFA services delayed the identification and understanding of these root causes which caused an extended mitigation time.

Hier hat McMurphy zugeschlagen – denn durch diese Kombination konnte Microsoft die Telemetrie-Daten nicht richtig auswerten und so die Ursache der Bugs nicht feststellen. Die ersten zwei Fehler traten beim Multifactor-Authentification Frontend-Server auf.

Ein Update geht in die Hose

Die ersten beiden Hauptursachen wurden als Probleme auf dem MFA-Frontend-Server identifiziert, die beide einem Roll-out eines (Code-) Updates unterzogen wurden. Das Rollout begann in einigen Rechenzentren (DCs) am Dienstag, den 13. November 2018 und das Ganze wurde in allen Domain-Controllern (DCs) am Freitag, den 16. November 2018, abgeschlossen.

Die Probleme traten aber erst später auf, sobald eine bestimmte Verkehrsschwelle überschritten wurde. Diese Schwelle wurde erstmals Anfang Montag (UTC) in den DCs von Azure West Europe (EU) erreicht. Der morgendlichen Spitzenverkehr in den Domain Controllern der westlichen EU waren die ersten, die die Schwelle überschritten haben. Der Fehler wurde damit getriggert.

Dritter Bug bei Ursachenanalyse gefunden


Werbung

Die dritte Ursache für den Ausfall hatte nichts mit dem Rollout des Updates zu tun, wurde aber im Rahmen der Untersuchung dieses Ereignisses gefunden. Der Fehler führte dazu, dass keine Ressourcen im Back-End mehr bereitstanden, um Anfragen zu beantworten. Hier die Beschreibung der Ursachen durch Microsoft:

1. The first root cause manifested as latency issue in the MFA frontend’s communication to its cache services. This issue began under high load once a certain traffic threshold was reached. Once the MFA services experienced this first issue, they became more likely to trigger second root cause.

2. The second root cause is a race condition in processing responses from the MFA backend server that led to recycles of the MFA frontend server processes which can trigger additional latency and the third root cause (below) on the MFA backend.

3. The third identified root cause, was previously undetected issue in the backend MFA server that was triggered by the second root cause. This issue causes accumulation of processes on the MFA backend leading to resource exhaustion on the backend at which point it was unable to process any further requests from the MFA frontend while otherwise appearing healthy in our monitoring.

Interessierte Blog-Leser/innen seien an dieser Stelle auf den Microsoft Statusbericht verwiesen, wo noch weitere Details beschrieben werden. Letztendlich führte das dazu, dass die Benutzer sich nicht mehr per Zweifaktor-Authentifizierung anmelden konnten. Gleichzeitig wurde den Administratoren dieser Azure-Server angezeigt, dass alles in Ordnung gewesen sei. Die Serie von Fehlern wirkte sich zuerst in Europa und Asien (EMEA) und dann bei APAC-Kunden (Asien, Pazifik) aus. Im Laufe des Tages traf es dann auch die US-Abonnenten. Microsoft konnte das Problem schließlich lösen, indem die Mannschaft die Server nach der Anwendung eines Fixes aus- und wieder einschaltete (die alte, bewährte Methode halt).

Microsoft versichert, dass man natürlich alles tue, damit so etwas nicht mehr vorkomme. Microsoft will dazu prüfen, wie man mit Updates und Tests umgeht, sowie ihre internen Überwachungsdienste überprüfen. Und fairerweise muss man zugestehen, dass das Zeugs reichlich komplex ist. Aber ich gestehe, mir zuckte so ganz kurz ‘fresst eure eigene Suppe, damit ihr wisst, wie es manchen Administratoren nach einer Update-Installation geht’ durch den Kopf. (via)


Anzeige
Dieser Beitrag wurde unter Azure abgelegt und mit verschlagwortet. Setze ein Lesezeichen auf den Permalink.

2 Responses to Analyse des Azure/Office365.com-Problems letzte Woche

  1. wufuc_MaD sagt:

    das könnte mich einen ganzen tag arbeit gekostet haben, umsonst.. so wie winblows..

    wahrscheinlich nicht der letzte. mir fällt soviel dazu ein.. aber, das ist immer noch der anfang! die echten klöße kommen erst noch!..

  2. Uwe sagt:

    Nun wer Cloud-Dienste nutzt, weiß nicht was er tut oder ist bereit höchste Risiken einzugehen. Und zwar in Sachen Verfügbarkeit und Datenschutz! Uwe

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.