Microsoft Cloud: Ist Azure Active Directory ein Single Point of Failure?

Die häufigen Ausfälle von Microsoft-Diensten in der Cloud bieten Anlass zu Fragen. Speziell der Umstand, dass viele Dienste der Microsoft Cloud von einem funktionierenden Azure Active Directory abhängen, könnte sich für Microsoft als Single Point of Failure erweisen.


Anzeige

In den letzten Monaten wurden Nutzer von Microsofts Online-Diensten ja häufiger mit Ausfällen konfrontiert. Office3 365, Microsoft 365 etc. waren immer mal wieder für Stunden gestört. Der letzte Vorfall ereignete sich am 28./29. September 2020 und konnte nach wenigen Stunden behoben werden (siehe den Blog-Beitrag Störung bei Microsoft 365 (28./29.9.2020) zu diesem Vorfall).

Title: We're investigating a potential issue affecting Outlook.com

User Impact: Affected users may be unable to access Outlook.com services or features.

Current status: We're investigating a potential issue affecting access to Outlook.com. We'll provide an update as soon as possible.

In vielen Fällen hieß es, dass die Anmeldung an Microsoft Azure-Konten nicht möglich sei. Im oben skizzierten Fall war das Problem, welches die OneDrive- und SharePoint-Dienste betraf, zwar schnell behoben. Aber die Benutzer konnten zahlreiche Dienste wie Azure AD, Outlook, Office.com, Teams, Authenticator etc. nicht nutzen. The Register hat das hier aufbereitet. Der Ausfall ging auf eine fehlerhafte Behebung des früheren Azure Active Directory-Ausfalls zurück.

Wenn eine zentrale Cloud-Komponente ausfällt

Kurze Ausfälle sind auch in der Cloud möglich. Doof ist es aber, wenn eine zentrale Komponente plötzlich gestört ist und alle Dienste-Nutzer ausgesperrt sind. Daher ist es eine interessante Frage, die The Register in diesem Artikel aufwirft. Es wird gefragt: Hat Redmond ein Zuverlässigkeitsproblem? Da so viele Cloud-Dienste davon abhängen, ist Azure Active Directory zu einem Single Point of Failure für Microsoft geworden.

Denn der Ausfall bezog sich auf den Kerndienst Azure Active Directory. Dieser steuert die Anmeldung bei allen Diensten, von Outlook-E-Mails über Teams bis hin zum Azure-Portal, das für die Verwaltung anderer Cloud-Dienste verwendet wird. Die fünfstündige Störung machte sich auch Bei Produktivitäts- und Entwicklertools bemerkbar. So stoppte der Ausfall des Kerndiensts Azure Active Directory einige Installationen von Microsoft Office und Visual Studio auf dem Desktop. Die Nutzer erhielten die Fehlermeldung, dass ihre Lizenzierung nicht überprüft werden könnte, und die Installation ließ sich nicht fertig stellen.


Anzeige

Es gibt Meldungen, dass der US-Notfalldienst 911 durch diesen Ausfall betroffen war, was The Register nicht für unplausibel hält. Grund ist, dass das RapidDeploy Nimbus Dispatch-System sich selbst als "eine auf Microsoft Azure basierende Computer Aided Dispatch-Plattform" beschreibt. Wenn das Problem in der Authentisierung liegt, können selbst robuste Dienste mit Failover in andere Azure-Regionen unzugänglich und damit nutzlos werden.

Auch nach der Behebung der Hauptstörung (eine Änderung wurde zurückgerollt) war der Ausfalls noch nicht ganz vorbei. Microsoft berichtete über das Admin Center, dass "einige Benutzer zwischen 7:20 und 11:52 Uhr britischer Zeit nicht auf SharePoint Online oder OneDrive for Business zugreifen konnten. Das Problem bestand laut Microsoft darin, dass "eine Änderung, die eingeführt wurde, um die Auswirkungen während des kürzlichen AAD-Ausfalls zu mildern, dieses Problem verursacht hat". Microsoft schreibt dazu: "Wir überarbeiten unsere Bereitstellungs- und Bereitstellungsverfahren, um ähnliche Probleme in Zukunft zu vermeiden".

Wie steht es mit der Cloud-Zuverlässigkeit?

Ausfälle mögen unvermeidlich sein, aber dennoch muss Microsoft einige Fragen beantworten. Die Messung der Cloud-Zuverlässigkeit ist nicht trivial, da es nicht auf die Anzahl der Ausfälle ankommt, sondern auf deren Ausmaß und Auswirkungen. Aus diesem Blickwinkel scheint Microsoft mit seinem Kerndienst Azure Active Directory, von dem alle Dienste abhängen, ein Problem zu haben. Steht der Kerndienst Azure Active Directory, sind auch alle anderen Dienste von Microsoft nicht erreichbar.

Gartner bemerkte kürzlich, dass das Unternehmen "weiterhin Bedenken bezüglich der Gesamtarchitektur und der Implementierung von Azure hat, trotz der auf Ausfallsicherheit ausgerichteten Bemühungen und der verbesserten Serviceverfügbarkeitsmetriken im vergangenen Jahr". Die Vorbehalte des Analysten beruhten zum Teil auf dem niedrigen Verhältnis von Verfügbarkeitszonen zu Regionen und darauf, dass "eine begrenzte Anzahl von Diensten das Modell der Verfügbarkeitszonen unterstützt". Die Bedenken von Gartner sind laut The Register berechtigt.

Bill Witten, Identitätsarchitekt bei Okta, kommentierte: "Versteht also jeder, warum das Mono-Verzeichnis keine gute Idee ist?" Microsoft hat so viel auf Azure Active Directory (AAD ) aufgebaut, dass es ein Single Point of Failure ist. Das Unternehmen muss AAD entweder so widerstandsfähig machen, dass ein Ausfall nahezu unmöglich ist (was wahrscheinlich seine Absicht ist). Oder es muss in Betracht ziehen, die Abhängigkeit so vieler Dienste schrittweise zu verringern. Beides ist nicht sofort umsetzbar. Da dieser Ausfall nach der Ignite 2020 passierte, spotten einige Nutzer auf Twitter bereits darüber, dass das eigentlich jedes Jahr nach Abschluss der Ignite das Gleiche sei.

Ergänzung (1.10.2020, 8:10 Uhr): Microsoft hat folgendermaßen auf Twitter gemeldet:

We've received reports of users experiencing issues accessing their Exchange Online accounts via Outlook on the Web. Our initial investigation indicates that India-based users are the primarily impacted audience. Further details can be found in your admin center under EX223208.

Betrifft zwar laut Microsoft nur den indischen Subkontinent – aber es gibt Antworten, dass selbst die Outlook-Desktop-Anwendung Probleme zeigt. Wenn das mal kein Proof ist ;-)


Anzeige

Dieser Beitrag wurde unter Cloud abgelegt und mit , verschlagwortet. Setze ein Lesezeichen auf den Permalink.

5 Antworten zu Microsoft Cloud: Ist Azure Active Directory ein Single Point of Failure?

  1. Max sagt:

    In einer üblichen Risikoanalyse würde man erkennen, dass die Zuverlässigkeit einer zentralen Infrastruktur extrem wichtig ist. Der Ausfall der zentralen Infrastruktur ist nicht nur ein herber Imageschaden, sondern auch ein gewisser Vertrauensverlust. Da kann man Parallelen zur Telematikinfrastruktur (TI) im Gesundheitswesen ziehen. Der Betreiber hat etwas falsch konfiguriert und plötzlich ging nichts mehr. Die Auswirkungen waren fatal und mit monatelanger Nacharbeit behaftet.

    Mein Eindruck ist, dass Microsoft den Blick auf die Zuverlässigkeit verloren hat. Das betrifft nicht allein die AAD, sondern beispielsweise auch Windows.

    • Onkel Hotte sagt:

      Ich denke die große Steigerung der Nutzerzahlen der vergangenen Monate dürfte mit beigetragen haben. Microsoft kommt da nicht mehr so ganz hinterher.

  2. Phadda sagt:

    Ich würde da jetzt nicht Customer AAD vs Company AAD gleich ziehen. Während eine Company selbst AAD SaaS im Azure nutzt, ist das eine andere Komponente wie ein Public AAD wie in diesem Falle. Ich kann nur berichten, das die ganzen AAD Ausfälle etc nicht in unserer Azure Region betroffen waren. Die ganzen Meldungen von Ausfällen müssen immer sondiert betrachtet werden. Ist meine Region dabei? Ist mein dediziertes RZ dabei etc und wie nutzt man AAD? Als Onlie Replikat vom lokalen AD? Dann ist es nur eine zusätzliche "Authority", also spielt auch die Architektur eine Rolle.

  3. 1ST1 sagt:

    Ja, Micrsoft muss mehr Energie in die Zuverlässig dieser Dienste stecken, das stimmt. Aber ich denke, sie lernen und werden das verbessern. Die Azure-Cloud ist inzwischen deren wichtigste Geschäftsgrundlage, ja selbst für die XBox ist die wichtig. Amazon AWS hatte anfangs auch viele Ausfälle, und das war auch schon ziemlich lästig. Aber mittlerweile hört man davon garnix mehr. Das schlimme bei den Microsoft-Azure basierten Diensten ist, es bleiben die Auswirkungen nicht "in der Cloud", sondern wenn man Pech hat, wirkt sich das bis auf den Desktop-PC aus, oder sogar auf die Spielekonsole im Kinderzimmer. Die meisten Benutzer dürften davon nichts bemerkt haben, z.B. die Office-Lizenz wird ja nicht ständig geprüft, andere waren aber wohl schlimm betroffen. Es gibt viele Schulen, die Office-365-Online im Unterricht nutzen, auch um sich auf einen erneuten Lockdown vorzubereiten, also selbst an Schulen kann das Auswirkungen haben. Microsoft sollte sich dieser Verantwortung sehr sehr sehr bewusst sein.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Hinweis: Bitte beachtet die Regeln zum Kommentieren im Blog (Erstkommentare und Verlinktes landet in der Moderation, gebe ich alle paar Stunden frei, SEO-Posts/SPAM lösche ich rigoros). Kommentare abseits des Themas bitte unter Diskussion.

Du findest den Blog gut, hast aber Werbung geblockt? Du kannst diesen Blog auch durch eine Spende unterstützen.