Microsoft Azure Virtual Machines: Ausfall für 6 Stunden (13.10.2021)

[English]Am 13. Oktober 2021 gab es bei Microsoft Azure eine Störung, bei der die Dienste für virtuelle Maschinen für sechs Stunden (05:12 UTC bis 11:45 UTC) ausgefallen waren. Hier einige Informationen dazu.


Anzeige

Die Störung betraf wohl nicht alle Kunden, die Microsoft Azure Virtual Machines gebucht hatten, sondern nur eine Untermenge, wie Microsoft im Statusbereich in der Historie schreibt:

Virtual Machines – Mitigated (Tracking ID 0NC_-L9G)

Summary of impact: Between 05:12 UTC and 11:45 UTC on 13 Oct 2021, a subset of customers using Windows Virtual Machines may have received failure notifications when performing service management operations – such as start, create, update, delete. Deployments of new VMs and any updates to extensions may have failed. Non-Windows Virtual Machines, and existing running Windows Virtual Machines should not have been impacted by this issue. Additionally, services with dependencies on Windows VMs may have also experienced similar failures when creating resources.

Bei betroffenen Kunden gab es Fehlermeldungen bei virtuellen Windows-Maschinen, wenn Dienstverwaltungsvorgänge wie z. B. Starten, Erstellen, Aktualisieren und Löschen versucht wurden. Auch die Bereitstellung neuer VMs und die Aktualisierung von Erweiterungen konnte fehlschlagen.

Interessant ist, dass virtuelle Maschinen, die nicht unter Windows, sondern z.B. unter Linux  laufen, sowie bereits laufende virtuelle Maschinen mit Windows von dieser Störung nicht betroffen waren.

Die Ursache war, dass Aufrufe während der Service-Management-Vorgänge fehlschlugen, weil die erforderlichen Versionsdaten eines Artefakts sich nicht abfragen ließen. Ein erforderlicher VMGuestAgent konnte vom Backend-Compute-Resource-Provider (CRP) nicht aus dem Repository abgefragt werden.

Der tiefere Grund lag darin, dass die Veröffentlichungsarchitektur der VM-Gastagenten-Erweiterung gerade (im Rahmen einer Migration der alten Backend-Systeme für das Service-Management) auf eine neue Plattform migriert wurde. Und diese nutzt die neuesten Azure Resource Manager (ARM)-Funktionen. Gelöst wurde dies, indem die entsprechenden Erweiterungen auf die richtige erwartete Stufe (in diesem Fall öffentlich) gesetzt wurden. (via)


Anzeige


Anzeige

Dieser Beitrag wurde unter Störung, Virtualisierung abgelegt und mit , , verschlagwortet. Setze ein Lesezeichen auf den Permalink.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Hinweis: Bitte beachtet die Regeln zum Kommentieren im Blog (Erstkommentare und Verlinktes landet in der Moderation, gebe ich alle paar Stunden frei, SEO-Posts/SPAM lösche ich rigoros). Kommentare abseits des Themas bitte unter Diskussion.

Du findest den Blog gut, hast aber Werbung geblockt? Du kannst diesen Blog auch durch eine Spende unterstützen.