Europäische Kunden von Microsoft Azure in den Skandinavischen Ländern scheinen gestern Abend, 19. Juni 2018, von einem mehrstündigen Ausfall betroffen worden zu sein. Hier einige Informationen zum Ereignis.
Anzeige
Die Information habe ich bei The Register gefunden. Betroffen waren wohl nur Microsoft Azure-Nutzer in Nordeuropa – daher bin ich mir nicht sicher, ob auch Kunden in Deutschland etwas vom Ausfall bemerkt haben. Auf Twitter gab es die entsprechende Nachricht.
Engineers have mitigated the issue in North Europe and impacted services should be recovered at this time. Any customers still experiencing residual impact will be communicated to directly through the Azure Portal.
— Azure Support (@AzureSupport) 20. Juni 2018
Laut The Register dauerte der Ausfall mindestens drei Stunden (19. Juni 2018 von 17:44 UTC bis mindestens 21:15 Uhr UTC). Die Störung wurde durch Probleme in den Speicher- und Netzwerksystemen der Cloud-Plattform verursacht. Microsoft schreibt laut The Register dazu:
A subset of customers using Virtual Machines, Storage, SQL Database, Key Vault, App Service, Site Recovery, Automation, Service Bus, Event Hubs, Data Factory, Backup, API management, Log Analytics, Application Insight, Azure Batch Azure Search, Redis Cache, Media Services, IoT Hub, Stream Analytics, Power BI, Azure Monitor, Azure Cosmo DB or Logic Apps in North Europe may experience connection failures when trying to access resources hosted in the region.
Auf der Microsoft Azure-Statusseite ist aktuell wieder alles im grünen Bereich – in der Status-History heißt es jetzt zum Ausfall:
Anzeige
Service availability issue in North Europe
Summary of impact: From 17:44 on 19 Jun 2018 to 04:30 UTC on 20 Jun 2018 customers using Azure services in North Europe may have experienced connection failures when attempting to access resources hosted in the region. Customers leveraging a subset of Azure services may have experienced residual impact for a sustained period post-mitigation of the underlying issue. We are communicating with these customers directly in their Management Portal.
Preliminary root cause: Engineers identified that an underlying temperature issue in one of the datacenters in the region triggered an infrastructure alert, which in turn caused a structured shutdown of a subset of Storage and Network devices in this location to ensure hardware and data integrity.
Mitigation: Engineers addressed the temperature issue, and performed a structured recovery of the affected devices and the affected downstream services.
Next Steps: A full root cause analysis will be performed and published to https://azure.microsoft.com/en-us/status/ in approximately 72 hours.
Interessant ist die Historie auf jeden Fall, alle paar Tage gibt es irgend einen Ausfall, der einige Kunden betrifft. Abschließende Frage: War irgend jemand von euch mit einem Ableger in Nord-Europa betroffen?
Anzeige
Preliminary root cause: war ein Abrauchen der Core-Switches.