{"id":224231,"date":"2019-10-25T08:28:29","date_gmt":"2019-10-25T06:28:29","guid":{"rendered":"https:\/\/www.borncity.com\/blog\/?p=224231"},"modified":"2019-10-25T10:25:55","modified_gmt":"2019-10-25T08:25:55","slug":"microsofts-cloud-ausfall-im-oktober-2019-hintergrnde-und-verlauf","status":"publish","type":"post","link":"https:\/\/borncity.com\/blog\/2019\/10\/25\/microsofts-cloud-ausfall-im-oktober-2019-hintergrnde-und-verlauf\/","title":{"rendered":"Microsofts Cloud-Ausfall (Okt. 2019) &ndash; Hintergr&uuml;nde und Verlauf"},"content":{"rendered":"<p><img loading=\"lazy\" decoding=\"async\" style=\"float: left; margin: 0px 10px 0px 0px; display: inline\" src=\"https:\/\/borncity.com\/blog\/wp-content\/uploads\/2014\/02\/OneDrive.jpg\" width=\"58\" align=\"left\" height=\"56\"\/>Was waren die Ursachen f\u00fcr den Ausfall der Microsoft Cloud ab dem 18. bis zum 22. Oktober 2019, die vor allem Nordamerika, aber auch Teile Europas betraf? Inzwischen l\u00e4uft es wieder und Microsoft legt partiell die Gr\u00fcnde f\u00fcr die St\u00f6rungen offen. Dabei gab es f\u00fcr mich '\u00fcberraschende' Einblicke, wie Microsoft St\u00f6rungen beseitigt, die inzwischen wieder aus den offiziellen Analen getilgt wurden.<\/p>\n<p><!--more--><\/p>\n<h2>R\u00fcckblick: Cloud-Ausfall ab 18. Oktober 2019<\/h2>\n<p><img loading=\"lazy\" decoding=\"async\" alt=\"\" src=\"https:\/\/vg07.met.vgwort.de\/na\/d2a149dc727f4b2da855077f475ec182\" width=\"1\" height=\"1\"\/>Ab dem 18. Oktober 2019 kam es bei Azure, Microsoft 365 und Office 365 zu Problemen, die bis zum 22. Oktober 2019 anhielten. Nutzer konnten sich nicht mehr anmelden und die Dienste nutzen, weil die Multifaktor-Authentifizierung (MFA) streikte.<\/p>\n<p><img decoding=\"async\" title=\"Office365-Status\" alt=\"Office365-Status\" src=\"https:\/\/i.imgur.com\/bUfIWPQ.jpg\"\/>  <\/p>\n<p>Ich hatte bereits am 18. Oktober 2019 \u00fcber diese St\u00f6rung berichtet (siehe <a href=\"https:\/\/borncity.com\/blog\/2019\/10\/18\/multifaktor-authentifizierung-fr-azure-u-office-365-gestrt\/\">Multifaktor-Authentifizierung f\u00fcr Azure u. Office 365 gest\u00f6rt?<\/a>). Dem Artikel nach betraf es vor allem Kunden in Nordamerika. Erstaunlich war aber der lange Zeitraum der St\u00f6rungen, die \u00fcber das Wochenende anhielten.<\/p>\n<h2>Erkl\u00e4rungsversuche Microsofts<\/h2>\n<p>Ich hatte das Thema bereits aus den Augen verloren, als ich die Nacht auf den nachfolgenden Tweet von Tero Alhonen stie\u00df. <\/p>\n<blockquote class=\"twitter-tweet\">\n<p lang=\"en\" dir=\"ltr\">couldn't resist myself <a href=\"https:\/\/t.co\/8W8jgAj2iM\">pic.twitter.com\/8W8jgAj2iM<\/a><\/p>\n<p>\u2014 Tero Alhonen (@teroalhonen) <a href=\"https:\/\/twitter.com\/teroalhonen\/status\/1187453068671180806?ref_src=twsrc%5Etfw\" target=\"_blank\" rel=\"noopener noreferrer\">October 24, 2019<\/a><\/p><\/blockquote>\n<p><script async src=\"https:\/\/platform.twitter.com\/widgets.js\" charset=\"utf-8\"><\/script> <\/p>\n<p>Er hatte sich die <a href=\"https:\/\/status.azure.com\/de-de\/status\/history\/\">Statusseite mit dem St\u00f6rungsverlauf<\/a> anzeigen lassen. Und jetzt wird es interessant. Die Nacht stand dort f\u00fcr den 18. Oktober 2019 der in obigem Screenshot gezeigte Text:<\/p>\n<blockquote>\n<p><strong>Root cause<\/strong>: At 13:30 UTC, severe packet loss was experienced on an external network route between <font style=\"background-color: #ffff00\">Microsoft and the Apple Push Notification Service (APNS)<\/font>. The packet loss was greater in severity and duration than previously encountered. It also coincided with morning peak traffic in North America. This combination of events caused a build-up of unprocessed requests in the MFA service, leading to service degradation and failures in MFA requests.  <\/p>\n<p><strong>Mitigation<\/strong>: Service monitors detected the build-up of unprocessed requests in the MFA service at 13:38 UTC and engineers were fully engaged by 13:48 UTC. Engineering confirmed the issue was a loss of network connectivity and began troubleshooting within the Microsoft datacenter networks. Engineering determined that the datacenter networks did not experience loss of connectivity and pinpointed the issue as external to the Microsoft datacenter networks. While further troubleshooting was underway to identify the most impacted network routes, engineering prepared a hotfix to bypass the impacted external service altogether, and to restore MFA functionality. The hotfix was rolled out to one region to validate the effectiveness of the fix. In the meantime <font style=\"background-color: #ffff00\">Saty called Tim, the external network recoverd, and packet loss was reduced to normal reates.<\/font> Engineering paused further rollout of the hotfix \u2026<\/p>\n<\/blockquote>\n<p>Einer der Gr\u00fcnde f\u00fcr die St\u00f6rung bei der Multifaktor-Anmeldung (MFA) war, dass in einer externen Netzwerk-Routing-Verbindung zwischen Microsoft und dem <font style=\"background-color: #ffffff\">Apple Push Notification Service (APNS) Pakete verloren gingen.<\/font> Die Techniker begannen mit der St\u00f6rungssuche und \u2013behebung und rollten einen Hotfix zur Umgehung dieser fehlerhaften Netzwerkroute aus. <\/p>\n<p>W\u00e4hrend die Techniker noch darauf warteten, ob der Hotfix das Problem beseitigen w\u00fcrde, hat das 'rote Telefon' geklingelt. Herr Satya (Nadella) von Microsoft hat so mir nichts, dir nichts, den Tim (Cook) bei Apple angerufen. Der Tim ist dann w\u00e4hrend des Gespr\u00e4chs bei Apple in den Server-Raum gegangen und hat den Rat von Satya 'have you switched it of and on again' bei einem Router probiert. Und pl\u00f6tzlich war die St\u00f6rung weg \u2013 so stelle ich mir als klein Lieschen die in obigem Text gelb hinterlegte Passage einfach mal vor. M\u00fc\u00dfig zu erw\u00e4hnen, dass der Text inzwischen verschwunden ist (als ich die Nacht nachgeschaut habe, stand der noch so in der Statusseite \u2013 dann hat wohl ein Scherzkeks etwas auf die M\u00fctze bekommen und musste den Text \u00e4ndern). Jetzt hei\u00dft es:<\/p>\n<blockquote>\n<p><strong>Mitigation<\/strong>: Service monitors detected the build-up of unprocessed requests in the MFA service at 13:38 UTC and engineers were fully engaged by 13:48 UTC. Engineering confirmed the issue was a loss of network connectivity and began troubleshooting within the Microsoft datacenter networks. Engineering determined that the datacenter networks did not experience loss of connectivity and pinpointed the issue as external to the Microsoft datacenter networks. While further troubleshooting was underway to identify the most impacted network routes, engineering prepared a hotfix to bypass the impacted external service altogether, and to restore MFA functionality. The hotfix was rolled out to one region to validate the effectiveness of the fix. <font style=\"background-color: #ffff00\">In the meantime, the external network recovered, and packet loss was reduced to normal rates.<\/font> Engineering paused further rollout of the hotfix. The network issue was confirmed to be mitigated at 15:57 UTC, and the MFA service functionality recovered. The hotfix, which was then redundant, was rolled back.<\/p>\n<\/blockquote>\n<p>Also weder Satya noch Tim waren beteiligt oder hatten schuld. Aber die MFA funktionierte pl\u00f6tzlich wieder. Interessant sind allerdings die Statuseintr\u00e4ge vom 21. und 22. Oktober 2019 f\u00fcr Europa. <\/p>\n<blockquote>\n<p><strong>RCA &#8211; Storage &#8211; West Europe<\/strong><\/p>\n<p><strong>Summary<\/strong><br \/>Between 23:20 UTC on 21 Oct 2019 and 04:32 UTC on 22 Oct 2019, a subset of customers using Storage in West Europe may have experienced service availability issues. In addition, resources with dependencies on the impacted storage unit may have experienced downstream impact in the form of availability issues or high latency.<\/p>\n<p><strong>Root Cause and Mitigation<\/strong><br \/><strong>Root Cause:<\/strong> The Azure Storage service uses an automatic load balancing system to partition and balance customer workloads across different servers within a storage scale unit. A partition master role maintains the map of how the partitions are distributed across the different partition servers. A routine maintenance operation on one of the partitions caused an inconsistency in the partition map due to a bug. This caused the servers handling the inconsistent state to crash and resulted in a single storage scale unit in West Europe becoming unhealthy. Downstream availability impact was then seen to several dependent services in the region.<br \/><strong>Mitigation:<\/strong> Engineers developed a tool to correct the inconsistency in the partition map on the impacted scale unit. The time taken to develop and test this tool resulted in a higher than expected recovery time. Engineers also blocked the backend operation that triggered the inconsistent state until the underlying bug is fixed. Once service health was restored to the backend Storage scale unit, all dependent services automatically recovered.<\/p>\n<\/blockquote>\n<p>Einige Benutzer, die in West Europa Speicher in der Microsoft Cloud auf Azure gebucht hatten, stellten pl\u00f6tzlich fest, dass der nicht mehr verf\u00fcgbar war. Schuld war das automatische Load-Balancing im Azure Storage Service, welches wohl die Partitionsaufteilung \u00fcber die verschiedenen Speicher-Server verteilte. Auf Grund eines Bugs gab es Inkonsistenzen in den Partitionstabellen und damit Abst\u00fcrze der Server. Eine Speichereinheit in Europa war dadurch gest\u00f6rt. Am 22. Oktober gab es dann noch diverse Anmeldeprobleme in West Europa, die aber nicht der Rede wert waren. Genau so wenig wie die sp\u00e4ter am Tag festgestellten Probleme beim Dienstzugriff. Die Details k\u00f6nnt ihr <a href=\"https:\/\/status.azure.com\/en-us\/status\/history\/\" target=\"_blank\" rel=\"noopener noreferrer\">hier nachlesen<\/a>.  <\/p>\n<p>Es ist doch immer wieder sch\u00f6n zu lesen, wie man die Cloud im Griff hat. Und wenn alle Stricke rei\u00dfen, ruft der Satya den Tim an \u2013 oder umgekehrt \u2013 und der Angerufene geht in den Keller, um den Router aus- und wieder einzuschalten. Das haben die Cloud-Spezialisten sich bestimmt bei deutschen Internet-Providern abgeguckt, die das Prozedere allen Kunden bei St\u00f6rungsbehebungen empfehlen, selbst wenn der Bagger das Kabel vorm Haus durchtrennt hat. Und ja, wenn es einen <a href=\"https:\/\/borncity.com\/blog\/2019\/10\/24\/cyber-angriff-ddos-auf-amazon-aws\/\">Cyber-Angriff (DDoS) auf Amazon AWS<\/a> gibt, stellt sich Jeff Bezos mit einem Stopp-Schild vor den Eingang des Server-Raums. Das klappt dann schon. Wenn ich aber lese, dass ein <a href=\"https:\/\/www.heise.de\/newsticker\/meldung\/Vodafone-Routerdefekt-legte-Telefonie-an-80-000-Anschluessen-lahm-4566977.html\" target=\"_blank\" rel=\"noopener noreferrer\">Routerausfall bei Vodafon<\/a> in Deutschland 80.000 Telefonanschl\u00fcsse lahm gelegt hat, d\u00fcrften die St\u00f6rungen bei Cloud-Diensten mit steigender Verbreitung zunehmen. Und wenn gen\u00fcgend IoT-Ger\u00e4te zu einem Botnet zusammen gekommen sind, k\u00f6nnten DDoS-Angriffe auch gr\u00f6\u00dfere Cloud-Anbieter erden.&nbsp; <\/p>\n<p><strong>\u00c4hnliche Artikel:<br \/><\/strong><a href=\"https:\/\/borncity.com\/blog\/2019\/10\/24\/cyber-angriff-ddos-auf-amazon-aws\/\">Cyber-Angriff (DDoS) auf Amazon AWS<\/a><br \/><a href=\"https:\/\/borncity.com\/blog\/2019\/10\/18\/multifaktor-authentifizierung-fr-azure-u-office-365-gestrt\/\">Multifaktor-Authentifizierung f\u00fcr Azure u. Office 365 gest\u00f6rt?<\/a><br \/><a href=\"https:\/\/borncity.com\/blog\/2019\/10\/21\/teamviewer-hack-apt41-gruppe-hatte-zugriff-auf-millionen-gerte\/\">TeamViewer-Hack: Hatte APT41-Gruppe Zugriff auf Millionen Ger\u00e4te?<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Was waren die Ursachen f\u00fcr den Ausfall der Microsoft Cloud ab dem 18. bis zum 22. Oktober 2019, die vor allem Nordamerika, aber auch Teile Europas betraf? Inzwischen l\u00e4uft es wieder und Microsoft legt partiell die Gr\u00fcnde f\u00fcr die St\u00f6rungen &hellip; <a href=\"https:\/\/borncity.com\/blog\/2019\/10\/25\/microsofts-cloud-ausfall-im-oktober-2019-hintergrnde-und-verlauf\/\">Weiterlesen <span class=\"meta-nav\">&rarr;<\/span><\/a><\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[7263,270,2334],"tags":[4375,1171,7377],"class_list":["post-224231","post","type-post","status-publish","format-standard","hentry","category-cloud","category-office","category-outlook-com","tag-azure","tag-cloud","tag-microsoft-365"],"_links":{"self":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/posts\/224231","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/comments?post=224231"}],"version-history":[{"count":0,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/posts\/224231\/revisions"}],"wp:attachment":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/media?parent=224231"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/categories?post=224231"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/tags?post=224231"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}