{"id":218972,"date":"2019-06-09T06:11:11","date_gmt":"2019-06-09T04:11:11","guid":{"rendered":"https:\/\/www.borncity.com\/blog\/?p=218972"},"modified":"2019-06-09T06:13:24","modified_gmt":"2019-06-09T04:13:24","slug":"google-legt-die-ursache-fr-den-cloud-ausfall-am-2-juni-2019-offen","status":"publish","type":"post","link":"https:\/\/borncity.com\/blog\/2019\/06\/09\/google-legt-die-ursache-fr-den-cloud-ausfall-am-2-juni-2019-offen\/","title":{"rendered":"Google legt die Ursache f&uuml;r den Cloud-Ausfall am 2. Juni 2019 offen"},"content":{"rendered":"<p><img loading=\"lazy\" decoding=\"async\" style=\"float: left; margin: 0px 10px 0px 0px; display: inline\" src=\"https:\/\/borncity.com\/blog\/wp-content\/uploads\/2014\/02\/OneDrive.jpg\" width=\"58\" align=\"left\" height=\"56\"\/>Google hat jetzt die Ergebnisse seiner Analysen ver\u00f6ffentlicht, warum es zu einem Cloud-Ausfall kam. Hier einige Informationen, um was es geht und warum es zu dem Ausfall kam. <\/p>\n<p><!--more--><\/p>\n<h2>Worum geht es genau?<\/h2>\n<p><img loading=\"lazy\" decoding=\"async\" alt=\"\" src=\"https:\/\/vg01.met.vgwort.de\/na\/2b3bc96ca5a24c30ac3ecb273cc874af\" width=\"1\" height=\"1\"\/>Anfang Juni 2019 kam es zu einem vierst\u00fcndigen Ausfall einiger Cloud-Dienste von Google. Gl\u00fccklicherweise fand der Ausfall en einem Sonntag statt, so dass kaum Firmennutzer auf Leistungen wie die G Suite zugriffen. Trotzdem hatte der Ausfall einige gravierende Konsequenzen. <\/p>\n<p><img decoding=\"async\" title=\"Google Cloud down\" alt=\"Google Cloud down\" src=\"https:\/\/i.imgur.com\/ZVlzhCA.jpg\"\/><br \/>(Google Cloud down \u2013 downdetector.com)  <\/p>\n<p>Die Ausf\u00e4lle von YouTube oder Snapchat sowie der G Suite waren Google-Leistungen, die die Benutzer wegen fehlender Anmeldung oder Bandbreite nicht mehr nutzen konnten. Der Ausfall hatte weltweit f\u00fcr betroffene Benutzer wohl breitere Auswirkungen als nur ein gest\u00f6rtes Gmail oder YouTube. Der folgende Tweet verdeutlicht, dass das who is who der US-Digital-Branche betroffen war.<\/p>\n<blockquote>\n<p>Affected companies include some of the biggest names around, such as Snapchat, Vimeo, Shopify, Discord, Pokemon GO; but also most of Google's own services, like YouTube, Gmail, Google Search, G Suite, Hangouts, Google Drive, Google Docs, Google Nest, and others. <a href=\"https:\/\/t.co\/T1PTvQ4jGI\">pic.twitter.com\/T1PTvQ4jGI<\/a>  <\/p>\n<p>\u2014 Catalin Cimpanu (@campuscodi) <a href=\"https:\/\/twitter.com\/campuscodi\/status\/1135293419989995522?ref_src=twsrc%5Etfw\">2. Juni 2019<\/a><\/p>\n<\/blockquote>\n<p>Stichwort Nest: Deren Thermostate steuern Heizungen und Klimaanlagen in US-Haushalten. Das Zeugs lie\u00df sich nicht bedienen, weil die App ausgefallen war. Elektronische Schl\u00f6sser versperrten Hausbesitzern den Zugang, Online-Games waren nicht spielbar und der Taxi-Vermittlungsdienst UBER war wohl mangels App auch nicht vermittlungsf\u00e4hig. Ich hatte \u00fcber den Ausfall hier im Blog im Beitrag <a href=\"https:\/\/borncity.com\/blog\/2019\/06\/03\/google-cloud-dienste-waren-down\/\">Google Cloud-Dienste waren down<\/a> sowie bei heise im Artikel <a href=\"https:\/\/www.heise.de\/newsticker\/meldung\/Googles-Cloud-Dienste-am-Sonntag-ausgefallen-4437599.html\" target=\"_blank\" rel=\"noopener noreferrer\">Googles Cloud-Dienste am Sonntag ausgefallen<\/a> berichtet.  <\/p>\n<h2>Google legt die Gr\u00fcnde f\u00fcr den Ausfall offen<\/h2>\n<\/p>\n<p>Ich hatte die Information bereits kurz <a href=\"https:\/\/www.golem.de\/news\/cloud-ausfall-automatisierte-pflege-hat-google-server-offline-genommen-1906-141757.html\" target=\"_blank\" rel=\"noopener noreferrer\">bei Golem<\/a> gesehen \u2013 bin aber auch \u00fcber einen Tweet auf eine weitere Darstellung bei Wired auf die Post Mortem-Analyse von Google aufmerksam geworden.<\/p>\n<blockquote class=\"twitter-tweet\" data-lang=\"de\">\n<p lang=\"en\" dir=\"ltr\">The author of this did a great job of translating the post Mortem in a way people would understand what happened with the cascading failures <a href=\"https:\/\/t.co\/H2T5fBG9TR\">https:\/\/t.co\/H2T5fBG9TR<\/a><\/p>\n<p>\u2014 jessie frazelle \u200d (@jessfraz) <a href=\"https:\/\/twitter.com\/jessfraz\/status\/1137423717045342208?ref_src=twsrc%5Etfw\">8. Juni 2019<\/a><\/p><\/blockquote>\n<p><script async src=\"https:\/\/platform.twitter.com\/widgets.js\" charset=\"utf-8\"><\/script> <\/p>\n<p>Die Statusinformationen von Google sind im Original <a href=\"https:\/\/status.cloud.google.com\/incident\/cloud-networking\/19009\" target=\"_blank\" rel=\"noopener noreferrer\">hier einsehbar<\/a>. Die Probleme wurden durch eine Fehlkonfiguration im Netzwerk hervorgerufen. Mit beteiligt war die automatisierte Pflege des Netzwerks. <\/p>\n<h3>Hintergrundinformationen zur Cloud-Struktur<\/h3>\n<p>Innerhalb eines einzelnen physischen Rechenzentrums sind die Maschinen von Google in mehrere logische Cluster unterteilt, die \u00fcber eine eigene, dedizierte Cluster-Management-Software verf\u00fcgen, die die Ausfallsicherheit jedes einzelnen Cluster-Managers gew\u00e4hrleistet. Die Netzwerkkontrollebene von Google l\u00e4uft unter der Kontrolle verschiedener Instanzen derselben Cluster-Management-Software; an jedem einzelnen Standort werden wiederum mehrere Instanzen dieser Cluster-Management-Software verwendet, so dass der Ausfall einer einzelnen Instanz keinen Einfluss auf die Netzwerkkapazit\u00e4t hat.<\/p>\n<p>Die Cluster-Management-Software von Google spielt eine wichtige Rolle bei der Automatisierung von Wartungsereignissen im Rechenzentrum, wie \u00c4nderungen an der Strominfrastruktur oder der Erweiterung des Netzwerks. Die Gr\u00f6\u00dfe von Google bedeutet, dass Wartungsereignisse weltweit verbreitet sind, wenn auch selten an einem einzigen Ort. Auftr\u00e4ge, die von der Clustermanagementsoftware ausgef\u00fchrt werden, sind mit einem Hinweis darauf gekennzeichnet, wie sie sich bei einem solchen Ereignis verhalten sollen: Typischerweise werden Auftr\u00e4ge entweder auf eine Maschine verschoben, die sich nicht in der Wartung befindet, oder sie werden nach dem Ereignis gestoppt und neu eingeplant.<\/p>\n<h3>Es ist schief gegangen, was schief gehen konnte<\/h3>\n<p>Am Anfang des Problems waren zwei normalerweise fehlerhafte Konfigurationen. Und dann kam noch ein spezifischer Softwarefehler hinzu, der dann zum Ausfall der Cloud gef\u00fchrt hat:<\/p>\n<ul>\n<li>Erstens wurden die Auftr\u00e4ge f\u00fcr die Netzwerkkontrollebene und ihre unterst\u00fctzende Infrastruktur in den betroffenen Regionen so konfiguriert, dass sie bei einem Wartungsereignis gestoppt werden.  <\/li>\n<li>Zweitens wurden die mehreren Instanzen von Cluster-Management-Software, die auf der Netzwerkkontrollebene laufen, als f\u00fcr die Aufnahme in einen bestimmten, relativ seltenen Wartungsereignistyp geeignet markiert.  <\/li>\n<li>Drittens hatte die Software, die Wartungsereignisse ausl\u00f6st, einen spezifischen Fehler. Die Software kann ein Wartungsereignis f\u00fcr mehrere unabh\u00e4ngige Software-Cluster einplanen und selbst entscheiden, selbst wenn sich diese an verschiedenen physischen Standorten befinden.<\/li>\n<\/ul>\n<p>Idee war, eine Wartung an einigen wenigen Servern vorzunehmen. Auf Grund des Bugs in der Automatisierungssoftware wurden mehrere der unabh\u00e4ngigen Cluster gleichzeitig angewiesen, ihre Dienste zu stoppen. Es betraf dabei auch Cluster an verschiedenen Standorten. Am Ende waren alle Server von der automatisierten Netzwerkverwaltung \u00fcber die Wartungsroutine in den betreffenden Bereichen offline. <\/p>\n<p>Google hat zwar sein Netzwerk so geplant, dass es sogar solche Ausf\u00e4lle \u00fcberstehen kann. Klappte auch f\u00fcr einige Minuten, bis das BGP-Routing zwischen den Standorten zur\u00fcckgezogen wurden. Damit brach die Netzkapazit\u00e4t pl\u00f6tzlich massiv ein \u2013 es kam zu den beobachteten Cloud-Ausf\u00e4llen. <\/p>\n<h3>Techniker m\u00fcssen vor Ort ran<\/h3>\n<p>Die Google-Techniker haben das zwar sofort bemerkt. Aber die \u00dcberlastung des Netzwerks verhinderte, dass die Korrektur der St\u00f6rung z\u00fcgig erfolgen konnte. Automatisierte Werkzeuge zur Fehlerbehebung \u00fcber das Netzwerk waren nicht mehr einsetzbar, die Techniker musste raus und die Korrekturen in den einzelnen Rechenzentren durchf\u00fchren. Das kostete halt Zeit, was den Ausfall \u00fcber vier Stunden erkl\u00e4rt. McMurphy hat wieder zugeschlagen: Was schief gehen kann, geht schief. <\/p>\n","protected":false},"excerpt":{"rendered":"<p>Google hat jetzt die Ergebnisse seiner Analysen ver\u00f6ffentlicht, warum es zu einem Cloud-Ausfall kam. Hier einige Informationen, um was es geht und warum es zu dem Ausfall kam.<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[7263],"tags":[1171,405],"class_list":["post-218972","post","type-post","status-publish","format-standard","hentry","category-cloud","tag-cloud","tag-google"],"_links":{"self":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/posts\/218972","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/comments?post=218972"}],"version-history":[{"count":0,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/posts\/218972\/revisions"}],"wp:attachment":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/media?parent=218972"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/categories?post=218972"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/tags?post=218972"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}