{"id":258331,"date":"2021-10-06T18:31:04","date_gmt":"2021-10-06T16:31:04","guid":{"rendered":"https:\/\/www.borncity.com\/blog\/?p=258331"},"modified":"2021-10-11T23:00:02","modified_gmt":"2021-10-11T21:00:02","slug":"facebook-legt-ursachen-fr-strung-vom-4-10-2021-offen","status":"publish","type":"post","link":"https:\/\/borncity.com\/blog\/2021\/10\/06\/facebook-legt-ursachen-fr-strung-vom-4-10-2021-offen\/","title":{"rendered":"Facebook legt Ursachen f&uuml;r St&ouml;rung vom 4.10.2021 offen"},"content":{"rendered":"<p><img loading=\"lazy\" decoding=\"async\" style=\"float: left; margin: 0px 9px 0px 0px; display: inline;\" src=\"https:\/\/borncity.com\/blog\/wp-content\/uploads\/2013\/04\/FB_thumb.jpg\" width=\"62\" height=\"62\" align=\"left\" \/>[English]Am 4.10.2021 kam es gegen 17:30 zu einem sechsst\u00fcndigen Diensteausfall bei Facebook, der auch die Dienste Instagram und WhatsApp umfasste. Ich hatte im Beitrag <a href=\"https:\/\/borncity.com\/blog\/2021\/10\/04\/facebook-instagram-und-whatsapp-weltweit-ausgefallen\/\">Facebook, Instagram und WhatsApp weltweit ausgefallen<\/a> berichtet und im Nachgang erste Hinweise auf die Ursache geliefert. Jetzt hat Facebook eine etwas umfassendere Erkl\u00e4rung zu den Gr\u00fcnden des Ausfalls geliefert.<\/p>\n<p><!--more--><\/p>\n<p><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/vg08.met.vgwort.de\/na\/a7e8366177814511bd30ec03a707b8f2\" alt=\"\" width=\"1\" height=\"1\" \/>Die St\u00f6rung zum 4.10.2021 war schon massiv, alle Facebook-Dienste waren komplett aus dem Internet verschwunden und Browser lieferten nur eine leere Seite mit einer Fehlermeldung.<\/p>\n<p><img decoding=\"async\" title=\"Facebook, Instagram und WhatsApp weltweit ausgefallen\" src=\"https:\/\/i.imgur.com\/hXoBxty.png\" alt=\"Facebook, Instagram und WhatsApp weltweit ausgefallen\" \/><\/p>\n<p>Nach gut sechs Stunden konnten die Techniker von Facebook die Webseiten wieder ins Internet bringen. Von Cloudflare gab es bereits w\u00e4hrend der St\u00f6rung den Artikel <a href=\"https:\/\/web.archive.org\/web\/20211011033240\/https:\/\/blog.cloudflare.com\/october-2021-facebook-outage\/\" target=\"_blank\" rel=\"noopener\">Understanding How Facebook Disappeared from the Internet<\/a> mit einer Beschreibung der Beobachtungen. Ursache war aber wohl, dass die Routing-Angaben f\u00fcr die Facebook-Domains aus dem Border Gateway Protocol (BGP) schlicht verschwunden\u00a0 waren. Facebook hatte nach einigen Stunden <a href=\"https:\/\/engineering.fb.com\/2021\/10\/04\/networking-traffic\/outage\/\" target=\"_blank\" rel=\"noopener\">diesen Blog-Beitrag<\/a> mit ersten Hinweisen ver\u00f6ffentlicht. Dort wird erkl\u00e4rt, dass Facebook-Technikteams feststellten, dass Konfigurations\u00e4nderungen an den Backbone-Routern, die den Netzwerkverkehr zwischen den Facebook-Rechenzentren koordinieren, Probleme verursacht haben. Durch diese \u00c4nderungen wurde die Kommunikation zwischen den Rechenzentren unterbrochen und in Folge auch die Eintr\u00e4ge aus dem BGP entfernt.<\/p>\n<h2>Neue Analyse von Facebook<\/h2>\n<p>Im Beitrag <a href=\"https:\/\/engineering.fb.com\/2021\/10\/05\/networking-traffic\/outage-details\/\" target=\"_blank\" rel=\"noopener\">More details about the October 4 outage<\/a> geht Facebook nun noch detaillierter auf die Gr\u00fcnde des Ausfalls und die Frage, warum es dann 6 Stunden bis zur Beseitigung dauerte, ein.<\/p>\n<p>Dieser Ausfall wurde durch das System ausgel\u00f6st, welches die Kapazit\u00e4t des globalen Facebook Backbone-Netzwerks verwaltet. Das Backbone ist das Netzwerk, das Facebook aufgebaut hat, um alle seine Rechenzentren miteinander zu verbinden. Es besteht aus Zehntausenden Kilometer Glasfaserkabel, die alle Rechenzentren rund um den Globus miteinander verbinden.<\/p>\n<p>Diese Datenzentren gibt es in verschiedenen Formen. Einige sind riesige Geb\u00e4ude, in denen Millionen von Maschinen untergebracht sind, die Daten speichern und die gro\u00dfen Rechenlasten ausf\u00fchren, um die Plattformen am Laufen halten. Greift ein Nutzer auf einen Facebook-Dienst zu,\u00a0 wird die Datenanforderung an die n\u00e4chstgelegene Einrichtung von Facebook weitergeleitet, die dann direkt \u00fcber unser Backbone-Netz mit einem gr\u00f6\u00dferen Datenzentrum kommuniziert und die Antwort zur\u00fcck liefert.<\/p>\n<p>Der Datenverkehr zwischen all diesen Rechenzentren wird von Routern verwaltet. Zur Aufrechterhaltung dieser Infrastruktur m\u00fcssen unsere Techniker oft einen Teil des Backbone f\u00fcr Wartungsarbeiten abschalten &#8211; vielleicht um eine Glasfaserleitung zu reparieren, mehr Kapazit\u00e4t hinzuzuf\u00fcgen oder die Software auf dem Router selbst zu aktualisieren.<\/p>\n<h3>Wartungsarbeiten f\u00fchren zur St\u00f6rung<\/h3>\n<p>W\u00e4hrend einer dieser routinem\u00e4\u00dfigen Wartungsarbeiten wurde ein Befehl mit der Absicht erteilt, die Verf\u00fcgbarkeit der globalen Backbone-Kapazit\u00e4t zu pr\u00fcfen. Dadurch wurden unbeabsichtigt alle Verbindungen im Facebook Backbone-Netzwerk unterbrochen, wodurch die Datenzentren von Facebook weltweit abgeschaltet wurden. Die Systeme sind zwar darauf ausgelegt, solche Befehle zu pr\u00fcfen, um Fehler wie diesen zu vermeiden. Aber gem\u00e4\u00df Mc Murphy verhinderte ein Fehler in diesem Pr\u00fcfwerkzeug, dass der Befehl ordnungsgem\u00e4\u00df gestoppt wurde.<\/p>\n<p>Diese \u00c4nderung f\u00fchrte zu einer vollst\u00e4ndigen Unterbrechung der Serververbindungen zwischen den Facebook Datenzentren und dem Internet. Dies war die Ursache f\u00fcr den gestrigen Ausfall. Und dieser totale Verbindungsverlust verursachte ein zweites Problem, das die Sache noch schlimmer machte.<\/p>\n<p>Eine der Aufgaben einer Einrichtung ist die Beantwortung von DNS-Anfragen (also die Aufl\u00f6sung von URLs auf facebook.com etc. auf die betreffenden IP-Adressen der Server). Diese \u00dcbersetzungsanfragen werden von den ma\u00dfgeblichen Facebook Namensservern beantwortet, die selbst bekannte IP-Adressen haben, die wiederum \u00fcber ein anderes Protokoll, das so genannte Border-Gateway-Protokoll (BGP), an den Rest des Internets weitergegeben werden.<\/p>\n<p>Um einen zuverl\u00e4ssigen Betrieb zu gew\u00e4hrleisten, ziehen die Facebook DNS-Server diese BGP-Ank\u00fcndigungen zur\u00fcck, wenn sie selbst nicht mit den Facebook Rechenzentren kommunizieren k\u00f6nnen. Denn dies ist ja ein Hinweis auf eine gest\u00f6rte Netzwerkverbindung. Bei dem j\u00fcngsten Ausfall wurde das gesamte Backbone au\u00dfer Betrieb genommen, so dass sich diese Standorte selbst f\u00fcr gest\u00f6rt erkl\u00e4rten und die BGP-Anzeigen zur\u00fcckzogen. Das Ergebnis war, dass die Facebook DNS-Server nicht mehr erreichbar waren, obwohl sie noch in Betrieb waren. Damit war Facebook samt allen seinen Diensten aus dem Internet gefegt.<\/p>\n<h3>Und dann geht alles schief<\/h3>\n<p>All dies geschah extrem schnell, so dass die Techniker bei der Fehlerdiagnose vor zwei gro\u00dfen Hindernissen standen: Erstens war es wegen des Netzwerkausfalls nicht m\u00f6glich, auf normalem Wege auf die Rechenzentren zuzugreifen. Und zweitens machte der Totalausfall des DNS viele der internen Tools funktionslos, die normalerweise zur Untersuchung und Behebung von Ausf\u00e4llen verwendet werden.<\/p>\n<p>Da der prim\u00e4re und Out-of-Band-Netzzugang von Facebook ausgefallen war, also schickte das Management Techniker vor Ort in die Rechenzentren, um das Problem zu beheben und die Systeme neu zu starten. Aber das dauerte seine Zeit, denn diese Einrichtungen sind mit Blick auf ein hohes Ma\u00df an physischer Sicherheit und Systemsicherheit konzipiert. Es ist schwer, in das Rechenzentrum hinein zu gelangen &#8211; es gab ja Berichte, dass die Zugangssysteme blockiert waren.<\/p>\n<p>Und f\u00fcr Mitarbeiter, die in das Rechenzentrum eingedrungen waren, sind die Hardware und die Router so konzipiert, dass sie nur schwer ver\u00e4ndert werden k\u00f6nnen, selbst wenn man physischen Zugang hat. Es brauchte also zus\u00e4tzliche Zeit, um die sicheren Zugangsprotokolle zu aktivieren, die erforderlich waren, damit die Mitarbeiter vor Ort an den Servern arbeiten konnten. Erst dann konnten die Techniker das Problem best\u00e4tigen und das Facebook Backbone wieder in Betrieb nehmen.<\/p>\n<p>Es war also wirklich die alte Erfahrung von Mc Murphy: Was schief gehen kann, geht schief. Sobald die Backbone-Netzwerkverbindung in den Rechenzentren wiederhergestellt war, funktionierte auch alles wieder. Aber das Problem war noch nicht gel\u00f6st, denn die Techniker wussten, dass die Wiedereinschaltung aller Facebook-Dienste auf einmal durch die Datenlast zu einer neuen Runde von Abst\u00fcrzen f\u00fchren k\u00f6nnte. Einzelne Rechenzentren meldeten Einbr\u00fcche im Stromverbrauch im Bereich von mehreren zehn Megawatt, und eine pl\u00f6tzliche Umkehrung eines solchen Einbruchs im Stromverbrauch k\u00f6nnte alles gef\u00e4hrden, von den elektrischen Systemen bis zu den Caches.<\/p>\n<p>Dank fr\u00fcherer Vorbereitungen und \u00dcbungen war man auf dieses Ereignis (Simulation eines gr\u00f6\u00dferen Systemausfalls) gut vorbereitet. Auf Grund dieser Erfahrung lie\u00dfen sich die Dienste wieder online bringen und die zunehmende Last verwalten. Das klappte dann, ohne dass es zu weiteren systemweiten Ausf\u00e4llen kam. Jetzt analysiert Facebook, wie solche Situationen verhindert werden k\u00f6nnen.<\/p>\n<blockquote><p>Der Ausfall von WhatsApp hat anderen Messenger-Diensten einen massenhaften Zulauf beschert. Techcrunch <a href=\"https:\/\/techcrunch.com\/2021\/10\/05\/telegram-says-it-added-70m-users-while-facebook-and-whatsapp-were-down\/\" target=\"_blank\" rel=\"noopener\">berichtet hier<\/a>, dass Telegram 70 Millionen zus\u00e4tzliche neue Nutzer w\u00e4hrend des Facebook WhatsApp-Ausfalls verbuchen konnte. Auch Signal vermeldete Millionen neuen Nutzer auf Grund des Ausfalls.<\/p><\/blockquote>\n","protected":false},"excerpt":{"rendered":"<p>[English]Am 4.10.2021 kam es gegen 17:30 zu einem sechsst\u00fcndigen Diensteausfall bei Facebook, der auch die Dienste Instagram und WhatsApp umfasste. Ich hatte im Beitrag Facebook, Instagram und WhatsApp weltweit ausgefallen berichtet und im Nachgang erste Hinweise auf die Ursache geliefert. &hellip; <a href=\"https:\/\/borncity.com\/blog\/2021\/10\/06\/facebook-legt-ursachen-fr-strung-vom-4-10-2021-offen\/\">Weiterlesen <span class=\"meta-nav\">&rarr;<\/span><\/a><\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[5070,7862],"tags":[1199,987],"class_list":["post-258331","post","type-post","status-publish","format-standard","hentry","category-facebook","category-stoerung","tag-facebook","tag-storung"],"_links":{"self":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/posts\/258331","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/comments?post=258331"}],"version-history":[{"count":0,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/posts\/258331\/revisions"}],"wp:attachment":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/media?parent=258331"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/categories?post=258331"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/tags?post=258331"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}