Am 8. Juni 2021 gab es eine Störung im Content Delivery Network (CDN) des US-Anbieters Fastly. Damit waren sehr viele Webseiten plötzlich nicht mehr erreichbar. Die Störung war zwar nach einer Stunde wohl wieder behoben. Aber der Grund für den Ausfall war unklar: Hardware kaputt, DDoS-Angriff, Software-Fehler, alles war möglich.
Anzeige
Nun hat Fastly in einem Blog-Beitrag die Ursache für den gravierenden Ausfall mitgeteilt – es war ein Software-Bug und eine Verkettung unglücklicher Umstände.
Der Ausfall: Internet kaputt
Es war eine heftige Störung, die am 8. Juni 2021 so gegen 12:00 Uhr deutscher Zeit das Internet traf. Alle Webseiten, die das Content Delivery Networks (CDN) des US-Anbieters Fastly verwendeten, waren plötzlich nicht mehr erreichbar. Ich hatte versucht, die Seite von reddit.com im Browser abzurufen und habe die nachfolgende Fehlerseite angezeigt bekommen.
Der ca. 80 Minuten dauernde Ausfall betraf von Amazon über Reddit bis zu Twitch eine Reihe prominenter Namen. Ich hatte im Blog-Beitrag StackOverflow, Twitch, Reddit, etc. down – Fastly CDN-Ausfall (8.6.2021, 12:00 Uhr) berichtet. Die Hintergründe, warum der Ausfall so gravierende Folgen hatte, habe ich im Blog-Beitrag Der Ausfall der Fastly-Cloud-Server und die Folgen angesprochen. Beim Amazon geht man davon aus, dass der Ausfall um die 32 Millionen US-Dollar an Umsatzverlusten verursacht hat.
Softwarefehler führt zum Ausfall
Im Blog-Beitrag Summary of June 8 outage gibt Nick Rockwell, Senior Vice President of Engineering and Infrastructure bei Fastly einen Abriss, was passiert ist. Am 12. Mai begannen die Techniker von Fastly mit einer Softwareimplementierung für das CDN. Dieses Software-Update enthielt aber einen Fehler, der durch eine bestimmte Kundenkonfiguration unter bestimmten Umständen ausgelöst werden konnte.
Anzeige
Am 8. Juni 2021 führte ein Kunde recht früh am Tag eine gültige Konfigurationsänderung durch, die die spezifischen Umstände beinhaltete, die den Fehler in der CDN-Software auslösten. Dieser Bug führte dazu, dass 85 % des Fastly-Netzwerks Fehler zurückgaben. Die Techniker bemerkten die Störung innerhalb einer Minute, identifizierten und isolierten dann die Ursache. Im Anschluss deaktivierten sie die betreffende Konfiguration. Innerhalb von 49 Minuten funktionierten 95 % unseres Netzwerks wieder wie gewohnt. Hier nach der zeitliche Ablauf der Störung (alle Zeiten sind UTC):
09:47 Initial onset of global disruption
09:48 Global disruption identified by Fastly monitoring
09:58 Status post is published
10:27 Fastly Engineering identified the customer configuration
10:36 Impacted services began to recover
11:00 Majority of services recovered
12:35 Incident mitigated
12:44 Status post resolved
17:25 Bug fix deployment began
Nach diesem Fix wurde eine dauerhafte Lösung für den Fehler erstellt und um 17:25 Uhr (UTC) mit der Bereitstellung begonnen. Der Fall zeigt, wie fragil das Ganze doch geworden ist.
Der Ausfall der Fastly-Cloud-Server und die Folgen
Anzeige
Try & Error. Macht MS bei 365 dauernd…
Aber ernsthaft: wieso konnte man die Konfig nicht mal den großen Kunden (Amazon, Twitch, Reddit, usw) testen??
Die werden schon ausreichend getestet haben.
Wenn die großen Kunden genau diese eine Konfiguration nicht nutzen, die den Bug auslöst, wäre es ja auch nicht aufgefallen. Außerdem steht im Text "ein Kunde führte durch" – vielleicht war es ja einer der Großen?
Frage mich eher, wie die Konfiguration bei einem Kunden solche gravierenden Auswirkungen haben kann.
Tja, keine ausreichenden Tests gefahren und keine Fallback-Strategie.
Die Großen machen es vor, wie man es nicht machen sollte…
Wie soll man es dann dem Chefe nahe bringen, dass Zeit- und Kostenintensive Test- und Vorsichtsmaßnahmen erforderlich sind?