Cloud-Ausfälle 2021: Als Akamai, Facebook und Amazon das Licht ausging

Stop - Pixabay[English]Das Jahr 2021 war geprägt durch viele Unsicherheiten und die Rückkehr der Coronavirus-Infektionswelle. Spätestens seit dem Ausbruch der Pandemie sind Begriffe wie Next Normal und digitale Nutzererfahrung in das Vokabular vieler Menschen eingezogen. Zudem haben durch die veränderten gesellschaftlichen und wirtschaftlichen Voraussetzungen viele Online-Dienste und digitale Plattformen einen enormen Anstieg der Nutzerzahlen erfahren. Doch was passiert, wenn die Internetverbindung unterbrochen wird und alles gezwungenermaßen offline geht? Wir hatten ja Ausfälle von Facebook, den Amazon Web Services (AWS) etc.


Anzeige

Für viele Unternehmen bedeuten Ausfallzeiten Umsatz- und Reputationsverluste sowie eine mögliche Ressourcenverschwendung, um auf Vorfälle zu reagieren. Dabei ist es möglich, die Auswirkungen solcher Vorfälle zu umgehen oder zu minimieren, indem man aus den Erfahrungen anderer lernt. Das Network-Intelligence-Unternehmen Cisco ThousandEyes hat alle derartigen Störungen beobachtet und analysiert.  Grund genug, die weitreichendsten und bedeutendsten Störungen aus dem Jahr 2021 zu rekapitulieren.

  • Amazon Web Services – 15. Dezember 2021: Ein kurzer Ausfall von Amazon Web Services (AWS) betraf Dienste und Anwendungen in den Regionen US-WEST-1 und US-WEST-2. Der Vorfall dauerte etwa 45 Minuten, und trat zu Beginn des Arbeitstages an der Westküste der USA auf. So wurde der Zugang zu Authentifizierungs- und Kollaborationsplattformen, die auf AWS angewiesen sind, unterbrochen – darunter Okta, Workday und Slack. AWS bestätigte die Beobachtung von ThousandEyes, dass Probleme mit der Netzwerkkonnektivität aufgrund von durch Überlastung verursachten Datenverlusten dafür verantwortlich waren.
  • Amazon Web Services – 7. Dezember 2021: Ebenfalls bei AWS, dem größten Anbieter von Cloud-Computing-Diensten in den USA, kam es Anfang Dezember zu einem noch größeren Ausfall. Die Unterbrechung dauerte über eine Stunde und verursachte Probleme, die sich auf die Benutzer mehrerer wichtiger Dienste auswirkten, darunter AWS Console, Amazon Prime Now und Amazon Pharmacy. Auch viele Dienste, die auf AWS angewiesen sind, wie IoT-Geräte für Verbraucher wie Roomba und Ring, waren davon betroffen. Große Streaming-Dienste wie Disney+ und Netflix waren ebenfalls nicht verfügbar.Dieser Ausfall hatte vor allem erhebliche Auswirkungen auf die Anwendungen und Dienste von Unternehmenskunden. So mussten viele besorgte IT-Spezialisten in Unternehmen mehr als eine Stunde lang darauf warten, dass die Status-Seite des Anbieters die Hintergründe des Vorfalls anzeigte.
  • Facebook – 4. Oktober 2021: Am 4. Oktober konnten die Dienste von Facebook, Instagram und WhatsApp nicht mehr abgerufen werden. Der Ausfall betraf hunderte Millionen, wenn nicht Milliarden von Nutzern weltweit. Zusätzlich gab es Meldungen über Probleme mit Dienstanbietern, die aufgrund des hohen Internetverkehrsaufkommens von Facebook ebenfalls betroffen waren.Der reguläre Betrieb konnte für alle drei Messaging-Plattformen sieben Stunden später wiederhergestellt werden. Verständlicherweise wirft dieser Ausfall einige Fragen auf. Wie konnte es dazu kommen? Wieso dauerte es bis zur Wiederherstellung der Dienste durch das erfahrene Netzwerkbetriebsteam des Social-Media-Unternehmens so lange?

    Der Ausfall von Facebook stellte in Bezug auf Umfang und Dauer eine erhebliche Störung dar, die auch monetäre Auswirkungen hatte: Laut Forbes soll der Ausfall zu Umsatzeinbußen in Höhe von 60 bis 100 Millionen US-Dollar und einem Rückgang der Marktkapitalisierung um 47,3 Milliarden US-Dollar geführt haben. Ich hatte im Blog mehrfach berichtet, siehe Links am Artikelende.

  • Akamai DNS – 22. Juli 2021: Ende Juli kam es bei Akamai zu einem weitreichenden Ausfall. Dieser führte dazu, dass Nutzer weltweit die Websites von Kunden des Unternehmens nicht mehr erreichen konnten. Der Ausfall dauerte über eine Stunde und hatte erhebliche Auswirkungen auf viele Websites und Anwendungen, die unter anderem im Bankwesen, Flugverkehr und im Gaming-Bereich genutzt werden.Akamai DNS ist ein kritischer Dienst, der Nutzer zum CDN-Edge von Akamai weiterleitet. Nutzer, die versuchten, von Akamai gehostete Webseiten aufzurufen, erhielten während des Ausfalls eine Fehlermeldung. Der Grund: Die von ihnen jeweils angeforderte Domain konnte nicht in eine gültige IP-Adresse aufgelöst werden.

    Der Ausfall war von besonderer Bedeutung, da er nicht nur Akamai-Kunden betraf, sondern auch diejenigen, die auf Dienste von Akamai angewiesen sind. Unternehmen, die einen Multi-CDN-Ansatz verwenden, wie Amazon, blieben von den Auswirkungen dieses Vorfalls weitgehend verschont.

  • Akamai Prolexic Routed – 16. Juni 2021: Für australische Internetnutzer und diejenigen, die in der asiatisch-pazifischen Region leben, war der 16. Juni 2021 ein besonders frustrierender Tag. Bei Prolexic Routed, dem DDoS-Abwehrdienst von Akamai, kam es zu einer Serviceunterbrechung, durch die die Webseiten einiger Kunden für unterschiedlich lange Zeit nicht erreichbar waren.Um seine Kunden vor DDoS-Angriffen zu schützen, bereinigt Prolexic Routed den eingehenden Datenverkehr. Dazu werden (mit Erlaubnis) Kundenpräfixe anzeigt, bevor eingehende Anfragen an das jeweilige Netzwerk weitergeleitet werden. Die Ursache für diesen Vorfall war eine versehentliche Überschreitung des Limits der Routing-Tabelle.

    Der Ausfall dauerte über vier Stunden, wobei die stärksten Auswirkungen in den ersten Minuten auftraten. Verschiedene Dienste waren je nach Standort, Tageszeit und zuvor erstellten Backup-Plänen unterschiedlich betroffen. Bestimmte Dienste hatten Failover-Systeme, die es ihnen ermöglichten, die Konnektivität wiederherzustellen – in einigen Fällen sogar innerhalb weniger Minuten.

  • Fastly – 10. Juni 2021: Im Juni kam es bei Fastly zu einem massiven Ausfall, von dem weltweit 85 Prozent der Dienste betroffen waren. Ein versteckter Softwarefehler löste den einstündigen Ausfall aus, als ein Kunde ein Routine-Update seiner CDN-Konfiguration durchführte. Wer versuchte, die betroffenen Websites oder Anwendungen zu erreichen, erhielt wahrscheinlich die Fehlermeldung 501 – Service Unavailable.Der Ausfall betraf viele große Websites, darunter auch Reddit oder das Webangebot der New York Times. Sogar Amazon und eBay waren stellenweise betroffen, weil diese ebenfalls auf die Dienste von Fastly zurückgreifen. Erwähnenswert ist, dass die Auswirkungen für jeden dieser Medien- und E-Commerce-Anbieter sehr unterschiedlich waren, obwohl die Ursache für den Ausfall dieselbe war.

Die obigen Fälle zeigen, dass die Ausfälle der populären Cloud-Dienste massive Auswirkungen haben. Wobei ich oben keine Azure-Ausfälle thematisiert habe. Von Sicherheitsproblemen in diesem Bereich war auch noch nicht die Rede.

 

Maßnahmen für ein resilienteres Jahr 2022

Aus den Ausfällen von 2021 zieht ThousandEyes einige grundlegende Lehren, wie Organisationen resilenter gegenüber obigen Ausfällen werden können.


Anzeige

  • Greifen Sie auf praktische Redundanzkonzepte zurück. Erwägen Sie die Nutzung von mehr als einem Anbieter für kritische Dienste wie CDN und DNS.
  • Analysieren Sie die Funktionsweise Ihrer Servicebereitstellungskette. Diese kann sich auf mehrere Abhängigkeiten stützen. Daher ist es wichtig, alle Abhängigkeiten zu kennen, auch die indirekten oder „versteckten" sowie die externen Dienste.
  • Gewährleisten Sie eine proaktive Visibilität in Ihre Standorte, Anwendungen und wichtigsten Abhängigkeiten. Auf diese Weise können Sie am effizientesten feststellen, wann ein Serviceproblem aufgetreten ist und welche Strategie Sie anwenden müssen, um Störfälle mit minimalen Auswirkungen auf Ihre Nutzer zu beheben.
  • Erstellen Sie ein Notfallkonzept. Selbst wenn Sie bewährte Verfahren und redundante Service-Architekturen implementiert haben, kann es immer noch zu unvorhergesehenen Ausfällen kommen. Mit einem Backup-Plan für Ausfallszenarien können Sie Ausfallzeiten und Leistungseinbußen bei Ihren Diensten minimieren.

Die Ausfälle 2021 zeigen eindrücklich, dass selbst die modernste Infrastruktur durchaus von Fehlern und Ausfällen betroffen sein kann. Auch wenn Ausfälle unvermeidlich sind, sollten Sie bestimmte Maßnahmen implementiert haben, um diese schadlos zu überstehen. IT-Teams können durch die Analysen und Erkenntnisse der größten Ausfälle in diesem Jahr bessere Prozesse, Redundanzen und Failover-Systeme entwickeln, um die zu erwartenden Ausfallzeiten im Jahr 2022 zu kontrollieren und zu minimieren.

Ähnliche Artikel:
Störung bei Amazon AWS (25.11.2020)
Amazon AWS-Cloud-Ausfall sorgt für Chaos (8.12.2021)
AWS schon wieder down (15.12.2021)
Facebook, Instagram und WhatsApp weltweit ausgefallen
Facebook legt Ursachen für Störung vom 4.10.2021 offen
Facebook, Instagram und WhatsApp haben wieder Probleme (8.10.2021)
Der Facebook-Ausfall und die Abhängigkeiten beim Identitätsmanagement


Anzeige

Dieser Beitrag wurde unter Cloud abgelegt und mit , verschlagwortet. Setze ein Lesezeichen auf den Permalink.

2 Antworten zu Cloud-Ausfälle 2021: Als Akamai, Facebook und Amazon das Licht ausging

  1. RG sagt:

    "Erwägen Sie die Nutzung von mehr als einem Anbieter für kritische Dienste wie CDN und DNS."

    Also DNSsec o.ä. nutzen?

    Wikipedia:
    Der Browser Mozilla Firefox enthält seit Version 60 die Option, DoH als experimentelle Funktion zu aktivieren.[9][10] Mozilla stellt in Zusammenarbeit mit Cloudflare einen DoH-Server bereit, der strenge Privatsphäre-Anforderungen erfüllen muss.[11]

    Für Chrome gibt es seit der Version 78 ebenfalls eine experimentelle Einstellung zur Nutzung von DoH.[12]

    Unter Android gibt es, anders als für DNS over TLS, keine native Implementation.

    https://de.wikipedia.org/wiki/DNS_over_HTTPS

    • 1ST1 sagt:

      DoH benutzt man als Endanwender nur, wenn man es Ok findet, dass amerikanische Firmen wie Cloudflare die ganze Surfhistorie von einem sieht. Ich vertraue da lieber dem DNS meines deutschen Internet-Providers, der kann nichts von dem was ich ansurfe, per Cloud-Act an die NSA ausliefern.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Hinweis: Bitte beachtet die Regeln zum Kommentieren im Blog (Erstkommentare und Verlinktes landet in der Moderation, gebe ich alle paar Stunden frei, SEO-Posts/SPAM lösche ich rigoros). Kommentare abseits des Themas bitte unter Diskussion.

Du findest den Blog gut, hast aber Werbung geblockt? Du kannst diesen Blog auch durch eine Spende unterstützen.