Google hat schon wieder Cloud-Instanzen unbeabsichtigt ausgeknipst

Google hat im Moment keinen richtigen Lauf, Ärger mit seinen AI-Ansätzen und nun kommen auch Cloud-Probleme hinzu. Nachdem unbeabsichtigt ein Online-Konto eines australischen Pensionsfonds gelöscht wurde, ging ich davon aus, dass Google jeden Schritt doppelt und dreifach absichert. Letzten Freitag ist aber wohl eine "Putzaktion" schief gelaufen und neben einer zu löschenden Netzwerkinstanz wurden um die 33 weitere Cloud-Dienste für fast 3 Stunden gestört. Doof für betroffene Kunden, deren virtuelle Maschinen und Cloud-Instanzen nicht mehr funktionierten.


Anzeige

Alter Fall: Gekillter Pensionsfonds

Ich hatte im Blog-Beitrag Google Cloud: Sorry, wir haben das Online-Konto/-Abonnement eines Pensionsfonds gelöscht über das erste Cloud-Malheur berichtet. Ein australischer Pensionsfonds (UniSuper) hatte ein privates Cloud-Konto/-Abonnement bei Google. Da wurden die Daten von 620.000 Mitgliedern verwaltet, der Pensionsfonds ist wohl 125 Milliarden australische Dollar schwer. Und dann war der Online-Zugang für die Mitglieder plötzlich weg – pulverisiert, aus der Cloud verschwunden, ohne irgend eine Spur zu hinterlassen. Guthabenkonten waren weg, und keiner wusste was. Am Ende des Tages stellt sich heraus, dass ein Konfigurationsfehler in der Google Cloud dazu führte, dass alle Online-Instanzen dieses Abonnements gelöscht worden waren. Das ist zwar alles wieder behoben, weil der Kunde Backups bei einem Drittanbieter hatte, und Google versicherte, alles zu tun, um eine Wiederholung zu verhindern.

Cloud-Putzaktion geht schief

Am vergangenen Freitag, den 17. Mai 2024 stand bei Google wieder eine "Cloud-Wartung" an. The Register schreibt hier, dass Google um 15:22 Uhr US-Pazifikzeit eine "Wartungsautomatisierung durchführte. Geplant war, eine ungenutzte Netzwerksteuerungskomponente an einem einzigen Standort abzuschalten.

Das hat wohl auch geklappt, aber es wurden wohl um die 40 weitere Cloud-Instanzen mit gelöscht bzw. waren betroffen. Als Folge waren 33 s Google-Cloud-Dienste wie die Compute Engine und die Kubernetes Engine für zwei Stunden und achtundvierzig Minuten stört. Folgen waren störte Netzwerkfunktionen und Dienste wie:

  • Neue VM-Instanzen wurden ohne Netzwerkkonnektivität bereitgestellt und konnten daher keine Netzwerkverbindungen herstellen;
  • Migrierte/neugestartete VMs verloren die Netzwerkkonnektivität;
  • Virtuelle Netzwerkkonfigurationen (Firewalls, Netzwerk-Load-Balancer usw.) konnten nicht aktualisiert werden;
  • Partieller Paketverlust für bestimmte VPC-Netzwerkflüsse wurde in us-central1 und us-east1 beobachtet;
  • Bei der dynamischen Portzuweisung (DPA) von Cloud NAT kam es zu Zuweisungsfehlern;
  • Bei der Erstellung neuer GKE-Knoten und Knotenpools kam es zu Fehlern.

Betroffen waren laut Register auch andere Dienste, sowie die VMs in der Google-Cloud, wenn diese die Cloud Engine oder Aktualisierungen der Netzwerkkonfiguration benötigten. Während der Störung konnten diese Aufgaben nicht abgeschlossen werden. Der Vorfall war am vergangenen Freitag um 18:10 Uhr pazifischer Zeit beendet.


Anzeige

Google teilte seinen Kunden mit, dass der Vorfall durch einen Fehler in der Automatisierungsfunktion zum Abschalten von Netzwerken verursacht wurde und dass das Problem behoben war, sobald die fehlerhafte Komponente neu gestartet wurde. Jetzt wurde der Mechanismus gesperrt, bis die Ursache analysiert und das Problem behoben wurde. Es hat wohl ausschließlich US-Kunden in der Google-Cloud getroffen – oder war jemand unter der Leserschaft tangiert?


Anzeige

Dieser Beitrag wurde unter Cloud, Störung abgelegt und mit , verschlagwortet. Setze ein Lesezeichen auf den Permalink.

12 Antworten zu Google hat schon wieder Cloud-Instanzen unbeabsichtigt ausgeknipst

  1. Anonymous sagt:

    Und eines Tages wird die unfehlbare KI automatisch irgendwann irgendwelche Konten bereinigen und Dienste sperren oder abkündigen, Einspruch dann zwecklos.

    Cloud ist ein Irrweg. KI ist ein Irrweg.

    • Heiko sagt:

      Ich persönlich halte die Cloud für keinen Irrweg, weil nicht das Rechenzentrum (nichts anderes ist mit "Cloud" gemeint) selbst das Problem ist. Die Kunden sind es, die sich von Versprechen blenden lassen und mit etwaigen Risiken falsch umgehen.

      Aus der Praxis könnte ich dir von vielen Beispielen berichten.

      • Pau1 sagt:

        fefe hat gerade einen Leserbrief in dem gesagt wird, dass o.g. erstmal alles kurzfristigen IT Leistungen (also externe Mitarbeiter) gekündigt werden um 100 Mio einzusparen.
        Es mag auf dem Papier gut aussehen, aber es ist für die Kunden unschön, wenn sie interne(!) Server Fehlermeldungen zu sehen bekommen, wenn sie bezahlen wollen…
        Aber die Bahn kann ja bei den Steuerzahlern nachfragen wenn's am Geld mangelt.

  2. Pau1 sagt:

    Aber die neuen VMs wurden sicher korrekt von der Abrechnungsoftware erfasst..

    Was ist denn bloß los?
    Verlieren alle die Übersicht, nicht nur MS?

  3. Daniel sagt:

    Eigene Server die von eigenen Mitarbeitern gewartet wurden waren wohl doch nicht so schlecht. Sieht man ja immer wieder. Aber es scheint ja nach dem Motto zu laufen "Cloud first, Bedenken second."

    • Pau1 sagt:

      Sag das mal dem BWLern
      Das ist dasselbe wie mit Leiharbeit.
      Eine Cloud läuft einfach per Bedarfsmeldung und den Einkauf.
      Kein Betriebsrat oder Personal Abteilung oder head huhter.
      Kein Problem mit Krankheit oder Urlaub, keine Sozialabgaben Und wenn Du ihn nicht mehr brauchst, bestellste ihn/es ab.
      Aber einen Admin einstellen, der nur einen unbefristeten Vertrag nimmt? Das ist eine Millionen Investition.
      Und wenn man ihn nicht mehr braucht, muss man ihn trotzdem durchfüttern…

      Sieht irgendwie nach einem generellen Systemfehler aus…
      Finde ihn…

      • R.S. sagt:

        Tja, wenn BWLer nur von 12 bis Mittag denken.
        Auch mit Cloud braucht man einen Admin.
        Irgendwer muß ja die internen Schnittstellen zur Cloud betreuen. Und internen Administrationsaufwand gibt es auch mit der Cloud.
        I.d.R. hat ein Admin durch den Cloud-Kram sogar mehr Arbeit als wenn er nur interne Sachen administrieren muß.
        Leiharbeit:
        Ja, das gibts bei uns auch.
        Leiharbeit ersetzt bei uns die Probezeit.
        Erspart dann auch viel Aufwand gegenüber normaler Probezeit.
        Wenn die Person gut ist, dann wird die i.d.R. übernommen.
        Über den Weg sind viele Leute in die Firma gekommen.

        • Pau1 sagt:

          Das gibt's auch umgekehrt:
          Erst mehrere Jahre Leiharbeit, dann Auslöse an den Verleiher (der verliert einen guten Mann und muss Ersatz suchen(er hat ja noch andere Kunden). Es soll (verbotene) Überlassungsunterverträge geben, die Schadenersatz bei fester Übernahme vereinbaren.) und dann…in einen befristeten Vertrag…mit erneuter Probezeit. Unternehmer Gewinn max, Risiko min.
          Ist aber ein anderes Thema.

  4. Anonymous sagt:

    Und was lernen wir daraus? Nicht alles in eine Cloud packen, sondern Redundanzen über mehrere Clouds hinweg aufbauen.

  5. Luzifer sagt:

    mehr davon! Nur so wachen die Leute auf… dat muss wehtun.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Hinweis: Bitte beachtet die Regeln zum Kommentieren im Blog (Erstkommentare und Verlinktes landet in der Moderation, gebe ich alle paar Stunden frei, SEO-Posts/SPAM lösche ich rigoros). Kommentare abseits des Themas bitte unter Diskussion.

Du findest den Blog gut, hast aber Werbung geblockt? Du kannst diesen Blog auch durch eine Spende unterstützen.