Google Cloud und NVIDIA: Neue KI-Infrastruktur senkt Kosten drastisch

Die neue Vera Rubin-Architektur von Google und NVIDIA verspricht zehnfach günstigere KI-Berechnungen und einen Wandel hin zu KI-Fabriken.

**

Auf der Google Cloud Next Konferenz haben Google und NVIDIA am heutigen Donnerstag eine gemeinsame Hardware-Roadmap vorgestellt. Ziel ist es, die finanziellen und energetischen Kosten für KI-Inferenz – also die Ausführung trainierter Modelle – massiv zu senken. Im Zentrum steht die neue Vera Rubin-Architektur, die speziell für die enormen Rechenanforderungen von sogenannter „agentischer KI“ und physischen KI-Anwendungen entwickelt wurde.

Anzeige

Während die Kosten für KI-Berechnungen sinken, steigen die regulatorischen Anforderungen durch den EU AI Act für Unternehmen massiv an. Dieser kostenlose Leitfaden bietet Ihnen einen kompakten Überblick über alle neuen Pflichten und Fristen, die Sie bei der Nutzung von KI-Systemen jetzt beachten müssen. Kompakten Überblick über die KI-Verordnung kostenlos sichern

Die Ankündigung markiert einen Wendepunkt: Rechenzentren widmen sich zunehmend der Live-Bedienung von Nutzeranfragen statt dem Trainieren neuer Modelle. Durch die Kombination aus Spezial-Chips, Hochgeschwindigkeitsnetzwerken und optimierter Software wollen die Partner komplexe KI-Workflows für globale Unternehmen wirtschaftlich tragfähig machen.

Die Vera Rubin-Architektur: Zehnmal günstiger pro Token

Das Herzstück der Ankündigung ist die Google Cloud A5X Bare-Metal-Instanz, die auf dem NVIDIA Vera Rubin NVL72-Rack-System basiert. Diese Architektur, erstmals auf der GTC 2026 im März vorgestellt, ist der Nachfolger der Blackwell-Generation. Dank abgestimmter Hardware und Software soll die Vera Rubin-Plattform die Inferenzkosten pro Token im Vergleich zu Vorgängergenerationen um das Zehnfache senken.

Doch nicht nur die Kosten sinken: Die A5X-Instanzen liefern eine zehnmal höhere Token-Durchsatzrate pro Megawatt. Möglich wird dies durch die Integration von Vera-CPU und Rubin-GPU in ein einheitliches „AI Factory“-System. NVIDIA-CEO Jensen Huang betonte in seiner Keynote, dass die Vision des Unternehmens nun auf einem vertikal integrierten, aber horizontal offenen Stack aus CPUs, GPUs und Spezialprozessoren beruht.

Die Dimensionen dieser Bereitstellungen sind beispiellos: Die Infrastruktur nutzt NVIDIA ConnectX-9 SuperNICs in Kombination mit Googles Virgo-Netzwerktechnologie. So lassen sich Cluster mit bis zu 80.000 Rubin-GPUs an einem Standort und bis zu 960.000 GPUs über mehrere Standorte hinweg skalieren. Diese Größenordnung ist notwendig, um die größten verfügbaren KI-Modelle ohne Verzögerungen zu betreiben.

Blackwell Ultra: Die Brücke zur nächsten Generation

Während Vera Rubin die Zukunft des High-End-Inferenz darstellt, hat NVIDIA das vergangene Jahr genutzt, um seine Dominanz mit den Plattformen Blackwell und Blackwell Ultra zu festigen. Bereits im September 2025 zeigten die MLPerf Inference v5.1-Ergebnisse: Die Blackwell Ultra (GB300)-Architektur liefert bis zu 1,4-mal höhere Leistung pro GPU als die ursprünglichen GB200 NVL72-Systeme und etwa die fünffache Durchsatzrate der Hopper-Architektur bei Reasoning-Modellen wie DeepSeek-R1.

Das GB200 NVL72-System, dessen Massenauslieferung an Hyperscaler im zweiten Quartal 2025 begann, ermöglichte erstmals den effizienten Betrieb massiver LLM-Workloads wie Llama 3.1 405B. In der MLPerf Inference v5.0-Runde vom April 2025 zeigte das System eine bis zu 3,4-mal höhere Pro-GPU-Leistung bei großen Workloads im Vergleich zum H200 Tensor Core Acht-GPU-System.

Der Wechsel zu NVL72-Racks – die 72 GPUs in eine einzige NVLink-Domäne verbinden – bringt eine 30-fache Leistungssteigerung für LLM-Inferenz. Ermöglicht wird dies durch die fünfte Generation von NVLink und NVSwitch-Technologien. Zusätzlich steigert der Einsatz von disaggregierten Serving-Techniken den Durchsatz um das 1,5-Fache im Vergleich zu traditionellen Methoden.

Software und Microservices für agentische KI

Die Hardware-Entwicklungen werden durch eine leistungsstarke Software-Ebene ergänzt. NVIDIA Inference Microservices (NIM) sind zum primären Vehikel für die Bereitstellung optimierter KI-Modelle in Unternehmen geworden. Bereits im Januar 2025 veröffentlichte das Unternehmen spezielle NIM-Microservices zum Schutz von KI-Agenten – sie decken Themenkontrolle, Inhaltsicherheit und Jailbreak-Schutz ab.

Der Betrieb dieser Dienste wird durch den NVIDIA NIM Operator vereinfacht, der das Lifecycle-Management von Microservices in Kubernetes-Umgebungen automatisiert. Er kümmert sich um Rolling-Upgrades, automatische Skalierung und intelligentes Modell-Caching.

Anzeige

Neue KI-Technologien bringen nicht nur Chancen, sondern auch neue Sicherheitsrisiken und rechtliche Pflichten für IT-Verantwortliche mit sich. Erfahren Sie in diesem kostenlosen Experten-Report, wie Sie Ihr Unternehmen proaktiv absichern und welche rechtlichen Anforderungen Sie jetzt kennen müssen. Kostenlosen Cyber-Security-Report herunterladen

Seit April 2026 sind diese Software-Tools direkt in Cloud-Plattformen integriert. NVIDIA Nemotron 3 Super ist nun auf der Gemini Enterprise Agent Platform verfügbar und bietet Entwicklern Werkzeuge zur Anpassung multimodaler Modelle für agentische Aufgaben – etwa die Anbindung an komplexe APIs oder die Synchronisation mit Vektordatenbanken.

Globale Lieferketten und Hyperscale-Infrastruktur

Um die explodierende Nachfrage nach KI-Chips zu decken – Prognosen zufolge werden bis 2027 über eine Billion Euro Umsatz erwartet – hat NVIDIA seine Fertigung diversifiziert. Im Oktober 2025 begann die Massenproduktion des Blackwell-Chips in einer neuen Fabrik in Phoenix, Arizona. Es war das erste Mal, dass diese fortschrittlichen GPUs in den USA gefertigt wurden, nachdem ein Konsortium von Technologiepartnern mehrere hundert Milliarden Dollar in die heimische KI-Produktionsinfrastruktur investiert hatte.

Die Auslieferungszahlen steigen rasant: Analysten prognostizieren, dass NVIDIA 2025 rund 5,2 Millionen Blackwell-GPUs ausliefern wird. Mit dem Übergang zur nächsten Generation sollen die Rubin-GPU-Auslieferungen bis Ende 2026 auf 5,7 Millionen Einheiten steigen.

Große Cloud-Anbieter sichern sich diese Chips so schnell wie möglich. Im März 2026 kündigte Amazon Web Services (AWS) eine erweiterte Partnerschaft an, um mehr als eine Million NVIDIA-GPUs in seinen globalen Cloud-Regionen zu deployen – darunter Blackwell- und Rubin-Architekturen.

Analyse: Der Aufstieg der KI-Fabrik

Der Wandel von allgemeinen Rechenzentren hin zu „KI-Fabriken“ spiegelt einen grundlegenden Wandel wider. Anders als traditionelles Cloud-Computing, das unterschiedliche Aufgaben verwaltet, ist die KI-Fabrik eine vertikal integrierte Umgebung, in der Silizium, Netzwerke und Kühlsysteme für einen einzigen Zweck optimiert sind: Tokens zu generieren und automatisiertes Reasoning durchzuführen.

Die Integration der Vera-CPU ist besonders bemerkenswert. Indem NVIDIA über eine reine GPU-Strategie hinausgeht, adressiert es die Engpässe, die entstehen, wenn Hochleistungsbeschleuniger mit traditionellen x86-Prozessoren kombiniert werden. Die Vera-CPU bietet die nötigen Offload-Fähigkeiten, um die Rubin-GPUs kontinuierlich mit Daten zu versorgen – essenziell für Echtzeitanwendungen wie medizinische Transkription, autonome Fertigung oder Cybersicherheit.

Ausblick

In der zweiten Jahreshälfte 2026 wird sich der Fokus wahrscheinlich auf „Physical AI“ verlagern – die Anwendung großflächiger Inferenz auf Robotik und industrielle digitale Zwillinge. Die Verfügbarkeit von Bibliotheken wie NVIDIA Omniverse und Isaac Sim auf großen Cloud-Plattformen deutet darauf hin, dass die nächste Phase der Infrastrukturentwicklung auf niedrige Latenz zwischen digitalen Modellen und realen Fabrikhallen abzielt.

Da die Investitionsausgaben der Hyperscaler voraussichtlich bis 2027 hoch bleiben, zeigt der schnelle wechsel von Blackwell zu Rubin-Architekturen, dass die Innovationsgeschwindigkeit der Hardware derzeit traditionelle Produktlebenszyklen übertrifft. Für Unternehmen bedeutet dies: Die Kosten für Intelligenz werden weiter sinken – allerdings erfordert die Komplexität der Verwaltung solcher Infrastrukturen eine zunehmende Abhängigkeit von Managed Cloud Services und automatisierten Orchestrierungswerkzeugen.