NVIDIA und Google Cloud: Vera Rubin kommt auf die Plattform

NVIDIA und Google Cloud integrieren die Vera-Rubin-Architektur in die KI-Plattform. OpenAI und Thinking Machines Lab sind erste Nutzer der neuen A5X-Instanzen.

Die Partnerschaft zwischen NVIDIA und Google Cloud wird massiv ausgebaut – mit der Vera-Rubin-Architektur als Herzstück für die nächste Generation KI-Entwicklung.

Auf der Cloud Next 2026 Konferenz Ende April gaben beide Unternehmen die Integration von NVIDIAs neuester Architektur in Googles „AI Hypercomputer“-Plattform bekannt. OpenAI wurde als erster prominenter Nutzer der neuen A5X-Instanzen genannt, die auf dem Vera Rubin NVL72-Stack basieren. Diese Instanzen sollen beispiellose Rechenleistung und Effizienz liefern – genau das, was die Branche angesichts explodierender Investitionen in KI-Infrastruktur dringend braucht.

Anzeige

Während Unternehmen wie Google und NVIDIA die technologische Basis für neue KI-Fabriken schaffen, müssen Entwickler und Anwender zwingend die rechtlichen Rahmenbedingungen im Blick behalten. Dieser praxisnahe Leitfaden hilft Ihnen, die komplexen Anforderungen der EU-KI-Verordnung für Ihr Unternehmen rechtssicher umzusetzen. Kostenloses E-Book zum EU AI Act herunterladen

KI-Fabriken im Maßstab: Was Vera Rubin leistet

Die technischen Spezifikationen lesen sich beeindruckend: Pro Rack liefert der Vera Rubin NVL72-Stack 1.400 TOPS (Billionen Operationen pro Sekunde) und 4,8 TB/s Speicherbandbreite. Das soll die Kosten und die Zeit für das Training komplexester Modelle drastisch senken.

Für Entwickler wie OpenAI und Thinking Machines Lab bedeutet der Umstieg auf diesen Stack den Eintritt in eine neue Ära der „KI-Fabriken“. Dank Virgo Networking lassen sich bis zu 960.000 GPUs über mehrere Standorte hinweg skalieren. Erste Benchmarks zeigen: Die A5X-Instanzen senken die Kosten pro Token um den Faktor 10 und steigern den Durchsatz pro Megawatt ebenfalls um das Zehnfache. Beim Llama 3 70B-Modell erreichte das System eine Latenz von 18 ms pro Token – eine Reduzierung der Gesamtbetriebskosten um 90 Prozent im Vergleich zu H100-basierten Konfigurationen.

Thinking Machines Lab, ein weiterer früher Partner, hat seinen Vertrag mit Google Cloud bereits verlängert und setzt nun auf A4X Max virtuelle Maschinen mit NVIDIA GB300 GPUs. Erste Tests zeigen eine Verdopplung der Trainings- und Inferenzgeschwindigkeit. Möglich machen das Googles Jupiter-Netzwerk und die neue NeMo RL API, die den PPO-Trainingsaufwand um 40 Prozent reduziert. Bei einem 7B-Parameter-Modell sanken die RLHF-Iterationszeiten von sechs auf 3,5 Stunden.

Der Kampf um GPUs: Kleine Startups im Nachteil

Während sich OpenAI und andere Schwergewichte frühzeitig Zugang zur neuesten Hardware sichern, bleibt der breite Markt von einem massiven Ungleichgewicht zwischen Angebot und Nachfrage geprägt. Berichte aus dieser Woche zeigen: Microsoft und andere große Cloud-Anbieter horten NVIDIA-GPUs in großem Stil. Die Folge: Gut finanzierte KI-Startups müssen um die verbleibende Kapazität kämpfen – zu immer höheren Preisen. Microsoft-Mitarbeiter rechnen damit, dass Wartezeiten für Cloud-Kunden bis Ende 2026 anhalten werden, da der Konzern interne Teams und Premium-Partner bevorzugt.

Um die Engpässe zu mildern, setzen Cloud-Anbieter zunehmend auf Diversifizierung. Amazon Web Services (AWS) qualifiziert den AMD MI300X-Chip schneller, bleibt aber gleichzeitig NVIDIA treu. Bis 2027 soll NVIDIA mehr als eine Million Blackwell- und Rubin-GPUs an AWS liefern – inklusive tieferer Integration von Spectrum- und ConnectX-Netzwerktechnologie.

Meta wiederum versucht, seine Abhängigkeit von traditionellen GPUs für bestimmte Aufgaben zu reduzieren. In einer Vereinbarung vom 24. April 2026 wird Meta beginnen, Zehntausende von AWS Graviton-Prozessorkernen für „agentic AI“-Aufgaben einzusetzen – darunter Echtzeit-Inferenz und Codegenerierung. Die Graviton5-Chips sind speziell für CPU-intensive Aufgaben optimiert und erlauben es Meta, bestimmte Funktionen von teureren GPU-Clustern auszulagern.

SpaceX geht eigene Wege: Vom Kunden zum Chip-Hersteller

Eine der bemerkenswertesten Entwicklungen der Branche kommt von SpaceX. In seinem S-1-Filing vom 23. April 2026 – im Vorfeld des erwarteten Börsengangs mit einer Bewertung von 1,75 Billionen US-Dollar – gab das Unternehmen bekannt, eigene GPUs oder spezialisierte KI-Beschleuniger fertigen zu wollen. Grund: fehlende langfristige Lieferverträge mit traditionellen Chip-Anbietern und steigende Kosten für Drittanbieter-Silizium.

Das „TeraFab“-Projekt in Austin, Texas – eine Gemeinschaftsinitiative von SpaceX, Tesla und xAI – soll zwischen 20 und 25 Milliarden US-Dollar kosten. Ziel ist die Produktion von einem Terawatt KI-Rechenleistung pro Jahr, wovon rund 80 Prozent für orbitale Rechenzentren vorgesehen sind. SpaceX setzt dabei auf Intels 14A-Prozess. Die Warnung im Filing vor erheblichen Kapitalausgaben und Ertragsrisiken zeigt jedoch: Der Weg zur eigenen Chip-Produktion ist steinig. Branchenbeobachter rechnen nicht vor 2028 mit nennenswerten Produktionsmengen.

Die gesamten Investitionen in KI-Infrastruktur bleiben indes hoch: 64 Prozent Wachstum 2025, 58 Prozent 2026. Unternehmen suchen zunehmend nach modellunabhängigen Werkzeugen und eigener Hardware, um sich im Wettbewerb um den auf mehrere Billionen Dollar geschätzten Markt zu behaupten.

Von der Cloud auf den Schreibtisch: Neue Hardware und Software

Der Technologiesprung in den Rechenzentren erreicht auch den professionellen und privaten Markt. Ende April bestätigte NVIDIA die Verfügbarkeit der RTX PRO 4500 Blackwell Server Edition – ab rund 3.670 Euro. Die passive Single-Slot-Karte bietet 10.496 CUDA-Kerne und 32 GB GDDR7-Speicher.

Auf der Softwareseite erhielt die NVIDIA App am 24. April 2026 ein großes Update auf Version 11.0.7 – mit DLSS 4.5. Die neue „Dynamic Multi Frame Generation“ bietet 5X- und 6X-Modi für die RTX-50-Serie. Diese können bis zu fünf Zwischenbilder pro gerendertem Bild generieren. In CAPCOMs PRAGMATA erreichte die RTX 5090 so über 480 FPS bei 1080p.

Auch bei der Modelleffizienz tut sich etwas: Am 24. April 2026 stellte DeepSeek sein V4-Modell vor. Es hat 1,6 Billionen Parameter, aber nur 49 Milliarden aktive Parameter. Optimiert für NVIDIA Blackwell, verbraucht es 73 Prozent weniger Gleitkommaoperationen und 90 Prozent weniger KV-Cache als sein Vorgänger. Auf dem GB200 NVL72-Stack erreicht es über 150 Tokens pro Sekunde.

Anzeige

Mit der rasanten Entwicklung leistungsfähigerer Modelle wachsen auch die gesetzlichen Dokumentationspflichten für Unternehmen. Erhalten Sie jetzt einen kompakten Überblick über alle Fristen und Risikoklassen, die der EU AI Act vorschreibt, um rechtliche Risiken frühzeitig zu minimieren. EU AI Act in 5 Schritten verstehen

Ausblick: Die Ära der KI-Fabriken beginnt

Die Branche bewegt sich in der zweiten Jahreshälfte 2026 weg vom reinen GPU-Erwerb hin zum Bau kompletter „KI-Fabriken“, die Hardware, Netzwerke und spezialisierte Software integrieren. Die Partnerschaft zwischen Google Cloud und NVIDIA zur Einführung der Vera-Rubin-Architektur markiert einen Meilenstein auf diesem Weg.

Doch der Weg bleibt kapitalintensiv und von Lieferkettenproblemen geprägt. SpaceX‘ Einstieg in die Chip-Fertigung ist ein mutiger Versuch der Selbstversorgung – aber die technischen Hürden des Intel-14A-Prozesses bedeuten, dass eine nennenswerte Produktion frühestens 2028 beginnt. Bis dahin bleibt die Branche abhängig von einem knappen Angebot an High-End-GPUs. Ein Zustand, der weiterhin die großen Cloud-Anbieter und etablierten KI-Labore begünstigt – jene mit den Ressourcen, sich frühzeitig Zugang zur neuesten Silizium-Generation zu sichern.