Der Wettlauf um die leistungsfähigste KI-Infrastruktur erreicht eine neue Dimension: NVIDIA und seine Partner treiben den Wechsel zur Vera-Rubin-Architektur voran, während sich die Branche mit Lieferengpässen und neuer Konkurrenz konfrontiert sieht. Die Ankündigungen auf der Google Cloud Next Konferenz zwischen dem 23. und 25. April 2026 markieren einen Wendepunkt – weg von einzelnen Hardware-Komponenten, hin zu integrierten „KI-Fabriken“.
Der Zeitpunkt ist kein Zufall: Branchenanalysten prognostizieren für 2025 ein Wachstum der Investitionen in KI-Infrastruktur von 64 Prozent, gefolgt von weiteren 58 Prozent im Jahr 2026. Der Hunger nach Rechenleistung scheint unstillbar.
Während die technische Entwicklung von KI-Systemen rasant voranschreitet, müssen Unternehmen zwingend auch die rechtlichen Leitplanken des EU AI Acts im Blick behalten. Dieser kostenlose Leitfaden zeigt Ihnen, welche neuen Anforderungen und Fristen seit August 2024 für den Einsatz und die Entwicklung von KI gelten. Jetzt kostenlosen Umsetzungsleitfaden zum EU AI Act sichern
Vera Rubin: Der nächste Quantensprung
Im Zentrum der Neuigkeiten steht die strategische Partnerschaft zwischen NVIDIA und Google Cloud. Der Vera-Rubin-Stack, benannt nach der amerikanischen Astronomin, soll die nächste Generation „agentischer“ und physischer KI antreiben. Herzstück sind die A5X-Instanzen, die auf dem Vera-Rubin-NVL72-System basieren.
Die technischen Daten sind beeindruckend: Bei großen Sprachmodellen wie Llama 3 70B sinkt die Inferenz-Latenz auf 18 Millisekunden pro Token. Noch wichtiger für Unternehmen: Die Gesamtbetriebskosten liegen 90 Prozent niedriger als bei den Vorgänger-H100-Systemen.
Die Skalierbarkeit der neuen Infrastruktur ist gewaltig. Google Clouds KI-Hypercomputer-Plattform kann nun bis zu 80.000 Rubin-GPUs pro Standort verkraften, standortübergreifend sogar 960.000 GPUs. Thinking Machines Lab, einer der ersten Anwender, berichtet von einer Verdopplung der Trainings- und Servingsgeschwindigkeiten bei den A4X-Max-VMs mit NVIDIAs GB300-GPUs.
Blackwell: Auch für den Schreibtisch
Doch nicht nur die Spitzenklasse bekommt Zuwachs. Das Blackwell-Portfolio wächst um A4-, A4X- und G4-Instanzen. Seit Ende März 2026 ist zudem DLSS 4.5 mit Dynamic Multi Frame Generation verfügbar – eine Technik, die bis zu fünf Zwischenbilder generiert. Für Profis bringt NVIDIA die RTX PRO 4500 Blackwell Server Edition mit 10.496 CUDA-Kernen und 32 Gigabyte GDDR7-Speicher, Preis: rund 3.670 Euro.
Allerdings läuft nicht alles rund: Entwickler berichten von Firmware-Problemen bei Dual-RTX-5090-Systemen und Blackwell-basierten PRO-4000-Systemen. Systemabstürze und Timeout-Fehler werden derzeit per Treiber-Workaround behoben.
Der GPU-Engpass: Horten als Geschäftsmodell
Trotz aller Fortschritte bleibt der Zugang zu High-End-Hardware der Flaschenhals. Interne Berichte großer Cloud-Anbieter deuten darauf hin, dass Kunden bis Ende 2026 mit Wartezeiten rechnen müssen. Schuld ist das „Horten“ der ganz Großen: Microsoft, Amazon und andere Cloud-Giganten bevorzugen ihre eigenen Entwicklungsteams und Top-Kunden wie OpenAI und Anthropic bei der Zuteilung der neuesten Blackwell-Chips.
Neben der reinen Hardware-Verfügbarkeit entscheiden zunehmend regulatorische Risikoklassen über den Erfolg und die Sicherheit von KI-Projekten im Unternehmen. Ein kompakter Überblick hilft Ihrer IT- und Rechtsabteilung dabei, die neuen Pflichten der EU-KI-Verordnung rechtzeitig und vollständig zu erfüllen. EU AI Act in 5 Schritten verstehen – Gratis-E-Book herunterladen
Die Folgen für kleinere KI-Startups sind dramatisch. Die Preise für Rechenzeit stiegen binnen sechs Monaten um über 30 Prozent – auf rund 3,70 Dollar pro Stunde für bestimmte Konfigurationen. Immer mehr gut finanzierte Startups versuchen daher, eigene Hardware zu kaufen, statt auf Cloud-Verfügbarkeit zu hoffen.
Verschärft wird die Lage durch neue Lizenzbedingungen: NVIDIAs aktualisierte Endbenutzer-Lizenzvereinbarung schränkt Multi-Tenant-GPU-Sharing ohne spezielle Lizenzen ein. Die Folge: Einige Cloud-Anbieter beschleunigen die Qualifikation alternativer Hardware wie AMDs MI300X. Microsoft führt derweil ein Drei-Stufen-System für die Chip-Zuteilung ein – wer hohe Priorität will, muss mindestens 1.000 Blackwell-Chips über ein Jahr binden.
Neue Konkurrenz: AMDs Software-Offensive und SpaceX‘ Hardware-Ambitionen
Während NVIDIA den High-End-GPU-Markt dominiert, suchen Wettbewerber neue Wege. AMD bereitet den Start der RDNA-4-Architektur mit der RX-9000-Serie vor. Dokumente aus Ende April 2025 deuten auf FSR Frame Generation 4 hin – mit einstellbaren Multi-Frame-Multiplikatoren als Antwort auf NVIDIAs DLSS 4.5.
Parallel dazu setzt Meta auf Diversifizierung: Der Social-Media-Konzern schloss einen großen Liefervertrag mit Amazon für AWS-Graviton-Chips – ARM-basierte CPUs statt GPUs – für rechenintensive KI-Agenten-Workloads wie Echtzeit-Inferenz und Code-Generierung. Der Deal umfasst zig Millionen Graviton-Kerne.
Die wohl disruptivste Entwicklung kommt jedoch von SpaceX. In seinem S-1-Registrierungsantrag für den geplanten Börsengang (geschätzter Wert: 1,75 Billionen Dollar) enthüllte das Raumfahrtunternehmen Pläne für die eigene GPU-Produktion. Das Projekt „Terafab“ in Austin, Texas, soll eine Billion Watt KI-Rechenleistung pro Jahr liefern.
Die Kosten sind astronomisch: zwischen 20 und 25 Milliarden Dollar. SpaceX arbeitet mit Intel zusammen, um den 14A-Prozess zu nutzen. Ziel ist eine vertikale Integration – ein „Chip-Closed-Loop“ – um die Abhängigkeit von traditionellen Chip-Anbietern zu umgehen. Rund 80 Prozent der Terafab-Produktion sollen in orbitale Rechenzentren fließen, die ein Netz von bis zu einer Million Satelliten unterstützen.
Die neue Ordnung: Software-Ökosysteme statt reiner Hardware
Der Wandel hin zu Vera Rubin und interner Chip-Produktion markiert einen Bruch mit dem traditionellen Modell standardisierter Rechenzentren. Branchenexperten betonen: NVIDIAs Aufstieg zu einer prognostizierten Marktkapitalisierung von fünf Billionen Dollar im zweiten Quartal 2026 gründet nicht nur auf Hardware, sondern auf „Software-Lock-in“ durch die CUDA-Plattform.
Durch die Integration von Technologien wie Omniverse und Isaac Sim direkt in den Google Cloud Marketplace verankert NVIDIA sein Ökosystem in den Kern-Workflows der industriellen KI. Doch die massiven Kapitalanforderungen für diese Infrastruktur spalten den Markt: Während sich Giganten wie Google und Meta Millionen von GPUs leisten können, werden kleinere Spieler abgehängt.
Googles achte TPU-Generation – der TPU 8t für Training und TPU 8i für Inferenz – bietet eine weitere Alternative zu NVIDIAs Dominanz. Der 8t skaliert auf 9.600 Chips pro SuperPod. Der Wettbewerb findet nicht mehr nur zwischen Chip-Herstellern statt, sondern zwischen gesamten vertikal integrierten Cloud-Stacks.
Ausblick: Wann kommt die Entspannung?
Die Nachfrage nach KI-Rechenleistung zeigt keine Anzeichen einer Stabilisierung. Der gesamte adressierbare Markt für KI-Technologie wird bis Ende des Jahrzehnts auf Billionen Dollar geschätzt. Der Druck auf die Lieferkette bleibt immens.
Investoren und Analysten werden den SpaceX-Börsengang im Sommer 2026 genau verfolgen – kann das Unternehmen seinen ambitionierten Halbleiter-Fahrplan umsetzen? Für Cloud-Kunden bleibt die nahe Zukunft von langen Vorlaufzeiten und hohen Kosten geprägt. Die Vera-Rubin-Architektur verspricht zwar den zehnfachen Durchsatz pro Megawatt und niedrigere Kosten pro Token – doch diese Vorteile werden zunächst nur denen zugutekommen, die frühzeitig Zugang sichern.
Ob die „KI-Fabriken“ am Ende des Jahres 2026 erfolgreich sein werden, hängt davon ab, ob das Angebot endlich mit der exponentiellen Nachfrage Schritt halten kann.





