KI-Inferenz: Vera Rubin senkt Kosten pro Token um Faktor zehn

Angesichts explodierender Energiekosten und knapper Stromkapazitäten rückt die Effizienz von KI-Rechenzentren in den Fokus der Tech-Branche.

Der neue Maßstab heißt „Tokens per Watt“ – also die maximale Rechenleistung pro verbrauchter Energieeinheit. Denn während das Training großer KI-Modelle viel Aufmerksamkeit bekam, verschlingt der eigentliche Betrieb, die sogenannte Inferenz, inzwischen 80 bis 90 Prozent der gesamten KI-Ausgaben. Hardware- und Software-Anbieter haben diese Woche gleich mehrere Lösungen vorgestellt, um genau diese Kosten zu drücken.

Während die Branche an der Energieeffizienz schraubt, rücken auch rechtliche Rahmenbedingungen wie der EU AI Act in den Fokus von Unternehmen. Dieser kostenlose Umsetzungsleitfaden bietet Ihnen einen kompakten Überblick über alle Anforderungen, Pflichten und Fristen der neuen KI-Verordnung. EU AI Act in 5 Schritten verstehen: Fristen, Pflichten und Risikoklassen kompakt erklärt

Optimierte Software und neue Hardware-Architekturen

Am heutigen Dienstag brachte das Software-Unternehmen Akamas eine Plattform zur Optimierung von KI-Infrastruktur auf den Markt. Sie verwaltet GPU-Workloads auf Kubernetes und durchforstet automatisch tausende Konfigurationen, um die Auslastung zu verbessern und Betriebskosten zu senken. Ebenfalls heute stellte I/ONX seine Architektur „Symphony SixtyFour“ vor. Sie bündelt 64 Beschleuniger in einem einzigen Knoten und vermeidet so Energieverluste, die sonst durch Host-Prozessoren entstehen. Das Unternehmen verspricht Einsparungen von bis zu 30 Kilowatt pro Rack und eine Reduktion der Gesamtbetriebskosten um 70 Prozent.

Bereits gestern gab NVIDIA bekannt, dass seine nächste Generation „Vera Rubin“ in die Massenproduktion gegangen ist. Die Plattform mit Rubin-GPU und Vera-CPU ist speziell für agentische KI-Dienste ausgelegt und verspricht deutlich höhere Effizienz als die Vorgänger. Die aktuelle Blackwell-Architektur liefere bereits bis zu zehnmal mehr Durchsatz pro Megawatt als die Hopper-Generation – vor allem bei Mixture-of-Experts-Modellen. Die für die zweite Jahreshälfte 2026 erwarteten Vera-Rubin-NVL72-Systeme sollen die Inferenzleistung noch einmal verfünffachen und die Kosten pro Token um den Faktor zehn senken.

Auch auf der Software-Seite tut sich etwas. Neue Techniken wie 8-Bit-Gleitkommagenauigkeit (FP8) und spekulatives Decoding senken die Kosten drastisch. Bei großen Sprachmodellen kann der Preis pro Million Tokens von knapp zwei Dollar auf rund einen Dollar fallen – bei fünffach höherem Durchsatz.

Licht statt Strom: Netzwerke als neuer Engpass

Die traditionelle elektrische Vernetzung gilt zunehmend als Flaschenhals für das KI-Wachstum. Das britische Startup Oriole Networks hat am Montag die erste großflächige Implementierung eines rein photonischen KI-Netzwerks namens PRISM vorgestellt. Statt elektrischer Switches setzt es auf Licht. Das Ergebnis: 81 Prozent weniger Stromverbrauch im Kernnetzwerk und eine GPU-Leerlaufzeit von unter einem Prozent. Das System wird derzeit im ARIA Scaling Inference Lab in Großbritannien eingesetzt, ein kommerzieller Rollout ist für 2027 geplant.

Der technologische Fortschritt bei KI-Systemen bringt nicht nur Effizienzgewinne, sondern auch neue regulatorische Dokumentationspflichten für Betreiber mit sich. Erfahren Sie in diesem kostenlosen Report, welche Systeme als Hochrisiko eingestuft werden und was Unternehmen jetzt konkret tun müssen. Kostenlosen Umsetzungsleitfaden zum EU AI Act sichern

Ein weiterer Trend sind sogenannte disaggregierte Cloud-Architekturen. Die von Vista Equity Partners und Cambium Capital gestartete Cloud „Vector Core Compute (VC2)“ trennt verschiedene Teile der KI-Verarbeitungskette. Intel Xeon 6-Prozessoren übernehmen die Orchestrierung, SambaNova-RDUs das Decoding und NVIDIA-Blackwell-GPUs das Prefill. Analysten zufolge ist dieser hybride Ansatz zwei- bis dreimal schneller als reine GPU-Stapel.

KI-Fabriken erobern die Welt

Die Spezialisierung schreitet auch geografisch voran. NVIDIA und die LG Group bauen gemeinsam KI-Zentren für Robotik und autonomes Fahren. LG Electronics entwickelt dabei modulare Kühllösungen – darunter Kaltplatten und Verteilungseinheiten – speziell für NVIDIAs neueste Hardware.

In Südkorea erweitert NAVER seine „souveräne KI“-Infrastruktur mit NVIDIAs Design- und Simulationsplattformen. Gestartet mit 55 Megawatt Kapazität im Rechenzentrum GAK Sejong, sind Ausbaustufen im Gigawatt-Bereich geplant.

Der britische Supercomputer Isambard-AI bleibt mit 5.400 NVIDIA-GH200-Chips das leistungsstärkste System des Landes. Die Regierung fördert zudem spezialisierte Labore, die sich auf Inferenz-Effizienz konzentrieren. Einige Einrichtungen berichten von 90 Prozent niedrigeren Kosten durch fortsrittliche KV-Cache-Kompression und optimierte Modellstarts.

Branchenprognosen zufolge wird die Rack-Dichte in Rechenzentren von rund 27 Kilowatt im Jahr 2026 auf bis zu 100 Kilowatt im Jahr 2027 steigen. Das treibt die Einführung von Flüssigkeitskühlung voran, die einen Effizienzvorteil von 17 Prozent gegenüber herkömmlicher Luftkühlung bietet.

Optimierte Software und neue Hardware-Architekturen

Licht statt Strom: Netzwerke als neuer Engpass

KI-Fabriken erobern die Welt

Ähnliche Beiträge

Vera Rubin AI Factory: Japans 6,2-Milliarden-Plan für physische KI

Windows 10: 1.903 Sicherheitslücken – fast dreimal mehr als Windows 11

Apple Watch Series 11: Preise fallen auf 299 Euro nach Sommerschlussverkauf

Gaming-Zubehör: Premium-Features wie Hall-Effekt jetzt unter 100 Euro

DDR5-Speicher: Preise um 448 Prozent teurer als Vorjahr

AMD GEAK v3: 3-fache GPU-Beschleunigung für KI-Workloads