Nvidia senkt Token-Kosten um 80 Prozent: Software-Durchbruch

Der Chipkonzern Nvidia will den Bau globaler KI-Rechenzentren mit einem neuartigen Kapitalmodell beschleunigen. Gleichzeitig senken Software-Optimierungen die Betriebskosten für KI-Modelle um ein Vielfaches.

Die Ankündigungen vom Juli 2026 markieren einen strategischen Wendepunkt: Statt wie bisher auf teure Eigenbauten zu setzen, führt Nvidia ein Revenue-Sharing-Modell für KI-Cloud-Anbieter ein. Partner können künftig auf Großinfrastruktur zugreifen, ohne die üblichen Hürden von Standortsuche und milliardenschweren Vorabinvestitionen.

Neue Ära für KI-Fabriken

Bereits Anfang Juli benannte Nvidia mit Sharon AI und Firmus die ersten Teilnehmer des Programms. Sharon AI rüstet mit bis zu 40.000 GB300-Grafikprozessoren auf, während Firmus einen 360-Megawatt-Campus im indonesischen Batam entwickelt – Platz für rund 170.000 Nvidia-Chips.

Das dezentrale Modell helfe „KI-nativen“ Unternehmen wie Baseten, Fireworks AI und Together AI, sofortige Kapazitäten für ihre Rechenaufgaben zu erhalten, so der Konzern. Gleichzeitig stärke es die regionale digitale Souveränität.

Fünfmal günstiger: Software-Update senkt Token-Kosten

Noch beeindruckender sind die Fortschritte bei der Software. Nur einen Monat nach dem Start des Modells DeepSeek V4 gelang Nvidia ein Quantensprung: Durch gezieltes Software-Tuning auf der Blackwell-Architektur sanken die Kosten pro Token um bis zu 80 Prozent.

Die Ingenieure kombinierten mehrere Techniken – darunter entkoppelte Serverarchitekturen, große Experten-Parallelisierung und Multi-Token-Vorhersage. Branchendaten vom 1. Juli zeigen: Der Datendurchsatz stieg um das bis zu 20-Fache.

Die Kunden spüren den Unterschied unmittelbar. Baseten verzeichnete ein Plus von 50 Prozent bei Tokens pro Sekunde. Cognition nutzt das Dynamo-Framework für zusätzliche Optimierungen. Möglich machten dies Nvidias Open-Source-Ökosysteme CUDA, PyTorch und vLLM.

500 Milliarden für US-Produktion

Nvidia senkt Token-Kosten um 80% – allein durch Software-Tuning auf Blackwell. Erfahren Sie, welche Techniken (entkoppelte Server, Multi-Token-Vorhersage) Ihren Durchsatz vervielfachen. Der kostenlose Leitfaden zeigt die 5 entscheidenden Schritte. Optimierungs-Leitfaden anfordern

Parallel treibt Nvidia die Rückverlagerung der Chipfertigung in die USA voran. TSMCs Werk in Phoenix produziert bereits Blackwell-Wafer, Foxconns Standort in Houston und Wistrons Werk in Dallas montieren KI-Systeme.

Die geplanten US-Investitionen belaufen sich auf 500 Milliarden Euro. Für das laufende Jahr rechnet Nvidia damit, dass seine KI-Technologien 485 Milliarden Euro zum US-Bruttoinlandsprodukt beitragen und über 100.000 Arbeitsplätze sichern. Zulieferer wie Coherent und Corning bauen ihre Werke in Texas aus und schaffen tausende Fertigungsjobs.

Hardware-Meilenstein: Vera Rubin auf CoreWeave

Am 1. Juli erreichte die Hardware-Entwicklung einen neuen Meilenstein: Die Vera Rubin NVL72-Architektur wurde auf CoreWeave Cloud erfolgreich in Betrieb genommen und validiert. Pro Rack liefert das System 72 Rubin-GPUs und 36 Vera-CPUs mit einer Bandbreite von 260 Terabyte pro Sekunde über NVLink 6.

CoreWeave entwickelte spezielle Flüssigkeitskühlungen und Steuerungssysteme für die extrem dichte Rechenumgebung.

KI-Agenten: Neue Modelle und Werkzeuge

Auf der Software-Seite präsentierte Nvidia mehrere Updates für agentische KI:

KI-Betriebskosten drücken? Mit Nvidias Revenue-Sharing-Modell und Software-Optimierungen senken Sie Kosten und sichern sich GPU-Kapazitäten ohne Vorabinvestition. Der Leitfaden fasst die wichtigsten Hebel zusammen. Leitfaden per E-Mail sichern

Nemotron 3 Super: Ein Modell, das durch „Reinforcement Learning from Verifiable Rewards“ (RLVR) domänenspezifische Arbeitsabläufe für KI-Agenten verbessert.
Nemotron-Labs-TwoTower: Ein Open-Weight-Diffusionssprachmodell mit doppeltem Durchsatz bei gleichbleibend hoher Qualität.
BioNeMo Agent Toolkit: Seit Ende Juni mit Anthropic Claude Science integriert – beschleunigt Genomforschung und Proteinstrukturvorhersage. Wird bereits von den meisten führenden Pharmaunternehmen genutzt.
Metropolis Blueprints: Neue Vision-KI-Blaupausen für Fertigung und Logistik. Foxconn und Corning setzen sie bereits ein – Corning erreicht durch synthetische Datengenerierung hohe Präzision.

Am 2. Juli veröffentlichte Nvidia zudem CCCL 3.1 mit Fließkomma-Determinismus-Steuerung. Entwickler können nun gezielt Leistung gegen Reproduzierbarkeit eintauschen – ein entscheidender Vorteil für wissenschaftliche und Finanzanwendungen.

Neue Ära für KI-Fabriken

Fünfmal günstiger: Software-Update senkt Token-Kosten

500 Milliarden für US-Produktion

Hardware-Meilenstein: Vera Rubin auf CoreWeave

KI-Agenten: Neue Modelle und Werkzeuge

Ähnliche Beiträge

Apple Watch Series 12: Neuer Chip und 38 Stunden Akkulaufzeit

Philips 27M4N3500PT: Günstigster Triple-Mode-Monitor für 150 Euro

MacBook Pro: Apple hebt Preise um bis zu 300 Euro an

Apple Watch Series 12: Neuer Chip bringt zwei Stunden mehr Akku

AirPods-Update: Drei-Band-Equalizer und neuer adaptiver Modus

Wistron eröffnet erste US-Fabrik für NVIDIA-Superchips in Texas