TensorRT 11.0: NVIDIA baut KI-Plattform mit Multi-GPU-Support aus

NVIDIA präsentiert TensorRT 11.0 mit Multi-GPU-Funktionen und erweitert die Kooperation mit AWS für leistungsstärkere KI-Instanzen.

Der US-Chipkonzern erweitert seine KI-Plattform mit Multi-GPU-Support und neuen Partnerschaften.

NVIDIA hat am 25. Juni 2026 TensorRT 11.0 vorgestellt – eine bedeutende Weiterentwicklung der hauseigenen Inferenz-Software. Die neue Version ermöglicht erstmals natives Multi-Device-Inferenz-Support über mehrere GPUs hinweg. Gleichzeitig kündigte das Unternehmen am 24. Juni eine Ausweitung der Zusammenarbeit mit Amazon Web Services (AWS) an.

Multi-GPU-Parallelisierung für große Sprachmodelle

Das Herzstück von TensorRT 11.0 ist die Integration der NVIDIA Collective Communications Library (NCCL). Sie erlaubt fortschrittliche Tensor- und Context-Parallelisierung – ein entscheidender Faktor für die enormen Speicheranforderungen moderner generativer Modelle.

In Tests mit NVIDIA Cosmos 3 und FLUX.1 zeigten sich mehrere Parallelisierungsstrategien als vielversprechend. DeepSpeed Ulysses lieferte die geringste Latenz bei langen Kontexten, während Ring Attention bei vier GPUs besonders effizient skalierte.

Ebenfalls am 25. Juni gab NVIDIA bekannt, dass DDN Infinia als erster Storage-Anbieter native Unterstützung für das NIXL-KV-Cache-Management erhält. Die Integration, die mit dem NIXL-1.3-Plugin im Juli 2026 ausgeliefert wird, ermöglicht Zero-Copy-Offloading. Das System nutzt DMA und RDMA für das Cache-Management und unterstützt Fehlertoleranz sowie Prefill-Decode-Disaggregation – essenziell für KI-Anwendungen mit langen Kontexten.

AWS Blackwell-Instanzen: 4,6-fache Leistungssteigerung

Die Partnerschaft zwischen NVIDIA und AWS erreicht eine neue Dimension. Seit Mitte Juni 2025 sind EC2-G7-Instanzen mit NVIDIA RTX PRO 4500 Blackwell GPUs in ausgewählten Regionen wie Ohio und Oregon verfügbar. Die neuen Instanzen liefern laut NVIDIA eine bis zu 4,6-fach höhere KI-Inferenzleistung als die Vorgängergeneration G6.

Anzeige

TensorRT 11.0 ermöglicht natives Multi-Device-Inferenz-Support – ein entscheidender Schritt für Entwickler, die große Sprachmodelle effizient betreiben wollen. Der Praxisleitfaden zeigt, wie Sie NCCL, DeepSpeed Ulysses und Ring Attention in Ihrer Umgebung einsetzen. Praxisleitfaden Multi-GPU-Inferenz jetzt sichern

Ein weiterer Meilenstein: Die NVIDIA-cuVS-Bibliothek wird als Standard für die Vektorindizierung in OpenSearch Serverless integriert. Das beschleunigt die Indizierungsgeschwindigkeit um das Zehnfache und senkt die Kosten um rund 75 Prozent. Für den weiteren Jahresverlauf 2026 plant AWS, weltweit mehr als eine Million NVIDIA-GPUs zu installieren – sowohl auf Blackwell- als auch auf der kommenden Rubin-Architektur.

DFlash: 15-fach höherer Durchsatz bei spekulativem Decoding

Am 24. Juni stellte NVIDIA DFlash vor, einen Block-Diffusion-Drafter für spekulatives Decoding. Erste Ergebnisse zeigen bis zu 15-fach höheren Durchsatz auf Blackwell-Hardware bei bestimmten großen Modellen. Im Vergleich zu früheren Verfahren erreichte DFlash eine durchschnittliche Beschleunigung um das 4,86-Fache.

Medizintechnik: Echtzeit-KI im Operationssaal

Johnson & Johnson MedTech setzt mit seinem Polyphonic-Ökosystem auf TensorRT in Kombination mit NVIDIA IGX und Holoscan. Die Edge-to-Cloud-Architektur ist für chirurgische Echtzeit-Intelligenz ausgelegt. Die Inferenzzeit für Aufgaben wie Phasenerkennung und Instrumentendetektion liegt bei unter 20 Millisekunden. Die Genauigkeit der Phasenerkennungsmodelle bewegt sich zwischen 93 und 95 Prozent.

Anzeige

Lange Inferenzzeiten und hohe Kosten bremsen Ihre KI-Projekte? Mit TensorRT 11.0 und den richtigen Parallelisierungsstrategien senken Sie die Latenz um ein Vielfaches. Die Checkliste im Report hilft Ihnen, Ihre Infrastruktur gezielt zu optimieren. Checkliste zur KI-Optimierung anfordern

BEVPoolV3: 42-fache Beschleunigung für physikalische KI

Für visionbasierte physikalische KI brachte NVIDIA am 24. Juni BEVPoolV3 auf den Markt. Das Plugin, das seit dem 25. Juni auch für Windows-basierte RTX-AI-Entwicklung verfügbar ist, nutzt Cache-Fit-Daten-Neuanordnung und FP8-Matrix-Kerne. Benchmarks auf professioneller Blackwell-Max-Q-Hardware zeigen Latenzreduzierungen – in einigen Pfaden bis zu 42-fache Beschleunigung gegenüber Vorgängerversionen bei der Verarbeitung von Kamera-zu-BEV-Indizes.