NVIDIA CCCL Runtime: Neue GPU-Programmierung ohne Standard-Stream

NVIDIA stellt mit CCCL Runtime eine moderne C++-Umgebung vor, die GPU-Programmierung durch starke Typisierung und explizite Abläufe grundlegend vereinfacht.

NVIDIA hat eine neue Programmierumgebung vorgestellt, die GPU-Entwicklung grundlegend verändert.

Der US-Chipriese veröffentlichte am heutigen Montag das CCCL Runtime – eine moderne C++-Laufzeitumgebung für die CUDA-Plattform. Die Neuerung bringt komplett überarbeitete Programmierschnittstellen (APIs) für Stream-Management, Speicherverwaltung und Kernel-Ausführung mit sich. Das Ziel: explizitere und stärker typisierte GPU-Programmierung.

Anzeige

Die rasante Entwicklung neuer KI-Technologien und Programmierumgebungen wie CCCL zeigt, wie wichtig ein rechtlicher Rahmen ist. Dieser kostenlose E-Book-Download verschafft Ihnen den Überblick über Fristen, Pflichten und Risikoklassen des neuen EU AI Acts, den Ihre Rechts- und IT-Abteilung jetzt dringend braucht. EU AI Act in 5 Schritten verstehen

Abschied von alten Mustern

Das CCCL Runtime bricht mit traditionellen CUDA-Entwicklungsmustern. Statt implizitem Zustandsmanagement setzt NVIDIA nun auf explizite Abhängigkeiten. Der bisherige Standard-Stream wurde komplett abgeschafft – sämtliche Operationen müssen jetzt nicht-blockierend und explizit verwaltet werden.

Die neue Umgebung nutzt starke Typisierung, um häufige Programmierfehler von vornherein auszuschließen. Für den Umstieg stellt NVIDIA Kompatibilitätswerkzeuge bereit, die eine schrittweise Einführung der neuen APIs ermöglichen.

Die Veröffentlichung fällt mit weiteren Ökosystem-Entwicklungen zusammen. Bereits am 10. Juni brachte NVlabs, NVIDIAs Forschungslabor, cuda-oxide Version 0.2.1 heraus – einen experimentellen Compiler, der GPU-Kernel in nativem Rust erlaubt.

Fortschritte bei KI-Inferenz und Speichermanagement

Parallel zum neuen Runtime hat NVIDIA auch seine Software-Stacks für große Sprachmodelle (LLMs) optimiert. Am 20. Juni erschien Transformer Engine 2.16.0, die asynchrones CPU-Auslagern von Aktivierungstensoren in PyTorch ermöglicht.

Die Technik verlagert Aktivierungsdaten während des Vorwärtsdurchlaufs von der GPU zur CPU und schont so den GPU-Speicher – ohne aufwändige Neuberechnungen. Das System nutzt die 900 GB/s Bandbreite von NVLink-C2C, wie sie in GB200-Systemen zum Einsatz kommt.

Einen Tag später, am 21. Juni, tauchte mit NexusRT eine experimentelle Firmware-zentrierte Laufzeitumgebung auf. Das Open-Source-Projekt will Latenzen bei LLM-Inferenz senken, indem es das Betriebssystem umgeht und direkt mit der CUDA-Treiber-API für speicher- und planungsnative GPU-Aufgaben interagiert.

Anzeige

Während NVIDIA die technologischen Grenzen für KI-Systeme verschiebt, stellt die EU mit der neuen KI-Verordnung klare Regeln für deren Einsatz auf. Welche KI-Systeme als Hochrisiko gelten und was Unternehmen jetzt konkret tun müssen, klärt dieser kostenlose Report praxisnah auf. Kostenlosen Umsetzungsleitfaden zum EU AI Act sichern

Vera Rubin: Die nächste Hardware-Generation

Die Software-Updates begleiten die Enthüllung von NVIDIAs nächster Plattform: Vera Rubin. Das am heutigen Montag vorgestellte System ist für wissenschaftliche Supercomputer und agentische KI ausgelegt und bietet über 7 Exaflops KI-Leistung. Die Vera CPU soll Simulations-Workloads deutlich schneller verarbeiten als herkömmliche x86-Prozessoren.

Infrastruktur-Partner bereiten sich bereits auf die neue Hardware vor. Supermicro präsentierte am Montag einen Bauplan für sein DCBBS HPC-System, das die Vera Rubin NVL4-Architektur unterstützt. Das skalierbare Design setzt auf Flüssigkeitskühlung mit 45°C Kühlmitteltemperatur – in bestimmten Klimazonen sind keine herkömmlichen Kältemaschinen mehr nötig. Für große Rechenzentren könnten die Kühlkosten dadurch um mehrere Millionen Euro jährlich sinken.

Open-Source-Treiber und wissenschaftliche Meilensteine

Auch die Open-Source-Gemeinschaft profitiert von der Ökosystem-Erweiterung. Am 19. Juni erhielt der NVK Vulkan-Treiber für NVIDIA-GPUs experimentelle Unterstützung für Deep Learning Super Sampling (DLSS) im Mesa 26.2-Entwicklungszweig. Die Implementierung lädt spezifische NVIDIA CuBIN-Dateien – allerdings fehlt derzeit die vollständige PTX-zu-NIR-Übersetzung, was die Kompatibilität auf bestimmte GPU-Binärdateien beschränkt. Eine stabile Version wird für August 2026 erwartet.

Die technologischen Entwicklungen finden bereits praktische Anwendung. Am heutigen Montag demonstrierte der JUPITER-Exascale-Supercomputer, angetrieben von NVIDIA Grace Hopper-Systemen, mehrere wissenschaftliche Meilensteine. Dazu gehören eine 50-Qubit-Quantencomputer-Simulation sowie das ICON-Klimamodell, das mit 1-Kilometer-Auflösung auf über 20.000 GH200-Modulen läuft.