NVIDIA und Google: 800V-Infrastruktur für Rechenzentren ab Q3

NVIDIA veröffentlicht Treiber-Update für Rechenzentren, schließt Sicherheitslücken und kündigt neue Hardware sowie 800V-Stromversorgung an.

Der Chipkonzern NVIDIA hat einen umfassenden Update-Schub für seine Rechenzentrums-GPUs veröffentlicht – und bereitet parallel den Weg für eine neue Generation von Hochleistungsstromversorgung. Die Treiberversion 580.167.08 für Linux bringt entscheidende Stabilitätsverbesserungen für KI-Cluster.

Anzeige

Warum 85% der Top-Supercomputer auf Linux setzen – entdecken Sie die Vorteile der Technologie hinter Nvidias KI-Clustern für Ihren eigenen PC. Mit diesem kostenlosen Startpaket inklusive Ubuntu-Vollversion gelingt der Umstieg von Windows besonders sicher und einfach. Kostenloses Linux-Startpaket jetzt anfordern

Neue Treiber für Blackwell-Plattformen

Die am 15. Juni ausgelieferte Data Center GPU Driver 580.167.08 adressiert mehrere technische Hürden in komplexen Multi-GPU-Setups. Im Fokus stehen kritische Fehlerbehebungen für die Kommunikationsprotokolle IMEX (Inter-Module Exchange) und gRPC. Besonders die Stabilitätsprobleme rund um B200 NVLINK-Interrupts sowie die XID-Fehler 145, 137 und 94 wurden behoben – Fehlercodes, die bislang große Rechenaufgaben zum Absturz bringen konnten.

Eine Schlüsselinnovation ist das Coherent Driver-Based Memory Management (CDMM) für die GB200-Plattform. Die Funktion optimiert die Speicherverwaltung über die gesamte Grace-Blackwell-Architektur hinweg. Allerdings gibt es Kompatibilitätshürden: Der Treiber läuft nicht mit EUD-Versionen unter 580.159.X, Hopper-GPUs mit VBIOS unter 96.00.68.00.xx oder DCGM-Versionen vor 4.3.x.

Sicherheitslücken geschlossen

Parallel zu den Leistungs-Updates haben NVIDIA und seine Partner mehrere Sicherheitslücken gestopft. Am 16. Juni erschien ein Update für den NVIDIA Open GPU Driver unter SUSE Linux Enterprise 15 SP4 und openSUSE Leap 15.4. Es behebt fünf Schwachstellen – darunter CVE-2024-0150, eine Privilegieneskalation mit einem CVSS-Schweregrad von 7,1, sowie CVE-2024-53869, eine Speicherkorruption innerhalb von CUDA-Operationen.

Bereits im Mai 2026 hatte NVIDIA Patches für CVE-2026-24190 ausgeliefert, um eine weitere Privilegieneskalation durch Pointer-Slot-Kollisionen zu verhindern – betroffen waren die Architekturen Turing, Ampere, Ada Lovelace und Blackwell. Zusätzlich wurde CVE-2026-24182 behoben, eine Denial-of-Service-Lücke durch Ressourcen-Lock-Leaks.

Anzeige

Während NVIDIA kritische Sicherheitslücken in seinen Linux-Treibern schließt, können auch Desktop-Nutzer von der hohen Stabilität und Sicherheit des Open-Source-Systems profitieren. Linux-Experte Kaner Etem zeigt Ihnen in diesem Gratis-Report, wie Sie Ubuntu ohne Risiko und ohne Installation direkt von einem USB-Stick testen. Kostenlosen PDF-Ratgeber zum Linux-Test herunterladen

Desktop-Supercomputer für KI-Entwicklung

Die Software-Updates fallen mit neuen Hardware-Launches zusammen. ASUS brachte den ExpertCenter Pro ET900N G3 auf den Markt – einen Tisch-Supercomputer auf Basis der NVIDIA DGX Station GB300. Das System kostet umgerechnet rund 140.000 Euro und bietet eine 72-Kern-Arm-Neoverse-V2-Grace-CPU sowie eine Blackwell-Ultra-GPU. Mit 748 GB kohärentem Speicher (LPDDR5X und HBM3e) erreicht es bis zu 20 PFLOPS KI-Leistung.

Ebenfalls im Rampenlicht: der RTX Spark PC mit 1 Petaflop KI-Leistung und 128 GB Unified Memory. In Zusammenarbeit mit Microsoft werden diese Systeme für lokale KI-Agenten optimiert. Verbesserungen an Llama.cpp sollen die Modellgeschwindigkeit durch Multi-Token-Vorhersage verdoppeln. Allerdings gibt es erste Kinderkrankheiten: Am 15. Juni wurden GPU-Initialisierungsfehler (Xid 119) auf DGX-Spark-Einheiten gemeldet, die zu Hardware-Austausch durch den NVIDIA-Support führten.

800-Volt-Revolution für Rechenzentren

NVIDIA baut nicht nur Chips – das Unternehmen gestaltet die physische Infrastruktur von Rechenzentren neu. Gemeinsam mit Google investiert NVIDIA in 800V-Gleichstrom-Infrastruktur (HVDC). Die ersten Auslieferungen werden für das dritte Quartal 2026 erwartet. Die höhere Spannung reduziert Energieverluste und ermöglicht dünnere Kabel in hochdichten Umgebungen.

Der Schritt ist Voraussetzung für kommende Plattformen wie den Rubin Ultra, der Leistungsdichten von 450 kW pro Rack erreichen soll. Zukünftige „Feynman“-Systeme werden sogar zwischen 600 kW und 1 MW pro Rack benötigen. Der 800V-Gleichstrom-Standard soll in NVIDIAs Kyber Racks integriert werden, die für 2027 geplant sind und bis zu 576 Rubin-Ultra-Chips aufnehmen können.

Vera-CPU für den chinesischen Markt

Mit der Vera-CPU bringt NVIDIA zudem einen Arm-basierten Serverprozessor speziell für den chinesischen Markt. Ab August 2026 verfügbar, soll der chip eine bis zu 1,8-fache Leistungssteigerung gegenüber Konkurrenzprodukten bieten. Die Entwicklung ist ein Balanceakt: Die Vera-CPU soll KI-Infrastruktur ermöglichen, ohne gegen internationale Exportbeschränkungen zu verstoßen.