RTX 5090: NVIDIA-Grafikkarte erreicht 14.073 Token-Durchsatz

NVIDIA präsentiert RTX Spark für lokale KI und die Enterprise-Plattform Vera Rubin. Die RTX 5090 zeigt Rekordwerte, leidet aber unter anhaltenden Steckerproblemen.

NVIDIA erweitert sein Hardware-Portfolio gleich in mehreren Bereichen: Während die RTX-Spark-Plattform KI-Berechnungen direkt auf Laptops und Workstations ermöglicht, bereitet sich die Enterprise-Architektur Vera Rubin auf einen breiten Marktstart im Herbst vor. Erste Benchmarks der Flaggschiff-Grafikkarte RTX 5090 zeigen beeindruckende Leistungssprünge – doch es gibt auch Schattenseiten.

RTX 5090: Rekordleistung mit Risiken

Die neue GeForce RTX 5090 setzt neue Maßstäbe im High-End-Gaming. Bei Tests mit dem Titel Control Resonant am 27. Juni 2026 stellte die Karte eine neue Bestmarke auf. Noch beeindruckender sind die Ergebnisse im KI-Bereich: In der Llama.cpp-CUDA-Umgebung erreichte die RTX 5090 rund 14.073 Tokens pro Sekunde – ein deutlicher Sprung gegenüber den 11.993 Tokens der Vorgängergeneration RTX 4090.

Doch die Leistungssteigerung hat ihren Preis. Berichte vom 27. und 28. Juni 2026 dokumentieren erneut Probleme mit dem 16-Pin-Stromanschluss. In Vietnam kam es zu katastrophalen Hardware-Ausfällen: Der Stecker schmolz und zerstörte sowohl GPU als auch VRAM – und das trotz des neuen 12V-2×6-Standards und der ATX-3.1-Spezifikation.

Für die kommenden Super-Varianten der RTX-50-Serie zeichnen sich unterdessen Spezifikationen ab. Branchenleaks vom 28. Juni zufolge soll die RTX 5070 über 18 GB VRAM verfügen, während RTX 5070 Ti und RTX 5080 mit 24 GB ausgestattet werden. Die Preise für die Super-Modelle sollen zwischen 320 und 920 Euro liegen.

RTX Spark: KI zum Mitnehmen

Auf der Computex 2026 präsentierte NVIDIA die RTX-Spark-Plattform – ein dediziertes Ökosystem für Laptops und Workstations, das auf lokale KI-Ausführung setzt. Statt auf Gaming oder Content Creation zielt die Plattform auf rechenintensive KI-Anwendungen ab. Die Besonderheit: Unified Memory mit bis zu 120 GB.

Namhafte Hersteller wie Microsoft, Dell, HP, Asus, MSI und Lenovo sind bereits als Partner an Bord. Erste konkrete Designs zeichnen sich ab: Das Lenovo Yoga Pro 9n soll laut durchgesickerten Renderings vom 27. Juni bis zu 128 GB Unified Memory bieten. Die Spezial-Laptops dürften bei rund 2.800 Euro starten, während die Desktop-Variante DGX Spark bei etwa 3.700 Euro liegen wird.

Anzeige

Die RTX 5090 erreicht beeindruckende 14.073 Tokens pro Sekunde – doch das Schmelzrisiko des Stromanschlusses bleibt. Mit der richtigen Checkliste und Auto Shader Compilation holen Sie das Maximum aus Ihrer Hardware. Praxis-Guide: RTX 5090 sicher betreiben

Vera Rubin: Enterprise-KI für die Cloud

Im Enterprise-Segment läuft die Produktion der Vera-Rubin-KI-Plattform seit dem 1. Juni 2026. Die Auslieferung an acht große Cloud-Partner – darunter AWS, Google Cloud, Azure, Oracle, CoreWeave, Lambda, Nebius und Nscale – ist für den Herbst geplant.

Die Architektur setzt auf HBM4-Speicher mit einer Bandbreite von 22 TB/s und NVLink 6 mit 260 TB/s. NVIDIA verspricht eine deutliche Senkung der Token-Verarbeitungskosten.

Ebenfalls auf der Computex zu sehen: Die Supermicro GB300 Super AI Station. Das flüssigkeitsgekühlte System nutzt den NVIDIA GB300 Grace-Blackwell-Prozessor und bietet 252 GB HBM3e-Speicher.

Forschung und Software-Optimierung

Forscher der UC San Diego veröffentlichten am 24. Juni 2026 Ergebnisse zu DFlash, einem Block-Diffusionsmodell für spekulative Dekodierung. Auf Blackwell-GPUs angewendet, steigerte die Methode die Nutzerlastkapazität um das 15-Fache und erreichte Geschwindigkeiten zwischen 500 und 600 Tokens pro Sekunde.

Anzeige

Lokale KI mit RTX Spark oder Desktop? Der neue Guide vergleicht Plattformen, zeigt die optimale Stromversorgung und erklärt, wie Sie Shader-Kompilierung automatisieren. Jetzt Guide anfordern

NVIDIA selbst treibt die Software-Optimierung voran. Am 26. Juni integrierte der Konzern Unterstützung für Vulkan Descriptor Heaps in Treiberversion 610 und Nsight Graphics 2026.2 – ein Schritt, der die Ressourcenbindung für Raytracing verbessert und standardmäßig in DXVK 3.0 genutzt wird.

Ebenfalls am 26. Juni führte eine Beta-Version der NVIDIA-App die Auto Shader Compilation ein. Die Funktion nutzt Leerlaufzeiten des Systems, um Shader vorzukompilieren und Verzögerungen während des Spielens zu vermeiden. Voraussetzung ist der GeForce Game Ready Driver 595.97 WHQL. Nutzer können zudem manuell einstellen, wie viele Systemressourcen für den Hintergrundprozess verwendet werden.