DGX Spark: NVIDIAs Superchip bringt 1.000 TFLOPS auf den Schreibtisch

NVIDIAs DGX Spark begeistert mit enormer Rechenleistung, doch Nutzer berichten von Abstürzen und Software-Problemen im Multi-Node-Betrieb.

Die Entwickler-Community feiert NVIDIAs DGX Spark und den GB10 Superchip als Meilenstein für lokale KI-Berechnungen – doch die ersten Nutzer kämpfen mit Kinderkrankheiten. Das System mit 128 GB Speicher und 1.000 TFLOPS Rechenleistung bringt Hochleistungs-KI auf den Schreibtisch.

Rekordgeschwindigkeit bei Sprachmodellen

Die jüngsten Software-Updates zeigen das wahre Potenzial der Hardware. Google DeepMinds DiffusionGemma, ein 26-Milliarden-Parameter-Modell mit Mixture-of-Experts-Architektur, erreicht auf dem DGX Spark rund 150 Tokens pro Sekunde. Das ist etwa viermal schneller als herkömmliche autoregressive Modelle. Besonders beeindruckend: Das System generiert bis zu 256 Tokens parallel.

Anzeige: Wer den DGX Spark produktiv einsetzen will, stößt schnell auf Kinderkrankheiten bei Multi-Node-Setups. Dieser Report zeigt Ihnen die bewährten Workarounds für SGLang und TensorRT-LLM – plus eine Schritt-für-Schritt-Checkliste für stabile Cluster. Praxis-Report jetzt anfordern

Technische Vergleiche von Analysten bewerteten vier zentrale Inferenz-Engines für den GB10-Chip: vLLM, SGLang, llama.cpp und TensorRT-LLM. Während vLLM durch PagedAttention den Standard für hohen Durchsatz setzt, punktet SGLang bei strukturierten Ausgaben. Allerdings bereitet TensorRT-LLM auf dem GB10 weiterhin Probleme – die spezielle SM12x-Befehlssatzarchitektur macht Entwicklern das Leben schwer.

Hardware mit Superlativ-Daten

Der GB10 Superchip vereint einen 20-Kern-Arm-Prozessor – zehn Cortex-X925 und zehn A725 Kerne – mit einer Blackwell-GPU und 128 GB einheitlichem LPDDR5x-Speicher. Die Benchmark-Ergebnisse können sich sehen lassen:

  • Rechenleistung: 1.000 TFLOPS in FP4-Präzision, 170 TFLOPS in FP16
  • Geekbench 6: 3.123 Punkte im Single-Core, 19.708 im Multi-Core
  • Speicherbandbreite: Rund 273 GB/s

Ein einzelnes System bewältigt Modelle mit bis zu 200 Milliarden Parametern. Wer zwei Einheiten koppelt, kommt sogar auf 405 Milliarden Parameter. Und das bei einer Stromaufnahme von nur 240 Watt unter Volllast – ein Wert, der selbst effiziente Desktop-PCs alt aussehen lässt.

Wenn die Cluster crashen

Doch der Alltag sieht anders aus. In Entwicklerforen häufen sich Berichte über Abstürze bei Multi-Node-Konfigurationen. Besonders die großen Modelle wie Qwen 122B und Nemotron 120B bereiten Probleme. Ein aktueller Bug-Report für SGLang 0.5.12.post1 dokumentiert, dass der Server beim Qwen 3.5-397B-Modell auf einem Vierer-Cluster regelmäßig einfriert.

Die Community hat bereits Workarounds gefunden: Deaktivieren von Deep-GEMM und längere Watchdog-Timeouts helfen oft. Auch routinemäßige Software-Updates sorgen für Ärger – sie führen zu Boot-Fehlern und Timeouts in Entwicklungsumgebungen wie VSPro. NVIDIA reagierte mit neuen „Playbooks“ für Hermes Agents und verbesserte Speicherverwaltung durch Treiberversion 580.159.03.

Anzeige: Die Preise für den DGX Spark steigen – und die Nachfrage boomt. Wer jetzt auf lokale KI setzt, sollte die Hardware-Knappheit clever umgehen. Unser Leitfaden erklärt, wie Sie mit zwei gekoppelten Einheiten Modelle bis 405 Mrd. Parametern betreiben und dabei stabil bleiben. Hardware-Strategie jetzt sichern

Preise steigen – Nachfrage boomt

Der Markt reagiert auf die Knappheit. Das GX10-Modul verteuerte sich von 3.499 auf 3.999 Euro. Manche Besitzer berichten von einer Wertsteigerung ihrer Hardware um 70 Prozent in den letzten sechs Monaten. Grund ist der wachsende Bedarf an lokaler Rechenleistung – Unternehmen wollen unabhängiger von externen KI-Plattformen werden.

Eine Studie der Futurum Group prognostiziert für 2035 rund 86 Millionen solcher lokaler KI-Geräte. Sie könnten dann 56,23 TWh Strom von zentralen Rechenzentren abziehen – bei acht Stunden täglicher Inferenz pro Gerät. Voraussetzung dafür sind lokale Mesh-Orchestrierungen über Wi-Fi 7 oder 6G. Die Entwicklung läuft.