GPU-Auslastung: Nur 5% Effizienz in Cloud-Clustern laut Report

Cast AI-Report zeigt drastische Ineffizienz bei KI-Beschleunigern. Optimierungen und neue Hardware wie Rubins GPUs versprechen Besserung.

Laut dem aktuellen Cast AI 2026 State of Kubernetes Optimization Report liegt die durchschnittliche Auslastung von Grafikprozessoren (GPUs) in Produktionsclustern bei mageren fünf Prozent. Und das, obwohl die Preise für bestimmte Hardware-Kapitaten im Januar 2026 um 15 Prozent gestiegen sind – der erste größere Preissprung seit zwei Jahrzehnten.

Die größten Geldvernichter in Kubernetes-Clustern

Der Bericht zeigt ein erschreckendes Bild: Während Unternehmen weiter in Hochleistungshardware investieren, bleiben auch CPUs und Arbeitsspeicher chronisch unterfordert – mit Auslastungen von acht beziehungsweise 20 Prozent. GPUs schneiden am schlechtesten ab. Verantwortlich sind vier Hauptfaktoren, die Experten als „Geldlecks“ bezeichnen: ungenutzte Knoten, überdimensionierte Ressourcenzuweisungen, der Betrieb nur einer einzigen Arbeitslast pro GPU und die starke Abhängigkeit von teuren On-Demand-Preismodellen.

Die Lösung liegt auf der Hand – wird aber kaum genutzt: Weniger als zwei Prozent aller GPUs laufen auf günstigen Spot-Instanzen. Dabei lassen sich damit im Vergleich zu On-Demand-Raten zwischen 60 und 91 Prozent sparen. Ein untätiger H100-Beschleuniger kostet schnell rund 4.954 Euro pro Monat. Einige Teams setzen daher auf sogenannte Scale-to-Zero-Autoskalierung und optimierte Paketierungsverfahren, um die Verschwendung einzudämmen.

Software-Tricks verhelfen zu drastischen Effizienzsprüngen

Um die Misere in den Griff zu bekommen, setzen Unternehmen zunehmend auf Hardware-Partitionierung und Software-Optimierung. NVIDIAs Multi-Instance-GPU-Technologie (MIG) erlaubt es, einen A100 oder H100 in bis zu sieben unabhängige Instanzen aufzuteilen. In Kombination mit Time-Slicing kommen manche Konfigurationen auf bis zu 28 Pods pro GPU.

Anzeige

Der Einsatz von KI-Systemen bietet enorme Effizienzsprünge, bringt aber auch komplexe neue rechtliche Anforderungen mit sich. Dieser kostenlose Umsetzungsleitfaden verschafft Ihnen den notwendigen Überblick über Fristen, Pflichten und Risikoklassen des EU AI Acts. EU AI Act in 5 Schritten verstehen

Wie mächtig Software-Tuning sein kann, demonstrierte NVIDIA kürzlich am Beispiel des DeepSeek V4-Modells. Innerhalb eines Monats nach dem Launch senkten Optimierungen auf Blackwell-Hardware die Kosten pro Token um das Fünffache. Möglich wurde dies durch eine Kombination aus entkoppeltem Serving, großem Experten-Parallelismus und Multi-Token-Vorhersage – der Durchsatz stieg um das bis zu 20-Fache.

Ähnliche Erfolge gibt es aus der Filmindustrie: Outpost VFX nutzte AWS-Multi-GPU-P5-Instanzen mit H100-Beschleunigern, um Gesichtsersatzmodelle achtmal schneller zu trainieren als mit bisherigen Einzel-Systemen. Die Trainingszyklen sanken von knapp zwei Wochen auf nur noch zwei Tage.

Neue Hardware-Ära: Rubin-GPUs und Managed Security

Die Cloud-Anbieter reagieren auf den wachsenden Bedarf an massiven KI-Workloads mit neuen Architekturen. CoreWeave und NVIDIA gaben kürzlich die erste Inbetriebnahme des Vera Rubin NVL72 auf der CoreWeave-Cloud bekannt. Diese Single-Rack-Konfiguration vereint 72 Rubin-GPUs und 36 Vera-CPUs mit Flüssigkeitskühlung und Hochgeschwindigkeits-Netzwerken – maßgeschneidert für agentische KI und große Inferenz-Aufgaben.

Anzeige

Mit der zunehmenden Vernetzung und dem Einsatz leistungsstarker KI-Server steigen auch die Bedrohungen durch gezielte Cyberangriffe. Erfahren Sie in diesem kostenlosen Report, welche rechtlichen Pflichten und technischen Risiken Unternehmer jetzt kennen müssen, um ihre Infrastruktur proaktiv zu schützen. Kostenlosen Cyber-Security-Report anfordern

Mit steigender Hardware-Dichte rückt die Sicherheit in den Fokus. Ab dem 1. Juli 2026 rüstet GMO Internet seine verwalteten HPC-Cluster mit Endpoint Detection and Response (EDR) auf – und zwar kostenlos. Der Dienst umfasst eine rund um die Uhr besetzte Sicherheitszentrale (SOC), die sensible KI-Trainingsdaten vor unbefugtem Zugriff schützen soll.

Angriffsziel KI-Server: Kriminelle schürfen Kryptowährungen

Der GPU-Boom lockt auch Kriminelle an. Zwischen Ende März und Mitte April 2026 entdeckten Forscher eine Angriffskette, die eine kritische Sicherheitslücke in Langflow (CVE-2026-33017) ausnutzte. Die Angreifer installierten Monero-Miner auf exponierten Servern und deaktivierten Sicherheitsfunktionen wie AppArmor und SELinux, um unentdeckt zu bleiben.

Als Antwort auf solche Bedrohungen entstehen neue Architekturen für den Datenschutz. Die Universität Köln entwickelte den Supercomputer RAMSES, der auf hardwarebasierter Speicherverschlüsselung setzt. Selbst während der Verarbeitung bleiben die Nutzerdaten verschlüsselt – nicht einmal Administratoren können darauf zugreifen. Der Preis: je nach Workload zwischen 4,4 Prozent (Genomik) und 18 Prozent (speicherintensive Aufgaben) Leistungseinbußen. Doch für die Verarbeitung menschlicher Genomdaten unter strengen Datenschutzauflagen ist dieser Kompromiss alternativlos.