KI-Speicher-Krise: GPUs laufen zu 90% untätig herum

Eine Studie zeigt: Speicher wird zum Hauptengpass für KI. Samsung und SK Hynix profitieren, während Milliarden in neue Fabriken fließen.

Die Künstliche Intelligenz steckt in einem grundlegenden Dilemma: Nicht die Rechenleistung, sondern der Speicher bremst die Entwicklung aus. GPUs arbeiten derzeit nur zu zehn Prozent ihrer Kapazität – der Flaschenhals sitzt im Memory-Bereich.

Zu diesem Ergebnis kommt eine aktuelle Analyse des Korea Advanced Institute of Science and Technology (KAIST). Professor Kim Jeong-ho erklärte am vergangenen Samstag, dass das Wesen der KI zunehmend vom Speicher bestimmt werde. Die Grafikkarten warteten permanent auf Daten, statt sie zu verarbeiten.

KI-Agenten verbrauchen 136-mal mehr Strom

Die Forschungsergebnisse sind alarmierend. Ein Team um Professor Minsoo Yoo untersuchte sogenannte KI-Agenten – Systeme, die komplexe mehrstufige Aufgaben erledigen. Das Ergebnis: Diese Agenten benötigen pro Abfrage bis zu 136,5-mal mehr Energie als herkömmliche generative KI-Modelle.

Konkret gemessen wurden 348,41 Wattstunden pro Query. Gleichzeitig blieben die GPUs während 54,5 Prozent der Ausführungszeit untätig. Die Hochrechnung der Wissenschaftler zeigt die Dimension des Problems: Würden täglich 13,7 Milliarden KI-Agenten-Anfragen bearbeitet, wäre eine Leistung von 198,9 Gigawatt nötig – etwa die Hälfte des gesamten durchschnittlichen Stromverbrauchs der USA.

Branchenexperten erwarten, dass der Aufstieg von „Agentic AI“ und „Physical AI“ den Speicherbedarf um das Tausendfache steigern könnte. Die Konsequenz: Halbleiter, Rechenzentren und Stromnetze müssen grundlegend neu gedacht werden.

Speicher wird zum Kostentreiber

Die Verschiebung hin zu speicherzentrierten Systemen zeigt sich bereits in den Kostenstrukturen. Laut einem Bericht von SemiAnalysis vom 3. Juli 2026 werden die Speicherausgaben in Nvidia-basierten Systemen bis Ende des Jahres 30 Prozent der Gesamtkosten übersteigen. Für 2027 wird ein Anstieg auf über 40 Prozent prognostiziert.

Anzeige

Während die Industrie mit Hardware-Flaschenhälsen kämpft, nutzen immer mehr Menschen die Technologie bereits effektiv für ihre persönliche Produktivität. Wie Sie die KI im Alltag für Reiseplanung oder Organisation einsetzen, zeigt dieser kostenlose Ratgeber mit fertigen Schritt-für-Schritt-Anleitungen. Urlaub planen, Sprachen lernen, Zeit sparen: So erledigt ChatGPT Ihre Alltagsaufgaben in Sekunden

Betroffen sind alle Speichertypen: High Bandwidth Memory (HBM), DRAM und NAND-Flash. Professor Kim prognostiziert, dass zukünftige Hardware auf 3D-Architekturen setzen wird, bei denen HBM, High Bandwidth Flash (HBF) und High Bandwidth Storage (HBS) koexistieren. Die GPU sitzt dabei oben auf dem Stapel – eine Bauweise, die die Kühlung vereinfacht.

Samsung und SK Hynix in Pole-Position

Von dieser Entwicklung profitieren vor allem die Speicherhersteller. Samsung und SK Hynix haben einen Wettbewerbsvorteil: Sie sind die einzigen Produzenten, die sowohl HBM als auch HBF in Massenfertigung herstellen können. Der kommende HBM4-Standard dürfte die Marktmacht der Speicherhersteller weiter stärken – durch kundenspezifische Designs und langfristige Lieferverträge.

Milliarden-Investitionen weltweit

Die Hersteller reagieren mit gewaltigen Investitionen. Micron hat am 4. Juli den Spatenstich für eine 9,3 Milliarden Euro schwere Erweiterung in Hiroshima gefeiert. Die Fabrik, die sich auf HBM-Produktion konzentriert, wird vom japanischen Wirtschaftsministerium mit umgerechnet rund 3,2 Milliarden Euro unterstützt. Die ersten Auslieferungen sind für Sommer 2028 geplant.

Micron meldete für das dritte Fiskalquartal 2026 einen Datencenter-Umsatz von über 25 Milliarden Euro. 16 strategische Kundenverträge repräsentieren ein Auftragsvolumen von 100 Milliarden Euro.

In Südkorea verteidigt die Regierung eine Investitionsstrategie von umgerechnet 1,05 Billionen Euro für drei Megaprojekte im Halbleiter- und KI-Bereich. Dazu gehört ein 576 Milliarden Euro schwerer KI-Halbleiter-Cluster in der Südwestregion des Landes, der Design, Fertigung und Rechenzentren mit erneuerbaren Energien integrieren soll.

China drängt in den Markt

Auch China mischt mit. Der Speicherhersteller CXMT sicherte sich am 3. Juli einen DRAM-Liefervertrag über drei Milliarden Euro mit Tencent. Analysten erwarten, dass CXMT seinen globalen DRAM-Marktanteil von elf Prozent im Jahr 2025 auf 17 Prozent bis 2028 steigern wird.

Alternativen und Software-Optimierungen

Während HBM die dominierende Technologie bleibt, gewinnen alternative Architekturen an Bedeutung. SRAM-basierte Inferenz, wie sie von Groq und Cerebras eingesetzt wird, ist bis zu 15-mal schneller als HBM – stößt aber schnell an Kapazitätsgrenzen. Oft sind nur 44 Gigabyte pro Wafer möglich. OpenAI soll bereits Anfang 2026 einen Vertrag mit Cerebras unterzeichnet haben, um diese Hochgeschwindigkeits-Alternativen zu erkunden.

Anzeige

Der technologische Fortschritt ermöglicht es heute jedem, von den enormen Kapazitäten moderner Sprachmodelle zu profitieren – sofern man die richtigen Befehle kennt. Erfahren Sie in diesem Gratis-Report die praktischsten Tricks für Einsteiger, um ChatGPT ohne Vorkenntnisse als mächtigen Helfer zu nutzen. Diese einfachen ChatGPT-Befehle kennen die wenigsten – dabei erleichtern sie den Alltag enorm

Parallel dazu helfen Software-Optimierungen, die Hardware-Engpässe zu mildern. OpenAI-Ingenieure entwickelten im Juni 2026 eine Optimierung, die die Inferenzkosten um mehr als 50 Prozent senkte. In der kostenlosen ChatGPT-Stufe erlaubt die Technik den Betrieb auf wenigen hundert GPUs – zuvor waren Zehntausende nötig.

Speicher-Engpass bleibt bestehen

Trotz aller Effizienzgewinne warnt Phison-CEO KS Pua vor einem anhaltenden Speichermangel. Die globale Speicherkapazität werde sich innerhalb von zwei Jahren kaum verdoppeln. Die aktuellen Wachstumsprognosen von 1,6- bis 1,7-fach bis 2026 reichten nicht aus, um die Nachfrage zu decken – ausgelöst durch Investitionen von fast 900 Milliarden Euro in die Cloud-Infrastruktur.