Gemma 4: Google DeepMind bringt Multimodal-KI auf den Laptop

Google veröffentlicht mit Gemma 4 eine lokal lauffähige KI und präsentiert mit DiffusionGemma ein extrem schnelles Textmodell.

Google DeepMind hat mit der Veröffentlichung der Gemma 4-Familie einen wichtigen Schritt in Richtung lokaler KI-Verarbeitung gemacht. Die neuen Modelle laufen direkt auf handelsüblicher Hardware und setzen auf Multimodalität sowie deutlich höhere Inferenzgeschwindigkeiten. Ein Trend, der die Branche nachhaltig verändern könnte.

Anzeige

Warum so viele Deutsche ChatGPT nutzen – aber kaum einer weiß, wie man es richtig anwendet. Ein kostenloser Ratgeber zeigt, wie Sie die KI sofort für Ihren Alltag nutzen können – ganz ohne Vorkenntnisse. Kostenlosen Ratgeber jetzt herunterladen

Lokale Multimodal-KI für den Laptop

Am 3. Juni 2026 veröffentlichte Google DeepMind Gemma 4 12B – ein quelloffenes KI-Modell, das Texte, Bilder und Audio verarbeitet. Das Besondere: Es läuft lokal auf Laptops mit 16 GB RAM. Kein Cloud-Zugriff nötig.

Das Modell mit 12 Milliarden Parametern belegt rund 24 GB Speicher. Laut Google erreicht es fast die Leistung des größeren 26B-Modells – bei halbem Speicherverbrauch. Die Gemma-4-Familie wurde bereits über 150 Millionen Mal heruntergeladen.

Für Unternehmen stehen auf der Gemini Enterprise Agent Platform größere Konfigurationen bereit: Gemma 4 31B sowie 26B-Varianten (A4B, E4B, E2B). Diese sind in Googles Infrastruktur eingebunden, darunter GKE, Dataflow und Colab.

DiffusionGemma: Bis zu viermal schneller

Anfang Juni 2026 präsentierte Google DiffusionGemma, ein experimentelles Modell mit offenen Gewichten. Statt wie üblich Token sequenziell vorherzusagen, nutzt es diskrete Diffusion – und erzeugt Textblöcke parallel.

Die technischen Daten sprechen für sich: Auf Nvidia H100-Hardware erreicht DiffusionGemma über 1.000 Tokens pro Sekunde – bis zu viermal schneller als vergleichbare Modelle. Das 26-Milliarden-Parameter-Modell aktiviert stets nur 3,8 Milliarden Parameter (Mixture-of-Experts). Nach Quantisierung passt es in 18 GB VRAM und läuft auf High-End-Hardware wie der Nvidia RTX 5090.

Einziger Wermutstropfen: In Benchmarks wie MMLU zeigt das Modell leichte Qualitätseinbußen gegenüber Standardversionen.

Wettbewerb und Marktentwicklung

Die Gemma-4-Veröffentlichung fällt in eine Phase rasanter Entwicklung im Open-Source-Sektor. Am 13. Juni 2026 brachte Z AI sein Flaggschiff GLM-5.2 mit einem 1-Millionen-Token-Kontextfenster und verbesserten Coding-Fähigkeiten auf den Markt.

Die Leistungsdaten der aktuellen Modelle sind beeindruckend:
DeepSeek V4-Pro: 80,6 Prozent im SWE-bench
Gemma 4: 85,2 Prozent im MMLU Pro und 89,2 Prozent im AIME 2026

Anzeige

Während neue Modelle die Technik revolutionieren, erleichtern einfache Befehle bereits heute massiv den Alltag. Dieser neue Gratis-Report enthüllt die praktischsten Tricks für Einsteiger und Fortgeschrittene. Kostenlosen PDF-Report mit Beispiel-Prompts sichern

Der Trend zu leistungsstarken Open-Source-Modellen spiegelt eine breitere Entwicklung wider. Marktforscher von Gartner prognostizieren, dass die Inferenzkosten für große Modelle bis 2030 um über 90 Prozent fallen könnten.

Googles KI-Ökosystem verzeichnet derweil Rekordzahlen: Auf der I/O-Konferenz im Mai 2026 gab das Unternehmen bekannt, dass sein AI Mode die Marke von einer Milliarde monatlichen Nutzern überschritten hat.

Ausblick: Autonome Informationsagenten

Google will diese Nutzerbasis weiter ausbauen. Das Unternehmen führt autonome Informationsagenten auf Basis von Gemini 3.5 Flash ein. Sie überwachen Webinhalte und liefern interaktive Dashboards. Basisfunktionen bleiben kostenlos, erweiterte Agent-Funktionen sind jedoch Abonnenten der professionellen und Ultra-Tarife vorbehalten.

Die Entwicklung zeigt: Der Wettlauf um leistungsfähige, lokal lauffähige KI-Modelle hat gerade erst begonnen. Und Google ist fest entschlossen, ganz vorne mitzuspielen.