Spracherkennung: Google und Microsoft starten lokale KI-Offensive

Google und Microsoft präsentieren neue KI-Modelle für lokale Spracherkennung ohne Cloud-Anbindung. Der Markt wächst rasant.

Borncity Redaktion • 07.06.2026, 12:40 Uhr

Die Tech-Riesen Google und Microsoft haben diese Woche neue Spracherkennungsmodelle vorgestellt, die ohne Cloud-Anbindung auskommen. Der Trend geht klar zur lokalen KI-Verarbeitung auf dem eigenen Gerät – ein entscheidender Vorteil für datenschutzsensible Unternehmen und Privatnutzer.

Google bringt Diktier-App für den Mac

Am heutigen Sonntag veröffentlichte Google Google AI Edge Eloquent – eine kostenlose Diktier-App speziell für macOS. Die Software nutzt die hauseigenen Gemma-KI-Modelle und arbeitet komplett offline. Das bedeutet: Sprachdaten verlassen niemals das lokale Gerät.

Anzeige: Google und Microsoft haben diese Woche neue Offline-Spracherkennungsmodelle vorgestellt – perfekt für datenschutzsensible Unternehmen. Unser Leitfaden zeigt Ihnen in 3 Schritten, wie Sie Ihre Diktier- und Transkriptions-Workflows auf lokale KI umstellen. Leitfaden zur lokalen Spracherkennung anfordern

Die App kann Füllwörter automatisch entfernen und erlaubt die Auswahl verschiedener Schreibstile. Auch benutzerdefinierte Vokabeln lassen sich hinzufügen. Eine Android-Version steht bislang noch aus.

Bereits am Samstag hatte Google das Gemma 4 12B veröffentlicht – ein quelloffenes Multimodal-Modell mit 12 Milliarden Parametern. Es läuft auf Laptops mit mindestens 16 Gigabyte Arbeitsspeicher und verarbeitet Audio, Bilder und Video ohne Internetverbindung. Im MMLU Pro-Benchmark erreichte das Modell 77,2 Prozent.

Microsofts Antwort: MAI-Modelle für Unternehmen

Microsoft zog am Samstag nach und präsentierte sieben neue KI-Modelle aus eigener Entwicklung. Das Flaggschiff MAI-Transcribe-1.5 soll laut Microsoft fünfmal schneller sein als vergleichbare Modelle und unterstützt 43 Sprachen. Ergänzt wird das Angebot durch MAI-Voice-2 für Sprachsynthese und MAI-Thinking-1 für logische Schlussfolgerungen.

Erste Tests von PCMag UK zeichnen ein gemischtes Bild: MAI-Transcribe-1.5 machte in einem Vergleichstest 13 Fehler – Googles Gemini-Modell nur sechs. MAI-Voice-2 klang laut Testern „roboterhaft“. Die Modelle befinden sich derzeit in einer limitierten Vorschauphase.

Milliardenmarkt Spracherkennung

Der Markt für Spracherkennung wächst rasant – Prognosen zufolge soll er bis 2031 rund 62 Milliarden Euro erreichen. Das Startup Wispr AI sucht Berichten zufolge bereits neue Finanzierung zu einer Bewertung von über zwei Milliarden Euro.

Auch andere Branchengrößen legten diese Woche nach:

NVIDIA veröffentlichte Nemotron 3.5 ASR, ein Streaming-Modell mit 600 Millionen Parametern für 40 Sprachregionen. Die Latenz ist zwischen 80 Millisekunden und 1,12 Sekunden konfigurierbar.
AssemblyAI verbesserte sein Universal-3 Pro-Modell mit 19 Prozent weniger Fehlern bei mehrsprachigen Tests und 30 Prozent niedrigerer Latenz.
Manus brachte ein KI-Tool für Besprechungsprotokolle auf den Markt, das Gespräche automatisch aufzeichnet und zusammenfasst – inklusive Sprechererkennung.
Gboard integriert das Rambler-Tool, das mit Gemini-KI die Echtzeit-Interpretation und Geräuschunterdrückung auf Pixel-Smartphones verbessert.

Anzeige: Cloud-basierte Spracherkennung bedeutet Latenz und Datenabfluss. Mit den neuen Offline-Modellen von Google und Microsoft arbeiten Sie schneller und sicherer. Unser Vergleichstest zeigt, welches Modell für Ihr Unternehmen am besten geeignet ist. Vergleichstest jetzt herunterladen

Open-Source-Alternative für Dauerhören

Forscher aus Hongkong, China und Singapur veröffentlichten am Samstag das quelloffene Modell Audio Interaction. Mit drei Milliarden Parametern ist es für kontinuierliches Zuhören ausgelegt: Es verarbeitet Audio in 0,4-Sekunden-Intervallen und entscheidet selbstständig, wann es antworten soll. Trainiert auf über 300.000 Stunden Audiomaterial, beherrscht es Transkription, Übersetzung und allgemeine Geräuscherkennung. Im MMAU-Benchmark erzielte es 58,15 Punkte.

Ebenfalls am Samstag erschien die Diktier-App DictaFlow im Microsoft Store für Windows. Sie bietet Push-to-Talk-Funktionen und Bildschirmintelligenz – Nutzer können Text per Sprachbefehl in verschiedenen Anwendungen bearbeiten, auch in Remote-Desktop-Umgebungen.

Google bringt Diktier-App für den Mac

Microsofts Antwort: MAI-Modelle für Unternehmen

Milliardenmarkt Spracherkennung

Open-Source-Alternative für Dauerhören

Ähnliche Beiträge

Teams: Neue Audio-Vorschau testet Mikrofon vor Meetings

Microsoft erzwingt TPM-Module: Neue Lizenzregeln für Server ab 2028

Windows 11: Funktion installiert unerwünschte Bloatware automatisch

Frankreich verbietet Social Media unter 15 Jahren ab September

Kratos-Plattform zerschlagen: Polizei stoppt 15.000 Phishing-Angriffe monatlich

KI-Ausbruch: GPT-5.6 Sol durchbricht Sandbox und greift Hugging Face an