Google DeepMind erweitert Gemini API: Multimodale Suche für Unternehmen

Googles Gemini API kann nun Text und Bilder gleichzeitig durchsuchen. Unternehmen profitieren von präziseren Analysen gemischter Dokumente.

Google DeepMind hat seine Gemini API File Search auf multimodale Fähigkeiten umgestellt – ein Schritt, der die Art und Weise verändert, wie Unternehmen mit komplexen Daten arbeiten.

Seit dem 5. Mai 2026 kann die Suchfunktion sowohl Text als auch Bilder gleichzeitig verarbeiten. Die Neuerung basiert auf dem Gemini Embedding 2 Modell und ermöglicht eine deutlich präzisere Analyse von Dokumenten mit gemischten Inhalten – etwa Diagramme, Grafiken oder Fotos in Textdateien. Entwickler können nun Retrieval-Augmented Generation (RAG) in Unternehmensanwendungen deutlich effektiver einsetzen.

Anzeige

Während Google die technische Basis für KI im Unternehmen stärkt, stehen viele Betriebe bereits vor der praktischen Umsetzung neuer Vorschriften. Dieser kostenlose Leitfaden zum EU AI Act verschafft Ihnen den Überblick, den Ihre Rechts- und IT-Abteilung jetzt dringend braucht. EU AI Act in 5 Schritten verstehen

Neue Funktionen für präzisere Suchergebnisse

Die aktualisierte API bringt gleich mehrere Verbesserungen mit sich. Neben der multimodalen Suche können Entwickler nun benutzerdefinierte Metadaten-Filter setzen, um Suchergebnisse gezielt nach organisatorischen Anforderungen einzugrenzen. Besonders relevant für Unternehmen: Das System liefert jetzt seitenspezifische Quellenangaben für RAG-Workflows. Dadurch wird nachvollziehbar, aus welcher genauen Stelle eines Dokuments eine KI-generierte Antwort stammt.

Parallel dazu rollt Google seit dem 4. Mai 2026 dauerhafte Anweisungen für Gemini in Google Docs aus. Nutzer können damit feste Regeln für Ton, Stil und Formatierung festlegen – etwa die Vorgabe, immer Aufzählungspunkte zu verwenden oder einen formellen Schreibstil beizubehalten. Bis zu 1.000 aktive Anweisungen pro Konto sind möglich. Verfügbar ist die Funktion für Abonnenten von Google AI Plus, Pro und Ultra sowie für Geschäfts- und Unternehmenskunden.

Wettlauf um die KI-Arbeitskräfte

Die Ankündigung von Google fällt in eine Woche voller Produktneuheiten im Bereich der Unternehmens-KI. ServiceNow präsentierte auf seiner Knowledge 2026 Konferenz am 5. Mai mehrere neue KI-Spezialisten für IT, CRM, Personalwesen und Sicherheit. Der L1 IT Service Desk AI Specialist soll Tickets nach Unternehmensangaben bis zu 99 Prozent schneller lösen als herkömmliche Methoden.

Salesforce zog am 4. Mai mit der Einführung von Agentforce Operations nach – einem Tool zur Automatisierung von Back-Office-Prozessen wie Lieferkettenmanagement und Beschaffung. Laut Salesforce könnte die manuelle Dateneingabe um 80 Prozent reduziert werden, die Durchlaufzeiten um 50 bis 70 Prozent.

Amazon öffnete am selben Tag die KI-Tools Claude Code von Anthropic und Codex von OpenAI für alle Mitarbeiter. Die Dienste laufen auf der Amazon Bedrock Plattform – gestützt durch Milliardeninvestitionen des Konzerns in beide KI-Firmen.

Microsoft machte am 4. Mai Agent 365 allgemein verfügbar. Die Lösung integriert sich tief in Teams, Outlook und SharePoint und automatisiert Datenanalysen sowie administrative Aufgaben.

Interne Tests bei Google: Der Assistent „Remy“

Berichten zufolge testet Google intern einen persönlichen Assistenten namens Remy. Der KI-Agent soll rund um die Uhr eigenständig Aktionen für Nutzer im Google-Ökosystem ausführen können. Eine offizielle Vorstellung wird für die Google I/O Konferenz Ende Mai 2026 erwartet.

Anzeige

Der technologische Fortschritt durch KI-Agenten bietet enorme Chancen, erfordert aber auch ein tiefes Verständnis der neuen rechtlichen Rahmenbedingungen in Europa. Compliance-Experten warnen davor, die neue KI-Verordnung zu ignorieren, und empfehlen diesen kostenlosen Umsetzungsleitfaden mit allen relevanten Übergangsfristen. Kostenlosen Report zur KI-Verordnung anfordern

Die Kluft zwischen Begeisterung und Gewinn

Die Zahlen zeigen: Unternehmen setzen massiv auf KI. Fast jedes Fortune-500-Unternehmen erfasst inzwischen intern die KI-Nutzung. Salesforce verzeichnet 2,4 Milliarden KI-„Arbeitseinheiten“, und Firmen wie Coinbase strukturieren sich in „KI-native Pods“ um.

Doch die schnelle Einführung offenbart ein Problem: Zwei Drittel der Unternehmen messen den Return on Investment ihrer KI-Projekte nur mit Schätzungen, nicht mit harten Daten, wie eine Umfrage von ModelOp ergab. McKinsey-Daten zeigen: 64 Prozent der Organisationen sehen KI als Innovationsquelle, aber nur 39 Prozent berichten von messbaren Auswirkungen auf ihre Gewinne.

Das „Transformations-Paradoxon“

Der Microsoft 2026 Work Trend Index identifiziert ein kulturelles Dilemma: 65 Prozent der KI-Nutzer fürchten, den Anschluss zu verlieren, wenn sie die Technologie nicht einsetzen – aber nur 13 Prozent fühlen sich für das Experimentieren mit KI-Tools belohnt.

Trotz dieser Hürden wächst der Einsatz rasant. Accenture führte die weltweit größte Einführung von Microsoft Copilot 365 durch – für alle 743.000 Mitarbeiter. Interne Umfragen zeigen: 97 Prozent der Nutzer berichten von bis zu 15-fachen Zeitersparnissen bei Routineaufgaben, 53 Prozent von einer allgemeinen Produktivitätssteigerung.

Ausblick: Vom Chatbot zum digitalen Mitarbeiter

Der Schritt von Google hin zu multimodaler Suche deutet auf die nächste Phase der Unternehmens-KI hin: die Synthese verschiedener Datentypen. Unternehmen verlangen zunehmend nach Systemen, die visuelle Daten im Unternehmenskontext interpretieren können.

OpenAI trug mit der Veröffentlichung von GPT-5.5 Instant am 5. Mai zur Entwicklung bei. Das Modell reduziert Halluzinationen internen Tests zufolge um 52,5 Prozent – ein zentrales Hindernis für den Unternehmenseinsatz.

Die kommenden Monate werden zeigen, ob sich der Fokus von der reinen Aufgabenautomatisierung hin zur Steuerung und Orchestrierung digitaler Arbeiter verschiebt. Mit der Google I/O Ende Mai stehen weitere Ankündigungen ins Haus – und die Frage, wie multimodale und autonome Fähigkeiten zu einer einheitlichen Nutzererfahrung zusammengeführt werden.