Google Gemini bekommt „Hände“ für Android-Apps

Googles Projekt Bonobo ermöglicht dem KI-Assistenten Gemini, Apps visuell zu steuern und Aufgaben wie Bestellungen auszuführen. Dies stellt einen direkten Wettbewerbsvorteil gegenüber Apple und spezieller KI-Hardware dar.

Googles KI-Assistent soll bald selbstständig Apps bedienen können – ein Schlag gegen spezielle KI-Hardware und ein direkter Angriff auf Apples Pläne. Entdeckter Code in einer Beta-Version offenbart das Projekt „Bonobo“.

Was bedeutet das für Nutzer? Statt nur Fragen zu beantworten, könnte Gemini künftig aktiv werden: Essen bestellen, Fahrten buchen oder andere mehrstufige Aufgaben erledigen, indem die KI wie ein Mensch Buttons drückt und Menüs bedient. Diese „Bildschirm-Automatisierung“ markiert den Übergang von passiven Chatbots zu aktiven, „agentischen“ KI-Systemen.

So funktioniert die Bildschirm-Automatisierung

Technische Analysen der Google-App-Beta 17.4 enthüllen Code mit dem internen Codenamen „Bonobo“. Die Funktion wird mit „Lass Aufgaben von Gemini erledigen“ beschrieben. Der Assistent soll „bei Aufgaben helfen, etwa Bestellungen aufgeben oder Fahrten buchen, indem er die Bildschirm-Automatisierung in bestimmten Apps auf deinem Gerät nutzt.“

Der entscheidende Unterschied: Bisher benötigen Sprachassistenten spezielle Schnittstellen (APIs), die App-Entwickler bereitstellen müssen. Googles neuer Ansatz scheint darauf ausgelegt, den Bildschirm zu „sehen“ und zu „berühren“ wie ein menschlicher Nutzer. Indem Gemini das visuelle Layout einer App analysiert, könnte es theoretisch den „Bestellen“-Button in einem Lieferdienst oder „Fahrt bestätigen“ in einer Ride-Sharing-App identifizieren und antippen.

Anzeige

Passend zum Thema Android‑Sicherheit – viele Nutzer unterschätzen, wie riskant eine aktive Bildschirm‑Automatisierung sein kann: ungewollte Käufe, Datenzugriffe oder Missbrauch durch versehentliche Eingaben. Der kostenlose Ratgeber „Die 5 wichtigsten Schutzmaßnahmen für Ihr Android‑Smartphone“ erklärt Schritt für Schritt, welche App‑Berechtigungen Sie überprüfen sollten, wie Sie sichere Zahlungswege einstellen und welche Einstellungen unerlässlich sind, um Ihr Gerät zu schützen. Praktische Checkliste inklusive. Jetzt kostenloses Android‑Schutzpaket anfordern

Dies gibt Gemini gewissermaßen digitale Hände, um in Drittanbieter-Apps zu scrollen, zu tippen und zu tippen. Der erste Rollout wird wohl auf „bestimmte Apps“ beschränkt sein – wahrscheinlich große Partner aus den Bereichen Lieferdienste und Mobilität. Die zugrundeliegende Technologie zielt jedoch auf eine Zukunft ab, in der der Assistent jede Oberfläche bedienen kann, ohne für jede einzelne App spezielle Backend-Unterstützung zu benötigen.

Der Aufstieg der „Large Action Models“ (LAMs)

Diese Entwicklung passt zum Branchentrend hin zu Large Action Models (LAMs). Während große Sprachmodelle (LLMs) wie GPT-4 oder Gemini 1.5 Texte verarbeiten und generieren, sind LAMs darauf ausgelegt, Benutzeroberflächen zu verstehen und Aktionen auszuführen.

Dieser Ansatz löst ein altes Fragmentierungsproblem im Mobile-Ökosystem. Bisher brauchte ein Assistent für eine Uber-Buchung eine spezielle „Skill“-Integration mit Uber. Mit der Bildschirm-Automatisierung muss die KI nur verstehen, wie die Uber-App aussieht. Dieser „vision-basierte“ Ansatz ermöglicht mehr Autonomie und überbrückt die Lücke zwischen digitaler Absicht („Hol mir einen Burger“) und digitaler Aktion (durch Menüs navigieren, Belag auswählen, bezahlen).

Diese Strategie spiegelt das Versprechen des Rabbit R1 wider, eines eigenständigen KI-Geräts, das mit einem LAM Apps wie Spotify bedienen sollte. Indem Google diese Fähigkeit direkt ins Android-Betriebssystem integriert, macht es proprietäre Hardware überflüssig und könnte agentische KI zu Milliarden existierender Geräte bringen.

Sicherheitsvorkehrungen und der Mensch im Kontrollkreis

Mit der Macht, Geld auszugeben und Apps zu manipulieren, gehen erhebliche Risiken einher. Der entdeckte Code zeigt, dass Google strenge Sicherheitsprotokolle implementiert. Nutzer sollen deutliche Warnungen sehen: „Gemini kann Fehler machen“ und sie bleiben „verantwortlich für das, was es in deinem Namen tut.“

Entscheidend ist, dass die Funktion als überwachte Erfahrung und nicht als vollautonomer Hintergrundprozess gestaltet zu sein scheint. Die Automatisierung soll auf dem Bildschirm sichtbar ablaufen, sodass Nutzer in Echtzeit zusehen können, wie die KI navigiert. Dieses „Human-in-the-Loop“-Design stellt sicher, dass ein Nutzer eingreifen kann, wenn Gemini das falsche Produkt bestellen oder ein falsches Ziel auswählen will.

Datenschutzhinweise in der Beta zeigen auch, dass während dieser automatisierten Sitzungen Screenshots der Interaktionen von menschlichen Prüfern zur Verbesserung des Dienstes ausgewertet werden können – vorausgesetzt, „Aktivität speichern“ ist aktiviert. Das System rät zudem explizit davon ab, die Bildschirm-Automatisierung für Aufgaben mit sensiblen Daten wie Zahlungsinformationen oder Passwörtern zu nutzen. Hochsensible Aktionen dürften also weiter manuelle Eingaben erfordern.

Kontextanalyse: Der Kampf um das Betriebssystem

Googles Schritt kommt zu einem kritischen Zeitpunkt im KI-Wettlauf. Konkurrenten arbeiten daran, ihre Chatbots in handlungsfähige Agenten zu verwandeln.

  • Apples „Onscreen Awareness“: Branchenberichte deuten darauf hin, dass Apple parallel ähnliche Fähigkeiten für Siri entwickelt, oft als „Onscreen Awareness“ bezeichnet. Diese für künftige iOS-Updates erwartete Funktion würde es Siri ermöglichen, den Bildschirminhalt zu verstehen und darauf basierend zu handeln. Googles „Bildschirm-Automatisierung“ wirkt wie ein präemptiver Schlag, um Android als erste Plattform zu etablieren, auf der die KI das Telefon wirklich „steuern“ kann.
  • Die „Rabbit“-Herausforderung: Das Rabbit R1 versprach, Nutzer vom „App-Grid“ zu befreien. Das Gerät sah sich jedoch mit Kritik an Latenz und Zuverlässigkeit konfrontiert. Googles Implementierung nutzt wahrscheinlich die native Rechenleistung von Android-Geräten (vielleicht mit On-Device-Modellen wie Gemini Nano), um eine schnellere, zuverlässigere Version dieses Konzepts anzubieten. Durch die Integration ins Betriebssystem absorbiert Google im Grunde das Alleinstellungsmerkmal eigenständiger KI-Gadgets.
  • Marktimplikationen: Bei Erfolg könnte die Bildschirm-Automatisierung die Mobile-Ökonomie grundlegend verändern. App-Entwickler kämpfen derzeit um Nutzeraufmerksamkeit und Bildschirmzeit. Wird ein KI-Agent zur primären Schnittstelle, die Navigation und Transaktionen übernimmt, werden Apps effektiv zu „kopflosen“ Dienstprogrammen. Dies könnte die Macht von einzelnen App-Marken weg und weiter zum Plattformbetreiber (Google) hin verlagern, der den KI-Vermittler besitzt.

Wann kommt die Funktion?

Obwohl der Code in der aktuellen Beta der Google-App vorhanden ist, gibt es kein offizielles Veröffentlichungsdatum. Technische Analysten vermuten, dass die Funktion auf System-APIs angewiesen sein könnte, die mit Android 16, speziell dem QPR3-Update, eingeführt werden. Dieser Zeitplan würde einen möglichen öffentlichen Launch auf später in 2026 legen, eventuell zeitgleich mit der Google I/O Developer Conference im Mai.

Während die Tests weitergehen, dürfte Google die Liste unterstützter Apps erweitern und die Computer-Vision-Modelle verfeinern, die diese Automatisierung antreiben. Das ultimative Ziel ist ein „universeller Assistent“, der jede neue App allein durch Betrachten bedienen lernen kann – so wie ein Mensch es tut. Für Android-Nutzer zeichnet sich eine nahe Zukunft ab, in der ihr Telefon nicht nur zuhört, sondern die Arbeit tatsächlich für sie erledigt.

Anzeige

PS: Datenschützer empfehlen besondere Vorsicht bei neuen Agenten‑KI-Funktionen. Unser Gratis‑Leitfaden fasst kompakt die fünf effektivsten Maßnahmen zusammen – von Berechtigungs‑Checks über sichere PIN-/Biometrie‑Einstellungen bis zur Kontrolle, welche Apps Bildschirm‑Interaktionen ausführen dürfen. Ideal für alle Android‑Nutzer, die verhindern möchten, dass eine KI in ihrem Namen unbeabsichtigt handelt. Android‑Schutzratgeber gratis herunterladen