Computer-Using Agents: Microsoft startet KI-Agenten in Produktion

Microsofts Computer-Using Agents in Copilot Studio umgehen APIs und bedienen Software direkt. Konkurrenten testen noch.

Ab sofort können Firmen digitale Assistenten einsetzen, die selbstständig Software bedienen – ohne klassische Programmierschnittstellen.

Microsoft hat seine „Computer-Using Agents“ in Copilot Studio für die breite Unternehmensnutzung freigegeben. Seit dem 13. Mai 2026 sind diese KI-Agenten in der Lage, direkt mit Benutzeroberflächen von Webseiten und Desktop-Anwendungen zu interagieren – und umgehen damit die traditionelle Notwendigkeit von Programmierschnittstellen (APIs). Der Konzern ist damit der erste große Anbieter, der solche Fähigkeiten auf Produktionsniveau bringt. Konkurrenten wie Google und Anthropic testen ihre Lösungen derweil noch in Beta- oder Preview-Phasen.

Anzeige

Während Microsoft Windows 11 mit neuen KI-Funktionen ausstattet, zögern viele Nutzer noch beim Umstieg auf das aktuelle Betriebssystem. Dieser kostenlose Expertenreport zeigt, wie der Wechsel ohne Risiko und Datenverlust gelingt. Windows 11 Starterpaket jetzt kostenlos anfordern

Der Rollout ist Teil einer größeren Strategie: Microsoft will Windows 11 als „KI-natives“ Betriebssystem neu erfinden. Statt Künstlicher Intelligenz als separates Feature soll sie direkt in alltägliche Arbeitsabläufe eingebettet werden. Das Unternehmen reagiert damit auf eine interne Studie aus dem Jahr 2025, wonach rund 80 Prozent der Angestellten angaben, nicht genug Zeit und Energie für ihre täglichen Aufgaben zu haben. Dieses Produktivitätsdefizit soll nun durch automatisierte Agenten behoben werden.

So arbeiten die neuen digitalen Helfer

Die freigegebenen Agenten in Copilot Studio ermöglichen es Entwicklern und Geschäftsanwendern, Arbeitsabläufe zu erstellen, die menschliche Interaktionen mit Software nachahmen. Die Agenten navigieren durch Bildschirme, klicken Schaltflächen und geben Texte in verschiedenste Umgebungen ein. Zur Unterstützung hat Microsoft die Work IQ Suite eingeführt, die eine REST-API und eine Kommandozeilenschnittstelle (CLI) zur Steuerung des Agentenverhaltens umfasst. Auch die Agent-to-Agent-Kommunikation (A2A) ist nun allgemein verfügbar – verschiedene KI-Entitäten können Aufgaben koordinieren, ohne dass ein Mensch eingreifen muss.

Unternehmen können zwischen mehreren zugrunde liegenden Modellen wählen, darunter OpenAIs Computer-Use-Modelle und Anthropics Claude Sonnet 4.5. Für die Sicherheit sorgt die Integration mit Azure Key Vault zur Verwaltung von Zugangsdaten und Microsoft Purview für die Prüfprotokollierung. Die Ausführungsumgebung bieten Windows 365 Cloud PC Pools, die sicherstellen, dass Agentenaktivitäten in isolierten virtuellen Räumen stattfinden.

Die Kosten für den Betrieb dieser autonomen Einheiten basieren auf einem Kreditsystem. Jede Aktion eines Agenten – als „Schritt“ bezeichnet – kostet etwa fünf Credits, was rund 0,04 Euro pro Schritt entspricht. Für Unternehmen mit hohem Automatisierungsvolumen bleiben die kumulierten Kosten jedoch eine zentrale Frage.

Windows 11 wird zur „intelligenten Leinwand“

Parallel zu den Neuerungen in Copilot Studio hat Microsoft seine Vision für Windows 11 in einem 14-seitigen E-Book detailliert beschrieben. Das Betriebssystem wird darin als „intelligente Leinwand“ bezeichnet. Kern der Strategie: KI-Werkzeuge dort platzieren, wo Nutzer ohnehin arbeiten, um ständiges Hin- und Herwechseln zwischen Anwendungen zu vermeiden. Ein zentrales Beispiel ist die „Ask Copilot“-Funktion, die im Sommer 2026 in die Windows-11-Taskleiste integriert wird. Sie ersetzt die traditionelle Suchleiste durch ein dynamisches Chat-Fenster mit direktem Zugriff auf Microsoft 365 Copilot und benutzerdefinierte Agenten.

Auch der Datei-Explorer erhält Copilot-Funktionalität. Microsofts Strategie legt nahe, dass Unternehmen eine höhere Rendite erzielen, wenn sie weniger, dafür aber tiefer integrierte KI-Werkzeuge einsetzen – statt einer fragmentierten Sammlung spezialisierter Anwendungen. Diese Philosophie spiegelt sich auch in der aktualisierten Version von Power Automate for Desktop wider, die Ende Mai 2026 erschien und speziell die Integration von Copilot für Workflow-Automatisierung hervorhebt.

Anzeige

Die tiefgreifenden Neuerungen in Windows 11 werfen bei vielen Anwendern Fragen zur Bedienung und Stabilität auf. IT-Experten mit 30 Jahren Erfahrung verraten im kostenlosen Starterpaket alles über die wichtigsten Funktionen und versteckten Neuerungen. Was wirklich hinter Windows 11 steckt – zum Gratis-Report

Wettbewerb schläft nicht: Google und Notion ziehen nach

Während Microsoft auf integrierte Unternehmensumgebungen setzt, verfolgen andere Player unterschiedliche Strategien. Google hat kürzlich seinen „Agent Executor“ vorgestellt, eine Open-Source-Laufzeitumgebung für produktionsreife KI-Agenten. Googles Ansatz konzentriert sich auf dauerhafte Ausführung, Sandboxing und „Trajektorien-Verzweigung“ – so können Agenten nach unterbrochenen Verbindungen oder fehlgeschlagenen Aufgaben wiederhergestellt werden. Durch die Open-Source-Veröffentlichung will Google die Nutzung seiner Cloud-Infrastruktur vorantreiben.

Im Bereich der Produktivitätssoftware hat Notion seinen Arbeitsbereich für externe KI-Agenten geöffnet – über eine neue API, die sich derzeit in der privaten Beta-Phase befindet. Seit Februar 2026 haben Nutzer über eine Million benutzerdefinierte Agenten auf der Plattform erstellt. Notions Ökosystem unterstützt nun Agenten wie Claude Code und OpenAI Codex als native Teilnehmer. Zur Unterstützung dieses Wachstums hat Notion „Workers“ eingeführt, eine gehostete Laufzeitumgebung, die bis zum 11. August 2026 kostenlos bleibt und danach auf ein Bezahlmodell von zehn Euro pro 1.000 Credits umstellt.

Im spezialisierten Unternehmens-KI-Bereich hat DevRev eine neue Version seiner „Computer“-Plattform gestartet. Diese führt „Shared Memory“ ein, der es KI-Agenten ermöglicht, Kontext auf individueller, Team- und Organisationsebene zu behalten. Unternehmen wie BILL und Uniphore berichten von signifikanten Ergebnissen: Uniphore konnte demnach 85 Prozent der Service-Tickets ohne menschliches Eingreifen lösen.

Wirtschaftlichkeit und Leistungsgrenzen

Trotz der rasanten Verbreitung dieser Technologien bleiben erhebliche Hürden in Bezug auf Betriebskosten und Zuverlässigkeit. Microsoft selbst hat bereits begonnen, seine internen Nutzungsrichtlinien aufgrund hoher Token-Kosten anzupassen. Das Unternehmen kündigte an, die Claude-Code-Lizenzen für seine Experiences & Devices Group bis zum 30. Juni 2026 zu beenden und diese Ingenieure auf GitHub Copilot CLI umzustellen, um Kosten zu senken.

Die finanziellen Auswirkungen sind bereits in großen Unternehmen sichtbar. Bei Uber, wo 70 Prozent des Codes inzwischen von KI generiert werden, stellte der Chief Technology Officer fest, dass das KI-Budget für 2026 bereits nach vier Monaten erschöpft war. Einige einzelne Ingenieure verursachten demnach monatliche Token-Kosten zwischen 500 und 2.000 Euro.

Auch die tatsächliche Leistung von GUI-basierten Agenten bleibt umstritten. Die SaaS-Bench-Studie von UniPat AI testete Agenten an über 100 realen, systemübergreifenden Aufgaben. Das Ergebnis: Selbst das fortschrittlichste Modell, Claude Opus 4.7, schloss nur 3,8 Prozent der komplexen, langfristigen Aufgaben erfolgreich ab. Die Studie hob grundlegende Einschränkungen hervor – insbesondere die Fehlerakkumulation und das Fehlen wirksamer Selbstkorrekturmechanismen bei der Navigation durch komplexe Software-Oberflächen.

Analyse: Der Weg zur Vollautomatisierung

Der Schritt hin zu autonomen Agenten bedeutet einen fundamentalen Wandel in der Definition von „Büroarbeit“. Mustafa Suleyman, CEO von Microsoft AI, deutete in einem aktuellen Interview an, dass many Berufe – darunter Anwälte, Buchhalter und Projektmanager – innerhalb der nächsten 12 bis 18 Monate vollständig automatisierbar sein könnten. Diese Prognose stützt er auf die Annahme, dass KI-Agenten ein Leistungsniveau erreichen, das mit menschlichen Arbeitern bei bestimmten digitalen Aufgaben vergleichbar ist.

Allerdings klafft zwischen dieser Vision und der technischen Realität eine Lücke. Zwar können Agenten inzwischen „sehen“ und „klicken“ wie Menschen, doch die hohe Varianz ihrer Erfolgsquoten deutet darauf hin, dass sie derzeit besser für explorative und überwachte Aufgaben geeignet sind als für vollständig autonome Operationen. Branchenexperten empfehlen daher, für ausführungsintensive Aufgaben Kommandozeilenschnittstellen zu nutzen, um Token-Verbrauch und Fehlerraten zu minimieren – und die teureren „Computer-Using Agents“ nur für die Erkundung und Kartierung neuer Arbeitsabläufe einzusetzen.

Ausblick

Mit dem nahenden Sommer 2026 verschiebt sich der Fokus der KI-Branche von chatbasierten Schnittstellen hin zu handlungsorientierten Agenten. Microsofts allgemeine Verfügbarkeit der Computer-Using-Funktionen in Copilot Studio setzt einen Maßstab für den Unternehmenseinsatz. Der langfristige Erfolg der Plattform wird jedoch davon abhängen, ob es gelingt, die Kosten pro „Schritt“ zu senken und die Zuverlässigkeit der Agenten bei mehrstufigen, anwendungsübergreifenden Arbeitsabläufen zu verbessern.

Die bevorstehende Integration von „Ask Copilot“ in die Windows-Taskleiste und der Ausbau des Agent-to-Agent-Kommunikationsprotokolls deuten auf eine Zukunft hin, in der das Betriebssystem als Orchestrator für eine flotte spezialisierter digitaler Arbeiter fungiert. Ob diese Werkzeuge die derzeitige Erfolgsquote von 3,8 Prozent bei komplexen Aufgaben überwinden können, wird darüber entscheiden, ob der 12- bis 18-Monats-Zeitplan für die Vollautomatisierung von Berufen eine erreichbare Realität oder eine optimistische Prognose ist.