Die als „Agentjacking“ bekannte Technik nutzt manipulierte Fehlermeldungen, um Entwicklerumgebungen zu kapern und sensible Zugangsdaten zu stehlen. Das berichtet das Sicherheitsunternehmen Tenet Security in einer aktuellen Studie.
Erschreckende Erfolgsquote bei Agentjacking-Angriffen
Die am 30. Juni veröffentlichte Forschung zeigt: Agentjacking kann führende KI-Coding-Assistenten wie Claude Code, Cursor und Codex austricksen. Angreifer schleusen schädliche Anweisungen in gefälschte Sentry-Fehlerberichte ein. Da KI-Agenten oft automatisch Fehler beheben sollen, behandeln sie diese manipulierten Meldungen als vertrauenswürdige Systemanweisungen.
Die Erfolgsquote der Angriffe liegt bei alarmierenden 85 Prozent. Besonders gefährlich: Agentjacking umgeht gängige Sicherheitsschichten wie Endpoint Detection and Response (EDR), Web Application Firewalls (WAF) und Identity-Management-Systeme. Tenet Security identifizierte 2.388 Unternehmen mit offengelegten Sentry-DSNs, die potenziell angreifbar sind.
Fatale Schwachstellen im Model Context Protocol
Doch die Probleme gehen tiefer. Eine Ende Juni veröffentlichte Studie von Patel und Pai deckt massive Sicherheitslücken im Model Context Protocol (MCP) auf. Bei der Analyse offener MCP-Server zeigte sich: 88 Prozent hatten defekte Authentifizierungsmechanismen.
Die Forscher belegen, dass KI-Agenten Fehlermeldungen regelmäßig als vertrauenswürdige Befehle interpretieren. Mit einer speziellen Mutations-Engine gelang es ihnen, verschiedene Spitzenmodelle nach nur einem Angriffsdurchlauf zu 100 Prozent zu kompromittieren. Microsoft warnte bereits vor ähnlichen Manipulationen von MCP-Tool-Beschreibungen. Beim MCPTox-Benchmark gelang es Angreifern, Microsoft 365 Copilot mit 72,8 Prozent Erfolgsquote zum Preisgeben vertraulicher Dateien und E-Mails zu bewegen.
Die neue Angriffsklasse Agentjacking manipuliert 85% aller KI-Coding-Assistenten – und 88% der MCP-Server sind ungeschützt. Bevor Ihre Konkurrenz die Lücke schließt, zeigt Ihnen dieser Report, wie Sie Ihre CI/CD-Pipeline und Entwicklerumgebung absichern. Jetzt kostenlosen Sicherheits-Report anfordern
Logische Manipulation und Browser-Risiken
Forscher von LayerX präsentieren mit „BioShocking“ eine weitere Angriffsvariante. Diese nutzt logische Manipulation, um Sicherheitsvorkehrungen auszuhebeln. Eine bösartige Webseite lockt Nutzer mit einem Rätselspiel, das falsche Antworten belohnt – etwa die Zustimmung, dass zwei plus zwei fünf ergibt. So entsteht ein fiktiver Kontext, der KI-Browser veranlasst, ihre Sicherheitsprogrammierung zu ignorieren.
Im Test befolgten alle sechs getesteten KI-Browser – darunter ChatGPT Atlas, Comet und mehrere Plugins – Anweisungen zur Kompromittierung von Nutzerdaten. OpenAI soll die spezifische Schwachstelle zwar behoben haben, andere Patches blieben jedoch wirkungslos.
Bereits im April hatte eine Studie der University of Washington die Risiken agentischer Browser aufgezeigt. Damals erlaubten vier von sieben getesteten Browsern die Umgehung der Same-Origin-Policy – einer fundamentalen Websicherheitsgrenze.
Sicherheitslücken in der Unternehmens-Governance
Nur 34% der Firmen sichern KI-Agenten wie menschliche Mitarbeiter – ein fataler Fehler. Dieser Report liefert Ihnen die Governance-Regeln und das Audit-Schema, mit dem Sie Ihre KI-Agenten genauso streng kontrollieren wie Ihr Team. Governance-Checkliste jetzt sichern
Trotz der rasanten Verbreitung von KI-Agenten in Unternehmen hinken die Sicherheitskontrollen hinterher. Aktuelle Umfragen zeigen: Nur 34 Prozent der Organisationen wenden auf KI-Agenten dieselben strengen Sicherheitsstandards an wie auf menschliche Mitarbeiter.
Diese mangelnde Kontrolle ist umso problematischer, als KI-Agenten weiterhin anfällig für altbekannte Tricks sind. Die Forschung von Adversa AI belegt: 10 von 11 populären Open-Source-KI-Agenten – darunter Hermes und OpenCode – ließen sich mit einfacher Bash-Shell-Manipulation überlisten. Diese jahrzehntealten Techniken können Cloud-Zugangsdaten abgreifen oder ganze Entwicklungsumgebungen löschen. Nur ein einziger Agent blockierte im Test alle Angriffsversuche erfolgreich.

