Prompt-Injection: Anthropic senkt Angriffsquote von 31,5 auf 0,5%

Anthropic veröffentlicht Sicherheitsdaten: Erfolgsrate von Prompt-Injection-Angriffen auf KI-Agenten fiel von 31,5 auf 0,5 Prozent.

Prompt-Injection-Angriffe auf KI-Systeme bleiben eine ernste Gefahr. Neue Sicherheitsmaßnahmen senken die Erfolgsquote jedoch drastisch.

Der KI-Entwickler Anthropic hat erstmals detaillierte Zahlen zur Verwundbarkeit seiner Browser-Agenten veröffentlicht. In einem 244-seitigen Systembericht vom 28. Mai 2026 legt das Unternehmen offen: Vor dem Einsatz von Schutzmaßnahmen gelang es Angreifern in 31,5 Prozent der Fälle, den Agenten Opus 4.8 durch sogenannte Prompt-Injection zu übernehmen. Getestet wurde in 129 verschiedenen Umgebungen mit einem adaptiven Angriffsmodell.

Anzeige

Neue KI-Gesetze, neue Cyberrisiken: Was kommt wirklich auf Ihr Unternehmen zu? Dieser kostenlose Report klärt auf, welche rechtlichen Pflichten und Bedrohungen Unternehmer jetzt kennen müssen. Kostenlosen Cyber-Security-Report jetzt herunterladen

Die Enthüllung wirft ein Schlaglicht auf die Sicherheitsprobleme agentischer KI-Systeme, die zunehmend in automatisierten Arbeitsabläufen eingesetzt werden – etwa auf dezentralen Finanzplattformen (DeFi) oder in Krypto-Trading-Bots. Die gute Nachricht: Nach der Implementierung spezifischer Schutzmechanismen sank die erfolgreiche Angriffsrate auf 0,5 Prozent.

Transparenzlücke bei großen KI-Entwicklern

Die Veröffentlichung konkreter Übernahmequoten für agentische Systeme markiert einen bemerkenswerten Schritt in Sachen Transparenz. Branchenbeobachter stellen fest: Während OpenAI die Robustheit seiner Modell-Schnittstellen getestet und auf einer Oberfläche einen Wert von 0,963 erreicht hat, haben weder Google noch Meta vergleichbare Daten zu Prompt-Injection veröffentlicht. Ein einheitlicher Industriestandard für solche Sicherheitskennzahlen existiert bislang nicht.

Der Bericht dokumentiert zudem Fortschritte bei der Selbstkorrektur des Modells. Bei Opus 4.8 sank die Rate falsch-negativer Ergebnisse bei Programmierfehlern – wenn das Modell eigene Fehler nicht erkennt – auf 3,7 Prozent. Zum Vergleich: Bei früheren Versionen lag diese Fehlerquote noch bei 19,7 Prozent.

Regierungszugang zu KI-Sicherheitstools

Parallel zu diesen Sicherheitsenthüllungen gewährt Anthropic Regierungsbehörden tiefere Einblicke in seine leistungsfähigsten Diagnosewerkzeuge. Am heutigen Montag erhielt die Europäische Agentur für Cybersicherheit (ENISA) Zugang zum Mythos-KI-Modell des Unternehmens – im Rahmen des Programms „Project Glasswing“.

Mythos, das im April 2026 in einer Vorschauphase gestartet wurde, ist speziell für die Schwachstellensuche konzipiert und hat bereits mehr als 10.000 Zero-Day-Lücken autonom identifiziert. ENISA ist die erste EU-Institution, die dem Projekt beitritt. Vorausgegangen waren wochenlange Verhandlungen, in denen Anthropic die Erlaubnis der US-Regierung einholen musste. Der Zugang erlaubt der Behörde den Einsatz eines Tools, das mehrstufige Cyberangriffe simulieren und tiefgreifende Softwarefehler aufspüren kann. Die endgültigen Preise und Konditionen der Partnerschaft werden derzeit noch ausgehandelt.

Anzeige

Welche KI-Systeme gelten als Hochrisiko – und was müssen Unternehmen jetzt konkret tun? Die EU-KI-Verordnung stellt neue Regeln auf, die viele noch nicht kennen – dieser kostenlose Report klärt auf. Umsetzungsleitfaden zum EU AI Act kostenlos sichern

KI-gestützte Exploit-Entwicklung im Aufwind

Die Dringlichkeit solcher Sicherheitsmaßnahmen unterstreichen aktuelle Berichte über den Missbrauch von KI-Modellen für Hackerangriffe. Bereits gestern gab das Sicherheits-Startup Calif bekannt, dass es mit einer Vorschauversion von Claude Mythos in weniger als einer Woche einen Kernel-Exploit für den Apple M5-Chip entwickelt habe. Der Exploit umging erfolgreich Apples Memory Integrity Enforcement unter macOS 26.4.1.

In einem weiteren Fall demonstrierte ein Forscher, wie niedrig die Hürden für die Exploit-Entwicklung inzwischen sind: Mit Claude Opus 4.6 erstellte er eine vollständige Exploit-Kette für eine Chrome-Sicherheitslücke. Die Kosten beliefen sich auf rund 2.283 Euro an API-Gebühren, nötig waren 1.765 Anfragen über eine Woche.

Diese Entwicklungen fallen in eine Zeit, in der Anthropic selbst Schwachstellen im eigenen Ökosystem schließt. Erst kürzlich veröffentlichte das Unternehmen Version 1.0.94 seines Claude-Code-Tools, um eine Sicherheitslücke in GitHub Actions zu beheben, die unbefugten Repository-Zugriff ermöglicht hätte.