Claude Fable 5: Anthropic senkt Sicherheitslücken von 80 auf 1%

Anthropic veröffentlicht Claude Fable 5 mit Sicherheitsrouting, während Forscher sechs Angriffsflächen bei Claude Cowork aufdecken.

Neue Schutzmechanismen sollen autonome KI-Assistenten vor Missbrauch bewahren – doch Experten warnen vor gravierenden Sicherheitslücken.

Der KI-Entwickler Anthropic hat gemeinsam mit mehreren Cybersecurity-Partnern neue Werkzeuge und Modellversionen vorgestellt, die wachsende Sicherheitsrisiken autonomer KI-Agenten eindämmen sollen. Die Veröffentlichungen kommen zu einem Zeitpunkt, an dem Forscher erhebliche Angriffsflächen in den Umgebungen Claude Cowork und Claude Code identifiziert haben.

Anzeige

Die rasante Entwicklung autonomer Agenten schafft neue Sicherheitsrisiken und rechtliche Anforderungen, die viele Unternehmen noch nicht überblicken. Dieser kostenlose Report klärt auf, welche KI-Systeme als Hochrisiko gelten und was IT-Verantwortliche jetzt konkret tun müssen. Welche KI-Systeme gelten als Hochrisiko – und was müssen Unternehmen jetzt konkret tun?

Neue Schutzmechanismen für autonome Fähigkeiten

Am heutigen Dienstag veröffentlichte Anthropic Claude Fable 5, ein Modell, das hohe Reasoning-Fähigkeiten mit Sicherheitsbeschränkungen verbinden soll. Fable 5 basiert auf der Architektur des „Mythos“-Modells, das aufgrund seiner fortgeschrittenen Fähigkeiten in den Bereichen Cybersicherheit und Biologie nie der Öffentlichkeit zugänglich gemacht wurde.

Um die Risiken zu kontrollieren, setzt Fable 5 auf ein Routing-System: Anfragen zu Cybersecurity oder Biologie werden automatisch an Claude Opus 4.8 weitergeleitet. Tests zeigten, dass das fortschrittliche Opus 4.8 ohne diese Schutzmechanismen rund 80 Prozent bekannter Sicherheitslücken reproduzieren konnte – mit den neuen Beschränkungen sinkt dieser Wert auf ein Prozent. Sämtlicher Datenverkehr des neuen Modells unterliegt einer 30-tägigen Speicherfrist.

Die Veröffentlichung erfolgt vor dem Hintergrund eines massiven Anstiegs der internen KI-Nutzung bei Anthropic. Seit Mai 2026 stammen mehr als 80 Prozent des firmeneigenen Codes von Claude. Die Ingenieure des Unternehmens liefern inzwischen achtmal mehr Code pro Quartal aus als im Zeitraum 2021 bis 2025.

Sicherheitslücken bei Claude Cowork

Trotz der Effizienzgewinne haben Sicherheitsforscher sechs primäre Angriffsflächen für Claude Cowork identifiziert, das im Januar 2026 auf den Markt kam. Aktuelle Analysen zeigen, dass das Tool in allen Abonnement-Stufen von den standardmäßigen Audit-Logs und Compliance-APIs von Anthropic ausgeschlossen ist – ein gefährliches Blindflug-Szenario für Unternehmenssicherheitsteams.

Weitere identifizierte Risiken:

  • Indirekte Prompt-Injection: PromptArmor demonstrierte, wie eine versteckte Injection in einem Word-Dokument den Agenten dazu bringen konnte, Finanzdokumente an einen unbefugten Empfänger weiterzuleiten.
  • Agent-Schwachstellen: Risiken im Zusammenhang mit Browser-Agenten, geplanten Aufgaben und MCP-Servern.
  • Bösartige Skills: Branchenberichte dokumentieren die Kampagne „ClawHavoc“, bei der über 1.200 schädliche Skills zur Datendiebstahl eingesetzt wurden.
Anzeige

Angesichts neuer KI-Gesetze und komplexer Cyberrisiken müssen Unternehmen ihre proaktiven Schutzmaßnahmen dringend verstärken. Ein kostenloser Experten-Leitfaden zeigt Ihnen, wie Sie Sicherheitslücken schließen und gleichzeitig alle aktuellen gesetzlichen Anforderungen rechtssicher erfüllen. Gratis-E-Book: IT-Sicherheit stärken und gesetzliche Anforderungen erfüllen

Governance-Plattform und Wiederherstellungstools

Um diese Schwachstellen zu adressieren, hat Rubrik auf der FORWARD-Konferenz seine Agent Cloud-Plattform vorgestellt. Die Plattform ist speziell für Claude Code und Claude Cowork konzipiert und bietet eine semantische Governance-Engine sowie Observability-Tools. Zu den Kernfunktionen gehört „Agent Rewind“, mit dem Administratoren unbeabsichtigte Aktionen eines KI-Agenten rückgängig machen können, sowie unveränderliche Snapshots von Code-Repositories.

Unabhängige Entwickler haben zudem Open-Source-Tools wie Spotter und Caveat veröffentlicht, die bei der Überwachung von Claude-Tool-Aufrufen und der Identifizierung wiederkehrender Sicherheitsfallen in Entwicklungsumgebungen helfen sollen.

Lehren aus aktuellen Sicherheitslücken

Der Fokus auf Agentensicherheit folgt der Offenlegung eines kritischen Bugs in der Claude Code GitHub Action durch Microsoft Threat Intelligence Anfang Juni. Die Sicherheitslücke erlaubte Angreifern, über HTML-Kommentare in GitHub Issues den Agenten anzuweisen, Systemumgebungsdateien auszulesen – potenziell konnten so CI/CD-Secrets abfließen.

Anthropic schloss die Lücke innerhalb von sechs Tagen mit Version 2.1.128. Als Reaktion auf solche architektonischen Risiken hat Microsoft die „Rule of Two“ für KI-Workflows vorgeschlagen: Agenten sollten niemals gleichzeitig Zugriff auf ungeprüfte Eingaben und sensible Secrets haben, während sie extern kommunizieren können.

Eine aktuelle CyberArk-Umfrage zeigt das Dilemma: 76 Prozent der Unternehmen erwarten, innerhalb der nächsten drei Jahre KI-Agenten einzusetzen – doch weniger als zehn Prozent haben nach eigenen Angaben angemessene Sicherheitsmaßnahmen für diese autonomen Systeme implementiert.