Anthropic öffnet sich: Sicherheits-Tools und Strategiewechsel

Der KI-Pionier Anthropic veröffentlicht überraschend zentrale Sicherheitswerkzeuge als Open Source und lockert gleichzeitig eigene Entwicklungsstopps. Ein Balanceakt zwischen Sicherheitsmission und Wettbewerbsdruck.

Neue Transparenz: Einblick in die Blackbox der KI

Am 7. Mai 2026 hat Anthropic ein zentrales Alignment-Tool an die Forschungsgemeinschaft gespendet. Bislang hielt das Unternehmen solche Instrumente unter Verschluss. Jetzt können externe Forscher mit denselben Werkzeugen arbeiten, die auch intern dafür sorgen, dass KI-Modelle hilfreich, ehrlich und harmlos bleiben.

Parallel dazu veröffentlichte das Interpretability-Team eine Studie zu sogenannten „Natural Language Autoencodern“. Die Methode adressiert ein Kernproblem: KI-Modelle wie Claude kommunizieren zwar in menschlicher Sprache, denken aber in komplexen Zahlenvektoren. Die neue Technik übersetzt diese internen „Gedanken“ zurück in lesbaren Text. Forscher können nun Millionen von Konzepten in den Modellgewichten identifizieren – etwa solche, die mit Speichelleckerei oder widersprüchlichen Loyalitäten zusammenhängen – und gezielt verstärken oder unterdrücken.

Der rasante Aufstieg von Unternehmen wie Anthropic verdeutlicht, dass Künstliche Intelligenz zum bestimmenden Wirtschaftsfaktor der nächsten Jahre geworden ist. In diesem Gratis-Report erfahren Sie alles über die wichtigsten Big-Data-Unternehmen und Ihre Investmentchancen. Megatrend KI Report jetzt kostenlos herunterladen

Koordiniert wird dieser Vorstoß über das Anthropic Institute (TAI) . Das Institut veröffentlichte am selben Tag eine neue Forschungsagenda mit vier Schwerpunkten: wirtschaftliche Verbreitung von KI, Bedrohungen und Resilienz, KI-Systeme in der Praxis sowie KI-gesteuerte Forschung. Ziel ist ein Frühwarnsystem für disruptive Entwicklungen.

Strategiewechsel beim Responsible Scaling Policy

Nur einen Tag zuvor, am 6. Mai, bestätigte Anthropic eine grundlegende Überarbeitung seiner internen Sicherheitsrichtlinie. Die ursprüngliche Version sah vor, die Modellentwicklung automatisch zu stoppen, wenn bestimmte Risikoschwellen überschritten wurden. Die neue Version 3.2 berücksichtigt jetzt auch das Verhalten der Konkurrenz und die regulatorische Gesamtlage.

Das Unternehmen begründet den Schritt mit der veränderten Realität: Während Sicherheitsdebatten in Washington politisch kaum vorankommen, dominieren Wirtschaftswachstum und nationale Wettbewerbsfähigkeit die Agenda. Ein einseitiger Entwicklungsstopp sei unter diesen Bedingungen nicht mehr tragbar.

Der neue Rahmen gibt dem Lattice Trust and Board of Trustees (LTBT) die Befugnis, externe Risikoprüfungen anzufordern. Formalisiert wurden auch regelmäßige Briefings. Anthropic betont jedoch, dass man jederzeit freiwillig pausieren könne – auch ohne formale Verpflichtung.

Der Zeitpunkt ist kein Zufall: Im April 2026 erreichte Anthropics annualisierte Umsatzrate rund 30 Milliarden Euro – erstmals vor einigen Hauptkonkurrenten. Um diesen Schwung zu halten, hat sich das Unternehmen zu Ausgaben von rund 185 Milliarden Euro für Cloud-Dienste und Hardware bis 2031 verpflichtet, schwerpunktmäßig bei Google Cloud.

Project Glasswing: Die Abwehr-Offensive

Herzstück der aktuellen Sicherheitsstrategie ist Project Glasswing, gestartet im Frühjahr 2026. Die Initiative vereint ein branchenübergreifendes Bündnis: Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, die Linux Foundation, Microsoft, NVIDIA und Palo Alto Networks.

Eingesetzt wird das spezialisierte Modell Claude Mythos Preview – nach Einschätzung des Unternehmens zu leistungsfähig für eine öffentliche Freigabe. Mythos kann Sicherheitslücken auf einem Niveau identifizieren und ausnutzen, das die meisten menschlichen Experten übertrifft. In internen Tests entdeckte das System tausende schwerwiegende Schwachstellen in Betriebssystemen und Browsern – darunter Fehler, die über 25 Jahre unentdeckt blieben.

Während Anthropic seine internen Richtlinien anpasst, müssen viele Unternehmen in Deutschland erst noch lernen, die strengen Anforderungen des EU AI Acts rechtssicher umzusetzen. Dieser kostenlose Praxisleitfaden liefert Ihnen den notwendigen Überblick über Risikoklassen, Dokumentationspflichten und wichtige Übergangsfristen. EU AI Act in 5 Schritten verstehen – hier E-Book sichern

Anthropic investiert rund 3,7 Millionen Euro direkt in Open-Source-Sicherheitsorganisationen und stellt bis zu 92 Millionen Euro in Nutzungsguthaben für Mythos Preview bereit. Flankiert wird dies durch den öffentlichen Beta-Start von Claude Security am 1. Mai 2026. Der Dienst richtet sich an Unternehmen und scannt Codebasen auf Schwachstellen, priorisiert sie nach Schweregrad und generiert gezielte Reparaturvorschläge.

Zwischen Sicherheitsmission und Realpolitik

Die Doppelstrategie – Öffnung bei Sicherheitswerkzeugen bei gleichzeitiger Lockerung der Entwicklungsstopps – spiegelt den enormen Druck wider, dem KI-Labore 2026 ausgesetzt sind. Anthropics Gründungsidentität war das „Safety-First“-Unternehmen. Doch KI-Fähigkeiten sind heute untrennbar mit nationaler Sicherheit und Wirtschaftskraft verbunden.

Besonders deutlich wurde dieser Konflikt im März 2026, als das US-Verteidigungsministerium Anthropic als „Lieferkettenrisiko“ einstufte. Grund: Das Unternehmen weigerte sich, vertragliche Verbote für Massenüberwachung und vollautonome Waffen aus seinen Nutzungsbedingungen zu streichen. Die Folge: Anthropic wurde von einem milliardenschweren KI-Vertrag ausgeschlossen, den acht andere Firmen am 1. Mai unterzeichneten. Zwar erwirkte Anthropic Ende März eine einstweilige Verfügung gegen die Risikoeinstufung – der Rechtsstreit belastet jedoch weiterhin die Auftragschancen.

Mit den Open-Source-Initiativen und defensiven Cybersicherheits-Tools scheint Anthropic zu versuchen, bei öffentlichen Institutionen und Entwicklern wieder an Boden zu gewinnen. Der Nachweis, dass die eigenen Modelle die „beste Verteidigung“ gegen KI-gestützte Bedrohungen bieten, könnte der entscheidende Wettbewerbsvorteil sein.

Ausblick: Vom Rechenzentrum ins All

Die ambitionierten Ziele für die kommenden Monate zeigen die Richtung:

Bis 15. Mai 2026: Abschluss der ersten Phase der „Moonshot R&D“-Projekte, darunter eine Bestandsaufnahme für „Extrem-Sicherheits“-Umgebungen mit isolierten Netzwerken und physischen Schutzmaßnahmen.
Bis 30. September 2026: Entwicklung eines Prototyps für „provable inference“ – eine Technik, die systematisch verifiziert, dass KI-Ausgaben von einem bestimmten, unveränderten Modell stammen. Dies soll Manipulationen nach dem Training verhindern.

Auf der Infrastruktur-Seite soll die kürzlich vereinbarte Nutzung des Colossus-1-Supercomputers in Memphis (betrieben von SpaceX) innerhalb des Monats 300 Megawatt neue Kapazität bringen. Der Strombedarf für „Claude Code“ und andere agentische Werkzeuge steigt rasant.

Und dann wäre da noch die Anfrage für orbitale KI-Rechenkapazität – Anthropics Suche nach der massiven Skalierung für Claude 5 und die nächste Generation könnte tatsächlich ins All führen.

Neue Transparenz: Einblick in die Blackbox der KI

Strategiewechsel beim Responsible Scaling Policy

Project Glasswing: Die Abwehr-Offensive

Zwischen Sicherheitsmission und Realpolitik

Ausblick: Vom Rechenzentrum ins All

Ähnliche Beiträge

Amazon MGM Studios: GenAI Creators‘ Fund für animierte Serien

Claude Code: Anthropic baut KI-Agenten für autonome IT-Prozesse

Illinois beschließt KI-Gesetz SB315: Transparenz ab 2028 verpflichtend

Gemini Enterprise: Workdays Sana-Agent kommt in Google Cloud

KI-Budgets platzen: Uber verbraucht Jahresbudget in vier Monaten

Merck-Erfolg: KI-Agenten verkürzen Wirkstoffforschung um 33%