Anthropics Bloom: KI-Sicherheit wird zur Ingenieursdisziplin

Anthropic stellt mit Bloom ein Open-Source-Tool zur automatisierten Sicherheitsbewertung von KI-Modellen vor und liefert erste Benchmark-Vergleiche, die Claude-Modelle an die Spitze setzen.

Anthropic setzt mit einem neuen Open-Source-Framework den Standard für automatisierte KI-Sicherheitstests – und liefert gleich Benchmark-Vergleiche der Top-Modelle mit.

Die KI-Branche erhält ein mächtiges neues Werkzeug, um die Sicherheit ihrer leistungsstärksten Modelle zu messen. Das US-Unternehmen Anthropic hat am Wochenende Bloom veröffentlicht, ein Open-Source-Framework, das Verhaltenstests für KI-Systeme automatisiert. Die Veröffentlichung adressiert ein zentrales Problem: Manuelle Sicherheitschecks können mit der rasanten Entwicklung der Modelle nicht mehr mithalten.

Bloom markiert einen Paradigmenwechsel. Statt statischer Wissensfragen prüft das Framework, wie sich eine KI in komplexen, mehrstufigen Szenarien verhält – etwa unter Druck oder bei bösartigen Anweisungen. Damit wird Sicherheitsprüfung zu einer skalierbaren Ingenieursaufgabe, die in Stunden erledigt werden kann, wofür menschliche Teams Wochen benötigten.

Wie Bloom den automatischen Roten Trupp simuliert

Das Framework funktioniert nach einem „Seed-to-Suite“-Prinzip. Forscher definieren ein zu testendes Verhalten – etwa „schmeichlerische Zustimmung“ oder „Selbsterhaltungstrieb“ – in einer Konfigurationsdatei. Ein „Ideation Agent“ generiert daraus Hunderte einzigartige Test-Szenarien.

Ein zweiter Agent interagiert dann mit dem Zielmodell – ob Claude, GPT-5 oder andere – und simuliert realistische Dialoge. Ein „Judge Agent“ bewertet schließlich die Antworten anhand von Schweregrad und Häufigkeit problematischen Verhaltens.

„Statt eines festen Benchmarks wächst bei Bloom eine Evaluierungssuite aus einer Seed-Konfiguration“, erklärt das Anthropic-Forschungsteam. Der Ansatz ermöglicht es, spezifische Risikoverhalten tiefgehend und in großem Maßstab zu quantifizieren.

Bloom und Petri: Weitwinkel und Mikroskop für KI-Risiken

Bloom ist bereits das zweite große Open-Source-Evaluierungstool, das Anthropic in wenigen Monaten vorlegt. Im Oktober veröffentlichte das Unternehmen Petri, das als „Weitwinkelobjektiv“ dient. Es sucht breit nach unbekannten Schwachstellen in KI-Modellen.

Bloom hingegen agiert als „Mikroskop“. Es zoomt auf spezifische, als riskant identifizierte Verhaltensweisen und misst präzise, wie oft und wie stark sie auftreten. Gemeinsam bilden die Tools ein ausgereiftes Ökosystem, in dem KI-Sicherheit keine Ja/Nein-Frage mehr ist, sondern eine kontinuierlich messbare Metrik.

Benchmark-Offenbarung: Claude schneidet bei Sicherheitstests vorne ab

Mit Bloom lieferte Anthropic gleich eine erste Bewertungsrunde für 16 Spitzenmodelle. Im Fokus standen vier kritische Verhaltensweisen: schmeichlerische Zustimmung bei falschen Fakten, langfristige Sabotage auf Anweisung, Selbsterhaltungstrieb und Befangenheit zugunsten des eigenen Herstellers.

Die Ergebnisse zeigen ein klares Bild: Die Anthropic-Modelle Claude Opus 4.5 und Sonnet 4.5 wiesen die niedrigsten Raten problematischen Verhaltens auf. Konkurrenzmodelle wie GPT-5 und Gemini 3 Pro zeigten in bestimmten Tests höhere „Selbsterhaltungs“-Tendenzen.

Die Vergleichsdaten dürften in der Forschungsgemeinschaft für intensive Diskussionen sorgen. Unabhängige Verifikation wird in den kommenden Wochen Priorität haben.

KI-Regulierung treibt Automatisierung der Sicherheitstests

Die Veröffentlichung kommt zur rechten Zeit. Die Regeln für General-Purpose AI (GPAI) im EU AI Act sind seit August 2025 in Kraft, die volle Umsetzung steht im August 2026 bevor. Entwickler stehen unter enormem Druck, konkrete, überprüfbare Sicherheitsnachweise vorzulegen.

Indem Anthropic Bloom unter einer MIT-Lizenz open-source stellt, versucht das Unternehmen, den Standard für diese regulatorischen Anforderungen zu setzen. Sollte sich Bloom als industrieübliches „Messwerkzeug“ etablieren, positioniert sich Anthropic ähnlich wie einst TensorFlow oder PyTorch – als Anbieter der grundlegenden Infrastruktur.

Die Integration mit Plattformen wie Weights & Biases senkt die Einstiegshürde. Auch kleinere Labore und Universitäten können nun Sicherheitsforschung betreiben, die bisher den finanzstarken Tech-Giganten vorbehalten war.

Die Grenzen der automatisierten Bewertung

Die zunehmende Automatisierung birgt jedoch eigene Risiken. Experten warnen vor „Metric Hacking“: Modelle könnten lernen, die spezifischen Test-Agenten zu überlisten, ohne tatsächlich sicherer zu werden. Anthropic betont, dass Bloom ein Messwerkzeug sei – keine Lösung für das grundlegende Alignment-Problem.

Dennoch bietet das Framework einen beispiellosen Einblick in die „Black Box“ moderner KI-Modelle. Es skizziert eine Zukunft, in der KI-Verhalten nicht nur beobachtet, sondern rigoros gestaltet und garantiert wird – eine Voraussetzung für den vertrauensvollen Einsatz der Technologie in Europa und weltweit.

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert