OpenAI startet mit EVMbench Blockchain-Sicherheits-Offensive

OpenAI und Paradigm stellen einen Benchmark vor, der die offensive und defensive Leistung von KI bei Blockchain-Sicherheit misst und eine gefährliche Angriffs-Lücke aufzeigt.

KI-Sicherheit für Smart Contracts wird messbar: OpenAI hat mit EVMbench einen Standard-Benchmark für die Prüfung von KI-Agenten im Umgang mit Blockchain-Schwachstellen geschaffen. Das in Partnerschaft mit dem Krypto-Investor Paradigm vorgestellte Tool soll klären, ob Künstliche Intelligenz die Sicherheit von DeFi-Anwendungen stärkt oder gefährdet. Zugleich stellt das Unternehmen zehn Millionen Euro an API-Guthaben für Verteidigungsforschung bereit.

Ein Benchmark für drei kritische Fähigkeiten

Das Herzstück der Ankündigung ist EVMbench, ein Prüfstand für KI-Agenten. Er bewertet deren Leistung in drei entscheidenden Modi: Schwachstellen finden (Detect), Schwachstellen beheben (Patch) und Schwachstellen ausnutzen (Exploit). Die Testumgebung basiert auf 120 realen Sicherheitslücken aus 40 professionellen Audits, darunter Daten aus Wettbewerben wie Code4rena und dem Tempo-Blockchain.

Im „Detect“-Modus muss die KI komplette Smart-Contract-Codebasen nach schwerwiegenden Fehlern durchsuchen. Der „Patch“-Modus verlangt, gefundene Probleme zu beheben, ohne die Vertragsfunktionalität zu zerstören – eine enorme Herausforderung. Am kontroversesten ist der „Exploit“-Modus: Hier wird getestet, wie gut eine KI Angriffe in einer abgeschotteten Sandbox durchführen kann.

Die Zusammenarbeit mit Paradigm, einer der einflussreichsten Venture-Capital-Firmen im Kryptobereich, soll die Praxisrelevanz des Benchmarks garantieren. Beobachter sehen darin einen wichtigen Schritt, um die allgemeine KI-Entwicklung mit den speziellen Anforderungen der Blockchain-Sicherheit zu verknüpfen.

Die gefährliche „Exploit Gap“ der KI

Die mit EVMbench veröffentlichten Daten offenbaren ein alarmierendes Ungleichgewicht: Die offensiven Fähigkeiten von KI-Modellen entwickeln sich deutlich schneller als die defensiven. OpenAI nennt dies die „Exploit Gap“.

Das aktuelle Codemodell GPT-5.3-Codex erreichte im „Exploit“-Test eine Erfolgsquote von 72,2 Prozent. Vor gut einem halben Jahr lag der Standard-GPT-5 hier noch bei 31,9 Prozent – eine Verdoppelung der Angriffsfähigkeit in kürzester Zeit.

Dagegen hinken die Leistungen beim Aufspüren und Reparieren von Fehlern hinterher. Die KI bricht Audits oft ab, sobald sie einen ersten Fehler findet. Bei Reparaturversuchen zerstört sie häufig die komplexe Logik der Smart Contracts. Die Ergebnisse zeigen: KI kann ausgezeichnet angreifen, wenn man ihr ein klares Ziel gibt. Eine umfassende, eigenständige Sicherheitsprüfung ist ihr aber noch nicht möglich.

Diese Diskrepanz unterstreicht das zweischneidige Schwert des KI-Fortschritts in der Cybersicherheit. Bessere Angriffssimulationen helfen Entwicklern – doch die rasante Steigerung der Ausnutzungsfähigkeiten könnte KI auch zur Waffe für Kriminelle machen.

Gegenmaßnahmen: Forschungs-Agent und Millionen-Förderung

Als direkte Antwort auf diese Risiken kündigte OpenAI zwei Initiativen an. Zum einen wird die private Beta des Sicherheits-Forschungsagenten Aardvark ausgeweitet. Aardvark, Ende 2025 vorgestellt, soll wie ein automatisierter Sicherheitsingenieur kontinuierlich nach Schwachstellen suchen und Patches verifizieren. Die Integration in Entwickler-Workflows soll Echtzeit-Feedback während der Vertragserstellung ermöglichen.

Zum anderen stellt das Unternehmen im Rahmen seines Cybersecurity Grant Program zehn Millionen Euro in API-Guthaben speziell für defensive Anwendungen bereit. Das Geld ist für Forscher und Organisationen gedacht, die an Open-Source-Sicherheit und dem Schutz kritischer Infrastruktur arbeiten. Durch subventionierten Zugang zu den leistungsstärksten Modellen will OpenAI die Entwicklung von KI-gestützten Abwehrwerkzeugen beschleunigen.

Anzeige

Wer die „Exploit Gap“ ernst nimmt, braucht praktikable Strategien gegen KI-gestützte Angriffe – und klare Schritte für die eigene IT-Sicherheit. Ein kostenloses E‑Book fasst die wichtigsten Cyber‑Security‑Trends zusammen, erklärt, wie KI‑Angriffe funktionieren und welche Maßnahmen Unternehmen und Entwickler sofort umsetzen können. Speziell für IT‑Verantwortliche, Sicherheitsforscher und Blockchain‑Teams, die KI‑Risiken wirkungsvoll abwehren möchten. Jetzt kostenlosen Cyber-Security-Guide herunterladen

Warum jetzt? DeFi unter Druck

Der Start von EVMbench fällt in eine heikle Phase für Kryptowährungen. Erst Anfang Februar wurde die DeFi-Plattform Moonwell gehackt – teilweise mit KI-generiertem Code. Kurz darauf verlor das Cross-Chain-Protokoll CrossCurve rund 2,7 Millionen Euro durch eine Smart-Contract-Schwachstelle.

Diese Vorfälle heizen die Debatte um KI in der Softwareentwicklung an. Assistenzsysteme beschleunigen die Entwicklung enorm, können aber auch subtile Fehler einschleusen. Da Smart Contracts derzeit offene Krypto-Assets im Wert von über 90 Milliarden Euro sichern, steht die Branche unter Druck, bessere Validierungsmethoden zu finden. EVMbench ist ein direkter Versuch, hierfür einen objektiven Maßstab zu liefern.

Künftig könnte ein guter EVMbench-Score zur Voraussetzung für den Einsatz von KI in der Finanzsoftware-Entwicklung werden. Der Fokus wird darauf liegen, die Lücke zwischen Angriff und Verteidigung zu schließen. Gelingt dies, könnte eine neue Generation „selbstheilender“ Smart Contracts entstehen, die Schwachstellen eigenständig erkennen und beheben – bevor sie ausgenutzt werden können.