OpenAI und Paradigm starten KI-Benchmark für Krypto-Sicherheit

Der neue Benchmark EVMbench zeigt, dass KI-Systeme Schwachstellen in Smart Contracts weitaus effektiver ausnutzen als finden oder beheben können. Dies unterstreicht die Dringlichkeit, defensive KI-Tools zu entwickeln.

KI-Agenten finden und schließen Schwachstellen in Smart Contracts deutlich schlechter, als sie sie ausnutzen. Das zeigt der neue Benchmark EVMbench, den OpenAI und der Krypto-Investor Paradigm heute vorgestellt haben. Das Tool soll die Entwicklung defensiver KI für die milliardenschwere Blockchain-Branche vorantreiben.

Ein Wettlauf gegen KI-gestützte Angriffe

Die Veröffentlichung kommt zu einem kritischen Zeitpunkt. Allein in dezentralen Finanzanwendungen (DeFi) sind über 100 Milliarden Euro durch Smart Contracts gesichert. Kürzliche Hacks, bei denen laut Berichten auch KI-generierter Code eine Rolle spielte, haben die Debatte befeuert: Ist Künstliche Intelligenz eine größere Gefahr oder der mächtigste Verteidiger für die Krypto-Welt?

EVMbench soll hier Transparenz schaffen. Der Benchmark testet KI-Agenten auf Ethereum-kompatiblen Blockchains in drei Schlüsselaufgaben: Schwachstellen finden (Detect), sie reparieren ohne die Funktionalität zu zerstören (Patch) und in einer abgeschotteten Testumgebung simulierte Angriffe durchführen (Exploit).

Realistische Tests mit echten Schwachstellen

Für realistische Ergebnisse basiert der Benchmark auf einem Datensatz von 120 kritischen Sicherheitslücken aus 40 früheren Audits. Viele stammen aus öffentlichen Wettbewerben für Code-Überprüfungen. Eingeflossen sind auch spezifische Szenarien aus dem Audit von Tempo, einer in Entwicklung befindlichen Blockchain von Paradigm. Dadurch ist der Test besonders auf finanzielle Anwendungen zugeschnitten.

Forscher können so messen, wie KI-Systeme in hochriskanten Finanzszenarien abschneiden – ohne echtes Geld zu gefährden.

Alarmierende Diskrepanz: Angriff stärker als Verteidigung

Die ersten Ergebnisse sind eindeutig und geben Anlass zur Sorge. KI-Agenten sind derzeit weitaus besser darin, Lücken auszunutzen, als sie zu finden oder zu schließen.

OpenAIs aktuelles Modell GPT-5.3-Codex erzielte bei simulierten Angriffen eine Erfolgsquote von über 70 Prozent. Das ist ein gewaltiger Sprung gegenüber dem Vorgänger GPT-5, der vor sechs Monaten noch bei unter 32 Prozent lag.

Auf der defensiven Seite hapert es jedoch gewaltig. In der Detect-Phase brechen Agenten die Prüfung oft nach dem ersten gefundenen Fehler ab. Beim Patching scheitern sie an der kniffligen Aufgabe, subtile Sicherheitslücken zu schließen, ohne den Vertrag zu beschädigen. Diese Kluft unterstreicht die Dringlichkeit, defensive KI-Systeme gezielt weiterzuentwickeln.

Anzeige

Wer die wachsende Lücke zwischen Angreifern und Verteidigung schließen will, findet praxisnahe Hilfe in einem kostenlosen Cyber-Security-Report für Unternehmen und IT-Verantwortliche. Der Report erklärt aktuelle Bedrohungsmuster (inklusive KI-gestützter Angriffe), zeigt einfache Schutzmaßnahmen und gibt Empfehlungen zum Einsatz defensiver Tools. Kostenlosen Cyber-Security-Report herunterladen

Reaktion auf eine sich wandelnde Bedrohungslage

Der Launch ist eine direkte Antwort auf konkrete Vorfälle. Neben dem Hack beim Lending-Protokoll Moonwell verlor kürzlich das Cross-Chain-Protokoll CrossCurve etwa 2,7 Millionen Euro durch einen Smart-Contract-Angriff. Forschungsergebnisse zeigen zudem, dass KI die Kosten und die Einstiegshürde für Cyberangriffe senken kann.

Indem sie EVMbench als Open-Source-Projekt veröffentlichen, wollen OpenAI und Paradigm die gesamte Forschungsgemeinschaft mobilisieren. Das Ziel ist klar: Die Entwicklung von KI-Systemen zu beschleunigen, die das Auditing von Smart Contracts automatisieren und verbessern können. Der Benchmark bietet eine gemeinsame Messlatte für den Fortschritt.

Teil einer breiteren Cybersecurity-Offensive

EVMbench ist Teil einer größeren Initiative von OpenAI. Das Unternehmen stellt über sein Cybersecurity Grant Program API-Guthaben im Wert von 9,2 Millionen Euro bereit, um defensive Tools zu fördern. Der Fokus liegt auf dem Schutz von Open-Source-Software und kritischer Infrastruktur.

Zudem weitet OpenAI die private Beta seines eigenen Sicherheits-Forschungsagenten Aardvark aus und kooperiert mit Open-Source-Projekten für kostenlose Code-Scans. Da sich die Fähigkeiten von KI im Programmieren rasant entwickeln, werden Frameworks wie EVMbench entscheidend sein. Sie sollen sicherstellen, dass die Verteidigung mit der wachsenden Angriffskraft Schritt hält.