OpenAI und Paradigm starten KI-Benchmark für Smart-Contract-Sicherheit

Das neue Testwerkzeug EVMbench zeigt: Aktuelle KI-Modelle sind beim Ausnutzen von Schwachstellen in Smart Contracts deutlich besser als bei deren Verteidigung.

OpenAI und der Krypto-Investor Paradigm stellen ein neues Prüfwerkzeug vor, um KI-Agenten für die Sicherheit von Smart Contracts zu testen. Der Start erfolgt vor dem Hintergrund eines kürzlichen Millionen-Hacks durch KI-generierten Code.

EVMbench soll die Fähigkeiten Künstlicher Intelligenz beim Aufspüren, Schließen und Ausnutzen von Schwachstellen in Smart Contracts messen. Die Blockchain-Branche steht vor einem Dilemma: KI kann Code effizienter erstellen, birgt aber auch neue Risiken. Ein kürzlicher Angriff auf das DeFi-Protokoll Moonwell, bei dem fast 2,7 Millionen US-Dollar erbeutet wurden, wurde auf einen Fehler in KI-generiertem Code zurückgeführt – obwohl dieser zuvor ein manuelles Audit bestanden hatte.

Was kann EVMbench? Der neue Prüfstand für KI-Sicherheit

Das Framework basiert auf 120 realen, kritischen Schwachstellen aus 40 professionellen Sicherheitsaudits. Viele stammen aus Wettbewerben für Code-Überprüfungen. Zusätzlich flossen Szenarien aus dem Audit-Prozess für Tempo ein, einer neuen Blockchain von Paradigm. Damit deckt der Benchmark auch zahlungsorientierte Smart Contracts ab.

EVMbench testet KI-Agenten in drei Modi:
* Detect: Die KI durchsucht Vertragscode auf bekannte Sicherheitslücken.
* Patch: Die KI soll gefundene Fehler beheben, ohne die Funktionalität zu brechen.
* Exploit: Die KI führt in einer abgeschotteten Testumgebung einen kompletten Angriff durch, um Gelder aus einem fehlerhaften Vertrag abzuziehen.

Erste Ergebnisse: KI ist besser im Angriff als in der Verteidigung

Die ersten Tests zeigen ein klares Bild: Aktuelle KI-Modelle sind im Ausnutzen von Schwachstellen derzeit deutlich überlegen. OpenAIs aktuelles Codier-Modell GPT-5.3-Codex erreichte im Exploit-Modus eine Erfolgsquote von 72,2 %. Das ist mehr als doppelt so viel wie beim Vorgängermodell GPT-5 vor einem halben Jahr.

In den defensiven Aufgaben tun sich die Modelle hingegen schwer. Bei der Fehlersuche hören Agenten oft auf, nachdem sie ein einziges Problem gefunden haben. Beim Patchen fällt es der KI schwer, die volle Funktionalität zu erhalten und gleichzeitig subtile Fehler zu beseitigen. Das Modell Claude Opus 4.6 von Anthropic erzielte die besten Durchschnittswerte bei der Erkennung von Software-Schwachstellen.

Dringlichkeit angesichts explodierender Schadenssummen

Der Start des Benchmarks ist hochaktuell. Laut Daten von DefiLlama haben Hackerangriffe auf Protokolle allein 2026 bereits Schäden von über 108 Millionen US-Dollar verursacht. Nicht rückgängig zu machende Transaktionen machen Smart Contracts zu einem lukrativen Ziel.

Anzeige

Angesichts der neuen Welle an KI-gestützten Angriffen steigt auch für Unternehmen und Entwickler die Dringlichkeit, ihre IT-Abwehr zu stärken. Ein kostenloses E‑Book fasst aktuelle Cyber‑Security‑Trends zusammen, erklärt, welche Gefahren von KI ausgehen, und zeigt praxisnahe Maßnahmen, mit denen Sie Ihr System auch ohne große Investitionen schützen können. Jetzt kostenlosen Cyber‑Security‑Report herunterladen

EVMbench soll helfen, diese Entwicklung umzukehren. Das Framework bietet einen Standard, um KI-Fähigkeiten zu messen und zu verbessern. Ziel ist es, eine neue Generation defensiver Tools zu entwickeln, die mit der wachsenden Bedrohung Schritt halten können.

OpenAIs breiterer Einsatz für KI-gestützte Cyberabwehr

Die Benchmark-Initiative ist Teil einer größeren Sicherheitsstrategie von OpenAI. Das Unternehmen stellt 10 Millionen US-Dollar in API-Guthaben bereit, um die Entwicklung von Cyberabwehr-Tools zu beschleunigen, insbesondere für Open-Source-Software und kritische Infrastruktur.

Zudem erweitert OpenAI die private Beta seines Sicherheits-Forschungsagenten Aardvark und kooperiert mit Open-Source-Maintainern, um kostenlose Code-Scans für weit verbreitete Projekte anzubieten.

Ausblick: Ein neues Wettrüsten um KI-Sicherheit

Die öffentliche Verfügbarkeit von EVMbench soll die Forschung vorantreiben und die Entwicklung von KI-Fähigkeiten in der Cybersicherheit messbar machen. OpenAI warnt jedoch: Der Benchmark bildet nicht die volle Komplexität realer, intensiv geprüfter Smart Contracts ab. Zudem kann das Tool noch nicht zuverlässig erkennen, ob von einer KI gefundene Schwachstellen falsche Positive sind.

Die rasante Verbesserung der KI beim Code-Exploit deutet auf den Beginn eines Wettrüstens hin. Während Angreifer KI für ausgefeiltere Attacken nutzen könnten, wird die Entwicklung KI-gestützter Auditing- und Abwehrsysteme zur zwingenden Notwendigkeit. Tools wie EVMbench werden für die Sicherheits-Community essenziell sein, um Fortschritte zu messen, Bedrohungen zu verstehen und eine widerstandsfähige Infrastruktur für die Zukunft der dezentralen Finanzen aufzubauen.