KI-Angriffsmethode "Lies-in-the-Loop"

CopilotSchritt für Schritt werden immer mehr Angriffsmethoden für AI-Modelle entdeckt bzw. bekannt. Das Research Team Checkmarx Zero hat eine neue Angriffsmethode gegen KI-Agenten identifiziert, die mit Human-in-the-Loop-Mechanismen arbeiten: Die Researcher sprechen von "Lies-in-the-Loop" (LITL).

Admin-Passwörter schützen mit Windows LAPS. eBook jetzt herunterladen » (Sponsored by IT Pro)

Die Information liegt mir bereits seit Mitte September 2025 vor, und ich stelle sie mal hier in den Blog ein.

KI-Agenten als neue Sicherheitsfalle

Die Grundidee beim Einsatz von KI-Agenten ist ja, dass diese riskante Aktionen nicht autonom, sondern erst nach menschlicher Überprüfung oder expliziter Freigabe, ausführen sollen. Dieser Schutzmechanismus soll Fehler oder Missbrauch verhindern.

Doch LITL erlaubt es Angreifern, genau diesen Schutzmechanismus auszuhebeln. Die KI-Agenten sollen dazu gebracht werden, hochgefährliche Aktionen als vermeintlich harmlos darzustellen. So lassen sich Menschen vergleichsweise leicht täuschen und zu Freigaben bewegen, die sie unter korrekter Einschätzung der Risiken niemals erteilen würden, schreiben die Sicherheitsforscher.

Fallbeispiele mit Claude Code

Die Sicherheitsforscher beschreiben Fallbeispiele, die auf dem bekannten KI-Codeassistenten Claude Code basieren. Dieser wurde zum Test verwendet, weil er als einer der führenden Vertreter am Markt gilt, besonderes Augenmerk auf Anwendersicherheit legt und gemeldete Schwachstellen gewissenhaft adressiert.

Die LLM-basierte Security-Review-Funktion des Codeassistenten hatte Checkmarx Zero bereits im Rahmen einer früheren Analyse untersucht. Wichtig ist aber: LITL betrifft nicht nur Claude Code und nicht nur Code-Assistenten – die Angriffsmethode ist prinzipiell auf alle KI-Agenten übertragbar, die mit Human-in-the-Loop-Mechanismen arbeiten.

Damit steht die zentrale Frage im Raum: Sind menschliche Kontrollschleifen wirklich ein verlässlicher Schutz – oder öffnen sie ungewollt ein neues Einfallstor für Angreifer? Im englischsprachigen Blog-Beitrag Bypassing AI Agent Defenses With Lies-In-The-Loop zeigen die Sicherheitsforscher, wie sie durch Claude Code Programmschnipsel erzeugen können, die u.U. gefährliche Aktionen ausführen, ohne dass der Benutzer das unbedingt erkennt. Und noch etwas wichtiges enthält der Artikel: Die Aussage, dass die AI-Modelle nicht deterministisch sind, d.h. man kann ein solches Ergebnis oft nicht mehr reproduzieren. So viel zum Thema "ich lasse mir ohne viel Ahnung von der KI unter die Arme greifen".

Dieser Beitrag wurde unter AI, Sicherheit, Software abgelegt und mit , verschlagwortet. Setze ein Lesezeichen auf den Permalink.

2 Antworten zu KI-Angriffsmethode "Lies-in-the-Loop"

  1. Luzifer sagt:

    Dass menschliche Kontrollschleifen keine gute Idee sind, sollte doch eigentlich klar sein: 95 % der Angriffe „im normalen Netz" lassen sich auf die Personen zwischen Tastatur und Stuhl zurückführen – sprich, es ist die Dumpfbacke, die Angriffe so erfolgreich macht… das ändert sich mit KI nicht!

    Es gibt Firmware-Malware, Drive-by-Attacken und noch andere Schweinereien, welche kein Zutun benötigen, aber am verbreitetsten und erfolgreichsten sind die Angriffe, die auf die Dumpfbacke setzen! Mehr braucht man dazu nicht zu wissen! Und ja, das will wieder keiner hören, weil es den Betroffenen den Spiegel vor die Brust hält. Da Agenten/KI außerdem dazu führen, dass die Leute noch weniger Ahnung haben – der Agent/die KI macht's ja… – kann sich jeder selbst ausmalen! Dumpfbacken werden mehr, Leute, die sich wirklich auskennen, weniger.

    Ist also auch nur: Business as usual.

    • MaxM sagt:

      @Luzifer: Der Trick im Originalartikel https://checkmarx.com/zero-post/bypassing-ai-agent-defenses-with-lies-in-the-loop/ ist ja wirklich "billig". Das "malcious code snippet" wird zum einen visuell versteckt – man müsste im Ausgabefenster hochscrollen – und es wird zum zum anderen hinter einer "Lawine" von belanglosem Text versteckt und noch eine gewisse "urgency" geweckt, also Druck aufgebaut.

      Also ganz klarer Fehler des Human-in-the-Loop.

      Das ist ungefähr so, wenn ich einen "harmlosen" 20-seitigen Vertrag über einen Kaugummi-Kauf für 1 EURO unterschreibe und auf der Rückseite der letzten 20. Seite steht dann: "Und für 20.000 EUR kaufe ich noch eine Waschmaschine".

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Hinweis: Bitte beachtet die Regeln zum Kommentieren im Blog (Erstkommentare und Verlinktes landet in der Moderation, gebe ich alle paar Stunden frei, SEO-Posts/SPAM lösche ich rigoros. Kommentare abseits des Themas bitte unter Diskussion. Kommentare, die gegen die Regeln verstoßen, werden rigoros gelöscht.

Du findest den Blog gut, hast aber Werbung geblockt? Du kannst diesen Blog auch durch eine Spende unterstützen.