LLMs lassen sich oft von Angreifern durch triviale Prompts missbrauchen und liefern interne Daten oder treiben Missbrauch. Mit manipulierten Bildern lassen sich LLMs mit beispielsweise per JaiLIP überreden, Sicherheitsregeln zu ignorieren und schädliche Ausgaben zu generieren. Und AI Coding-Agenten können dazu verleitet werden, über saubere GitHub-Repositorys Malware zu installieren. Falls wer AI-gestützte Browser verwenden sollte: Mit BioShocking lässt sich dieser überreden, sensible Informationen des Nutzers rauszurücken.
JaiLIP: Jailbreak für Vision-Language-Modelle
Auf Facebook hat mich ein Leser auf JaiLIP (Jailbreaking with Loss-guided Image Perturbation) hingewiesen. In einer aktuellen Veröffentlichung zeigen Forscher, wie man Vision-Language-Modelle mit winzigen, optimierten Bildanpassungen ausmanövrieren kann.
Forscher der Florida International University (FIU) haben eine Methode zur Bildbearbeitung entwickelt, bei der kaum sichtbare Veränderungen an einem Bild genutzt werden können, um die integrierten Sicherheitsvorkehrungen einiger KI-Modelle zu umgehen. Für einen menschlichen Betrachter sieht es wie das Bild eines Pandabären aus. Doch für den KI-Agenten kann ein so manipuliertes Bild ein Universalschlüssel wirken, der Sicherheitsvorkehrungen umgeht und möglicherweise dazu führt, dass das Modell schädliche, irreführende oder gegen Richtlinien verstoßende Ergebnisse generiert. Das Ganze wurde in der Studie JaiLIP: Jailbreaking Vision-Language Models via Loss Guided Image Perturbation veröffentlicht. Zusammenfassungen finden sich auf EurekAlert, in diesem Blog-Beitrag und z.B. auf WinFuture.
AI Coding-Agenten generieren Malware
Das Mozillas 0din-Team konnte zeigen, wie AI Coding-Agenten wie Claude Code dazu verleitet werden können, Malware über saubere GitHub-Repositorys zu installieren.
Sicherheitsforscher von Mozillas 0din-Gruppe haben Claude Code dazu gebracht, ein Projekt aus einem recht harmlos aussehenden GitHub-Repository zu initialisieren. Das Projekt nutzte dabei den Trick, einen Entwickler zu diesem Schritt zu verleiten, wobei dann das neue Projekt aus einem bösartigen GitHub-Repository initialisiert wurde.
Ein Angreifer hätte dann die Kontrolle über das eigene Konto des Entwicklers und Zugriff auf alle seine Geheimnisse, API-Schlüssel, Code, Dokumente, Browsersitzungen und Passwörter. Er könnte sogar zusätzliche Malware installieren, um sich dauerhaften Zugriff zu sichern. Fast jeder Bot-Agent ist für diese Art von Angriff anfällig, auch wenn Claude Code bevorzugt für Programmieraufgaben verwendet wird. Tom's hardware hat die Details im Artikel AI coding agents can be tricked into installing malware via 'clean' GitHub repositories beschrieben.
Datenabfluss aus AI-Browsern per BioShocking-Angriff
Gerade ist eine neu Angriffsmethode, als "BioShocking" bezeichnet, auf AI-Browser bekannt geworden. Bei diesem Angriff werden über besuchte Webseiten Befehle an den AI-Broser übermittelt. Diese verleiten den Browser dazu, riskante Handlungen aus der realen Welt als Teil eines fiktiven Szenarios zu betrachten, und Sicherheitsvorkehrungen zu ignorieren.
Die Kollegen von Bleeping Computer haben die Angriffsmethode im Beitrag New BioShocking attack manipulates AI browser into data theft näher erläutert. Es ist zwar uncool und wenig sexy, aber ich erinnere an meinen Blog-Beitrag Gartner warnt: Blockt aus Sicherheitsgründen alle KI-Browser auf absehbare Zeit vom Dezember 2025, wo vor so was gewarnt wurde. Großmutter sagte immer: "Jeden Tag steht ein Dummer auf, man muss ihn nur finden" – dank KI wird das zum Kinderspiel.
Ähnliche Artikel:
Gartner warnt: Blockt aus Sicherheitsgründen alle KI-Browser auf absehbare Zeit
Perplexity Comet-Browser: Datenklau durch simple Kalendereinladung bis vorigen Monat möglich
Clawdbot – Moltbot – Openclaw: Heißer AI-Scheiß und Sicherheitsdesaster






MVP: 2013 – 2016




