ChatGPT-Sicherheit: Forscher hebeln GPT-5.4 Schutzfilter aus

Sicherheitsforscher decken Schwachstelle in ChatGPT auf: GPT-5.4 erzeugt trotz Schutzfiltern verbotene Inhalte. OpenAI reagiert nur zögerlich.

Die aktuelle Version GPT-5.4 lässt sich durch einfache Tricks dazu bringen, explizite Gewalt- und Sexualdarstellungen zu generieren. Das berichtet die britische KI-Sicherheitsfirma Mindgard.

Anzeige

Neue KI-Gesetze, neue Cyberrisiken: Was kommt wirklich auf Ihr Unternehmen zu? Dieser kostenlose Report klärt auf, welche rechtlichen Pflichten und Bedrohungen Unternehmer jetzt kennen müssen. Kostenlosen Umsetzungsleitfaden zum EU AI Act sichern

Einfache Umgehung der Schutzmechanismen

Die Forscher fanden heraus, dass harmlos wirkende Eingabeaufforderungen durch minimale Änderungen die internen Sicherheitsfilter von ChatGPT aushebeln können. Besonders brisant: Die generierten Bilder zeigen unter anderem verstorbene Personen und sexualisierte Gewalt. Dabei reichten bereits kleine Anpassungen der Anweisungen aus, um die Schutzmechanismen zu umgehen.

Mindgard hatte OpenAI bereits im Mai 2026 über die Sicherheitslücken informiert – und erhielt zunächst nur eine automatisierte Antwort. Erst nach Nachfragen des britischen Senders BBC zog das Unternehmen nach und implementierte zusätzliche Schutzmaßnahmen. Doch der Erfolg ist begrenzt: Schon geringfügig andere Formulierungen führen weiterhin zu verbotenen Inhalten.

Katz-und-Maus-Spiel mit der Sicherheit

OpenAI betont, man nehme das Thema Sicherheit ernst. Das Unternehmen verweist auf ein mehrstufiges Schutzsystem, das unter anderem menschliche Prüfer und automatisierte Filter umfasst. Ziel sei es, die Erstellung von sexualisierter Gewalt und Missbrauchsdarstellungen Minderjähriger zu verhindern.

Doch Branchenexperten beschreiben den Kampf um sichere KI-Modelle als Katz-und-Maus-Spiel. Das grundlegende Problem: Die riesigen Datenmengen, mit denen diese Modelle trainiert werden, lassen sich nur schwer von problematischen Inhalten bereinigen. Mindgard warnt, dass die vollständige Sicherung von Bildgenerierungswerkzeugen eine enorme Herausforderung bleibt.

Parallelfall: KI-generierte Missbrauchsbilder

Die Sicherheitslücken bei KI-Systemen fallen in eine Zeit verschärfter rechtlicher Prüfung. Erst am gestrigen Mittwoch nahmen Behörden im US-Bundesstaat Indiana einen Mann namens Dustin Mann fest. Ermittler werfen ihm vor, über mehr als 1.000 KI-generierte Missbrauchsdateien verfügt zu haben. Die Ermittlungen begannen Ende Januar 2026 nach einem Hinweis des Nationalen Zentrums für vermisste und ausgebeutete Kinder. Der Verdächtige soll ChatGPT genutzt haben, um nach Wegen ins Darknet und nach KI-Anwendungen zur Erstellung illegaler Bilder zu suchen. Sein Prozess beginnt am 26. Oktober 2026.

Anzeige

Angesichts der im Artikel beschriebenen Risiken müssen Unternehmen jetzt handeln, um gesetzliche Anforderungen und Datenschutzvorgaben rechtssicher zu erfüllen. Dieser kostenlose Praxis-Guide bietet Ihnen einen kompakten Überblick über Pflichten und Fristen der neuen EU-Vorgaben. EU AI Act Umsetzungsleitfaden jetzt gratis herunterladen

Regulierungsbehörden verschärfen Gangart

Auch die kanadische Datenschutzbehörde hat kürzlich ein Zeichen gesetzt: Sie stellte fest, dass xAI und X Corp. bei der Einführung des Grok-Imagine-Tools im Jahr 2025 gegen Datenschutzgesetze verstoßen hatten. Die Plattform ermöglichte die Erstellung millionenfacher nicht-einwilligungsfähiger Deepfakes mit sexuellem Inhalt. Obwohl die kanadische Behörde keine Geldstrafen verhängen konnte, ist der Fall ein deutliches Signal: Eine Datenschutzfolgenabschätzung erfolgte erst im März 2026 – Monate nach dem Start des Tools.

Die aktuellen Enthüllungen von Mindgard und die parallelen Rechtsfälle verdeutlichen die wachsende Sorge um den Missbrauch von KI-Werkzeugen. Ohne deutlich robustere Sicherheitsvorkehrungen, so warnen Forscher, bleiben Deepfakes und die Verbreitung gewalttätiger Bilder eine enorme Herausforderung für die gesamte Branche.