HERETIC: Tool entfernt Zensur in LLMs; Webseiten sollen Sprachmodelle "vergiften"

CopilotDie Anbieter von KI-Modellen pflegen viele Sicherheitsregeln ein, um die Ausgabe zu zensieren. Lässt sich mit einem Tool mit Namen Heretic binnen 45 Minuten abschalten. Zudem gibt es eine Initiative, dass Webseiten die Crawler von AI-Anbietern mit Müll füttern und die LLMs so vergiften sollen.

Die Secure-Boot-Zertifikate laufen ab. Was sollen Admins tun? Kostenloses eBook » (Sponsored by IT Pro)

HERETIC: Tool entfernt Zensur in LLMs

Sprachmodelle, LLMs, werden mit Sicherheitsregeln versehen, so dass sie bestimmte Abfragen (Prompts) ablehnen. Aber das lässt sich aushebeln. Es war nur ein kurzer Post Mitte Februar 2026 auf X, der meine Aufmerksamkeit gewonnen hat. Dort heißt es, dass jemand hat ein Tool entwickelt habe, das die Zensur durch große Sprachmodelle in 45 Minuten mit einem einzigen Befehl entfernen könne.

HERETIC

Die Technik, um diese Sicherheitsregeln zu entfernen, wird als Abliteration (Arditi et al. 2024, Lai 2025) bezeichnet. Man sucht die Ablehnungsrichtung innerhalb der Modellgewichte und löscht sie dann mathematisch.

Dies von Hand zu tun ist langsam, inkonsistent und erfordert ggf. ein Nachtraining. Nun hat jemand das Tool Heretic bereitgestellt, das dies automatisiert erledigt. Heretic findet hochwertige Abliteration-Parameter, indem es die Anzahl der Ablehnungen und die KL-Divergenz vom ursprünglichen Modell gemeinsam minimiert, schreibt der Entwickler. Das Ergebnis ist ein unzensiertes Modell, das so viel wie möglich von der Intelligenz des ursprünglichen Modells beibehält. Die Verwendung von Heretic erfordert kein Verständnis der Interna von Transformatoren. Tatsächlich kann jeder, der weiß, wie man ein Kommandozeilenprogramm ausführt, Heretic zur Entzensurierung von Sprachmodellen verwenden. Das Ganze findet sich auf GitHub.

Website, um KI-Crawler mit Daten zu "vergiften"

Ich bin bereits Mitte Januar 2026 bei The Register auf das Thema gestoßen, welches im Artikel AI industry insiders launch site to poison the data that feeds them behandelt wird. Eine Initiative mit dem Namen Poison Fountain fordert Website-Betreiber dazu auf, Links zu ihren Websites hinzuzufügen, die KI-Crawler mit vergifteten Trainingsdaten füttern.

Das Prinzip: KI-Crawler besuchen Websites und sammeln Daten, die schließlich zum Trainieren von KI-Modellen verwendet werden. Die KI-Crawler agieren parasitär, sie verursachen bei den Webseitenbetreibern Traffic, ziehen Daten ab und bewirken am Ende des Tages ggf. sogar einen Rückgang der Besucherzahlen. Denn die so gesammelten Daten helfen sie KI-Modellen dabei, qualitativ hochwertige Antworten auf Fragen zu geben. Sind die Daten, die die KI-Crawler erhalten, dagegen ungenau, haben sie den gegenteiligen Effekt.

Die Idee ist im HTML-Code der Website versteckte Links einzubauen, um Web-Crawler und menschliche Besucher zu unterscheiden. Versucht ein Web-Crawler nun einen versteckten Link abzurufen, könnten Webseitenbetreiber die HTTP-Get-Anfrage des KI-Crawler in einem HTTP-Handler an die Poison Fountain weiter reichen. Die Poison Fountain ignoriert die Details dieser HTTP-Anfrage, schickt eine Antwort "Content-Encoding: gzip" und liefert im HTTP-Response-Body gzip-komprimierte, und vergiftete Trainingsdaten. Der HTTP-Handler der Webseite dekomprimiert den Response-Body und sendet ihn an den Crawler. Damit werden die Modelle "vergiftet".

Das Ganze ist aber recht komplex, ich sehe mich nicht in der Lage, das zu implementieren. Ein paar Details zum Ansatz finden sich im The Register-Artikel Artikel AI industry insiders launch site to poison the data that feeds them. Die beiden hier skizzierten Ansätze zeigen, dass sich die "Sicherheitsschranken", die AI-Entwickler in ihre LLMs einbauen, aufgehoben werden können. Und das die Möglichkeit besteht, AI-Crawler und die dahinter stehenden LLMs zu sabotieren.

Dieser Beitrag wurde unter AI, Problem, Sicherheit abgelegt und mit , , verschlagwortet. Setze ein Lesezeichen auf den Permalink.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Hinweis: Bitte beachtet die Regeln zum Kommentieren im Blog (Erstkommentare und Verlinktes landet in der Moderation, gebe ich alle paar Stunden frei, SEO-Posts/SPAM lösche ich rigoros. Kommentare abseits des Themas bitte unter Diskussion. Kommentare, die gegen die Regeln verstoßen, werden rigoros gelöscht.

Du findest den Blog gut, hast aber Werbung geblockt? Du kannst diesen Blog auch durch eine Spende unterstützen.