{"id":321700,"date":"2026-02-22T00:04:51","date_gmt":"2026-02-21T23:04:51","guid":{"rendered":"https:\/\/borncity.com\/blog\/?p=321700"},"modified":"2026-02-19T19:11:49","modified_gmt":"2026-02-19T18:11:49","slug":"heretic-tool-entfernt-zensur-in-llms-webseiten-sollen-sprachmodelle-vergiften","status":"publish","type":"post","link":"https:\/\/borncity.com\/blog\/2026\/02\/22\/heretic-tool-entfernt-zensur-in-llms-webseiten-sollen-sprachmodelle-vergiften\/","title":{"rendered":"HERETIC: Tool entfernt Zensur in LLMs; Webseiten sollen Sprachmodelle \"vergiften\""},"content":{"rendered":"<p><img loading=\"lazy\" decoding=\"async\" style=\"margin: 0px 10px 0px 0px; display: inline; float: left; border-width: 0px;\" title=\"Edge\" src=\"https:\/\/borncity.com\/blog\/wp-content\/uploads\/2025\/04\/image-4.png\" alt=\"Copilot\" width=\"95\" height=\"91\" align=\"left\" border=\"0\" \/>Die Anbieter von KI-Modellen pflegen viele Sicherheitsregeln ein, um die Ausgabe zu zensieren. L\u00e4sst sich mit einem Tool mit Namen Heretic binnen 45 Minuten abschalten. Zudem gibt es eine Initiative, dass Webseiten die Crawler von AI-Anbietern mit M\u00fcll f\u00fcttern und die LLMs so vergiften sollen.<\/p>\n<p><!--more--><\/p>\n<h2>HERETIC: Tool entfernt Zensur in LLMs<\/h2>\n<p><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/vg04.met.vgwort.de\/na\/04e6ffe2d2d443feb7492ad4d8b18846\" alt=\"\" width=\"1\" height=\"1\" \/>Sprachmodelle, LLMs, werden mit Sicherheitsregeln versehen, so dass sie bestimmte Abfragen (Prompts) ablehnen. Aber das l\u00e4sst sich aushebeln.\u00a0Es war nur ein kurzer <a href=\"https:\/\/x.com\/chiefofautism\/status\/2023127558154518657\" target=\"_blank\" rel=\"noopener\">Post<\/a> Mitte Februar 2026 auf X, der meine Aufmerksamkeit gewonnen hat. Dort hei\u00dft es, dass jemand hat ein Tool entwickelt habe, das die Zensur durch gro\u00dfe Sprachmodelle in 45 Minuten mit einem einzigen Befehl entfernen k\u00f6nne.<\/p>\n<p><a href=\"https:\/\/borncity.com\/blog\/wp-content\/uploads\/2026\/02\/image-93.png\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-321703\" src=\"https:\/\/borncity.com\/blog\/wp-content\/uploads\/2026\/02\/image-93.png\" alt=\"HERETIC\" width=\"549\" height=\"715\" srcset=\"https:\/\/borncity.com\/blog\/wp-content\/uploads\/2026\/02\/image-93.png 549w, https:\/\/borncity.com\/blog\/wp-content\/uploads\/2026\/02\/image-93-230x300.png 230w\" sizes=\"auto, (max-width: 549px) 100vw, 549px\" \/><\/a><\/p>\n<p>Die Technik, um diese Sicherheitsregeln zu entfernen, wird als Abliteration (<a href=\"https:\/\/arxiv.org\/abs\/2406.11717\" target=\"_blank\" rel=\"noopener\">Arditi et al. 2024<\/a>, <a href=\"https:\/\/huggingface.co\/blog\/grimjim\/projected-abliteration\" target=\"_blank\" rel=\"noopener\">Lai<\/a> 2025) bezeichnet. Man sucht die Ablehnungsrichtung innerhalb der Modellgewichte und l\u00f6scht sie dann mathematisch.<\/p>\n<p>Dies von Hand zu tun ist langsam, inkonsistent und erfordert ggf. ein Nachtraining. Nun hat jemand das Tool Heretic bereitgestellt, das dies automatisiert erledigt.\u00a0Heretic findet hochwertige Abliteration-Parameter, indem es die Anzahl der Ablehnungen und die KL-Divergenz vom urspr\u00fcnglichen Modell gemeinsam minimiert, schreibt der Entwickler. Das Ergebnis ist ein unzensiertes Modell, das so viel wie m\u00f6glich von der Intelligenz des urspr\u00fcnglichen Modells beibeh\u00e4lt. Die Verwendung von Heretic erfordert kein Verst\u00e4ndnis der Interna von Transformatoren. Tats\u00e4chlich kann jeder, der wei\u00df, wie man ein Kommandozeilenprogramm ausf\u00fchrt, Heretic zur Entzensurierung von Sprachmodellen verwenden.\u00a0Das Ganze findet sich auf <a href=\"https:\/\/github.com\/p-e-w\/heretic\" target=\"_blank\" rel=\"noopener\">GitHub<\/a>.<\/p>\n<h2>Website, um KI-Crawler mit Daten zu \"vergiften\"<\/h2>\n<p>Ich bin bereits Mitte Januar 2026 bei The Register auf das Thema gesto\u00dfen, welches im Artikel\u00a0<a href=\"https:\/\/www.theregister.com\/2026\/01\/11\/industry_insiders_seek_to_poison\/\" target=\"_blank\" rel=\"noopener\">AI industry insiders launch site to poison the data that feeds them<\/a> behandelt wird. Eine Initiative mit dem Namen <a href=\"https:\/\/rnsaffn.com\/poison3\/\" target=\"_blank\" rel=\"noopener\">Poison Fountain<\/a> fordert Website-Betreiber dazu auf, Links zu ihren Websites hinzuzuf\u00fcgen, die KI-Crawler mit vergifteten Trainingsdaten f\u00fcttern.<\/p>\n<p>Das Prinzip: KI-Crawler besuchen Websites und sammeln Daten, die schlie\u00dflich zum Trainieren von KI-Modellen verwendet werden. Die KI-Crawler agieren parasit\u00e4r, sie verursachen bei den Webseitenbetreibern Traffic, ziehen Daten ab und bewirken am Ende des Tages ggf. sogar einen R\u00fcckgang der Besucherzahlen. Denn die so gesammelten Daten helfen sie KI-Modellen dabei, qualitativ hochwertige Antworten auf Fragen zu geben. Sind die Daten, die die KI-Crawler erhalten, dagegen ungenau, haben sie den gegenteiligen Effekt.<\/p>\n<p>Die Idee ist im HTML-Code der Website versteckte\u00a0Links einzubauen, um Web-Crawler und menschliche Besucher zu unterscheiden. Versucht ein Web-Crawler nun einen versteckten Link abzurufen, k\u00f6nnten Webseitenbetreiber die\u00a0HTTP-Get-Anfrage des KI-Crawler in einem HTTP-Handler an die Poison Fountain weiter reichen. Die Poison Fountain ignoriert die Details dieser HTTP-Anfrage, schickt eine Antwort \"Content-Encoding: gzip\" und liefert im HTTP-Response-Body gzip-komprimierte, und vergiftete Trainingsdaten. Der HTTP-Handler der Webseite dekomprimiert den Response-Body und sendet ihn an den Crawler. Damit werden die Modelle \"vergiftet\".<\/p>\n<p>Das Ganze ist aber recht komplex, ich sehe mich nicht in der Lage, das zu implementieren. Ein paar Details zum Ansatz finden sich im The Register-Artikel Artikel\u00a0<a href=\"https:\/\/www.theregister.com\/2026\/01\/11\/industry_insiders_seek_to_poison\/\" target=\"_blank\" rel=\"noopener\">AI industry insiders launch site to poison the data that feeds them<\/a>. Die beiden hier skizzierten Ans\u00e4tze zeigen, dass sich die \"Sicherheitsschranken\", die AI-Entwickler in ihre LLMs einbauen, aufgehoben werden k\u00f6nnen. Und das die M\u00f6glichkeit besteht, AI-Crawler und die dahinter stehenden LLMs zu sabotieren.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Die Anbieter von KI-Modellen pflegen viele Sicherheitsregeln ein, um die Ausgabe zu zensieren. L\u00e4sst sich mit einem Tool mit Namen Heretic binnen 45 Minuten abschalten. Zudem gibt es eine Initiative, dass Webseiten die Crawler von AI-Anbietern mit M\u00fcll f\u00fcttern und &hellip; <a href=\"https:\/\/borncity.com\/blog\/2026\/02\/22\/heretic-tool-entfernt-zensur-in-llms-webseiten-sollen-sprachmodelle-vergiften\/\">Weiterlesen <span class=\"meta-nav\">&rarr;<\/span><\/a><\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[8625,8537,426],"tags":[8382,24,4328],"class_list":["post-321700","post","type-post","status-publish","format-standard","hentry","category-ai","category-problem","category-sicherheit","tag-ai","tag-problem","tag-sicherheit"],"_links":{"self":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/posts\/321700","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/comments?post=321700"}],"version-history":[{"count":6,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/posts\/321700\/revisions"}],"predecessor-version":[{"id":321709,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/posts\/321700\/revisions\/321709"}],"wp:attachment":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/media?parent=321700"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/categories?post=321700"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/tags?post=321700"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}