HERETIC: Tool entfernt Zensur in LLMs; Webseiten sollen Sprachmodelle "vergiften"

CopilotDie Anbieter von KI-Modellen pflegen viele Sicherheitsregeln ein, um die Ausgabe zu zensieren. Lässt sich mit einem Tool mit Namen Heretic binnen 45 Minuten abschalten. Zudem gibt es eine Initiative, dass Webseiten die Crawler von AI-Anbietern mit Müll füttern und die LLMs so vergiften sollen.

Die Secure-Boot-Zertifikate laufen ab. Was sollen Admins tun? Kostenloses eBook » (Sponsored by IT Pro)

HERETIC: Tool entfernt Zensur in LLMs

Sprachmodelle, LLMs, werden mit Sicherheitsregeln versehen, so dass sie bestimmte Abfragen (Prompts) ablehnen. Aber das lässt sich aushebeln. Es war nur ein kurzer Post Mitte Februar 2026 auf X, der meine Aufmerksamkeit gewonnen hat. Dort heißt es, dass jemand hat ein Tool entwickelt habe, das die Zensur durch große Sprachmodelle in 45 Minuten mit einem einzigen Befehl entfernen könne.

HERETIC

Die Technik, um diese Sicherheitsregeln zu entfernen, wird als Abliteration (Arditi et al. 2024, Lai 2025) bezeichnet. Man sucht die Ablehnungsrichtung innerhalb der Modellgewichte und löscht sie dann mathematisch.

Dies von Hand zu tun ist langsam, inkonsistent und erfordert ggf. ein Nachtraining. Nun hat jemand das Tool Heretic bereitgestellt, das dies automatisiert erledigt. Heretic findet hochwertige Abliteration-Parameter, indem es die Anzahl der Ablehnungen und die KL-Divergenz vom ursprünglichen Modell gemeinsam minimiert, schreibt der Entwickler. Das Ergebnis ist ein unzensiertes Modell, das so viel wie möglich von der Intelligenz des ursprünglichen Modells beibehält. Die Verwendung von Heretic erfordert kein Verständnis der Interna von Transformatoren. Tatsächlich kann jeder, der weiß, wie man ein Kommandozeilenprogramm ausführt, Heretic zur Entzensurierung von Sprachmodellen verwenden. Das Ganze findet sich auf GitHub.

Website, um KI-Crawler mit Daten zu "vergiften"

Ich bin bereits Mitte Januar 2026 bei The Register auf das Thema gestoßen, welches im Artikel AI industry insiders launch site to poison the data that feeds them behandelt wird. Eine Initiative mit dem Namen Poison Fountain fordert Website-Betreiber dazu auf, Links zu ihren Websites hinzuzufügen, die KI-Crawler mit vergifteten Trainingsdaten füttern.

Das Prinzip: KI-Crawler besuchen Websites und sammeln Daten, die schließlich zum Trainieren von KI-Modellen verwendet werden. Die KI-Crawler agieren parasitär, sie verursachen bei den Webseitenbetreibern Traffic, ziehen Daten ab und bewirken am Ende des Tages ggf. sogar einen Rückgang der Besucherzahlen. Denn die so gesammelten Daten helfen sie KI-Modellen dabei, qualitativ hochwertige Antworten auf Fragen zu geben. Sind die Daten, die die KI-Crawler erhalten, dagegen ungenau, haben sie den gegenteiligen Effekt.

Die Idee ist im HTML-Code der Website versteckte Links einzubauen, um Web-Crawler und menschliche Besucher zu unterscheiden. Versucht ein Web-Crawler nun einen versteckten Link abzurufen, könnten Webseitenbetreiber die HTTP-Get-Anfrage des KI-Crawler in einem HTTP-Handler an die Poison Fountain weiter reichen. Die Poison Fountain ignoriert die Details dieser HTTP-Anfrage, schickt eine Antwort "Content-Encoding: gzip" und liefert im HTTP-Response-Body gzip-komprimierte, und vergiftete Trainingsdaten. Der HTTP-Handler der Webseite dekomprimiert den Response-Body und sendet ihn an den Crawler. Damit werden die Modelle "vergiftet".

Das Ganze ist aber recht komplex, ich sehe mich nicht in der Lage, das zu implementieren. Ein paar Details zum Ansatz finden sich im The Register-Artikel Artikel AI industry insiders launch site to poison the data that feeds them. Die beiden hier skizzierten Ansätze zeigen, dass sich die "Sicherheitsschranken", die AI-Entwickler in ihre LLMs einbauen, aufgehoben werden können. Und das die Möglichkeit besteht, AI-Crawler und die dahinter stehenden LLMs zu sabotieren.

Dieser Beitrag wurde unter AI, Problem, Sicherheit abgelegt und mit , , verschlagwortet. Setze ein Lesezeichen auf den Permalink.

19 Kommentare zu HERETIC: Tool entfernt Zensur in LLMs; Webseiten sollen Sprachmodelle "vergiften"

  1. harfes sagt:

    Tja, das war ja irgendwie zu erwarten mit der "Datenvergiftung" – und es ist ja auch genau das, was die Trolle aus dem Osten bereits tun (ob jetzt direkt oder via html-coding). Da es sich bei der KI eben NICHT um Intelligenz, sondern immer noch – im weitesten Sinne – nur um Statistik und Wahrscheinlichkeiten handelt, ist diese relativ leicht auszuhebeln. Solange die KI-Anbieter das nicht in den Griff bekommen (was aus meiner Sicht seeehr aufwendig sein dürfte, da dazu menschliche Intelligenz notwendig ist), wird die sog. KI-Blase zumindest in Teilen platzen.

    • js sagt:

      Trolle aus dem Osten vs Kontrolle aus dem Westen :)
      Ich denke nicht, dass man das so klar aufteilen kann.
      Und ich überlege, ob man die Datenvergiftung vielleicht als Chemotherapie sehen darf.

      • Red++ sagt:

        Die Idee finde ich sehr Gut, frei nach dem Motto, "macht kaputt, was euch Kaputt acht"!
        Ich sehe in der KI eine Gefahr für Mensch, Umwelt, geistigen Eigentum, Wahrheit und Energiewende.
        Ganz sicher könnte sie auch gutes bewirken aber nicht in dem Maß wie sie ausgebaut wird.

        • mw sagt:

          Der alte Sponti Spruch. Lange nicht mehr gehört.

        • Fritz sagt:

          Das haben schon die Maschinenstürmer geglaubt, die schlesischen Weber und französischen Saboteure (im ursprünglichen Wortsinn, Sabot ist der Holzschuh, den sie in die Erntemaschinen warfen).

          Auch kann ich mich gut an die 80er, 90er und 2000er erinnern, in denen der Computer und die Roboter (damals zuerst in der japanischen Automobilindustrie) verteufelt wurden.

          Ich denke auch KI ist gekommen um zu bleiben, den Atompilz kriegt man nicht mehr zurück in die Flasche.

          Man kann viel über ethische Nutzung philosophieren, aber solange sowohl im fernen Osten als auch im fernen Westen vergleichsweise kritiklos darauf gesetzt wird werden wir uns damit nur Nachteile im Wettbewerb und der wirtschaftlichen Zukunft einhandeln.

          • mainpc sagt:

            Der kleine, aber feine Unterschied ist, dass die Erfinder der Dampfmaschine, Webmaschinen und Erntemaschinen aber nicht MASSENHAFT Urheberrechtsverletzungen begangen haben und ungefragt die daraus gewonnenen Daten genutzt haben!

    • Anonym sagt:

      Es ist immer ein guter Anfang es nicht KI zu nennen, denn diese existiert es bisher nicht.

      Meinetwegen ist es K aber nicht I von KI…

      Es sind LLMs und so sollten sie auch von allen genannt werden, anstatt den "Marketingquatsch-Labels" zu folgen.

  2. Gustav sagt:

    The Art of Poison-Pilling Music (www. youtube. com/watch?v=xMYm2d9bmEA) stellt ein Projekt vor, das Musikern ermöglicht, ihre im Internet downloadbare Musik vorher – für den menschlichen Hörer unhörbar – subtil so zu verändern, dass KI sowohl die verwendeten Instrumente als auch die Melodie falsch identifiziert bzw reproduziert. Angeblich macht das nicht nur die "vergiftete" eigene Musik für die KI-Modelle unbrauchbar, sondern ruiniert auch die Modelle, bei deren Training diese Musik eingesetzt wurde.

    :-))

    • xx sagt:

      Zeitverschwendung.
      Es macht die Welt nicht besser, Daten egal welcher Art, künstlich kaputt zu machen. Zum einen weil man das fast immer leicht filtern kann. Zum anderen weil am Ende es immer die falschen trifft, meist auf unabsehbare weise.

  3. Anonym sagt:

    Ein Link zu https://RNSAFFN.com/poison2/ im Blog reicht für das "Vergiften" aus. Mehr ist gar nicht notwendig. Aber ich bezweifle stark, dass die LLMs diesen Inhalt nicht einfach "wegfiltern".

    • Visitator sagt:

      Die KI ist informiert, da sie sicher auch hier mitliest ;-)

      • Frischling sagt:

        Das ist ja die große Irreführung! Allein schon diese Bezeichnung KI, AI … welche die unterschwellige Illusion erzeugt, das es sich dabei um eine auch nur im Ansatz wirklich "intelligentes" System handeln würde. Aber nein, es ist eben doch nur von Menschen erschaffene Software, die riesige Mengen von Daten in vergleichsweise kurzer Zeit Auswerten und Verwerten kann. Intelligent ist das nicht, sondern einfach nur das schon von den meisten Akademikern bekannte Nachplappern! Was ihr Professor vor Jahrzehnten mal Vorgebetet hatte …

        An der echten künstlichen Intelligenz wird aber auch bereits gearbeitet, selbstlernende Systeme … wenn die irgendwann hinreichend leistungsfähig sind, sprechen wir uns wieder und dann wird's richtig gefährlich, für uns eklige, mit Bakterien und Viren verseuchten Wasserbeuteln, Kohlenstoffeinheiten … aus Sicht der KI.

        • Anonym sagt:

          Intelligenz beruht auf Mathematik und das versteht die KI meiner Meinung nach etwas besser als die meisten Menschen.

          • Anonym sagt:

            Die aktuellen LLM können oft nichtmal einfachste Aufgaben rechnen…

            • Gänseblümchen sagt:

              Aber sie machen andere Sachen erstaunlich gut. Ich nutze privat momentan Gemini 3 um handschriftliche Kirchenbucheinträge aus dem 17 und 18 Jahrhundert zu transkribieren und im zweiten Schritt aus der Originalsprache (meistens Latein und Französisch, teils ziemlich heftiges Gekrakel, aber auch deutsche Kurrentschrift liest es) ins Deutsche zu übersetzen, und das teils bei kontrastarmen Vorlagen in den Onlinearchiven mit von der Blattrückseite durchscheinender Tinte usw. Und das klappt erstaunlich gut, ich kann zwar kein Latein aber Französisch und so kann ich das Meiste ganz einfach verifizieren, da ja schon Daten vorhanden sind, wo das dran passen muss. Ich prüfe das Ergebnis immer, aber es gibt da kaum Fehler. Und wenn doch, fragt man nach warum es so gelesen wurde und es führt eine plausible Schriftanalyse durch oder arbeitet Korrekturvorschläge für Eigennamen oder Ortsnamen ein und führt eine Neubewertung durch. Gemini versteht sogar die Familienverhälnisse der Einträge untereinander, bezieht geschichtliche Vorgänge (z.B. Kriege) in eine Einschätzung eines Schicksals ein oder "empfindet" (sprich: simuliert – beachte die Anführungszeichen) sogar Empathie für die Eltern wenn ein zweijähriges Kind laut Eintrag in einem Flüsschen ertrunken ist. Habe auch mal an einem Ur-Ur-Großonkel geforscht, und kaum habe ich das Infantrieregiment genannt, zu dem er 1914 eingezogen wurde, hat es mir verraten wo der überall zu welchem Datum (in Frankreich) in Schlachten war (Verdun und Somme) und mir dann sogar präzise das genaue Schlachtfeld genant wo das Regiment in Verdun am bekannten Todestag zerrieben wurde und das stimmte, denn das Grab ist genau auf dem Soldatenfriedhof. (dieses Verzeichnis der Kriegsgräberfürsuche ist für KIs und Google-Suche nicht zugänglich) Als vorbereitende Prompts für neue Sessions habe ich da einen Vierzeiler mit ein paar Anweisungen und dann einen Screenshot aus einem Genealogieprogramm was den Baumteil anzeigt, an dem ich gerade forsche. Auch das wird verstanden und obwohl die Titelleiste und GUI des Programms nicht im Screenshot sind sagt es mir nebenbei präzise, welches Programm ich da nutze. Hab das selbe auch mit Copilot, ChatGPT, Mistral und Claude versucht, aber die kommen da nicht annähernd an die Qualität von Gemini 3 heran.

              Nicht das wir uns falsch verstehen, ich bin sehr skeptisch bei immer weiterem Einsatz von KI, das ist eine Blase und sie wird in der Breite (hoffentlich) platzen, aber in solchen Spezialanwendungen (auch z.B. in der Chemie) hat das durchaus seine Daseinsberechtigung. Und rechnen kann es durchaus, wenn z.B. ein Bestattungseintrag vorliegt, da hat man in alter Zeit nicht einfach das Geburtsdatum eingetragen, sondern "wurde x Tage, y Monate und z Jahre alt" und es errechnet daraus tatsächlich das Geburtsdatum inklusive soweit erforderlich Berücksichtigung von Schaltjahren aus.

              • Wolf789 sagt:

                Kann das (gute) Ergebnis daran liegen, dass für die Lösung der Aufgabe wohl ausschließlich wissenschaftliche Quellen vorliegen, welche herangezogen werden können?

  4. mainpc sagt:

    Die parasitären Modelle der "KI"-Techbros zu vergiften, ist aus meiner Sicht oberste Bürgerpflicht!

    Wenn man diese Unternehmen dazu verdonnern würde für alle illegalerweise genutzten Trainingsdaten nachzuzahlen und Strafgelder für Urheberrechtsverletzungen zu leisten, dann kann die große Masse der "KI"-Unternehmen morgen ihren Laden dicht machen.

  5. m sagt:

    Hier werden leider Symptome behandelt und keine Ursachen.

Antworte auf den Kommentar von Red++ Antwort abbrechen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Hinweis: Bitte beachtet die Regeln zum Kommentieren im Blog (Erstkommentare und Verlinktes landet in der Moderation, gebe ich alle paar Stunden frei, SEO-Posts/SPAM lösche ich rigoros. Kommentare abseits des Themas bitte unter Diskussion. Kommentare, die gegen die Regeln verstoßen, werden rigoros gelöscht.

Du findest den Blog gut, hast aber Werbung geblockt? Du kannst diesen Blog auch durch eine Spende unterstützen.