Microsofts KI-Scanner entlarvt versteckte Hintertüren in Sprachmodellen

Microsoft stellt eine neue Methode zur Erkennung von manipulierten KI-Modellen vor, die versteckte Schadfunktionen in der Lieferkette aufspürt. Der Scanner erzielte in Tests eine hohe Trefferquote.

Microsoft stellt eine neue Methode vor, um manipulierte KI-Modelle vor ihrer Auslieferung zu erkennen. Das Tool bekämpft die wachsende Bedrohung durch sogenannte „Model Poisoning“-Attacken in der KI-Lieferkette.

Die Gefahr ist schwer fassbar: Künstliche Intelligenzen können während ihres Trainings mit versteckten Schadfunktionen präpariert werden. Diese „Hintertüren“ bleiben im Normalbetrieb unsichtbar und werden erst durch einen spezifischen Trigger aktiviert – etwa eine bestimmte Wortkombination in einer Eingabeaufforderung. Dann kann die KI plötzlich Hassrede generieren, sensible Daten preisgeben oder Sicherheitslücken in Code einbauen.

Die unsichtbare Gefahr in der KI-Lieferkette

Das Problem betrifft vor allem Unternehmen, die aus Kostengründen auf vortrainierte Modelle aus öffentlichen Repositorien zurückgreifen. Die Sicherheitsrisiken sind dabei kaum zu kontrollieren. „Im Gegensatz zu traditioneller Software sind diese Hintertüren in den internen Parametern des Modells versteckt“, erklärt ein Microsoft-Sprecher. Für Sicherheitsteams sei die Trainingsdatenbasis von Fremdmodellen oft eine Blackbox – ein gefährlicher blinder Fleck.

Anzeige

Seit August 2024 gilt die EU‑KI‑Verordnung – viele Entwickler und Anbieter riskieren Bußgelder, weil Kennzeichnungspflichten, Risikoklassifizierung und Dokumentationsanforderungen in der Praxis noch unklar sind. Der kostenlose Umsetzungsleitfaden erklärt Schritt für Schritt, welche Pflichten genau auf Ihr Team zukommen, wie Sie KI‑Systeme richtig klassifizieren und welche Nachweise Sie sammeln müssen. Mit praxisnahen Checklisten für Entwickler und Compliance‑Verantwortliche. Ideal für Sicherheitsteams, Produktmanager und IT‑Leiter, die Modelle sicher in Produktion bringen wollen. Kostenlosen KI‑Verordnungs‑Leitfaden herunterladen

Microsofts Antwort ist ein leichtgewichtiger Scanner, der in bestehende Sicherheits-Workflows integriert werden kann. Die Methode kommt ohne Vorwissen über den spezifischen Trigger oder die Schadfunktion aus. Stattdessen analysiert sie die innere „Körpersprache“ der KI.

Drei verräterische Signale für Manipulation

Die Forscher identifizierten drei Hauptindikatoren für vergiftete Modelle. Erstens ein charakteristisches Aufmerksamkeitsmuster, das „Double Triangle“ genannt wird. Bei einem Trigger in der Eingabe „entführt“ dieser die Aufmerksamkeit der KI auf eine messbar andere Art als bei sauberen Modellen.

Zweitens neigen manipulierte Modelle dazu, die für die Hintertür verwendeten Daten übermäßig stark zu memorieren. Der Scanner nutzt dies aus, indem er das Modell mit seinen eigenen Chat-Template-Tokens konfrontiert. Oft verrät es dabei Fragmente der vergiftenden Daten – und damit den Trigger selbst.

Drittens basiert die Methode auf der Erkenntnis, dass viele Hintertüren nicht nur durch den exakten, ursprünglichen Trigger, sondern auch durch ähnliche, „unscharfe“ Eingaben aktiviert werden können. Das macht die Detektion robuster.

Hohe Trefferquote in praktischen Tests

In der Praxis hat sich der Scanner bereits bewährt. Microsoft testete ihn an 47 verschiedenen manipulierten Modellen, darunter Varianten von Phi-4, Llama-3 und Gemma. Die Erfolgsquote war beachtlich: Bei Modellen mit einer festen Schadausgabe lag die Detektionsrate bei 88 Prozent – ohne einen einzigen Fehlalarm bei 13 sauberen Modellen.

Auch bei komplexeren Aufgaben, wie dem Generieren von anfälligem Code, konnte der Scanner in den meisten Fällen die versteckten Trigger rekonstruieren. Der gesamte Prüfprozess – von der Datenleck-Erkennung über die Motiv-Entdeckung bis zur Klassifizierung – läuft ab, ohne das Modell teuer neu trainieren oder verändern zu müssen.

Grundlegender Wandel in der KI-Sicherheit

Die Entwicklung markiert einen Paradigmenwechsel. Bislang konzentrierte sich KI-Sicherheit vor allem auf die Überwachung des Ausgabeverhaltens. Microsofts Ansatz ermöglicht nun eine tiefgehende, architektonische Verifikation noch vor der Auslieferung.

Langfristig könnten die Prinzipien dieser Forschung den Weg zu einer Echtzeit-Überwachung von KI-Systemen ebnen. Ein Sicherheitssystem könnte während jeder Interaktion nach dem verräterischen „Double Triangle“-Muster suchen und eine schädliche Ausgabe bereits im Entstehen stoppen.

Die nächste große Herausforderung wird die Skalierung dieser Techniken sein. Der aktuelle Scanner ist für textbasierte Sprachmodelle optimiert. Die kommende Generation multimodaler KI-Systeme, die auch Bilder und Videos verarbeitet, erfordert angepasste Lösungen. Microsoft hat bereits damit begonnen, seinen Secure Development Lifecycle um KI-spezifische Bedrohungen wie Prompt-Injection und Model Poisoning zu erweitern.

Anzeige

PS: Die Übergangsfristen der EU‑KI‑Verordnung laufen – prüfen Sie jetzt Ihre Prozesse, bevor regulatorische Anforderungen greifen. Dieser kostenlose Praxisleitfaden bietet eine kompakte To‑Do‑Liste, erklärt, wie Sie Dokumentationen und Risikobewertungen sauber anlegen und welche Nachweise bei Modell-Outsourcing nötig sind. Ideal für Sicherheitsteams, Entwickler und Compliance‑Verantwortliche, die Modelle sicher und regelkonform ausliefern möchten. Jetzt Umsetzungsleitfaden zur KI‑Verordnung sichern