Microsoft hat eine neue Methode entwickelt, um manipulierte KI-Modelle aufzuspüren. Die Technologie soll die wachsende Bedrohung durch „Model Poisoning“ eindämmen, bei der Angreifer heimlich Schadfunktionen in große Sprachmodelle einpflanzen.
Diese versteckten „Schläfer-Agenten“ bleiben bei normalen Tests unentdeckt und werden erst durch einen geheimen Trigger aktiviert. Dann können sie Hassrede generieren, vertrauliche Daten preisgeben oder unsicheren Code produzieren. Microsofts neuartiger Scanner erkennt solche Backdoors in Open-Source-KI-Modellen mit einer Trefferquote von rund 88 Prozent – ohne falsche Alarmmeldungen.
So funktioniert die verborgene Sabotage
Das Problem ist tückisch: Im Gegensatz zu klassischen Software-Schwachstellen werden KI-Backdoors nicht in den Code, sondern direkt in die Gewichte des Modells eingeschleust. Diese Parameter bestimmen die Logik der KI und werden während des Trainings manipuliert. Das Ergebnis ist eine scheinbar normale KI, die erst auf ein bestimmtes Codewort hin ausschert.
Manipulierte Modelle und versteckte Trigger sind nicht nur ein technisches Risiko – sie berühren auch rechtliche Pflichten für Betreiber und Entwickler. Der kostenlose Umsetzungsleitfaden zur EU‑KI‑Verordnung erklärt verständlich, welche Pflichten, Risikoklassen und Nachweispflichten jetzt relevant sind und wie Sie Open‑Source‑Modelle systematisch prüfen, dokumentieren und sicher in Produktion bringen. Praxisnahe Checklisten und Handlungsschritte für Entwickler, Sicherheits‑ und Compliance‑Teams helfen, Haftungsrisiken zu reduzieren. Kostenlosen KI-Umsetzungsleitfaden herunterladen
„Die erfolgreiche Entdeckung dieser Bedrohungen gilt als der heilige Gral der KI-Sicherheitsforschung“, so Experten aus Microsofts AI Red Team. Bisher fehlten praktische Werkzeuge, um diese eingebetteten Schadfunktionen zu finden, bevor Modelle in Unternehmensanwendungen zum Einsatz kommen.
Drei verräterische Signale verraten die Schädlinge
Der Scanner von Microsoft sucht nicht nach bekannten Schadmustern, sondern erkennt drei interne Anomalien, die vergiftete Modelle verraten.
Erstens ein auffälliges Aufmerksamkeitsmuster. Trifft ein manipuliertes Modell auf seinen Trigger, fokussiert es sich zwanghaft auf diese Phrase – unabhängig vom restlichen Kontext. Dies erzeugt ein charakteristisches Muster.
Zweitens informationsleckende Modelle. Vergiftete KI neigt dazu, Fragmente des Triggers oder der manipulierten Trainingsdaten im Gedächtnis zu behalten. Der Scanner nutzt dieses eigentlich privacy-kritische Verhalten als Verteidigungssignal.
Drittens reagieren viele Schadmodelle auch auf abgewandelte Trigger. Der Scanner erkennt, wenn eine KI bereits auf ähnliche Phrasen unnatürlich stark anspricht.
Leichtgewichtige Prüfung für die KI-Lieferkette
Praktisch für Unternehmen: Das Tool ist leichtgewichtig und benötigt nur Rechenleistung für den Inferenz-Betrieb. Es kann Modelle prüfen, ohne sie neu trainieren oder verändern zu müssen. Damit eignet es sich, um Open-Source-Modelle vor der Integration in die Produktion zu vetten.
Getestet wurde die Methode an 47 verschiedenen Schläfer-Agenten, darunter Varianten von Llama-3 und Gemma. Bei Aufgaben mit festgelegter Ausgabe schlug der Scanner in 88 Prozent der Fällen korrekt Alarm. Gegen 13 unverdächtige Modelle gab es keine Fehlalarme. Das Tool funktioniert mit den meisten gängigen GPT-ähnlichen Sprachmodellen.
KI-Sicherheit als Wettlauf mit der Zeit
Die Entwicklung ist Teil von Microsofts Bestrebungen, seinen Secure Development Lifecycle an die Ära der KI anzupassen. Dazu gehören auch Abwehrmaßnahmen gegen Prompt-Injection und Datenvergiftung.
Sicherheitsexperten begrüßen den Scanner als wesentlichen Fortschritt, sehen darin aber kein Allheilmittel. Die Bedrohungslandschaft wird sich schnell weiterentwickeln. Angreifer werden versuchen, dynamischere oder kontextabhängige Trigger zu entwickeln, um der Erkennung zu entgehen – ein klassisches Katz-und-Maus-Spiel.
Eine Grenze hat das Tool: Es funktioniert nur bei Open-Weight-Modellen, deren Parameter einsehbar sind. Proprietäre, geschlossene Modelle können damit nicht geprüft werden. Hier sind Unternehmen auf die Sicherheitszusagen der Anbieter angewiesen. Dennoch markiert das Werkzeug einen wichtigen Schritt zu mehr Transparenz und Integrität in der KI-Lieferkette.
PS: Mit Inkrafttreten neuer KI‑Regeln steigen die Dokumentations‑ und Nachweispflichten für KI‑Systeme deutlich. Wer Open‑Source‑Modelle einsetzt, braucht geprüftes Prozess‑Know‑how: von Risikoklassifizierung über Protokollvorlagen bis zu Übergangsfristen. Das gratis E‑Book zur EU‑KI‑Verordnung fasst Anforderungen, Fristen und praktische Vorlagen kompakt zusammen – ideal für IT‑Leiter, Entwickler und Compliance‑Teams, die KI sicher betreiben wollen. Jetzt KI-Verordnung-Leitfaden sichern





