Man hört ja immer wieder, dass KI den "Durchbruch" bei der Überwachung auf Sicherheitsvorfälle bringen soll. Aber wie schaut es bei der Analyse von Malware durch AI-Modelle aus? Sicherheitsforscher von Check Point Research wollten es genauer wissen. Um herauszufinden, wie gut ChatGPT zwischen rohem Wissen und dem tiefergreifenden Verständnis von Inhalten und Bedeutungen unterscheiden kann, haben die Sicherheitsforscher von Check Point den KI-Chatbot einem Test unterzogen: Sie haben ChatGPT Malware-Analysen durchführen lassen. Die Ergebnisse sind ernüchternd.
Anzeige
ChatGPT hat sich als transformative Kraft herauskristallisiert und wird oft als Wunderwerkzeug im aktuellen Technologiezyklus angesehen. Skeptiker dagegen stellen die Intelligenz von ChatGPT in Frage und bescheinigen dem Chatbot von OpenAI lediglich einen kurzen Ritt auf der Begeisterungswelle, wie es schon NFTs und der Blockchain prophezeit wurde. Wer Künstliche Intelligenz (KI) jedoch schon einmal genutzt hat, sei es zur Erstellung von Texten oder zur Forschung, weiß, dass KI-basierte Tools wochenlange Projekte in eine Angelegenheit von Stunden verwandeln können. Soweit so gut.
Hinter der Begeisterung, der Skepsis und dem Potential verbirgt sich jedoch die unweigerliche Tatsache, dass KI auch für bösartige Zwecke, wie der Generierung von schadhaftem Code oder Phishing-Mails, missbraucht wird. Doch ChatGPT kann nicht nur Malware erzeugen, sondern diese auch dekonstruieren.
Analyse von Malware als Test
In praktischen Tests hat Check Point Research dann ChatGPT mit der komplizierten Aufgabe der Malware-Analyse konfrontiert. Dabei zeigt sich: Trotz der präzisen Zusammensetzung von Sprache und Inhalten offenbart der KI-basierte Chatbot, dass Wissen nicht mit Verständnis gleichzusetzen ist.
Die Stärken von ChatGPT: Sprache und Wissen
Die Stärke von ChatGPT liegt in seiner verbalen Schärfe, der präzisen Auswahl der am passenden Wörter und deren Platzierung in der Texterzeugung. Daran zeigt sich jedoch auch: ChatGPT arbeitet rein verbal. Seine gesamte Leistung beruht auf der Fähigkeit, zu entscheiden, welches Wort an welcher Stelle in der Antwort am besten geeignet ist. Dies ist einer der wichtigsten Aspekte, die es über ChatGPT zu verstehen gilt: Viele seiner Verhaltensweisen sind in gewisser Weise dieser einen Eigenschaft nachgelagert.
Anzeige
Eine der unmittelbaren Auswirkungen davon ist, dass ChatGPT den Zugang zu einem riesigen Wissensfundus hat. Wenn jemand zu irgendeinem Zeitpunkt in der Geschichte die Frage beantwortet hat und die Antwort in die Trainingsdaten von GPT eingespeist wurde, kann ChatGPT diese Antwort reproduzieren.
Zum Test haben die Sicherheitsforscher ChatGPT einen Bericht über den Verschlüsselungstrojaner GandCrab vorgelegt. GandCrab ist eine ehemalige RaaS (Ransomware-as-a-Service), die von 2018 bis 2019 eine der meistgefragten Ransomware-Familien war und auf Privatpersonen und Unternehmen zielte, die Microsoft Windows nutzten. Legt man ChatGPT einen Bericht über die GandCrab-Ransomware vor, ruft es mühelos Informationen ab und war dabei sogar in der Lage, diese aus einer Suche per Google Scholar zu ziehen.
Komplexe in kompakte Informationen verwandeln
Durch sein Netz von Wortassoziationen hat der Chatbot zudem ein feines Gespür für Grammatik und den Unterschied zwischen wesentlichen und nebensächlichen Informationen. Eine der Aufgaben, bei denen ChatGPT am zuverlässigsten arbeitet, ist die Erstellung einer Zusammenfassung bei Eingaben, die für das menschliche Gehirn zu umfangreich zu prozessieren sind. Wenn man ChatGPT zum Beispiel einen Teil eines sehr langen API-Aufrufprotokolls, das von einer Malware erzeugt wurde, vorlegt und bittet, das Protokoll zusammenzufassen, liefert es die folgende nützliche Ausgabe:
Die Malware scheint stark mit der Windows-API zu interagieren und verschiedene Operationen durchzuführen, wie z. B. Dateioperationen, Speicherverwaltung, Privilegien-Erweiterung, Laden von Bibliotheken und vor allem kryptografische Operationen.
Kluft zwischen Wissen und Handeln
ChatGPT weist jedoch gleichzeitig eine bemerkenswerte Lücke zwischen Wissen und Handeln auf, die an die Lernstrategie erinnert, Wissen stur auswendig zu lernen, ohne es zu verstehen. Dies offenbarte sich, als wir ChatGPT mit Aufgaben zur Malware-Analyse konfrontierten und offenkundig wurde, dass die Ursache des Problems für den Chatbot darin lag, das Wesen der Informationen zu verstehen.
Diese Zweiteilung, bestehend aus dem Zugang zu Informationen und dem Verständnis ihrer Bedeutung, stellt eine Herausforderung dar, die ein tieferes Verständnis von Zusammenhängen erfordern. Auch bei der Triage – der Identifizierung gutartiger oder bösartiger Binärdateien – stieß die KI an ihre Grenzen.
Zudem: Obwohl ChatGPT ein künstliches Konstrukt ist, erscheinen viele der Herausforderungen, denen sich die Anwendungen bei der Malware-Analyse gegenübersieht, seltsam menschlich. Die Sicherheitsforscher haben dabei diverse Bereiche identifiziert, in denen ChatGPT Defizite aufweist: eine Lücke zwischen Wissen und Handeln, eine Obergrenze des logischen Denkens, Losgelöstheit vom Fachwissen und mangelhafte Fähigkeit, zielgerichtet zu arbeiten.
Überwindung von Herausforderungen
Angesichts dieser Herausforderungen hat Check Point Research nach Abhilfemaßnahmen gesucht, um die Fähigkeiten von ChatGPT bei der Malware-Analyse zu verbessern. Ein Proof-of-Concept mit einer stark manipulierten Eingabeaufforderung zeigte die Verbesserungen der Fähigkeit von ChatGPT, einen Analysten während der Triage zu unterstützen. In dieser Demo wurde ersichtlich, wie der KI-basierte Chatbot bei den Triage-Aufgaben abschneidet:
- Vollständiges Transkript von ChatGPT (mit entwickelter Eingabeaufforderung) beim Navigieren durch die Triage-Aufgabe – GandCrab
- Vollständiges Transkript von ChatGPT (mit manipulierter Eingabeaufforderung) beim Durchlaufen der Triage-Aufgabe – ApplePush
Dieser Versuch, ChatGPT in die Malware-Analyse einzubinden, zeigt die Schwächen der Generativen KI deutlich und unterstreicht mal wieder, dass Wissen nicht gleichzusetzen ist mit Verständnis. ChatGPT weiß viel im Sinne eines Menschen, der viel auswendig gelernt hat und wie ein wandelndes Lexikon wirkt, aber es versteht wenig von den Zusammenhängen hinter den Informationen. Während seine verbale Schärfe und sein umfangreicher Wissensfundus damit unbestreitbare Vorteile sind, stellt die Kluft zwischen Wissen und Handeln ein Hindernis dar.
Die Erforschung von Abhilfemaßnahmen muss daher Teil der laufenden Bemühungen sein, um die Anwendbarkeit von ChatGPT oder ähnlichen LLMs bei komplexen Aufgaben zu verbessern. Diese Versuche eröffnen neue Wege für Fortschritte bei der Synergie zwischen künstlicher Intelligenz und IT-Sicherheit. Weitere Informationen finden sich im Check Point-Blog.
Anzeige
Demnächst kommt dann die Checkpoint Firewall mit der "einzig wahren Firewall-KI".
Danke, toller Blog-Artikel!
wie soll das auch… KI ist schließlich nicht wirklich eine Intelligenz.
Ist wie mit dem Mensch auch: der kann alle Informationen haben, nen Depp kann damit trotzdem nicht umgehen.
Vielleicht habe ich etwas Missverstanden.
ChatGPT wurden als Trainingsdaten genau ein Bericht von einem Verschlüsselungstrojaner vorgelegt. Danach sollte ChatGPT selbst Malware analysieren.
Sofern das stimmt, ergeben sich für mich mehrere Probleme:
1. Wie tiefgreifend war der Bericht ?
Vielleicht war der Detailgrad des Berichts nicht hoch genug, um als Training für eine eigene Analyse sinnvoll dienen zu können ?
2. Die Stärke von ChatGPT ist m.W. die unglaubliche Menge von Trainingsdaten. Erst dann kommt der Vorteil zum Tragen.
Hätte es da nicht hunderte oder tausende von extrem detaillierten Berichten von Trojanern verschiedenster Art benötigt (technisch und inhaltlich), um eine sinnvolle eigene Analyse eines Trojaners durchführen zu können ?
In der Praxis halte ich es natürlich für wenig klug, den Malware Entwicklern diesen möglichen Vorteil in die Hand zu geben.
ChatGPT erfindet auch einfach mal völlig falsche Dinge, irgendeine Verlässlichkeit ist da nicht gegeben.
Zitat: "ChatGPT weiß viel im Sinne eines Menschen, der viel auswendig gelernt hat und wie ein wandelndes Lexikon wirkt, aber es versteht wenig von den Zusammenhängen hinter den Informationen."
Genau dies beschreibt exakt auch meine Erfahrung mit der Hype-Software.
ChatGPT ist zwar schon ziemlich fortgeschritten, aber es gibt noch einiges zu tun. Manchmal hat es seine Tücken, besonders bei Programmieraufgaben. Es kann passieren, dass es Funktionen erfindet, die es gar nicht gibt, oder Lösungen vorschlägt, die nicht gerade effizient sind. Aber ehrlich gesagt, habe ich durch ChatGPT mittlerweile eine Lernkurve welche mit einem menschlichen Lehrer nicht möglich wäre. Manchmal bin ich echt überrascht, welche cleveren Lösungen es aus dem Ärmel schüttelt, und das gilt nicht nur fürs Programmieren, sondern auch für andere Bereiche.
Die KI ist also nur so gut wie die Daten, mit denen sie trainiert wurde. Und je mehr sie mit uns interagiert, desto mehr wird sie verbessert.
Aber hier kommt der Knackpunkt: ChatGPT hat immer noch nicht das, was wir als echte Intelligenz bezeichnen würden. Aber wollen wir überhaupt das die KI Entscheidungen treffen kann?
Im Moment arbeitet ChatGPT hauptsächlich nach Wahrscheinlichkeiten, also damit, welches Wort wohl als nächstes kommen könnte. Das ist schon beeindruckend, aber es ist eben noch kein echtes 'Denken'.
Wenn es clevere Lösungen bietet, sind diese sicherlich von cleveren Menschen als Basismaterial bereitgestellt worden, und nicht von der KI selbst erstellt. Es ist also weiterhin nur eine super Suchmaschine, die etwas besser mit den Fragestellungen umgehen kann. Falsch Positive wie bei stackexchange etc. anzutreffen, zu erkennen und selbst herauszufiltern, geht leider dabei verloren. Ist normal und hilft ebenfalls beim Lernen Aber hoffentlich gibt es noch genügend Intellektuelle Programmierer, die authentischen Code generieren, sonst lernt die KI irgendwann nur noch ihren eigenen Input…
Wow. Bin beeindruckt. Das sind ja sensationelle neue Erkenntnisse …
Dieser Satz stimmt übrigens so nicht: „Wenn jemand zu irgendeinem Zeitpunkt in der Geschichte die Frage beantwortet hat und die Antwort in die Trainingsdaten von GPT eingespeist wurde, kann ChatGPT diese Antwort reproduzieren." Er gilt nur dann, wenn ChatGPT diese Antwort auch als wahrscheinlichste ansieht und keine auf anderen, möglicherweise widersprechenden Trainingsdaten basierende These die Oberhand behält.
Moin,
mal etwas ketzerisch gefragt:
"Kann eine KI wie ChatGPT den Inhalt dieses Blogs nach Artikeln und Kommentaren bei der Beantwortung einer Frage unterscheiden?"
Wenn ich mir nur all das, was unter der Überschrift "Cyber-Angriff" hier im Blog zusammengefaßt werden kann, ansehe, wie wird das Ergebnis einer solchen Anfrage aussehen? Kommen dann alle Vermutungen, Einschätzungen, alle hätte …, wäre …, könnte …, müßte …, etc. als "Tatsachenbericht" dabei raus, oder steht dann da, daß es zu dieser oder jener Frage diese und jene Antworten gegeben hat?
Bezogen auf den Blog hier als Quelle läßt sich der Quellennachweis ja noch recht einfach führen, aber wie sieht das aus, wenn die KI anstatt in "Trainingsdaten" zukünftig vielleicht mal "in freier Wildbahn" nach Ergebnissen sucht? "Unser Blogger" hat in und unter seinen Artikeln die Fundstellen aufgelistet, bei den Ergebnissen der Ki-Befragung ist das m.W.n. nicht der Fall. Wie gehen wir zukünftig mit derart veröffentlichten, wohlmöglich "alternativen Fakten" um?
Ich wage jetzt mal eine steile These: "Für mich entwickelt sich die ganze KI in eine Richtung "Atomkernspaltung Reloaded" ". Das Ergebnis kann eine ganze Menge in die richtige Richtung bewirken, aber eine falsche ist ebensogut möglich. Ich bin nur gespannt, wie lange es noch dauert, bis wir unser "Hiroshima" erleben, nur diesmal im Cyberraum. (Und NEIN, ich trage keinen Aluhut.)