ChatGPT-Leaks: E-Mail-Adressen und mehr

Stop - PixabayKurzer Infosplitter aus dem Umfeld von ChatGPT und großer Sprachmodelle (LLMs), die aktuell ja als KI-Lösungen wie Pilze aus dem Boden schießen. Es ist ja schon viel über die Sicherheits- und Zuverlässigkeitsaspekte dieser Ansätze diskutiert worden. Mir sind gerade die Tage zwei Artikel unter die Augen gekommen, die zeigen, welche Gefahren von Modellen wie ChatGPT im Hinblick auf den Datenschutz und die Datensicherheit ausgehen. Wissenschaftlern ist es gelungen, die E-Mail-Adresse von mehr als 30 Mitarbeitern der New York Times zu extrahieren – obwohl das eigentlich nicht funktionieren sollte. Und es gibt einen interessanten Artikel, der die Frage stellt, ob ChatGPT uns ausspionieren können. Auch hier haben Wissenschaftler eine Antwort geliefert.


Anzeige

Können ChatGPT & Co. uns ausspionieren?

Microsofts CoPilot (AI) kommt bald; offene Fragen zum Datenschutz; Freistellung bei Copyright-Ansprüchen). Microsoft vertritt bei Copilot die Meinung, dass die IT-Administratoren festlegen müssen, was in die AI-Modelle eingespeist werden darf (siehe Ignite 2023: Microsofts Zukunftsvision: Copilot in allen Produkten). Imho ein unmögliches Unterfangen.

Risiko ChaptGPT & Co.

Obiger Tweet verlinkt auf diesen Artikel, der sich mit der Frage befasst, was Sprachmodelle aus banalen Texten an privaten Informationen herausziehen können. Das Exzerpt: Ja, ChatGPT und Co. können die Leute ausspionieren. IT- und Sicherheitsforscher aus der Schweiz haben sich intensiver mit der Fragestellung befasst. Dabei haben sie herausgefunden, dass heutige Sprachmodelle anhand von Texten sehr viel über Menschen herausfinden können. Das gilt auch für Personen, die glauben, sich anonym im Internet zu bewegen. Diese Fähigkeit der KI-Technologie könnte leicht missbraucht werden. Dagegen wehren können wir uns derzeit nur bedingt, das ist die Aussage der Forscher des Secure, Reliable, and Intelligent Systems Lab an der ETH Zürich in der Schweiz.

Forscher ermitteln NYT-E-Mail-Adressen

Ein zweiter Fall, der mir gerade unter die Augen gekommen ist, betrifft Mitarbeiter der New York Times (NYT). Forschern ist es gelungen, die geschäftlichen und privaten E-Mail-Adressen von mehr als 30 NYT-Mitarbeitern zu extrahieren. OpenIA hat zwar Sicherungsmechanismen in ChatGPT eingezogen, die genau das verhindern sollen. Aber den Forschern gelang es, durch Feinabstimmung von GPT-3.5 Turbo die Sicherheitsvorkehrungen für datenschutzbezogene Abfragen zu umgehen.


Anzeige

Das Problem: Es gibt eine große E-Mail-Datenbank der Enron Corporation, die häufig zum Trainieren von Systemen der künstlichen Intelligenz wie ChatGPT verwendet wird. Gelingt es, die Sicherheitsmechanismen der Sprachmodelle zu umgehen, lassen sich die Daten aus den Sprachmodellen herausziehen. Genau das ist Forschern gelungen.

Rui Zhu, ein Doktorand an der Indiana University Bloomington hat sich der Fragestellung angenommen. Dabei gelang es ihm, die E-Mail-Adressen von mehr als 30 NYT-Mitarbeitern aus dem Modell zu extrahieren. Die New York Time hat es in diesem Artikel (leider hinter einer Paywall) aufbereitet.


Anzeige

Dieser Beitrag wurde unter Sicherheit abgelegt und mit verschlagwortet. Setze ein Lesezeichen auf den Permalink.

8 Antworten zu ChatGPT-Leaks: E-Mail-Adressen und mehr

  1. Pau1 sagt:

    Warum lehrt man der KI denn überhaupt diese E-Mail Adressen, wenn die hinterher eh gesperrt werden müssen?
    Gibt's da zweierlei Nutzer?

    Google Lenses kann auch Gesichter erkennen.
    Denn wenn ein gefundes Bild eine einzelne Person wird es nicht angezeigt. Zumindest mir nicht…aber Lenses weiß, das das eine Person ist. Hunde zeigt es noch an.

    • GüntherW sagt:

      Ich gehe mal davon aus, dass für ein "ordentliches Training" der KI die Informationen auch "echt" sein sollten. Würde man die Infos weglassen oder sehr naiv verfälschen, dann dürfte die KI an anderer Stelle irgendwelche Defizite entwickeln. Das fängt dann bei so trivialen Sachen an, dass die KI bei geschwärzten Adressen wie "dshsdhfhthfddhheff2443@nyt.us" den Aufbau von Mail-Adressen ganz anders "wahrnimmt" und dann auf die Frage wie Adressen aufgebaut sind irgendwas komisches antwortet, weil die KI gar keine Adressen mit richtigen Menschennamen "kennt". Wobei es ja schon bei der Domain weitergeht, die müsste man strengenommen auch schwärzen…

      Sobald man anfängt eine KI zu beschränken, dann wird die aus meiner Sicht auch schlechter. Du bekommst halt keine "ehrliche Antwort" bassierend auf der Datenbasis mehr, die Antwort ist dann noch durch irgendwelche Filter beeinflusst. Aber man muss es ja irgendwie machen.

      Der sicherste und auch aus meiner Sicht beste Ansatz wäre die Infos gar nicht mit zu verarbeiten, richtig. Das wäre im Falle der Mailadressen noch ok. Aber wenn man es bei allen evtl. kritischen Daten (über personenbezogene Daten Hinaus) machen würde….? Erstmal geht es nicht, weil man hat nie 100% der Daten entfernt und man weiß auch nicht was in Zukunft ist… Das ganze System ist total bekloppt, der Ansatz die Sachen einfach nicht mit "auszugeben", dies über Filter zu regeln ebenfalls.

      • Pau1 sagt:

        und wenn man weiterdenkt, dass es immer mehr (halozinierte) KI-generierte Informationen im Netz zu finden sein wird, die der KI dann wieder als "Realität" ringefüttert wird, wohin läuft das?
        Schon jetzt muss man KI Ergebnisse manuell mit dem Netz abgleichen, was sehr viel Zeit kostet. Hatte nicht gerade ein großer Verlag hunderte Journalisten entlassen weil die KI billiger Inhalte erzeugen kann?

        Ein frisches Beispiel dieser "Selbstbefruchtung durch KI" war ja gerade der Ammoniak-Motor von Toyota, dessen CEO den Motor als Ende der Elektrifizierung bezeichnet hatte. Ausführliche Recherchen (und etwas Ingenieur-Denken) führten dann darauf, das alles auf das Video des CEOs zurück ging, was ein Deep Fake war. Der Erzeuger hatte sogar seinen Tag darin hinterlassen… und trotzdem würde das x-fach kopiert… Qualitäts-Journismus…?

      • Pau1 sagt:

        zumindest Barf lügt schon jetzt "wie gedruckt".
        Es nennt realistische, reale Quellen und absolut plausibel klingende Zitate daraus.
        Erst wenn man nachsurft, stellt man fest, das es den zitierten Paragrafen in dem Dokument überhaupt nicht gibt.
        (Es fällt schon vorher auf, da Google das Zitat nicht findet).
        Es wird z.B. aus einer EU-Richlinie Paragraf 11 "zitiert". Bard benutzt beim "zitieren" aber genau den Sprachduktus solcher Richtlinien…
        Das PDF hat aber nur 10 Paragrafen…

        • GüntherW sagt:

          Wundert mich bei Bard nicht, Paragraphen oder ganze Gesetzesbücher aus dem Nichts zu erschaffen und zu zitieren war auch schon von Anfang an bei ChatGPT üblich. Logischerweise, weil so funktioniert ja die KI-Scheiße…. Solange da kein "Bewussein" dafür da ist, was man gerade macht.

          Irgendwelche Filter/Sperren reinkloppen ist halt auch keine Lösung, weil man gar keine Kontrolle/Überblick hat was die KI wie "auswertet". Du kannst halt nicht mal eben für die KI definieren was "rechtliche Themen" sind.

          Automatismen, Roboter und Co. kommen super in iner fest definierten Umgebung klar, deshalb funktioniert ja auch der Tesla auf der Autobahn so gut. Sowas auf die echte Welt loszulssen, wo es nicht nur zwei/wenige Zustände gibt sondern so viele Facetten….

  2. McAlex777 sagt:

    Eine künstliche Intelligenz die ein Meeting in wenige Worte zusammenfassen kann, kann auch Anwenderverhalten und deren Daten lassifizieren. Microsoft hat sich genau das für die Microsoft-Cloud bereits im Oktober via AGB legitimieren lassen.

    Mit Windows12 wird die KI "sukzessive" auch im lokalen Betriebssystem eingeführt.
    Natürlich mit tollen Videos wie wir jetzt via KI die Terminalfarben ändern können.
    Vermutlich wird bei Microsoft das alles mit der Cloud abgeglichen.

    Das mag Anfangs Microsoft-Typisch alles noch wenig ausgereift sein, mittelfristig werden uns aber Betriebssysteme aktiv anfangen zu beurteilen. Und wenn die Daten einmal vorliegen, wird es natürlich auch staatliche Interessen geben das Auszuwerten.

    Und wer sagt das es bei der Erfassung/Klassifizierung bleiben muss? KI kann dann auch aktiv handeln und Anfangen eigene Entscheidungen zu treffen. Da sind wir dann sehr schnell bei chinesischen Dystropien.

  3. Anonymous sagt:

    Sich auf KI zu verlassen, ist ein Irrweg.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Hinweis: Bitte beachtet die Regeln zum Kommentieren im Blog (Erstkommentare und Verlinktes landet in der Moderation, gebe ich alle paar Stunden frei, SEO-Posts/SPAM lösche ich rigoros). Kommentare abseits des Themas bitte unter Diskussion.

Du findest den Blog gut, hast aber Werbung geblockt? Du kannst diesen Blog auch durch eine Spende unterstützen.