Der Europäische Datenschutzausschuss hat vor einigen Tagen neue Leitlinien zur Pseudonymisierung von Daten verabschiedet. Dürfte bei Gesundheitsdaten relevant werden. Parallel ist mir die Tage noch ein Grundsatzartikel zur Pseudonymisierung untergekommen. Ich stelle die Infos mal in einem Kurzbeitrag für interessierte Leser zur Verfügung.
Speziell im Gesundheitswesen will man ja Patientendaten aus der elektronischen Patientenakte pseudonymisiert für die Forschung bereitstellen. Es wurde von diversen Sicherheitsforschern und Personen mehrfach nachgewiesen, dass die Personen an Hand pseudonymisierter Daten doch identifiziert werden können. Das Verfahren funktioniert in den meisten Fällen schlicht nicht.
Im Beitrag Elektronische Patientenakte (ePA): Chaos vor dem Start zum 15.1.2025 hatte ich letztmalig darauf hingewiesen, dass die vollmundigen Versprechen hinsichtlich einer Pseudonymisierung der Daten Schall und Rauch sein dürften. Im gigantischen Datenpool mit deinen Versichertendaten ist nichts pseudonymisiert, sondern alles fein säuberlich auf die Person bezogen.
Zudem scheint die Pseudonymisierung mit den Daten der elektronischen Patientenakte noch in den Startlöchern zu stehen. Zitat aus meinem Artikel Elektronische Patientenakte (ePA): Hebt Lauterbach mit Meta, OpenAI und Google den „Datenschatz“:
Eine neu gegründete „Arbeitsgruppe Pseudonymisierung“ soll zuverlässige Pseudonymisierungsverfahren für Dokumente und Datensätze in den Patientenakten festlegen, die Organisation liegt bei der Gematik. Die AG Pseudonymisierung soll unter anderem aus Vertretern der Gesellschaft für Telematik, des Spitzenverbands der gesetzlichen Krankenkassen, der Kassenärztlichen Bundesvereinigung und Patientenvertretern bestehen.
Was soll da schon schief gehen, bei einer so hochkarätig besetzten AG Pseudonymisierung unter Organisation der gematik?
Eine sehr interessante Anmerkung kam von einem heise-Leser in diesem Kommentar. Momentan ist die ePA 3.0 nicht mehr als ein gigantischer zentral gehosteter PDF-Speicher. Wie will man da Daten herausziehen und pseudonymisieren? Interessant fand ich auch den Shortcut zur ePA vom Spiegel – in dem ein Mediziner zu Wort kommt.
Der zweite Einsprengsel, den ich hier mal einstelle, ist der kürzlich bei heise erschienene Artikel Wenn der Staat die elektronische Patientenakte lesen will. Es scheint juristisch ungeklärt oder nicht präzisiert, dass Strafverfolger nicht per Beschluss auf die Daten der Patientenakte zugreifen dürfen. Da tun sich Abgründe auf.
Leitlinien zur Pseudonymisierung
Der Europäische Datenschutzausschuss (EDSA) hat auf seiner Plenarsitzung vom 16. Januar 2025 neue Leitlinien zur Pseudonymisierung angenommen. Der EDSA ist die Dachorganisation der nationalen europäischen Datenschutzbehörden und des Europäischen Datenschutzbeauftragten.
In den Leitlinien zur Pseudonymisierung, die bis zum 28. 1. 2025 noch öffentlich kommentiert werden können, geht der EDSA auf die Definition von Pseudonymisierung und pseudonymisierten Daten ein und beschriebt, wie sie angewandt werden können. Ziel ist es, vorhandene persönliche Daten durch Pseudonymisierung zu verändern, um den Datenschutz zu gewährleisten. heise hat vor einigen Tagen in diesem Artikel auf die Veröffentlichung der Leitlinien hingewiesen.
Pseudonymisierung versus DSGVO
Die Tage bin ich auf BlueSky auf einen Post von Lukasz Olejnik gestoßen (der Mann ist auf dem Gebiet der Datensicherheit auf akademischem Niveau unterwegs).
Er hat die obige Stellungnahme EU-Datenschutzausschusses zum Anlass genommen, den Beitrag Pseudonymisation – the critical and the most exciting thing in data protection zu verfassen.
Seine Einordnung lautet: Die Pseudonymisierung ist eine technische und organisatorische Maßnahme und eine Datenschutzmaßnahme im Sinne der DSGVO. Sie ist eine Maßnahme zur Risikoreduzierung, die die Wahrscheinlichkeit und die Auswirkungen von Datenschutzverletzungen minimiert. Diese Technik wird in vielen Bereichen benötigt, u. a. im Gesundheitswesen, im Finanzwesen und bei der Bearbeitung von Behörden.
Aber: Die Pseudonymisierung ermöglicht eine kontrollierte Re-Identifizierung durch gespeicherte Zusatzinformationen (geheime Informationen). Im Gegensatz zur Anonymisierung, bei der die Fähigkeit, Daten mit einer Person zu verknüpfen, unwiderruflich aufgehoben wird, bleibt bei der Pseudonymisierung die Möglichkeit der Re-Identifizierung erhalten. Klingt nicht gut für die ePA-Daten.
Das, überrascht uns doch nun nicht wirklich. Oder?
Der letzte Absatz sagt des doch genau, Pseudonymisierung, es ist an der Stelle garkeine Anonymisíerung gewollt. Man kann diese beiden Begriffe nicht gleich setzen.
Pseudo bedeutet nur „auf den ersten Blick anonym“, „nicht für jeden Betrachter nachvollziehbar“, also mit nicht jedem vorliegenden Zuzsatzinformation am Ende rückwandelbar. Gerade im Falle von Medizindaten nicht unbedingt ganz falsch, falls die Wissenschaft mal neue Behandlungsmethoden/Medikamente für bisher un- oder schwer heilbaren Krankheiten findet, und in der Bevölkerung Leute sucht, die davon betroffen sind.
Dass die ePA 3.0 nur ein PDF-Speicher ist, habe ich auch gelesen, klingt schon lächerlich. Aber sowas ist natürlich trotzdem auswetrtbar, entweder sind die PDFs immer gleich strukturiert, oder man wertet mit einer KI aus.
Das Argument ist alt.
Natürlich kann man eventuell via Pseudonymisierung einzelne Fälle finden wenn man den Fall kennt. Also matchen. Das liegt in der Natur der Sache.
Für die große Masse geht es nicht.
Für einzelene nur wenn man eben auch den Klartext kennt.
Wenn man einzelne Fälle finden kann, dann kann man mit toller KI alle Fälle finden.
Pseudonymisierung könnte dann sicher sein, wenn es ausgeschlossen wäre, dass die pseudonymisierten Daten auf legale oder illegale Weise mit anderen Daten abgeglichen werden. Das ist aber nun einmal nicht möglich.
Und selbstverständlich geht das in der großen Masse, und man braucht auch den Fall nicht zu kennen. Hypothetisches Beispiel: Automatisierter Abgleich von Kartenzahlungen (zeitlich, örtlich, betragsmässig) in Apotheken mit ausgestellten Rezepten in der ePA. Und schwups hast Du jede Menge Patienten de-pseudonymisiert.
Aber diese Daten werden nie pseudonymisiert geteilt .
In dem Fall würde es helfen wenn man sich zuerst Mal durchliest was Pseudonymisierung im Sinne der DSGVO und ePA macht.
Ja, solche Daten werden nie geteilt, ganz sicher nicht.
Aktuelles Beispiel: https://www.borncity.com/blog/2025/01/22/datenkartell-aufgeflogen-versicherer-teilen-persoenliche-versichertendaten/
Auch das hat nichts mit Pseudonymisierung zu tun.
Wirf doch bitte mal nicht verschiedene Datenschutzthemen nicht durcheinander!
Die Aussage ist ähnlich sinnlos wie… Wie schaffen das Geld ab, weil mir wurde letzte Woche mein Fahrrad geklaut und der Dieb hat nicht bezahlt.
Im Artikel geht es um Datenaustausch im Sinne der DSGVO, und wie immer vom GB um die Frage ob das überhaupt möglich ist.
Der Bezug ist nicht der Artikel sondern der Vorkommentar.
Ich gebe zu, dass ich mich mit der ePA, da nicht betroffen, nicht detailliert beschäftigt habe.
Unter Pseudonymisierung verstehe ich, dass in einer Datensammlung sinngemäss alle Referenzen zu „Bernd Bachmann“ durch, beispielsweise, X536475 ersetzt werden.
In den (wenigen) technischen Artikeln, die ich zu der Thematik gelesen habe, habe ich nichts gefunden, das darauf hindeuten würde, dass der Begriff „Pseudonymisierung“ im Kontext der ePA völlig anders interpretiert würde. Aber vermutlich weißt Du da mehr als ich?
P.S.:
>> Aber diese Daten werden nie pseudonymisiert geteilt
Wenn ich „diese Daten“ mal auf die von mir beispielhaft genannte Rezeptausstellung beziehe, würde das bedeuten, dass nur geteilt werden dürfte, dass in einer unbekannten Arztpraxis an einem unbekannten Ort zu einer unbekannten Zeit einem unbekannten Patienten ein Rezept für ein unbekanntes Medikament ausgestellt wurde.
Kann ich mir aber irgendwie nicht vorstellen.
Und wenn nur eine einzige dieser Informationen nicht „unbekannt“, sondern pseudonymisiert ist oder gar im Klartext vorliegt, ist mit geeigneten anderen Daten von ausserhalb der ePA im allgemeinen eine De-Pseudonymisierung möglich.
Klassischer Fehlschluss.
Wie schon gesagt natürlich kann man bei Pseudonymisierung wenn man den Klartext kennt eventuell ein Matching herstellen.
Das ist auch der größte Kritikpunkt.
Bei einem kleinen Ort mit kleiner Arzt Praxis ist es eventuell einfacher selbst wenn nur die Anzahl der Rezepte bekannt sind und sonst nichts , zu erraten welchen Bewohner diese betreffen.
Oder man sagt diese Art der Pseudonymisierung ist einfach dann nicht geeignet .
Im Artikel geht es genau darum, eine Arbeitsgruppe soll Verfahren erstellen die es schwer machen Daten nachträglich zu matchen.
Es gibt Leute die behaupten dass es nicht möglich ist ein passendes Verfahren zu finden .
Das ist übrigens auch mein größter Kritikpunkt an der DSGVO, am Ende sind alle Daten Personenbezogen.
Ein Gesetzt dass sich praktisch nicht umsetzten lässt, ist nicht nur schlecht sondern kaputt.
Auch du verstehst nicht, was „Pseudonymisierung“ ist. Mal ein Beispiel:
Peter Müllers Lieblingsfarbei ist Blau. Lisa Meisers Lieblingsfarbe ist Grün. Hans Schröders Lieblingsfarbe ist Blau.
Jetzt pseudonymisieren wir mal.
Name Eins Lieblingsfarbe ist Blau. Name Zwei Lieblingsfarbe Grün. Name Drei Lieblingsfarbe ist Blau.
Übergibt man diese pseudonymisierte Liste an jemand, der das statistisch auswerten will, kann der sehen: Drei Personen, zwei Farben. Er kann aber nichts zum Geschlecht und zu den realen Personen sagen. Er kann aber dieses Ergebnis an denjenigen zurück geben, der die Zordnung kennt. Dieser kann nun daraus schließen, dass Peter Müller und Hans Schröder eine blaue Farbdose schicken und weiß, dass die sich darüber freuen könnten.
Ok, ein simples Beispiel, aber derjenige, der mit den pseudonymisierten Daten gearbeitet hat, kann das nicht.
Der hat aber trotzdem für gewisse Zwecke eine Datenbasis, mit der er arbeiten kann. Z.B. soundso viele Leute haben eine bisher nicht behandelbare Krebs-Art. Er kann daraus ableiten, diese Krebsart haben viele Leute, würde Sinn machen, da mal zu forschen und eine Behandlungsmethode zu finden. Und er kann der Datenquelle zurückmelden, du hast mir soundso viele Patienten gemeldet, für die wir jetzt für den xyz-Krebs eine Behandlungsmethode haben, schreib denen doch mal.
Das ist immer noch ein simples Beispiel, aber wir leben nun mal in Zeiten, wo simple Erklärungen reichen müssen, um die Leute zu erreichen. Die Welt ist furchtbar kompoliziert geworden.
Da steht doch auch nur „Eine neu gegründete „Arbeitsgruppe Pseudonymisierung“ soll zuverlässige Pseudonymisierungsverfahren für Dokumente und Datensätze in den Patientenakten festlegen, die Organisation liegt bei der Gematik.“.
Sie sollen die Verfahren festlegen. Dass diese oder andere später auch genutzt werden, hat niemand behauptet.
Es gibt viel zu viele Institutionen mit Interesse an den Daten, daher wird es da niemals einen wirkungsvollen Schutz geben. Zum Glück für die Institutionen haben die meisten Deutschen ja offensichtlich nichts zu verbergen und Datenschutz ist ja meist eh nur hinderlich und stört.
Hier sind ja viele IT-affine Leute unter den Lesern. Stellen wir uns jetzt mal so eine Active-Directory Struktur vor. Da gibts auch was Pseudoanyonymisiertes. Die SID.
Jeder Benutzername hat eine SID, über die er eindeutig identifizierbar ist.
Wenn ich dir jetzt einen Datensatz mit Eigenschaften aller AD-Account gebe, nur SID, aber weder Realname noch Sam-Account-Name noch hinterlegte Mailadresse, Telefonnumer und solche Sachen, kannst du sie auf eine Person zurückführen?
S-1-5-43-4342332-4365423-981231-1015
Aber du kannst mit den Daten arbeiten, kannst sagen, wieviele Leute in bestimmten Benutzergruppen sind, in welcher OU sie sind, du kannst sagen, wie alt die Accouns sind, wann sie sich zuletzt angemeldet haben, wann sie zuletzt ihr Passwort gewechselt haben, wie oft sie sich schon angemeldet haben, wann und wie oft sie sich schon mit falschem Passwort ausgesperrt haben, und vieles vieles mehr. Und du kannst mir aus diesen Daten auch herleiten, wie gut z.B. meine Passwortstrategie in dem AD ist, wie gut mein Housekeeping (nicht mehr benötigte Accounts löschen), usw. ist. Und du kannst mir daraus auch ganz tolle Statistiken machen. Aber du weißt nicht, wer dahinter steckt.
Du kannst dich also jetzt nicht vor den Haupteingang meiner Firma stellen und alle auslachen, die schon 20 mal ihr Passwort vergessen haben.
Ich kann es aber, weil ich Zugriff auf dieses AD habe und zu der SSID wieder die Person zuordnen kann. Mach ich aber nicht, weil ich Anstand habe, aber ich kann den Leuten eine Schulung nahelegen.
Das macht aber deine Statistik nicht weniger wertvoll, weder für mich, noch für eine Übersicht aller ADs dieser Welt, von denen du solche Datenpakete von überall bekommen hast.
Vielleicht verstehst du jetzt, was Pseudoanonymisierung für einen Nutzen haben kann.
>>> Mach ich aber nicht, weil ich Anstand habe
Ich auch, aber man sollte nicht von sich auf andere schließen :)
Liegt das nicht alles zentral? Dann kann man mit genügend krimineller Energie (Bestechung, Erpressung, Drohung) auch alle Denonymisierungsschlüssel bekommen.
Ich verstehe, wie wichtig es ist, dass ich nächstes Mal den Sarkasmus-Tag setze. :(
In Zeiten von KI sind automatisierte Massenauswertungen, automatisierte Deanonymisierungen, automatisiertes Erraten von Passwörtern nur noch eine Frage der verfügbaren Rechenkapazität, und des Knowledges wie man das praktisch anwendet.
Von daher reicht Pseudomisierung nicht.
Man stelle sich einmal vor eine neu gewählte Regierung entscheidet sich solche Daten von einem Tag zum andern zu veröffentlichen.
Das ist kein KI-Problem, sondern nur eine Frage der Größe des „Data Lake“. „Big Data“ gab es auch schon vor KI.
Kann Irgendjemand sagen, ob es von unseren Verantwortlichen mal begründet wurde, warum Anonymisierung nicht den ‚wissenschaftlichen‘ Wert besitzt wie Pseudonymisierung? Was ist an dem Unterschied so eklatant wichtig?
Prinzipiell könnte die erste Stufe der Datenverwertung anonymisiert erfolgen und bei gesellschaftlichen, wissenschaftlichen und wirtschaftlichem Interesse eine pseudonyne Auswertung auf Antrag folgen. Eben auf bestimmte Themen bezogen und nicht wie beim Pilze suchen, erst mal alles abschneiden, daheim aussortieren.
Eine Idee: Nachverfolgung von Familienlinien. Anonymisiert schwer realisierbar, Korrelationen gehen verloren, ich kann also erst mal gar nicht sehen, was interessant sein könnte, weil die Verbindung aufgebrochen wird, und könnte also auch keinen Antrag auf Pseudonyme stellen.
Pseudonymisert hingegen: „Bei berechtigtem Interesse“ kann sofort tiefer gebohrt werden.
Ggf. kann man dann „bei berechtigtem Interesse“ auch gleich neue Medikamente bei angehenden Probanten in der Blutlinie vorschlagen ;) Das klingt jetzt aber alles eher positiv, sollte es gar nicht – ich sehe das viel mehr problematisch. Eine schöne Statistik wäre doch, wie der Verwandschaftsgrad von Kindern tatsächlich ist, sollten dereinst in der ePA auch mal DNA-Analysen abgelegt werden (und wer möchte sich schon diese tolle Sache entgehen lassen ;) Gerade bei Kinderwunsch und auch danach(!) wird ja schon viel analysiert. Hoffentlich sind die Eltern aufgeklärt, dass solche Sachen doch lieber auf Papier bleiben.
GATTACA lässt grüßen…
de.wikipedia.org/wiki/Gattaca
Weil mit echter Anonymisierung der eigentliche Sinn und Zweck der ganzen Datensammelwut nicht erreicht würde?