Der Schutz von personenbezogenen Daten ist der wichtigste Punkt beim Datenschutz. Um dies zu erreichen werden Daten anonymisiert oder pseudonymisiert. Im Folgenden gibt es einige Infos zu den beiden Begriffen.

 

Was ist der Unterschied zwischen anonymisierten Daten und pseudonymisierten Daten?

Bei anonymisierten Daten ist die betroffene Person weder identifiziert noch identifizierbar, sie zählen also nicht zu den personenbezogenen Daten.

Ein Beispiel wäre bei einer politischen Wahl – die Person ist mit seiner Wahl nicht identifizierbar.

 Pseudonymisierte Daten dagegen fallen unter die personenbezogenen Daten, sobald Zusatzwissen vorliegt, mit dessen Hilfe die Daten wieder der ursprünglichen Person zugeordnet werden könnten.

Ein Beispiel wäre hier die Verwendung eines ID-Schlüssels, mit dem gearbeitet wird, um eine Person nicht direkt mit dem Klarnamen einzusehen. Allerdings kann jeder, dem dieser Schlüssel vorliegt, die Personen eindeutig identifizieren.

Für den rechtssicheren Einsatz von pseudonymisierten Daten gemäß der DSGVO müssen die Daten und das Verschlüsselungsmerkmal getrennt voneinander organisiert und aufbewahrt werden – abgesichert durch die technischen und organisatorischen Maßnahmen. 

 

Wann sind Daten wirklich anonym?

Eine Anonymisierung von Daten ist nicht so einfach wie es sich im ersten Moment anhört. Dies mag zwar für Spezialisten auf diesem Gebiet weniger gelten, doch nicht jedes Unternehmen kann auf diesen Personenkreis zugreifen. Zudem sind Anonymisierungsverfahren teils komplex und daher in der Benutzerfreundlichkeit für den Alltag nicht unbedingt geeignet.

Das einfache Löschen von bestimmten Identifikationsmerkmalen wie Namen oder Adresse reichen nicht aus, um Daten zu anonymisieren. Durch das Hinzufügen dieser Identifikationsmerkmale lässt sich eine Person wieder exakt  identifizieren. Man spricht in diesem Fall auch nicht von einer Pseudonymisierung, da die Daten nicht durch eine Identifikationsnummer usw. ersetzt wurden.

Durch das Weglassen von einzelnen Informationen zu einer Person erreicht man also keine Anonymisierung. Dies wird zwar häufig bestritten, aber allein durch eine Kombination von Geschlecht, Geburtsjahr und Postleitzahl lassen sich Personen ziemlich gut eingrenzen bzw. identifizieren. Es könnten zwar noch mehr Informationen gelöscht werden, aber dadurch reduziert sich die Nutzbarkeit von Daten auf ein Minimum – wenn nicht sogar bis hin zu einem unbrauchbaren Datensatz.

Leider gibt es keinen allgemeingültigen Standard, wann Daten als anonym gelten. Viel mehr ist eine Anonymisierung davon abhängig, wie hoch der Aufwand ist, eine Person oder Daten wieder zu identifizieren. Je größer der Aufwand, desto besser die Anonymisierung. Für die Anonymisierung gibt es verschiedene Verfahren, welche sich jedoch durch deren verschiedenen Anynomisierungspraktiken und Anonymisierungstechniken in ihrer Robustheit unterscheiden.

 

Welche Anonymisierungsverfahren gibt es?

Es gibt die zwei Arten, Randomisierung und Generalisierung als Anonymisierungsverfahren. Während bei der Randomisierung die Daten mit mathematischen Verfahren in deren Wahrheitsgehalt verändert werden, basiert die Generalisierung auf eine Verallgemeinerung der Merkmale. Dies bedeutet, dass bei der Randomisierung die Datenwerte verändert werden, während bei der Generalisierung die Werte in Wertegruppen eingestuft werden.

Wie die Daten in den beiden Anonymisierungsverfahren verändert werden, ist abhängig von der jeweiligen Technik.

 

Welche Techniken gibt es bei der Randomisierung?

Die drei wichtigsten Techniken bei der Randomisierung sind die Wertaddition (noise addition), Permutation und der differentielle Datenschutz.

Die Wertaddition addiert bzw. subtrahiert die Werte so, dass Angaben zwar noch in der Gesamtverteilung entsprechen, jedoch nicht mehr einem ursprünglichen Datensatz zugeordnet werden können. Ein Beispiel wäre die Veränderung der Körpergröße mit Werten von bis zu +-8 cm oder des Körpergewichts von bis zu +-5 kg.

 

Bei der Permutation werden die Werte in einer Tabelle so getauscht, dass einige der Werte mit künstlichen Daten verbunden werden. Eine solche Vertauschung stellt sicher, dass Bereich und Verteilung der Werte gleich bleiben, jedoch nicht die Verbindung zwischen dem Datensubjekt (Betroffener) und den Werten. Jedoch ist es bei dieser Technik besonders wichtig, dass im Vorfeld definiert wird, welche Werte für die weitere Verarbeitung notwendig sind. Anderenfalls werden durch den Tauschprozess Daten unbrauchbar aufgrund fehlerhafter Verknüpfungen.

Beide Techniken stellen mit ihrer jeweiligen Technik keine vollständige Anonymisierung sicher. Vielmehr ist eine Kombination verschiedener und auf den jeweiligen Zweck zugeschnittene Techniken für eine gute Anonymisierung notwendig. Wie eingangs geschrieben, es gibt eben kein Standardverfahren.

 

Der differenzielle Datenschutz ist eine Technik, bei dem ein berechtigter Dritter nur eine Antwort auf eine spezifische Anfrage erhält anstatt eines Datensatzes. Somit wird erreicht, dass ein Dritter nicht mehr alle Informationen zu einer Person einsehen kann, sondern nur die Information, die der Dritte explizit angefordert hat. Zudem kann durch einen Dritten nicht nachvollzogen werden, welche Informationen noch über die Person vorhanden sind.

Ein weiterer Vorteil dieser Technik besteht darin, dass die Daten mit weiteren Techniken kombiniert werden können, um das Datenschutz-Niveau noch weiter zu erhöhen. So ist zum Beispiel vorstellbar, dass vor dem Übermitteln der Antwort durch Noise addition der Wert verändert wird.

Des Weiteren besteht die Option, jede Anfrage zu speichern, um  letztlich jeden Zugriff nachzuvollziehen.

 

Welche Techniken gibt es bei der Generalisierung?

Die wichtigsten Techniken bei der Generalisierung sind:

  • Aggregation & k-Anonymität
  • L-Diversität
  • T-Nähe

 

Bei der Aggregation und k-Anonymität werden die Werte soweit verallgemeinert, das Gruppen entstehen. Diese Werte ersetzen die realen Werte jeder Person. Bei Körpergrößen können dies Gewichtsbereiche sein, bei Ortsteilen die Stadt oder gar der Landkreis.

 

Die L-Diversität erweitert die k-Anonymität in jeder Äquivalenzklasse um mindestens l-Werte zur Vermeidung ungünstiger Variabilitäten. Hiermit wird angestrebt, dass Inferenzangriffe zu einer erheblichen Unsicherheit führen. Ein Inferenzangriff ist eine Angriffsmethode bzw. Rückverfolgbarkeitsmethode, bei der durch logische Schlussfolgerungen eine Person zurückverfolgt bzw.  identifiziert werden kann.

 

Die T-Nähe ist eine Verfeinerung der L-Diversität, bei der durch die Schaffung von äquivalenten Klassen sich möglichst nahe an den Originalwerten bewegt wird. Die Schwierigkeit besteht darin, dass trotz der Nähe zu den Originaldaten kein Bezug zu der Person hergestellt werden kann.

Die Nähe wird damit erreicht, dass nicht  nur die l-Werte wie bei der L-Diversität existieren, sondern das jeder Wert so oft wie möglich enthalten ist, um die anfängliche Verteilung jedes Attributs widerzuspiegeln.

 

Fazit

Das Thema Anonymisierung ist sehr komplex und bedarf einer guten Vorbereitung um Datenmissbrauch durch logische Schlussfolgerungen oder Verlinkungen durch ungünstige Variabilitäten zu vermeiden.

Einige Techniken, wie zum Beispiel die k-Anonymität, sind nutzerfreundlicher, können aber durch Inferenzen unsicherer sein. Der differenzielle Datenschutz ist eine der sicheren Techniken, der einen erhöhten Implementierungsaufwand mit sich bringen kann. Für Unternehmen ist diese Methode jedoch zu empfehlen.

Für jeden Anwendungsbereich muss daher neu beurteilt werden, welches Verfahren ausreichend ist, um eine rechtssichere Datenverarbeitung gemäß der DSGVO zu gewährleisten.

Titelbild: © André Sandner – andre-sandner.com & stock.adobe.com

  1. Start
  2. /
  3. Web
  4. /
  5. Anonymisierung vs. Pseudonymisierung