Anonymisierung und Pseudonymisierung von Daten für Projekte des maschinellen Lernens

 

Die künstliche Intelligenz ist eine junge Disziplin. Doch mit 64 ist sie doch nicht so jung, wie manche vermuten würden. Viele haben vor dem aktuellen Hype deswegen von KI nicht gehört, weil sie ihre ersten Jahrzehnte überwiegend in Forschungslaboren verbracht hat. Da hat die KI zwar mehrere Familien von Algorithmen hervorgebracht – z. B. Suche, Logik und Wissensrepräsentation. Doch von wenigen Ausnahmen abgesehen, ermöglichten diese Algorithmen keine bahnbrechenden Anwendungen in der Praxis.

Zu ihrem großen Durchbruch hat der KI jene Algorithmenfamilie verholfen, die bis dahin von der Mehrzahl der KI-Experten stiefmütterlich behandelt wurde: Das maschinelle Lernen. ML ist stellte das Paradigma der KI auf den Kopf. Nicht Regeln, sondern Daten sollen das Verhalten der KI diktieren. Will man beispielsweise einen Lernalgorithmus einsetzen, um Wölfe und Huskys in Bildern zu erkennen, so bräuchte man die Unterscheidungsmerkmale von Wölfen und Huskys nicht in Regeln zu erfassen. Vielmehr analysiert der Lernalgorithmus eine Menge von Beispielbildern beider Hundefamilien. Der Algorithmus entwickelt im Laufe der Lernphase ein generalisiertes Modell. Mit diesem Modell kann eine App später neue, bis dato nicht gesehene Bilder von Wölfen und Huskys richtig klassifizieren.

Das maschinelle Lernen hat sich in vielen Bereichen bewährt: Von der Bilderkennung in der Radiologie über Spracherkennung bei Sprachassistenten bis zur vorausschauenden Wartung in der Industrie. Dennoch: Der Grundgedanke des maschinellen Lernens ist nicht neu. Er geht vielmehr auf die fünfziger Jahre zurück. Der Siegeszug des ML liegt in der zunehmenden Verfügbarkeit von Daten und der rasant gestiegenen Rechenleistung begründet. Daten sind also das Herzstück des maschinellen Lernens. Wenn wir von Daten sprechen, müssen wir die rechtlichen Rahmenbedingungen für ihre Nutzung betrachten. Insbesondere müssen wir klären, inwiefern Daten, die wir für das Trainieren von ML-Modellen nutzen, nicht nur für die Algorithmen, sondern auch aus datenschutzrechtlichen Gesichtspunkten relevant sind.

Unser Ausgangspunkt ist simpel: Aus rechtlicher Sicht muss man Daten besonders schützen und ihre Verarbeitung stark reglementieren, wenn sie personenbezogen sind. Jegliche Nutzung personenbezogener Daten unterliegt (neben weiteren rechtlichen Bestimmungen) der Datenschutzgrundverordnung. Entfernt man den Personenbezug aus den Daten, ist man also – aus rechtlicher Sicht – freier in den Nutzungsmöglichkeiten. Auch die Verschleierung des Personenbezugs dient datenschutzrechtlichen Erwägungen: Sie erhöht den Schutz der Daten, ohne aber den Anwender aus dem Korsett des Datenschutzrechts zu entlassen. Es stehen Ihnen als Entwickler zwei wichtige Werkzeuge zur Verfügung, um den Personenbezug zu verschleiern bzw. ganz zu entfernen: Sie können die Daten pseudonymisieren oder anonymisieren.

Die Pseudonymisierung schützt Daten, indem sie die Werte von direkten Identifikatoren (z. B. Name oder Ausweisnummer) durch Pseudonyme ersetzt. Diese Pseudonyme werden über ein geeignetes Verfahren aus dem ursprünglichen Wert generiert oder gar neu vergeben. Ein Pseudonym kann das gleiche Format wie der ursprüngliche Datentyp besitzen – z. B. ein Name wird durch einen Künstlernamen ersetzt. Ein Pseudonym kann aber auch in einem neuen Format vorliegen – z. B. die Ausweisnummer wird durch eine zufällige Zeichenfolge ersetzt. Dabei ist es wichtig, dass die Zuordnung eindeutig ist: Für zwei identische Eingabewerte muss das gleiche Pseudonym erzeugt werden. Manche Anwendungen sind auf eine umkehrbare Pseudonymisierung angewiesen. Eine Pseudonymisierung ist dann umkehrbar, wenn man aus dem Pseudonym – auch wenn mithilfe eines zusätzlichen Schlüssels – den ursprünglichen Datenwert ableiten kann.

Pseudonymisierung wird vorwiegend eingesetzt, um sensitive Daten bei der Verarbeitung vor neugierigen Blicken zu schützen. Die Pseudonymisierung macht es lediglich schwerer, Rückschlüsse auf den ursprünglichen Datenwert zu ziehen. Da pseudonymisierte Daten eine Re-Identifikation der betroffenen Person nicht ausschließen, unterliegen sie der DS-GVO. Will man die Ableitung des ursprünglichen Datenwerts aber technisch unmöglich machen, so müsste man auf die Anonymisierung zurückgreifen. Anonymisierte Daten können – technisch gesehen – nicht auf individualisierte Personen zurückgeführt werden. Sie entfallen deshalb nicht dem Datenschutzrecht. Man spricht von anonymen Daten, wenn die Identifizierbarkeit eines Individuums unter Berücksichtigung sämtlicher zur Verfügung stehenden Mittel »einen unverhältnismäßigen Aufwand an Zeit, Kosten und Arbeitskräften erfordern würde, sodass das Risiko einer Identifizierung de facto vernachlässigbar erschiene«.

In diesem Leitfaden präsentieren wir praktische Methoden und konkrete Beispiele für die Anonymisierung und Pseudonymisierung von Daten. Der Leitfaden richtet sich insbesondere an Entwickler, die mit Fragen der Anonymisierung und Pseudonymisierung kämpfen. Kapitel 2 fasst die wichtigsten technischen Methoden und Verfahren zur A&P von Daten zusammen. Kapitel 3 geht auf die Problematik der Speicherung von Geo-Bewegungsprofilen ein. Kapitel 4 stellt die Abarbeitung von Mobilitätsdaten vor, die Google im Kontext von COVID-19 erhoben hat. Kapitel 5 diskutiert Anwendungsbeispiele für das Prinzip der entkoppelten Pseudonyme – ein Prinzip, welches die Rückführung von Pseudonymen erschwert. Kapitel 6 erörtert das Konzept des föderierten Lernens und erklärt, wie effektives maschinelles Lernen auch lokal stattfinden kann. Kapitel 7 beschreibt die Datenschutzrisiken bei Medieninhalten und empfiehlt Gegenmaßnahmen. Kapitel 8 geht auf die Anonymisierung und Pseudonymisierung medizinischer Textdaten ein. Und Kapitel 9 präsentiert das Konzept der semantischen Anonymisierung.

Wir hoffen, dass dieser Leitfaden Ihnen bei der Wahl geeigneter Verfahren helfen kann!

 

Leitfaden kostenfrei herunterladen

 

Diese Seminare könnten Sie auch interessieren

 

Seminar Format Datum Absteigend sortieren Ort Verfügbar Preis

Digitale Transformation

Marketing-Hacks für komplexe B2B-Produkte und Dienstleistungen

Live-Online

25.04.25 Online
 

kostenfrei

Digitale Transformation

Crashkurs IT-Fortgeschrittenen-Wissen

Workshop

05.05.25 Online
 

1.300 €

Digitale Transformation

Strategien mit MPM (Multiprojektmanagement) oder OKR (Objectives and Key Results) umsetzen

Live-Online

09.05.25 Online
 

kostenfrei

Digitale Transformation

Ausbildung zum KI Manager

Zertifikatslehrgang

12.05.25 Online
 

6.200 €

Digitale Transformation

Cyberangriffe auf Unternehmen

Live-Online

14.05.25 Online
 

kostenfrei

Digitale Transformation

Crashkurs IT-Hintergrundwissen

Workshop

15.05.25 Online
 

1.300 €

Digitale Transformation

Data Spaces international

Live-Online

15.05.25 Online
 

kostenfrei

Digitale Transformation

EU-weit verpflichtende mobile Wallet - Booster für die digitale Transformation

Live-Online

19.05.25 Online
 

kostenfrei

Digitale Transformation

Die Customer Journey mit KI besser verstehen

Live-Online

21.05.25 Online
 

kostenfrei

Digitale Transformation

Robotic Process Automation (RPA) Enablement

Workshop

22.05.25 Online
 

2.100 €

Digitale Transformation

Barrierefreiheitsstärkungsgesetz für Webanwendungen praxisgerecht umsetzen

Workshop

23.05.25 online
 

650 €

Digitale Transformation

Die User Experience von KI in Software und Web gestalten

Live-Online

23.05.25 Online
 

kostenfrei

Digitale Transformation

Digital Marketing Manager - Advanced

Zertifikatslehrgang

26.05.25 Online
 

1.900 €

Digitale Transformation

IT-Investitionen: Volle Kostenkontrolle behalten

Workshop

03.06.25 Online
 

1.300 €

Digitale Transformation

Customer Centricity

Live-Online

03.06.25 Online
 

kostenfrei

Digitale Transformation

IT-Projektmanagement: Digitalisierungs- & KI-Strategien

Zertifikatslehrgang

04.06.25 Berlin
 

1.900 €

Digitale Transformation

Digitale Marketing-Tipps für B2B-Produkte

Live-Online

13.06.25 Online
 

kostenfrei

Digitale Transformation

Marketing-Boost mit KI: Tools, Tipps und Strategien für die Praxis

Workshop

24.06.25 online
 

1.300 €

Digitale Transformation

KI im Vertrieb - Nutzenpotenziale, Anwendungsfälle und Herausforderungen

Live-Online

01.07.25 Online
 

kostenfrei

Digitale Transformation

Crashkurs IT-Hintergrundwissen

Workshop

03.07.25 Online
 

1.300 €

1

2

3