Anonymisierung und Pseudonymisierung von Daten für Projekte des maschinellen Lernens

 

Die künstliche Intelligenz ist eine junge Disziplin. Doch mit 64 ist sie doch nicht so jung, wie manche vermuten würden. Viele haben vor dem aktuellen Hype deswegen von KI nicht gehört, weil sie ihre ersten Jahrzehnte überwiegend in Forschungslaboren verbracht hat. Da hat die KI zwar mehrere Familien von Algorithmen hervorgebracht – z. B. Suche, Logik und Wissensrepräsentation. Doch von wenigen Ausnahmen abgesehen, ermöglichten diese Algorithmen keine bahnbrechenden Anwendungen in der Praxis.

Zu ihrem großen Durchbruch hat der KI jene Algorithmenfamilie verholfen, die bis dahin von der Mehrzahl der KI-Experten stiefmütterlich behandelt wurde: Das maschinelle Lernen. ML ist stellte das Paradigma der KI auf den Kopf. Nicht Regeln, sondern Daten sollen das Verhalten der KI diktieren. Will man beispielsweise einen Lernalgorithmus einsetzen, um Wölfe und Huskys in Bildern zu erkennen, so bräuchte man die Unterscheidungsmerkmale von Wölfen und Huskys nicht in Regeln zu erfassen. Vielmehr analysiert der Lernalgorithmus eine Menge von Beispielbildern beider Hundefamilien. Der Algorithmus entwickelt im Laufe der Lernphase ein generalisiertes Modell. Mit diesem Modell kann eine App später neue, bis dato nicht gesehene Bilder von Wölfen und Huskys richtig klassifizieren.

Das maschinelle Lernen hat sich in vielen Bereichen bewährt: Von der Bilderkennung in der Radiologie über Spracherkennung bei Sprachassistenten bis zur vorausschauenden Wartung in der Industrie. Dennoch: Der Grundgedanke des maschinellen Lernens ist nicht neu. Er geht vielmehr auf die fünfziger Jahre zurück. Der Siegeszug des ML liegt in der zunehmenden Verfügbarkeit von Daten und der rasant gestiegenen Rechenleistung begründet. Daten sind also das Herzstück des maschinellen Lernens. Wenn wir von Daten sprechen, müssen wir die rechtlichen Rahmenbedingungen für ihre Nutzung betrachten. Insbesondere müssen wir klären, inwiefern Daten, die wir für das Trainieren von ML-Modellen nutzen, nicht nur für die Algorithmen, sondern auch aus datenschutzrechtlichen Gesichtspunkten relevant sind.

Unser Ausgangspunkt ist simpel: Aus rechtlicher Sicht muss man Daten besonders schützen und ihre Verarbeitung stark reglementieren, wenn sie personenbezogen sind. Jegliche Nutzung personenbezogener Daten unterliegt (neben weiteren rechtlichen Bestimmungen) der Datenschutzgrundverordnung. Entfernt man den Personenbezug aus den Daten, ist man also – aus rechtlicher Sicht – freier in den Nutzungsmöglichkeiten. Auch die Verschleierung des Personenbezugs dient datenschutzrechtlichen Erwägungen: Sie erhöht den Schutz der Daten, ohne aber den Anwender aus dem Korsett des Datenschutzrechts zu entlassen. Es stehen Ihnen als Entwickler zwei wichtige Werkzeuge zur Verfügung, um den Personenbezug zu verschleiern bzw. ganz zu entfernen: Sie können die Daten pseudonymisieren oder anonymisieren.

Die Pseudonymisierung schützt Daten, indem sie die Werte von direkten Identifikatoren (z. B. Name oder Ausweisnummer) durch Pseudonyme ersetzt. Diese Pseudonyme werden über ein geeignetes Verfahren aus dem ursprünglichen Wert generiert oder gar neu vergeben. Ein Pseudonym kann das gleiche Format wie der ursprüngliche Datentyp besitzen – z. B. ein Name wird durch einen Künstlernamen ersetzt. Ein Pseudonym kann aber auch in einem neuen Format vorliegen – z. B. die Ausweisnummer wird durch eine zufällige Zeichenfolge ersetzt. Dabei ist es wichtig, dass die Zuordnung eindeutig ist: Für zwei identische Eingabewerte muss das gleiche Pseudonym erzeugt werden. Manche Anwendungen sind auf eine umkehrbare Pseudonymisierung angewiesen. Eine Pseudonymisierung ist dann umkehrbar, wenn man aus dem Pseudonym – auch wenn mithilfe eines zusätzlichen Schlüssels – den ursprünglichen Datenwert ableiten kann.

Pseudonymisierung wird vorwiegend eingesetzt, um sensitive Daten bei der Verarbeitung vor neugierigen Blicken zu schützen. Die Pseudonymisierung macht es lediglich schwerer, Rückschlüsse auf den ursprünglichen Datenwert zu ziehen. Da pseudonymisierte Daten eine Re-Identifikation der betroffenen Person nicht ausschließen, unterliegen sie der DS-GVO. Will man die Ableitung des ursprünglichen Datenwerts aber technisch unmöglich machen, so müsste man auf die Anonymisierung zurückgreifen. Anonymisierte Daten können – technisch gesehen – nicht auf individualisierte Personen zurückgeführt werden. Sie entfallen deshalb nicht dem Datenschutzrecht. Man spricht von anonymen Daten, wenn die Identifizierbarkeit eines Individuums unter Berücksichtigung sämtlicher zur Verfügung stehenden Mittel »einen unverhältnismäßigen Aufwand an Zeit, Kosten und Arbeitskräften erfordern würde, sodass das Risiko einer Identifizierung de facto vernachlässigbar erschiene«.

In diesem Leitfaden präsentieren wir praktische Methoden und konkrete Beispiele für die Anonymisierung und Pseudonymisierung von Daten. Der Leitfaden richtet sich insbesondere an Entwickler, die mit Fragen der Anonymisierung und Pseudonymisierung kämpfen. Kapitel 2 fasst die wichtigsten technischen Methoden und Verfahren zur A&P von Daten zusammen. Kapitel 3 geht auf die Problematik der Speicherung von Geo-Bewegungsprofilen ein. Kapitel 4 stellt die Abarbeitung von Mobilitätsdaten vor, die Google im Kontext von COVID-19 erhoben hat. Kapitel 5 diskutiert Anwendungsbeispiele für das Prinzip der entkoppelten Pseudonyme – ein Prinzip, welches die Rückführung von Pseudonymen erschwert. Kapitel 6 erörtert das Konzept des föderierten Lernens und erklärt, wie effektives maschinelles Lernen auch lokal stattfinden kann. Kapitel 7 beschreibt die Datenschutzrisiken bei Medieninhalten und empfiehlt Gegenmaßnahmen. Kapitel 8 geht auf die Anonymisierung und Pseudonymisierung medizinischer Textdaten ein. Und Kapitel 9 präsentiert das Konzept der semantischen Anonymisierung.

Wir hoffen, dass dieser Leitfaden Ihnen bei der Wahl geeigneter Verfahren helfen kann!

 

Leitfaden kostenfrei herunterladen

Diese Seminare könnten Sie auch interessieren

Seminar Format Datum Absteigend sortieren Ort Verfügbar Preis

Digitale Transformation

Data Science mit Python
Course 29.11.21 Online
 

1.750 €

Digitale Transformation

Digital Design Professional – Digitale Transformation braucht neue Vordenker
Webinar 30.11.21 Online
 

kostenfrei

Digitale Transformation

Online-Workshop | Strategisches Management mit Objectives and Key Results (OKR)
Course 01.12.21 Online
 

550 €

Digitale Transformation

Crashkurs IT-Hintergrundwissen
Course 06.12.21 Online
 

1.100 €

Digitale Transformation

Einführung in die Künstliche Intelligenz
Webinar 07.12.21 Online
 

kostenfrei

Digitale Transformation

Manager digitale Plattform-Geschäftsmodelle
Certificate Course 08.12.21 Online
 

1.950 €

Digitale Transformation

Crashkurs Software & Programmierung
Course 09.12.21 Online
 

1.100 €

Digitale Transformation

UX TOOLS: Personas & Customer Journeys entwickeln & leben
Webinar 09.12.21 Online
 

kostenfrei

Digitale Transformation

UX Basics für Product Owner
Webinar 10.12.21 Online
 

kostenfrei

Digitale Transformation

Data Storytelling
Webinar 17.12.21 Online
 

kostenfrei

Digitale Transformation

re:Work - Wie gelingt erfolgreiche Unternehmenskultur?
Webinar 11.01.22 Online
 

kostenfrei

Digitale Transformation

KI-Newsflash
Webinar 12.01.22 Online
 

kostenfrei

Digitale Transformation

Was macht eigentlich ein Chief Digital Officer?
Webinar 13.01.22 Online
 

kostenfrei

Digitale Transformation

Einführung in die Künstliche Intelligenz
Webinar 21.01.22 Online
 

kostenfrei

Digitale Transformation

Crashkurs IT-Hintergrundwissen
Course 27.01.22 Online
 

1.100 €

Digitale Transformation

Agile Remote
Webinar 27.01.22 Online
 

kostenfrei

Digitale Transformation

Agil Entwickeln und Testen
Webinar 28.01.22 Online
 

kostenfrei

Digitale Transformation

Die elektronische Signatur
Webinar 01.02.22 Online
 

kostenfrei

Digitale Transformation

Ausbildung zum Chief Digital Officer (CDO)
Certificate Course 03.02.22 Online
 

5.900 €

Digitale Transformation

Agil Entwickeln und Testen
Webinar 03.02.22 Online
 

kostenfrei