conference logo

Playlist "Datenspuren 2023"

Mit HyperLogLog gegen Vorratsdatenspeicherung

mcnesium

Wie wir personenbezogene Daten verarbeiten können, ohne dabei die Privatsphäre zu verletzen

Social-Media-Daten werden in großem Umfang genutzt, um Erkenntnisse über soziale Ereignisse zu gewinnen, sei es auf lokaler oder auf globaler Ebene.
Zur Auswertung ist es gängige Praxis, diese Daten erstmal herunterzuladen und lokal zu speichern.
Rücksicht auf den Schutz der Privatsphäre der Social-Media-Nutzer fällt dabei oft hinten runter.
Der Schutz der Privatsphäre beim Umgang mit personenbezogenen Daten ist jedoch sowohl aus ethischer als auch aus juristischer Sicht geboten.
Das trifft selbstverständlich nicht nur auf Social-Media-Daten zu, sondern geht weit darüber hinaus.

In diesem Vortrag möchte ich eine privatsphäreschützende Methode zur Verarbeitung von personenbezogenen Daten vorstellen, in der eine Technologie namens HyperLogLog zum Einsatz kommt.
HyperLogLog ist ein sogenannter Cardinality-Estimation-Algorithmus, also ein Verfahren, in dem die Anzahl von Elementen einer Menge nur geschätzt wird.
Es arbeitet sehr performant und ist darum für große Datenmengen gut geeignet.
Es kommt deswegen bereits in vielen Datenbanksystemen zum Einsatz.
Ich möchte dieses Verfahren jedoch nicht zur Leistungsoptimierung zum Einsatz bringen, sondern zum Schutz der Privatsphäre.

Der Besitz großer personenbezogener Datenmengen ist immer mit dem Risiko verbunden, dass die Daten versehentlich in die falschen Hände gelangen.
Frei nach dem Motto "was ich nicht hab, kann ich nicht verlieren" möchte ich am Beispiel von Social-Media-Daten zeigen, wie große Datenmengen analysiert werden können, ohne überhaupt in den Besitz der eigentlichen Rohdaten zu gelangen.
Auf diese Weise kann das Risiko des Missbrauchs oder der versehentlichen Veröffentlichung von Datensätzen gemindert und die Privatsphäre der Social-Media-Nutzer geschützt bleiben.

Der Vortrag soll euch zum lauten Nachdenken "über morgen™" anregen.
Im Anschluss möchte ich nämlich mit euch diskutieren, in welchen weiteren Anwendungsfällen diese Methodik zum Einsatz kommen könnte.
Vor welchen dystopischen Horrorszenarien könnte uns diese Technologie schützen?