Anonymization et Masquage Dynamique avec PostgreSQL

Bonjour

Damien Clochard
PostgreSQL DBA & Co-foundateur de Dalibo
Président de l’association PostgreSQLFr
Je ne suis pas juriste !

Mon chemin

RGPD : 1 an plus tard…
Pourquoi c’est difficile ?
Flux d’anonymisation
PostgreSQL Anonymizer
7 Techniques d’anonymisation

RGPD

Droits Individuels
Principes
Impact
Pseudonymisation vs. Anonymisation

RGPD : les droits Individuels

droit à l’information (Art. 13 et Art. 14)
droit d’accès (Art. 15)
droit de rectification (Art. 16)
droit à la portabilité (Art 20)
droit d’opposition (Art. 21)
droit à l’oubli (Art. 17)
droit à la limitation du traitement (Art. 18)
droit de décision automatisée (Art. 22)

(sources: Individual Rights)

RGPD: Principes & Concepts

Licéité, loyauté, transparence
Sécurité
Minimisation des données
Privacy By Design
Data Protection By Design
Pseudonymisation
Limitation du stockage
Précision
Limitation des finalités

(source: GDPR Principles)

Sanctions are coming

Juillet 2019 : 110M€ pour Marriott (UK)
Juillet 2019 : 204M€ pour British Airways (UK)
Juin 2019 : 400k€ pour Sergic (France)
Juin 2019 : 250 k€ pour LaLiga (Espagne)
Mai 2019 : 170 k€ pour la ville de Bergen (Norvège)
Avril 2019 : 200k€ pour Airbus (France)
etc.

(source: GDPR Enforcement Tracker)

Attention à l’article 32 !

La plupart des scanctions concernent l’article 32 :

« Mesures techniques et organisationnelles insuffisantes pour assurer la sécurité de l’information »

Autrement dit : “Fuites de données”

(source Article 32 - Sécurité du traitement)

Pseudonymisation

« traitement de données à caractère personnel de telle façon que celles-ci ne puissent plus être attribuées à une personne concernée précise sans avoir recours à des informations supplémentaires »

Pseudonymisation != Anonymisation

Pseudonymisation est méthode de protection de données.
Exemples : Chiffrement ou Hashage
Les données peuvent reconstuites avec des données supplémentaires
Les données pseudonymisées reste soumises au RGPD
L’anonymisation est la seule véritable porte de sortie

Pourquoi c’est difficile ?

Singularisation / Singling Out
Recoupements / Linkability
Inférence

(source: WP29 Opinion on Anonymisation Techniques)

Singularisation / Singling out

Identifier un sujet à partir de valeurs rares ou extrèmes

SELECT * FROM employees;

  id  |  name          | job  | salary
------+----------------+------+--------
 1578 | xkjefus3sfzd   | NULL |    1498
 2552 | cksnd2se5dfa   | NULL |    2257
 5301 | fnefckndc2xn   | NULL |   45489
 7114 | npodn5ltyp3d   | NULL |    1821

Recoupements / Linkability

Identifier un sujet en utilisant des jeux de données externes

Notes Netflix + Notes IMDB
Registre d’un hopital + Liste électorale

(sources: Netflix prize + Hospital Reidentification )

Inférence

Identifier un sujet en regroupant plusieurs identifiants indirects

87% de la population des Etats-Unis est identifiable à partir de la date de naissance, du genre et du code postal.

(source : Latanya Sweeney)

C’est perdu d’avance !

On ne peut pas prouver que la ré-identification est impossible

(source: De-indentification still doesn’t work)

Le RGPD reconnait le problème

« Pour déterminer si une personne physique est identifiable, il convient de prendre en considération l’ensemble des moyens raisonnablement susceptibles d’être utilisés par le responsable du traitement ou par toute autre personne pour identifier la personne physique directement ou indirectement »

(source: Recital 26)

Mesurer la prise de risque

Il faut mesurer le “risque raisonable” de ré-identification de manière régulière.

Flux d’anonymisation

Objectif : minimiser le risque de fuites de donnée réduisant la surface d’attaque

C’est aussi une application directe du principe Limitation du stockage

Exemple de base

Pas d’anonymization

ETL

Anonymisation dans les nuages (!?!)

PostgreSQL Anonymizer

Objectifs

Declarer des règles de masquage à l’intérieur de la base de données
Anonymiser à l’intérieur de PostgresQL
Masquage Dynamique ou Substition Permanente
Un panel de fonctions de masquage
Rependre la syntaxe du Masquage Dynamique de SQL Server

Example : Données Réelles

=# SELECT * FROM customer;
 id  |   full_name      |   birth    | zipcode | fk_shop
-----+------------------+------------+---------+---------
 911 | Chuck Norris     | 1940-03-10 | 75001   | 12
 112 | David Hasselhoff | 1952-07-17 | 90001   | 423

Exemple : Données Anonymisées

=# SELECT * FROM customer;
 id  |     full_name     |   birth    | zipcode | fk_shop
-----+-------------------+------------+---------+---------
 911 | Michel Duffus     | 1970-03-24 | 63824   | 12
 112 | Andromache Tulip  | 1921-03-24 | 38199   | 423

Installer

A partir du dépot RPM de la communauté :

$ yum install https://.../pgdg-redhat-repo-latest.noarch.rpm
$ yum install postgresql_anonymizer12

Configurer

shared_preload_libraries = '[...], anon'

Charger

=# CREATE EXTENSION IF NOT EXISTS anon CASCADE;
=# SELECT anon.load();

Declarer une règle de masquage

SECURITY LABEL FOR anon
ON COLUMN customer.zipcode
IS 'anon.random_zipcode()';

Ensuite 3 approches sont possibles

Substitution Permanente (“In-Place Anonymization”)
Export Anonyme (“Anonymous Dump”)
Masquage Dynamique (“Dynamic Masking”)

Substitution Permanente

=# SELECT anon.anonymize_column('customer','zipcode');

=# SELECT anon.anonymize_table('customer');

=# SELECT anon.anonymize_database();

Substitution Permanente

Réécriture (UPDATE) de toutes les lignes de toutes les tables masquées.

Export Anonyme

=# SELECT anon.dump();

Export Anonyme

$ psql [...] -qtA -c 'SELECT anon.dump()' foo > foo.sql

Masquage Dynamique

Exemple de base :

=# SELECT * FROM people;
 id | fistname | lastname |   phone
----+----------+----------+------------
 T1 | Sarah    | Conor    | 0609110911
(1 row)

Masquage Dynamique

Etape 1 : Activer le moteur de masquage

=# CREATE EXTENSION IF NOT EXISTS anon CASCADE;
=# SELECT anon.start_dynamic_masking();

Masquage Dynamique

Etape 2 : Déclarer utilisateur masqué

=# CREATE ROLE skynet LOGIN;

=# SECURITY LABEL FOR anon ON ROLE skynet
-# IS 'MASKED';

L’utilisateur masqué a un accès en lecture seule aux données anonymisées.

Masquage Dynamique

Etape 3 : Declarer les règles de masquage

SECURITY LABEL FOR anon ON COLUMN people.name
IS 'MASKED WITH FUNCTION anon.random_last_name()';

SECURITY LABEL FOR anon ON COLUMN people.phone
IS 'MASKED WITH FUNCTION anon.partial(phone,2,$$******$$,2)';

Masquage Dynamique

Etape 4 : Se connecter avec l’utilisateur masqué

$ psql peopledb -U skynet -c 'SELECT * FROM people;'
 id | fistname | lastname  |   phone
----+----------+-----------+------------
 T1 | Sarah    | Stranahan | 06******11
(1 row)

Techniques d’Anonymisation

L’extension fournit toute une batterie de fonctions pour appliquer 7 techniques d’anonymization:

Destruction
Bruit
Brassage
Randomization
Imitation (faking)
Destruction partielle
Généralisation

Destruction

SECURITY LABEL FOR anon
  ON COLUMN users.address
  IS 'MASKED WITH VALUE ''[CONFIDENTIELLE]'' ';

Destruction

Simple
Rapide
Efficace

Bruit

=# SELECT anon.add_noise_on_numeric_column(user, salary, 0.1)

Toutes les valeurs seront décalées aléatoirement avec un ratio de +/- 10%

Bruit

Les données restent réalistes.
AVG() et SUM() sont similaires à l’original
marche uniquement avec les dates et les valeurs numériques
Les “valeurs marginales” sont un risque de ré-identification (“singularisation”)
Attention aux attaques par répétition ! Ne pas utiliser avec le masquage dynamique

Brassage

# SELECT anon.shuffle_column(employee, fk_company, id);

Brassage

Les données ne sont pas modifiées
Parfait pour les clés étrangères
Marche mal avec les distributions peu ou mal distribuées (ex: booléens)
La table doit avoir une clé primaire

Randomisation

=# SECURITY LABEL FOR anon
-# ON COLUMN employee.birth
-# IS 'MASKED WITH FUNCTION
-#     anon.random_date_between(''01/01/1920'',now())
-# ';

Randomisation

Simple et rapide
Utile pour les colonnes avec la contrainte NOT NULL
A éviter pour les stats et l’analytique

Imitation ( Faking )

=# SECURITY LABEL FOR anon
-# ON COLUMN employee.lastname
-# IS 'MASKED WITH FUNCTION
-#     anon.fake_last_name()
-# ';

Imitation ( Faking )

Une version plus élaborée de la randomisation
Parfait pour les dev, les démos, les tests CI, etc.
Vous pouvez charger vos propres données factices !

Destruction Partielle

=# SECURITY LABEL FOR anon
-# ON COLUMN employee.phone
-# IS 'MASKED WITH FUNCTION anon.partial(phone,4,'******',2)';

+33142928107 devient +331******07

Destruction Partielle

Parfait pour les numéros de téléphone, cartes de crédit, etc.
Le sujet peut toujours reconnaitre sa donnée
La transformation est IMMUTABLE
Marche seulement pour les types TEXT / VARCHAR

Generalization

SELECT * FROM patient;
     ssn     | firstname |  zip  |   birth    |  disease    
-------------+-----------+---------+------------+---------------
 253-51-6170 | Alice     | 47012 | 1989-12-29 | Flu
 091-20-0543 | Bob       | 42678 | 1979-03-22 | Allergy
 565-94-1926 | Caroline  | 42678 | 1971-07-22 | Flu
 510-56-7882 | Eleanor   | 47909 | 1989-12-15 | Acne

Generalization

CREATE MATERIALIZED VIEW generalized_patient AS
SELECT
  'REDACTED'::TEXT AS firstname,
  anon.generalize_int4range(zipcode,1000) AS zipcode,
  anon.generalize_daterange(birth,'decade') AS birth,
  disease
FROM patient;

Generalization

SELECT * FROM generalized_patient;
 firstname |      zip      |          birth          |  disease    
-----------+---------------+-------------------------+---------------
 REDACTED  | [47000,48000) | [1980-01-01,1990-01-01) | Flu
 REDACTED  | [42000,43000) | [1970-01-01,1980-01-01) | Allergy
 REDACTED  | [42000,43000) | [1970-01-01,1980-01-01) | Flu
 REDACTED  | [47000,48000) | [1980-01-01,1990-01-01) | Acne

Generalization

Les données restent vraies mais moins précises
Utilise les types RANGE
Idéal pour les statistiques et l’analyse de données
Le dégré d’anonymisation est quantifiable avec l’indicateur de k-anonymat
Le masque dynamique ne marche pas car le schéma est différent
Inutilisable pour les tests d’intégration

En résumé

Les sanctions du RGPD sont bien réelles
Les fuites de données sont le plus gros risque
Reduire la surface d’attaque
Anonymiser dès que possible
Anonymiser dans la base de données
Différentes techniques pour différents usages
Le chiffrement n’est pas de l’anonymisation !

Bataille pour la vie privée

Les développeurs doivent écrire les règles de masquage
C’est difficile…. PostgreSQL est un bon point de départ
La bataille de l’open source est gagnée,
… il faut maintenant se battre pour protéger la vie privée

Comment Contribuer ?

Feedback et bugs !
Images et geodata
rejoindre le projet sur :

https://gitlab.com/dalibo/postgresql_anonymizer

Dalibo recrute

DBA de Production
DBA d’études
Développeur⋅se backend Python
Commercial Grands Comptes

https://www.dalibo.com/jobs

Merci !

Contact : damien.clochard@dalibo.com
Follow : @daamien
Nos autres Projets : Dalibo Labs

Anonymization et Masquage Dynamique avec PostgreSQL

Bonjour

Mon chemin

Menu

RGPD

RGPD : les droits Individuels

RGPD: Principes & Concepts

Sanctions are coming

Attention à l’article 32 !

Pseudonymisation

Pseudonymisation != Anonymisation

Pourquoi c’est difficile ?

Singularisation / Singling out

Recoupements / Linkability

Inférence

C’est perdu d’avance !

Le RGPD reconnait le problème

Mesurer la prise de risque

Flux d’anonymisation

Exemple de base

Pas d’anonymization

ETL

Anonymisation dans les nuages (!?!)

PostgreSQL Anonymizer

Objectifs

Example : Données Réelles

Exemple : Données Anonymisées

Installer

Configurer

Charger

Declarer une règle de masquage

Ensuite 3 approches sont possibles

Substitution Permanente

Substitution Permanente

Export Anonyme

Export Anonyme

Masquage Dynamique

Masquage Dynamique

Masquage Dynamique

Masquage Dynamique

Masquage Dynamique

Techniques d’Anonymisation

Destruction

Destruction

Bruit

Bruit

Brassage

Brassage

Randomisation

Randomisation

Imitation ( Faking )

Imitation ( Faking )

Destruction Partielle

Destruction Partielle

Generalization

Generalization

Generalization

Generalization

En résumé

Bataille pour la vie privée

Comment Contribuer ?

Dalibo recrute

Merci !