L'exploitation des données personnelles est devenue cruciale pour les entreprises mais ne peut pas se faire sans conditions. Les méthodes de pseudonymisation et d'anonymisation de la donnée permettent de trouver l'équilibre entre libération des usages, sécurité et protection.
L'enjeu autour de la protection des données à caractère personnel (DCP) n'est plus à démontrer, avec d'un côté des entreprises qui en ont besoin pour mieux connaître leurs clients et ainsi assurer le développement de leur modèle économique, et d'un autre côté des citoyens dont la vie privée doit être préservée afin d'éviter des dérives dangereuses pour les libertés individuelles.
Les cas d'usage de l'utilisation de la donnée sont multiples, que ce soit le profilage ou la géolocalisation des clients à des fins marketing, l'analyse de données de santé pour faire avancer la recherche, l'exploitation de données pour le développement et les tests d'applications et bien plus encore. Libérer ces usages de la donnée tout en renforçant leur protection, tel est l'objectif à atteindre.
Au-delà du garde-fou essentiel du RGPD européen que tout le monde connait aujourd'hui et qui fixe les limites à ne pas franchir, les entreprises cherchent depuis quelques années à développer la confiance des consommateurs vis à vis de leur marque, ce qui passe assurément par la bonne maîtrise des données personnelles.
Cette protection, beaucoup d'entreprises pensent savoir la gérer, souvent à tort, se contentant d'effacer certaines informations de leurs bases de données, avec pour résultat final de tuer la valeur de la donnée, sans même renforcer sa sécurité. Il existe pourtant des méthodes de désensibilisation à l'efficacité prouvée.
Protéger les données à caractère personnel
Avant de détecter et désensibiliser les DCP détenues par l'entreprise, il convient déjà de définir de quoi l'on parle. Une donnée à caractère personnel est une information permettant d'identifier une personne physique, autrement dit un nom, une photo, une adresse postale ou email, un numéro de téléphone ou de sécurité sociale, une empreinte digitale, une adresse IP, etc.
Pour préserver la vie privée des individus, les entreprises doivent respecter plusieurs engagements tels que la transparence des traitements des DCP, la possibilité d'intervenir sur ces données (les modifier ou les supprimer) mais aussi l'intraçabilité, qui garantit que les DCP ne peuvent pas être liées entre domaines, comme entre un compte bancaire et un dossier médical.
Lorsque l'on souhaite traiter des données réelles dans le cadre d'un projet professionnel, comme effectuer des tests d'une application pour valider sa pertinence, il s'agit de rendre ces données anonymes aux personnes qui ne sont pas censées y avoir accès. Prenons comme exemple parlant celui des plateformes de santé sur lesquelles prendre un rendez-vous pour la vaccination anti-Covid. Le contexte du cas d'usage et son caractère sensible sont ainsi à prendre en compte pour maîtriser les risques.
Détecter les données à caractère personnel
La première étape consiste logiquement à cartographier toutes les DCP que l'entreprise stocke dans l'ensemble de ses bases de données, souvent hétérogènes. Procéder de manière non automatique via des métadonnées se révèle rapidement chronophage et ouvre la porte à des approximations, posant la question de la fiabilité de cette méthode sur de grandes masses de données. D'autant plus que la confidentialité n'est pas toujours assurée lorsque l'on traite les données manuellement.
Il s'agit donc de procéder en se basant sur une ontologie qui catégorise les DCP en fonction d'attributs définis. Concrètement, on utilisera deux méthodes d'analyse : une première, dite d'expressions régulières, qui repère automatiquement les formes de valeurs spécifiques comme une adresse email ou un numéro de téléphone, et une seconde, quand la première n'est pas possible, qui détecte les DCP en comparant les données avec des bases de référence, telles que la liste des noms en France ou encore des maladies répertoriées. Autant de connaissances qui viendront enrichir l'ontologie et affiner la détection des DCP.
On obtiendra ainsi une liste d'attributs pour chaque DCP, que l'on classera en trois types : identifiant (permettant d'identifier directement une personne), quasi-identifiant (permettant d'identifier un groupe de personnes) et sensible (non-identifiante mais à protéger).
Désensibilisation par pseudonymisation ou anonymisation
Une fois détectées, les DCP doivent être « transformées » afin qu'elles ne puissent plus servir à identifier une personne et à révéler certains de ses attributs. Il faudra néanmoins veiller à ce que cette désensibilisation ne dégrade pas trop la qualité de la donnée et donc son utilité. Selon les besoins des différents cas d'usage, on pourra faire appel à deux principaux types de méthodologies puis vérifier leur efficacité.
La pseudonymisation consiste à remplacer un identifiant (comme un nom) par un identifiant artificiel ou un pseudonyme. Ce procédé qui masque les identités des personnes avec un système de chiffrement symétrique est totalement réversible pour peu que l'on possède les clés de déchiffrement, stockées séparément et de manière sécurisée. Cette méthode automatique et confidentielle permet de conserver toute la précision et donc la qualité des données pour des cas d'usage d'IA par exemple.
L'anonymisation, de son côté, vise à modifier le contenu ou la structure des données de manière irréversible, de sorte qu'il soit impossible d'identifier une personne. La qualité de la donnée s'en trouvant affectée, il s'agira donc de trouver le bon équilibre entre contraintes juridiques et besoins pratiques en consultant un DPO, l'administrateur de base de données et les métiers. Certains cas d'usage nécessitent toutefois une anonymisation forte par défaut, comme l'utilisation de données publiques en Open Data.
Anonymiser la donnée sans la vider de sa substance
Davantage utilisée, l'anonymisation peut s'effectuer à travers plusieurs méthodes à sélectionner, appliquer, évaluer puis valider, sachant qu'une surveillance continue des évolutions réglementaires et technologiques demeure indispensable pour pouvoir s'adapter périodiquement. Des ajustements méticuleux sont également nécessaires dès que de nouveaux types de données ou d'attributs permettant une identification sont ajoutés à la base.
Parmi les méthodes d'anonymisation les plus courantes, on trouve celle par généralisation qui remplace une valeur précise par une plus générique, comme une adresse postale par une région par exemple, ou un âge par une tranche d'âge, permettant de conserver la corrélation entre les données. On pourra également opérer une suppression locale pour traiter les valeurs rares dans la base de données. La méthode d'agrégation consiste, quant à elle, à regrouper des données pour obtenir une moyenne, certes moins fidèle, mais qui remplit son rôle. Citons aussi la méthode par permutation aléatoire qui mélange les données, peu performante mais intéressante dans un contexte de test.
Quelles que soient les méthodes retenues, des modèles de protection de la vie privée devront être appliqués pour valider l'efficacité de l'anonymisation. Il s'agit entre autres de vérifier dans la base de données qu'un nombre minimum d'individus possèdent une valeur unique de quasi-identifiants et que l'on ne peut pas les relier à des attributs sensibles. Prenons comme exemple une étude d'impact des pesticides dans les exploitations agricoles. Pour protéger l'identité des exploitants, on déterminera qu'il est nécessaire de lister au moins 5 fermes dans chaque département (quasi-identifiant) et veiller à ce qu'il ne soit pas indiqué que chacune d'entre elles utilise le même pesticide (attribut sensible). Des précautions contraignantes mais indispensables pour garantir l'anonymat.
Un chantier plus organisationnel que technique
Comme on peut le constater, désensibiliser des DCP tout en conservant leur utilité n'est pas un exercice facile et à prendre à la légère. Si posséder des compétences techniques est bien sûr un pré-requis, c'est bien l'enjeu des usages recherchés par les métiers et le périmètre d'action qui déterminera la marche à suivre à court et long terme, en concertation avec la DSI, le RSSI et un DPO.
Réussir à rassembler l'ensemble des parties prenantes et à mettre en place une conduite du changement efficace, c'est bien là que réside la principale difficulté de ce type de projet qui concerne peu ou prou toutes les entreprises. Faire appel à un spécialiste de la désensibilisation qui maîtrise la démarche de bout en bout, que ce soit pour les aspects juridiques et organisationnels ou encore la veille technologique, se révèlera donc rapidement judicieux pour obtenir l'approbation de la CNIL.