RGPD : pseudonymisation ?

Pour protéger les données personnelles informatiques auprès d’une entité publique ou privée, le Règlement Général sur la Protection des Données, RGPD ou encore GPDR en anglais (General Data Protection Regulation), a mis en place un système peu connu à savoir la « pseudonymisation ». Mais en quoi cela consiste-t-il ? Pour répondre à cette question, nous allons expliquer le terme en lui-même et ensuite son fonctionnement dans le cadre du RGPD.

La « pseudonymisation, qu’est-ce que c’est» ? :

Pour mieux comprendre un terme ou un concept, il est préférable de voir en premier lieu sa création avant de passer à sa définition.

La Génèse :

Le terme est apparu la première fois dans le cadre schématique ISO, dont le nom complet est ISO/TS 25237:2008, en 2009 pour mieux protéger les données individuelles dans l’informatique de santé. À ce moment-là, la définition simple qui en a été donnée est : « Remplacement d’un nom par un pseudonyme ». Mais en termes plus techniques il est donné comme suit : « La pseudonymisation est un processus par lequel les données perdent leur caractère nominatif ».

La Pseudonymisation et le RGPD :

Quand le RGPD est sorti en 2016, il a repris le concept, mais a changé la définition comme suit : « C’est le traitement de données à caractère personnel de telle façon que celles-ci ne puissent plus être attribuées à une certaine personne concernée précise sans avoir recours à des informations supplémentaires ». Elle permet donc de toujours identifier une personne physique grâce à ses données personnelles, car elle consiste tout simplement à remplacer un caractère par un autre dans le cadre d’un enregistrement et cela sans avoir recours à des informations supplémentaires. Les données ne sont donc pas vraiment anonymes sans être identifiables.

Concrètement, une « donnée pseudonymisée », ce devrait donc rapidement être une donnée qui, seule, ne peut pas être reliée à une personne. Mais ce n’est pas tout. La donnée sera considérée comme pseudonymisée seulement si les informations supplémentaires nécessaires à relier la donnée et la personne qu’elle concerne sont conservées séparément et dans des conditions particulières. En clair, tout dépendra de l’existence ou non d’une sorte de table de concordance et des modalités pour y accéder.

Le fonctionnement de la pseudonymisation :

Comment ça marche ? :

Dans le cadre de la pseudonymisation au niveau du RGPD, plusieurs techniques sont utilisées :

    • Le cryptage à clef secrète

La personne qui se charge du traitement des données et qui est donc le détenteur de la clé peut retrouver la personne concernée en décryptant les données utilisées du fait que les données à caractère personnel sont toujours présentes même si c’est sous une forme cryptée (ou codée). On peut donc toujours retrouver la source des données.

    • La fonction de hachage

Cette technique permet de retrouver un résultat de taille fixe et cela peu importe la grandeur de l’attribut que l’on a entré, que ce soit un simple attribut ou encore un ensemble d’attributs. Cependant, ce type de technique possède un risque bien présent, car cette valeur pourrait être retrouvée si les limites minimum et maximum de la valeur recherchée sont retrouvées. Pour ce faire, une fonction de hachage avec « salage » c’est-à-dire ajouter une valeur aléatoire à l’élément haché que l’on appelle « sel ». Cela réduit considérablement l’hypothèse de retrouver la valeur d’entrée.

    • La fonction de hachage par clef et clef enregistrée

Le « sel » n’étant généralement pas secret, on utilise une clef secrète comme valeur supplémentaire. De ce fait, un « hackeur » par exemple aura plus de mal à retrouver la valeur d’entrée sans connaître au préalable la valeur de la clef que le responsable du traitement de données peut changer à volonté (sinon l’attaquant pourrait tester un grand nombre de possibilités qui pourrait aller à l’infini).

    • Le chiffrement déterministe

On pourrait également appeler cette technique par hachage par clef et suppression de la clef. Cette méthode prend un nombre aléatoire en tant qu’alias pour chaque élément de la base de données et ensuite efface « la table de correspondance ». Pour Charlotte GALICHET (Avocat au Barreau de Paris) : « En supposant qu’un algorithme conforme à l’état de la technique soit appliquée, il sera difficile pour un attaquant, en termes de puissance de calcul requise, de décrypter ou de ré-exécuter la fonction, car cela supposerait d’essayer chaque clé possible, puisque la clé n’est pas disponible »

Ne pas confondre avec « anonymisation » :

Contrairement à la pseudonymisation qui est une technique de sécurisation réversible qui réduit le lien de connexion entre les données qui peuvent identifiées d’une personne physique avec les autres données, l’anonymisation est une technique qui empêche irréversiblement l’identification d’une personne après recensement. Il faut donc différencier également les méthodes utilisées qui sont :

    • La randomisation

Cette méthode consiste à brouiller la relation entre les données recensées et la personne physique elle-même par des méthodes diverses comme la mise en blanc, la troncature, la substitution ou une suppression pure et simple. Prenons l’exemple du rajout de bruit qui est le fait de changer des attributs pour les rendre moins précis. Au lieu d’utiliser le poids d’une personne qui est mesuré par le kilogramme, on utilisera une once par exemple.

    • La généralisation

Cette technique a pour base la modification de la précision, de l’échelle, de la taille, du poids ou encore la dilution de la donnée. Cette méthode doit impérativement être fusionnée à d’autres techniques, car elle ne garantit pas une anonymisation totale. Donc, au lieu d’utiliser le mètre par exemple pour la taille d’une personne, il est préférable d’utiliser le centimètre.

Références :

Articles liés à ce sujet :