LE LANGAGE DE PROTECTION
DES DONNÉES PRIVÉES

Sommaire

p5y est un cadre standardisé de confidentialité permettant de traiter en toute sécurité tout texte non structuré contenant des informations personnelles identifiables et sensibles.

Il le fait en traduisant les données vers un langage de confidentialité qui peut ensuite être facilement adapté à différents cas d’usage.

Traduction

Convertit les données personnelles en une couche de langage de confidentialité sûre.

Conformité

Facilite instantanément la conformité au RGPD et à l’HIPAA.

1. Pourquoi avons-nous besoin d’un cadre de langage de confidentialité ?

Les informations personnelles et sensibles sont profondément intégrées au langage, et leur traitement est coûteux en raison des risques et des réglementations.

Pour répondre à ce problème, diverses solutions ont été développées, mais beaucoup sont propriétaires ou inaccessibles. Ces outils d’anonymisation sont souvent limités, à la fois en portée et en exactitude.

Sans standard commun ni langage partagé, il est très difficile de comparer ces solutions et de tenir les administrateurs de données responsables de niveaux élevés de protection de la confidentialité.

Pour que les données restent utilisables, partageables et conformes à des réglementations strictes en matière de confidentialité, il nous faut une approche standardisée, transparente et exacte de la protection des données.

2. Qu’est-ce que p5y ?

p5y est un cadre standardisé de méthodes de confidentialité pour gérer le texte non structuré contenant des informations personnelles identifiables et sensibles. Ces méthodes incluent la gestion, la substitution, la suppression et l’anonymisation des données personnelles.

Ce qui rend p5y unique, c’est qu’il aborde les enjeux de confidentialité au niveau du langage, en réduisant les risques avant qu’ils n’entrent dans des systèmes plus complexes et plus coûteux.

Il s’inspire des cadres i18n (internationalisation) et l10n (localisation). De la même manière qu’ils traduisent du contenu vers différents environnements locaux, p5y « traduit » les données sensibles vers des formats plus sûrs du point de vue de la confidentialité, facilitant la conformité au RGPD, à l’HIPAA, et à d’autres réglementations.

Ce nouveau cadre rationalise la suppression et l’anonymisation des données personnelles tout en préservant l’utilité et l’intégrité des informations originales. En adoptant p5y, les organisations peuvent automatiser et standardiser la gestion des informations sensibles en appliquant une « traduction de confidentialité » analogue à la traduction de contenu pour des marchés mondiaux, maximisant la conformité, optimisant les processus métier et renforçant la confiance des utilisateurs.

Schéma illustrant p5y comme une tâche de traduction

Fig. 1 : Masquage de confidentialité comme tâche de traduction p5y

3. Une approche en 3 étapes de la confidentialité des données

Cette mise en œuvre est similaire à la méthode de mondialisation, qui comprend les étapes suivantes : Internationalisation – préparer un produit à supporter des marchés mondiaux en séparant le contenu spécifique à un pays ou une langue pour l’adapter ; Localisation – adapter le produit à un marché spécifique ; et Assurance qualité.

Fig. 2 : Organigramme de la mise en œuvre en 3 étapes, incluant la motivation organisationnelle.

3.1 Sensibilisation

La première étape de p5y consiste à obtenir des informations structurées à partir d’un texte non structuré. Cette étape analyse les données à la recherche d’informations privées et sensibles et ajoute un balisage à ces entités. Elle permet de tirer des informations quantitatives et qualitatives sur les données privées présentes et d’évaluer les risques et les besoins métier.

À cette étape, nous pouvons produire un rapport de sensibilisation p5y sur les données, incluant : les types de données personnelles et leur distribution, la densité de données personnelles, l’évaluation des risques associée, et la préparation réglementaire.

Diagramme montrant un rapport de sensibilisation

Fig. 3 : p5y Rapport de sensibilisation (type de données personnelles et distribution).

3.2 Protection

La deuxième étape de p5y consiste à contrôler les données personnelles identifiées dans les textes. Cela inclut de décider quoi retirer (p. ex. entités directement identifiantes, attributs liés aux biais) et quelle stratégie d’anonymisation utiliser (p. ex. masquage, pseudonymisation, k-anonymisation).

La stratégie dépend de facteurs tels que l’usage prévu des données, les réglementations applicables et les risques, les préférences, les autorisations et le contexte. En séparant l’identification des données personnelles (Sensibilisation) de l’anonymisation des données (Protection), le cadre prépare les données pour différents cas d’usage sans nécessiter de pipelines d’anonymisation distincts.

Diagramme illustrant différents cas d’usage

Fig. 4 : Exemple de différents cas d’usage d’outils d’anonymisation.

3.3 Assurance qualité

La dernière étape mesure le risque résiduel pour la confidentialité après l’anonymisation, en évaluant à quel point les entités cibles ont été anonymisées et si des risques de désanonymisation existent. Cette étape implique une annotation humaine experte et des modèles pour évaluer ces risques.

Diagramme montrant des risques de désanonymisation

Fig. 5 : Exemple du risque de désanonymisation associé à l’étape d’assurance qualité.

4. Cas d’usage autorisés vs non autorisés

Le cadre p5y vise à faciliter la manipulation et le traitement des données, tout en maintenant des standards élevés de protection de la confidentialité conformément aux exigences réglementaires. Tous les usages qui ne protègent pas la confidentialité des personnes et qui contreviennent aux réglementations sur la confidentialité et l’IA ne sont pas autorisés. Voir ci-dessous un aperçu des usages autorisés et non autorisés.

Cas d’usage autorisés

Cas d’usage non autorisés

Cas d’usage autorisés :

Anonymisation des données pour la recherche et l’analyse : supprimer ou masquer des PII dans des ensembles de données afin de permettre leur utilisation en recherche scientifique ou pour l’entraînement de modèles, tout en préservant la confidentialité.

Cas d’usage non autorisés :

Analyse ciblée des données personnelles : le cadre ne doit pas servir à analyser ou profiler des individus sur la base de leurs informations personnelles, ni à alimenter des systèmes de surveillance, car cela contredirait son objectif principal de protection de la confidentialité.

Cas d’usage autorisés :

Conformité réglementaire : faciliter le respect des réglementations de confidentialité telles que le RGPD, l’HIPAA et la CCPA, en identifiant et en protégeant systématiquement les informations sensibles dans divers formats.

Cas d’usage non autorisés :

Contournement des exigences de consentement : p5y ne doit pas être utilisé pour traiter des données personnelles sans consentement approprié, sous prétexte d’anonymisation, lorsque ce consentement est requis légalement.

Cas d’usage autorisés :

Partage sécurisé des données : permettre l’échange d’informations entre organisations ou départements en supprimant des détails sensibles tout en préservant l’utilité des données.

Cas d’usage non autorisés :

Tentatives de désanonymisation : tout effort visant à inverser le processus d’anonymisation ou à recouper des données anonymisées avec d’autres sources afin de ré-identifier des individus est strictement interdit.

Cas d’usage autorisés :

Publication préservant la confidentialité : préparer des documents ou des ensembles de données pour diffusion publique en s’assurant que tous les identifiants personnels sont correctement masqués ou supprimés.

Cas d’usage non autorisés :

Pratiques discriminatoires : le cadre ne doit pas être utilisé pour faciliter toute forme de discrimination fondée sur des caractéristiques protégées, même si ces caractéristiques sont inférées à partir de données anonymisées.

Cas d’usage autorisés :

Minimisation des données : soutenir le principe de minimisation en aidant les organisations à n’acquérir et ne conserver que les informations non sensibles nécessaires à leurs activités.

Cas d’usage non autorisés :

Reconnaissance des émotions et notation sociale : conformément à l’AI Act de l’UE, le cadre p5y ne doit pas être utilisé pour faciliter ou soutenir des systèmes de reconnaissance des émotions dans les contextes du travail et de l’éducation, ni pour permettre des pratiques de notation sociale. Ces applications sont explicitement interdites en raison de leur potentiel d’atteinte à la confidentialité et aux droits fondamentaux.

6. Alignement avec l’AI Act de l’UE

Les cas d’usage autorisés du cadre p5y sont conçus pour être compatibles avec l’accent mis par l’AI Act de l’UE sur la protection des droits fondamentaux et l’usage éthique des systèmes d’IA. En particulier :

Le cadre soutient les exigences de transparence de l’Acte en fournissant des mécanismes clairs d’anonymisation et de pseudonymisation.
En facilitant des techniques préservant la confidentialité, p5y s’aligne sur l’objectif de minimisation des données et de limitation de la finalité dans les systèmes d’IA.
L’accent mis par le cadre sur une protection standardisée de la confidentialité contribue à l’objectif de l’Acte de créer des systèmes d’IA dignes de confiance qui respectent la confidentialité des utilisateurs.
Le cadre s’aligne sur l’exigence de systèmes d’IA justes et non discriminatoires, en fournissant une méthodologie pour supprimer des attributs sensibles des données, susceptibles d’induire des biais injustes.

7. À quoi cela ressemble-t-il d’un point de vue pratique ?

Dans p5y, nous publions des concepts clés de données, notamment des termes de glossaire, la structure de données du masque de confidentialité, la mécanique des balises d’emplacement, les identités synthétiques, les étiquettes, les ensembles d’étiquettes et les tâches d’apprentissage automatique. Voir le glossaire.

8. Contactez-nous

Si vous avez des questions ou souhaitez en savoir plus sur la manière dont le cadre p5y peut aider votre organisation, n’hésitez pas à nous contacter !

Nous contacter

Politique de confidentialité Politique relative aux cookies

LE LANGAGE DE PROTECTION DES DONNÉES PRIVÉES

Traduction

Conformité

1. Pourquoi avons-nous besoin d’un cadre de langage de confidentialité ?

2. Qu’est-ce que p5y ?

3. Une approche en 3 étapes de la confidentialité des données

3.1 Sensibilisation

3.2 Protection

3.3 Assurance qualité

4. Cas d’usage autorisés vs non autorisés

6. Alignement avec l’AI Act de l’UE

7. À quoi cela ressemble-t-il d’un point de vue pratique ?

8. Contactez-nous

LE LANGAGE DE PROTECTION
DES DONNÉES PRIVÉES