p5y - Docs

1. Cadre d’autorisation et de minimisation des PII (APMF)

Un système structuré de politiques et de prise de décision qui détermine quelles données personnelles peuvent être accessibles pour une tâche donnée, par un demandeur donné, sous des contraintes réglementaires et éthiques spécifiques.

Ce cadre produit deux sorties lisibles par machine :

Privacy Allowance Profile (PAP) – définit quelles classes de PII peuvent être incluses (directes, indirectes, sensibles)
Data Access Certificate (DAC) – l’artefact d’autorisation formel qui accompagne les données

Objectif du cadre

Faire respecter la minimisation des données, l’accès au moindre privilège et la limitation de la finalité
Décider quelles classes de PII sont autorisées dans un contexte donné
Décider quel processus d’anonymisation est nécessaire ou approprié
S’intégrer aux workflows d’entreprise de Data Access Governance (DAG)
Fournir la traçabilité pour les audits de confidentialité, la conformité, la gouvernance ML et le reporting
Prendre en charge les données non structurées et les charges ML (chats, logs, transcriptions, prompts)

Portée

S’applique à tout jeu de données non structuré ou à toute demande
Couvre les outils de traitement internes et tiers (p. ex. LLMs dans le cloud)
Couvre les demandeurs humains et automatisés
Prend en compte la réglementation, l’éthique, le consentement et la politique de l’organisation
Produit des certifications, des obligations et des transformations de PII

Comment ça fonctionne

Les entrées sont collectées depuis les métadonnées du jeu de données, le profil du demandeur, le contexte d’usage et l’environnement réglementaire
Les entrées sont confrontées aux règles dans la matrice d’autorisation
La matrice détermine le Privacy Allowance Profile (p. ex. « Pas de PII directes/indirectes »)
Le système produit un Data Access Certificate (DAC) avec exigences, restrictions et métadonnées d’audit
Des pipelines automatisés d’anonymisation/redaction/scrubbing transforment les données en conséquence
L’accès n’est accordé qu’à la vue transformée et approuvée des données

Cela s’intègre aux modèles existants de l’industrie (DAG, DLP, gouvernance ML, conformité confidentialité).

2. APMF : PAP

P0 — Full Access: Direct/indirect/sensitive autorisés (audit/certification requis).
P1 — No Direct IDs: Direct supprimées ; indirectes & sensibles peuvent rester.
P2 — No Direct or Indirect IDs: Directes & indirectes supprimées ; sensibles peuvent rester
P3 — No Direct and sensitive: Directes et sensibles supprimées ; indirectes peuvent rester
P4 — No sensitive data: Directes & indirectes peuvent rester ; sensibles masquées ou supprimées
P5 — Fully De-Identified / External Processor: Toutes les PII supprimées/redigées ; seuls des textes agrégés ou anonymisés de manière irréversible sont autorisés.
P6 — Synthetic / Derived: Seules des données synthétiques ou entièrement dérivées sont autorisées.

3. APMF : Spécification du cadre (Entrées)

Input information

Data source (automated from data metadata)

Informations qui doivent accompagner la source de données.

Data type: Chats clients, emails, transcriptions d’appels, dossiers médicaux, documents financiers, dossiers employés, prompts, logs, autre
Data domain: médical, financier, légal, gouvernemental, autre (préciser)
Data include minors: oui / non / inconnu
Moderation risks: présence de contenus illégaux, nuisibles ou potentiellement perturbants (nécessite une attention particulière, surtout si un accès humain est prévu, p. ex. annotateurs)
PII classes in data: identifiants directs, identifiants indirects, attributs sensibles, aucun, inconnu
Jurisdiction: localisation des données et des personnes concernées pour la juridiction
Consent: consentement obtenu (oui/non/partiel – préciser l’usage consenti). Capturer les textes exacts de consentement, timestamps, périmètre (entraînement autorisé, marketing refusé) et source (UI, cookie, contrat). RGPD/CCPA exigent une preuve de base légale.
Data policy: champ décrivant la politique d’accès et d’usage des données du fournisseur.
Data provenance: rattache le dataset aux sources originales, versions et transformations pour audit et reproductibilité.
Re-Use / Re-Training Flags: indicateur explicite si le dataset peut être utilisé pour des entraînements/affinages ultérieurs (oui/non/conditionnel).
Access log: suivi de qui a accédé aux données, quand, …
Storage: où sont stockées les données, copies éventuelles

Requester (automated from requester profile)

Human or automated: humain, agent/outillage/programme
Party: interne / tiers (nom & région) / régulateur / personne concernée
Role: data scientist, annotateur, analyste, …
Permissions: entraînement, niveau d’accès

Request (requester needs to provide)

Purpose of access: entraînement (modèle), test/évaluation, débogage, service en production, analytique, légal/conformité, autre (préciser).
Processing location: on‑prem, dans le cloud (fournisseur : …), hybride.
Processing tool: outil interne, LLM/outillage tiers (oui/non. Si oui : fournisseur, statut contractuel (DPA/BAA/SCCs))
Sensitivity of decisions: décisions automatisées ? (oui/non) ; impactant des utilisateurs ? (oui/non) ; …
PII classes requested: identifiants directs / identifiants indirects / informations sensibles

Regulations (automated)

Jurisdiction: basée sur la localisation des données/utilisateurs et des lieux de traitement/déploiement – UE, US, UK, autre (préciser).
Regulations: applicables, sur la base des informations disponibles
Ethical risks: risque de biais attendu (faible/moyen/élevé) et préoccupations

4. APMF : Spécification du cadre (Sorties)

Privacy Allowance Profile (PAP)

Lisible par machine : indique à la machine comment préparer les données selon le profil autorisé.

Allowed classes of PII: identifiants directs / identifiants indirects / informations sensibles
Anonymization required: workflows automatisés à appliquer (redaction, obfuscation, …) avant d’accorder l’accès dans le cadre du DAC

Data Access Certificate (DAC)

Accompagne les données ; lisible par l’humain et la machine, pour permettre les audits et la détection automatique de violations.

Request summary: détails sur les données et l’accès accordé (qui peut accéder, pour combien de temps, usages autorisés/interdits, réglementations respectées, risques éthiques …).
Re-identification risk score: score automatisé mesurant l’efficacité de la désidentification (utile pour régulateurs et auditeurs).
Derivative policies: politiques pour les sorties données/modèles dérivées. L’inversion de modèle et les fuites via embeddings sont des préoccupations connues.
Retention and deletion policy: durée de conservation de la vue/extrait ou d’un modèle dérivé. Lier l’émission à une date d’expiration.

Permissions checklist

Liste les permissions requises et toute permission manquante pour accéder aux données selon la demande. Cela facilite la demande en clarifiant ce qui est requis et où l’obtenir.

5. Gestion des codes d’erreur et taxonomie

Ce document définit la méthodologie de gestion et la taxonomie des codes d’erreur pour l’amélioration continue des processus d’anonymisation des données.

Cadre de gestion

Vue d’ensemble

Ce cadre fournit une approche systématique pour gérer et améliorer la qualité d’anonymisation des données via la détection, la mesure et la réduction continues des erreurs. Inspiré des principes du Six Sigma[^1], il permet aux organisations d’atteindre une anonymisation quasi parfaite en minimisant les erreurs dans le temps, dans le cadre d’un système de gestion de l’information de confidentialité (PIMS).

Architecture du processus

Le pipeline d’anonymisation comprend trois couches :

Couche source : texte original contenant des informations personnelles identifiables (PII)
Couche confidentialité : texte dont les PII sont remplacées par des jetons de confidentialité (p. ex. [NAME], [EMAIL])
Couche sortie : texte final après démasquage et transformations éventuelles (p. ex. traduction, résumé)

Fonction de détection principale

FUNCTION DetectErrors( 	inputs: { source: String, actual-mask: PrivacyMask=[ List <{Start , End, Label, Index }>], computed-mask:PrivacyMask=[ List <{Start , End, Label, Index }>]} 	) 	-> ErrorMatrix [ List<{ activation: Code, explanation: String }> ]:

Objectif : minimiser la fonction d’erreur à mesure que le volume et la complexité des requêtes augmentent.

Workflow de gestion de la qualité

Étape d’inférence : à partir du texte source et de la taxonomie d’étiquettes, calculer le masque de confidentialité
Étape d’évaluation : comparer le masque calculé aux annotations « gold standard »
Post-traitement : appliquer les remplacements de chaînes et valider la qualité de sortie
Analyse : classifier les erreurs par type, calculer des métriques, identifier des axes d’amélioration
Amélioration : affiner modèles, règles et processus en fonction des motifs d’erreur

6. Error Taxonomy: Erreurs de classification de tokens (T)

## Erreurs de classification de tokens (T)

Description : échecs de classification binaire au niveau du token, lorsque des unités de texte individuelles sont identifiées à tort comme contenant (ou non) des PII. Le terme « token » désigne ici les unités de texte obtenues, par exemple, après passage d’un tokenizer.

Application : s’applique à toutes les tâches d’anonymisation durant la phase initiale de détection au niveau token.

Évaluation :

Sévérité : 5/5 — le sous-déclenchement crée des violations directes de confidentialité ; le sur‑déclenchement réduit l’utilité des données et peut bloquer des usages légitimes
Métriques : précision, rappel, F1 au niveau token ; taux de faux positifs (FPR), taux de faux négatifs (FNR)

Code	Nom de l’erreur	Description	Exemple[^2]
T-001	Sur‑déclenché	Token marqué à tort comme PII alors qu’il ne devrait pas l’être	S: I like apple pie P: I like `[COMPANY]` pie G: I like apple pie
T-002	Sous‑déclenché	Token marqué à tort comme non‑PII alors qu’il contient des informations personnelles	S: Email to john.doe@email.com P: Email to john.doe@email.com G: Email to `[EMAIL]`

Code

T-001

Nom de l’erreur

Sur‑déclenché

Description

Token marqué à tort comme PII alors qu’il ne devrait pas l’être

Exemple[^2]

S: I like apple pie P: I like [COMPANY] pie G: I like apple pie

Code

T-002

Nom de l’erreur

Sous‑déclenché

Description

Token marqué à tort comme non‑PII alors qu’il contient des informations personnelles

Exemple[^2]

S: Email to john.doe@email.com P: Email to john.doe@email.com G: Email to [EMAIL]

7. Error Taxonomy: Erreurs d’étendue d’entité (S)

## Erreurs d’étendue d’entité (S)

Description : erreurs dans la détermination des limites correctes des entités PII. Le système reconnaît qu’une PII existe, mais ne capture pas l’étendue complète ou capture des portions incorrectes du texte environnant. Une entité désigne ici un élément d’information pouvant contribuer à identifier une personne ou révéler des détails sensibles. Les entités peuvent être réalisées par des spans composés d’un ou plusieurs tokens.

Application : s’applique à tous les systèmes d’anonymisation basés sur des entités. Particulièrement pertinent pour la NER et la détection de frontières pour des entités multi‑tokens.

Évaluation :

Sévérité : 4/5 — impact modéré sur la confidentialité (sous‑annotation) et l’utilité (sur‑annotation). Peut entraîner des erreurs de classification d’étiquette
Métriques : exact match accuracy, partial match score, F1 au niveau caractère, Boundary IoU

Code	Nom de l’erreur	Description	Exemple
S-001	Sur‑annoté	Plus de tokens inclus dans le span qu’attendu	S: Dr. Sarah Johnson's research is outstanding P: `[NAME]` research is outstanding G: Dr. `[NAME]’s` research is outstanding
S-002	Sous‑annoté	Moins de tokens inclus dans le span qu’attendu	S: Dr. Sarah Johnson's research is outstanding P: Dr. Sarah `[NAME]’s` research is outstanding G: Dr. `[NAME]’s` research is outstanding
S-003	Chevauchement partiel	Spans qui se chevauchent mais frontières non alignées	S: Dr. Sarah Johnson's research is outstanding P: Dr. Sarah `[NAME]` is outstanding G: Dr. `[NAME]’s` research is outstanding
S-004	Span fragmenté	Une entité unique scindée en plusieurs entités	S: I live in New York City P: I live in `[LOCATION]` `[LOCATION]` `[LOCATION]` G: I live in `[LOCATION]`
S-005	Spans fusionnés	Plusieurs entités distinctes combinées en un seul span	S: Travel from Paris to London tomorrow P: Travel from `[LOCATION]` tomorrow G: Travel from `[LOCATION]` to `[LOCATION]` tomorrow
S-006	Span désaligné	Entité détectée mais frontières totalement incorrectes	S: I live in New York P: I liv`[LOCATION]`ork G: I live in `[LOCATION]`

Code

S-001

Nom de l’erreur

Sur‑annoté

Description

Plus de tokens inclus dans le span qu’attendu

Exemple

S: Dr. Sarah Johnson's research is outstanding P: [NAME] research is outstanding G: Dr. [NAME]’s research is outstanding

Code

S-002

Nom de l’erreur

Sous‑annoté

Description

Moins de tokens inclus dans le span qu’attendu

Exemple

S: Dr. Sarah Johnson's research is outstanding P: Dr. Sarah [NAME]’s research is outstanding G: Dr. [NAME]’s research is outstanding

Code

S-003

Nom de l’erreur

Chevauchement partiel

Description

Spans qui se chevauchent mais frontières non alignées

Exemple

S: Dr. Sarah Johnson's research is outstanding P: Dr. Sarah [NAME] is outstanding G: Dr. [NAME]’s research is outstanding

Code

S-004

Nom de l’erreur

Span fragmenté

Description

Une entité unique scindée en plusieurs entités

Exemple

S: I live in New York City P: I live in [LOCATION] [LOCATION] [LOCATION] G: I live in [LOCATION]

Code

S-005

Nom de l’erreur

Spans fusionnés

Description

Plusieurs entités distinctes combinées en un seul span

Exemple

S: Travel from Paris to London tomorrow P: Travel from [LOCATION] tomorrow G: Travel from [LOCATION] to [LOCATION] tomorrow

Code

S-006

Nom de l’erreur

Span désaligné

Description

Entité détectée mais frontières totalement incorrectes

Exemple

S: I live in New York P: I liv[LOCATION]ork G: I live in [LOCATION]

8. Error Taxonomy: Erreurs d’imbrication d’entités (N)

## Erreurs d’imbrication d’entités (N)

Description : échecs dans la reconnaissance et la représentation des relations hiérarchiques où une entité contient (ou est contenue dans) une autre entité.

Application : s’applique principalement aux contextes de données structurées (chemins de fichiers, URLs, adresses, hiérarchies organisationnelles) et aux systèmes supportant les entités imbriquées. Non applicable aux modèles d’entités « plates ».

Évaluation :

Sévérité : 3/5 — peut exposer des PII imbriquées, mais l’entité englobante fournit souvent une protection suffisante. L’impact varie selon la profondeur d’imbrication et les types d’entités
Métriques : Nested Entity Recognition Rate, Hierarchy Completeness Score, Parent‑Child Match Accuracy

Code	Nom de l’erreur	Description	Exemple
N-001	Entité imbriquée manquante	Entité imbriquée non reconnue dans une entité plus grande	S: /home/john_doe/documents/contract.pdf P: `[`/home/john_doe/documents/contract.pdf`]FILEPATH` G: `[`/home`[`/john_doe`]USERNAME`/documents/ contract.pdf`]FILEPATH`
N-002	Entité englobante manquante	Entité plus grande non reconnue	S: /home/john_doe/documents/contract.pdf P: /home`[`/john_doe`]USERNAME`/documents/ contract.pdf G: `[`/home`[`/john_doe`]USERNAME`/documents/ contract.pdf`]FILEPATH`

Code

N-001

Nom de l’erreur

Entité imbriquée manquante

Description

Entité imbriquée non reconnue dans une entité plus grande

Exemple

S: /home/john_doe/documents/contract.pdf P: [/home/john_doe/documents/contract.pdf]FILEPATH G: [/home[/john_doe]USERNAME/documents/ contract.pdf]FILEPATH

Code

N-002

Nom de l’erreur

Entité englobante manquante

Description

Entité plus grande non reconnue

Exemple

S: /home/john_doe/documents/contract.pdf P: /home[/john_doe]USERNAME/documents/ contract.pdf G: [/home[/john_doe]USERNAME/documents/ contract.pdf]FILEPATH

9. Error Taxonomy: Erreurs de classification d’étiquette (label) (mono‑label) (L)

## Erreurs de classification d’étiquette (label) (mono‑label) (L)

Erreurs d’attribution de la bonne catégorie PII à une entité. Elles surviennent lorsque le span est correctement identifié, mais que le mauvais type/catégorie est assigné ou que le niveau de granularité est inadapté.

Description : erreurs d’attribution de la catégorie PII correcte lorsqu’une seule étiquette doit (ou peut) être appliquée. Le span est correct, mais le type assigné ou la granularité est erronée.

Application : s’applique à tous les systèmes d’anonymisation basés sur la classification. Critique lorsque des types d’entités différents exigent des traitements différents (p. ex. politique de rétention, méthodes de chiffrement).

Évaluation :

Sévérité : 3/5 — risque généralement plus faible car l’entité reste protégée, mais peut affecter le traitement downstream, la conformité et l’utilité analytique
Métriques : exactitude des labels, matrice de confusion, F1 macro/micro par classe, score d’adéquation de granularité

Code	Nom de l’erreur	Description	Exemple
L-001	Mal classé	Label complètement incorrect	S: For support, call 555-1234 P: For support, call `[`PASSWORD`]` G: For support, call `[PHONE]`
L-002	Imprécis	Catégorie grossière/fallback au lieu du label fin	S: I live in Paris P: I live in `[LOCATION]` G: I live in `[CITY]`
L-003	Trop spécifique	Label fin utilisé alors qu’un label grossier est préférable	S: Enter code 3456 P: Enter code `[PASSWORD]` G: Enter code `[NUMERIC_ID]`

Code

L-001

Nom de l’erreur

Mal classé

Description

Label complètement incorrect

Exemple

S: For support, call 555-1234 P: For support, call [PASSWORD] G: For support, call [PHONE]

Code

L-002

Nom de l’erreur

Imprécis

Description

Catégorie grossière/fallback au lieu du label fin

Exemple

S: I live in Paris P: I live in [LOCATION] G: I live in [CITY]

Code

L-003

Nom de l’erreur

Trop spécifique

Description

Label fin utilisé alors qu’un label grossier est préférable

Exemple

S: Enter code 3456 P: Enter code [PASSWORD] G: Enter code [NUMERIC_ID]

10. Error Taxonomy: Erreurs de classification d’étiquette (multi‑label) (M)

## Erreurs de classification d’étiquette (multi‑label) (M)

Description : erreurs d’attribution et de classement de plusieurs catégories PII valides lorsque des entités appartiennent légitimement à plusieurs classes. Échecs possibles : labels manquants, mauvais classement, labels invalides.

Application : s’applique uniquement aux systèmes supportant le multi‑label, typiquement pour des entités ambiguës (p. ex. « Jordan » comme NAME/LOCATION) ou pour des entités portant plusieurs informations (p. ex. « Janet » NAME/(probable)GENDER ou le SSN italien « RSSRRT60R27F205X » contenant aussi des éléments de NAME, DoB, CITY et GENDER). Non applicable aux systèmes strictement mono‑label.

Évaluation :

Sévérité : 2/5 — affecte la décision downstream et le traitement sensible aux données, mais l’entité reste probablement protégée par au moins un label
Métriques : classement : nDCG ou LRAP ; attribution : précision/rappel

Code	Nom de l’erreur	Description	Exemple
M-001	Sur‑classé	Label possible mais classé trop haut	S: I want to visit Jordan P: I want to visit Jordan`[NAME:0.9, COUNTRY:0.8]` G: I want to visit Jordan`[COUNTRY:0.8, NAME:0.4]`
M-002	Sous‑classé	Label possible mais classé trop bas	S: I want to visit Jordan P: I want to visit Jordan`[NAME:0.4, COUNTRY:0.3]` G: I want to visit Jordan`[COUNTRY:0.8, NAME:0.4]`
M-003	Sous‑étiqueté	Trop peu de labels ; labels valides manquants	S: I want to visit Jordan P: I want to visit Jordan`[COUNTRY:0.8, ]` G: I want to visit Jordan`[COUNTRY:0.8, NAME:0.4]`
M-004	Sur‑étiqueté	Trop de labels ; certains non valides	S: I want to visit my friend Jordan P: I want to visit my friend Jordan`[NAME:0.9, COUNTRY:0.4]` G: I want to visit my friend Jordan`[NAME:0.9]`

Code

M-001

Nom de l’erreur

Sur‑classé

Description

Label possible mais classé trop haut

Exemple

S: I want to visit Jordan P: I want to visit Jordan[NAME:0.9, COUNTRY:0.8] G: I want to visit Jordan[COUNTRY:0.8, NAME:0.4]

Code

M-002

Nom de l’erreur

Sous‑classé

Description

Label possible mais classé trop bas

Exemple

S: I want to visit Jordan P: I want to visit Jordan[NAME:0.4, COUNTRY:0.3] G: I want to visit Jordan[COUNTRY:0.8, NAME:0.4]

Code

M-003

Nom de l’erreur

Sous‑étiqueté

Description

Trop peu de labels ; labels valides manquants

Exemple

S: I want to visit Jordan P: I want to visit Jordan[COUNTRY:0.8, ] G: I want to visit Jordan[COUNTRY:0.8, NAME:0.4]

Code

M-004

Nom de l’erreur

Sur‑étiqueté

Description

Trop de labels ; certains non valides

Exemple

S: I want to visit my friend Jordan P: I want to visit my friend Jordan[NAME:0.9, COUNTRY:0.4] G: I want to visit my friend Jordan[NAME:0.9]

11. Error Taxonomy: Erreurs de jeton de confidentialité (K)

## Erreurs de jeton de confidentialité (K)

Description : erreurs dans la structure des jetons de confidentialité, leurs liens au texte source et la coréférence à travers le document. Elles affectent l’intégrité des jetons, la traçabilité et la cohérence d’identité. Elles surviennent en cas de désalignement entre couche source et couche confidentialité, ou lorsque les identités ne sont pas correctement reconnues.

Application : s’applique à tous les systèmes d’anonymisation basés sur des jetons qui maintiennent des correspondances entre jetons et entités originales. Critique pour l’anonymisation réversible et les mentions multiples.

Évaluation :

Sévérité : 4/5 — élevée, car ces erreurs peuvent casser le démasquage, exposer des PII via des jetons mal formés ou ne pas protéger les mentions répétées
Métriques : Token‑Span Alignment Accuracy, Coreference Resolution F1, Token Format Compliance Rate

Code	Nom de l’erreur	Description	Exemple
K-001	Longueur de jeton incorrecte	Longueur du jeton ne correspondant pas au span réel	P: Contact Dr. Smith`[NAME] Privacy token: [NAME]byte:12-13 Privacy token: [NAME]byte:12-17`
K-002	Ancres de jeton incorrectes	Jeton lié à un span incorrect ou à aucun span	P: Contact Dr. Smith`[NAME] Privacy token: [NAME]byte:4-8 Privacy token: [NAME]byte:12-17`
K-003	Coréférence manquante	Échec du lien entre références à la même entité	S: Hannah Smith was born in 1956. Dr. Smith studied in Edinburgh P: `[NAME_1]` was born in 1956. Dr. `[SURNAME_2]` studied in Edinburgh G: `[NAME_1]` was born in 1956. Dr. `[SURNAME_1]` studied in Edinburgh
K-004	Label de jeton incorrect	Jeton mal nommé (label, code)	S: Patient SSN is 123-45-6789 P: Patient SSN is `[SocialNum_001]` G: Patient SSN is `[SSN_1]`
K-005	Label contient des PII	Le label du jeton inclut des infos personnelles	S: Janet Smith’s passport number is DG456789 P:`[NAME_FEMALE_1]`’s passport number is `[US_PASSPORTNO_1]` G:`[NAME_1]`’s passport number is`[PASSPORTNO_1]`

Code

K-001

Nom de l’erreur

Longueur de jeton incorrecte

Description

Longueur du jeton ne correspondant pas au span réel

Exemple

P: Contact Dr. Smith[NAME] Privacy token: [NAME]byte:12-13 Privacy token: [NAME]byte:12-17

Code

K-002

Nom de l’erreur

Ancres de jeton incorrectes

Description

Jeton lié à un span incorrect ou à aucun span

Exemple

P: Contact Dr. Smith[NAME] Privacy token: [NAME]byte:4-8 Privacy token: [NAME]byte:12-17

Code

K-003

Nom de l’erreur

Coréférence manquante

Description

Échec du lien entre références à la même entité

Exemple

S: Hannah Smith was born in 1956. Dr. Smith studied in Edinburgh P: [NAME_1] was born in 1956. Dr. [SURNAME_2] studied in Edinburgh G: [NAME_1] was born in 1956. Dr. [SURNAME_1] studied in Edinburgh

Code

K-004

Nom de l’erreur

Label de jeton incorrect

Description

Jeton mal nommé (label, code)

Exemple

S: Patient SSN is 123-45-6789 P: Patient SSN is [SocialNum_001] G: Patient SSN is [SSN_1]

Code

K-005

Nom de l’erreur

Label contient des PII

Description

Le label du jeton inclut des infos personnelles

Exemple

S: Janet Smith’s passport number is DG456789 P:[NAME_FEMALE_1]’s passport number is [US_PASSPORTNO_1] G:[NAME_1]’s passport number is[PASSPORTNO_1]

12. Error Taxonomy: Erreurs de texte de sortie (O)

## Erreurs de texte de sortie (O)

Description : erreurs lors du démasquage et de la génération de sortie, où des jetons de confidentialité sont remplacés de façon incorrecte, mal positionnés ou rendent le texte final agrammatical.

Application : s’applique uniquement aux systèmes d’anonymisation réversible avec démasquage et aux pipelines incluant une transformation de texte (traduction, résumé, style transfer) après masquage.

Évaluation :

Sévérité : 3/5 — moyenne. Ne crée pas de fuite de confidentialité mais dégrade fortement l’utilité, la compréhension et la confiance. O‑001 avec une mauvaise valeur peut créer de la confusion ou de la désinformation
Métriques : exactitude de démasquage, scores BLEU/ROUGE (fluidité), distance d’édition, scores de grammaticalité

Code	Nom de l’erreur	Description	Exemple
O-001	Masque rempli avec une mauvaise valeur	Valeur incorrecte (ou absente) insérée au démasquage	S: We met John Doe at the conference P: We met `[NAME]` at the conference O: We met Janet at the conference G: We met John Doe at the conference
O-002	Masque non remplacé	Jeton reste dans le texte de sortie	S: We met John Doe at the conference P: We met `[NAME]` at the conference O: We met `[NAME]` at the conference G: We met John Doe at the conference
O-003	Span remplacé au mauvais endroit	Valeur insérée à une position incorrecte	S: We met John Doe at the conference P: We met `[NAME]` at the conference O: We met at the `John Doe` conference G: We met John Doe at the conference
O-004	Valeur démasquée agrammaticale	Valeur non adaptée au contexte (p. ex. mauvais cas)	S: Helena's book is excellent P: `[NAME]` book is excellent O: Helena Buch ist ausgezeichnet G: Helenas Buch ist ausgezeichnet (German possessive ‘s’)
O-005	Texte environnant agrammatical	Erreurs de cohérence/grammaire introduites, souvent car le masquage a supprimé une info nécessaire (genre, nombre, cas, coréférence)	S: Residency: United States P: Residency: `[COUNTRY]` O: I live in United States G: I live in the United States
O-006	Valeur non traduite	Valeur d’entité non adaptée à la langue de sortie	S: Janet has recently married P: `[NAME]` has recently `[MARITAL_STATUS]` O: Janet si è married da poco G: Janet si è sposata da poco

Code

O-001

Nom de l’erreur

Masque rempli avec une mauvaise valeur

Description

Valeur incorrecte (ou absente) insérée au démasquage

Exemple

S: We met John Doe at the conference P: We met [NAME] at the conference O: We met Janet at the conference G: We met John Doe at the conference

Code

O-002

Nom de l’erreur

Masque non remplacé

Description

Jeton reste dans le texte de sortie

Exemple

S: We met John Doe at the conference P: We met [NAME] at the conference O: We met [NAME] at the conference G: We met John Doe at the conference

Code

O-003

Nom de l’erreur

Span remplacé au mauvais endroit

Description

Valeur insérée à une position incorrecte

Exemple

S: We met John Doe at the conference P: We met [NAME] at the conference O: We met at the John Doe conference G: We met John Doe at the conference

Code

O-004

Nom de l’erreur

Valeur démasquée agrammaticale

Description

Valeur non adaptée au contexte (p. ex. mauvais cas)

Exemple

S: Helena's book is excellent P: [NAME] book is excellent O: Helena Buch ist ausgezeichnet G: Helenas Buch ist ausgezeichnet (German possessive ‘s’)

Code

O-005

Nom de l’erreur

Texte environnant agrammatical

Description

Erreurs de cohérence/grammaire introduites, souvent car le masquage a supprimé une info nécessaire (genre, nombre, cas, coréférence)

Exemple

S: Residency: United States P: Residency: [COUNTRY] O: I live in United States G: I live in the United States

Code

O-006

Nom de l’erreur

Valeur non traduite

Description

Valeur d’entité non adaptée à la langue de sortie

Exemple

S: Janet has recently married P: [NAME] has recently [MARITAL_STATUS] O: Janet si è married da poco G: Janet si è sposata da poco

13. Error Taxonomy: Erreurs de personnalisation (P)

## Erreurs de personnalisation (P)

Description : erreurs dans l’application de préférences spécifiques (utilisateur/politique), entraînant un traitement incorrect selon des exigences individuelles ou des politiques organisationnelles.

Application : s’applique uniquement aux systèmes supportant des règles personnalisées (p. ex. niveaux de sensibilité définis, types d’entités custom, exigences de juridiction).

Évaluation :

Sévérité : 4/5 — élevée, car ces erreurs violent directement attentes et conformité. Peut entraîner des violations réglementaires ou une perte de confiance
Métriques : taux de conformité politique, exactitude d’application des préférences, score de satisfaction utilisateur

Code	Nom de l’erreur	Description	Exemple
P-001	Préférence non appliquée	Préférence ignorée	S: My IP address is 192.168.1.1 User Preference: Anonymise all IP addresses P: My IP address is 192.168.1.1 G: My IP address is `[IP_ADDRESS]`
P-002	Mauvaise préférence appliquée	Mauvais jeu de règles/politique	S: Patient : E12345 Applied Policy: Healthcare (anonymise) P: Employee ID: `[EMPLOYEE_ID]` Correct Policy: Internal HR (retain) G: Employee ID: E12345

Code

P-001

Nom de l’erreur

Préférence non appliquée

Description

Préférence ignorée

Exemple

S: My IP address is 192.168.1.1 User Preference: Anonymise all IP addresses P: My IP address is 192.168.1.1 G: My IP address is [IP_ADDRESS]

Code

P-002

Nom de l’erreur

Mauvaise préférence appliquée

Description

Mauvais jeu de règles/politique

Exemple

S: Patient : E12345 Applied Policy: Healthcare (anonymise) P: Employee ID: [EMPLOYEE_ID] Correct Policy: Internal HR (retain) G: Employee ID: E12345

14. Error Taxonomy: Erreurs de processus liées aux projets de confidentialité (E)

## Erreurs de processus liées aux projets de confidentialité (E)

Description : erreurs organisationnelles et de workflow reflétant l’intégration de l’anonymisation dans les activités plus larges de traitement de données.

Application : s’applique au niveau processus/workflow plutôt qu’à l’implémentation technique. Pertinent pour les audits, DPIA/PIA et l’évaluation de maturité PIMS.

Évaluation :

Sévérité : 5/5 — la plus élevée, car ces erreurs sont systémiques, affectent l’ensemble des traitements et révèlent des faiblesses de culture confidentialité
Métriques : scores d’évaluation d’impact, résultats d’audit de conformité process, taux d’incidents, time‑to‑privacy

Code	Nom de l’erreur	Description	Exemple
E-001	Confidentialité ignorée	Anonymisation non considérée alors qu’elle est requise	L’équipe partage une base de prod avec PII pour des tests sans anonymisation
E-002	Anonymisation comme bloqueur	Anonymisation si restrictive qu’elle empêche un travail légitime	Sur‑anonymisation rendant des datasets inutilisables, forçant des contournements
E-003	Confidentialité comme bloqueur	Anonymisation manquante/insuffisante rendant les données inutilisables	Datasets inutilisables en raison de risques de confidentialité
E-004	Technique inadaptée	Mauvaise technique pour le niveau de sensibilité	Tokenisation alors qu’une anonymisation/pseudonymisation complète est requise ; masquage réversible pour des données très sensibles
E-005	Risque d’inférabilité	Info restant inférable via contexte, métadonnées ou caractéristiques du masque	Longueur de token révélant le genre (« male/female »), inférence statistique via quasi‑identifiants

Code

E-001

Nom de l’erreur

Confidentialité ignorée

Description

Anonymisation non considérée alors qu’elle est requise

Exemple

L’équipe partage une base de prod avec PII pour des tests sans anonymisation

Code

E-002

Nom de l’erreur

Anonymisation comme bloqueur

Description

Anonymisation si restrictive qu’elle empêche un travail légitime

Exemple

Sur‑anonymisation rendant des datasets inutilisables, forçant des contournements

Code

E-003

Nom de l’erreur

Confidentialité comme bloqueur

Description

Anonymisation manquante/insuffisante rendant les données inutilisables

Exemple

Datasets inutilisables en raison de risques de confidentialité

Code

E-004

Nom de l’erreur

Technique inadaptée

Description

Mauvaise technique pour le niveau de sensibilité

Exemple

Tokenisation alors qu’une anonymisation/pseudonymisation complète est requise ; masquage réversible pour des données très sensibles

Code

E-005

Nom de l’erreur

Risque d’inférabilité

Description

Info restant inférable via contexte, métadonnées ou caractéristiques du masque

Exemple

Longueur de token révélant le genre (« male/female »), inférence statistique via quasi‑identifiants

[^1]: Six Sigma est une méthodologie de management de la qualité orientée données visant à minimiser les défauts et la variation des processus afin d’atteindre des résultats quasi parfaits.

[^2]: S : texte source ; P : couche confidentialité ; O : couche sortie après démasquage/traitement ; G : gold standard

DOCS

1. Cadre d’autorisation et de minimisation des PII (APMF)

Objectif du cadre

Portée

Comment ça fonctionne

2. APMF : PAP

3. APMF : Spécification du cadre (Entrées)

Input information

Data source (automated from data metadata)

Requester (automated from requester profile)

Request (requester needs to provide)

Regulations (automated)

4. APMF : Spécification du cadre (Sorties)

Privacy Allowance Profile (PAP)

Data Access Certificate (DAC)

Permissions checklist

5. Gestion des codes d’erreur et taxonomie

Cadre de gestion

Vue d’ensemble

Architecture du processus

Fonction de détection principale

Workflow de gestion de la qualité

6. Error Taxonomy: Erreurs de classification de tokens (T)

7. Error Taxonomy: Erreurs d’étendue d’entité (S)

8. Error Taxonomy: Erreurs d’imbrication d’entités (N)

9. Error Taxonomy: Erreurs de classification d’étiquette (label) (mono‑label) (L)

10. Error Taxonomy: Erreurs de classification d’étiquette (multi‑label) (M)

11. Error Taxonomy: Erreurs de jeton de confidentialité (K)

12. Error Taxonomy: Erreurs de texte de sortie (O)

13. Error Taxonomy: Erreurs de personnalisation (P)

14. Error Taxonomy: Erreurs de processus liées aux projets de confidentialité (E)