p5y - Tài liệu

1. Khung Ủy quyền & Tối thiểu hóa PII (APMF)

Một hệ thống chính sách và ra quyết định có cấu trúc, xác định dữ liệu cá nhân nào được phép truy cập cho một tác vụ cụ thể, bởi một bên yêu cầu cụ thể, dưới các ràng buộc pháp lý và đạo đức cụ thể.

Khung này tạo ra hai đầu ra có thể đọc bằng máy:

Privacy Allowance Profile (PAP) – xác định lớp PII nào có thể xuất hiện (trực tiếp, gián tiếp, nhạy cảm)
Data Access Certificate (DAC) – hiện vật ủy quyền chính thức đi kèm với dữ liệu

Mục đích của khung

Thực thi tối thiểu hóa dữ liệu, quyền truy cập tối thiểu (least privilege) và giới hạn mục đích
Quyết định những lớp PII nào được phép trong một bối cảnh cụ thể
Quyết định quy trình ẩn danh hóa nào là cần thiết hoặc phù hợp
Tích hợp vào quy trình Data Access Governance (DAG) của doanh nghiệp
Cung cấp khả năng truy vết cho kiểm toán quyền riêng tư, tuân thủ, quản trị ML và báo cáo
Hỗ trợ dữ liệu không cấu trúc và khối lượng công việc ML (chat, log, transcript, prompt)

Phạm vi

Áp dụng cho mọi tập dữ liệu không cấu trúc hoặc mọi yêu cầu truy cập
Bao gồm cả công cụ xử lý nội bộ và bên thứ ba (ví dụ: LLM trên cloud)
Bao gồm người yêu cầu là con người hoặc hệ thống tự động
Xem xét quy định, đạo đức, đồng ý (consent) và chính sách tổ chức
Xuất ra chứng nhận, nghĩa vụ và biến đổi PII

Cách hoạt động

Thu thập đầu vào từ metadata của tập dữ liệu, hồ sơ người yêu cầu, bối cảnh sử dụng và môi trường pháp lý
Đối chiếu đầu vào với các quy tắc trong ma trận ủy quyền
Ma trận xác định Privacy Allowance Profile (ví dụ: “Không PII trực tiếp/gián tiếp”)
Hệ thống tạo Data Access Certificate (DAC) kèm yêu cầu, giới hạn và metadata kiểm toán
Các pipeline ẩn danh hóa/biên tập/loại bỏ tự động biến đổi dữ liệu tương ứng
Chỉ cấp truy cập cho “góc nhìn” dữ liệu đã được biến đổi và phê duyệt

Khung này phù hợp với các mô hình DAG, DLP, quản trị ML và tuân thủ quyền riêng tư hiện có trong ngành.

2. APMF: PAPs

P0 — Full Access: Cho phép trực tiếp/gián tiếp/nhạy cảm (yêu cầu kiểm toán/chứng nhận).
P1 — No Direct IDs: Loại bỏ định danh trực tiếp; gián tiếp & nhạy cảm có thể còn.
P2 — No Direct or Indirect IDs: Loại bỏ trực tiếp & gián tiếp; nhạy cảm có thể còn.
P3 — No Direct and sensitive: Loại bỏ trực tiếp và nhạy cảm; gián tiếp có thể còn.
P4 — No sensitive data: Trực tiếp & gián tiếp có thể còn; nhạy cảm bị che/loại bỏ.
P5 — Fully De-Identified / External Processor: Loại bỏ/biên tập toàn bộ PII; chỉ cho phép văn bản tổng hợp hoặc ẩn danh không thể đảo ngược.
P6 — Synthetic / Derived: Chỉ cho phép dữ liệu tổng hợp hoặc dữ liệu dẫn xuất hoàn toàn.

3. APMF: Đặc tả khung (Đầu vào)

Input information

Data source (automated from data metadata)

Thông tin nên đi kèm nguồn dữ liệu.

Data type: chat khách hàng, email, transcript cuộc gọi, hồ sơ y tế, tài liệu tài chính, hồ sơ nhân sự, prompt, log, khác
Data domain: y tế, tài chính, pháp lý, chính phủ, khác (nêu rõ)
Data include minors: có / không / không rõ
Moderation risks: có nội dung bất hợp pháp, gây hại hoặc gây khó chịu (cần cẩn trọng hơn, đặc biệt nếu cho người truy cập như labeler)
PII classes in data: định danh trực tiếp, định danh gián tiếp, thuộc tính nhạy cảm, không có, không rõ
Jurisdiction: vị trí dữ liệu và chủ thể dữ liệu để xác định thẩm quyền
Consent: đã có đồng ý (có/không/một phần – nêu rõ phạm vi). Lưu chuỗi đồng ý, thời điểm, phạm vi (cho training/không cho marketing), và nguồn (UI, cookie, hợp đồng). GDPR/CCPA yêu cầu chứng minh cơ sở pháp lý.
Data policy: chính sách truy cập và sử dụng dữ liệu từ nhà cung cấp.
Data provenance: liên kết tập dữ liệu với nguồn gốc, phiên bản và biến đổi để kiểm toán và tái lập.
Re-Use / Re-Training Flags: cờ cho phép dùng lại cho training/fine-tuning (có/không/có điều kiện).
Access log: theo dõi ai truy cập dữ liệu, khi nào, …
Storage: dữ liệu được lưu ở đâu, có bản sao nào

Requester (automated from requester profile)

Human or automated: con người, agent/tool/program
Party: nội bộ/ bên thứ ba (tên & vùng)/ regulator/ chủ thể dữ liệu
Role: data scientist, annotator, analyst, …
Permissions: training, mức truy cập

Request (requester needs to provide)

Purpose of access: training, testing/evaluation, debugging, production user-serving, analytics, legal/compliance, khác (nêu rõ).
Processing location: on-prem, in-cloud (nhà cung cấp: …), hybrid.
Processing tool: công cụ nội bộ, LLM/công cụ bên thứ ba (có/không. Nếu có: tên nhà cung cấp, trạng thái hợp đồng (DPA/BAA/SCCs))
Sensitivity of decisions: quyết định tự động? (có/không); ảnh hưởng người dùng? (có/không); …
PII classes requested: định danh trực tiếp/ định danh gián tiếp/ thông tin nhạy cảm

Regulations (automated)

Jurisdiction: dựa trên vị trí dữ liệu/người dùng và vị trí xử lý/triển khai – EU, US, UK, khác (nêu rõ).
Regulations: áp dụng dựa trên mọi thông tin sẵn có
Ethical risks: rủi ro thiên kiến dự kiến (thấp/trung bình/cao) và quan ngại

4. APMF: Đặc tả khung (Đầu ra)

Privacy Allowance Profile (PAP)

Đầu ra đọc bằng máy, hướng dẫn hệ thống chuẩn bị dữ liệu theo profile cho phép.

Allowed classes of PII: định danh trực tiếp/ định danh gián tiếp/ thông tin nhạy cảm
Anonymization required: workflow tự động áp dụng redaction hoặc quy tắc xuất trước khi cấp truy cập dữ liệu theo DAC: redaction, obfuscation, …

Data Access Certificate (DAC)

Đi kèm dữ liệu, vừa đọc được bởi người vừa đọc được bởi máy, để phục vụ kiểm toán và phát hiện vi phạm chính sách tự động.

Request summary: tóm tắt về dữ liệu và quyền truy cập được cấp (ai truy cập, trong bao lâu nếu có, được phép/không được phép dùng thế nào, tuân thủ quy định nào, rủi ro đạo đức …).
Re-identification risk score: điểm tự động đo mức hiệu quả của de-identification (hữu ích cho regulator/auditor).
Derivative policies: chính sách cho dữ liệu/mô hình dẫn xuất từ dữ liệu gốc (model inversion và embedding leakage là rủi ro trong ngành).
Retention and deletion policy: thời gian tồn tại của “góc nhìn”/trích xuất được cấp hoặc mô hình dẫn xuất; gắn việc cấp chứng nhận với ngày hết hạn.

Permissions checklist

Nêu rõ quyền hạn cần có và quyền còn thiếu để truy cập dữ liệu theo yêu cầu. Việc này giúp quy trình xin cấp quyền rõ ràng hơn (cần quyền gì và xin ở đâu).

5. Quản lý mã lỗi & phân loại

Tài liệu này định nghĩa phương pháp quản lý và phân loại mã lỗi để cải tiến liên tục chất lượng ẩn danh hóa dữ liệu.

Khung quản lý

Tổng quan

Khung này cung cấp một cách tiếp cận có hệ thống để quản lý và cải thiện chất lượng ẩn danh hóa thông qua việc phát hiện, đo lường và giảm lỗi liên tục. Lấy cảm hứng từ các nguyên tắc Six Sigma[^1], nó giúp tổ chức tiến tới ẩn danh hóa gần như hoàn hảo bằng cách giảm lỗi theo thời gian như một phần của Privacy Information Management System (PIMS).

Kiến trúc quy trình

Pipeline ẩn danh hóa gồm ba lớp:

Source Layer: Văn bản gốc chứa personally identifiable information (PII)
Privacy Layer: Văn bản với PII được thay bằng privacy token (ví dụ [NAME], [EMAIL])
Output Layer: Văn bản cuối sau khi unmask và các biến đổi (ví dụ dịch, tóm tắt)

Hàm phát hiện cốt lõi

FUNCTION DetectErrors( 	inputs: { source: String, actual-mask: PrivacyMask=[ List <{Start , End, Label, Index }>], computed-mask:PrivacyMask=[ List <{Start , End, Label, Index }>]} 	) 	-> ErrorMatrix [ List<{ activation: Code, explanation: String }> ]:

Mục tiêu: Tối thiểu hóa hàm lỗi khi khối lượng và độ phức tạp của yêu cầu tăng lên.

Quy trình quản lý chất lượng:

Inference Stage: Từ source text và taxonomy nhãn, tính privacy mask
Evaluation Stage: So sánh mask tính toán với annotation chuẩn (gold standard)
Post-Processing Stage: Áp dụng thay thế chuỗi và kiểm tra chất lượng output
Analysis Stage: Phân loại lỗi, tính metric, xác định vùng cần cải thiện
Improvement Stage: Cải tiến mô hình, quy tắc và quy trình dựa trên mẫu lỗi

6. Error Taxonomy: Lỗi phân loại token (T)

## Lỗi phân loại token (T)

Mô tả: Lỗi phân loại nhị phân ở mức token, khi từng đơn vị văn bản bị nhận diện sai là có/không có PII. Token ở đây là đơn vị văn bản sau khi chạy tokenizer trên dữ liệu.

Áp dụng: Áp dụng cho mọi tác vụ ẩn danh hóa trong giai đoạn phát hiện ở mức token ban đầu.

Đánh giá:

Mức độ nghiêm trọng: 5/5 — Bỏ sót (undertrigger) gây rò rỉ quyền riêng tư trực tiếp; đánh dấu quá mức (overtrigger) làm giảm tính hữu ích dữ liệu và có thể chặn các trường hợp dùng hợp lệ
Chỉ số: Precision, Recall, F1-score ở mức token; False Positive Rate (FPR), False Negative Rate (FNR)

Code	Tên lỗi	Mô tả	Ví dụ[^2]
T-001	Overtriggered	Token bị đánh dấu là PII khi không nên	S: I like apple pie P: I like `[COMPANY]` pie G: I like apple pie
T-002	Undertriggered	Token bị đánh dấu không phải PII dù có thông tin cá nhân	S: Email to john.doe@email.com P: Email to john.doe@email.com G: Email to `[EMAIL]`

Code

T-001

Tên lỗi

Overtriggered

Mô tả

Token bị đánh dấu là PII khi không nên

Ví dụ[^2]

S: I like apple pie P: I like [COMPANY] pie G: I like apple pie

Code

T-002

Tên lỗi

Undertriggered

Mô tả

Token bị đánh dấu không phải PII dù có thông tin cá nhân

Ví dụ[^2]

S: Email to john.doe@email.com P: Email to john.doe@email.com G: Email to [EMAIL]

7. Error Taxonomy: Lỗi biên entity/span (S)

## Lỗi biên entity/span (S)

Mô tả: Lỗi xác định ranh giới đúng của entity PII. Hệ thống nhận ra có PII nhưng không bắt trọn span hoặc bắt sai phần xung quanh. Entity là một mẩu thông tin có thể góp phần nhận dạng cá nhân hoặc tiết lộ chi tiết nhạy cảm; entity có thể được hiện thực bằng span gồm một hoặc nhiều token.

Áp dụng: Áp dụng cho mọi hệ thống ẩn danh hóa dựa trên entity. Đặc biệt quan trọng với NER và phát hiện ranh giới cho entity nhiều token.

Đánh giá:

Mức độ nghiêm trọng: 4/5 — Ảnh hưởng vừa phải tới cả quyền riêng tư (thiếu gán nhãn) và tính hữu ích (gán nhãn quá mức); có thể lan sang lỗi phân loại nhãn
Chỉ số: Exact Match Accuracy, Partial Match Score, Character-level F1, Boundary IoU (Intersection over Union)

Code	Tên lỗi	Mô tả	Ví dụ
S-001	Overannotated	Span chứa nhiều token hơn mức đúng	S: Dr. Sarah Johnson's research is outstanding P: `[NAME]` research is outstanding G: Dr. `[NAME]’s` research is outstanding
S-002	Underannotated	Span chứa ít token hơn mức đúng	S: Dr. Sarah Johnson's research is outstanding P: Dr. Sarah `[NAME]’s` research is outstanding G: Dr. `[NAME]’s` research is outstanding
S-003	Partially Overlapping	Span dự đoán chồng lấp nhưng ranh giới không khớp	S: Dr. Sarah Johnson's research is outstanding P: Dr. Sarah `[NAME]` is outstanding G: Dr. `[NAME]’s` research is outstanding
S-004	Span Fragmented	Một entity bị tách sai thành nhiều entity	S: I live in New York City P: I live in `[LOCATION]` `[LOCATION]` `[LOCATION]` G: I live in `[LOCATION]`
S-005	Spans Merged	Nhiều entity bị gộp sai thành một span	S: Travel from Paris to London tomorrow P: Travel from `[LOCATION]` tomorrow G: Travel from `[LOCATION]` to `[LOCATION]` tomorrow
S-006	Span Misaligned	Có phát hiện entity nhưng biên hoàn toàn sai	S: I live in New York P: I liv`[LOCATION]`ork G: I live in `[LOCATION]`

Code

S-001

Tên lỗi

Overannotated

Mô tả

Span chứa nhiều token hơn mức đúng

Ví dụ

S: Dr. Sarah Johnson's research is outstanding P: [NAME] research is outstanding G: Dr. [NAME]’s research is outstanding

Code

S-002

Tên lỗi

Underannotated

Mô tả

Span chứa ít token hơn mức đúng

Ví dụ

S: Dr. Sarah Johnson's research is outstanding P: Dr. Sarah [NAME]’s research is outstanding G: Dr. [NAME]’s research is outstanding

Code

S-003

Tên lỗi

Partially Overlapping

Mô tả

Span dự đoán chồng lấp nhưng ranh giới không khớp

Ví dụ

S: Dr. Sarah Johnson's research is outstanding P: Dr. Sarah [NAME] is outstanding G: Dr. [NAME]’s research is outstanding

Code

S-004

Tên lỗi

Span Fragmented

Mô tả

Một entity bị tách sai thành nhiều entity

Ví dụ

S: I live in New York City P: I live in [LOCATION] [LOCATION] [LOCATION] G: I live in [LOCATION]

Code

S-005

Tên lỗi

Spans Merged

Mô tả

Nhiều entity bị gộp sai thành một span

Ví dụ

S: Travel from Paris to London tomorrow P: Travel from [LOCATION] tomorrow G: Travel from [LOCATION] to [LOCATION] tomorrow

Code

S-006

Tên lỗi

Span Misaligned

Mô tả

Có phát hiện entity nhưng biên hoàn toàn sai

Ví dụ

S: I live in New York P: I liv[LOCATION]ork G: I live in [LOCATION]

8. Error Taxonomy: Lỗi lồng nhau của entity (N)

## Lỗi lồng nhau của entity (N)

Mô tả: Lỗi trong việc nhận diện và biểu diễn quan hệ phân cấp khi một entity chứa hoặc bị chứa trong entity khác.

Áp dụng: Chủ yếu áp dụng cho ngữ cảnh dữ liệu có cấu trúc (đường dẫn file, URL, địa chỉ, cấu trúc tổ chức) và các hệ thống hỗ trợ entity lồng nhau. Không áp dụng cho mô hình entity phẳng.

Đánh giá:

Mức độ nghiêm trọng: 3/5 — Có thể làm lộ PII lồng nhau nhưng thường entity bao ngoài vẫn cung cấp bảo vệ đủ; tác động phụ thuộc độ sâu lồng nhau và loại entity
Chỉ số: Nested Entity Recognition Rate, Hierarchy Completeness Score, Parent-Child Match Accuracy

Code	Tên lỗi	Mô tả	Ví dụ
N-001	Missing Nested Entity	Không nhận ra entity con nằm trong entity lớn hơn	S: /home/john_doe/documents/contract.pdf P: `[`/home/john_doe/documents/contract.pdf`]FILEPATH` G: `[`/home`[`/john_doe`]USERNAME`/documents/ contract.pdf`]FILEPATH`
N-002	Missing Larger Entity	Không nhận ra entity bao ngoài	S: /home/john_doe/documents/contract.pdf P: /home`[`/john_doe`]USERNAME`/documents/ contract.pdf G: `[`/home`[`/john_doe`]USERNAME`/documents/ contract.pdf`]FILEPATH`

Code

N-001

Tên lỗi

Missing Nested Entity

Mô tả

Không nhận ra entity con nằm trong entity lớn hơn

Ví dụ

S: /home/john_doe/documents/contract.pdf P: [/home/john_doe/documents/contract.pdf]FILEPATH G: [/home[/john_doe]USERNAME/documents/ contract.pdf]FILEPATH

Code

N-002

Tên lỗi

Missing Larger Entity

Mô tả

Không nhận ra entity bao ngoài

Ví dụ

S: /home/john_doe/documents/contract.pdf P: /home[/john_doe]USERNAME/documents/ contract.pdf G: [/home[/john_doe]USERNAME/documents/ contract.pdf]FILEPATH

9. Error Taxonomy: Lỗi phân loại nhãn (một nhãn) (L)

## Lỗi phân loại nhãn (một nhãn) (L)

Lỗi gán loại PII sai cho một entity. Các lỗi này xảy ra khi span đúng nhưng nhãn/type sai, hoặc mức độ chi tiết (granularity) không phù hợp.

Mô tả: Lỗi gán đúng loại PII cho entity khi chỉ được phép/được yêu cầu một nhãn. Span đúng nhưng bị gán sai loại hoặc mức chi tiết không phù hợp.

Áp dụng: Áp dụng cho mọi hệ thống ẩn danh hóa dựa trên phân loại. Quan trọng khi các loại entity khác nhau cần xử lý khác nhau (ví dụ policy lưu giữ, phương pháp mã hóa).

Đánh giá:

Mức độ nghiêm trọng: 3/5 — Thường rủi ro thấp hơn vì entity vẫn được che, nhưng có thể ảnh hưởng xử lý hạ lưu, tuân thủ policy và tính hữu ích phân tích
Chỉ số: Label Accuracy, Confusion Matrix, Macro/Micro F1 theo lớp nhãn, Granularity Appropriateness Score

Code	Tên lỗi	Mô tả	Ví dụ
L-001	Misclassified	Gán nhãn sai hoàn toàn	S: For support, call 555-1234 P: For support, call `[`PASSWORD`]` G: For support, call `[PHONE]`
L-002	Imprecise	Dùng nhãn thô/fallback thay vì nhãn chi tiết đúng	S: I live in Paris P: I live in `[LOCATION]` G: I live in `[CITY]`
L-003	Too Specific	Dùng nhãn quá chi tiết khi cần nhãn thô/fallback	S: Enter code 3456 P: Enter code `[PASSWORD]` G: Enter code `[NUMERIC_ID]`

Code

L-001

Tên lỗi

Misclassified

Mô tả

Gán nhãn sai hoàn toàn

Ví dụ

S: For support, call 555-1234 P: For support, call [PASSWORD] G: For support, call [PHONE]

Code

L-002

Tên lỗi

Imprecise

Mô tả

Dùng nhãn thô/fallback thay vì nhãn chi tiết đúng

Ví dụ

S: I live in Paris P: I live in [LOCATION] G: I live in [CITY]

Code

L-003

Tên lỗi

Too Specific

Mô tả

Dùng nhãn quá chi tiết khi cần nhãn thô/fallback

Ví dụ

S: Enter code 3456 P: Enter code [PASSWORD] G: Enter code [NUMERIC_ID]

10. Error Taxonomy: Lỗi phân loại nhãn (đa nhãn) (M)

## Lỗi phân loại nhãn (đa nhãn) (M)

Mô tả: Lỗi khi gán và xếp hạng nhiều nhãn PII hợp lệ cho entity thuộc nhiều lớp. Bao gồm thiếu nhãn, xếp hạng độ tin cậy sai hoặc gán nhãn không hợp lệ.

Áp dụng: Chỉ áp dụng cho hệ thống hỗ trợ đa nhãn, thường cho entity mơ hồ (ví dụ “Jordan” là NAME/LOCATION) hoặc entity mang nhiều thông tin (ví dụ số SSN Ý “RSSRRT60R27F205X” chứa cả phần của NAME, DoB, CITY, GENDER). Không áp dụng cho hệ thống chỉ một nhãn.

Đánh giá:

Mức độ nghiêm trọng: 2/5 — Ảnh hưởng quyết định hạ lưu và xử lý theo dữ liệu nhạy cảm, nhưng entity thường vẫn được che dưới ít nhất một nhãn
Chỉ số: xếp hạng: nDCG hoặc LRAP; gán nhãn: Precision/Recall

Code	Tên lỗi	Mô tả	Ví dụ
M-001	Overranked	Nhãn có thể đúng nhưng bị xếp hạng tin cậy quá cao	S: I want to visit Jordan P: I want to visit Jordan`[NAME:0.9, COUNTRY:0.8]` G: I want to visit Jordan`[COUNTRY:0.8, NAME:0.4]`
M-002	Underranked	Nhãn có thể đúng nhưng bị xếp hạng tin cậy quá thấp	S: I want to visit Jordan P: I want to visit Jordan`[NAME:0.4, COUNTRY:0.3]` G: I want to visit Jordan`[COUNTRY:0.8, NAME:0.4]`
M-003	Underlabeled	Thiếu nhãn hợp lệ	S: I want to visit Jordan P: I want to visit Jordan`[COUNTRY:0.8, ]` G: I want to visit Jordan`[COUNTRY:0.8, NAME:0.4]`
M-004	Overlabeled	Gán quá nhiều nhãn; có nhãn không phù hợp ngữ cảnh	S: I want to visit my friend Jordan P: I want to visit my friend Jordan`[NAME:0.9, COUNTRY:0.4]` G: I want to visit my friend Jordan`[NAME:0.9]`

Code

M-001

Tên lỗi

Overranked

Mô tả

Nhãn có thể đúng nhưng bị xếp hạng tin cậy quá cao

Ví dụ

S: I want to visit Jordan P: I want to visit Jordan[NAME:0.9, COUNTRY:0.8] G: I want to visit Jordan[COUNTRY:0.8, NAME:0.4]

Code

M-002

Tên lỗi

Underranked

Mô tả

Nhãn có thể đúng nhưng bị xếp hạng tin cậy quá thấp

Ví dụ

S: I want to visit Jordan P: I want to visit Jordan[NAME:0.4, COUNTRY:0.3] G: I want to visit Jordan[COUNTRY:0.8, NAME:0.4]

Code

M-003

Tên lỗi

Underlabeled

Mô tả

Thiếu nhãn hợp lệ

Ví dụ

S: I want to visit Jordan P: I want to visit Jordan[COUNTRY:0.8, ] G: I want to visit Jordan[COUNTRY:0.8, NAME:0.4]

Code

M-004

Tên lỗi

Overlabeled

Mô tả

Gán quá nhiều nhãn; có nhãn không phù hợp ngữ cảnh

Ví dụ

S: I want to visit my friend Jordan P: I want to visit my friend Jordan[NAME:0.9, COUNTRY:0.4] G: I want to visit my friend Jordan[NAME:0.9]

11. Error Taxonomy: Lỗi privacy token (K)

## Lỗi privacy token (K)

Mô tả: Lỗi về cấu trúc privacy token, liên kết với source text và đồng tham chiếu (coreference) trong tài liệu. Những lỗi này ảnh hưởng tính toàn vẹn token, khả năng truy vết và tính nhất quán danh tính. Chúng xảy ra khi lệch giữa source text và privacy layer hoặc khi danh tính không được nhận diện đúng.

Áp dụng: Áp dụng cho mọi hệ thống ẩn danh hóa dựa token có duy trì mapping giữa token và entity gốc. Quan trọng với ẩn danh hóa đảo ngược và trường hợp entity xuất hiện nhiều lần.

Đánh giá:

Mức độ nghiêm trọng: 4/5 — Cao vì có thể làm hỏng unmask, làm lộ PII do token tạo sai, hoặc không che được các lần nhắc lại entity
Chỉ số: Token-Span Alignment Accuracy, Coreference Resolution F1, Token Format Compliance Rate

Code	Tên lỗi	Mô tả	Ví dụ
K-001	Incorrect token length	Độ dài token không tương ứng span entity thật	P: Contact Dr. Smith`[NAME] Privacy token: [NAME]byte:12-13 Privacy token: [NAME]byte:12-17`
K-002	Incorrect token anchors	Token liên kết sai span hoặc không liên kết span nào	P: Contact Dr. Smith`[NAME] Privacy token: [NAME]byte:4-8 Privacy token: [NAME]byte:12-17`
K-003	Missing Coreference	Không liên kết nhiều tham chiếu về cùng một entity	S: Hannah Smith was born in 1956. Dr. Smith studied in Edinburgh P: `[NAME_1]` was born in 1956. Dr. `[SURNAME_2]` studied in Edinburgh G: `[NAME_1]` was born in 1956. Dr. `[SURNAME_1]` studied in Edinburgh
K-004	Incorrect token label	Token đặt sai tên (label/code)	S: Patient SSN is 123-45-6789 P: Patient SSN is `[SocialNum_001]` G: Patient SSN is `[SSN_1]`
K-005	Token label includes PII	Nhãn token chứa PII	S: Janet Smith’s passport number is DG456789 P:`[NAME_FEMALE_1]`’s passport number is `[US_PASSPORTNO_1]` G:`[NAME_1]`’s passport number is`[PASSPORTNO_1]`

Code

K-001

Tên lỗi

Incorrect token length

Mô tả

Độ dài token không tương ứng span entity thật

Ví dụ

P: Contact Dr. Smith[NAME] Privacy token: [NAME]byte:12-13 Privacy token: [NAME]byte:12-17

Code

K-002

Tên lỗi

Incorrect token anchors

Mô tả

Token liên kết sai span hoặc không liên kết span nào

Ví dụ

P: Contact Dr. Smith[NAME] Privacy token: [NAME]byte:4-8 Privacy token: [NAME]byte:12-17

Code

K-003

Tên lỗi

Missing Coreference

Mô tả

Không liên kết nhiều tham chiếu về cùng một entity

Ví dụ

S: Hannah Smith was born in 1956. Dr. Smith studied in Edinburgh P: [NAME_1] was born in 1956. Dr. [SURNAME_2] studied in Edinburgh G: [NAME_1] was born in 1956. Dr. [SURNAME_1] studied in Edinburgh

Code

K-004

Tên lỗi

Incorrect token label

Mô tả

Token đặt sai tên (label/code)

Ví dụ

S: Patient SSN is 123-45-6789 P: Patient SSN is [SocialNum_001] G: Patient SSN is [SSN_1]

Code

K-005

Tên lỗi

Token label includes PII

Mô tả

Nhãn token chứa PII

Ví dụ

S: Janet Smith’s passport number is DG456789 P:[NAME_FEMALE_1]’s passport number is [US_PASSPORTNO_1] G:[NAME_1]’s passport number is[PASSPORTNO_1]

12. Error Taxonomy: Lỗi văn bản đầu ra (O)

## Lỗi văn bản đầu ra (O)

Mô tả: Lỗi khi unmask và tạo output, khi privacy token bị thay sai, đặt sai vị trí hoặc làm câu không ngữ pháp ở văn bản cuối.

Áp dụng: Chỉ áp dụng cho hệ thống ẩn danh hóa đảo ngược có chức năng unmask và các pipeline có biến đổi văn bản (dịch, tóm tắt, style transfer) sau khi che.

Đánh giá:

Mức độ nghiêm trọng: 3/5 — Trung bình. Không tạo rò rỉ quyền riêng tư nhưng ảnh hưởng mạnh tới khả dụng, khả năng hiểu và niềm tin. O-001 với giá trị entity sai có thể gây nhầm lẫn hoặc sai thông tin
Chỉ số: Unmasking Accuracy, BLEU/ROUGE (độ trôi chảy), Edit Distance, Grammaticality scores

Code	Tên lỗi	Mô tả	Ví dụ
O-001	Privacy mask filled with incorrect entity value	Chèn sai/không chèn giá trị entity khi unmask	S: We met John Doe at the conference P: We met `[NAME]` at the conference O: We met Janet at the conference G: We met John Doe at the conference
O-002	Privacy mask not replaced	Token quyền riêng tư vẫn còn trong output	S: We met John Doe at the conference P: We met `[NAME]` at the conference O: We met `[NAME]` at the conference G: We met John Doe at the conference
O-003	Span incorrectly replaced	Thay giá trị entity ở sai vị trí	S: We met John Doe at the conference P: We met `[NAME]` at the conference O: We met at the `John Doe` conference G: We met John Doe at the conference
O-004	Unmasked entity value ungrammatical	Giá trị entity sau unmask không khớp ngữ cảnh/ngữ pháp (ví dụ sai cách)	S: Helena's book is excellent P: `[NAME]` book is excellent O: Helena Buch ist ausgezeichnet G: Helenas Buch ist ausgezeichnet (German possessive ‘s’)
O-005	Surrounding output text ungrammatical	Unmask gây lỗi ngữ pháp/logic ở phần văn bản xung quanh do mất thông tin quan trọng (giới tính, số ít/nhiều, cách, đồng tham chiếu…)	S: Residency: United States P: Residency: `[COUNTRY]` O: I live in United States G: I live in the United States
O-006	Unmasked entity value not translated	Giá trị entity không được thích nghi với ngôn ngữ đầu ra	S: Janet has recently married P: `[NAME]` has recently `[MARITAL_STATUS]` O: Janet si è married da poco G: Janet si è sposata da poco

Code

O-001

Tên lỗi

Privacy mask filled with incorrect entity value

Mô tả

Chèn sai/không chèn giá trị entity khi unmask

Ví dụ

S: We met John Doe at the conference P: We met [NAME] at the conference O: We met Janet at the conference G: We met John Doe at the conference

Code

O-002

Tên lỗi

Privacy mask not replaced

Mô tả

Token quyền riêng tư vẫn còn trong output

Ví dụ

S: We met John Doe at the conference P: We met [NAME] at the conference O: We met [NAME] at the conference G: We met John Doe at the conference

Code

O-003

Tên lỗi

Span incorrectly replaced

Mô tả

Thay giá trị entity ở sai vị trí

Ví dụ

S: We met John Doe at the conference P: We met [NAME] at the conference O: We met at the John Doe conference G: We met John Doe at the conference

Code

O-004

Tên lỗi

Unmasked entity value ungrammatical

Mô tả

Giá trị entity sau unmask không khớp ngữ cảnh/ngữ pháp (ví dụ sai cách)

Ví dụ

S: Helena's book is excellent P: [NAME] book is excellent O: Helena Buch ist ausgezeichnet G: Helenas Buch ist ausgezeichnet (German possessive ‘s’)

Code

O-005

Tên lỗi

Surrounding output text ungrammatical

Mô tả

Unmask gây lỗi ngữ pháp/logic ở phần văn bản xung quanh do mất thông tin quan trọng (giới tính, số ít/nhiều, cách, đồng tham chiếu…)

Ví dụ

S: Residency: United States P: Residency: [COUNTRY] O: I live in United States G: I live in the United States

Code

O-006

Tên lỗi

Unmasked entity value not translated

Mô tả

Giá trị entity không được thích nghi với ngôn ngữ đầu ra

Ví dụ

S: Janet has recently married P: [NAME] has recently [MARITAL_STATUS] O: Janet si è married da poco G: Janet si è sposata da poco

13. Error Taxonomy: Lỗi cá nhân hóa (P)

## Lỗi cá nhân hóa (P)

Mô tả: Lỗi khi áp dụng tùy chọn ẩn danh hóa theo người dùng/policy, dẫn tới xử lý sai theo yêu cầu cá nhân hoặc chính sách tổ chức.

Áp dụng: Chỉ áp dụng cho hệ thống hỗ trợ quy tắc ẩn danh hóa cá nhân hóa (ví dụ: mức nhạy cảm do người dùng đặt, loại entity tùy biến, yêu cầu theo jurisdiction).

Đánh giá:

Mức độ nghiêm trọng: 4/5 — Cao vì trực tiếp vi phạm kỳ vọng người dùng và tuân thủ policy; có thể dẫn tới vi phạm quy định hoặc mất niềm tin
Chỉ số: Policy Compliance Rate, Preference Application Accuracy, User Satisfaction Score

Code	Tên lỗi	Mô tả	Ví dụ
P-001	Preference Not Applied	Bỏ qua tùy chọn người dùng/policy	S: My IP address is 192.168.1.1 User Preference: Anonymise all IP addresses P: My IP address is 192.168.1.1 G: My IP address is `[IP_ADDRESS]`
P-002	Wrong Preference Applied	Áp sai bộ quy tắc/policy	S: Patient : E12345 Applied Policy: Healthcare (anonymise) P: Employee ID: `[EMPLOYEE_ID]` Correct Policy: Internal HR (retain) G: Employee ID: E12345

Code

P-001

Tên lỗi

Preference Not Applied

Mô tả

Bỏ qua tùy chọn người dùng/policy

Ví dụ

S: My IP address is 192.168.1.1 User Preference: Anonymise all IP addresses P: My IP address is 192.168.1.1 G: My IP address is [IP_ADDRESS]

Code

P-002

Tên lỗi

Wrong Preference Applied

Mô tả

Áp sai bộ quy tắc/policy

Ví dụ

S: Patient : E12345 Applied Policy: Healthcare (anonymise) P: Employee ID: [EMPLOYEE_ID] Correct Policy: Internal HR (retain) G: Employee ID: E12345

14. Error Taxonomy: Lỗi quy trình liên quan đến dự án quyền riêng tư (E)

## Lỗi quy trình liên quan đến dự án quyền riêng tư (E)

Mô tả: Lỗi tổ chức/quy trình phản ánh cách ẩn danh hóa được tích hợp vào hoạt động xử lý dữ liệu rộng hơn.

Áp dụng: Áp dụng ở mức quy trình/workflow thay vì triển khai kỹ thuật. Phù hợp cho kiểm toán, đánh giá tác động quyền riêng tư và đánh giá độ trưởng thành PIMS.

Đánh giá:

Mức độ nghiêm trọng: 5/5 — Cao nhất vì là lỗi hệ thống có thể ảnh hưởng mọi hoạt động xử lý dữ liệu và cho thấy vấn đề văn hóa quyền riêng tư
Chỉ số: điểm PIA, kết quả kiểm toán tuân thủ quy trình, tần suất sự cố, time-to-privacy

Code	Tên lỗi	Mô tả	Ví dụ
E-001	Privacy Ignored	Không xem xét ẩn danh hóa khi cần	Nhóm phát triển chia sẻ DB production có PII để test mà không ẩn danh hóa
E-002	Anonymization as Blocker	Ẩn danh hóa quá chặt khiến công việc hợp lệ bị chặn	Over-anonymisation làm dữ liệu không dùng được cho phân tích bắt buộc, buộc phải lách
E-003	Privacy as Blocker	Thiếu ẩn danh hóa khiến dữ liệu không thể dùng được	Tập dữ liệu không dùng được do lo ngại rủi ro quyền riêng tư.
E-004	Inappropriate Technique Selection	Chọn sai kỹ thuật theo mức nhạy cảm	Tokenisation khi cần ẩn danh/pseudonymization mạnh; reversible masking cho dữ liệu rất nhạy cảm
E-005	Inferability Risk	Thông tin vẫn suy ra được từ ngữ cảnh/metadata/đặc điểm mask	Độ dài token tiết lộ giới tính, suy luận thống kê từ quasi-identifier

Code

E-001

Tên lỗi

Privacy Ignored

Mô tả

Không xem xét ẩn danh hóa khi cần

Ví dụ

Nhóm phát triển chia sẻ DB production có PII để test mà không ẩn danh hóa

Code

E-002

Tên lỗi

Anonymization as Blocker

Mô tả

Ẩn danh hóa quá chặt khiến công việc hợp lệ bị chặn

Ví dụ

Over-anonymisation làm dữ liệu không dùng được cho phân tích bắt buộc, buộc phải lách

Code

E-003

Tên lỗi

Privacy as Blocker

Mô tả

Thiếu ẩn danh hóa khiến dữ liệu không thể dùng được

Ví dụ

Tập dữ liệu không dùng được do lo ngại rủi ro quyền riêng tư.

Code

E-004

Tên lỗi

Inappropriate Technique Selection

Mô tả

Chọn sai kỹ thuật theo mức nhạy cảm

Ví dụ

Tokenisation khi cần ẩn danh/pseudonymization mạnh; reversible masking cho dữ liệu rất nhạy cảm

Code

E-005

Tên lỗi

Inferability Risk

Mô tả

Thông tin vẫn suy ra được từ ngữ cảnh/metadata/đặc điểm mask

Ví dụ

Độ dài token tiết lộ giới tính, suy luận thống kê từ quasi-identifier

[^1]: Six Sigma là phương pháp quản lý chất lượng dựa trên dữ liệu để cải tiến quy trình, hướng tới kết quả gần như hoàn hảo bằng cách giảm lỗi và giảm biến thiên trong quy trình kinh doanh.

[^2]: S: Source text; P: Privacy layer; O: output layer sau unmask/xử lý; G: Gold standard

TÀI LIỆU

1. Khung Ủy quyền & Tối thiểu hóa PII (APMF)

Mục đích của khung

Phạm vi

Cách hoạt động

2. APMF: PAPs

3. APMF: Đặc tả khung (Đầu vào)

Input information

Data source (automated from data metadata)

Requester (automated from requester profile)

Request (requester needs to provide)

Regulations (automated)

4. APMF: Đặc tả khung (Đầu ra)

Privacy Allowance Profile (PAP)

Data Access Certificate (DAC)

Permissions checklist

5. Quản lý mã lỗi & phân loại

Khung quản lý

Tổng quan

Kiến trúc quy trình

Hàm phát hiện cốt lõi

Quy trình quản lý chất lượng:

6. Error Taxonomy: Lỗi phân loại token (T)

7. Error Taxonomy: Lỗi biên entity/span (S)

8. Error Taxonomy: Lỗi lồng nhau của entity (N)

9. Error Taxonomy: Lỗi phân loại nhãn (một nhãn) (L)

10. Error Taxonomy: Lỗi phân loại nhãn (đa nhãn) (M)

11. Error Taxonomy: Lỗi privacy token (K)

12. Error Taxonomy: Lỗi văn bản đầu ra (O)

13. Error Taxonomy: Lỗi cá nhân hóa (P)

14. Error Taxonomy: Lỗi quy trình liên quan đến dự án quyền riêng tư (E)