1. Khung Ủy quyền & Tối thiểu hóa PII (APMF)
Một hệ thống chính sách và ra quyết định có cấu trúc, xác định dữ liệu cá nhân nào được phép truy cập cho một tác vụ cụ thể, bởi một bên yêu cầu cụ thể, dưới các ràng buộc pháp lý và đạo đức cụ thể.
Khung này tạo ra hai đầu ra có thể đọc bằng máy:
- Privacy Allowance Profile (PAP) – xác định lớp PII nào có thể xuất hiện (trực tiếp, gián tiếp, nhạy cảm)
- Data Access Certificate (DAC) – hiện vật ủy quyền chính thức đi kèm với dữ liệu
Mục đích của khung
- Thực thi tối thiểu hóa dữ liệu, quyền truy cập tối thiểu (least privilege) và giới hạn mục đích
- Quyết định những lớp PII nào được phép trong một bối cảnh cụ thể
- Quyết định quy trình ẩn danh hóa nào là cần thiết hoặc phù hợp
- Tích hợp vào quy trình Data Access Governance (DAG) của doanh nghiệp
- Cung cấp khả năng truy vết cho kiểm toán quyền riêng tư, tuân thủ, quản trị ML và báo cáo
- Hỗ trợ dữ liệu không cấu trúc và khối lượng công việc ML (chat, log, transcript, prompt)
Phạm vi
- Áp dụng cho mọi tập dữ liệu không cấu trúc hoặc mọi yêu cầu truy cập
- Bao gồm cả công cụ xử lý nội bộ và bên thứ ba (ví dụ: LLM trên cloud)
- Bao gồm người yêu cầu là con người hoặc hệ thống tự động
- Xem xét quy định, đạo đức, đồng ý (consent) và chính sách tổ chức
- Xuất ra chứng nhận, nghĩa vụ và biến đổi PII
Cách hoạt động
- Thu thập đầu vào từ metadata của tập dữ liệu, hồ sơ người yêu cầu, bối cảnh sử dụng và môi trường pháp lý
- Đối chiếu đầu vào với các quy tắc trong ma trận ủy quyền
- Ma trận xác định Privacy Allowance Profile (ví dụ: “Không PII trực tiếp/gián tiếp”)
- Hệ thống tạo Data Access Certificate (DAC) kèm yêu cầu, giới hạn và metadata kiểm toán
- Các pipeline ẩn danh hóa/biên tập/loại bỏ tự động biến đổi dữ liệu tương ứng
- Chỉ cấp truy cập cho “góc nhìn” dữ liệu đã được biến đổi và phê duyệt
Khung này phù hợp với các mô hình DAG, DLP, quản trị ML và tuân thủ quyền riêng tư hiện có trong ngành.
2. APMF: PAPs
- P0 — Full Access: Cho phép trực tiếp/gián tiếp/nhạy cảm (yêu cầu kiểm toán/chứng nhận).
- P1 — No Direct IDs: Loại bỏ định danh trực tiếp; gián tiếp & nhạy cảm có thể còn.
- P2 — No Direct or Indirect IDs: Loại bỏ trực tiếp & gián tiếp; nhạy cảm có thể còn.
- P3 — No Direct and sensitive: Loại bỏ trực tiếp và nhạy cảm; gián tiếp có thể còn.
- P4 — No sensitive data: Trực tiếp & gián tiếp có thể còn; nhạy cảm bị che/loại bỏ.
- P5 — Fully De-Identified / External Processor: Loại bỏ/biên tập toàn bộ PII; chỉ cho phép văn bản tổng hợp hoặc ẩn danh không thể đảo ngược.
- P6 — Synthetic / Derived: Chỉ cho phép dữ liệu tổng hợp hoặc dữ liệu dẫn xuất hoàn toàn.
3. APMF: Đặc tả khung (Đầu vào)
Input information
Data source (automated from data metadata)
Thông tin nên đi kèm nguồn dữ liệu.
- Data type: chat khách hàng, email, transcript cuộc gọi, hồ sơ y tế, tài liệu tài chính, hồ sơ nhân sự, prompt, log, khác
- Data domain: y tế, tài chính, pháp lý, chính phủ, khác (nêu rõ)
- Data include minors: có / không / không rõ
- Moderation risks: có nội dung bất hợp pháp, gây hại hoặc gây khó chịu (cần cẩn trọng hơn, đặc biệt nếu cho người truy cập như labeler)
- PII classes in data: định danh trực tiếp, định danh gián tiếp, thuộc tính nhạy cảm, không có, không rõ
- Jurisdiction: vị trí dữ liệu và chủ thể dữ liệu để xác định thẩm quyền
- Consent: đã có đồng ý (có/không/một phần – nêu rõ phạm vi). Lưu chuỗi đồng ý, thời điểm, phạm vi (cho training/không cho marketing), và nguồn (UI, cookie, hợp đồng). GDPR/CCPA yêu cầu chứng minh cơ sở pháp lý.
- Data policy: chính sách truy cập và sử dụng dữ liệu từ nhà cung cấp.
- Data provenance: liên kết tập dữ liệu với nguồn gốc, phiên bản và biến đổi để kiểm toán và tái lập.
- Re-Use / Re-Training Flags: cờ cho phép dùng lại cho training/fine-tuning (có/không/có điều kiện).
- Access log: theo dõi ai truy cập dữ liệu, khi nào, …
- Storage: dữ liệu được lưu ở đâu, có bản sao nào
Requester (automated from requester profile)
- Human or automated: con người, agent/tool/program
- Party: nội bộ/ bên thứ ba (tên & vùng)/ regulator/ chủ thể dữ liệu
- Role: data scientist, annotator, analyst, …
- Permissions: training, mức truy cập
Request (requester needs to provide)
- Purpose of access: training, testing/evaluation, debugging, production user-serving, analytics, legal/compliance, khác (nêu rõ).
- Processing location: on-prem, in-cloud (nhà cung cấp: …), hybrid.
- Processing tool: công cụ nội bộ, LLM/công cụ bên thứ ba (có/không. Nếu có: tên nhà cung cấp, trạng thái hợp đồng (DPA/BAA/SCCs))
- Sensitivity of decisions: quyết định tự động? (có/không); ảnh hưởng người dùng? (có/không); …
- PII classes requested: định danh trực tiếp/ định danh gián tiếp/ thông tin nhạy cảm
Regulations (automated)
- Jurisdiction: dựa trên vị trí dữ liệu/người dùng và vị trí xử lý/triển khai – EU, US, UK, khác (nêu rõ).
- Regulations: áp dụng dựa trên mọi thông tin sẵn có
- Ethical risks: rủi ro thiên kiến dự kiến (thấp/trung bình/cao) và quan ngại
4. APMF: Đặc tả khung (Đầu ra)
Privacy Allowance Profile (PAP)
Đầu ra đọc bằng máy, hướng dẫn hệ thống chuẩn bị dữ liệu theo profile cho phép.
- Allowed classes of PII: định danh trực tiếp/ định danh gián tiếp/ thông tin nhạy cảm
- Anonymization required: workflow tự động áp dụng redaction hoặc quy tắc xuất trước khi cấp truy cập dữ liệu theo DAC: redaction, obfuscation, …
Data Access Certificate (DAC)
Đi kèm dữ liệu, vừa đọc được bởi người vừa đọc được bởi máy, để phục vụ kiểm toán và phát hiện vi phạm chính sách tự động.
- Request summary: tóm tắt về dữ liệu và quyền truy cập được cấp (ai truy cập, trong bao lâu nếu có, được phép/không được phép dùng thế nào, tuân thủ quy định nào, rủi ro đạo đức …).
- Re-identification risk score: điểm tự động đo mức hiệu quả của de-identification (hữu ích cho regulator/auditor).
- Derivative policies: chính sách cho dữ liệu/mô hình dẫn xuất từ dữ liệu gốc (model inversion và embedding leakage là rủi ro trong ngành).
- Retention and deletion policy: thời gian tồn tại của “góc nhìn”/trích xuất được cấp hoặc mô hình dẫn xuất; gắn việc cấp chứng nhận với ngày hết hạn.
Permissions checklist
Nêu rõ quyền hạn cần có và quyền còn thiếu để truy cập dữ liệu theo yêu cầu. Việc này giúp quy trình xin cấp quyền rõ ràng hơn (cần quyền gì và xin ở đâu).
5. Quản lý mã lỗi & phân loại
Tài liệu này định nghĩa phương pháp quản lý và phân loại mã lỗi để cải tiến liên tục chất lượng ẩn danh hóa dữ liệu.
Khung quản lý
Tổng quan
Khung này cung cấp một cách tiếp cận có hệ thống để quản lý và cải thiện chất lượng ẩn danh hóa thông qua việc phát hiện, đo lường và giảm lỗi liên tục. Lấy cảm hứng từ các nguyên tắc Six Sigma[^1], nó giúp tổ chức tiến tới ẩn danh hóa gần như hoàn hảo bằng cách giảm lỗi theo thời gian như một phần của Privacy Information Management System (PIMS).
Kiến trúc quy trình
Pipeline ẩn danh hóa gồm ba lớp:
- Source Layer: Văn bản gốc chứa personally identifiable information (PII)
- Privacy Layer: Văn bản với PII được thay bằng privacy token (ví dụ [NAME], [EMAIL])
- Output Layer: Văn bản cuối sau khi unmask và các biến đổi (ví dụ dịch, tóm tắt)
Hàm phát hiện cốt lõi
FUNCTION DetectErrors( inputs: { source: String, actual-mask: PrivacyMask=[ List <{Start , End, Label, Index }>], computed-mask:PrivacyMask=[ List <{Start , End, Label, Index }>]} ) -> ErrorMatrix [ List<{ activation: Code, explanation: String }> ]:Mục tiêu: Tối thiểu hóa hàm lỗi khi khối lượng và độ phức tạp của yêu cầu tăng lên.
Quy trình quản lý chất lượng:
- Inference Stage: Từ source text và taxonomy nhãn, tính privacy mask
- Evaluation Stage: So sánh mask tính toán với annotation chuẩn (gold standard)
- Post-Processing Stage: Áp dụng thay thế chuỗi và kiểm tra chất lượng output
- Analysis Stage: Phân loại lỗi, tính metric, xác định vùng cần cải thiện
- Improvement Stage: Cải tiến mô hình, quy tắc và quy trình dựa trên mẫu lỗi
6. Error Taxonomy: Lỗi phân loại token (T)
- ## Lỗi phân loại token (T)
Mô tả: Lỗi phân loại nhị phân ở mức token, khi từng đơn vị văn bản bị nhận diện sai là có/không có PII. Token ở đây là đơn vị văn bản sau khi chạy tokenizer trên dữ liệu.
Áp dụng: Áp dụng cho mọi tác vụ ẩn danh hóa trong giai đoạn phát hiện ở mức token ban đầu.
Đánh giá:
- Mức độ nghiêm trọng: 5/5 — Bỏ sót (undertrigger) gây rò rỉ quyền riêng tư trực tiếp; đánh dấu quá mức (overtrigger) làm giảm tính hữu ích dữ liệu và có thể chặn các trường hợp dùng hợp lệ
- Chỉ số: Precision, Recall, F1-score ở mức token; False Positive Rate (FPR), False Negative Rate (FNR)
| Code | Tên lỗi | Mô tả | Ví dụ[^2] | |
|---|---|---|---|---|
| T-001 | Overtriggered | Token bị đánh dấu là PII khi không nên | S: I like apple pie P: I like [COMPANY] pie G: I like apple pie | |
| T-002 | Undertriggered | Token bị đánh dấu không phải PII dù có thông tin cá nhân | S: Email to john.doe@email.com P: Email to john.doe@email.com G: Email to [EMAIL] |
[COMPANY] pie G: I like apple pie[EMAIL]7. Error Taxonomy: Lỗi biên entity/span (S)
- ## Lỗi biên entity/span (S)
Mô tả: Lỗi xác định ranh giới đúng của entity PII. Hệ thống nhận ra có PII nhưng không bắt trọn span hoặc bắt sai phần xung quanh. Entity là một mẩu thông tin có thể góp phần nhận dạng cá nhân hoặc tiết lộ chi tiết nhạy cảm; entity có thể được hiện thực bằng span gồm một hoặc nhiều token.
Áp dụng: Áp dụng cho mọi hệ thống ẩn danh hóa dựa trên entity. Đặc biệt quan trọng với NER và phát hiện ranh giới cho entity nhiều token.
Đánh giá:
- Mức độ nghiêm trọng: 4/5 — Ảnh hưởng vừa phải tới cả quyền riêng tư (thiếu gán nhãn) và tính hữu ích (gán nhãn quá mức); có thể lan sang lỗi phân loại nhãn
- Chỉ số: Exact Match Accuracy, Partial Match Score, Character-level F1, Boundary IoU (Intersection over Union)
| Code | Tên lỗi | Mô tả | Ví dụ |
|---|---|---|---|
| S-001 | Overannotated | Span chứa nhiều token hơn mức đúng | S: Dr. Sarah Johnson's research is outstanding P: [NAME] research is outstanding G: Dr. [NAME]’s research is outstanding |
| S-002 | Underannotated | Span chứa ít token hơn mức đúng | S: Dr. Sarah Johnson's research is outstanding P: Dr. Sarah [NAME]’s research is outstanding G: Dr. [NAME]’s research is outstanding |
| S-003 | Partially Overlapping | Span dự đoán chồng lấp nhưng ranh giới không khớp | S: Dr. Sarah Johnson's research is outstanding P: Dr. Sarah [NAME] is outstanding G: Dr. [NAME]’s research is outstanding |
| S-004 | Span Fragmented | Một entity bị tách sai thành nhiều entity | S: I live in New York City P: I live in [LOCATION] [LOCATION] [LOCATION] G: I live in [LOCATION] |
| S-005 | Spans Merged | Nhiều entity bị gộp sai thành một span | S: Travel from Paris to London tomorrow P: Travel from [LOCATION] tomorrow G: Travel from [LOCATION] to [LOCATION] tomorrow |
| S-006 | Span Misaligned | Có phát hiện entity nhưng biên hoàn toàn sai | S: I live in New York P: I liv[LOCATION]ork G: I live in [LOCATION] |
[NAME] research is outstanding G: Dr. [NAME]’s research is outstanding[NAME]’s research is outstanding G: Dr. [NAME]’s research is outstanding[NAME] is outstanding G: Dr. [NAME]’s research is outstanding[LOCATION] [LOCATION] [LOCATION] G: I live in [LOCATION][LOCATION] tomorrow G: Travel from [LOCATION] to [LOCATION] tomorrow[LOCATION]ork G: I live in [LOCATION]8. Error Taxonomy: Lỗi lồng nhau của entity (N)
- ## Lỗi lồng nhau của entity (N)
Mô tả: Lỗi trong việc nhận diện và biểu diễn quan hệ phân cấp khi một entity chứa hoặc bị chứa trong entity khác.
Áp dụng: Chủ yếu áp dụng cho ngữ cảnh dữ liệu có cấu trúc (đường dẫn file, URL, địa chỉ, cấu trúc tổ chức) và các hệ thống hỗ trợ entity lồng nhau. Không áp dụng cho mô hình entity phẳng.
Đánh giá:
- Mức độ nghiêm trọng: 3/5 — Có thể làm lộ PII lồng nhau nhưng thường entity bao ngoài vẫn cung cấp bảo vệ đủ; tác động phụ thuộc độ sâu lồng nhau và loại entity
- Chỉ số: Nested Entity Recognition Rate, Hierarchy Completeness Score, Parent-Child Match Accuracy
| Code | Tên lỗi | Mô tả | Ví dụ |
|---|---|---|---|
| N-001 | Missing Nested Entity | Không nhận ra entity con nằm trong entity lớn hơn | S: /home/john_doe/documents/contract.pdf P: [/home/john_doe/documents/contract.pdf]FILEPATH G: [/home[/john_doe]USERNAME/documents/ contract.pdf]FILEPATH |
| N-002 | Missing Larger Entity | Không nhận ra entity bao ngoài | S: /home/john_doe/documents/contract.pdf P: /home[/john_doe]USERNAME/documents/ contract.pdf G: [/home[/john_doe]USERNAME/documents/ contract.pdf]FILEPATH |
[/home/john_doe/documents/contract.pdf]FILEPATH G: [/home[/john_doe]USERNAME/documents/ contract.pdf]FILEPATH[/john_doe]USERNAME/documents/ contract.pdf G: [/home[/john_doe]USERNAME/documents/ contract.pdf]FILEPATH9. Error Taxonomy: Lỗi phân loại nhãn (một nhãn) (L)
- ## Lỗi phân loại nhãn (một nhãn) (L)
Lỗi gán loại PII sai cho một entity. Các lỗi này xảy ra khi span đúng nhưng nhãn/type sai, hoặc mức độ chi tiết (granularity) không phù hợp.
Mô tả: Lỗi gán đúng loại PII cho entity khi chỉ được phép/được yêu cầu một nhãn. Span đúng nhưng bị gán sai loại hoặc mức chi tiết không phù hợp.
Áp dụng: Áp dụng cho mọi hệ thống ẩn danh hóa dựa trên phân loại. Quan trọng khi các loại entity khác nhau cần xử lý khác nhau (ví dụ policy lưu giữ, phương pháp mã hóa).
Đánh giá:
- Mức độ nghiêm trọng: 3/5 — Thường rủi ro thấp hơn vì entity vẫn được che, nhưng có thể ảnh hưởng xử lý hạ lưu, tuân thủ policy và tính hữu ích phân tích
- Chỉ số: Label Accuracy, Confusion Matrix, Macro/Micro F1 theo lớp nhãn, Granularity Appropriateness Score
| Code | Tên lỗi | Mô tả | Ví dụ |
|---|---|---|---|
| L-001 | Misclassified | Gán nhãn sai hoàn toàn | S: For support, call 555-1234 P: For support, call [PASSWORD] G: For support, call [PHONE] |
| L-002 | Imprecise | Dùng nhãn thô/fallback thay vì nhãn chi tiết đúng | S: I live in Paris P: I live in [LOCATION] G: I live in [CITY] |
| L-003 | Too Specific | Dùng nhãn quá chi tiết khi cần nhãn thô/fallback | S: Enter code 3456 P: Enter code [PASSWORD] G: Enter code [NUMERIC_ID] |
[PASSWORD] G: For support, call [PHONE][LOCATION] G: I live in [CITY][PASSWORD] G: Enter code [NUMERIC_ID]10. Error Taxonomy: Lỗi phân loại nhãn (đa nhãn) (M)
- ## Lỗi phân loại nhãn (đa nhãn) (M)
Mô tả: Lỗi khi gán và xếp hạng nhiều nhãn PII hợp lệ cho entity thuộc nhiều lớp. Bao gồm thiếu nhãn, xếp hạng độ tin cậy sai hoặc gán nhãn không hợp lệ.
Áp dụng: Chỉ áp dụng cho hệ thống hỗ trợ đa nhãn, thường cho entity mơ hồ (ví dụ “Jordan” là NAME/LOCATION) hoặc entity mang nhiều thông tin (ví dụ số SSN Ý “RSSRRT60R27F205X” chứa cả phần của NAME, DoB, CITY, GENDER). Không áp dụng cho hệ thống chỉ một nhãn.
Đánh giá:
- Mức độ nghiêm trọng: 2/5 — Ảnh hưởng quyết định hạ lưu và xử lý theo dữ liệu nhạy cảm, nhưng entity thường vẫn được che dưới ít nhất một nhãn
- Chỉ số: xếp hạng: nDCG hoặc LRAP; gán nhãn: Precision/Recall
| Code | Tên lỗi | Mô tả | Ví dụ |
|---|---|---|---|
| M-001 | Overranked | Nhãn có thể đúng nhưng bị xếp hạng tin cậy quá cao | S: I want to visit Jordan P: I want to visit Jordan[NAME:0.9, COUNTRY:0.8] G: I want to visit Jordan[COUNTRY:0.8, NAME:0.4] |
| M-002 | Underranked | Nhãn có thể đúng nhưng bị xếp hạng tin cậy quá thấp | S: I want to visit Jordan P: I want to visit Jordan[NAME:0.4, COUNTRY:0.3] G: I want to visit Jordan[COUNTRY:0.8, NAME:0.4] |
| M-003 | Underlabeled | Thiếu nhãn hợp lệ | S: I want to visit Jordan P: I want to visit Jordan[COUNTRY:0.8, ] G: I want to visit Jordan[COUNTRY:0.8, NAME:0.4] |
| M-004 | Overlabeled | Gán quá nhiều nhãn; có nhãn không phù hợp ngữ cảnh | S: I want to visit my friend Jordan P: I want to visit my friend Jordan[NAME:0.9, COUNTRY:0.4] G: I want to visit my friend Jordan[NAME:0.9] |
[NAME:0.9, COUNTRY:0.8] G: I want to visit Jordan[COUNTRY:0.8, NAME:0.4][NAME:0.4, COUNTRY:0.3] G: I want to visit Jordan[COUNTRY:0.8, NAME:0.4][COUNTRY:0.8, ] G: I want to visit Jordan[COUNTRY:0.8, NAME:0.4][NAME:0.9, COUNTRY:0.4] G: I want to visit my friend Jordan[NAME:0.9]11. Error Taxonomy: Lỗi privacy token (K)
- ## Lỗi privacy token (K)
Mô tả: Lỗi về cấu trúc privacy token, liên kết với source text và đồng tham chiếu (coreference) trong tài liệu. Những lỗi này ảnh hưởng tính toàn vẹn token, khả năng truy vết và tính nhất quán danh tính. Chúng xảy ra khi lệch giữa source text và privacy layer hoặc khi danh tính không được nhận diện đúng.
Áp dụng: Áp dụng cho mọi hệ thống ẩn danh hóa dựa token có duy trì mapping giữa token và entity gốc. Quan trọng với ẩn danh hóa đảo ngược và trường hợp entity xuất hiện nhiều lần.
Đánh giá:
- Mức độ nghiêm trọng: 4/5 — Cao vì có thể làm hỏng unmask, làm lộ PII do token tạo sai, hoặc không che được các lần nhắc lại entity
- Chỉ số: Token-Span Alignment Accuracy, Coreference Resolution F1, Token Format Compliance Rate
| Code | Tên lỗi | Mô tả | Ví dụ |
|---|---|---|---|
| K-001 | Incorrect token length | Độ dài token không tương ứng span entity thật | P: Contact Dr. Smith[NAME] Privacy token: [NAME]byte:12-13 Privacy token: [NAME]byte:12-17 |
| K-002 | Incorrect token anchors | Token liên kết sai span hoặc không liên kết span nào | P: Contact Dr. Smith[NAME] Privacy token: [NAME]byte:4-8 Privacy token: [NAME]byte:12-17 |
| K-003 | Missing Coreference | Không liên kết nhiều tham chiếu về cùng một entity | S: Hannah Smith was born in 1956. Dr. Smith studied in Edinburgh P: [NAME_1] was born in 1956. Dr. [SURNAME_2] studied in Edinburgh G: [NAME_1] was born in 1956. Dr. [SURNAME_1] studied in Edinburgh |
| K-004 | Incorrect token label | Token đặt sai tên (label/code) | S: Patient SSN is 123-45-6789 P: Patient SSN is [SocialNum_001] G: Patient SSN is [SSN_1] |
| K-005 | Token label includes PII | Nhãn token chứa PII | S: Janet Smith’s passport number is DG456789 P:[NAME_FEMALE_1]’s passport number is [US_PASSPORTNO_1] G:[NAME_1]’s passport number is[PASSPORTNO_1] |
[NAME] Privacy token: [NAME]byte:12-13 Privacy token: [NAME]byte:12-17[NAME] Privacy token: [NAME]byte:4-8 Privacy token: [NAME]byte:12-17[NAME_1] was born in 1956. Dr. [SURNAME_2] studied in Edinburgh G: [NAME_1] was born in 1956. Dr. [SURNAME_1] studied in Edinburgh[SocialNum_001] G: Patient SSN is [SSN_1][NAME_FEMALE_1]’s passport number is [US_PASSPORTNO_1] G:[NAME_1]’s passport number is[PASSPORTNO_1]12. Error Taxonomy: Lỗi văn bản đầu ra (O)
- ## Lỗi văn bản đầu ra (O)
Mô tả: Lỗi khi unmask và tạo output, khi privacy token bị thay sai, đặt sai vị trí hoặc làm câu không ngữ pháp ở văn bản cuối.
Áp dụng: Chỉ áp dụng cho hệ thống ẩn danh hóa đảo ngược có chức năng unmask và các pipeline có biến đổi văn bản (dịch, tóm tắt, style transfer) sau khi che.
Đánh giá:
- Mức độ nghiêm trọng: 3/5 — Trung bình. Không tạo rò rỉ quyền riêng tư nhưng ảnh hưởng mạnh tới khả dụng, khả năng hiểu và niềm tin. O-001 với giá trị entity sai có thể gây nhầm lẫn hoặc sai thông tin
- Chỉ số: Unmasking Accuracy, BLEU/ROUGE (độ trôi chảy), Edit Distance, Grammaticality scores
| Code | Tên lỗi | Mô tả | Ví dụ |
|---|---|---|---|
| O-001 | Privacy mask filled with incorrect entity value | Chèn sai/không chèn giá trị entity khi unmask | S: We met John Doe at the conference P: We met [NAME] at the conference O: We met Janet at the conference G: We met John Doe at the conference |
| O-002 | Privacy mask not replaced | Token quyền riêng tư vẫn còn trong output | S: We met John Doe at the conference P: We met [NAME] at the conference O: We met [NAME] at the conference G: We met John Doe at the conference |
| O-003 | Span incorrectly replaced | Thay giá trị entity ở sai vị trí | S: We met John Doe at the conference P: We met [NAME] at the conference O: We met at the John Doe conference G: We met John Doe at the conference |
| O-004 | Unmasked entity value ungrammatical | Giá trị entity sau unmask không khớp ngữ cảnh/ngữ pháp (ví dụ sai cách) | S: Helena's book is excellent P: [NAME] book is excellent O: Helena Buch ist ausgezeichnet G: Helenas Buch ist ausgezeichnet (German possessive ‘s’) |
| O-005 | Surrounding output text ungrammatical | Unmask gây lỗi ngữ pháp/logic ở phần văn bản xung quanh do mất thông tin quan trọng (giới tính, số ít/nhiều, cách, đồng tham chiếu…) | S: Residency: United States P: Residency: [COUNTRY] O: I live in United States G: I live in the United States |
| O-006 | Unmasked entity value not translated | Giá trị entity không được thích nghi với ngôn ngữ đầu ra | S: Janet has recently married P: [NAME] has recently [MARITAL_STATUS] O: Janet si è married da poco G: Janet si è sposata da poco |
[NAME] at the conference O: We met Janet at the conference G: We met John Doe at the conference[NAME] at the conference O: We met [NAME] at the conference G: We met John Doe at the conference[NAME] at the conference O: We met at the John Doe conference G: We met John Doe at the conference[NAME] book is excellent O: Helena Buch ist ausgezeichnet G: Helenas Buch ist ausgezeichnet (German possessive ‘s’)[COUNTRY] O: I live in United States G: I live in the United States[NAME] has recently [MARITAL_STATUS] O: Janet si è married da poco G: Janet si è sposata da poco13. Error Taxonomy: Lỗi cá nhân hóa (P)
- ## Lỗi cá nhân hóa (P)
Mô tả: Lỗi khi áp dụng tùy chọn ẩn danh hóa theo người dùng/policy, dẫn tới xử lý sai theo yêu cầu cá nhân hoặc chính sách tổ chức.
Áp dụng: Chỉ áp dụng cho hệ thống hỗ trợ quy tắc ẩn danh hóa cá nhân hóa (ví dụ: mức nhạy cảm do người dùng đặt, loại entity tùy biến, yêu cầu theo jurisdiction).
Đánh giá:
- Mức độ nghiêm trọng: 4/5 — Cao vì trực tiếp vi phạm kỳ vọng người dùng và tuân thủ policy; có thể dẫn tới vi phạm quy định hoặc mất niềm tin
- Chỉ số: Policy Compliance Rate, Preference Application Accuracy, User Satisfaction Score
| Code | Tên lỗi | Mô tả | Ví dụ |
|---|---|---|---|
| P-001 | Preference Not Applied | Bỏ qua tùy chọn người dùng/policy | S: My IP address is 192.168.1.1 User Preference: Anonymise all IP addresses P: My IP address is 192.168.1.1 G: My IP address is [IP_ADDRESS] |
| P-002 | Wrong Preference Applied | Áp sai bộ quy tắc/policy | S: Patient : E12345 Applied Policy: Healthcare (anonymise) P: Employee ID: [EMPLOYEE_ID] Correct Policy: Internal HR (retain) G: Employee ID: E12345 |
[IP_ADDRESS][EMPLOYEE_ID] Correct Policy: Internal HR (retain) G: Employee ID: E1234514. Error Taxonomy: Lỗi quy trình liên quan đến dự án quyền riêng tư (E)
- ## Lỗi quy trình liên quan đến dự án quyền riêng tư (E)
Mô tả: Lỗi tổ chức/quy trình phản ánh cách ẩn danh hóa được tích hợp vào hoạt động xử lý dữ liệu rộng hơn.
Áp dụng: Áp dụng ở mức quy trình/workflow thay vì triển khai kỹ thuật. Phù hợp cho kiểm toán, đánh giá tác động quyền riêng tư và đánh giá độ trưởng thành PIMS.
Đánh giá:
- Mức độ nghiêm trọng: 5/5 — Cao nhất vì là lỗi hệ thống có thể ảnh hưởng mọi hoạt động xử lý dữ liệu và cho thấy vấn đề văn hóa quyền riêng tư
- Chỉ số: điểm PIA, kết quả kiểm toán tuân thủ quy trình, tần suất sự cố, time-to-privacy
| Code | Tên lỗi | Mô tả | Ví dụ |
|---|---|---|---|
| E-001 | Privacy Ignored | Không xem xét ẩn danh hóa khi cần | Nhóm phát triển chia sẻ DB production có PII để test mà không ẩn danh hóa |
| E-002 | Anonymization as Blocker | Ẩn danh hóa quá chặt khiến công việc hợp lệ bị chặn | Over-anonymisation làm dữ liệu không dùng được cho phân tích bắt buộc, buộc phải lách |
| E-003 | Privacy as Blocker | Thiếu ẩn danh hóa khiến dữ liệu không thể dùng được | Tập dữ liệu không dùng được do lo ngại rủi ro quyền riêng tư. |
| E-004 | Inappropriate Technique Selection | Chọn sai kỹ thuật theo mức nhạy cảm | Tokenisation khi cần ẩn danh/pseudonymization mạnh; reversible masking cho dữ liệu rất nhạy cảm |
| E-005 | Inferability Risk | Thông tin vẫn suy ra được từ ngữ cảnh/metadata/đặc điểm mask | Độ dài token tiết lộ giới tính, suy luận thống kê từ quasi-identifier |
[^1]: Six Sigma là phương pháp quản lý chất lượng dựa trên dữ liệu để cải tiến quy trình, hướng tới kết quả gần như hoàn hảo bằng cách giảm lỗi và giảm biến thiên trong quy trình kinh doanh.
[^2]: S: Source text; P: Privacy layer; O: output layer sau unmask/xử lý; G: Gold standard