p5y

TÀI LIỆU

APMF và phân loại lỗi trong một nơi.
Có cấu trúc.

1. Khung Ủy quyền & Tối thiểu hóa PII (APMF)

Một hệ thống chính sách và ra quyết định có cấu trúc, xác định dữ liệu cá nhân nào được phép truy cập cho một tác vụ cụ thể, bởi một bên yêu cầu cụ thể, dưới các ràng buộc pháp lý và đạo đức cụ thể.

Khung này tạo ra hai đầu ra có thể đọc bằng máy:

  • Privacy Allowance Profile (PAP) – xác định lớp PII nào có thể xuất hiện (trực tiếp, gián tiếp, nhạy cảm)
  • Data Access Certificate (DAC) – hiện vật ủy quyền chính thức đi kèm với dữ liệu

Mục đích của khung

  • Thực thi tối thiểu hóa dữ liệu, quyền truy cập tối thiểu (least privilege)giới hạn mục đích
  • Quyết định những lớp PII nào được phép trong một bối cảnh cụ thể
  • Quyết định quy trình ẩn danh hóa nào là cần thiết hoặc phù hợp
  • Tích hợp vào quy trình Data Access Governance (DAG) của doanh nghiệp
  • Cung cấp khả năng truy vết cho kiểm toán quyền riêng tư, tuân thủ, quản trị ML và báo cáo
  • Hỗ trợ dữ liệu không cấu trúc và khối lượng công việc ML (chat, log, transcript, prompt)

Phạm vi

  • Áp dụng cho mọi tập dữ liệu không cấu trúc hoặc mọi yêu cầu truy cập
  • Bao gồm cả công cụ xử lý nội bộ và bên thứ ba (ví dụ: LLM trên cloud)
  • Bao gồm người yêu cầu là con người hoặc hệ thống tự động
  • Xem xét quy định, đạo đức, đồng ý (consent) và chính sách tổ chức
  • Xuất ra chứng nhận, nghĩa vụ và biến đổi PII

Cách hoạt động

  1. Thu thập đầu vào từ metadata của tập dữ liệu, hồ sơ người yêu cầu, bối cảnh sử dụng và môi trường pháp lý
  2. Đối chiếu đầu vào với các quy tắc trong ma trận ủy quyền
  3. Ma trận xác định Privacy Allowance Profile (ví dụ: “Không PII trực tiếp/gián tiếp”)
  4. Hệ thống tạo Data Access Certificate (DAC) kèm yêu cầu, giới hạn và metadata kiểm toán
  5. Các pipeline ẩn danh hóa/biên tập/loại bỏ tự động biến đổi dữ liệu tương ứng
  6. Chỉ cấp truy cập cho “góc nhìn” dữ liệu đã được biến đổi và phê duyệt

Khung này phù hợp với các mô hình DAG, DLP, quản trị ML và tuân thủ quyền riêng tư hiện có trong ngành.

2. APMF: PAPs

  • P0 — Full Access: Cho phép trực tiếp/gián tiếp/nhạy cảm (yêu cầu kiểm toán/chứng nhận).
  • P1 — No Direct IDs: Loại bỏ định danh trực tiếp; gián tiếp & nhạy cảm có thể còn.
  • P2 — No Direct or Indirect IDs: Loại bỏ trực tiếp & gián tiếp; nhạy cảm có thể còn.
  • P3 — No Direct and sensitive: Loại bỏ trực tiếp và nhạy cảm; gián tiếp có thể còn.
  • P4 — No sensitive data: Trực tiếp & gián tiếp có thể còn; nhạy cảm bị che/loại bỏ.
  • P5 — Fully De-Identified / External Processor: Loại bỏ/biên tập toàn bộ PII; chỉ cho phép văn bản tổng hợp hoặc ẩn danh không thể đảo ngược.
  • P6 — Synthetic / Derived: Chỉ cho phép dữ liệu tổng hợp hoặc dữ liệu dẫn xuất hoàn toàn.

3. APMF: Đặc tả khung (Đầu vào)

Input information

Data source (automated from data metadata)

Thông tin nên đi kèm nguồn dữ liệu.

  • Data type: chat khách hàng, email, transcript cuộc gọi, hồ sơ y tế, tài liệu tài chính, hồ sơ nhân sự, prompt, log, khác
  • Data domain: y tế, tài chính, pháp lý, chính phủ, khác (nêu rõ)
  • Data include minors: có / không / không rõ
  • Moderation risks: có nội dung bất hợp pháp, gây hại hoặc gây khó chịu (cần cẩn trọng hơn, đặc biệt nếu cho người truy cập như labeler)
  • PII classes in data: định danh trực tiếp, định danh gián tiếp, thuộc tính nhạy cảm, không có, không rõ
  • Jurisdiction: vị trí dữ liệu và chủ thể dữ liệu để xác định thẩm quyền
  • Consent: đã có đồng ý (có/không/một phần – nêu rõ phạm vi). Lưu chuỗi đồng ý, thời điểm, phạm vi (cho training/không cho marketing), và nguồn (UI, cookie, hợp đồng). GDPR/CCPA yêu cầu chứng minh cơ sở pháp lý.
  • Data policy: chính sách truy cập và sử dụng dữ liệu từ nhà cung cấp.
  • Data provenance: liên kết tập dữ liệu với nguồn gốc, phiên bản và biến đổi để kiểm toán và tái lập.
  • Re-Use / Re-Training Flags: cờ cho phép dùng lại cho training/fine-tuning (có/không/có điều kiện).
  • Access log: theo dõi ai truy cập dữ liệu, khi nào, …
  • Storage: dữ liệu được lưu ở đâu, có bản sao nào
Requester (automated from requester profile)
  • Human or automated: con người, agent/tool/program
  • Party: nội bộ/ bên thứ ba (tên & vùng)/ regulator/ chủ thể dữ liệu
  • Role: data scientist, annotator, analyst, …
  • Permissions: training, mức truy cập
Request (requester needs to provide)
  • Purpose of access: training, testing/evaluation, debugging, production user-serving, analytics, legal/compliance, khác (nêu rõ).
  • Processing location: on-prem, in-cloud (nhà cung cấp: …), hybrid.
  • Processing tool: công cụ nội bộ, LLM/công cụ bên thứ ba (có/không. Nếu có: tên nhà cung cấp, trạng thái hợp đồng (DPA/BAA/SCCs))
  • Sensitivity of decisions: quyết định tự động? (có/không); ảnh hưởng người dùng? (có/không); …
  • PII classes requested: định danh trực tiếp/ định danh gián tiếp/ thông tin nhạy cảm
Regulations (automated)
  • Jurisdiction: dựa trên vị trí dữ liệu/người dùng và vị trí xử lý/triển khai – EU, US, UK, khác (nêu rõ).
  • Regulations: áp dụng dựa trên mọi thông tin sẵn có
  • Ethical risks: rủi ro thiên kiến dự kiến (thấp/trung bình/cao) và quan ngại

4. APMF: Đặc tả khung (Đầu ra)

Privacy Allowance Profile (PAP)

Đầu ra đọc bằng máy, hướng dẫn hệ thống chuẩn bị dữ liệu theo profile cho phép.

  • Allowed classes of PII: định danh trực tiếp/ định danh gián tiếp/ thông tin nhạy cảm
  • Anonymization required: workflow tự động áp dụng redaction hoặc quy tắc xuất trước khi cấp truy cập dữ liệu theo DAC: redaction, obfuscation, …
Data Access Certificate (DAC)

Đi kèm dữ liệu, vừa đọc được bởi người vừa đọc được bởi máy, để phục vụ kiểm toán và phát hiện vi phạm chính sách tự động.

  • Request summary: tóm tắt về dữ liệu và quyền truy cập được cấp (ai truy cập, trong bao lâu nếu có, được phép/không được phép dùng thế nào, tuân thủ quy định nào, rủi ro đạo đức …).
  • Re-identification risk score: điểm tự động đo mức hiệu quả của de-identification (hữu ích cho regulator/auditor).
  • Derivative policies: chính sách cho dữ liệu/mô hình dẫn xuất từ dữ liệu gốc (model inversion và embedding leakage là rủi ro trong ngành).
  • Retention and deletion policy: thời gian tồn tại của “góc nhìn”/trích xuất được cấp hoặc mô hình dẫn xuất; gắn việc cấp chứng nhận với ngày hết hạn.
Permissions checklist

Nêu rõ quyền hạn cần có và quyền còn thiếu để truy cập dữ liệu theo yêu cầu. Việc này giúp quy trình xin cấp quyền rõ ràng hơn (cần quyền gì và xin ở đâu).

5. Quản lý mã lỗi & phân loại

Tài liệu này định nghĩa phương pháp quản lý và phân loại mã lỗi để cải tiến liên tục chất lượng ẩn danh hóa dữ liệu.

Khung quản lý

Tổng quan

Khung này cung cấp một cách tiếp cận có hệ thống để quản lý và cải thiện chất lượng ẩn danh hóa thông qua việc phát hiện, đo lường và giảm lỗi liên tục. Lấy cảm hứng từ các nguyên tắc Six Sigma[^1], nó giúp tổ chức tiến tới ẩn danh hóa gần như hoàn hảo bằng cách giảm lỗi theo thời gian như một phần của Privacy Information Management System (PIMS).

Kiến trúc quy trình

Pipeline ẩn danh hóa gồm ba lớp:

  1. Source Layer: Văn bản gốc chứa personally identifiable information (PII)
  2. Privacy Layer: Văn bản với PII được thay bằng privacy token (ví dụ [NAME], [EMAIL])
  3. Output Layer: Văn bản cuối sau khi unmask và các biến đổi (ví dụ dịch, tóm tắt)

Hàm phát hiện cốt lõi

FUNCTION DetectErrors( 	inputs: { source: String, actual-mask: PrivacyMask=[ List <{Start , End, Label, Index }>], computed-mask:PrivacyMask=[ List <{Start , End, Label, Index }>]} 	) 	-> ErrorMatrix [ List<{ activation: Code, explanation: String }> ]:

Mục tiêu: Tối thiểu hóa hàm lỗi khi khối lượng và độ phức tạp của yêu cầu tăng lên.

Quy trình quản lý chất lượng:

  • Inference Stage: Từ source text và taxonomy nhãn, tính privacy mask
  • Evaluation Stage: So sánh mask tính toán với annotation chuẩn (gold standard)
  • Post-Processing Stage: Áp dụng thay thế chuỗi và kiểm tra chất lượng output
  • Analysis Stage: Phân loại lỗi, tính metric, xác định vùng cần cải thiện
  • Improvement Stage: Cải tiến mô hình, quy tắc và quy trình dựa trên mẫu lỗi

6. Error Taxonomy: Lỗi phân loại token (T)

  1. ## Lỗi phân loại token (T)

Mô tả: Lỗi phân loại nhị phân ở mức token, khi từng đơn vị văn bản bị nhận diện sai là có/không có PII. Token ở đây là đơn vị văn bản sau khi chạy tokenizer trên dữ liệu.

Áp dụng: Áp dụng cho mọi tác vụ ẩn danh hóa trong giai đoạn phát hiện ở mức token ban đầu.

Đánh giá:

  • Mức độ nghiêm trọng: 5/5 — Bỏ sót (undertrigger) gây rò rỉ quyền riêng tư trực tiếp; đánh dấu quá mức (overtrigger) làm giảm tính hữu ích dữ liệu và có thể chặn các trường hợp dùng hợp lệ
  • Chỉ số: Precision, Recall, F1-score ở mức token; False Positive Rate (FPR), False Negative Rate (FNR)
Code
T-001
Tên lỗi
Overtriggered
Mô tả
Token bị đánh dấu là PII khi không nên
Ví dụ[^2]
S: I like apple pie P: I like [COMPANY] pie G: I like apple pie
Code
T-002
Tên lỗi
Undertriggered
Mô tả
Token bị đánh dấu không phải PII dù có thông tin cá nhân
Ví dụ[^2]
S: Email to john.doe@email.com P: Email to john.doe@email.com G: Email to [EMAIL]

7. Error Taxonomy: Lỗi biên entity/span (S)

  1. ## Lỗi biên entity/span (S)

Mô tả: Lỗi xác định ranh giới đúng của entity PII. Hệ thống nhận ra có PII nhưng không bắt trọn span hoặc bắt sai phần xung quanh. Entity là một mẩu thông tin có thể góp phần nhận dạng cá nhân hoặc tiết lộ chi tiết nhạy cảm; entity có thể được hiện thực bằng span gồm một hoặc nhiều token.

Áp dụng: Áp dụng cho mọi hệ thống ẩn danh hóa dựa trên entity. Đặc biệt quan trọng với NER và phát hiện ranh giới cho entity nhiều token.

Đánh giá:

  • Mức độ nghiêm trọng: 4/5 — Ảnh hưởng vừa phải tới cả quyền riêng tư (thiếu gán nhãn) và tính hữu ích (gán nhãn quá mức); có thể lan sang lỗi phân loại nhãn
  • Chỉ số: Exact Match Accuracy, Partial Match Score, Character-level F1, Boundary IoU (Intersection over Union)
Code
S-001
Tên lỗi
Overannotated
Mô tả
Span chứa nhiều token hơn mức đúng
Ví dụ
S: Dr. Sarah Johnson's research is outstanding P: [NAME] research is outstanding G: Dr. [NAME]’s research is outstanding
Code
S-002
Tên lỗi
Underannotated
Mô tả
Span chứa ít token hơn mức đúng
Ví dụ
S: Dr. Sarah Johnson's research is outstanding P: Dr. Sarah [NAME]’s research is outstanding G: Dr. [NAME]’s research is outstanding
Code
S-003
Tên lỗi
Partially Overlapping
Mô tả
Span dự đoán chồng lấp nhưng ranh giới không khớp
Ví dụ
S: Dr. Sarah Johnson's research is outstanding P: Dr. Sarah [NAME] is outstanding G: Dr. [NAME]’s research is outstanding
Code
S-004
Tên lỗi
Span Fragmented
Mô tả
Một entity bị tách sai thành nhiều entity
Ví dụ
S: I live in New York City P: I live in [LOCATION] [LOCATION] [LOCATION] G: I live in [LOCATION]
Code
S-005
Tên lỗi
Spans Merged
Mô tả
Nhiều entity bị gộp sai thành một span
Ví dụ
S: Travel from Paris to London tomorrow P: Travel from [LOCATION] tomorrow G: Travel from [LOCATION] to [LOCATION] tomorrow
Code
S-006
Tên lỗi
Span Misaligned
Mô tả
Có phát hiện entity nhưng biên hoàn toàn sai
Ví dụ
S: I live in New York P: I liv[LOCATION]ork G: I live in [LOCATION]

8. Error Taxonomy: Lỗi lồng nhau của entity (N)

  1. ## Lỗi lồng nhau của entity (N)

Mô tả: Lỗi trong việc nhận diện và biểu diễn quan hệ phân cấp khi một entity chứa hoặc bị chứa trong entity khác.

Áp dụng: Chủ yếu áp dụng cho ngữ cảnh dữ liệu có cấu trúc (đường dẫn file, URL, địa chỉ, cấu trúc tổ chức) và các hệ thống hỗ trợ entity lồng nhau. Không áp dụng cho mô hình entity phẳng.

Đánh giá:

  • Mức độ nghiêm trọng: 3/5 — Có thể làm lộ PII lồng nhau nhưng thường entity bao ngoài vẫn cung cấp bảo vệ đủ; tác động phụ thuộc độ sâu lồng nhau và loại entity
  • Chỉ số: Nested Entity Recognition Rate, Hierarchy Completeness Score, Parent-Child Match Accuracy
Code
N-001
Tên lỗi
Missing Nested Entity
Mô tả
Không nhận ra entity con nằm trong entity lớn hơn
Ví dụ
S: /home/john_doe/documents/contract.pdf P: [/home/john_doe/documents/contract.pdf]FILEPATH G: [/home[/john_doe]USERNAME/documents/ contract.pdf]FILEPATH
Code
N-002
Tên lỗi
Missing Larger Entity
Mô tả
Không nhận ra entity bao ngoài
Ví dụ
S: /home/john_doe/documents/contract.pdf P: /home[/john_doe]USERNAME/documents/ contract.pdf G: [/home[/john_doe]USERNAME/documents/ contract.pdf]FILEPATH

9. Error Taxonomy: Lỗi phân loại nhãn (một nhãn) (L)

  1. ## Lỗi phân loại nhãn (một nhãn) (L)

Lỗi gán loại PII sai cho một entity. Các lỗi này xảy ra khi span đúng nhưng nhãn/type sai, hoặc mức độ chi tiết (granularity) không phù hợp.

Mô tả: Lỗi gán đúng loại PII cho entity khi chỉ được phép/được yêu cầu một nhãn. Span đúng nhưng bị gán sai loại hoặc mức chi tiết không phù hợp.

Áp dụng: Áp dụng cho mọi hệ thống ẩn danh hóa dựa trên phân loại. Quan trọng khi các loại entity khác nhau cần xử lý khác nhau (ví dụ policy lưu giữ, phương pháp mã hóa).

Đánh giá:

  • Mức độ nghiêm trọng: 3/5 — Thường rủi ro thấp hơn vì entity vẫn được che, nhưng có thể ảnh hưởng xử lý hạ lưu, tuân thủ policy và tính hữu ích phân tích
  • Chỉ số: Label Accuracy, Confusion Matrix, Macro/Micro F1 theo lớp nhãn, Granularity Appropriateness Score
Code
L-001
Tên lỗi
Misclassified
Mô tả
Gán nhãn sai hoàn toàn
Ví dụ
S: For support, call 555-1234 P: For support, call [PASSWORD] G: For support, call [PHONE]
Code
L-002
Tên lỗi
Imprecise
Mô tả
Dùng nhãn thô/fallback thay vì nhãn chi tiết đúng
Ví dụ
S: I live in Paris P: I live in [LOCATION] G: I live in [CITY]
Code
L-003
Tên lỗi
Too Specific
Mô tả
Dùng nhãn quá chi tiết khi cần nhãn thô/fallback
Ví dụ
S: Enter code 3456 P: Enter code [PASSWORD] G: Enter code [NUMERIC_ID]

10. Error Taxonomy: Lỗi phân loại nhãn (đa nhãn) (M)

  1. ## Lỗi phân loại nhãn (đa nhãn) (M)

Mô tả: Lỗi khi gán và xếp hạng nhiều nhãn PII hợp lệ cho entity thuộc nhiều lớp. Bao gồm thiếu nhãn, xếp hạng độ tin cậy sai hoặc gán nhãn không hợp lệ.

Áp dụng: Chỉ áp dụng cho hệ thống hỗ trợ đa nhãn, thường cho entity mơ hồ (ví dụ “Jordan” là NAME/LOCATION) hoặc entity mang nhiều thông tin (ví dụ số SSN Ý “RSSRRT60R27F205X” chứa cả phần của NAME, DoB, CITY, GENDER). Không áp dụng cho hệ thống chỉ một nhãn.

Đánh giá:

  • Mức độ nghiêm trọng: 2/5 — Ảnh hưởng quyết định hạ lưu và xử lý theo dữ liệu nhạy cảm, nhưng entity thường vẫn được che dưới ít nhất một nhãn
  • Chỉ số: xếp hạng: nDCG hoặc LRAP; gán nhãn: Precision/Recall
Code
M-001
Tên lỗi
Overranked
Mô tả
Nhãn có thể đúng nhưng bị xếp hạng tin cậy quá cao
Ví dụ
S: I want to visit Jordan P: I want to visit Jordan[NAME:0.9, COUNTRY:0.8] G: I want to visit Jordan[COUNTRY:0.8, NAME:0.4]
Code
M-002
Tên lỗi
Underranked
Mô tả
Nhãn có thể đúng nhưng bị xếp hạng tin cậy quá thấp
Ví dụ
S: I want to visit Jordan P: I want to visit Jordan[NAME:0.4, COUNTRY:0.3] G: I want to visit Jordan[COUNTRY:0.8, NAME:0.4]
Code
M-003
Tên lỗi
Underlabeled
Mô tả
Thiếu nhãn hợp lệ
Ví dụ
S: I want to visit Jordan P: I want to visit Jordan[COUNTRY:0.8, ] G: I want to visit Jordan[COUNTRY:0.8, NAME:0.4]
Code
M-004
Tên lỗi
Overlabeled
Mô tả
Gán quá nhiều nhãn; có nhãn không phù hợp ngữ cảnh
Ví dụ
S: I want to visit my friend Jordan P: I want to visit my friend Jordan[NAME:0.9, COUNTRY:0.4] G: I want to visit my friend Jordan[NAME:0.9]

11. Error Taxonomy: Lỗi privacy token (K)

  1. ## Lỗi privacy token (K)

Mô tả: Lỗi về cấu trúc privacy token, liên kết với source text và đồng tham chiếu (coreference) trong tài liệu. Những lỗi này ảnh hưởng tính toàn vẹn token, khả năng truy vết và tính nhất quán danh tính. Chúng xảy ra khi lệch giữa source text và privacy layer hoặc khi danh tính không được nhận diện đúng.

Áp dụng: Áp dụng cho mọi hệ thống ẩn danh hóa dựa token có duy trì mapping giữa token và entity gốc. Quan trọng với ẩn danh hóa đảo ngược và trường hợp entity xuất hiện nhiều lần.

Đánh giá:

  • Mức độ nghiêm trọng: 4/5 — Cao vì có thể làm hỏng unmask, làm lộ PII do token tạo sai, hoặc không che được các lần nhắc lại entity
  • Chỉ số: Token-Span Alignment Accuracy, Coreference Resolution F1, Token Format Compliance Rate
Code
K-001
Tên lỗi
Incorrect token length
Mô tả
Độ dài token không tương ứng span entity thật
Ví dụ
P: Contact Dr. Smith[NAME] Privacy token: [NAME]byte:12-13 Privacy token: [NAME]byte:12-17
Code
K-002
Tên lỗi
Incorrect token anchors
Mô tả
Token liên kết sai span hoặc không liên kết span nào
Ví dụ
P: Contact Dr. Smith[NAME] Privacy token: [NAME]byte:4-8 Privacy token: [NAME]byte:12-17
Code
K-003
Tên lỗi
Missing Coreference
Mô tả
Không liên kết nhiều tham chiếu về cùng một entity
Ví dụ
S: Hannah Smith was born in 1956. Dr. Smith studied in Edinburgh P: [NAME_1] was born in 1956. Dr. [SURNAME_2] studied in Edinburgh G: [NAME_1] was born in 1956. Dr. [SURNAME_1] studied in Edinburgh
Code
K-004
Tên lỗi
Incorrect token label
Mô tả
Token đặt sai tên (label/code)
Ví dụ
S: Patient SSN is 123-45-6789 P: Patient SSN is [SocialNum_001] G: Patient SSN is [SSN_1]
Code
K-005
Tên lỗi
Token label includes PII
Mô tả
Nhãn token chứa PII
Ví dụ
S: Janet Smith’s passport number is DG456789 P:[NAME_FEMALE_1]’s passport number is [US_PASSPORTNO_1] G:[NAME_1]’s passport number is[PASSPORTNO_1]

12. Error Taxonomy: Lỗi văn bản đầu ra (O)

  1. ## Lỗi văn bản đầu ra (O)

Mô tả: Lỗi khi unmask và tạo output, khi privacy token bị thay sai, đặt sai vị trí hoặc làm câu không ngữ pháp ở văn bản cuối.

Áp dụng: Chỉ áp dụng cho hệ thống ẩn danh hóa đảo ngược có chức năng unmask và các pipeline có biến đổi văn bản (dịch, tóm tắt, style transfer) sau khi che.

Đánh giá:

  • Mức độ nghiêm trọng: 3/5 — Trung bình. Không tạo rò rỉ quyền riêng tư nhưng ảnh hưởng mạnh tới khả dụng, khả năng hiểu và niềm tin. O-001 với giá trị entity sai có thể gây nhầm lẫn hoặc sai thông tin
  • Chỉ số: Unmasking Accuracy, BLEU/ROUGE (độ trôi chảy), Edit Distance, Grammaticality scores
Code
O-001
Tên lỗi
Privacy mask filled with incorrect entity value
Mô tả
Chèn sai/không chèn giá trị entity khi unmask
Ví dụ
S: We met John Doe at the conference P: We met [NAME] at the conference O: We met Janet at the conference G: We met John Doe at the conference
Code
O-002
Tên lỗi
Privacy mask not replaced
Mô tả
Token quyền riêng tư vẫn còn trong output
Ví dụ
S: We met John Doe at the conference P: We met [NAME] at the conference O: We met [NAME] at the conference G: We met John Doe at the conference
Code
O-003
Tên lỗi
Span incorrectly replaced
Mô tả
Thay giá trị entity ở sai vị trí
Ví dụ
S: We met John Doe at the conference P: We met [NAME] at the conference O: We met at the John Doe conference G: We met John Doe at the conference
Code
O-004
Tên lỗi
Unmasked entity value ungrammatical
Mô tả
Giá trị entity sau unmask không khớp ngữ cảnh/ngữ pháp (ví dụ sai cách)
Ví dụ
S: Helena's book is excellent P: [NAME] book is excellent O: Helena Buch ist ausgezeichnet G: Helenas Buch ist ausgezeichnet (German possessive ‘s’)
Code
O-005
Tên lỗi
Surrounding output text ungrammatical
Mô tả
Unmask gây lỗi ngữ pháp/logic ở phần văn bản xung quanh do mất thông tin quan trọng (giới tính, số ít/nhiều, cách, đồng tham chiếu…)
Ví dụ
S: Residency: United States P: Residency: [COUNTRY] O: I live in United States G: I live in the United States
Code
O-006
Tên lỗi
Unmasked entity value not translated
Mô tả
Giá trị entity không được thích nghi với ngôn ngữ đầu ra
Ví dụ
S: Janet has recently married P: [NAME] has recently [MARITAL_STATUS] O: Janet si è married da poco G: Janet si è sposata da poco

13. Error Taxonomy: Lỗi cá nhân hóa (P)

  1. ## Lỗi cá nhân hóa (P)

Mô tả: Lỗi khi áp dụng tùy chọn ẩn danh hóa theo người dùng/policy, dẫn tới xử lý sai theo yêu cầu cá nhân hoặc chính sách tổ chức.

Áp dụng: Chỉ áp dụng cho hệ thống hỗ trợ quy tắc ẩn danh hóa cá nhân hóa (ví dụ: mức nhạy cảm do người dùng đặt, loại entity tùy biến, yêu cầu theo jurisdiction).

Đánh giá:

  • Mức độ nghiêm trọng: 4/5 — Cao vì trực tiếp vi phạm kỳ vọng người dùng và tuân thủ policy; có thể dẫn tới vi phạm quy định hoặc mất niềm tin
  • Chỉ số: Policy Compliance Rate, Preference Application Accuracy, User Satisfaction Score
Code
P-001
Tên lỗi
Preference Not Applied
Mô tả
Bỏ qua tùy chọn người dùng/policy
Ví dụ
S: My IP address is 192.168.1.1 User Preference: Anonymise all IP addresses P: My IP address is 192.168.1.1 G: My IP address is [IP_ADDRESS]
Code
P-002
Tên lỗi
Wrong Preference Applied
Mô tả
Áp sai bộ quy tắc/policy
Ví dụ
S: Patient : E12345 Applied Policy: Healthcare (anonymise) P: Employee ID: [EMPLOYEE_ID] Correct Policy: Internal HR (retain) G: Employee ID: E12345

14. Error Taxonomy: Lỗi quy trình liên quan đến dự án quyền riêng tư (E)

  1. ## Lỗi quy trình liên quan đến dự án quyền riêng tư (E)

Mô tả: Lỗi tổ chức/quy trình phản ánh cách ẩn danh hóa được tích hợp vào hoạt động xử lý dữ liệu rộng hơn.

Áp dụng: Áp dụng ở mức quy trình/workflow thay vì triển khai kỹ thuật. Phù hợp cho kiểm toán, đánh giá tác động quyền riêng tư và đánh giá độ trưởng thành PIMS.

Đánh giá:

  • Mức độ nghiêm trọng: 5/5 — Cao nhất vì là lỗi hệ thống có thể ảnh hưởng mọi hoạt động xử lý dữ liệu và cho thấy vấn đề văn hóa quyền riêng tư
  • Chỉ số: điểm PIA, kết quả kiểm toán tuân thủ quy trình, tần suất sự cố, time-to-privacy
Code
E-001
Tên lỗi
Privacy Ignored
Mô tả
Không xem xét ẩn danh hóa khi cần
Ví dụ
Nhóm phát triển chia sẻ DB production có PII để test mà không ẩn danh hóa
Code
E-002
Tên lỗi
Anonymization as Blocker
Mô tả
Ẩn danh hóa quá chặt khiến công việc hợp lệ bị chặn
Ví dụ
Over-anonymisation làm dữ liệu không dùng được cho phân tích bắt buộc, buộc phải lách
Code
E-003
Tên lỗi
Privacy as Blocker
Mô tả
Thiếu ẩn danh hóa khiến dữ liệu không thể dùng được
Ví dụ
Tập dữ liệu không dùng được do lo ngại rủi ro quyền riêng tư.
Code
E-004
Tên lỗi
Inappropriate Technique Selection
Mô tả
Chọn sai kỹ thuật theo mức nhạy cảm
Ví dụ
Tokenisation khi cần ẩn danh/pseudonymization mạnh; reversible masking cho dữ liệu rất nhạy cảm
Code
E-005
Tên lỗi
Inferability Risk
Mô tả
Thông tin vẫn suy ra được từ ngữ cảnh/metadata/đặc điểm mask
Ví dụ
Độ dài token tiết lộ giới tính, suy luận thống kê từ quasi-identifier

[^1]: Six Sigma là phương pháp quản lý chất lượng dựa trên dữ liệu để cải tiến quy trình, hướng tới kết quả gần như hoàn hảo bằng cách giảm lỗi và giảm biến thiên trong quy trình kinh doanh.

[^2]: S: Source text; P: Privacy layer; O: output layer sau unmask/xử lý; G: Gold standard