l자형

l-diversity

l-module그룹 기반 익명화의 한 형태로, 데이터 표현의 세밀도를 줄임으로써 데이터 세트의 프라이버시를 유지하기 위해 사용됩니다.이러한 감소는 프라이버시를 확보하기 위해 데이터 관리 또는 마이닝 알고리즘의 효율성을 어느 정도 떨어뜨리는 트레이드오프입니다.off)입니다.l-다양성 모델은 k-익명성 모델의 확장으로, 주어진 레코드가 데이터의 적어도 k-1 다른 레코드에 매핑되도록 일반화 및 억제를 포함한 기법을 사용하여 데이터 표현의 세분성을 감소시킨다.l-다양성 모델은 k-개인의 수준에 대한 보호 정체성이 일반화되거나 억제된 해당 민감 값을 보호하는 것과 같지 않은 k-익명성 모델의 일부 약점을 처리한다. 특히 그룹 내 민감 값이 균질성을 나타낼 때 그러하다.l-diversity 모델은 익명화 메커니즘의 민감한 값에 대한 그룹 내 다양성 촉진을 추가합니다.

k-익명에 대한 공격

k-anonymousity는 단순성과 이를 수행하는 광범위한 알고리즘을 고려할 때 그룹 기반 익명화에 채택하는 유망한 접근 방식이지만, 많은 공격에 취약합니다.공격자가 백그라운드 정보를 이용할 수 있게 되면 이러한 공격은 더욱 효과적입니다.이러한 공격에는 다음이 포함됩니다.

  • 균질성 공격:이 공격은 k개 레코드 세트 내의 중요한 값에 대한 모든 값이 동일한 경우를 활용합니다.이 경우 데이터가 k-익명으로 변환되어도 k개 레코드 세트에 대한 민감도를 정확하게 예측할 수 있다.
  • 백그라운드 지식 공격:이 공격은 하나 이상의 준식별자 Atribute와 기밀 Atribute 간의 관련성을 이용하여 기밀 Atribute에 대해 가능한 값의 집합을 줄입니다.예를 들어, Machanavajhala, Kifer, Gerhke 및 Venkitasubramiam(2007)은 일본인 환자의 심장 마비가 감소된 비율로 발생한다는 것을 아는 것이 환자의 민감한 질병 속성에 대한 값의 범위를 좁히는 데 사용될 수 있음을 보여주었다.

형식적 정의

k-익명성 데이터에 대해 민감한 속성을 추론할 수 있는 그러한 공격의 존재에 따라, l-다양성 방법은 민감한 필드의 다양성을 추가로 유지함으로써 k-익명성을 더욱 높이기 위해 만들어졌다.프라이버시 보호 데이터 마이닝 – 모델과 알고리즘(2008)[1]이라는 책에서는 다음과 같이 l-diversity를 정의하고 있습니다.

q*-block은 그 비감응값이 q*로 일반화되도록 일련의 튜플이라고 합니다.q*-block에 기밀 속성 S의 "well-represented" 값이 l개 포함되어 있는 경우 l-diverse가 됩니다.테이블 내의 모든 q*블록이 l-diverse일 경우 테이블은 l-diverse입니다.

논문 t-밀착성: k-익명과 l-diversity를 넘어선 프라이버시(2007)[2]는 l-diversity를 다음과 같이 정의한다.

l-diversity 원리 – 등가 클래스는 민감 속성에 대해 적어도 l개의 "잘 표현된" 값이 있는 경우 l-diversity를 갖는다고 한다.표의 모든 등가 클래스가 l-diversity를 갖는 경우 테이블은 l-diversity를 갖는다고 합니다.

마차나바즈할라 외(2007)[3] "잘 표현된"을 가능한 세 가지 방법으로 정의한다.

  1. 고유 l-diversity – 가장 단순한 정의로 각 동등성 클래스의 기밀 필드에 대해 최소 l개의 고유 값이 존재함을 보증합니다.
  2. 엔트로피 l-diversity – 가장 복잡한 정의는 등가 클래스E의 엔트로피를 p(E,s)log(p(E,s)의 민감한 속성의 도메인 전체에 걸친 s의 합계의 부정으로 정의합니다.여기서 p(E,s)는 민감한 값 s를 가진E 의 레코드의 비율입니다.테이블은 등가 클래스 E마다 엔트로피(E) θ log(l)일 때 엔트로피 l-diversity를 가진다.
  3. 재귀적(c-l)-다양성– 가장 일반적인 값이 너무 자주 표시되지 않도록 하고 덜 일반적인 값은 너무 자주 표시되지 않도록 하는 타협적 정의입니다.

Aggarwal과 Yu(2008)는 둘 이상의 민감한 분야가 있는 경우 차원 추가로 인해 l-다양성 문제가 더 어려워진다는 점에 주목한다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Aggarwal, Charu C.; Yu, Philip S. (2008). "A General Survey of Privacy-Preserving Data Mining Models and Algorithms" (PDF). Privacy-Preserving Data Mining – Models and Algorithms. Springer. pp. 11–52. ISBN 978-0-387-70991-8.
  2. ^ Li, Ninghui; Li, Tiancheng; Venkatasubramanian, S. (April 2007). t-Closeness: Privacy Beyond k-Anonymity and l-Diversity. IEEE 23rd International Conference on Data Engineering, 2007. ICDE 2007. pp. 106–115. CiteSeerX 10.1.1.158.6171. doi:10.1109/ICDE.2007.367856. ISBN 978-1-4244-0802-3. S2CID 2949246.
  3. ^ Machanavajjhala, Ashwin; Kifer, Daniel; Gehrke, Johannes; Venkitasubramaniam, Muthuramakrishnan (March 2007). "L-diversity: Privacy Beyond K-anonymity". ACM Transactions on Knowledge Discovery from Data. 1 (1): 3–es. doi:10.1145/1217299.1217302. ISSN 1556-4681. S2CID 679934. Background Knowledge Attack. Alice has a pen-friend named Umeko who is admitted to the same hospital as Bob and whose patient records also appear in the table shown in Figure 2. Alice knows that Umeko is a 21-year-old Japanese female who currently lives in zip code 13068. Based on this information, Alice learns that Umeko's information is contained in record number 1,2,3, or 4. Without additional information, Alice is not sure whether Umeko caught a virus or has heart disease. However, it is well known that Japanese have an extremely low incidence of heart disease. Therefore Alice concludes with near certainty that Umeko has a viral infection.