데이터 재식별
Data re-identification이 글의 사례와 관점은 주로 미국을 다루며, 주제에 대한 세계적인 관점을 나타내지 않는다. (2017년 5월)(이과 시기 |
데이터 재식별 또는 익명화란 데이터가 속하는 개인을 발견하기 위해 익명 데이터(일명 탈식별 데이터라고도 함)와 공개 가능한 정보 또는 보조 데이터를 매칭하는 관행이다.[1] 개인정보보호정책을 가진 기업이나 의료사업자, 금융기관이 수집한 데이터를 본인확인 절차를 거친 뒤 공개할 수도 있어 우려되는 대목이다.
식별 해제 프로세스는 직접 및 간접 식별자를 모두 마스킹, 일반화 또는 삭제하는 것을 포함한다. 이 프로세스의 정의는 보편적이지 않다. 따라서 공공영역의 정보는 익명으로 보일지라도 이용 가능한 다른 데이터 조각 및 기본적인 컴퓨터 과학 기법과 결합하여 재식별될 수 있다. 미국 보건복지부를 포함한 복수의 미국 연방 기관과 부서가 모인 '인간 대상 보호'('공통 규칙#서명국')는 진화에 따른 정보의 풍부하고 지속적인 수집과 분석이라는 '빅 데이터' 때문에 재식별이 점차 쉬워지고 있다고 추측한다.기술 및 알고리즘의 진보. 그러나, 다른 사람들은 탈식별화가 안전하고 효과적인 데이터 해방 수단이며 재식별을 우려로 여기지 않는다고 주장해왔다.[2]
점점 더 많은 데이터가 인터넷을 통해 공개되고 있다. 이러한 데이터는 출처의 프라이버시를 보장하기 위해 이름, 주소, 사회 보장 번호와 같은 개인 식별 가능 정보(PII)를 제거하는 것과 같은 일부 익명화 기법을 적용한 후 공개된다. 이러한 프라이버시 보장을 통해 정부는 서면 허가 없이 제한된 데이터 세트를 제3자와 합법적으로 공유할 수 있다. 이러한 데이터는 연구자들, 특히 건강관리 분야에서 매우 귀중한 것으로 입증되었다.
별도로 보관된 "추가 정보"를 사용하지 않고서는 특정 데이터 주체에 데이터를 귀속시킬 수 없도록 요구하는 GDPR 준수 가명화를 통해 재식별 위험성이 현저히 감소된다. GDPR을 준수하는 가명화된 데이터는 직접 및 간접 식별자(직접이 아닌)의 보호가 필요하기 때문에 설계별 및 기본값에 의해 기술 상태를 구현한다. 설계에 의한 GDPR 데이터 보호와 가명화에 구현된 기본 원칙은 컨트롤러가 별도로 보관하는 "추가 정보"에 대한 접근 없이 개인 데이터가 모자이크 효과를 통해 상호 참조(또는 재식별)되지 않도록 직접 및 간접 식별자를 모두 보호해야 한다. 재식별을 위해 별도로 보관된 "추가 정보"에 대한 액세스가 필요하기 때문에, 관제사가 적법한 목적만을 지원하도록 특정 데이터 주체에 대한 데이터 귀속성을 제한할 수 있다.
미국 내 데이터 법적 보호
기존의 개인 정보 보호 규정은 일반적으로 데이터가 익명화되거나 식별이 해제된 것으로 간주되도록 수정된 정보를 보호한다. 재무정보의 경우, 연방무역위원회는 그것이 비식별화 및 통합될 경우 그것의 유통을 허용한다.[3] 만약 정보와 개인 식별자가 포함되어 있지 않골재가 데이터 개인 정보를 처리하는 것은 아니다 그것은 금융 기관을 지정하고 있는 Gramm 리치 Bliley 법(GLBA), 소비자, 기회들의 정보 제3자와 공유하고 탈퇴할 수 있는,de-identified 데이터를 다루지 않는다를 준다.[3]
교육 기록
대학 기록의 측면에서, 주정부와 연방정부 차원의 당국 모두 교육에서의 사생활 문제에 대한 인식과 기관의 정보 공개에 대한 혐오감을 보여주었다. 미국 교육부는 디렉토리 정보의 출판을 줄임으로써 공공영역의 데이터 양을 최소화하기 위해 보조자료와 상호 참조함으로써 익명자료의 재식별 위험에 민감할 것을 교육기관에 지시하는 등 데이터 담론 및 식별에 관한 지침을 제공하고 있다.학생과 기관 요원들, 그리고 탈교육 과정에서 일관성을 지녀야 한다.[4]
진료 기록
HealthData.gov 및 Patients와 같은 무료 및 공개 액세스 플랫폼에서 환자에 대한 의료 정보를 인터넷 상에서 점점 더 많이 이용할 수 있게 되었다.민간부문이 주도하는 개방적인 데이터 정책과 데이터 공유 이니셔티브에 고무된 Me처럼. 이러한 접근성 수준은 많은 이점을 제공하지만, 차별과 사생활에 대한 우려는 제기되어 왔다.[5] 약국에서의 의료기록과 소비자 데이터에 대한 보호는 다른 종류의 소비자 데이터에 비해 더 강하다. HIPAA(Health Insurance Portability and Accountability Act)는 건강에 대한 식별 가능한 데이터의 프라이버시를 보호하지만, 식별이 해제된 경우 제3자에게 정보 공개를 허가한다. 또한, 환자에게 미치는 위해를 충분히 완화하지 않고 환자의 정보가 부적절하게 공개되거나 활용되었을 가능성이 낮을 경우 환자에게 위반 통보를 받도록 의무화한다.[6] 재식별 가능성은 환자의 정보가 손상되었을 가능성을 판단하는 요인이다. 흔히 약국은 제약회사에 차례로 판매하는 데이터 마이닝 업체에 식별되지 않은 정보를 판매한다.[3]
의료정보의 데이터 마이닝을 금지하기 위해 제정된 주 법률이 있었지만, 수정헌법 1조를 근거로 메인 주와 뉴햄프셔 주 연방법원에 의해 격추되었다. 또 다른 사건에 대한 연방법원은 환자의 사생활에 대한 우려를 설명하기 위해 '불법'을 사용했으며, 재식별의 위험을 인식하지 않았다.[3]
바이오스페시멘
2015년 9월 공동법률기관이 발간한 규칙제정통지서는 '인간의 대상'이라는 포괄적 용어를 연구용어에 바이오시료나 인체의 혈액, 소변, 조직 등으로부터 채취한 물질을 포함하도록 확대했다. 이것은 생물학적 요법을 사용하는 연구자들이 인간 피실험자들과 함께 연구를 하는 더 엄격한 요건을 따라야 한다는 것을 의무화한다. 그 근거는 바이오시료의 재식별 위험 증가다.[7] 최종 개정안은 이 규정을 확증했다.[8]
재식별 노력
분야별로 재식별에 성공한 시도가 상당 부분 있었다. 일반인이 익명성을 깨는 것이 쉽지 않더라도, 일단 그 단계를 공개하고 학습하면, 데이터베이스에 있는 정보에 접근하기 위해 더 높은 수준의 지식이 필요하지 않다. 때로는 한 모집단이 고유하게 식별자를 조합한 경우 기술적 전문지식조차 필요하지 않다.[3]
건강 기록
1990년대 중반, 매사추세츠 주의 한 정부 기관인 그룹보험위원회(GIC)는 주 직원들에 대한 건강보험을 구입해, 자료를 요청한 연구자라면 누구나 병원 방문 기록을 무료로 공개하기로 했다. GIC는 이름, 주소, 사회 보장 번호와 같은 식별자를 제거했기 때문에 환자의 사생활은 문제가 되지 않는다고 장담했다. 그러나 우편번호, 생년월일, 성관계 같은 정보는 손대지 않은 채 남아 있었다. GIC 보장은 당시 매사추세츠 주지사였던 윌리엄 웰드에 의해 강화되었다. 당시 대학원생이었던 라타냐 스위니는 GIC 자료에서 주지사의 기록을 골라내려고 마음먹었다. 그녀가 20달러에 구입한 케임브리지 시의 유권자 데이터베이스와 GIC 데이터를 결합해 웰드 주지사의 기록을 손쉽게 찾아냈다.[9]
1997년 한 연구원이 유권자 데이터베이스를 이용해 의료기록의 익명화에 성공했다.[3]
2001년 라타냐 스위니 교수는 다시 워싱턴주에서 익명으로 처리된 병원 방문기록과 투표기록을 활용, 43%의 개인과 성공적으로 일치시켰다.[10]
처방약 정보로 환자를 재식별하는 데 사용되는 기존 알고리즘이 있다.[3]
소비자의 습관 및 관행
텍사스 대학의 연구원 아르빈드 나라얀과 비탈리 샤티코프 교수는 스트리밍 웹사이트에서 개별 소비자와 익명화된 넷플릭스 영화 순위 데이터의 일부를 다시 식별할 수 있었다.[11][12][13] 넷플릭스가 2006년 공개한 자료는 개인 이름을 무작위 번호로 교체하고 개인 세부사항을 이동하는 내용으로 구성됐다. 두 연구원은 일부 데이터를 비익명 IMDb(인터넷 무비 데이터베이스) 이용자들의 영화 등급과 비교해 익명화했다. 가입자를 식별하기 위해 데이터베이스로부터 거의 정보가 필요하지 않은 것으로 밝혀졌다.[3] 이에 따른 연구 논문에서는 넷플릭스 사용자를 재식별하는 것이 얼마나 쉬운 일인지 깜짝 놀랄만한 폭로가 나왔다. 예를 들어, 정확한 등급과 3일 간의 등급 부여일 또는 소요일 등 사용자가 검토한 영화 2편에 대한 데이터만 알면 68%의 재식별 성공이 가능하다.[9]
2006년, AOL이 공개되기 전에 익명화된 데이터인 사용자 검색 질의를 발표한 후, 뉴욕 타임즈 리포터들은 익명화된 사용자들이 만든 검색 그룹을 취함으로써 개인의 재식별을 성공적으로 수행했다.[3] AOL은 사용자 이름과 IP 주소를 포함한 식별 정보를 억제하려고 시도했지만, 연구자들을 위해 이 데이터의 효용성을 보존하기 위해 고유 식별 번호로 대체했다. 블로거들은 발매 후, 이 컨텐츠로 특정 사용자를 식별하거나, 재미있거나, 우울하거나, 충격적인 검색 질의를 지적하기 위해 데이터를 면밀히 검토했다. 그 예로는 "어떻게 부인을 죽일 것인가", "우울증과 의료 휴가", "차량 충돌 사진" 등이 있다. 마이클 바바로와 톰 겔러라는 두 명의 기자는 사용자 417729명의 검색 이력의 실마리를 알아보는 것에서 델마 아놀드라는 62세의 미망인을 추적할 수 있었다. 아놀드는 자신이 검색의 저자임을 인정하면서 재식별이 가능하다는 것을 확인했다.[9]
위치 데이터
위치 데이터 - 한 개인의 행방과 움직임을 설명하는 일련의 지리적 위치 - 특히 익명성을 유지하기 어려운 개인 데이터의 한 종류다. 위치는 가정, 직장, 쇼핑, 건강관리 또는 특정 여가 시간 패턴과 같은 일상 생활의 자주 참석하는 장소에 대한 반복적인 방문을 보여준다.[14] 위치 데이터에서 사람의 신원을 제거한다고 해서 출퇴근 리듬이나 잠자는 장소, 직장 등 식별 가능한 패턴이 제거되는 것은 아니다. 좌표를 주소에 매핑함으로써 위치 데이터를 쉽게[15] 재식별하거나 개인의 사생활 맥락과 상관관계가 있다. 위치정보의 흐름은 앱이 접속하는 스마트폰 데이터에서 개인 식별자를 재구성하는 데 중요한 역할을 한다.[16]
법원 결정
2019년에는 커스틴 노엘 보킹거 교수와 닥터. 취리히 대학의 두 명의 연구원인 Urs Jakob Mühlematter는 스위스 연방대법원의 사례를 분석하여 어떤 제약 회사와 어떤 의료 약품이 의료 약품의 가격 결정과 관련한 연방 공중 보건국(FOP)에 대한 법적 조치에 관여했는지 평가했다. 일반적으로 관련된 민간 당사자(제약회사 등)와 민간 당사자를 밝힐 정보(예: 마약명)는 스위스 판결에서 익명으로 처리된다. 연구원들은 공개적으로 접근할 수 있는 데이터베이스의 정보를 연결함으로써 스위스 연방 대법원의 관련 익명화 사례의 84%를 재식별할 수 있었다.[17][18] 이 성과는 언론에서 다루어졌고 법정 소송이 익명화되어야 하는지의 여부와 방법에 대한 논쟁을 시작했다.[19][20]
우려와 결과
1997년, Latanya Sweeney는 인구조사 기록을 통해 미국 인구의 최대 87%가 5자리 우편번호, 성별, 생년월일을 조합하여 확인할 수 있다는 것을 발견했다.[21][22] 다른 사람들은 재식별. 익명의 심각한 위협, 우편 번호, 출생 및 성별의 날짜의 결합 또는 부분적으로, 그 날짜 없이는 1년과 달 탄생, 또는 특수 우편 번호 대신에 카운티 이름과 같은 드문데, 그런 재식별. 익명의 위험은 여러 인스턴스로 전락하고 있다고 주장하고 생각하지 않는다.[표창 필요한]
그러한 조합에 근거한 무단 재식별은 현재 GDPR 준수 가명화에 필요한 것처럼 데이터 제어기의 통제 하에 별도로 보관된 "추가 정보"에 대한 접근을 요구하지 않는다.
데이터가 재식별되는 개인도 자신의 재정, 건강 또는 선호에 대한 개인 정보를 소유하지 않으려는 조직에 자신의 정보를 첨부하여 판매할 위험이 있다. 이 자료의 공개는 불안, 수치심 또는 당혹감을 유발할 수 있다. 일단 재식별의 결과로 개인의 사생활이 침해되고 나면, 미래의 침해는 훨씬 더 쉬워진다: 일단 한 데이터 조각과 한 개인의 진짜 정체성 사이에 연결이 되면, 데이터와 익명의 정체성 사이의 어떤 연관성도 그 사람의 익명성을 깨뜨린다.[3]
재식별은 익명성을 보장하기로 약속한 기업이 계약 또는 불법행위 책임 증가와 재식별 후 사용자를 식별할 수 있는 정보를 제3자에게 공개함으로써 개인정보 보호정책을 위반하게 할 수 있다. 그들은 내부 정책을 위반할 뿐만 아니라, 금융 기밀성 또는 의료 사생활에 관한 법률인 주 및 연방법을 위반할 수도 있다.[3]
치료법
재식별의 리스크를 해소하기 위해 다음과 같은 몇 가지 제안이 제시되었다.
- 데이터 유틸리티를 유지하면서 더 높은 표준과 일관된 데이터 정의: 개인 정보 보호의 균형을 맞춰 데이터 삭제 거부와 재식별 위험을 줄여야 함
- 익명화된 정보의 개인 정보 보호 강화
- 익명화된 정보를 저장하는 데이터베이스의 보안 강화
- 악의적인 재식별에 대한 강력한 금지, 프라이버시 보호를 보장하고, 데이터 공유 프로젝트 및 노력에 대한 참여를 장려하는 광범위한 차별금지 및 프라이버시 법률의 통과, 과학계와 같은 학계에서의 통일된 데이터 보호 표준의 확립. 프라이버시 위반을 최소화하기 위해
- 데이터 공개 정책 작성: 탈식별 수사학이 정확한지 확인하고, 민감한 정보의 재식별 시도 및 보급을 금지하는 계약을 작성하며, 데이터 엔클로저를 설정하고, 필요한 보호 표준을 위험 수준에 맞추기 위해 데이터 기반 전략을 활용한다.[25]
- 요청된 데이터 세트에 대한 차등 개인 정보 보호 구현
- 실제 개인을 식별하지 않고 원시 데이터의 통계적 특성을 보여주는 합성 데이터 생성
전면적인 재신인정 금지가 촉구되었지만, 시행은 어려울 것이다. 그러나 국회의원들이 적발될 경우 재식별 노력에 맞서 싸우고 처벌할 수 있는 방법은 다음과 같다. 연방무역위원회와 연방수사국(Federal Bureau of Federal Strategy)의 더 가혹한 처벌과 더 강력한 집행, 재식별 피해자에게 재식별권을 부여하는 것, 그리고 재식별을 한 사람에 대한 행동권을 부여하는 것, 그리고 위임하는 것이다. 익명화된 데이터를 활용하고 분석하는 사람들을 위한 소프트웨어 감사 추적 정부 데이터 광부나 연구자와 같은 특정 데이터베이스의 신뢰할 수 있는 수신자에게도 소규모 재식별 금지가 부과될 수 있다. 이 금지는 시행하기가 훨씬 더 쉬울 것이고 재식별을 저해할 수도 있다.[9]
익명의 예
- "벨기에 MIT와 루바인의 조사관들은 15개월에 걸쳐 150만 명의 유럽 소국 휴대폰 사용자들에 대한 데이터를 분석한 결과, 공간 및 시간 해상도가 상당히 낮은 4개의 기준점만으로도 95%를 고유하게 식별하기에 충분하다는 것을 발견했다. 즉, 100만 명 이상의 "익명화된" 데이터 집합에서 한 사람의 완전한 위치 정보를 추출하기 위해서는, 한 시간 동안, 한 해에 네 번 정도 휴대폰 송신기에서 몇 백 야드 안에 그 사람을 배치하기만 하면 된다. 그 사람의 행방에 대한 구체적인 정보가 담겨 있다면 트위터 글 몇 개만 있으면 아마 필요한 모든 정보를 제공할 수 있을 겁니다.[26]
- "Y 염색체에서 짧은 탠덤 데이터 공유와 레크리에이션 유전체 계보 데이터베이스에 대한 질의는 반복된다. 성(性)과 나이, 상태 등 다른 유형의 메타데이터를 결합하여 그 사람의 신원을 파악할 수 있는 것으로 나타났다.."[27]
참고 항목
참조
- ^ "HTTPS, Secure HTTPS", SpringerReference, Berlin/Heidelberg: Springer-Verlag, 2011, doi:10.1007/springerreference_292, retrieved 2021-01-13
- ^ Richardson, Victor; Milam, Sallie; Chrysler, Denise (April 2015). "Is Sharing De-Identified Data Legal? The State of Public Health Confidentiality Laws and Their Interplay with Statistical Disclosure Limitation Techniques". The Journal of Law, Medicine & Ethics. 43 (1_suppl): 83–86. doi:10.1111/jlme.12224. hdl:2027.42/111074. ISSN 1073-1105. PMID 25846173. S2CID 9384220.
- ^ a b c d e f g h i j k l m Porter, Christine (2008). "Constitutional and Regulatory: De-Identified Data and Third Party Data Mining: The Risk of Re-Identification of Personal Information". University of Washington Shidler Journal of Law, Commerce & Technology. hdl:1773.1/417.
- ^ Peltz, Richard (2009). "Beyond the Final Frontier: A "Post-Racial" America?: The Responsibilities of Citizens: From the Ivory Tower to the Glass House: Access to "De-Identified" Public University Admission Records to Study Affirmative Action". Harvard Journal on Racial and Ethic Justice.
- ^ Hoffman, Sharona (2015). "Citizen Science: The Law and Ethics of Public Access to Medical Big Data". Berkeley Technology Law Journal. doi:10.15779/Z385Z78.
- ^ Greenberg, Yelena (2016). "Recent Case Developments: Increasing Recognition of "Risk of Harm" as an Injury Sufficient to Warrant Standing in Class Action Medical Data Breach Cases". American Journal of Law & Medicine. 42 (1): 210–4. doi:10.1177/0098858816644723. PMID 27263268. S2CID 77790820.
- ^ Groden, Samantha; Martin, Summer; Merrill, Rebecca (2016). "Proposed Changes to the Common Rule: A Standoff Between Patient Rights and Scientific Advances?". Journal of Health & Life Sciences Law.
- ^ 24 CFR § .104 2017.
- ^ a b c d Ohm, Paul (2010). "Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization". UCLA Law Review.
- ^ 스위니 L. 오직 당신, 당신의 의사 그리고 많은 다른 사람들만이 알 수 있다. 테크놀로지 사이언스 2015092903. 2015년 9월 25일.
- ^ Rouse, Margaret. "de-anonymization (deanonymization)". WhatIs.com. Retrieved 19 January 2014.
- ^ Narayanan, Arvind; Shmatikov, Vitaly. "Robust De-anonymization of Large Sparse Datasets" (PDF). Retrieved 19 January 2014.
- ^ Narayanan, Arvind; Shmatikov, Vitaly (22 November 2007). "How To Break Anonymity of the Netflix Prize Dataset". arXiv:cs/0610105.
- ^ Fritsch, Lothar (2008), "Profiling and Location-Based Services (LBS)", Profiling the European Citizen, Springer Netherlands, pp. 147–168, doi:10.1007/978-1-4020-6914-7_8, ISBN 978-1-4020-6913-0
- ^ Rocher, Luc; Hendrickx, Julien M.; de Montjoye, Yves-Alexandre (2019-07-23). "Estimating the success of re-identifications in incomplete datasets using generative models". Nature Communications. 10 (1): 3069. Bibcode:2019NatCo..10.3069R. doi:10.1038/s41467-019-10933-3. ISSN 2041-1723. PMC 6650473. PMID 31337762.
- ^ Fritsch, Lothar; Momen, Nurul (2017). Derived Partial Identities Generated from App Permissions. Gesellschaft für Informatik, Bonn. ISBN 978-3-88579-671-8.
- ^ Vokinger / Mühlematter, Kerstin Noëlle / Urs Jakob (2 September 2019). "Identifikation von Gerichtsurteilen durch "Linkage" von Daten(banken)". Jusletter (990).
- ^ Vokinger / Mühlematter, Kerstin Noëlle / Urs Jacob. "Re-Identifikation von Gerichtsurteilen durch "Linkage" von Daten(banken)".
- ^ Chandler, Simon (Sep 4, 2019). "Researchers Use Big Data And AI To Remove Legal Confidentiality". Forbes. Retrieved 10 December 2019.
- ^ "SRF Tagesschau". SRF Swiss Radio and Television. 2 September 2019. Retrieved 10 December 2019.
- ^ "How Unique am I?". Data Privacy Lab, Harvard University. Retrieved 2021-07-22.
- ^ Sweeney, Latanya. "Simple Demographics Often Identify People Uniquely" (PDF). Carnegie Mellon University, Data Privacy Working Paper 3. Retrieved 2021-07-22.
- ^ 라고스, 이안니. 2014. "심포슘: Personal Out of Data: 탈식별화(De-identification)의 의미 부여." 인디아나 법률 검토. 2017년 3월 26일 회수
- ^ 안, 세진. 2015. "설명: 어쨌든 누구의 게놈인가?: 공공 및 참여형 유전체학에서의 재식별 및 프라이버시 보호." 샌디에이고 법학 리뷰. 2017년 3월 26일 회수
- ^ 루빈스타인, 아이라 S, 그리고 우드로우드의 하트조그. "익명화와 위험" 워싱턴 법률 검토 2017년 3월 26일 회수
- ^ Hardesty, Larry. "How hard is it to 'de-anonymize' cellphone data?". MIT news. Retrieved 14 January 2015.
- ^ Melissa Gymrek; Amy L. McGuire; David Golan; Eran Halperin; Yaniv Erlich (18 January 2013). "Identifying personal genomes by surname inference". Science. 339 (6117): 321–4. Bibcode:2013Sci...339..321G. doi:10.1126/SCIENCE.1229566. ISSN 0036-8075. PMID 23329047. Wikidata Q29619963.
