통계공시통제

Statistical disclosure control

통계공시제한(SDL) 또는 공개 회피라고도 하는 통계공시통제(SDC)는 조사나 행정자료의 분석 결과로부터 어떠한 개인이나 조직도 식별할 수 없도록 하기 위한 데이터 주도 연구나 마이크로데이터의 공개에 사용되는 기법이다.SDC의 목적은 응답자와 연구 대상자의 기밀성을 보호하는 것이다.[1]

SDC는 일반적으로 '출력 SDC'를 가리킨다. 예를 들어, 공개된 표나 그래프가 응답자에 대한 기밀 정보를 공개하지 않도록 보장한다.또한 SDC는 데이터에 적용되는 보호 방법(예: 이름과 주소 제거, 극단값 제한 또는 문제 있는 관측치 스와핑)을 설명할 수 있다.이를 '입력 SDC'라고 부르기도 하지만, 더 흔히 익명화, 탈식별화 또는 마이크로데이터 보호라고 부른다.

교과서(예)는 일반적으로 입력 SDC와 표 형식의 데이터 보호(출력 SDC의 다른 부분은 제외)를 다룬다.이 두 문제가 현장 개발을 지원한 통계기관에 직접적인 이해관계가 있기 때문이다.[3]분석 환경의 경우, 데이터 관리자가 연구를 위한 특정 출력 SDC를 주장하기 시작할 때까지 일반적으로 통계 기관을 위해 개발된 출력 규칙이 사용되었다.[4]

필요성

많은 종류의 사회, 경제, 건강 연구들은 조사나 인구 조사 자료, 세금 기록, 건강 기록, 교육 정보 등과 같이 잠재적으로 민감한 데이터를 연구의 기초로 사용한다.그러한 정보는 대개 자신 있게 제공되며, 행정 자료의 경우 반드시 연구를 목적으로 하는 것은 아니다.

연구원들은 보통 한 사람 또는 사업에 대한 정보에 관심이 없다; 그들은 더 큰 그룹의 사람들 사이에서 추세를 찾고 있다.[5]그러나 이들이 사용하는 데이터는 애초에 개인과 기업에 연동되어 있으며, SDC는 아무리 상세하거나 광범위하더라도 이를 공표된 데이터에서 식별할 수 없도록 보장한다.[6]

데이터 분석의 마지막에, 연구자는 어떻게든 그들의 연구를 통해 한 사람 또는 사업을 선별할 수 있다.예를 들어, 연구자는 한 병원만 그러한 치료를 제공하는 외딴 지역의 병원 내의 노인학 부서에서 예외적으로 양호하거나 좋지 않은 서비스를 식별할 수 있다.이 경우 분석에 사용된 데이터 세트가 적절히 익명화되거나 식별이 해제되더라도 데이터 분석은 병원의 신원을 '폐기'한다.

통계적 공시 통제는 이러한 공시 위험을 식별하고 분석 결과가 기밀성을 보호하기 위해 변경되도록 보장할 것이다.[7]기밀성 보호와 데이터 분석 결과가 통계 연구에 여전히 유용한지 확인하는 것 사이의 균형을 필요로 한다.[8]

출력 SDC

SDC를 출력하는 데는 원칙 기반규칙 기반이라는 두 가지 주요 접근방식이 있다.[9]원칙 기반 시스템에서 공시 통제는 예를 들어 "공개된 마이크로데이터에서 어떤 사람도 식별할 수 없어야 한다"[10]와 같은 특정 기본 원칙을 유지하려고 시도한다.이와는 대조적으로, 규칙 기반 시스템은 공개 제어를 수행하는 사람이 따라야 하는 특정 규칙 집합에 의해 입증되며, 이후에는 데이터가 공개해도 안전하다고 간주된다.일반적으로 공식 통계는 규칙에 기반하고, 연구 환경은 원칙에 기반할 가능성이 더 높다.

연구 환경에서 출력 점검 시스템의 선택은 상당한 운영상의 영향을 미칠 수 있다.[11]

규칙 기반 SDC

규칙 기반 SDC에서는 데이터 분석 결과가 공개될 수 있는지 여부를 결정하기 위해 엄격한 규칙 집합을 사용한다.규칙들이 일관성 있게 적용되어 어떤 종류의 산출물이 허용될 수 있는지 분명히 알 수 있다.규칙 기반 시스템은 시간, 데이터 소스, 생산 팀 간의 일관성을 보장하는 데 좋으며, 이는 통계 기관에 호소하게 만든다.[11]규칙 기반 시스템은 또한 microdata.no이나 Lissy와 같은 원격 작업 서비스에서도 잘 작동한다.

그러나 규칙이 융통성이 없기 때문에 공개 정보가 여전히 통과되거나, 규칙이 지나치게 제한적이어서 유용한 분석이 발표되기에는 너무 광범위한 결과만 허용할 수 있다.[9]실제로 규칙 기반 시스템을 실행하는 연구 환경은 '애드혹' 시스템에 유연성을 제공해야 할 수 있다.[11]

북아일랜드 통계청은 통계와 연구 결과를 발표하기 위해 규칙 기반의 접근법을 사용한다.[12]

원칙 기반 SDC

원칙 기반 SDC에서는 연구자와 출력 검사기 모두 SDC에서 교육을 받는다.그들은 규칙 기반 SDC에서와 같이 하드 규칙보다는 썸 규칙의 집합을 받는다.이는 원칙적으로 모든 출력이 승인되거나 거부될 수 있음을 의미한다.연구자의 출발점은 썸 규칙이다.연구자는 (1) '엄지의 법칙'을 위반하는 출력을 비복제 (2) 중요하며 (3) 이는 예외적인 요청이다.[13]어떤 '안전하지 않은' 결과물이 비복용적이라는 것을 증명하는 것은 연구자의 몫이지만, 체커는 최종 결정권을 가지고 있다.엄격한 규칙이 없기 때문에, 이것은 공개 위험에 대한 지식과 연구자와 검사자 모두의 판단을 필요로 한다.규칙 기반 모델보다 프로세스를 더 효율적으로 만들기 위해 사용할 수 있다는 주장이[11] 제기되었지만,[9] 교육 및 통계 및 데이터 분석에 대한 이해가 필요하다.

영국 데이터 서비스는 보안 데이터 서비스로부터 통계적 공시 통제에 원칙 기반 접근방식을 채택한다.[14]

비평

일반화, 세포 억제와 같은 현대의 많은 통계적 공시 통제 기법은 가상의 데이터 침입자에 의한 공격에 취약한 것으로 나타났다.예를 들어, Cox는 2009년에 보완적 세포 억제가 1차 세포와 보완적 세포 모두를 억제해야 하기 때문에 일반적으로 "과보호된" 해결책으로 이어지고, 그마저도 정확한 간격이 보고될 때 민감한 데이터의 절충으로 이어질 수 있다는 것을 보여주었다.[15]

보다 실질적인 비판은 통제 수단을 탐구하는 데 사용되는 이론적 모델이 실제 행동을 위한 가이드에 적합하지 않다는 것이다.[16]하프너 등은 관점의 변화가 실질적으로 다른 결과를 어떻게 도출할 수 있는지에 대한 실질적인 예를 제공한다.[3]

도구들

mu-Argus와 sdcMicro는 입력 SDC를 위한 오픈 소스 툴이다.

tau-Argus 및 sdcTable은 표 형식 데이터 보호를 위한 오픈 소스 툴이다.

참고 항목

참조

  1. ^ Skinner, Chris (2009). "Statistical Disclosure Control for Survey Data" (PDF). Handbook of Statistics Vol 29A: Sample Surveys: Design, Methods and Applications. Handbook of Statistics. 29: 381–396. doi:10.1016/S0169-7161(08)00015-1. ISBN 9780444531247. Retrieved March 2016. {{cite journal}}:날짜 값 확인: access-date=(도움말)
  2. ^ "References", Statistical Disclosure Control, Chichester, UK: John Wiley & Sons, Ltd, pp. 261–277, 2012-07-05, doi:10.1002/9781118348239.refs, ISBN 9781118348239, retrieved 2021-11-08
  3. ^ a b Hafner, Hans-Peter; Lenz, Rainer; Ritchie, Felix (2019-01-01). "User-focused threat identification for anonymised microdata". Statistical Journal of the IAOS. 35 (4): 703–713. doi:10.3233/SJI-190506. ISSN 1874-7655. S2CID 55976703.
  4. ^ Ritchie, Felix (2007). Disclosure detection in research environments in practice. Paper presented at UNECE/Eurostat work session on statistical data confidentiality.
  5. ^ "ADRN » Safe results". adrn.ac.uk. Retrieved 2016-03-08.
  6. ^ "Government Statistical Services: Statistical Disclosure Control". Retrieved March 2016. {{cite web}}:날짜 값 확인: access-date=(도움말)
  7. ^ Templ, Matthias; et al. (2014). "International Household Survey Network" (PDF). IHSN Working Paper. Retrieved March 2016. {{cite journal}}:날짜 값 확인: access-date=(도움말)
  8. ^ "Archived: ONS Statistical Disclosure Control". Office for National Statistics. Archived from the original on 2016-01-05. Retrieved March 2016. {{cite web}}:날짜 값 확인: access-date=(도움말)
  9. ^ a b c Ritchie, Felix, and Elliott, Mark (2015). "Principles- Versus Rules-Based Output Statistical Disclosure Control In Remote Access Environments" (PDF). IASSIST Quarterly. 39 (2): 5–13. doi:10.29173/iq778. Retrieved March 2016. {{cite journal}}:날짜 값 확인: access-date=(도움말)
  10. ^ Ritchie, Felix (2009-01-01). "UK release practices for official microdata". Statistical Journal of the IAOS. 26 (3, 4): 103–111. doi:10.3233/SJI-2009-0706. ISSN 1874-7655.
  11. ^ a b c d Alves, Kyle; Ritchie, Felix (2020-11-25). "Runners, repeaters, strangers and aliens: Operationalising efficient output disclosure control". Statistical Journal of the IAOS. 36 (4): 1281–1293. doi:10.3233/SJI-200661. S2CID 209455141.
  12. ^ "Census 2001 - Methodology" (PDF). Northern Ireland Statistics and Research Agency. 2001. Retrieved March 2016. {{cite web}}:날짜 값 확인: access-date=(도움말)
  13. ^ Office for National Statistics. "Safe Researcher Training".{{cite web}}: CS1 maint : url-status (링크)
  14. ^ Afkhamai, Reza; et al. (2013). "Statistical Disclosure Control Practice in the Secure Access of the UK Data Service" (PDF). United Nations Economic Commission for Europe. Retrieved March 2016. {{cite web}}:날짜 값 확인: access-date=(도움말)
  15. ^ Lawrence H. Cox, 침입자 공격에 대한 보완적 세포 억제의 취약성, 개인 정보 보호 및 기밀성 저널(2009) 1, 2, 페이지 235–251 http://repository.cmu.edu/jpc/vol1/iss2/8/
  16. ^ Ritchie, Felix; Hafner, Hans-Peter; Lenz, Rainer; Welpton, Richard (2018-10-18). "Evidence-based, default-open, risk-managed, user-centred data access". {{cite journal}}:Cite 저널은 필요로 한다. journal=(도움말)