데이터 삭제

Data sanitization

데이터 삭제는 데이터셋과 미디어에서 중요한 데이터를 안전하고 영구적으로 삭제하여 광범위한 법의학적 [1]분석을 통해도 잔여 데이터를 복구할 수 없도록 보장합니다.데이터 삭제는 다양한 애플리케이션을 지원하지만 주로 수명이 다한 전자 장치를 삭제하거나 중요한 정보를 포함하는 대규모 데이터 세트를 공유하고 사용하는 데 사용됩니다.디바이스에서 개인 데이터를 삭제하는 주요 전략은 물리적 파괴, 암호화 삭제 및 데이터 삭제입니다.데이터 삭제라는 용어는 전자 미디어상의 데이터만을 포함하는 것으로 간주될 수 있지만, 종이 복사와 같은 물리적 미디어도 포괄합니다.이러한 데이터 유형은 전자 파일에서는 소프트라고 불리며 물리적 미디어 용지 복사에서는 하드라고 불립니다.또한 휴리스틱 기반 방법, 머신 러닝 기반 방법, k-소스 [2]익명성 등 중요한 데이터를 정리할 때도 데이터 삭제 방법이 적용됩니다.

온라인 스토리지로 이동하는 데이터의 양이 증가함에 따라 이러한 삭제가 필요하며, 이는 디바이스가 다른 개인에게 재판매되는 상황에서 프라이버시 위험을 야기합니다.최근 몇 년간 개인 정보가 전자 형식으로 저장되고 개인 정보를 배포하는 데 더 크고 더 복잡한 데이터 세트가 사용됨에 따라 데이터 삭제의 중요성이 높아지고 있습니다.전자 스토리지는 더 많은 개인 데이터를 저장할 수 있도록 확장되었습니다.따라서 사용하지 않게 되면 디바이스에 데이터가 남지 않도록 하기 위해서는 보다 고도의 데이터 삭제 기술이 필요합니다.또한 대량의 데이터를 전송할 수 있는 기술 도구를 통해 더 많은 개인 데이터를 공유할 수 있습니다.특히 클라우드 기반 정보 공유 및 저장의 인기가 높아짐에 따라 공유되는 모든 데이터를 확실하게 정리하는 데이터 삭제 방법이 큰 문제가 되고 있습니다.따라서 정부와 민간 기업이 데이터 손실이나 기타 보안 사고를 방지하기 위해 데이터 삭제 정책을 수립하고 시행하는 것이 현명합니다.

공공부문 및 민간부문에서의 데이터 삭제 정책

데이터 삭제는 대부분의 기술 분야에서 일반적인 지식이지만, 모든 비즈니스 및 정부 수준에서 일관되게 이해되는 것은 아닙니다.따라서 데이터 손실, 국가 기밀 유출, 특허 기술 공개 및 정부 기관의 계약 경쟁 금지 가능성을 방지하기 위해 정부 계약 기관 및 민간 산업에서 포괄적인 데이터 삭제 정책이 필요합니다.

Creative Commons Attribution-Share Equal 3.0, Wikimedia, Creative Commons Attribution-Share 3.0, CIA 3인조, John M. Kennedy 지음

점점 더 연결되는 세계에서 정부, 기업 및 개인은 정보의 기밀성을 라이프 사이클 전체에 걸쳐 유지하기 위해 특정 데이터 삭제 프로토콜을 따르는 것이 더욱 중요해지고 있습니다.이 순서는 기밀성, 무결성 및 가용성이라는 핵심 정보 보안의 3가지 요소에 매우 중요합니다.CIA의 삼합회는 특히 정부 청부업자로 활동하거나 기타 민감한 개인정보를 취급하는 사람들과 관련이 있습니다.이를 위해 정부 청부업자는 특정 데이터 삭제 정책을 따르고 이러한 정책을 사용하여 NIST Special Publication 800-88에서 [3]다루는 National Institute of Standards and Technology 권장 미디어 삭제 지침을 시행해야 합니다.더욱 동안 개인 산업, 전형적인 데이터를 건전하게 만들기.을 위한 NIST800-88 표준을 따르지 않아도 된다 DFARS 조항 252.204-7012, Safeguarding 커버드 국방 정보 및 사이버 사고 통보[4]로 요구한 CUI 이상(Unclassified 정보 Controlled)을 요구하는 정부 일에 만연하고 있다.사행업계 전체에서 기밀 데이터를 취급하는 베스트 프랙티스로 간주되고 있습니다.이 문제를 더욱 복잡하게 만들자면, 사이버 전문가의 지속적인 부족과 적절한 사이버 위생에 대한 혼란은 많은 정부 계약자들에게 기술과 자금 격차를 만들었다.

그러나 이러한 권장된 삭제 정책을 따르지 않으면 데이터 손실, 국가 기밀 유출, 독점 기술 손실 및 정부 [5]기관의 계약 경쟁 방지 등 심각한 결과를 초래할 수 있습니다.따라서 정부 청부업자 커뮤니티는 데이터 삭제 정책이 제대로 정의되어 있는지 확인하고 NIST의 데이터 삭제 지침을 따라야 합니다.또한 데이터 삭제의 핵심은 전자적인 "소프트 카피" 데이터에 집중되어 있는 것처럼 보이지만, "하드 카피" 문서 등 다른 데이터 소스는 동일한 삭제 정책에서 다루어져야 합니다.

데이터 삭제 경향

데이터 삭제 정책의 기존 인스턴스를 검토하고 이러한 정책 가이드라인과 권장사항을 개발, 활용 또는 따르지 않을 경우의 영향을 판단하기 위해 정부 계약 부문뿐만 아니라 국방, 에너지, 교통 등 기타 중요한 산업으로부터 연구 데이터를 통합했습니다.이들은 일반적으로 정부 규제에도 해당되기 때문에 선택되었으며, 따라서 NIST(National Institute of Standards and Technology) 지침과 정책은 미국에도 적용된다.Primary Data는 독립 조사 회사인 Coleman Parkes Research가 2019년 [6]8월에 수행한 연구에서 나온 것이다.이 연구 프로젝트는 1,800명 이상의 고위 관계자를 대상으로 설문 조사를 실시하면서 많은 사이버 고위 경영진과 정책 입안자를 대상으로 했습니다.Coleman Parkes의 데이터에 따르면 96%의 조직이 데이터 삭제 정책을 시행하고 있습니다.그러나 미국에서는 62%의 응답자만이 이 정책이 기업 전체에서 잘 전달되고 있다고 느끼고 있습니다.또한 원격 및 계약직 근로자가 데이터 삭제 정책을 준수할 가능성이 가장 낮았음을 알 수 있습니다.이러한 경향은 많은 정부 계약자와 민간 기업들이 Covid-19 대유행으로 인해 원격으로 작업하고 있기 때문에 더욱 시급한 문제가 되었다.정상 작업 환경으로 복귀한 후에도 이러한 상태가 지속될 가능성이 높습니다.

2021년 6월 26일 "비위생화로 인한 데이터 손실"에 대한 구글의 기본 검색 결과 2000만 개 이상의 결과가 반환되었습니다.여기에는 데이터 침해 및 비즈니스 손실, 군사 기밀 및 독점 데이터 손실, PHI(Protected Health Information),[7] PII(Personal Identifyable Information)[8] 및 필수 데이터 삭제 수행에 대한 많은 기사가 포함되어 있습니다.또, 이러한 기사의 상당수는, 미국 환경 보호청(Environmental Protection Agency) 「Sample Policy and Guidance Language for Federal Media Sanitization([9]연방 미디어 소독을 위한 샘플 정책 및 지침 언어)」 등, 기업이나 정부 기관의 기존의 데이터 삭제 및 보안 정책을 지적하고 있습니다.이러한 문서와 NIST 800-88 권장 사항에 따라 데이터 보안 수준 또는 분류에 따라 데이터는 [3]다음과 같아야 합니다.

  • 클리어 – 데이터 섹터를 덮어쓰고 기본 포맷에 포함되지 않은 이전 데이터 잔량을 삭제함으로써 기본 수준의 데이터 삭제 기능을 제공합니다.다시 한 번, 전자 매체에 초점을 맞추고 있습니다.이 방법은 일반적으로 동일한 데이터 보안 수준에서 조직 내에서 미디어를 재사용할 때 사용됩니다.
  • [Purged] (삭제)– 물리적인 방법(디가우스) 또는 논리적인 방법(섹터 덮어쓰기)을 사용하여 타깃 미디어를 읽을 수 없게 할 수 있습니다.일반적으로 미디어가 불필요해지고 데이터 보안 수준이 낮을 때 사용됩니다.
  • 파괴 – 데이터를 영속적으로 복구할 수 없습니다.또한 미디어가 조직을 떠나거나 수명이 다한 경우(종이의 분쇄, 하드 드라이브/미디어의 분쇄 및 소각 등)에 일반적으로 사용됩니다.이 방법은 일반적으로 국가 안보나 개인의 사생활과 안전에 심각한 피해를 줄 수 있는 매우 민감한 정보와 국가 기밀을 포함하는 미디어에 사용됩니다.

데이터 삭제의 장애

International Information Systems Security Certification Consortium 2020 Cyber Workforce의 조사에 따르면, 세계 사이버 보안 산업은 기술 부족으로 [10]인해 아직 312만 명 이상의 미채용 일자리를 보유하고 있습니다.따라서 정책에서 NIST 800-88을 이행할 수 있는 올바른 기술을 가진 사람은 프리미엄 인건비를 받을 수 있다.또한 데이터 보안 결과를 개선하고 데이터 손실을 줄이기 위해 적절한 데이터 수준 분류와 함께 이러한 검사 방법을 적절하게 구현해야 하는 정책 요구에 맞게 인력 및 자금을 조정할 필요가 있습니다.고객 및 클라이언트 데이터의 기밀성을 보장하기 위해 정부 및 민간 업계는 NIST 800-88에 설명된 모범 사례에 부합하는 구체적인 데이터 삭제 정책을 수립하고 따라야 합니다.일관성 있고 강제적인 정책 요건이 없으면 데이터가 손상될 위험이 높아집니다.이를 위해서는 자격 있는 인재를 유치하기 위해 사이버 보안 임금 프리미엄을 허용해야 한다.데이터, 즉 소유권 데이터, 개인정보, 영업비밀 및 기밀정보의 손실을 방지하기 위해서는 베스트 프랙티스를 따르는 것이 합리적입니다.

데이터 삭제 정책의 베스트 프랙티스

기밀 데이터 커버 시트(Glunggenbauer, CC 2.0 Wikimedia에서 공유)

데이터 삭제 정책은 포괄적이고 데이터 수준 및 관련 삭제 방법을 포함해야 합니다.작성된 모든 데이터 삭제 정책은 포괄적이고 소프트 및 하드 복사 데이터를 포함하는 모든 형식의 미디어를 포함해야 합니다.데이터의 카테고리도 정의하여 적절한 삭제 수준을 삭제 정책에 따라 정의해야 합니다.모든 데이터 수준이 적절한 검사 방법에 맞게 조정되도록 이 정책을 정의해야 합니다.예를 들어, 전자 저장 장치의 제어된 미분류 정보는 삭제 또는 삭제될 수 있지만, 기밀 또는 최고 기밀 자료를 저장하는 장치는 물리적으로 파괴해야 합니다.

모든 데이터 삭제 정책은 적용 가능해야 하며, 이에 따라 데이터를 삭제할 책임이 있는 부서 및 관리 구조를 보여 주어야 합니다.이 정책에서는 프로세스에서 고위 관리 책임자(일반적으로 최고 정보 보안 책임자 또는 이와 동등한 다른 최고 책임자)가 필요하며, 모든 레벨의 당사자에 대한 책임과 패널티를 정의합니다.이 정책 입안자에는 정보 시스템 소유자 및 정보 소유자 등의 개념을 정의하여 데이터 작성 [11]및 최종 삭제에 대한 책임 사슬을 정의합니다.또한 CISO 또는 기타 정책 옹호자는 정책 준수를 구현하고 집행하기 위해 추가 사이버 보안 작업자에게 자금이 배분되도록 해야 한다.감사 요건은 일반적으로 미디어 파괴를 증명하기 위해 포함되며, 이러한 추가 직원이 관리해야 합니다.중소규모 기업 및 광범위한 사이버 백그라운드 리소스가 없는 기업에서는 편집 가능한 데이터 삭제 정책 템플릿 형식으로 사용할 수 있습니다.IDSC(International Data Sanitization Consortium)와 같은 많은 단체들은 웹사이트 https://www.datasanitization.org/에서 이러한 정보를 무료로 제공합니다.

데이터 보안 및 삭제 원칙에 대한 교육을 받지 않으면 사용자가 정책을 준수할 것으로 기대하는 것은 불가능합니다.따라서 모든 수준에서 사용자가 정책을 준수할 때 자신의 역할을 이해할 수 있도록 작업 범주별 지침 및 빈도의 매트릭스를 포함해야 합니다.대부분의 정부 청부업자는 이미 모든 직원을 대상으로 매년 정보보안 교육을 실시해야 하기 때문에 이 작업은 쉽게 수행할 수 있을 것입니다.따라서 데이터 삭제 정책 컴플라이언스를 보장하기 위해 컨텐츠를 추가할 수 있습니다.

디바이스 삭제

데이터 삭제의 주된 용도는 스토리지 디바이스가 사용되지 않게 되거나 다른 Information [12]시스템으로 전송되면 디바이스를 완전히 삭제하고 모든 기밀 데이터를 파기하는 것입니다.이것은 데이터 보안 라이프 사이클(DSL)[1]과 정보 라이프 사이클 관리(ILM)의 중요한 단계입니다.이러한 단계는 모두 전자 디바이스의 사용 전체에 걸쳐 프라이버시와 데이터 관리를 보증하는 것입니다.이는 디바이스가 라이프 [1]사이클의 끝에 이르렀을 때 모든 데이터가 파괴되고 복구할 수 없게 하기 때문입니다.

데이터를 완전히 삭제하기 위한 데이터 삭제에는 물리적 파괴, 암호화 삭제 및 데이터 [1]삭제의 세 가지 주요 방법이 있습니다.세 가지 삭제 방법 모두 첨단 법의학 방법으로도 삭제된 데이터에 접근할 수 없도록 하는 것을 목표로 하고 있어 모바일 기기를 사용하지 [1]않게 된 후에도 개인의 데이터의 프라이버시를 유지하는 것이다.

물리적인 파괴

Creative Commons Attribution-Share Equal 4.0 International에서 공유된 CODIGO82의 전자 폐기물 처리 보류 중 및 전자 사이클링

물리적 삭제에는 저장된 데이터를 수동으로 삭제하는 작업이 포함됩니다.이 방법에서는, 전화, 컴퓨터, 하드 드라이브, 프린터등의 디바이스를 작은 조각으로 분할하기 위해서, 기계식 분쇄기 또는 디가우서를 사용합니다.데이터 보안 수준이 다르면 파괴 수준도 달라야 합니다.

디가우징은 하드 디스크 드라이브(HDD)에서 가장 일반적으로 사용되며 장치의 기능과 메모리 스토리지를 영구적으로 중단시키기 위해 고에너지 자기장을 사용합니다.데이터가 이 강한 자기장에 노출되면 메모리 저장소가 중화되어 다시 복구하거나 사용할 수 없습니다.데이터는 자기 방식을 사용하여 저장되지 않으므로 SSD(Solid State Disk)에는 소자가우징이 적용되지 않습니다.특히 민감한 데이터가 관련된 경우, 일반적으로 페이퍼 펄프, 특수 연소 및 솔리드 스테이트 [13]변환과 같은 프로세스를 사용합니다.이것에 의해, 종이, 하드 카피 미디어, 소프트 카피 미디어, 옵티컬 미디어, 전용 컴퓨팅 하드웨어 등, 모든 기밀 미디어를 적절히 폐기할 수 있습니다.

물리적인 파괴로 인해 데이터가 완전히 삭제되어 다시 사용할 수 없게 되는 경우가 많습니다.그러나 기계적 분쇄로 인한 기계적 폐기물의 물리적 부산물은 환경에 해를 끼칠 수 있지만, 최근 E-사이클링으로 회수되는 E-폐기물의 양이 증가하는 추세는 환경에 미치는 영향을 최소화하는 데 도움이 되었습니다.또한 데이터가 물리적으로 파괴되면 더 이상 재판매하거나 다시 사용할 수 없습니다.

암호화 삭제

암호화 삭제에는 저장된 정보를 보호하기 위해 사용되는 보안 키 또는 암호가 파괴됩니다.데이터 암호화에는 권한이 있는 당사자만 저장된 데이터에 액세스할 수 있도록 하는 보안 키의 개발이 포함됩니다.이 키를 영구적으로 삭제하면 저장된 개인 데이터에 더 이상 액세스할 수 없습니다.암호화 소프트웨어가 디바이스에 내장되어 있는 경우가 많기 때문에 암호화 삭제는 일반적으로 디바이스 자체의 제조원에 의해 설치됩니다. 삭제에 의한 암호화에는 [14]기밀 정보를 모두 암호화하기 위해 필요한 경우 보안 키를 사용하여 정보를 해독해야 합니다.정보를 삭제해야 할 경우 보안 키를 삭제할 수 있습니다.이를 통해 개별 파일이 [1]아닌 보안 정보를 한 번 삭제해야 하므로 다른 소프트웨어 방법보다 훨씬 쉽고 빠르게 데이터를 삭제할 수 있습니다.

암호 삭제는 키를 파괴하는 과정에서 제조 실패나 사람의 실수로 인해 오류가 발생할 수 있기 때문에 개인 정보가 많이 포함되지 않은 데이터 스토리지에 자주 사용됩니다.이것에 의해, 데이터 삭제의 결과 범위가 넓어집니다.이 방법을 사용하면 데이터를 장치에 계속 저장할 수 있으며 장치를 완전히 지울 필요가 없습니다.이렇게 하면 디바이스 자체의 물리적 무결성이 유지되므로 다른 개인 또는 회사에 디바이스를 다시 판매할 수 있습니다.단, 이 경우 디바이스의 데이터 암호화 수준은 향후 암호화 공격에 대한 내성이 있다고 가정합니다.예를 들어 128비트 AES 키를 사용한 암호화 삭제를 사용하는 하드 드라이브는 현재는 안전하지만 5년 후에는 이 수준의 암호화를 해제하는 것이 일반적일 수 있습니다.따라서 향후 프로세스를 입증하기 위해 데이터 삭제 정책에서 데이터 보안 수준을 선언해야 합니다.

데이터 삭제

데이터 삭제 프로세스에서는 사용되지 [1]않게 된 전자기기의 모든 섹터에 랜덤0 및 1을 삽입하여 바이트레벨의 모든 정보를 마스킹합니다.이 소프트웨어 기반 방법을 사용하면 이전에 저장된 모든 데이터를 완전히 숨기고 복구할 수 없으므로 데이터를 완전히 삭제할 수 있습니다.이 검사 방법의 효과와 정확성은 감사 가능한 [15]보고서를 통해서도 분석할 수 있습니다.

데이터 삭제는 전자 기기의 물리적인 무결성을 유지하면서 기술을 재판매 또는 재사용할 수 있도록 완전한 삭제를 보장하는 경우가 많습니다.이러한 기술 장치를 재활용할 수 있기 때문에 데이터 삭제는 보다 친환경적인 데이터 삭제 버전이 됩니다.이 방법은 데이터 마스킹의 유효성을 나중에 테스트하여 완전한 삭제를 보장할 수 있으므로 가장 정확하고 포괄적입니다.다만, 소프트웨어 베이스의 메카니즘에 의한 데이터 소거에는, 다른 방법에 비해 시간이 걸립니다.

데이터 삭제의 필요성

모바일 기기의 사물이 증가된 사용, 인터넷, 한번 장치 이상 사용에 민감한 데이터를 보호하기 위해 중요해 졌다 아니다 따라서 효과적 데이터가 삭제된 메서드 구현 기술, 클라우드 기반 저장 시스템, 휴대용 전자 기기 및 다양한 다른 전자 방법 민감한 정보를 저장할(IoT).[16]일반적으로 전자 기기의 사용이 증가하고 이러한 전자 기기의 개인 정보 저장량이 증가함에 따라, 최근 [17]몇 년 동안 데이터 삭제의 필요성이 훨씬 더 절실해졌습니다.

또한 문제가 있는 것으로 판명될 수 있는 개인 데이터의 디바이스를 완전히 청소하지 않는 특정 검사 방법도 있습니다.예를 들어 모바일 디바이스의 일부 원격 삭제 방법은 외부의 공격에 취약하며, 효과는 설치된 [16]각 개별 소프트웨어 시스템의 고유한 효율에 따라 달라집니다.리모트 와이핑에는 분실 또는 도난 시 디바이스에 무선 명령을 전송하여 모든 데이터를 완전히 삭제하도록 지시하는 작업이 포함됩니다.이 방법은 매우 유익하지만 몇 가지 단점도 있습니다.예를 들어 공격자가 원격 와이핑 방법을 조작하여 프로세스가 아직 필요하지 않은 경우에 신호를 보낼 수 있습니다.이로 인해 데이터 삭제가 불완전해집니다.공격자가 장치의 스토리지에 액세스할 수 있는 경우 저장된 모든 개인 정보가 노출될 위험이 있습니다.

클라우드 컴퓨팅과 스토리지는 점점 더 널리 사용되는 데이터 저장 및 전송 방법이 되었습니다.그러나 클라우드 컴퓨팅과 관련된 몇 가지 개인 정보 보호 문제는 아직 완전히 [18]조사되지 않았습니다.클라우드 컴퓨팅은 코드 주입, 패스 트래버설 공격, 자원 고갈 등의 다양한 공격에 취약합니다.이는 이러한 새로운 기술의 공유 풀 구조 때문입니다.이러한 클라우드 스토리지 모델에서는 이러한 문제를 해결하기 위해 특정 데이터 삭제 방법이 필요합니다.클라우드 스토리지 모델에서 데이터가 제대로 제거되지 않으면 여러 수준에서 보안 침해 가능성이 높아집니다.

부적절한 데이터 세트 삭제로 인한 리스크

부적절한 데이터 삭제 방법은 개인 정보 침해와 원래 데이터 세트의 무결성에 대한 손상이라는 두 가지 주요 문제를 야기할 수 있습니다.데이터 삭제 방법이 모든 중요한 정보를 제거하지 못할 경우 [18]공격자에게 이 정보가 유출될 위험이 있습니다.민감한 정보를 보존하는 방법을 최적화하기 위해 수많은 연구가 수행되었습니다.일부 데이터 삭제 방법에서는 데이터 포인트에 근접하지 않은 개별 포인트에 대한 민감도가 높습니다.이러한 유형의 데이터 삭제는 매우 정밀하며 감염된 데이터 지점이 실제 데이터에 [19]비교적 가까운 경우에도 이상을 탐지할 수 있습니다.데이터 삭제의 또 다른 방법은 데이터의 특이치도 제거하는 방법입니다만, 보다 일반적인 방법으로 데이터를 삭제합니다.데이터의 일반적인 경향을 검출해, 어긋난 데이터를 폐기해,[19] 그룹으로 삽입해도 이상 징후를 특정할 수 있습니다.일반적으로 데이터 삭제 기술은 알고리즘을 사용하여 이상 징후를 탐지하고 포이즈닝된 데이터 또는 중요한 정보로 의심되는 지점을 제거합니다.

또한 데이터 삭제 방법을 사용하면 유용하고 중요하지 않은 정보가 제거될 수 있습니다. 이렇게 하면 삭제한 데이터 집합의 유용성이 떨어지고 원본 데이터 집합에서 변경됩니다.기존의 데이터 세트 무결성이 손실되는 문제를 해결하기 위한 일반적인 데이터 삭제 기술이 반복되어 왔습니다.특히 Liu, Xuan, Wen 및 Song은 개선된 최소 민감 항목 집합 충돌 우선 알고리즘([20]IMSICF)이라는 새로운 데이터 검사 알고리즘을 제공했습니다.사용자의 프라이버시 보호에 중점을 두는 경우가 많기 때문에 이 방법은 데이터의 무결성 보호에 초점을 맞춘 새로운 관점을 가져옵니다.이 기능은 충돌 횟수가 가장 많은 항목만 청소하여 검사 프로세스를 최적화하는 방법을 학습하고, 데이터 세트의 일부를 가장 유용하게 보관하며, 민감한 자료의 충돌 정도를 분석하는 세 가지 주요 이점을 가지고 있습니다.데이터 세트의 무결성을 유지하는 데 도움이 될 수 있는 방법을 밝히기 위해 이 새로운 기술의 효과와 유용성에 대한 강력한 연구가 수행되었습니다.이 새로운 기술은 우선 데이터 집합의 특정 부분을 정확히 파악하고 컴퓨터 알고리즘을 사용하여 데이터 집합의 [20]제거 여부를 결정하는 데 얼마나 유용한지 간의 균형을 계산할 수 있습니다.이는 데이터가 즉시 폐기되기 전에 데이터의 유틸리티를 고려하는 새로운 데이터 삭제 방법입니다.

데이터 삭제 응용 프로그램

프라이버시 보호 데이터 마이닝, 어소시에이션 규칙 숨김 및 블록 체인 기반의 안전한 정보 공유를 위해 데이터 삭제 방법도 구현됩니다.이러한 방법에는 개인 정보가 포함된 대규모 데이터 세트의 전송 및 분석이 포함됩니다.기밀 정보가 노출되지 않도록 온라인에 공개되기 전에 이 개인 정보를 삭제해야 합니다.데이터 삭제는 분석 중인 데이터 세트에서도 개인 정보를 유지하기 위해 사용됩니다.

프라이버시 보호 데이터 마이닝

Privacy Preserving Data Mining(PPDM)은 기밀 자료의 프라이버시를 유지하면서 데이터 마이닝을 수행하는 프로세스입니다.데이터 마이닝에는 대규모 데이터셋을 분석하여 새로운 정보를 얻고 결론을 도출하는 작업이 포함됩니다.PPDM은 다양한 용도로 사용되며 민감한 소재를 포함하는 모든 대용량 데이터 세트를 전송하거나 사용하는 데 필수적인 단계입니다.

개인 데이터셋을 개인 또는 기업에서 분석에 사용하기 전에 먼저 데이터를 삭제해야 하므로 데이터 삭제는 개인 정보 보호를 위한 필수 단계입니다.개인 정보 보호 데이터 마이닝의 목적은 공격자가 개인 정보를 유출하거나 액세스하지 못하도록 하는 것이며 [21]기밀 데이터를 데이터를 제출한 개인에게 추적할 수 없도록 하는 것입니다.개인 정보 보호 데이터 마이닝은 원래 데이터 [22]세트의 무결성과 기능을 유지하면서 개인의 개인 정보 수준을 유지하는 것을 목표로 합니다.데이터셋을 사용하려면 데이터 삭제 프로세스 중에 원본 데이터의 필요한 부분을 보호해야 합니다.프라이버시와 유틸리티의 균형을 유지하는 것이 데이터 삭제 [22]방법의 주된 목표입니다.

이러한 프라이버시 및 유틸리티의 최적화를 실현하기 위한 한 가지 방법은 키 [22]생성이라고 불리는 프로세스를 사용하여 기밀 정보를 암호화 및 복호화하는 것입니다.데이터를 삭제한 후 키 생성을 사용하여 이 데이터가 안전하고 조작할 수 없도록 합니다.Rider Optimization Algorithm(ROA; 라이더 최적화 알고리즘) 등의 접근방식은 Randomized ROA(Randomized ROA; 랜덤화 ROA)라고도 불리며 이러한 키 생성 전략을 사용하여 기밀 정보를 [22]유출하지 않고 데이터를 전송할 수 있도록 최적의 키를 찾습니다.

키 생성의 일부 버전도 대규모 데이터셋에 맞게 최적화되었습니다.예를 들어, 새로운 방법 기반의 프라이버시 보존 분산 데이터 마이닝 전략은 키 생성을 통해 프라이버시를 높이고 기밀 자료를 숨길 수 있습니다.이 버전의 소독을 통해 대량의 물질을 소독할 수 있습니다.여러 다른 그룹과 정보를 공유하고자 하는 기업에서는 [23]이 방법론이 처리에 훨씬 더 오랜 시간이 걸리는 원래 방법보다 선호될 수 있습니다.

특정 데이터 삭제 모델은 각 제목의 개인 정보를 보존하기 위해 원래 데이터베이스에 정보를 삭제하거나 추가합니다.이러한 휴리스틱 기반 알고리즘은 특히 연관 규칙 마이닝 분야에서 더욱 대중화되기 시작하고 있습니다.경험적 접근 방식에는 패턴 숨기기, 규칙 숨기기 및 시퀀스 숨기기를 사용하여 특정 정보를 숨기는 특정 알고리즘이 포함됩니다.이러한 유형의 데이터 은닉은 데이터의 광범위한 패턴을 커버하는 데 사용할 수 있지만 특정 정보 보호에는 그다지 효과적이지 않습니다.휴리스틱 기반 방법은 대규모 데이터 세트를 삭제하는 데 적합하지 않지만, 휴리스틱 기반 분야의 최근 개발에서는 이 문제를 해결하기 위한 방법을 분석했습니다.예를 들어, 시바니 샤르마와 [17]두르가 토시니와가 도입한, 빅데이터에 대한 휴리스틱 기반의 민감한 패턴 은닉 어프로치인 MR-OVNTSA 어프로치를 들 수 있습니다.이 접근법은 MR-OVNTSA라고도 불리는 휴리스틱 기반 최적 피해자 항목 및 트랜잭션 선택 접근법(MapReduce Based Optimum Defament Item and Transaction Selection access)을 사용한다. 이 접근법은 민감한 정보를 제거하고 숨기는 동시에 중요한 데이터의 손실을 줄이는 것을 목표로 한다.단계를 비교하고 삭제를 [17]최적화하는 알고리즘을 활용합니다.

PPDM의 중요한 목표는 데이터를 제출한 사용자의 프라이버시를 유지하는 동시에 개발자가 데이터셋을 최대한 활용할 수 있도록 하는 것입니다.PPDM의 많은 척도는 데이터 세트를 직접 수정하고 원래 버전을 복구할 수 없게 만드는 새로운 버전을 만듭니다.중요한 정보는 완전히 지워지고 공격자가 접근할 수 없게 됩니다.

연결 규칙 마이닝

데이터 삭제의 한 가지 유형은 정의된 컴퓨터 알고리즘을 사용하여 데이터 세트를 정리하는 규칙 기반 PPDM입니다.연결 규칙 숨김은 트랜잭션 [24]데이터베이스에 적용되는 데이터 삭제 프로세스입니다.트랜잭션 데이터베이스는 조직이 비즈니스를 수행할 때 트랜잭션을 기록하는 데 사용되는 데이터 스토리지의 일반적인 용어입니다.예를 들어 배송비, 신용카드 결제, 판매 주문 등이 있습니다.이 소스는 데이터 삭제의 54가지 방법을 분석하여 경향에 대한 4가지 주요 결과를 제시합니다.

머신 딥 러닝에 의존하는 특정 새로운 데이터 삭제 방법.현재 데이터 삭제 사용에는 다양한 약점이 있습니다.많은 방법이 보다 구체적인 데이터 [25]공격으로부터 보호할 수 있을 만큼 복잡하거나 상세하지 않습니다.중요한 데이터의 날짜를 지정하면서 프라이버시를 유지하려는 이러한 노력을 프라이버시 보호 데이터 마이닝이라고 합니다.기계학습은 다양한 유형의 공격에 더 잘 적응하고 더 넓은 범위의 상황에 맞서는 법을 배울 수 있는 방법을 개발한다. 러닝을 통해 데이터 삭제 방법을 단순화하고 이러한 보호 조치를 보다 효율적이고 시간 소모적인 방법으로 실행할 수 있습니다.

또한 두 기술 간의 균형을 달성하기 위해 규칙 기반 및 기계 딥 러닝 방법을 모두 활용하는 하이브리드 모델도 있습니다.

블록 체인 기반의 안전한 정보 공유

브라우저 백업 클라우드 스토리지 시스템은 데이터 삭제에 크게 의존하고 있으며 점점 더 널리 사용되는 데이터 [26]스토리지 경로가 되고 있습니다.또한 통신 및 [18]협업을 위해 클라우드 스토리지를 사용하는 기업 및 직장에서는 사용 편의성이 중요합니다.

블록체인은 안전한 방법으로 정보를 기록하고 전송하기 위해 사용되며, 이 데이터를 보다 안전하고 정확하게 전송하기 위해서는 데이터 삭제 기술이 필요합니다.특히 서플라이 체인(supply-chain) 관리에 종사하고 있는 사람에게 적합하며, 서플라이 체인([18]supply-chain) 프로세스를 최적화하려는 사람에게도 도움이 될 수 있습니다.예를 들어 Whale Optimization Algorithm(WOA)은 안전한 키 생성 방법을 사용하여 블록 체인 [18]기술을 통해 정보를 안전하게 공유합니다.글로벌 개발 수준이 높아지고 전자적 의존도가 높아짐에 따라 블록체인 방식 개선의 필요성이 높아지고 있습니다.

업계 고유의 응용 프로그램

헬스케어

의료 산업은 환자에 대한 기밀 정보를 저장하기 위해 데이터 마이닝과 데이터셋 사용에 크게 의존하는 중요한 분야입니다.전자 스토리지의 사용도 최근 몇 년 동안 증가하고 있으며, 이를 위해서는 보다 포괄적인 연구와 전자 스토리지가 초래할 수 있는 위험에 대한 이해가 필요합니다.현재 데이터 마이닝 및 스토리지 기술은 제한된 양의 정보만 저장할 수 있습니다.이로 인해 데이터 스토리지의 효율성이 저하되고 데이터 저장 비용이 증가합니다.클라우드 기반 시스템과 관련된 새로운 고급 데이터 저장 및 마이닝 방법은 더 많은 양의 정보를 마이닝 및 저장할 수 있기 때문에 점점 더 인기를 끌고 있습니다.

레퍼런스

  1. ^ a b c d e f g "Data Sanitization Terminology and Definitions". International Data Sanitization Consortium. Retrieved 2021-07-03.
  2. ^ "K - anonymity: An Introduction". Privitar. 2017-04-07. Retrieved 2021-06-12.
  3. ^ a b Regenscheid, Andrew R.; Feldman, Larry; Witte, Gregory A. (2015-02-05). "NIST Special Publication 800-88, Revision 1: Guidelines for Media Sanitization". Nist.
  4. ^ DFARS 조항 252.204-7012, 커버드 국방 정보 보호 및 사이버 사고 보고https://www.acq.osd.mil/dpap/policy/policyvault/USA002829-17-DPAP.pdf
  5. ^ Vinson; Tabb, Elkins LLP-Jamie F.; McIntyre, Elizabeth Krabill; Satira, John M. (2019-07-10). "Truth or Cyber-Consequences: Government Contractor Suspended After Suffering Cyberattack and Data Breach". Lexology. Retrieved 2021-07-03.
  6. ^ Coleman Parkes Research (18 May 2020). "Data Sanitization: Policy vs. Reality 2019". Retrieved 2021-06-19.
  7. ^ Division (DCD), Digital Communications (2015-06-07). "What is PHI?". HHS.gov. Retrieved 2021-06-26.
  8. ^ "What is Personally Identifiable Information?". Department of Homeland Security. 2020-11-30. Retrieved 2021-06-26.
  9. ^ Environmental Protection Agency (June 2012). "Sample Policy and Guidance Language for Federal Media Sanitization" (PDF). Retrieved 2021-06-19.
  10. ^ International Information Systems Security Certification Consortium, Cyber Security Workforce Study 2020, https://www.isc2.org/Research/Workforce-Study# [접속, 6월 22일/20일]
  11. ^ CISOMAG (2019-11-20). "How Data Erasure Can Safeguard Data Security". CISO MAG Cyber Security Magazine. Retrieved 2021-07-03.
  12. ^ "Data Sanitization University IT". uit.stanford.edu. Retrieved 2021-04-30.
  13. ^ "NSA Classified Materiel Conversion (CMC)". www.nsa.gov. Retrieved 2021-06-26.
  14. ^ Diesburg, Sarah M.; Wang, An-I Andy (2010-12-03). "A survey of confidential data storage and deletion methods" (PDF). ACM Computing Surveys. 43 (1): 2:1–2:37. CiteSeerX 10.1.1.188.3969. doi:10.1145/1824795.1824797. S2CID 3336775.
  15. ^ "What is Data Sanitization? Data Erasure Methods Imperva". Learning Center. Retrieved 2021-04-30.
  16. ^ a b Leom, Ming Di; Choo, Kim-Kwang Raymond; Hunt, Ray (2016). "Remote Wiping and Secure Deletion on Mobile Devices: A Review". Journal of Forensic Sciences. 61 (6): 1473–1492. doi:10.1111/1556-4029.13203. PMID 27651127. S2CID 20563918.
  17. ^ a b c Sharma, Shivani; Toshniwal, Durga (2020-12-01). "MR-OVnTSA: a heuristics based sensitive pattern hiding approach for big data". Applied Intelligence. 50 (12): 4241–4260. doi:10.1007/s10489-020-01749-6. S2CID 220542429.
  18. ^ a b c d e Tabrizchi, Hamed; Kuchaki Rafsanjani, Marjan (2020-12-01). "A survey on security challenges in cloud computing: issues, threats, and solutions". The Journal of Supercomputing. 76 (12): 9493–9532. doi:10.1007/s11227-020-03213-1. S2CID 211539375.
  19. ^ a b Koh, Pang Wei; Steinhardt, Jacob; Liang, Percy (2018-11-01). "Stronger Data Poisoning Attacks Break Data Sanitization Defenses". arXiv:1811.00741 [stat.ML].
  20. ^ a b Liu, Xuan; Chen, Genlang; Wen, Shiting; Song, Guanghui (2020-05-31). "An Improved Sanitization Algorithm in Privacy-Preserving Utility Mining". Mathematical Problems in Engineering. 2020: 1–14. doi:10.1155/2020/7489045.
  21. ^ 올딘, Y.A.A.S., 살레, M. & Razzaque, M.A. 프라이버시 보호 데이터 마이닝에 관한 포괄적인 리뷰SpringerPlus 4, 694 (2015)https://doi.org/10.1186/s40064-015-1481-x
  22. ^ a b c d Shivashankar, Mohana; Mary, Sahaaya Arul (2021). "Privacy preservation of data using modified rider optimization algorithm: Optimal data sanitization and restoration model". Expert Systems. 38 (3): e12663. doi:10.1111/exsy.12663. S2CID 233433366.
  23. ^ Lekshmy, P. L.; Rahiman, M. Abdul (2020-07-01). "A sanitization approach for privacy preserving data mining on social distributed environment". Journal of Ambient Intelligence and Humanized Computing. 11 (7): 2761–2777. doi:10.1007/s12652-019-01335-w. S2CID 198324918.
  24. ^ Telikani, Akbar; Shahbahrami, Asadollah (2018). "Data sanitization in association rule mining: An analytical review". Expert Systems with Applications. 96: 406–426. doi:10.1016/j.eswa.2017.10.048.
  25. ^ Ahmed, Usman; Srivastava, Gautam; Lin, Jerry Chun-Wei (2021). "A Machine Learning Model for Data Sanitization". Computer Networks. 189: 107914. doi:10.1016/j.comnet.2021.107914. ISSN 1389-1286.
  26. ^ Balashunmugaraja, B.; Ganeshbabu, T. R. (2020-05-30). "Optimal Key Generation for Data Sanitization and Restoration of Cloud Data: Future of Financial Cyber Security". International Journal of Information Technology & Decision Making. 19 (4): 987–1013. doi:10.1142/S0219622020500200. S2CID 219768812.