합성 데이터

Synthetic data

합성 데이터는 McGraw-Hill 과학 및 [1]기술 용어 사전(Craig S)에 따라 "직접 측정으로 얻을 수 없는 주어진 상황에 적용할 수 있는 모든 생산 데이터"이다.데이터 관리 전문가인 Mullins는 프로덕션 데이터를 "전문가가 비즈니스 [2]프로세스를 수행하기 위해 지속적으로 저장 및 사용하는 정보"라고 정의합니다.

일반적으로 컴퓨터 시뮬레이션에 의해 생성된 데이터는 합성 데이터로 볼 수 있습니다.여기에는 음악 신시사이저 또는 비행 시뮬레이터와 같은 물리적 모델링의 대부분의 응용 프로그램이 포함됩니다.이러한 시스템의 출력은 실제와 비슷하지만 알고리즘적으로 완전히 생성됩니다.

프라이버시 보호의 관점에서 합성 데이터의 작성은 데이터 익명화에 관여하는 프로세스입니다.즉, 합성 데이터는 익명화된 [3]데이터의 서브셋입니다.합성 데이터는 데이터의 특정 측면의 기밀성을 손상시킬 수 있는 정보의 필터로 다양한 필드에서 사용됩니다.대부분의 경우 특정 측면은 인적 정보의 형태로 발생한다(예: 이름, 집 주소, IP 주소, 전화번호, 사회보장번호, 신용카드 번호).

유용성

합성 데이터는 원래 실제 데이터에서 찾을 수 없는 특정 요구 또는 특정 조건을 충족하기 위해 생성됩니다.이는 합성 데이터가 시뮬레이션 또는 이론적 가치, 상황 등으로 사용되기 때문에 모든 유형의 시스템을 설계할 때 유용합니다.이를 통해 예상치 못한 결과를 고려하여 결과가 만족스럽지 못한 경우 기본적인 해결책 또는 해결책을 얻을 수 있습니다.합성 데이터는 종종 인증 데이터를 나타내기 위해 생성되며 기준선을 [4]설정할 수 있습니다.합성 데이터의 또 다른 용도는 인증 데이터의 프라이버시와 기밀성을 보호하는 것입니다.앞에서 설명한 바와 같이, 합성 데이터는 다양한 유형의 시스템을 테스트하고 작성하는 데 사용됩니다.다음은 부정행위 탐지 시스템을 테스트하기 위한 합성 데이터를 생성하는 소프트웨어를 기술한 기사 요약에서 인용한 것입니다.그 사용과 중요성에 대해 자세히 설명합니다."이를 통해 사용자와 공격자를 위한 현실적인 행동 프로파일을 작성할 수 있습니다.이 데이터는 부정행위 탐지 시스템 자체를 훈련시키는 데 사용되며, 따라서 [4]특정 환경에 대한 시스템 적응이 필요합니다."

역사

실제 관측되지 않은 데이터 포인트를 추정/계산/생성할 수 있는 시뮬레이션을 실행할 수 있는 물리적 시스템의 과학적 모델링은 물리 자체의 역사와 동시에 실행되는 오랜 역사를 가지고 있다.예를 들어, 오디오와 음성의 합성에 대한 연구는 1930년대 이전으로 거슬러 올라갈 수 있으며, 전화와 오디오 녹음과 같은 발전에 의해 추진될 수 있다.디지털화는 1970년대 이후 소프트웨어 신시사이저를 탄생시켰다.

프라이버시 보존 통계 분석의 맥락에서 1993년에 루빈이 [5]원래의 완전 합성 데이터에 대한 아이디어를 만들었다.Rubin은 원래 10년마다 실시되는 인구총조사 장기 응답을 단시간 가구에 통합하기 위해 이것을 고안했다.그리고 나서 그는 실제 장기 서식 기록을 포함하지 않은 샘플을 공개했는데,[6] 이 샘플에서 그는 가구의 익명성을 유지했다.그 해 말, Little에 의해 부분적으로 합성된 원본 데이터의 아이디어가 만들어졌습니다.공용 파일의 [7]중요한 값을 합성하기 위해 이 아이디어를 사용한 사람은 거의 없었습니다.

1994년, Fienberg는 표본 [6]추출을 위해 모수적 후방 예측 분포(Bayes 부트스트랩 대신)를 사용한 임계 정제 아이디어를 생각해냈다.이후 합성 데이터 생성 개발에 기여한 다른 중요한 인물은 Trivellore Raghunathan, Jerry Laither, Donald Rubin, John M. Abowd Jim Woodcock이었습니다.이들은 결측 데이터가 있는 부분 합성 데이터를 처리하는 방법을 종합적으로 생각해냈습니다.마찬가지로 순차 회귀 다변량 [6]귀속 기술을 생각해냈습니다.

계산

연구자들은 합성 데이터에 대한 프레임워크를 테스트합니다. 합성 데이터는 "알고리즘의 성능을 객관적으로 평가할 수 있는 유일한 근거 자료"입니다.[8]

방향과 시작 위치가 [9]다른 랜덤 라인을 사용하여 합성 데이터를 생성할 수 있습니다.데이터셋은 상당히 복잡해질 수 있습니다.신시사이저 빌드를 사용하면 보다 복잡한 데이터 세트를 생성할 수 있습니다.신시사이저 빌드를 작성하려면 먼저 원본 데이터를 사용하여 데이터에 가장 적합한 모델 또는 방정식을 작성합니다.이 모델 또는 방정식은 신시사이저 빌드라고 불립니다.이 빌드를 사용하여 [10]더 많은 데이터를 생성할 수 있습니다.

신시사이저 빌드의 구축에는 통계 모델의 구축이 포함됩니다.선형 회귀선 예제에서는 원본 데이터를 플롯할 수 있으며 이 데이터에서 최적의 선형 선을 생성할 수 있습니다. 라인은 원본 데이터로 작성된 신시사이저입니다.다음 단계는 신시사이저 빌드 또는 이 선형 선 방정식으로부터 더 많은 합성 데이터를 생성하는 것입니다.이렇게 하면 새로운 데이터를 연구 및 연구에 사용할 수 있으며 원본 [10]데이터의 기밀성을 보호할 수 있습니다.

Knowledge Discovery Laboratory의 David Jensen은 합성 데이터를 생성하는 방법에 대해 설명합니다.연구자는 데이터 모델[10]대한 특정 데이터 특성의 영향을 자주 조사할 필요가 있습니다.자동상관이나 정도차이와 같은 특정 특성을 나타내는 데이터셋을 구축하기 위해 근접성은 몇 가지 유형의 그래프 구조 중 하나를 가진 합성 데이터를 생성할 수 있다: 랜덤 프로세스에 의해 생성되는 랜덤 그래프, 링 구조를 가진 격자 그래프, 그리드 구조를 가진 격자 그래프 등.[10]모든 경우 데이터 생성 프로세스는 동일한 프로세스를 따릅니다.

  1. 빈 그래프 구조를 생성합니다.
  2. 사용자가 제공한 이전 확률을 기반으로 속성 값을 생성합니다.

1개의 객체의 Atribute 값은 관련된 객체의 Atribute 값에 따라 달라질 수 있으므로 Atribute 생성 프로세스에서는 값을 [10]일괄적으로 할당합니다.

적용들

부정행위 탐지 및 기밀유지 시스템

테스트 및 훈련 부정행위 탐지 및 기밀유지 시스템은 합성 데이터를 사용하여 고안되었습니다.특정 알고리즘과 생성기는 현실적인 데이터를 생성하도록 설계되어 특정 상황이나 기준에 대응하는 방법을 시스템에 가르치는 데 도움이 됩니다.예를 들어 침입 탐지 소프트웨어는 합성 데이터를 사용하여 테스트됩니다.이 데이터는 인증 데이터를 나타내며 인증 데이터에서 찾을 수 없는 침입 인스턴스를 포함할 수 있습니다.합성 데이터를 통해 소프트웨어는 이러한 상황을 인식하고 그에 따라 대응할 수 있습니다.합성 데이터를 사용하지 않을 경우 소프트웨어는 인증 데이터에 의해 제공되는 상황에 대응하도록 훈련되며 다른 유형의 [4]침입을 인식하지 못할 수 있습니다.

과학적 연구

임상시험 또는 기타 연구를 수행하는 연구자는 향후 연구와 테스트를 위한 기준선을 만드는 데 도움이 되는 합성 데이터를 생성할 수 있다.

실제 데이터에는 연구자가 [12]원하지 않는 정보가 포함될 수 있으므로 데이터 세트의 개인 정보기밀성을 보호하기 위해 합성 데이터가 사용될 수 있습니다.합성 데이터를 사용하면 개인 정보가 저장되지 않고 개인으로 추적할 수 없으므로 기밀성 및 개인 정보 보호 문제가 줄어듭니다.

기계 학습

합성 데이터가 머신 러닝 애플리케이션에 점점 더 많이 사용되고 있습니다.모델은 실제 데이터로 학습을 전송할 목적으로 합성 생성된 데이터 세트에 대해 교육됩니다.데이터 과학 [13]실험을 가능하게 하는 범용 합성 데이터 생성기를 구축하기 위한 노력이 이루어졌다.일반적으로 합성 데이터에는 다음과 같은 몇 가지 이점이 있습니다.

  • 합성 환경이 준비되면 필요한 만큼의 데이터를 빠르고 저렴하게 생성할 수 있습니다.
  • 합성 데이터는 매우 비싸거나 손으로 얻을 수 없는 라벨을 포함하여 완벽하게 정확한 라벨을 가질 수 있다.
  • 모델 및 훈련을 개선하기 위해 합성 환경을 변경할 수 있습니다.
  • 예를 들어 민감한 정보를 포함하는 특정 실제 데이터 세그먼트를 대체하기 위해 합성 데이터를 사용할 수 있다.

이러한 합성 데이터의 사용은 특히 합성 환경이 물체[14]3D 모델인 컴퓨터 비전 애플리케이션, 그리고 시각적 정보로 환경을 탐색하는 학습에 제안되었습니다.

동시에, 전송 학습은 여전히 중요한 문제가 아니며, 합성 데이터는 아직 어디에나 보급되지 않았다.연구 결과에 따르면 소량의 실제 데이터를 추가하면 합성 데이터를 통한 전송 학습이 크게 개선됩니다.생성 모델, 특히 생성적 적대적 네트워크(GAN)의 발전은 데이터를 생산하고 훈련에 사용할 수 있다는 자연스러운 생각으로 이어진다.일반적으로 GAN과 적대적 훈련은 합성 데이터 [16]생성을 개선하는 데 이미 성공적으로 사용되고 있지만, 이 완전 합성 접근법은 아직 [15]실현되지 않았다.

현재, 합성 데이터는 전송 [20]학습을 위한 도메인 랜덤화 등의 기술을 사용하여 자율 주행 자동차 교육(특히 합성 환경을[17] 위한 현실적인 컴퓨터 게임 사용), 포인트 [18]트래킹 [19]및 소매 애플리케이션을 위한 에뮬레이트 환경에 실제로 사용되고 있습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ "Synthetic data". McGraw-Hill Dictionary of Scientific and Technical Terms. Retrieved November 29, 2009.
  2. ^ Mullins, Craig S. (February 5, 2009). "What is Production Data?". NEON Enterprise Software, Inc. Archived from the original on 2009-07-21.
  3. ^ MacHanavajjhala, Ashwin; Kifer, Daniel; Abowd, John; Gehrke, Johannes; Vilhuber, Lars (2008). Privacy: Theory meets Practice on the Map. 2008 IEEE 24th International Conference on Data Engineering. pp. 277–286. CiteSeerX 10.1.1.119.9568. doi:10.1109/ICDE.2008.4497436. ISBN 978-1-4244-1836-7. S2CID 5812674.
  4. ^ a b c Barse, E.L.; Kvarnström, H.; Jonsson, E. (2003). Synthesizing test data for fraud detection systems. Proceedings of the 19th Annual Computer Security Applications Conference. IEEE. doi:10.1109/CSAC.2003.1254343.
  5. ^ "Discussion: Statistical Disclosure Limitation". Journal of Official Statistics. 9: 461–468. 1993.
  6. ^ a b c Abowd, John M. "Confidentiality Protection of Social Science Micro Data: Synthetic Data and Related Methods. [Powerpoint slides]". Retrieved 17 February 2011.
  7. ^ "Statistical Analysis of Masked Data". Journal of Official Statistics. 9: 407–426. 1993.
  8. ^ Jackson, Charles; Murphy, Robert F.; Kovačević, Jelena (September 2009). "Intelligent Acquisition and Learning of Fluorescence Microscope Data Models" (PDF). IEEE Transactions on Image Processing. 18 (9): 2071–84. Bibcode:2009ITIP...18.2071J. doi:10.1109/TIP.2009.2024580. PMID 19502128. S2CID 3718670.
  9. ^ Wang, Aiqi; Qiu, Tianshuang; Shao, Longtan (July 2009). "A Simple Method of Radial Distortion Correction with Centre of Distortion Estimation". Journal of Mathematical Imaging and Vision. 35 (3): 165–172. doi:10.1007/s10851-009-0162-1. S2CID 207175690.
  10. ^ a b c d e David Jensen (2004). "6. Using Scripts". Proximity 4.3 Tutorial.
  11. ^ Deng, Robert H.; Bao, Feng; Zhou, Jianying (December 2002). Information and Communications Security. Proceedings of the 4th International Conference, ICICS 2002 Singapore. ISBN 9783540361596.
  12. ^ Abowd, John M.; Lane, Julia (June 9–11, 2004). New Approaches to Confidentiality Protection: Synthetic Data, Remote Access and Research Data Centers. Privacy in Statistical Databases: CASC Project Final Conference, Proceedings. Barcelona, Spain. doi:10.1007/978-3-540-25955-8_22.
  13. ^ Patki, Neha; Wedge, Roy; Veeramachaneni, Kalyan. The Synthetic Data Vault. Data Science and Advanced Analytics (DSAA) 2016. IEEE. doi:10.1109/DSAA.2016.49.
  14. ^ Peng, Xingchao; Sun, Baochen; Ali, Karim; Saenko, Kate (2015). "Learning Deep Object Detectors from 3D Models". arXiv:1412.7122 [cs.CV].
  15. ^ Sanchez, Cassie. "At a Glance: Generative Models & Synthetic Data". Archived from the original on 2017-10-05. Retrieved 5 September 2017.
  16. ^ Shrivastava, Ashish; Pfister, Tomas; Tuzel, Oncel; Susskind, Josh; Wang, Wenda; Webb, Russ (2016). "Learning from Simulated and Unsupervised Images through Adversarial Training". arXiv:1612.07828 [cs.CV].
  17. ^ Knight, Will. "Self-Driving Cars Can Learn a Lot by Playing Grand Theft Auto". Retrieved 5 September 2017.
  18. ^ De Tone, Daniel; Malisiewicz, Tomasz; Rabinovich, Andrew (2017). "Toward Geometric Deep SLAM". arXiv:1707.07410 [cs.CV].
  19. ^ "Neuromation has signed the letter of intent with the OSA Hybrid Platform for introducing a visual recognition service into the largest retail chains of Eastern Europe".
  20. ^ Tobin, Josh; Fong, Rachel; Ray, Alex; Schneider, Jonas; Zaremba, Wojciech; Abbeel, Pieter (2017). "Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World". arXiv:1703.06907 [cs.RO].

추가 정보