데이터 큐레이션

Data curation

데이터 큐레이션은 다양한 소스에서 수집된 데이터의 구성과 통합이다. 데이터의 가치가 시간이 지남에 따라 유지되고 데이터가 재사용 및 보존될 수 있도록 데이터의 주석, 발행 및 표시를 포함한다. 데이터 큐레이션에는 "데이터에 가치를 더할 수 있는 용량과 함께 원칙적이고 통제된 데이터 생성, 유지보수 및 관리에 필요한 모든 프로세스"[1]가 포함된다. 과학에서 데이터 큐레이션은 전문가의 연구 논문 등 과학 문헌에서 중요한 정보를 추출하여 생물학적 데이터베이스의 입력과 같은 전자적 형식으로 변환하는 과정을 나타낼 수 있다.[2]

빅데이터의 근현대에는 특히 대용량·복잡한 데이터 시스템의 소프트웨어 처리에 있어서 데이터의 큐레이션이 더욱 두드러지게 되었다.[3] 이 용어는 디지털 인문학 프로젝트에서 문화 및 학술적 데이터를 늘리기 위해 데이터 큐레이션의 전문성과 분석적 관행이 필요한 역사적 사건과 인문학에서도 사용된다.[4][5] 넓은 의미에서 큐레이션은 구성요소를 생성, 관리, 유지관리 및 검증하기 위해 수행된 다양한 활동과 프로세스를 의미한다.[6] 특히, 데이터 큐레이션은 어떤 정보를 저장할 가치가 있는지, 얼마나 오래 저장할 수 있는지를 결정하기 위한 시도다.[7]

역사와 실천

사용자는 데이터베이스 자체보다는 일반적으로 데이터 큐레이션을 시작하고 메타데이터를 유지 관리한다.[8] 일리노이 대학 도서관정보과학대학원에 따르면, "데이터 큐레이션은 장학금, 과학, 교육에 대한 흥미와 유용성의 라이프사이클을 통한 데이터의 적극적이고 지속적인 관리, 큐레이션 활동을 통해 데이터 검색 및 검색, 품질 유지, 가치 추가, 재확보 등을 가능하게 한다.시간이 지남에 따라."[9] 데이터 큐레이션 워크플로우는 데이터 품질 관리, 데이터 보호, 라이프사이클 관리데이터 이동과 구별된다.[8]

인구조사 데이터는 20세기 초부터 표로 된 펀치카드 형태로 이용 가능했으며 1960년대부터 전자적으로 이용되어 왔다.[10] 대학간 정치 사회 연구를 위한 컨소시엄(ICPSR) 웹사이트는 1962년을 첫 번째 조사 데이터 보관 날짜로 표시한다.[11]

데이터 라이브러리에 대한 깊은 배경은 1982년 일리노이 저널인 Library Trends에 실렸다.[12] 데이터 아카이브 이동에 대한 과거 배경은 "숫자 데이터에 대한 사회 과학 정보 요구 사항: 국제 데이터 아카이브 인프라의 발전."[13] 어떤 조직 내에서 수행되는 정확한 큐레이션 프로세스는 데이터의 양, 데이터가 얼마나 많은 소음을 포함하고 있는지, 그리고 데이터의 예상되는 미래 사용이 데이터 배포에 무엇을 의미하는지 등에 따라 달라진다.[3]

우주 데이터의 위기는 1982년에 결성된 우주 데이터 시스템 협의회(CCSDS)[14]가 주관한 1999년 개방형 아카이브 정보 시스템(OAIS) 모델을 만드는 계기가 되었다.[15]

데이터 큐레이션이라는 용어는 생물학적 데이터베이스의 맥락에서 사용되기도 하는데, 여기서 구체적인 생물학적 정보는 먼저 다양한 연구 논문에서 얻은 다음 데이터베이스의 특정 범주에 저장된다. 예를 들어, 항우울제에 대한 정보는 다양한 출처에서 얻을 수 있으며, 그것들이 데이터베이스로 이용 가능한지 여부를 확인한 후, 그것들은 약물의 데이터베이스의 항우울제 범주에 따라 저장된다. 기업은 또한 데이터 품질과 정확성을 보장하기 위해 운영 및 전략 프로세스 내에서 데이터 큐레이션을 활용하고 있다.[16][17]

의료 영상물에서 데이터 큐레이션은 일반적으로 DICOM과 같은 의료 영상 파일 형식의 영상 픽셀 데이터나 영상 메타데이터의 조정을 말한다. 또한 데이터 큐레이션은 보건 시설 또는 기타 임상 환경에서 영상 데이터의 획득에 따른 처리 단계를 나타낼 수 있다. 그러한 맥락에서, 데이터 관리, 데이터 생성, 수정, 검증, 추출, 통합, 표준화, 변환, 유지보수, 품질 보증 및 검증뿐만 아니라 데이터 무결성, 추적성재현성 검사를 포함하는 다양한 활동을 포괄하는 용어다.[18]

프로젝트 및 연구

DIPIR(Distribution Information Package for Information Reuse) 프로젝트는 정량적 사회과학자, 고고학자, 동물학자가 생산하고 사용하는 연구 데이터를 연구하고 있다. 2차 데이터 및 디지털 큐레이터, 디지털 리포지토리 관리자, 데이터 센터 직원, 디지털 정보를 수집, 관리 및 저장하는 연구자가 대상이다.[19]

단백질 데이터 은행은 1971년 브룩헤이븐 국립 연구소에 설립돼 글로벌 프로젝트로 성장했다.[20] 단백질과 다른 큰 생물학적 분자의 3차원 구조 데이터를 위한 데이터베이스인 PDB는 모두 표준화되고 실험 데이터에 대해 검증되며 주석이 추가된 12만 개 이상의 구조물을 포함하고 있다.

플라이베이스(FlyBase)는 곤충류인 드로소필리과(Drossopiliae)의 유전 및 분자 데이터의 일차 보고로 1992년으로 거슬러 올라간다. 플라이베이스는 전체 드로필라 멜라노가스터 게놈에 주석을 달았다.[21]

언어 데이터 컨소시엄은 1992년으로 거슬러 올라가는 언어 데이터를 위한 데이터 저장소다.[22]

슬론 디지털 스카이 서베이(Sloan Digital Sky Survey)는 2000년부터 밤하늘을 조사하기 시작했다.[23] 컴퓨터 과학자인 짐 그레이는 SDSS의 데이터 아키텍처를 연구하면서 과학계의 데이터 큐레이션 아이디어를 옹호했다.[24]

DataNet은 미국 국립과학재단 사이버인프라 연구소의 연구 프로그램으로, 과학 분야의 데이터 관리 프로젝트에 자금을 지원했다.[25] DataONE(Data Observation Network for Earth)은 DataNet을 통해 자금을 지원하는 프로젝트 중 하나로 환경과학계가 데이터를 보존하고 공유할 수 있도록 돕는다.[26]

참고 항목

참조

  1. ^ 2014년 12월 17~19일 인도 하이데라바드에서 열린 제20차 데이터 관리 국제 컨퍼런스(COMAD) 2014에서 René J. Miller, "빅 데이터 큐레이션"
  2. ^ 바이오 크리에이티브 용어집. 2016년 10월 3일에 회수됨.
  3. ^ a b Furht, Borko; Armando Escalante (2011). Handbook of Data Intensive Computing. Springer Science & Business Media. p. 32. ISBN 9781461414155. Retrieved 2 October 2016.
  4. ^ Sabharwal, Arjun (2015). Digital Curation in the Digital Humanities: Preserving and Promoting Archival and Special Collections. Chandos Publishing. p. 60. ISBN 9780081001783. Retrieved 2 October 2016.
  5. ^ 줄리아 플랜더스와 트레버 무뇨즈 http://guide.dhcuration.org/intro/의 "인문학적 데이터 큐레이션 소개". 더 이상 사용할 수 없음: archive.org
  6. ^ 필린 용어집. 더 이상 사용할 수 없음: archive.org
  7. ^ a b Borgman, C (2015). Big data, little data, no data: Scholarship in the networked world. Cambridge, Massachusetts: MIT Press. pp. 13. ISBN 978-0-262-02856-1.
  8. ^ a b Chessell, Mandy; Nigel L Jones; Jay Limburn; David Radley; Kevin Shank (2015). Designing and Operating a Data Reservoir. IBM Redbooks. pp. 111–113. ISBN 9780837440668. Retrieved 2 October 2016.
  9. ^ Cragin, Melissa; Heidorn, P. Bryan; Palmer, Carole L.; Smith, Linda C. (2007). "An Educational Program on Data Curation". ALA Science & Technology Section Conference. Retrieved 7 October 2013.
  10. ^ "Preserving Digital Information (PDI) report" (PDF). 1996. Retrieved 2018-03-13.
  11. ^ "ICPSR: History". www.icpsr.umich.edu. Retrieved 2018-03-15.
  12. ^ Heim, Kathleen M. (November 29, 1982). "Library Trends 30 (3) Winter 1982: Data Libraries for the Social Sciences" – via www.ideals.illinois.edu. Cite 저널은 필요로 한다. journal= (도움말)
  13. ^ 캐슬린 M. Heim, "숫자 데이터에 대한 사회 과학 정보 요구: 수집 관리 9 (1987년 봄)의 "국제 데이터 아카이브 인프라의 진화": 1-53.
  14. ^ "The OAIS reference model". 2015-12-09. Retrieved 2018-03-15.
  15. ^ "CCSDS.org - The Consultative Committee for Space Data Systems (CCSDS)". public.ccsds.org. Retrieved 2018-03-14.
  16. ^ E. 커리, A. 프리타스, 그리고 S. O'Riain, "기업을 위한 커뮤니티 주도 데이터 큐레이션의 역할" 2012-01-23 엔터프라이즈 데이터 연결의 웨이백 머신보관 우드, 에드. 보스턴, 2010년 스프링거 US, 25-47페이지 ISBN 978-1-4419-7664-2
  17. ^ A. Freitas, E. Curry, "빅 데이터 큐레이션", 2015년 데이터 중심 경제인 Springer(Open Access)를 위해 New Horizons의 웨이백 머신에 2016-09-13 보관.
  18. ^ Diaz, Oliver; Kushibar, Kaisar; Osuala, Richard; Linardos, Akis; Garrucho, Lidia; Igual, Laura; Radeva, Petia; Prior, Fred; Gkontra, Polyxeni; Lekadir, Karim (2021). "Data preparation for artificial intelligence in medical imaging: A comprehensive guide to open-access platforms and tools". European Journal of Medical Physics. Retrieved 30 April 2021.
  19. ^ DIPIR(정보 재사용을 위한 보급 정보 패키지) 프로젝트 http://www.oclc.org/research/themes/user-studies/dipir.html
  20. ^ "RCSB PDB: About the PDB Archive and the RCSB PDB". About the PDB Archive and the RCSB PDB. Retrieved 15 March 2018.
  21. ^ Gramates, LS; Marygold, SJ; dos Santos, G; Urbano, J-M; Antonazzo, G; Matthews, BB; Rey, AJ; Tabone, CJ; Crosby, MA; Emmert, DB; Falls, K; Goodman, JL; Hu, Y; Ponting, L; Schroeder, AJ; Strelets, VB; Thurmond, J; Zhou, P; FlyBase Consortium (2017). "lyBase at 25: looking to the future". Nucleic Acids Res. 45 (D1): D663–D671. doi:10.1093/nar/gkw1016. PMC 5210523. PMID 27799470.
  22. ^ "About LDC". Linguistic Data Consortium. Retrieved 15 March 2018.
  23. ^ "Sloan Digital Sky Survey". SDSS. Retrieved 15 March 2018.
  24. ^ Palmer, Carole L.; Weber, Nicholas M.; Muñoz, Trevor; Renear, Allen H. (June 2013). "Foundations of Data Curation: The Pedagogy and Practice of "Purposeful Work" with Research Data". Archive Journal. 3. hdl:2142/78099.
  25. ^ "Sustainable Digital Data Preservation and Access Network Partners (DataNet) Program Summary". National Science Foundation. September 28, 2007. Retrieved March 15, 2018.
  26. ^ "What is DataONE?". What is DataONE?. Retrieved 15 March 2018.

외부 링크

  • 생태 및 환경 데이터 큐레이션: DataONE
  • 여러 과학 분야를 아우르는 데이터 관리 툴 및 서비스: DataConcouncil