데이터 공개

Data publishing

데이터 퍼블리싱(데이터 퍼블리싱)은 다른 사람이 사용할 수 있도록 공개된 형태로 연구 데이터를 공개하는 행위입니다.이는 공공용으로 특정 데이터 또는 데이터 세트를 준비하여 모든 사람이 원하는 대로 사용할 수 있도록 하는 관행이다.이 실천은 열린 과학 운동의 필수적인 부분이다.[1][2][3]관행으로 인한 편익에 대해서는 광범위하고 다방면에 걸친 합의가 이루어지고 있다.

주요 목표는 데이터를 1등급 연구 [4]성과물로 높이는 것입니다.많은 이니셔티브가 진행 중이며 합의점과 쟁점이 여전히 [5]논의 중이다.

연구 데이터를 이용할 수 있도록 하는 방법에는 다음과 같은 몇 가지가 있습니다.

  • 연구 기사와 관련된 보충 자료로서 데이터를 게시하는 것, 일반적으로 기사의 게시자가 호스팅하는 데이터 파일과 함께 게시하는 것
  • 다운로드 가능한 파일을 사용하여 공개 웹 사이트에서 데이터 호스팅
  • 데이터 게시를 지원하기 위해 개발된 저장소(: figshare, Dryad, Dataverse, Zenodo)에서 데이터를 호스팅합니다.연구 주제별 등 다수의 일반 및 전문 데이터 저장소가 존재합니다.[6]예를 들어, UK Data Service를 통해 사용자는 데이터 수집을 보관하고 연구 목적으로 다시 공유할 수 있습니다.
  • 데이터셋에 대한 데이터 페이퍼를 공개합니다.데이터 페이퍼에 대한 데이터 페이퍼는 프리프린트, 일반 저널 또는 데이터 페이퍼 지원 전용 데이터 저널에 게시할 수 있습니다.데이터는 저널에서 호스팅하거나 데이터 저장소에서 별도로 호스팅할 수 있습니다.

데이터를 게시하면 연구자는 자신의 데이터를 다른 사람이 사용할 수 있게 되고 데이터셋을 다른 연구 출판물 유형(기사 또는 책 등)과 유사하게 인용할 수 있게 되어 데이터셋 제작자는 자신의 작업에 대한 학술적 신용을 얻을 수 있습니다.

데이터를 게시하는 동기는 연구의 접근성을 높이고 데이터셋의 인용성을 활성화하며 개방형 데이터 게시가 필요한 연구 기금이나 출판사의 명령에 따라 다양할 수 있습니다.UK Data Service는[7] 데이터를 올바르게 인용하고 연구자가 이를 수행할 수 있도록 지원하는 것의 중요성을 높이기 위해 다른 조직과 협력하는 중요한 조직 중 하나입니다.

프라이버시 보호 알고리즘, 데이터 "마스킹" 방법, 지역 프라이버시 수준 계산 [8]알고리즘을 포함한 데이터 퍼블리싱 내의 프라이버시 보호를 위한 솔루션이 제안되었습니다.

데이터 게시 방법

보충 자료로서의 데이터 파일

다수의 저널과 발행자가 데이터 세트를 포함한 연구 기사에 첨부되는 보충 자료를 지원하고 있습니다.역사적으로 그러한 자료는 요청이나 마이크로폼을 통해서만 도서관에 배포되었을 수 있지만, 오늘날 저널은 일반적으로 그러한 자료를 온라인으로 호스팅한다.보충 자료는 저널 구독자 또는 기사 또는 저널이 공개되어 있는 경우 모두에게 제공됩니다.

데이터 저장소

일반 주제와 전문 주제 모두에서 많은 데이터 저장소가 있습니다.많은 저장소는 사회, 경제 및 인문 데이터의 신뢰할 수 있는 디지털 저장소인 UK Data Service와 같은 특정 연구 분야에 초점을 맞춘 교육 저장소입니다.저장소는 연구자가 데이터를 무료로 업로드하거나 데이터 호스팅에 대해 일회성 또는 지속적인 요금을 부과할 수 있습니다.이러한 저장소는 호스트된 데이터셋을 검색하고 참조하기 위한 공개적으로 액세스할 수 있는 웹 인터페이스를 제공하며, 디지털 개체 식별자, 데이터의 영구 인용, 관련 공개된 논문 및 코드 링크와 같은 추가 기능을 포함할 수 있습니다.

데이터 페이퍼

데이터 페이퍼 또는 데이터 기사는 "표준 학술 [9]관행에 따라 게시된 온라인 액세스 가능한 특정 데이터 세트 또는 데이터 세트 그룹을 설명하는 검색 가능한 메타데이터 문서의 학교 출판"입니다.최종 목표는 "데이터의 내용, 장소, 이유, 방법 및 사용자에 대한 정보"[4]를 제공하는 것입니다.데이터 페이퍼의 목적은 데이터 처리 및 [10]분석보다는 데이터 수집, 기능 식별, 액세스 및 잠재적 재사용에 초점을 맞춘 관련 데이터 세트에 대한 설명 정보를 제공하는 것입니다.데이터 페이퍼는 다른 유형의 논문과 다를 바 없는 학술 간행물로 간주되기 때문에 데이터를 공유하는 과학자가 학계에서 인식할 수 있는 통화로 신용을 받을 수 있게 되어 데이터 공유를 중요시하게 된다.[11]이는 데이터 공유에 대한 추가 인센티브를 제공할 뿐만 아니라 피어 리뷰 프로세스를 통해 메타데이터의 품질을 높이고 공유 데이터의 재사용 가능성을 높입니다.

따라서 데이터 페이퍼는 데이터 공유에 대한 학술적 커뮤니케이션 접근 방식을 나타냅니다.데이터 페이퍼는 그 잠재력에도 불구하고 모든 데이터 공유 및 재사용 문제에 대한 궁극적이고 완전한 솔루션은 아니며, 경우에 따라서는 [12]연구 커뮤니티에서 잘못된 기대를 유도하는 것으로 간주됩니다.

데이터 저널

데이터 페이퍼는, 「순수한」데이터 저널에 의해서 서포트되고 있습니다.즉, 데이터 페이퍼만을 게재하는 데이터 저널과 데이터 페이퍼를 포함한 다수의 기사를 「혼재」하는 데이터 저널이 있습니다.

데이터 저널에 대한 포괄적인 조사를 이용할 [13]수 있습니다.에든버러 [14]대학의 스탭에 의해서, 데이터 저널의 방대한 일람이 작성되고 있습니다.

순수 데이터 저널의 예로는 Earth System Science Data, Journal of Open Archiology Data, Open Health Data, Polar Data Journal, Scientific Data 등이 있습니다.

데이터 페이퍼를 발행하는 잡지의 예로는 Biodiversity Data Journal, F1000 Research, GigaScience, GigaByte, PLOS ONE, SpringerPlus 등이 있습니다.

데이터 인용

데이터 인용 예시

데이터 인용은 연구 기사나 논문같은 다른 출판된 소스에 대해 참고 문헌 인용을 제공하는 것과 마찬가지로 데이터 세트에 대해 정확하고 일관되고 표준화된 참조를 제공하는 것이다.일반적으로 DOI(Digital Object Identifier) 접근법은 DOI가 사용자를 데이터셋 [15][16]및 데이터셋 자체의 메타데이터가 포함된 웹 사이트로 이동시킬 때 사용됩니다.

발전의 역사

2011년 한 논문은 사회과학에서 [17]데이터 인용이 얼마나 자주 발생하는지 알 수 없다고 보고했습니다.

2012-13년 논문에 따르면 데이터 인용은 점점 보편화되고 있지만, 데이터 인용에 대한 관행은 [18][19][20]표준적이지 않다고 합니다.

2014년 FORCE 11은 데이터 [21]인용의 목적, 기능 및 속성을 다루는 데이터 인용 공동 선언을 발표했습니다.

2018년 10월, CrossRef는 데이터셋 카탈로그 작성 [22]및 인용 권장에 대한 지지를 표명했습니다.

데이터 중심의 한 인기 저널은 2019년 4월 데이터 [23]인용을 사용할 것이라고 보도했다.

2019년 6월 논문에 따르면 데이터 인용이 증가하면 데이터 공유를 장려하고 [24]공유하는 사람들의 위신을 높여 모든 사람에게 더 가치 있는 관행이 될 것이라고 한다.

데이터 인용은 컴퓨터 과학에서 새로운 주제이며 계산상의 [25]문제로 정의되어 왔다.실제로 데이터를 인용하는 것은 컴퓨터 과학자에게 중대한 과제를 안겨주며, 대처해야 할 주요 문제는 다음과 같습니다.[26]

  • 이기종 데이터 모델 및 형식 사용(관계형 데이터베이스, 쉼표로 구분된 값(CSV), 확장 마크업 언어([27][28]XML), 자원 기술 프레임워크(RDF) [29]등)
  • 데이터 전송
  • 다양한 조잡성 수준(즉, 깊은 인용)[30]의 데이터를 인용할 필요성
  • 다양한 세분성으로 데이터에 대한 인용을 자동으로 생성해야 합니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Costello MJ (2009). "Motivating online publication of data". BioScience. 59 (5): 418–427. doi:10.1525/bio.2009.59.5.9. S2CID 55591360.
  2. ^ Smith VS (2009). "Data publication: towards a database of everything". BMC Research Notes. 2 (113): 113. doi:10.1186/1756-0500-2-113. PMC 2702265. PMID 19552813.
  3. ^ Lawrence, B; Jones, C.; Matthews, B.; Pepler, S.; Callaghan, S. (2011). "Citation and Peer Review of Data: Moving Towards Formal Data Publication". International Journal of Digital Curation. 6 (2): 4–37. doi:10.2218/ijdc.v6i2.205.
  4. ^ a b Callaghan S, Donegan S, Pepler S, Thorley M, Cunningham N, Kirsch P, Ault L, Bell P, Bowie R, Leadbetter A, Lowry R, Moncoiffé G, Harrison K, Smith-Haddon B, Weatherby A, Wright D (2012). "Making data a first class scientific output: Data citation and publication by NERCs environmental data centres". International Journal of Digital Curation. 7 (1): 107–113. doi:10.2218/ijdc.v7i1.218.
  5. ^ Kratz J, Strasser C (2014). "Data publication consensus and controversies". F1000Research. 3 (94): 94. doi:10.12688/f1000research.4518. PMC 4097345. PMID 25075301.
  6. ^ Assante, M.; Candela, L.; Castelli, D.; Tani, A. (2016). "Are Scientific Data Repositories Coping with Research Data Publishing?". Data Science Journal. 15. doi:10.5334/dsj-2016-006.
  7. ^ Service, UK Data. "New to using data". UK Data Service.
  8. ^ Zhang, Longbin; Wang, Yuxiang; Xu, Xiaoliang (August 2017). "Logic-Partition Based Gaussian Sampling for Online Aggregation". 2017 Fifth International Conference on Advanced Cloud and Big Data (CBD). IEEE: 182–187. doi:10.1109/cbd.2017.39. ISBN 978-1-5386-1072-5. S2CID 40025084.
  9. ^ Chavan, V. & Penev, L. (2011). "The data paper: a mechanism to incentivize data publishing in biodiversity science". BMC Bioinformatics. 12 (15): S2. doi:10.1186/1471-2105-12-S15-S2. PMC 3287445. PMID 22373175.
  10. ^ Newman Paul; Corke Peter (2009). "Data papers — peer reviewed publication of high quality data sets". International Journal of Robotics Research. 28 (5): 587. doi:10.1177/0278364909104283. S2CID 209308576.
  11. ^ Gorgolewski KJ, Margulies DS, Milham MP (2013). "Making data sharing count: a publication-based solution". Frontiers in Neuroscience. 7: 9. doi:10.3389/fnins.2013.00009. PMC 3565154. PMID 23390412.
  12. ^ Parsons, M.A.; Fox, P.A. (2013). "Is data publication the right metaphor?". Data Science Journal. 12: WDS31–WDS46. doi:10.2481/dsj.WDS-042.
  13. ^ Candela L, Castelli D, Manghi P, Tani A (2015). "Data Journals: A Survey". Journal of the Association for Information Science and Technology. 66 (1): 1747–1762. doi:10.1002/asi.23358. S2CID 31358007.
  14. ^ "Sources of dataset peer review - datashare - Wiki Service".
  15. ^ 호주 국가 데이터 서비스: Wayback Machine에서 2012-03-07년 데이터 인용 인식 아카이브(2012년 3월 20일 액세스)
  16. ^ Ball, A., Duke, M. (2011년)'데이터 인용 및 링크'입니다.DCC 브리핑 페이퍼에든버러: 디지털 큐레이션 센터.온라인으로 입수 가능 : http://www.dcc.ac.uk/resources/briefing-papers/
  17. ^ MOONEY, Hailey (April 2011). "Citing data sources in the social sciences: do authors do it?". Learned Publishing. 24 (2): 99–108. doi:10.1087/20110204. S2CID 34513423.
  18. ^ Edmunds, Scott C.; Pollard, Tom J.; Hole, Brian; Basford, Alexandra T. (2012-07-02). "Adventures in data citation: sorghum genome data exemplifies the new gold standard". BMC Research Notes. 5 (1): 223. doi:10.1186/1756-0500-5-223. ISSN 1756-0500. PMC 3392744. PMID 22571506.
  19. ^ "Out of Cite, Out of Mind: The Current State of Practice, Policy, and Technology for the Citation of Data". Data Science Journal. 12: CIDCR1–CIDCR75. 2013. doi:10.2481/dsj.OSOM13-043.
  20. ^ Mooney, Hailey; Newton, Mark P. (2012). "The Anatomy of a Data Citation: Discovery, Reuse, and Credit". Academic Commons. Columbia University. 1 (1): eP1035. doi:10.7916/D8MW2STM.
  21. ^ Data Citation Synthesis Group (2014). Martone, M. (ed.). "Joint Declaration of Data Citation Principles". San Diego: Force11 Scholarly Communication Institute. doi:10.25490/a97f-egyk. {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
  22. ^ Lin, Jennifer (4 October 2018). "Data citation: let's do this". Crossref.
  23. ^ "Data citation needed". Scientific Data. 6 (1): 27. 10 April 2019. Bibcode:2019NatSD...6...27.. doi:10.1038/s41597-019-0026-5. PMC 6472333. PMID 30971699.
  24. ^ Pierce, Heather H.; Dev, Anurupa; Statham, Emily; Bierer, Barbara E. (4 June 2019). "Credit data generators for data reuse". Nature. 570 (7759): 30–32. Bibcode:2019Natur.570...30P. doi:10.1038/d41586-019-01715-4. PMID 31164773. S2CID 174809246.
  25. ^ Buneman, Peter; Davidson, Susan; Frew, James (September 2016). "Why data citation is a computational problem". Communications of the ACM. 59 (9): 50–57. doi:10.1145/2893181. ISSN 0001-0782. PMC 5687090. PMID 29151602.
  26. ^ Silvello, G. (2018년)'데이터 인용 이론과 실천'정보과학기술협회 저널(JASIST)(AIS 리뷰), 제69호 1, 페이지 6-20, 2018.온라인으로 이용 가능(오픈 액세스):https://onlinelibrary.wiley.com/doi/full/10.1002/asi.23917
  27. ^ 버너맨, P. 및 실벨로, G. (2010).'구조화 및 진화하는 데이터셋을 위한 규칙 기반 인용 시스템'데이터 엔지니어링 기술위원회 IEEE 회보, 제3권, 제3호. IEEE 컴퓨터 학회, 페이지 33-41, 2010년 9월온라인으로 입수 가능 : http://sites.computer.org/debull/A10sept/buneman.pdf
  28. ^ Silvello, G. (2017년)인용 프레임워크 학습:계층 데이터에 대한 인용을 자동으로 구성하는 방법'을 참조하십시오.정보과학기술협회(JASIST) 저널, 제68권 제6호, 1505-1524페이지, 2017년 6월.온라인: http://www.dei.unipd.it/ ~ silvello / paper / 2016 - DataCitation - JASIST - Silvello . pdf
  29. ^ Silvello, G. (2015년)'Linked Open Data Subset 인용 방법론'D-Lib Magazine 21 (1/2) 2015.온라인으로 입수 가능 : http://www.dlib.org/dlib/january15/silvello/01silvello.html
  30. ^ Buneman, P. (2006)큐레이티드 데이터베이스를 인용하는 방법 및 인용 가능한 데이터베이스를 만드는 방법.SSDBM 2006, 제18회 과학 및 통계 데이터베이스 관리 국제회의 대리, 195-203페이지, 2006.