과학 데이터 열기
Open scientific data개방형 과학 데이터 또는 개방형 연구 데이터는 누구나 분석 및 재사용할 수 있는 과학 활동의 관찰 및 결과를 출판하는 데 초점을 맞춘 개방형 데이터입니다.오픈 데이터 추진의 주요 목적은 다른 사람이 결과의 재현성을 [1]볼 수 있도록 함으로써 과학적 주장을 검증할 수 있도록 하고 많은 소스의 데이터를 통합하여 새로운 [2]지식을 제공하는 것입니다.
과학 데이터의 현대적 개념은 과학 정보와 관찰을 계산하기 위한 대규모 지식 인프라의 발달과 함께 20세기 후반에 나타났다.데이터 공유 및 배포는 초기에 중요한 이해관계가 있다고 확인되었지만 인프라의 기술적 한계와 데이터 통신에 대한 공통 표준이 없기 때문에 제약을 받았습니다.월드 와이드 웹은 과학 데이터 공유, 특히 고에너지 물리학에서 비롯되는 보편적인 프로토콜로 즉시 생각되었습니다.
정의.
과학적 데이터
개방형 과학 데이터의 개념은 과학 데이터의 개념과 병행하여 발전해 왔다.
과학 데이터는 20세기 후반까지 공식적으로 정의되지 않았다.계산 분석이 일반화되기 전에, 데이터는 대부분 비공식 용어였고, [3]지식이나 정보와 자주 교환할 수 있게 사용되었습니다.제도적이고 인식론적인 토론은 과학 활동에 대한 대안적인 개념과 전망을 선호했다: "과학의 역사나 인식론적인 논평조차도, 지나가는 동안에만 데이터를 언급한다.과학에서의 의미 형성에 관한 다른 기초적인 연구들은 사실, 표현, 비문, 출판물에 대해 논의하지만 데이터 [4]그 자체에는 거의 관심이 없습니다."
과학 데이터의 첫 번째 영향력 있는 정책 정의는 1999년에 나타났는데, 미국 국립과학원은 데이터를 "물체, 조건, 상황 또는 기타 요소를 설명하는 사실, 문자, 숫자 또는 기호"[5]로 설명했다.용어는 계속 진화해 왔다: 2011년 국립아카데미는 "스펙트로그래픽, 게놈 시퀀스, 전자 현미경 데이터, 원격 감지, 지리 공간, 사회경제 데이터와 같은 관측 데이터 및 생성되거나 컴파일된 기타 형태의 데이터를 포함하도록 정의를 업데이트했다.d, 인간 또는 기계에 의한" 및 "[5]문헌의 디지털 표현"
데이터의 형태와 형태는 여전히 광범위하고 불안정하지만, 표준 정의와 정책은 최근 과학 데이터를 계산 데이터나 [6]디지털 데이터로 제한하는 경향이 있습니다.Horizon 2020의 공개 데이터 파일럿은 자발적으로 디지털 연구로 제한되었습니다. "디지털 연구 데이터"는 디지털 형식 정보(특히 사실 또는 숫자)로, 조사, 논의 또는 계산의 기초로 수집되고 사용되는 정보입니다. 여기에는 통계, 실험, 측정, 관찰 결과가 포함됩니다.현장조사, 설문조사 결과, 인터뷰 기록 및 [7]이미지에서 얻을 수 있습니다.
전반적으로, 통계 데이터는 개별 연구자, 커뮤니티, 정책 입안자와 정책 입안자들 사이에서 흥미로운 점은 "데이터 연구자들의 관심이 있다"고 있다.타타.의도적으로 데이터의 상대적이고 명목주의적인 정의를 채택했다. "우리는 데이터가 종종 [8]보는 이의 눈에 존재한다는 것을 인정하는 것을 제외하고 정의적 문제(예: 데이터란 무엇인가?)에 거의 시간을 할애하지 않을 것이다."Christine Borgman의 주요 이슈는 과학적 데이터("What is data")를 정의하는 것이 아니라 데이터가 학문, 기관 또는 국가 연구 프로그램("When are data")[9] 내에서 논의의 초점이 된 시점을 컨텍스트화하는 것이다.2010년대에는 이용 가능한 데이터 소스의 확대와 데이터 분석 방법의 고도화에 의해 주로 데이터 관리의 영향을 받는 분야의 범위가 "컴퓨터 사회과학, 디지털 인문학, 소셜 미디어 데이터, 시민 과학 연구 프로젝트, 정치학"[10]으로 확대되었다.
과학 데이터 열기
개방과 공유는 과학적 데이터 관리와 관련하여 논의의 주요 주제일 뿐만 아니라 데이터를 기관, 분야 또는 정책 프레임워크 내에서 관련 이슈로 부상시키는 동기이기도 하다.
Paul Edwards는 데이터 공유 여부와 데이터 마찰의 주요 원인이었던 데이터 마찰의 원인을 밝혀냈습니다.데이터 마찰의 은유인 "Edwards"는 데이터 '인터페이스' 사이의 인터페이스에서 일어나는 일을 말합니다.데이터가 사람 간에 이동하는 지점, 즉 데이터 마찰이 발생하는 지점입니다.계층, 조직 또는 시스템(...) 인터페이스를 통한 데이터 이동에는 시간, 에너지 및 인적 주의가 필요합니다.그룹 및 조직 간 및 시스템 간 모든 인터페이스는 데이터가 왜곡되거나 잘못 해석되거나 손실될 수 있는 저항 지점을 나타냅니다.소셜 시스템에서 데이터 마찰은 에너지를 소비하고 난기류와 열을 발생시킵니다. 즉, 충돌, 의견 불일치 및 부정확하고 다루기 어려운 [11]프로세스입니다."과학적 데이터의 개방은 그 자체로 데이터 마찰인 동시에 복잡한 데이터 소유권 문제를 약화시킴으로써 데이터 충돌을 일괄적으로 관리하는 방법입니다.과학적 또는 인식론적 문화는 개방형 데이터 정책 채택의 주요 요인으로 인정되어 왔다. "데이터 공유 관행은 지역사회에 국한되어 인식론적 [12]문화에 의해 주로 결정될 것으로 예상된다."
2010년대에 과학자와 정책 입안자들은 개방된 과학 데이터를 보다 정확하게 정의하기 위해 새로운 개념을 도입했다.FAIR Data는 2016년 도입 이후 오픈 리서치 정책의 주요 초점이 되고 있다.약자는 Findable, Accessible, Interoperable 및 Reusable 데이터의 이상적인 유형을 나타냅니다.개방된 과학 데이터는 공유재 또는 공공재로 분류되어 왔습니다.이것은 주로 개인의 행동이 아닌 집단적인 행동에 의해 유지, 풍부, 보존됩니다.「과학적 데이터 공유를 이해하는 데 있어서 집단 행동을 유용하게 하는 것은, 비용과 공익을 조정하는 것에 의해서 어떻게 결정되는가에 초점을 맞추고 있습니다.공통 [13]자원에 대한 기여로 축적되는 이익"
역사
지식인프라스트럭처의 정비(1945~1960년)
과학적 데이터의 출현은 데이터, 정보 및 지식과 같은 핵심 과학적 개념이 일반적으로 [14]이해되는 방식의 의미 변화와 관련이 있다.컴퓨팅 테크놀로지의 발달에 따라 데이터와 정보는 점점 더 '물건'[15]으로 묘사되고 있습니다.컴퓨팅과 마찬가지로 데이터에도 항상 중요한 측면이 있습니다.데이터는 물건입니다.숫자뿐만 아니라 치수, 무게, 질감을 가진 숫자이기도 합니다."[16]
제2차 세계대전 이후 대규모 과학 프로젝트는 중요한 양의 데이터를 수집, 처리 및 분석하기 위해 지식 인프라스트럭처에 점점 더 의존하게 되었습니다.1920년대에 펀치 카드 시스템은 처음 실험적으로 사용되었고, 1960년대 초, 1918년 1월 1일, 19일, 19일, 19일 오후 2월 1일 오후 1일 오후 1일 오후 1일 오후 1갈께요.미국 국립 기상 기록 센터의 기능은 4억 개의 카드로 확장되어 전 세계에 보급되었습니다.과학 데이터의 물리적인 모습은 그때까지 완전히 드러났고 건물 전체의 안정성을 위협했습니다. "1966년까지 카드는 너무 많은 공간을 차지하여 센터는 카드 보관 캐비닛으로 메인 현관 홀을 채우기 시작했습니다(그림 5.4).관계자들은 건물이 자신들의 무게로 무너질까 봐 심각하게 걱정하게 되었다."[18]
1960년대 말까지 지식인프라스트럭처는 다양한 분야와 커뮤니티에 도입되었습니다.오픈 액세스 데이터의 전자 서지 데이터베이스를 만든 첫 번째 이니셔티브는 1966년 교육 자원 정보 센터(ERIC)였다.같은 해, MEDLINE이 작성되었습니다.미국의학도서관 및 국립보건연구소(미국)가 관리하는 무료 온라인 데이터베이스입니다.이 데이터베이스는 나중에 PubMed라고 불리게 되며, 현재 1400만 건 이상의 완전한 [19]기사를 보유하고 있습니다.지식인프라스트럭처는 우주공학(NASA/RECON), 도서관 검색(OCLC Worldcat) 또는 사회과학 분야에서도 구축되었습니다. "1960년대와 1970년대에는 정량적 데이터 수집을 조정하기 위한 12개 이상의 서비스와 전문 협회가 설립되었습니다."[20]
데이터 오픈 및 공유: 초기 시도(1960~1990년)
최초의 대규모 지식 인프라 구축 이후 개방형 과학 데이터에 대한 초기 토론과 정책 프레임워크가 즉시 등장했다.World Data Center 시스템(현재의 World Data System)은 1957-1958년 [21]국제 지구물리학의 해에 대비하여 관측 데이터를 보다 쉽게 이용할 수 있도록 하는 것을 목표로 했습니다.International Council of Scientific Unions(현 국제과학협의회)는 데이터 손실 위험을 최소화하고 데이터 접근성을 극대화하기 위해 여러 개의 World Data Center를 설립했으며, 1955년에는 데이터를 기계가 읽을 수 있는 [22]형태로 사용할 것을 추가로 권고했습니다.1966년 국제과학평의회는 CODATA를 창설했습니다.CODATA는 "데이터 관리와 사용에 [23]대한 협력을 촉진하기 위한" 이니셔티브입니다.
이러한 초기 형태의 개방형 과학 데이터는 더 이상 발전하지 않았다.외부 데이터 통합에 대한 데이터 마찰과 기술적 저항이 너무 많아 데이터 공유 생태계를 안정적으로 구현하지 못했습니다.대부분의 연구가 전문 사서들에 의해 이루어졌기 때문에, 데이터 인프라는 연구자들에게 거의 보이지 않았습니다.검색 운영체제는 사용하기가 복잡했을 뿐만 아니라, 장거리 [24]통신의 엄청난 비용을 고려할 때 검색이 매우 효율적으로 수행되어야 합니다.개념자들은 원래 연구자에 의한 직접 사용을 예상했지만, 기술적, 경제적 장애로 인해 실제로 나타날 수 없었다.
첫 번째 온라인 시스템의 설계자는 검색이 최종 사용자에 의해 수행될 것이라고 가정했습니다. 그 가정은 시스템 설계를 뒷받침합니다.MEDLINE은 의학 연구자와 임상의가 사용하도록 설계되었으며, NASA/RECON은 항공 우주 공학자와 과학자를 위해 설계되었습니다.그러나 여러 가지 이유로 70년대까지 대부분의 사용자는 최종 사용자를 위해 일하는 사서 및 훈련된 중개인이었습니다.실제로 일부 전문 검색자들은 열성적인 최종 사용자가 터미널에 접근할 수 있도록 허용하는 것조차 좋지 않은 [25]생각이라고 우려했습니다.
Christine Borgman은 1966년 [23]이후 몇 가지 특정 분야(기후학 등)에 대한 과학적 데이터의 의미, 생산 및 유통에 대한 중요한 정책 논쟁을 기억하지 못한다.웹이 [26]등장하기 전에는 절연된 과학 인프라가 거의 연결되지 않았습니다.프로젝트 및 커뮤니티는 국가 또는 기관 차원에서 연결되지 않은 자체 네트워크에 의존했습니다. "유럽에서는 사람들이 별도의 네트워크 프로토콜을 추구하기 때문에 인터넷이 거의 보이지 않았습니다."[27]과학 인프라 간의 커뮤니케이션은 공간뿐만 아니라 시간적으로도 어려운 과제였습니다.통신 프로토콜이 더 이상 유지되지 않을 때마다, "역사 연구와 컴퓨팅 간의 관계는 중단된 프로젝트, 데이터 손실 및 복구할 수 없는 형식으로 인해 오래도록 영향을 받아왔다"[28]는 등의 데이터 및 지식도 사라질 가능성이 있었습니다.
웹상의 과학 데이터 공유(1990-1995)
월드 와이드 웹은 원래 개방형 과학 데이터를 위한 인프라로 생각되었습니다.1991년 8월 프로젝트가 처음 공개되었을 때 데이터와 데이터 문서의 공유는 월드 와이드 웹의 초기 통신에서 주요 초점이었다. "WW 프로젝트는 고에너지 물리학자들이 데이터, 뉴스 및 문서를 공유할 수 있도록 하기 위해 시작되었습니다.우리는 웹을 다른 영역으로 확산시키고 다른 데이터를 위한 게이트웨이 서버를 보유하는 것에 매우 관심이 있습니다."[29]
이 프로젝트는 긴밀한 지식 인프라인 INQUIRE에서 시작되었습니다.이 소프트웨어는 CERN이 Tim Berners-Lee에게 의뢰한 정보 관리 소프트웨어로, 고에너지 물리학의 특정 요구에 대응하고 있습니다.INQUIRE의 구조는 내부 데이터 웹에 가까웠습니다. 즉, "사람, 소프트웨어 모듈 등을 지칭할 수 있고 제조, 포함, 설명 등 다양한 관계와 상호 작용할 수 있는" 노드를 연결했습니다.[30]인콰이어는 "정보 간의 임의의 연계를 촉진"했지만 "국제 고에너지 물리학 [31]연구 커뮤니티에서 원하는 협력을 촉진할 수 없었다"고 말했다.1990년대 이전의 중요한 컴퓨팅 과학 인프라스트럭처와 마찬가지로 INQUIRE의 개발은 상호운용성의 결여와 네트워크 통신 관리의 복잡성으로 인해 결국 저해되었습니다.「인콰이어는 문서와 데이터베이스를 링크하는 방법을 제공했고 하이퍼텍스트는 그것들을 표시하는 공통 포맷을 제공했습니다.operating system이 다른 다른 컴퓨터끼리 통신하는 것이 여전히 문제였습니다.[27]
웹은 과학 데이터를 위한 기존의 폐쇄형 인프라스트럭처에 더 고급 컴퓨팅 기능을 포함하더라도 신속하게 대체했습니다.1991년부터 1994년까지 웜에 대한 주요 생물학 데이터베이스인 웜 커뮤니티 시스템의 사용자들은 웹과 고퍼로 전환했다.웹에는 데이터 검색 및 협업을 위한 고급 기능이 많이 포함되어 있지 않았지만 쉽게 액세스할 수 있었습니다.반대로 Worm Community System은 과학기관 간에 공유되는 특정 단말기에서만 열람할 수 있습니다.「커스텀 설계의 강력한 WCS(편리한 인터페이스)를 도입하는 것은, 업무 습관, 컴퓨터 사용, 및 연구소의 자원(…)의 교차로 인해 불편을 겪는 것입니다.World-wide Web(World-wide Web)은, 다른 한편으로 접속할 수 있습니다.다양한 단말기와 접속을 통해 접속할 수 있으며, 인터넷 컴퓨터 지원은 대부분의 교육기관에서 비교적 저렴한 상업 서비스를 [32]통해 쉽게 이용할 수 있습니다."
웹상의 공개는 데이터 공개의 경제성을 완전히 바꾸어 놓았다."대규모 데이터셋을 재생하는 데 드는 비용이 엄청나다"는 인쇄본에는 나와 있지만, 대부분의 데이터셋의 스토리지 비용은 [33]낮습니다.이 새로운 편집 환경에서 데이터 공유의 주요 제한 요소는 더 이상 기술적 또는 경제적 요소가 아닌 사회적, 문화적 요소가 됩니다.
개방형 과학 데이터의 정의(1995-2010)
월드 와이드 웹의 발전과 일반화로 인해 수많은 기술적 장벽이 제거되었고 마찰로 인해 데이터의 자유로운 유통이 제한되었습니다.그러나, 과학적 데이터는 아직 정의되지 않았고, Tim Berners-Lee가 제시한 데이터 망의 원래 비전을 실현하기 위해 새로운 연구 정책을 실행해야 했다.이 시점에서 과학 데이터는 주로 과학 데이터 개방 프로세스를 통해 정의되었으며, 개방형 정책의 구현으로 실행 가능한 지침, 원칙 및 용어 설정에 대한 새로운 인센티브가 창출되었기 때문이다.
기후 연구는 1950년대와 1960년대에 최초의 대규모 지식 인프라 구축에서와 같이 개방형 과학 데이터의 개념 정의에서 선구적인 분야였다.1995년에 GCDIS는 과학 데이터의 완전하고 개방적인 교환에 관한 명확한 약속을 분명히 했다: "글로벌 변화 연구 및 환경 모니터링을 위한 국제 프로그램은 완전하고 개방적인 데이터 교환의 원칙에 결정적으로 의존한다(즉, 데이터와 정보는 제한 없이, 차별 없이 이용할 수 있다).재생산 및 [34]유통 비용보다 더 많은 비용을 지불해야 합니다.다수의 개인 및 기관 이해관계자 간의 "데이터 소유권 할당"이 점점 [35]복잡해짐에 따라 지식 인프라의 범위 확대와 관리 또한 데이터 공유 인센티브로 이어졌습니다.개방형 데이터는 데이터의 모든 기여자와 사용자가 [35]액세스할 수 있도록 단순화된 프레임워크를 생성합니다.
오픈 데이터는 새롭게 부상하고 있는 오픈 사이언스 운동의 핵심 목표로 빠르게 확인되고 있습니다.처음에는 출판물과 학술 기사에 초점을 맞췄지만, 오픈 액세스를 지지하는 국제적인 이니셔티브는 모든 주요 과학 프로덕션으로 범위를 [36]확장했다.2003년 베를린 선언은 "원래 과학 연구 결과, 원시 데이터 및 메타데이터, 그림 및 그래픽 및 학술 멀티미디어 자료의 소스 자료 및 디지털 표현" 확산을 지원했다.
2000년 이후 OECD(경제협력개발기구)와 같은 국제기구는 국가의 특정 [5]규율 범위를 넘어 개방 데이터 정책을 실시해야 하기 때문에 과학 데이터의 포괄적이고 학제적인 정의를 고안하는 데 중요한 역할을 했다.과학 데이터의 첫 번째 영향력 있는 정의 중 하나는 1999년[5] 미국 국립과학원의 보고서에 의해 만들어졌다: "데이터는 객체, 아이디어, 조건, 상황 또는 다른 [37]요소를 설명하는 사실, 숫자, 문자, 그리고 기호이다."2004년, OECD의 모든 국가의 과학부 장관은 기본적으로 모든 공적 자금 지원 아카이브 데이터를 공개적으로 이용할 [38]수 있어야 한다는 선언에 서명했다.2007년 OECD는 통계자료로 정의된 통계 자료, 통계자료로 정의 자료 및 지침을 통해 연구 자료를 연구한다.모모.과학계에서 연구 [40]결과를 검증하는 데 필요한 것으로 받아들여지고 있습니다."원칙은 부드러운 법률 권고로 작용하여 "연구 데이터에 대한 접근은 이 분야에 대한 공공 투자의 수익을 증가시키고, 열린 과학적 조사를 강화하며, 연구와 의견의 다양성을 장려하며, 새로운 작업 영역을 촉진하고, 초기 [41]조사자들이 상상하지 못한 주제를 탐구할 수 있게 한다"고 단언했다.
정책 구현(2010-...)
2010년 이후, 국가 기관과 초국가 기관들은 보다 개입주의적인 입장을 취했다.과학 데이터의 개방을 보장하고 장려하기 위해 새로운 정책이 시행된 것은 아니며, 일반적으로 기존의 개방형 데이터 프로그램에 계속 적용됩니다.유럽에서는 카를로스 모에다스 유럽연합 연구과학혁신담당 집행위원이 2015년 [10]유럽연합(EU)의 우선 과제 중 하나로 연구 데이터를 공개하고 있다.
2016년에 처음 출판된 FAIR Guiding[2] Principle은 과학 데이터 [10]공개를 위한 영향력 있는 프레임워크가 되었습니다.이 원칙은 2년 전 로렌츠에서 열린 공동 데이터 페어포트 정책 광고 연구 [42]워크숍에서 처음 고안되었습니다.워크숍의 심의에서 "지역이 합의하는 최소한의 지침 원칙과 [43]실천요강의 정의와 광범위한 지원을 통해 개념이 나타났다."
이 원칙은 과학적 데이터를 정의하려고 하지 않으며, 과학적 데이터는 비교적 건전한 개념으로 남아 있지만 "좋은 데이터 관리"[44]를 구성하는 요소를 설명하려고 노력한다.여기에는 "데이터 생산자를 안내하는" 4가지 기본 원칙, 즉 검색성, 접근성,[44] 상호 운용성 및 재사용성이 포함됩니다.또한 데이터의 [43]기본 의미론을 설명함으로써 기계 작동성을 위한 단계를 제공하는 것을 목표로 한다.데이터 관리의 복잡성을 충분히 인식하고 있기 때문에, 원칙은 일련의 엄격한 권장 사항을 도입하는 것이 아니라, 조직 비용에 따라 조정될 수 있는 "FAIRness의 제도"를 도입하는 것을 주장하고 있는 것은 저작권이나 [45]프라이버시에 관한 외부 제한 사항입니다.
FAIR의 원칙은, 「FAIR가 급속히 발전해, 유럽연합(EU), G7, G20, 미국의 BD2K([46]Big Data to Knowledge)로부터 인정받고 있다」라고 하는 주요 국제 기구에 의해서 즉시 협력되어 2016년 8월에 「FAIR 데이터」[47]를 현실화하기 위한 전문가 그룹을 설립.2020년 현재,[48] FAIR 원칙은 "현재까지 공개된 과학 데이터에 대한 가장 앞선 기술 표준"으로 남아있다.
2010년대 말까지 오픈 데이터 정책은 과학계의 지지를 받고 있습니다.2016년 유럽 위원회에서 위촉된 두 가지 큰 설문조사에 따르면, "4%에 접근할 수 있는 연구자들이 "49] 그러나 과학자들에 대한 접근성을 입증한다.다 끝났어요.더 애매한 상황입니다.[49]
과학 데이터의 확산
출판물 및 에디션
2010년대까지 과학적 데이터의 공개는 주로 "개별 저널 [50]기사와 관련된 데이터셋의 공개"를 언급하고 있었습니다.이 릴리스는 Data Accessability Statement 또는 DAS에 의해 문서화되어 있습니다.몇 가지 유형 또는 데이터 접근성 문구가 [51][52]제안되었습니다.2021년, Colavizza 등은 다음과 같은 세 가지 범주 또는 접근 수준을 식별하였다.
- DAS 1: "요청 시 또는 유사한 [53]데이터를 이용할 수 있습니다"
- DAS 2: "데이터는 문서와 그 보충 [53]파일에 포함되어 있습니다."
- DAS 3: "[53]저장소에서 사용 가능한 데이터"
보조 데이터 파일은 과학 디지털 출판으로 이행하는 초기 단계에서 등장했습니다.출판물의 형식은 인쇄 형식의 제약을 대부분 유지하고 있지만, 추가 자료는 "보조 정보"[33]에 포함될 수 있습니다.간행물로서 보충 데이터 파일은 애매한 상태입니다.이론적으로 그것들은 연구의 배경에 접근할 수 있는 미가공 문서이다.실제로 공개된 데이터 세트는 공개를 위해 특별히 큐레이션해야 하는 경우가 많습니다.이들은 보통 조사 목적을 위해 수행된 전체 범위의 관찰이나 측정이 아닌 주요 데이터 소스에 초점을 맞춥니다. "개별 기사, 회의 논문, 책 또는 기타 출판물과 관련된 "데이터"를 식별하는 것은 (조사자들이)[54] 지속적으로 데이터를 수집하기 때문에 어렵습니다."데이터의 선택도 출판사의 영향을 받는다.저널의 편집 방침은 주로 "메인 텍스트의 내용, 보충 정보의 내용"을 결정하며,[54] 편집자들은 특히 장기적으로 유지하기가 어려울 수 있는 대규모 데이터 세트를 포함하는데 어려움을 겪고 있습니다.
과학 데이터 세트는 자율 과학 출판물로 점점 더 인정받고 있다.공개된 데이터셋의 명성과 인지도를 높이기 위해 데이터를 학술 기사에 통합하는 것은 "이 주장에서 명백하게 친숙한 것이 데이터 공개를 촉진할 것이다."[50]이 접근 방식은 기존 출판 인프라에서 데이터를 쉽게 통합할 수 있도록 설계 및 리포지토리에 의해 널리 재사용되고 있다[55]
인용 및 색인화
1950년대와 1960년대의 첫 번째 디지털 데이터베이스는 인용성과 서지 서술에 [56]대한 문제를 즉시 제기하였다.컴퓨터 메모리의 가변성은 특히 어려웠습니다.인쇄 출판물과 달리 디지털 데이터는 장기적으로 안정적일 것으로 예상할 수 없었습니다.1965년에 Ralph Bisco는 이러한 불확실성이 코드 노트북과 같은 모든 관련 문서에 영향을 미쳐 점점 더 시대에 뒤떨어질 수 있음을 강조했습니다.데이터 관리에서는 지속적인 개선과 일반적인 안정성 사이의 중간점을 찾아야 합니다.「유동하고, 변화 가능하며, 지속적으로 개선되는 데이터 아카이브의 개념은, 선행 [57]분석에 큰 영향을 주지 않는 범위까지 서재의 클리닝이나 그 외의 처리를 실시할 필요가 있습니다.」
데이터베이스를 위한 구조화된 서지 메타데이터는 1960년대부터 [56]논의된 주제였다.1977년 미국 참고 문헌 표준은 데이터 세트의 재료성과 가변성에 초점을 맞춘 "데이터 파일"의 정의를 채택했다. 날짜나 작성자는 표시되지 않았지만 매체 또는 "패키지 방법"을 [58]지정해야 했다.2년 후 Sue Dodd는 데이터의 인용을 다른 과학 [56]출판물의 참조 기준에 가깝게 하는 대체 규약을 도입했습니다.Dodd의 추천에는 제목, 저자, 판 및 날짜뿐만 아니라 코드 [59]노트와 같은 하위 문서에 대한 대체 언급이 포함되어 있습니다.
데이터 공유에 대한 장벽이 크게 [56]감소함에 따라 데이터 집합의 색인화는 웹의 발전에 따라 급격하게 변화했습니다.이 과정에서 데이터 아카이브, 지속 가능성 및 지속성이 중요한 문제가 되었습니다.웹 사이트 구조가 지속적으로 발전함에 따라 연결 끊김을 방지하기 위해 DOI(Permanent Digital Object Identifier)가 과학 기사에 도입되었습니다.2000년대 초, 파일럿 프로그램은 데이터 세트에서 DIII를 할당하기 시작한 반면, 데이터 세트에 대한 구체적인 문제를 해결하기 시작했다.나팔리다iometric 인덱스)[61]
액세스 가능하고 검색 가능한 데이터 세트는 상당한 인용 이점을 제공합니다.2021년 PLOS에 의해 발행된 531,889개의 기사에 대한 연구는 "공공 저장소의 아카이브된 데이터에 대한 링크"[62]가 있는 저널 기사에 대해 "일반적으로 인용 건수에서 25.36%의 상대적 이익"이 있다고 추정했다.보충 자료로서의 데이터 확산은 "DAS[Data Availability Statement]의 인용 이점은 단순히 존재하는 것이 아니라 [63]내용과 관련이 있다"는 것을 시사하는 중요한 인용 이점을 낳습니다.
2022년 현재, 개방형 과학 데이터의 인식은 여전히 진행 중인 과정이다.주요 레퍼런스 소프트웨어 Zotero에는 아직 데이터셋에 대한 특정 항목이 없습니다.
재사용 및 경제적 영향
학술 연구 분야에서 스토리지와 중복성은 개방형 과학 데이터의 큰 이점임이 입증되었습니다.이와는 대조적으로, 개방되지 않은 과학 데이터는 약하게 보존되어 있으며 완전히 [64]손실되지 않는 한 "저자의 상당한 노력이 있어야만" 검색할 수 있다.
오픈 과학 데이터의 사용 분석은 오픈 콘텐츠와 같은 문제에 부딪힙니다.자유롭고 보편적이며 무차별적인 액세스가 수신 범위, 범위 및 강도를 확연히 확장했지만 트랜잭션 프로세스가 부족하기 때문에 추적하기가 더욱 어려워졌습니다.
이러한 문제는 과학 출판물로서의 데이터의 참신성으로 인해 더욱 복잡해집니다. "실제로 데이터 재사용을 모니터링하는 것은 어려울 수 있습니다. 주로 연구자들이 [65]저장소를 거의 언급하지 않기 때문입니다."
2018년 EU 집행위원회의 보고서는 FAIR 원칙에 따라 과학 데이터를 공개하지 않을 경우 발생하는 비용을 추정했다. 즉, 연간 직접적인 영향 102억, 혁신 [66]경제 전체에 대한 간접 영향 160억에 달했다.개방된 과학적 개방 데이터를 글로벌 규모로 구현하면 "데이터를 조작하는 [66]시간과 데이터 저장 방식에 상당한 영향을 미칠 것"
프랙티스와 데이터 문화
과학적 데이터의 공유는 과학적 문화나 실천 커뮤니티에 뿌리를 두고 있다.디지털 툴이 보급됨에 따라 연구 커뮤니티의 인프라스트럭처, 프랙티스 및 공통 표현은 데이터라는 것과 데이터로 [12]무엇을 할 수 있는지에 대한 공통의 의미에 점점 더 의존하게 되었습니다.
기존의 인식론적 기계는 데이터 공유의 경향이 다소 있습니다.중요한 요인으로는 공유 가치(개인주의 또는 집단), 데이터 소유권 할당 및 데이터 [67]공유를 꺼리는 외부 행위자와의 빈번한 협업이 있습니다.
오픈 데이터 문화의 출현
과학적 공개 데이터의 개발은 과학적 연구에 국한되지 않는다.여기에는 다양한 이해관계자가 관여하고 있습니다.「데이터 공유에 관한 논의는, 공적·사적 모두, 국립 아카데미나 기금 위원회등의 자금 조달 기관, 저널 발행자, 교육자, 일반인, 연구자 자신 [68]등, 다양한 방면에서 나오고 있습니다.」이와 같이, 과학적 개방형 데이터에 대한 움직임은 개방형 [69]데이터에 대한 더 많은 세계적인 움직임과 크게 교차한다.광범위한 공공 및 민간 행위자가 사용하는 공개 데이터의 표준 정의는 구체적인 과학적 문제에 대해 [70]연구자들에 의해 부분적으로 상세하게 설명되었다.투명성의 개념은 특히 열린 과학, 열린 데이터, 열린 정부 간의 융합을 창출하는 데 기여했습니다.2015년 OECD는 투명성을 공통의 "열린 과학과 열린 데이터의 합리화"[71]로 설명한다.
Christine Borgman은 과학적 공개 [68]데이터에 대한 규제 및 공개 토론에서 일반적으로 사용되는 데이터를 공유하는 4가지 주요 이유를 확인했습니다.
- 연구 재현성: 재현성의 결여는 연구의 투명성과 데이터 분석 프로세스의 부족에 기인하는 경우가 많다.따라서 "연구 데이터를 공유하는 근거로서 [연구 재현성]은 강력하지만 문제가 있다."[72]재현성은 주로 실험 과학에 관한 "특정 종류의 연구"[72]에만 적용된다.
- 공공 접근성: "공공 자금의 생산물은 공공이 이용할 수 있어야 한다"는 이 근거는 "열린 정부를 위한 주장"[73]에서 찾을 수 있다.출판물에 대한 공개 접근을 지지하는 유사한 주장에서 직접 영감을 얻었지만, 과학적 공개 데이터가 "훨씬 적은 수의 사람들에게 직접적인 혜택을 주고, 그러한 혜택은 [74]이해관계자에 따라 달라" 때문에 그 범위는 더욱 제한적이다.
- 연구 밸로라이제이션: 열린 과학 데이터는 민간 부문에 상당한 가치를 가져다 줄 수 있습니다.이 주장은 특히 "연구 데이터를 수용 및 큐레이팅할 수 있는 더 많은 저장소, 데이터 이용을 위한 더 나은 도구 및 서비스, 지식 인프라에 대한 기타 투자 필요성"[74]을 지원하기 위해 사용됩니다.
- 연구 및 혁신성 향상: 개방된 과학 데이터는 민간 및 공공 연구의 질을 크게 향상시킬 수 있습니다.이 주장은 "연구 데이터를 유지하기 위해 지식 인프라에 투자하고, 높은 수준의 전문적 [74]실무에 따라 조정"하는 것을 목표로 한다.
그러나 데이터 라이프사이클의 서로 다른 관계자와 이해관계자 간의 협업은 부분적입니다.학술기관 내에서도 협력은 한정되어 있습니다.「대부분의 연구자는 데이터 관리자나 [75]사서의 상담 없이 [데이터 관련 검색]을 실시하고 있습니다.」
데이터 가용성과 라이선스에 대한 논쟁이 도메인 고유의 문제로 극복됨에 따라 2010년대에 글로벌 오픈 데이터 이동은 부분적으로 결속력과 정체성을 잃었습니다.「데이터에의 액세스를 요구하는 것에서 데이터 인프라스트럭처의 작성과 운용으로 초점이 바뀌면, 초기화를 형성한 사람들의 다양한 목표가 실현됩니다.오픈 데이터의 이동이 명확하게 파악되기 때문에 발생하는 긴장의 관리는 [76]복잡해질 수 있습니다."매우 광범위한 기존 데이터 문화를 수용하는 것을 목표로 하는 오픈 데이터 정의의 매우 일반적인 범위에서는 과학적 연구에 필요한 접근성 및 컨텍스트화의 높은 임계값을 잘 고려하지 않습니다. "재이용이 자유롭다는 의미에서 오픈 데이터는 연구에 필요하지만 충분한 조건은 아닙니다.rposes.[77]
이상적인 구현: 데이터 공유의 역설
2000년대 이후 과학 커뮤니티를 대상으로 한 조사에서는 데이터 공유의 이상과 실제 구현 사이에 일관된 차이가 강조되어 왔습니다.현재의 연구자가 데이터를 공유할 의향이 있는지 질문받았을 때, 대부분은 그렇게 할 의향이 있습니다.같은 연구자들이 데이터를 공개한다면, 일반적으로, 그들은 "78]을 하지 않은 데이터 문화가 공존하지 않는다는 것을 인정한다.d f데이터 재사용. (…) 커리어는 이전에는 [79]미지의 영역을 도표로 작성함으로써 이루어집니다.
2011년, 데이터 공유의 67%는 "과학에서 진행 중인 주요 장애"이라고 동의한다.[80] 그리고 "80] 그리고 "80]에 대한 응답자의 데이터 액세스를 쉽게 액세스할 수 있는 연구자)(80] (80] (80] (80] (80] (80] (80] (80]중요) 및 제도적 의무사항(88%)[82]을 가지고 있습니다.다만, 「데이터를 공유하려고 해도, 일반적인 프랙티스와는 차이가 있습니다(예를 들면,[82] 데이터의 준비나 업로드를 위해서 시간과 자원을 소비하는 등).
액세스 가능한 데이터 유출은 2011년 동안 열린 데이터 릴리스에서 열린 데이터 공개에 대한 일부 통계량은 2011년 기준으로 데이터 릴리스 또는 예금자의 일부 통계량을 반영하고 있다. 아니면...대신 [84]애보러티가 선호되고 있다.그 결과,[84] 「데이터의 사용 및 보존에 있어서의 주된 장해로서 공통의 메타데이터와 아카이브의 부족을 호소하는 사람이 많다」라고 하는 결과가 되었습니다.
Borgmann에 따르면 데이터 공유의 역설은 부분적으로 "출시 [85]및 재사용 지원에 필요한 데이터 또는 인프라스트럭처에 대한 예상 수요"를 충족시키지 못한 채 "조사자의 데이터 공개를 의무화 또는 권장"하는 데 초점을 맞추는 경향이 있는 개방형 데이터 정책의 제한에 기인합니다.
과학적 공개 데이터에 대한 인센티브와 장벽
2022년 Pube, 웨어햄과 함께 과학 데이터 공유에 대한 인센티브를 포함하며, 과학 데이터의 공유성을 포함시켰다.개미.열린 저장소에서[62] 공유된 경우에만 인용 이점
중요한 장벽에는 우선 법적 제약사항 및 인정 [87]신용 손실에 대한 우려가 포함된다.개별 연구자에게 데이터 세트는 "새로운 작업 또는 새로운 협업"[33]과 교환해야 하는 주요 자산일 수 있으며, 데이터 세트는 "그 [33]대가로 가치 있는 무엇인가를 얻는 것"이 아니면 출판을 정당화하기 어려울 수 있습니다.
오픈 사이언스의 원리를 정면으로 거부하는 것이 아니라 데이터 공유에 대한 지식이 부족한 것도 결국 주요 장애물이다.2010년대 초반의 몇 가지 조사에 의하면, 연구자는 「다른 조사자에게 데이터를 요구하는 일은 거의 없고, 또 (…) 자신의 [79]데이터를 요구하는 일도 거의 없다」라고 한다.이는 연구자들이 데이터 공유를 보장하기 위한 노력을 거의 하지 않기 때문에 부정적인 피드백 루프가 발생하며, 이는 "데이터 재사용에 대한 가장 큰 수요는 상호의존도가 [79]높은 분야에서 존재한다"는 점에서 효과적인 사용을 저해합니다.데이터가 권위 있는 데이터 출판물로 간주되지 않고 원본 소스가 [88]인용되지 않기 때문에 데이터 재사용의 현실도 과소평가될 수 있습니다.
2021년 PLOS가 발행한 531,889건의 기사에 대한 실증적 연구에 따르면 소프트 인센티브와 장려책은 데이터 공유에 제한적인 영향을 미칩니다. "DAS[데이터 가용성 성명]를 요구하거나 의무화하는 것이 아니라 권장하는 저널 정책은 작은 효과만 가져옵니다."[89]
법적 상태
과학 데이터의 공개는 소유권, 저작권, 프라이버시 및 윤리에 관한 다양한 법적 문제를 제기하고 있다.일반적으로 연구자들이 연구 과정에서 수집한 데이터를 공개하는 데이터 센터(90]에 대한 개인 연구자, 이러한 개인 정보기관(90](90](90]을 포함한다.nbsp;디지털 데이터의 법적 상황은 결과적으로 "재산"의 법적 범주(...)가 데이터 거버넌스 [91]문제의 복잡성에 대처하는 데 적합한 모델이 아니기 때문에 "권리의 묶음"으로 설명되었습니다.
저작권
저작권은 2010년대까지 열린 과학 데이터의 법적 문헌의 주요 초점이었다.데이터 공유의 적법성은 초기에 중요한 문제를 식별했습니다.과학 출판물의 공유와는 대조적으로, 주된 장애물은 저작권이 아니라 불확실성이었다: "'데이터'의 개념은 컴퓨터 시대에 만들어진 새로운 개념이었고, 반면 저작권법은 인쇄 [92]출판물 당시에 나타났다."이론적으로, 저작권 및 저작자 권리 조항은 단순한 사실 및 수치 수집에는 적용되지 않습니다.실제로 데이터의 개념은 훨씬 더 광범위하며 보호된 콘텐츠나 저작권이 없는 콘텐츠의 창의적인 배치를 포함할 수 있습니다.
지적 재산에 관한 국제 협약의 데이터 상태는 애매하다.베른 협약 제2조에 따르면 "문학, 과학, 예술 분야의 모든 작품"은 [93]보호된다.그러나 연구 데이터는 한 명 또는 여러 명의 저자에 의해 완전히 생성된 독창적인 자료가 아니라 "일반적으로 자동화되거나 반자동화된 기구나 과학 [93]장비를 사용하여 수집된 사실의 집합"인 경우가 많다.따라서 데이터 저작권에 대한 보편적 통념이 없고 "저작권이 적용되는 정도"에 대한 논쟁이 여전히 만연하고 있으며, 관할구역이나 [93]데이터셋의 세부사항에 따라 결과가 다르다.이러한 조화의 결여는 과학 연구의 핵심 개념인 "연구 데이터"의 참신함에서 논리적으로 기인한다: "데이터"의 개념은 컴퓨터 시대에 만들어진 새로운 개념이며, 반면 저작권법은 인쇄 [93]출판물 당시에 나타났다."
미국, 유럽연합(EU) 및 기타 여러 국가에서는 저작권법이 데이터 자체(보호되지 않은 "사실"일 수 있음)와 데이터 편집(창의적 [93]합의일 수 있음)의 차이를 인정하고 있습니다.이 원칙은 과학 자료를 둘러싼 현대의 정책 논쟁보다 훨씬 앞선다. 편집권에 유리한 판결을 받은 최초의 법정 소송이 19세기로 거슬러 올라가기 때문이다.
미국에서는 1976년 저작권법에 "기존 자료 또는 데이터의 수집 및 조립에 의해 형성된 저작물"이라는 명시적 언급과 함께 편집권이 정의되어 있다(Par 101).[94]연방대법원은 1991년 Feist Publications, Inc., v. Rurchal Telephone Service Co.의 판결에서 데이터베이스 저작권에 대한 범위와 제한을 명확히 했다. 이는 "조립"이 명백하게 독창적이어야 하고 편집에 포함된 "원시적 사실"이 여전히 [94]보호되지 않기 때문이다.
데이터 출력에 대한 저작권의 적용이 여전히 불안정하고 부분적으로 이론적인 관할권에서도, 그럼에도 불구하고 상당한 법적 불확실성을 야기했다.일련의 미가공 사실과 원본 편집 사이의 [95]경계는 명확하게 설명되지 않았다.과학 단체들은 보통 저작권법에 대해 잘 알고 있지만, 데이터 권리의 복잡성으로 인해 전례 없는 [96]문제가 발생합니다.2010년 이후 국가 및 초국가 관할권은 연구 데이터의 저작권 보호에 관한 입장을 부분적으로 변경했다.공유가 장려됨에 따라, 과학 데이터는 비공식적인 공공재로 인식되어 왔다. "정책 입안자, 자금 제공자 및 학술 기관은 연구 데이터에서 파생된 출판물과 지식은 저자와 관련이 있지만 연구 데이터는 그 잠재력이 있기 위해 공공재로 간주될 필요가 있다.사회적, 과학적 가치를 [12]실현할 수 있습니다."
데이터베이스 권한
유럽연합은 데이터에 대해 가장 강력한 지적재산권 프레임워크 중 하나를 제공하고 있으며, 이중의 권리를 가지고 있다. 즉, 원본 컴파일에 대한 저작권(미국과 유사)과 sui generis 데이터베이스 [95]권리이다.컴필레이션의 독창성에 대한 기준은 1996년 데이터베이스 디렉티브와 Infopaq International A/S v Dagblades Forening c 또는 Football Dataco Ltd al v Yahoo!와 같은 유럽 사법 재판소에 의해 결정되는 몇 가지 주요 판례법에 의해 회원국에 걸쳐 일치하고 있다. 영국 주식회사전반적으로, 데이터 세트에 대한 중요한 노력이 있는 데이터 세트에 대한 중요한 노력이 필요 없다고 인정되었다네."초기적 투자"[98]가 필요했던 아타셋.sui generis 권리는 15년이 지났지만 데이터셋을 업데이트할 때마다 갱신할 수 있기 때문에 영구화될 가능성이 있습니다.
길이와 보호의 범위가 넓기 때문에, 수제너레이션의 권리는 처음에는 유럽 법률에 의해 크게 인정받지 못했으며, 이로 인해 집행의 강도가 높아졌다.2013년 Innoweb BV v Wegener ICT Media BV v Wegener Media BV 및 Wegener Mediaventions의 결정이 데이터베이스 소유자의 입지를 강화하고 웹 검색 [99]엔진에서 보호되지 않은 데이터의 재사용을 비난함에 따라 2010년대에 이러한 신중한 접근 방식이 역전되었습니다.데이터베이스 권한의 통합과 확장은 데이터 중심 경제 및 개방형 [99]과학을 지지하는 유럽연합의 약속과 부분적으로 상충되기 때문에 유럽 규제에서 여전히 논쟁의 여지가 있는 주제이다.과학적 및 교육학적 사용에 대한 몇 가지 예외가 존재하지만, 적용 범위가 제한되며(추가 재사용에 대한 권리는 없음) 모든 [99]회원국에서 활성화되지 않았습니다.
소유권
과학적 데이터 세트에 대한 저작권 문제는 소유권에 대한 불확실성으로 인해 더욱 복잡해졌습니다.연구는 대체로 광범위한 기여를 수반하는 협업 활동입니다.CRediT(Contributor Roles Taxonomy)와 같은 이니셔티브에서는 14개의 서로 다른 역할이 식별되었으며, 이 중 4개는 데이터 관리(공식 분석, 조사, 데이터 큐레이션 및 시각화)[100]와 관련된 것입니다.
미국에서 연구 데이터의 소유권은 일반적으로 "연구자의 고용주가 결정한다"며, 주 조사관은 [101]소유자가 아닌 데이터 관리인으로 활동한다.연구 공개 데이터가 개발되기 전까지 미국 기관들은 일반적으로 출판물보다 데이터에 대한 저작권을 포기하는 것을 더 꺼려왔다. 이는 데이터가 전략적 [102]자산으로 간주되기 때문이다.유럽연합에서는 데이터 [103]소유에 대해 대체로 합의된 프레임워크가 없다.
특히 의학 연구의 맥락에서 외부 이해관계자의 추가 권리도 제기되었다.1970년대 이후, 환자들은 임상 실험의 맥락에서 생산된 데이터의 어떤 형태로든 소유권을 주장해왔으며, 특히 '연구 대상자와 환자가 실제로 자신의 조직이나 [102]DNA를 소유하는지'에 관한 중요한 논란과 함께 말이다.
사생활
많은 과학 프로젝트들이 개인의 데이터 수집에 의존하고 있으며, 특히 의학 연구 및 사회 과학 분야에서 그렇습니다.이러한 경우 데이터 공유 정책은 개인 [104]데이터의 보존 및 보호와 균형을 이루어야 합니다.
연구자, 특히 주임 조사관은 여러 [104]관할구역에서 비밀유지의무를 부과받았다.보건 데이터는 20세기 후반부터 법률 또는 부문별 협정에 의해 점점 더 규제되어 왔다.2014년 유럽 의약품청은 임상시험 데이터 공유에 중요한 변경을 도입하여 모든 개인 정보 및 상업적 관련 정보의 공개를 막았다.이러한 유럽 규제의 진화는 "개방된 [105]데이터로 임상 시험 데이터를 공유하는 전세계 관행에 영향을 미칠 가능성이 높다."
연구관리계획과 실무는 설계상 개방적이고 투명하며 기밀이어야 한다.
프리 라이선스
오픈 라이선스는 과학적 데이터의 법적 정의의 제약과 모호성을 해소하기 위해 선호되는 법적 프레임워크입니다.2003년 베를린 선언은 "원시 데이터와 메타데이터"[106]를 명시적으로 포함하는 과학적 기여에 대한 재사용 권리의 보편적인 포기를 요구했다.
단기간에 이루어진 출판물용 오픈 라이선스의 개발과는 대조적으로 오픈 과학 데이터의 라이선스의 작성은 복잡한 프로세스였습니다.유럽연합(EU)의 sui generis 데이터베이스 권리나 단순한 사실과 원본 편집의 구별과 같은 특정 법적 원칙과 같은 특정 권리는 처음에는 예상되지 않았다.2010년대까지 무료 라이센스는 역설적으로 데이터셋 재사용에 더 많은 제한을 가할 수 있었습니다. 특히 속성(원시 사실과 같이 복사되지 않은 개체에는 필요하지 않음)과 관련하여 더 많은 제한을 가할 수 있었습니다."이 경우, 연구 데이터에 대한 권리가 부여되지 않은 경우,[107] 데이터를 허가할 근거가 없습니다."
이 문제를 피하기 위해 Harvard-MIT Data Center와 같은 여러 기관이 Public [108]Domain에서 데이터를 공유하기 시작했습니다.이 접근법에 따라 복사되지 않은 항목에는 어떠한 권리도 적용되지 않습니다.그러나 퍼블릭 도메인 및 퍼블릭 도메인 마크와 같은 일부 관련 도구는 적절하게 정의된 법적 계약이 아니며 관할 지역에 [108]따라 크게 다릅니다.2009년에 처음 도입된 Creative Commons Zero(또는 CC0) 라이선스는 데이터 [109]라이선스에 대해 즉시 검토되고 있습니다.그 후 "연구 데이터를 공개하기 위해 권장되는 도구"[110]가 되었다.베를린 선언의 원칙에 따라, 데이터의 제작자는 "과다, 완전, 영구, 취소 불능, 무조건 Affirmer의 저작권 및 관련 권리를 포기, 포기 및 포기"하기 때문에, 라이선스가 아니라 포기입니다.
대체 접근법에는 데이터베이스 권한에 고유한 속성 스택을 풀기 위한 새로운 무료 라이선스의 설계가 포함되어 있습니다.2009년 Open Knowledge Foundation은 OpenStreetMap과 같은 주요 온라인 프로젝트에 채택된 Open Database License를 발행했습니다.2015년 이후 데이터베이스 권한이 4.[107]0 버전에서 명시적으로 예상되었기 때문에 모든 크리에이티브 커먼스 라이센스가 업데이트되어 데이터 집합에서 완전히 유효하게 되었습니다.
개방적인 과학 데이터 관리
데이터 관리는 최근 열린 과학 데이터에 대한 정책 및 연구 토론의 주요 초점이 되고 있습니다.영향력 있는 FAIR 원칙은 과학적 [44]맥락에서 "좋은 데이터 관리"의 주요 특징에 자발적으로 집중됩니다.리서치 컨텍스트에서 데이터 관리는 데이터 라이프사이클과 관련된 경우가 많습니다."이러한 라이프 사이클은 실제로는 [111]훨씬 덜 선형적이고 더 반복적인 실제 삶을 단순화한 것이지만, 다른 단계의 다양한 라이프 사이클 모델이 기관, 인프라 및 과학 커뮤니티에 의해 이론화되었습니다."
연구 워크플로우로의 통합
개방적인 과학 데이터를 선호하는 초기 정책에 포함된 광범위한 데이터 공유 선동과는 대조적으로, 과학 데이터 관리의 복잡성과 기본 비용 및 요구사항은 점점 더 많이 인식되고 있습니다. "데이터 공유는 실행이 어렵고 투자 [112]수익률로 정당화됩니다."개방형 데이터는 단순한 보충 작업이 아니라 "연구 [112]방법과 실무의 변화가 필요하기 때문에" 전체 연구 과정 내내 구상해야 한다.
연구 데이터의 공개는 비용과 편익의 새로운 결제를 창출한다.공개 데이터 공유는 연구 협력자 또는 파트너와의 사적인 데이터 교환과 크게 대조되는 새로운 커뮤니케이션 환경을 도입합니다.기존의 비공식 지식에 의존할 수 없기 때문에 데이터의 수집, 목적 및 한계를 설명해야 한다."문서화와 표현은 데이터 작성자와 사용자 [113]간에 통신할 수 있는 유일한 수단입니다." 적절한 문서가 없으면 재텍스트화의 부담이 잠재적인 사용자에게 돌아가 데이터셋이 [114]결국 무용지물이 될 수 있습니다.
공표에는 데이터의 소유권 및 잠재적인 법적 책임에 관한 추가 검증이 필요합니다.이러한 명확화 단계는 여러 [115]관할구역과 겹칠 수 있는 국제 연구 프로젝트에서는 더욱 복잡해진다.데이터 공유와 개방형 과학 원칙의 적용은 즉시 보이지 않을 수 있는 상당한 장기적 이점을 가져온다.데이터셋을 문서화하면 데이터셋의 성과 체인을 명확히 하고 원본 데이터가 크게 변경되지 않았는지, 또는 이러한 경우 이후의 모든 요소를 완전히 [116]문서화하는 데 도움이 됩니다.또한 무료 라이선스로 발행하면 장기 보존과 같은 일부 작업을 외부 행위자에게 위임할 수 있다.
2010년대 말까지 기존 관행과 규제 [117][118][119]원칙을 체계화하기 위해 연구를 위한 데이터 관리에 관한 새로운 전문 문헌이 등장했습니다.
보관 및 보존
개방되지 않은 과학 데이터의 가용성은 급속히 저하되었다. 2014년 생물학적 데이터셋에 대한 소급 연구에서 "현존 데이터셋이 보고될 확률은 [120]매년 17%씩 떨어졌다." 그 결과, "아직도 존재하는 데이터셋의 비율은 2011년 100%에서 1991년 33%로 떨어졌다."[64]데이터 손실은 Nature나[121] Science와 같은 주요 저널에서도 중요한 문제로 지적되고 있습니다.
리서치 프랙티스에 관한 조사에서는, 스토리지 규범, 인프라스트럭처, 워크플로우가 대부분의 분야에서 일관되게 일관되게 불명확하게 남아 있는 것을 알 수 있었습니다.과학 데이터의 저장 및 보존은 특히 가장 [35]복제하기 어렵기 때문에 보존에 필수적인 것으로 간주되는 관찰 데이터와 관련하여 초기에 중요한 문제로 식별되었다.미국 지구물리학 연합을 통해 접촉한 연구원 1372명을 대상으로 한 2017-2018년 조사에 따르면, "응답자 중 1/4과 1/5"만이 우수한 데이터 스토리지 [122]관행을 보고하는 것으로 나타났습니다.단기적이고 지속 가능하지 않은 스토리지는 여전히 널리 보급되어 있으며 응답자의 61%가 대부분의 데이터 또는 모든 데이터를 개인용 [122]컴퓨터에 저장하고 있습니다.개별 규모에서 사용하기 쉽기 때문에 지속 불가능한 스토리지 솔루션은 대부분의 분야에서 호의적으로 평가됩니다. "이러한 모범 사례와 만족도의 불일치는 데이터 스토리지가 데이터 수집 및 분석보다 덜 중요하다는 것을 보여줄 수 있습니다."[122]
2012년에 처음 출판된 Open Archival Information System의 레퍼런스 모델에는 과학적 인프라스트럭처가 장기적인 보존을 추구해야 한다고 기술되어 있습니다.이는 "새로운 미디어와 데이터 포맷의 지원 또는 사용자 [123]커뮤니티의 변화를 포함한 기술 변화의 영향을 고려할 수 있을 만큼 충분히 긴 기간"입니다.따라서 데이터 관리의 모범 사례는 스토리지(데이터를 실질적으로 보존하는 것)와 "데이터에 대한 지식을 보존하여 [124]재사용을 촉진하는 것"을 모두 의미합니다.
공용 저장소에서의 데이터 공유는 데이터 인프라의 장기적인 노력과 개방된 데이터의 용장성 가능성으로 인한 보존 위험을 줄이는 데 기여했습니다.2021년 PLOS One에 게시된 50,000개의 데이터 가용성 보고서에 대한 연구에 따르면 데이터 세트의 80%는 자동으로, 98%는 데이터 DOI를 사용하여 자동으로 또는 수동으로 검색할 수 있습니다.또한, 오래된 출판물에 대해서는 접근성이 크게 저하되지 않았다. "URL과 DOI는 시간이 [125]지남에 따라 논문과 관련된 데이터와 코드를 이용할 수 있는 가능성을 높인다.개방된 데이터가 제대로 연결되거나 문서화되지 않은 경우에는 큰 이점이 발견되지 않았습니다. "단순히 어떤 형태로든 데이터를 공유하도록 요구하는 것은 표면적으로 공유되는 많은 데이터 세트에 실제로 액세스할 [126]수 없는 것으로 여러 번 입증되었기 때문에 과학 데이터를 공정하게 만드는 데 바람직한 영향을 미치지 못할 수 있습니다."
계획과 거버넌스
연구 데이터 관리는 데이터 관리 계획 또는 DMP에 배치할 수 있습니다.
데이터 관리 계획은 1966년에 항공 및 엔지니어링 연구의 특정 요구에 대해 수용되었습니다. 항공 및 엔지니어링 연구는 이미 점점 더 복잡해지는 데이터 [127]마찰에 직면해 있습니다.이러한 첫 번째 예는 데이터의 접근, 전송 및 저장과 관련된 중요한 문제에 초점을 맞췄습니다.「2000년대 초까지 DMP는 한정된 분야, 매우 기술적인 복잡성이 큰 프로젝트, 제한된 중간 연구 데이터 수집 및 처리 [128]목적으로 사용되었습니다.」
2000년 이후 대규모 연구 인프라의 구축과 개방형 과학의 발달로 데이터 관리 계획의 범위와 목적이 바뀌었다.과학자가 아닌 정책 입안자가 이 개발에 중요한 역할을 했다.DMP의 작성에 관한 연구자에게 일반적인 조언과 지침을 제공하는 최초의 출판물은 2009년부터 출판되었으며, 이는 JISC와 OECD(…)의 DMP 사용에 따른 것으로, 외부로부터 연구 커뮤니티에 강제되었다.포스"[129]
연구의 경험적 연구는 "2018년)에 대한 데이터 관리 요청에 대한 데이터 관리 및 지원을 제공하는 데 필요한 데이터 관리를 위한 필요성이 높은 것으로 나타났다.3.3%)데이터 관리의 베스트 프랙티스에 관한 트레이닝(31.3%), 데이터 또는 데이터셋을 기술하기 위한 메타데이터 작성 지원(27.[130]6%). 데이터 수집 및 데이터 분석 프로세스의 확대로 인해 비정식 및 코드화되지 않은 광범위한 데이터 관행의 부담이 커지고 있습니다.
연구 프로젝트에서 외부 주주들의 암시는 공개 데이터 공유 원칙에 상당한 잠재적 긴장을 야기합니다.상업적 행위자들의 기여는 특히 어떤 형태의 배타성과 최종 연구 결과의 유용에 의존할 수 있다.2022년 Pujol Priego, Wareham 및 Romasanta는 이러한 문제를 극복하기 위해 데이터 모듈화(데이터의 일부에 국한된 공유) 및 시간 지연(데이터의 [131]최종 출시 전 1년간 금지)과 같은 여러 가지 수용 전략을 수립했습니다.
개방적인 과학 인프라
2021년 11월 승인 과학 인프라를 지원하는 오픈 과학 인프라를 '공유 연구 인프라'로 정의와 다른 커뮤니티를 지원하는 오픈 과학 인프라를 정의합니다.에다.정책입니다.[133]
개방형 과학 데이터를 위한 주요 인프라 형태로는 데이터 저장소, 데이터 분석 플랫폼, 인덱스, 디지털 라이브러리 또는 디지털 [134][135]아카이브가 있습니다.인프라스트럭처는 데이터셋의 퍼블리싱, 유지보수 및 인덱싱에 드는 비용을 개별 연구자 및 기관에서 전적으로 지원하지는 않습니다.오픈 데이터 표준의 정의와 채택, 특히 라이센스나 문서화의 주요 관계자이기도 합니다.
1990년대 말까지 공공 과학 컴퓨팅 인프라스트럭처의 구축은 주요 정책 [136]과제가 되었습니다.「데이터 [133]공유에 관한 최초의 정책 보고서에서는 릴리스와 재사용을 서포트하는 인프라스트럭처의 부족이 인정되고 있었습니다.1990년대와 2000년대 초반의 웹 기반 과학 프로젝트의 첫 물결은 지속 가능성에 대한 중요한 문제를 드러냈습니다.특정 기간에 자금이 할당되었기 때문에 중요한 데이터베이스, 온라인 툴 또는 퍼블리싱 플랫폼을 유지할[28] 수 없었고 프로젝트 매니저는 "보조금 자금과 지속적인 운영 [137]자금 사이의" 죽음의 계곡에 직면했습니다.2010년 이후, 오픈 레포지토리 Digital Commons 및 Elsevie의 SSRN 인수 등, 상업 과학 인프라스트럭처의 통합과 확대에 수반해, 한층 더 「커뮤니티 제어 인프라스트럭처」[138]의 시큐러티가 요구되고 있었습니다.2015년 카메론 니프리 브론, 제니퍼 린더 린드(139)에 의한 학술시설과 같은 공공시설(139)에 의해 승인되었다 이 일의 필수적인 부분이다.eir 활동과 정체성: "오픈 과학은 연구를 위한 새로운 온라인 서비스가 [143]참조하는 지배적인 담론이다."2021년 ESFRI(European Strategy Forum on Research Infrastructures) 로드맵에 따르면 유럽의 주요 레거시 인프라스트럭처는 개방형 과학 원칙을 채택하고 있습니다.ESFRI 로드맵의 연구 인프라스트럭처 대부분은 Open Science 운동의 최전선에 있으며 Open Science 패러다임에 따라 연구 프로세스 전체를 변화시킴으로써 디지털 전환에 중요한 기여를 하고 있습니다."[144]
개방형 과학 인프라스트럭처는 데이터 공유에 대한 보다 높은 수준의 노력을 나타냅니다.이들은 데이터를 효과적으로 유지 및 문서화하고 "메타데이터, 출처, 분류, 데이터 구조 표준 및 마이그레이션을 [145]통해 데이터에 가치를 추가"하기 위해 상당한 반복적인 투자에 의존합니다.게다가 인프라들은 규범에 통합되어야 하며, 그들이 제공하는 과학적 커뮤니티의 주요 도전들을 위한 기준 수집을 위한 기준 수집을 위한 기준 수집을 위한 기준 수집해야 한다.아니요.펜 인프라스트럭처는 경우에 따라서는 경쟁 표준 중 하나를 선택하는 것을 의미하며, API 또는 [146]기타 엔드포인트를 통해 표준이 올바르게 업데이트되고 액세스 가능하도록 보장합니다.
오픈 사이언스 인프라스트럭처의 개념적 정의는 커먼즈, 특히 지식 커먼즈에 관한 엘리노어 오스트롬의 분석에 크게 영향을 받았습니다.오스트롬에 따르면 Cameron Neilon은 개방형 인프라가 공통 자원 풀의 관리뿐만 아니라 공통 거버넌스와 [147]규범의 정교함도 특징이라고 강조합니다.개방형 과학 데이터의 확산은 또한 엄격한 거버넌스 문제를 제기한다.데이터의 소유권 결정, 프리 라이선스의 도입, 프라이버시에 관한 규제의 실시 등에 대해서는 「지속적인 교섭이 필요」해, 폭넓은 이해관계자가 [148]관여하고 있다.
오픈 사이언스 인프라는 특정 과학 커뮤니티에서의 통합을 넘어 오픈 소스 및 오픈 데이터 이동과 밀접한 관계가 있습니다.SPARC가 조사한 유럽 인프라스트럭처의 82%는 오픈 소스 소프트웨어를 부분적으로 구축했다고 주장하고 있으며 53%는 테크놀로지 인프라스트럭처 전체를 오픈 [149]소스로 관리하고 있습니다.개방형 과학 인프라스트럭처는 다른 개방형 과학 인프라스트럭처의 표준을 통합하는 것이 바람직하다.유럽 인프라스트럭처 중 가장 일반적으로 거론되는 시스템(그 때문에 많은 사람에게 필수적인 인프라스트럭처)은 ORCID, Crossref, DOAJ, BASE, OpenAIRE, Altmetric 및 Datacite입니다.이들 대부분은 비영리입니다.[150]오픈 사이언스 인프라스트럭처는, 「연구자 중심, 저비용, 혁신, 및 상호 운용 가능한 연구 툴」을 전제로 하는, 새롭게 등장한 「완전히 상호 운용 가능한 오픈 사이언스 커먼스」의 일부가 되어, 현재의 주로 닫힌 시스템보다 우수합니다."[151]
「 」를 참조해 주세요.
레퍼런스
- ^ 슈피겔할터, D데이터를 공개하고 문헌을 신뢰합니다.스칼라 키친.2018년 9월 7일 취득.
- ^ a b 윌킨슨 외 연구진 2016년
- ^ 립톤 2020, 페이지 19
- ^ Borgman 2015, 페이지 18
- ^ a b c d 립톤 2020, 59페이지
- ^ a b 립톤 2020, 페이지 61
- ^ 제29조 - 결과 배포 - 공개 접근 - EU 자금 지원 가시성, H2020 모델 조성 계약 초안
- ^ 국립아카데미 2012, 페이지 1
- ^ Borgman 2015, 페이지 4-5.
- ^ a b c Pujol Priego, Wareham & Romasanta 2022, 페이지 220.
- ^ Edwards et al. 2011, 페이지 669
- ^ a b c Pujol Priego, Wareham & Romasanta 2022, 페이지 224.
- ^ Pujol Priego, Wareham & Romasanta 2022, 페이지 225.
- ^ 로젠버그 2018, 557-558페이지
- ^ 버크랜드 1991
- ^ Edwards 2010, 84페이지
- ^ Edwards 2010, 99페이지
- ^ Edwards 2010, 페이지 102
- ^ 마차도, 호르헤"열린 데이터와 열린 과학"알바글리, 마시엘, 압도"열린 과학, 열린 질문", 2015[데드링크]
- ^ 샹카, 에셴펠더 & 다우니 2016, 페이지 63
- ^ Committee on Scientific Accomplishments of Earth Observations from Space, National Research Council (2008). Earth Observations from Space: The First 50 Years of Scientific Achievements. The National Academies Press. p. 6. ISBN 978-0-309-11095-2. Retrieved 2010-11-24.
- ^ World Data Center System (2009-09-18). "About the World Data Center System". NOAA, National Geophysical Data Center. Retrieved 2010-11-24.
- ^ a b Borgman 2015, 7페이지
- ^ 레가치 2015, 128페이지
- ^ 본 & 한 2003, 페이지 397
- ^ Campbell-Kelly & Garcia-Swartz 2013.
- ^ a b Berners-Lee & Fischetti 2008, 페이지 17
- ^ a b 데이코스 2013.
- ^ Tim Berners-Lee, "하이퍼텍스트 링크의 수식자", 1991년 8월 6일에 alt.hypertext로 발송된 메일
- ^ 호간 2014, 페이지 20
- ^ Bygrave & Bing 2009, 30페이지
- ^ 스타 앤드 루헤더 1996, 페이지 131
- ^ a b c d Borgman 2015, 페이지 217
- ^ National Research Council (1995). On the Full and Open Exchange of Scientific Data. Washington, DC: The National Academies Press. doi:10.17226/18769. ISBN 978-0-309-30427-6.
- ^ a b c Pujol Priego, Wareham & Romasanta 2022, 페이지 223.
- ^ 립톤 2020, 페이지 16
- ^ 1999년 국립연구위원회, 16페이지
- ^ 공적 자금 지원 데이터에 대한 개방적 접근에 관한 OECD 선언 2010년 4월 20일 Wayback Machine에 보관
- ^ 립톤 2020, 페이지 17
- ^ OECD 2007, 페이지 13.
- ^ OECD 2007, 페이지 4
- ^ 윌킨슨 외 연구진, 8페이지
- ^ a b 윌킨슨 외 2016, 페이지 3
- ^ a b c 윌킨슨 외 2016, 페이지 1
- ^ 윌킨슨 외 2016, 페이지 4
- ^ van Reisen et al. 2020.
- ^ Horizon 2020 Commission의 FAIR 데이터 현실화 전문가 그룹(E03464)
- ^ 립톤 2020, 페이지 66
- ^ a b Pujol Priego, Wareham & Romasanta 2022, 페이지 241.
- ^ a b c Borgman 2015, 페이지 48
- ^ 페더러 외 2018년
- ^ 콜라비자 외 2020년
- ^ a b c Colavizza et al. 2020, 5페이지
- ^ a b Borgman 2015, 페이지 216
- ^ Chavan & Penev 2011.
- ^ a b c d 크로사스 2014, 페이지 63
- ^ Bisco 1965, 페이지 148
- ^ 도드 1979, 페이지 78
- ^ 도드 1979년
- ^ 브레이스 2004.
- ^ Borgman 2015, 페이지 47
- ^ a b Colavizza et al. 2020, 12페이지
- ^ Colavizza et al. 2020, 10페이지
- ^ a b Vines et al. 2014, 96페이지
- ^ 립톤 2020, 페이지 65
- ^ a b 유럽 집행위원회 2018, 페이지 31.
- ^ Pujol Priego, Wareham & Romasanta 2022, 페이지 224-225.
- ^ a b Borgman 2015, 페이지 208
- ^ 데이비스 등 2019, 페이지 1
- ^ Borgman 2015, 페이지 44
- ^ Lyon, Jeng & Mattern 2017, 페이지 47
- ^ a b Borgman 2015, 페이지 209
- ^ Borgman 2015, 페이지 211.
- ^ a b c Borgman 2015, 페이지 212
- ^ Tenopir et al. 2020, 12페이지
- ^ 데이비스 등 2019, 페이지 6
- ^ Borgman 2015, 페이지 283
- ^ Borgman 2015, 페이지 205
- ^ a b c Borgman 2015, 페이지 213
- ^ Tenopir et al. 2011, 7페이지
- ^ Tenopir et al. 2011, 9페이지
- ^ a b 슈미트, 제민홀저, 트렐로어 2016.
- ^ Borgman 2015, 페이지 206
- ^ a b 사이언스 2011.
- ^ Borgman 2015, 페이지 207
- ^ Pujol Priego, Wareham & Romasanta 2022, 페이지 226.
- ^ Tenopir et al. 2020, 5페이지
- ^ Borgman 2015, 페이지 223
- ^ Colavizza et al. 2020, 13페이지
- ^ a b 립톤 2020, 페이지 127
- ^ Kerber 2021, 페이지 1
- ^ 립톤 2020, 페이지 119
- ^ a b c d e 립톤 2020, 페이지 119
- ^ a b 립톤 2020, 페이지 122
- ^ a b 립톤 2020, 페이지 123
- ^ 립톤 2020, 페이지 126
- ^ 제6조 2006/116/EC
- ^ 립톤 2020, 페이지 124
- ^ a b c 립톤 2020, 페이지 125
- ^ 앨런, 오코넬 & 키어머 2019, 페이지 73
- ^ 립톤 2020, 페이지 129
- ^ a b 립톤 2020, 130페이지
- ^ 립톤 2020, 페이지 131
- ^ a b 립톤 2020, 페이지 138
- ^ 립톤 2020, 페이지 139
- ^ 베를린 선언
- ^ a b 립톤 2020, 페이지 133
- ^ a b 립톤 2020, 페이지 134
- ^ 스코필드 외 2009년.
- ^ 립톤 2020, 페이지 132
- ^ Cox & Verbaan 2018, 26-27페이지
- ^ a b Borgman 2015, 페이지 214
- ^ Borgman 2015, 페이지 220
- ^ Borgman 2015, 페이지 222
- ^ Borgman 2015, 페이지 218
- ^ Borgman 2015, 페이지 221.
- ^ 브리니 2015.
- ^ Cox & Verbaan 2018.
- ^ 티보르 2021년
- ^ Vines et al. 2014.
- ^ Tedersoo et al.
- ^ a b c Tenopir et al. 2020, 11페이지
- ^ CCSDS 2012, 페이지 1
- ^ 립톤 2020, 페이지 73
- ^ 페더러 2022, 페이지 9
- ^ 페더러 2022, 페이지 11
- ^ Smale et al. 2020, 3페이지
- ^ Smale et al. 2020, 페이지 4
- ^ Smale et al. 2020, 9페이지
- ^ a b Tenopir et al. 2020, 13페이지
- ^ Pujol Priego, Wareham & Romasanta 2022, 페이지 239-240.
- ^ 유네스코 개방형 과학 권고, 2021, CL/4363
- ^ a b Borgman 2015, 페이지 224
- ^ Ficara et al. 2020, 페이지 16.
- ^ a b Borgman 2015, 페이지 225
- ^ Borgman 2007, 페이지 21
- ^ 스키너 2019, 페이지 6
- ^ 2018년 조셉, 페이지 1
- ^ Neylon et al. 2015.
- ^ Crossref 이사회가 열린 학술적 인프라스트럭처의 원칙을 채택하기 위해 투표하다
- ^ OpenCitations의 개방형 학술 인프라 원칙 준수
- ^ 개방적인 학술적 인프라스트럭처의 원칙에 대한 Dryad의 대처
- ^ Fecher et al. 2021, 페이지 505
- ^ ESFRI 로드맵 2021, 페이지 159.
- ^ Borgman 2015, 페이지 226
- ^ Ficara et al. 2020, 페이지 23.
- ^ 네일론 2017, 페이지 7
- ^ Borgman 2015, 페이지 229
- ^ Ficara et al. 2020, 페이지 29
- ^ Ficara et al. 2020, 페이지 50
- ^ Ross-Hellauer et al. 2020, 13페이지
참고 문헌
리포트
- National Research Council (1999). A Question of Balance: Private Rights and the Public Interest in Scientific and Technical Databases (Report). National Academies Press. Retrieved 2022-05-18.
- OECD (2007). OECD Principles and Guidelines for Access to Research Data from Public Funding (Report). Paris: Organisation for Economic Co-operation and Development. Retrieved 2022-05-18.
- CCSDS (2012). Reference Model for an Open Archival Information System (OAIS) (Report). p. 135.
- European Commission (2018). Cost-benefit analysis for FAIR research data: cost of not having FAIR research data (Report). LU: Office des publications de l'Union européenne. doi:10.2777/02999. Retrieved 2022-06-18.
- Astell, Mathias; Hrynaszkiewicz, Iain; Allin, Katie; Penny, Dan; Mithu Lucraft; Baynes, Grace; Springer Nature Admin (2018). Practical challenges for researchers in data sharing - Springer Nature survey data (anonymised) (Report). Springer Nature. Retrieved 2022-09-11.
- Skinner, Katherine (2019). Mapping the Scholarly Communication Landscape: 2019 Census (Report). Educopia Institute. S2CID 201314019. Retrieved 2021-12-12.
- European Commission (2019). Horizon 2020 Annotated Model Grant A greements (Report). European Commission.
- Ficarra, Victoria; Fosci, Mattia; Chiarelli, Andrea; Kramer, Bianca; Proudman, Vanessa (2020-10-30). Scoping the Open Science Infrastructure Landscape in Europe (Report). Retrieved 2021-10-31.
- ESFRI (2021). ESFRI Roadmap (PDF) (Report). ESFRI.
- Ross-Hellauer, Tony; Fecher, Benedikt; Shearer, Kathleen; Rodrigues, Eloy (2019-09-03). Pubfair: a framework for sustainable, distributed, open science publishing services (Report). Retrieved 2021-12-12.
저널 기사
- Bisco, Ralph L. (1965-09-01). "Social Science Data Archives Technical Considerations". Social Science Information. 4 (3): 129–150. doi:10.1177/053901846500400311. ISSN 0539-0184. S2CID 144164959.
- Dodd, Sue A. (1979). "Bibliographic references for numeric social science data files: Suggested guidelines". Journal of the American Society for Information Science. 30 (2): 77–82. doi:10.1002/asi.4630300203. ISSN 1097-4571. Retrieved 2022-05-15.
- Buckland, Michael K. (1991). "Information as thing". Journal of the American Society for Information Science. 42 (5): 351–360. doi:10.1002/(SICI)1097-4571(199106)42:5<351::AID-ASI5>3.0.CO;2-3. ISSN 1097-4571. Retrieved 2022-03-22.
- Star, Susan Leigh; Ruhleder, Karen (1996-03-01). "Steps Toward an Ecology of Infrastructure: Design and Access for Large Information Spaces". Information Systems Research. 7 (1): 111–134. doi:10.1287/isre.7.1.111. ISSN 1047-7047. Retrieved 2021-12-22.
- Brase, Jan (2004). "Using Digital Library Techniques – Registration of Scientific Primary Data". In Rachel Heery; Liz Lyon (eds.). Research and Advanced Technology for Digital Libraries. Lecture Notes in Computer Science. Berlin, Heidelberg: Springer. pp. 488–494. doi:10.1007/978-3-540-30230-8_44. ISBN 978-3-540-30230-8.
- Barateiro, José; Antunes, Gonçalo; Cabral, Manuel; Borbinha, José; Rodrigues, Rodrigo (2008). "Digital Preservation of Scientific Data". In Birte Christensen-Dalsgaard; Donatella Castelli; Bolette Ammitzbøll Jurik; Joan Lippincott (eds.). Research and Advanced Technology for Digital Libraries. Vol. 5173. Berlin, Heidelberg: Springer Berlin Heidelberg. pp. 388–391. doi:10.1007/978-3-540-87599-4_41. ISBN 978-3-540-87598-7. Retrieved 2022-06-21.
- Schofield, Paul N.; Bubela, Tania; Weaver, Thomas; Portilla, Lili; Brown, Stephen D.; Hancock, John M.; Einhorn, David; Tocchini-Valentini, Glauco; Hrabe de Angelis, Martin; Rosenthal, Nadia (2009-09-10). "Post-publication sharing of data and tools". Nature. 461 (7261): 171–173. Bibcode:2009Natur.461..171.. doi:10.1038/461171a. ISSN 0028-0836. PMC 6711854. PMID 19741686.
- Korsmo, F. L. (2010). "The Origins and Principles of the World Data Center System". Data Science Journal. 8: –55–IGY65. doi:10.2481/dsj.SS_IGY-011.
- Edwards, Paul N.; Mayernik, Matthew S.; Batcheller, Archer L.; Bowker, Geoffrey C.; Borgman, Christine L. (2011-10-01). "Science friction: Data, metadata, and collaboration". Social Studies of Science. 41 (5): 667–690. doi:10.1177/0306312711413314. ISSN 0306-3127. PMID 22164720. S2CID 33973392.
- Tenopir, Carol; Allard, Suzie; Douglass, Kimberly; Aydinoglu, Arsev Umur; Wu, Lei; Read, Eleanor; Manoff, Maribeth; Frame, Mike (2011). "Data Sharing by Scientists: Practices and Perceptions". PLOS ONE. 6 (6): –21101. Bibcode:2011PLoSO...621101T. doi:10.1371/journal.pone.0021101. ISSN 1932-6203. PMC 3126798. PMID 21738610.
- Chavan, Vishwas; Penev, Lyubomir (2011-12-15). "The data paper: a mechanism to incentivize data publishing in biodiversity science". BMC Bioinformatics. 12 (Suppl 15): –2. doi:10.1186/1471-2105-12-S15-S2. ISSN 1471-2105. PMC 3287445. PMID 22373175.
- Campbell-Kelly, Martin; Garcia-Swartz, Daniel D (2013). "The History of the Internet: The Missing Narratives". Journal of Information Technology. 28 (1): 18–33. doi:10.1057/jit.2013.4. ISSN 0268-3962. S2CID 41013. Retrieved 2022-01-04.
- Dacos, Marin (2013). "Cyberclio : vers une cyberinfrastructure au cœur de la discipline historique". In Frédéric Clavert, Serge Noiret (ed.). L'histoire contemporaine à l'ère contemporain (Peter Lang ed.). Berne. pp. 29–41.
- Wallis, Jillian C.; Rolando, Elizabeth; Borgman, Christine L. (2013). "If We Share Data, Will Anyone Use Them? Data Sharing and Reuse in the Long Tail of Science and Technology". PLOS ONE. 8 (7): –67332. Bibcode:2013PLoSO...867332W. doi:10.1371/journal.pone.0067332. ISSN 1932-6203. PMC 3720779. PMID 23935830.
- Vines, Timothy H.; Albert, Arianne Y. K.; Andrew, Rose L.; Débarre, Florence; Bock, Dan G.; Franklin, Michelle T.; Gilbert, Kimberly J.; Moore, Jean-Sébastien; Renaut, Sébastien; Rennison, Diana J. (2014-01-06). "The Availability of Research Data Declines Rapidly with Article Age". Current Biology. 24 (1): 94–97. doi:10.1016/j.cub.2013.11.014. ISSN 0960-9822. PMID 24361065. S2CID 7799662. Retrieved 2022-09-11.
- Crosas, Mercè (2014-05-26). "The Evolution of Data Citation: From Principles to Implementation". IASSIST Quarterly. 37 (1–4): 62. doi:10.29173/iq504. ISSN 0739-1137. Retrieved 2022-05-15.
- Tenopir, Carol; Dalton, Elizabeth D.; Allard, Suzie; Frame, Mike; Pjesivac, Ivanka; Birch, Ben; Pollock, Danielle; Dorsett, Kristina (2015). "Changes in Data Sharing and Data Reuse Practices and Perceptions among Scientists Worldwide". PLOS ONE. 10 (8): –0134826. Bibcode:2015PLoSO..1034826T. doi:10.1371/journal.pone.0134826. ISSN 1932-6203. PMC 4550246. PMID 26308551.
- Shankar, Kalpana; Eschenfelder, Kristin R.; Downey, Greg (2016-05-13). "Studying the History of Social Science Data Archives as Knowledge Infrastructure". Science & Technology Studies. 29 (2): 62–73. doi:10.23987/sts.55691. ISSN 2243-4690. Retrieved 2021-12-23.
- Neylon, Cameron; Chan, Leslie (2016-04-18). "Exploring the opportunities and challenges of implementing open research strategies within development institutions". Research Ideas and Outcomes. 2: –8880. doi:10.3897/rio.2.e8880. ISSN 2367-7163. Retrieved 2021-11-01.
- Schmidt, Birgit; Gemeinholzer, Birgit; Treloar, Andrew (2016-01-15). "Open Data in Global Environmental Research: The Belmont Forum's Open Data Survey". PLOS ONE. 11 (1): –0146695. Bibcode:2016PLoSO..1146695S. doi:10.1371/journal.pone.0146695. ISSN 1932-6203. PMC 4714918. PMID 26771577.
- Wilkinson, Mark D.; Dumontier, Michel; Aalbersberg, IJsbrand Jan; Appleton, Gabrielle; Axton, Myles; Baak, Arie; Blomberg, Niklas; Boiten, Jan-Willem; Santos, Luiz Bonino da Silva; Bourne, Philip E.; Bouwman, Jildau; Brookes, Anthony J.; Clark, Tim; Crosas, Mercè; Dillo, Ingrid; Dumon, Olivier; Edmunds, Scott; Evelo, Chris T.; Finkers, Richard; Gonzalez-Beltran, Alejandra; Gray, Alasdair J. G.; Groth, Paul; Goble, Carole; Grethe, Jeffrey S.; Heringa, Jaap; Hoen, Peter A. C. 't; Hooft, Rob; Kuhn, Tobias; Kok, Ruben; Kok, Joost; Lusher, Scott J.; Martone, Maryann E.; Mons, Albert; Packer, Abel L.; Persson, Bengt; Rocca-Serra, Philippe; Roos, Marco; Schaik, Rene van; Sansone, Susanna-Assunta; Schultes, Erik; Sengstag, Thierry; Slater, Ted; Strawn, George; Swertz, Morris A.; Thompson, Mark; Lei, Johan van der; Mulligen, Erik van; Velterop, Jan; Waagmeester, Andra; Wittenburg, Peter; Wolstencroft, Katherine; Zhao, Jun; Mons, Barend (2016). "The FAIR Guiding Principles for scientific data management and stewardship". Scientific Data. 3: 160018. Bibcode:2016NatSD...360018W. doi:10.1038/sdata.2016.18. PMC 4792175. PMID 26978244.
- Lyon, Liz; Jeng, Wei; Mattern, Eleanor (2017-09-16). "Research Transparency: A Preliminary Study of Disciplinary Conceptualisation, Drivers, Tools and Support Services". International Journal of Digital Curation. 12 (1): 46–64. doi:10.2218/ijdc.v12i1.530. ISSN 1746-8256. Retrieved 2022-06-10.
- Witkowski, Tomasz (2017). "A Scientist Pushes Psychology Journals toward Open Data". Skeptical Inquirer. 41 (4): 6–7. Archived from the original on 2018-09-15. 비록 일부 과학자들은 현재 그렇게 하는 것이 과학 원고의 미래 철회를 막는데 도움을 줄 수 있다는 것에 동의한다.
- Besançon, Lonni; Peiffer-Smadja, Nathan; Segalas, Corentin; Jiang, Haiting; Masuzzo, Paola; Smout, Cooper; Billy, Eric; Deforet, Maxime; Leyrat, Clémence (2020). "Open Science Saves Lives: Lessons from the COVID-19 Pandemic". BMC Medical Research Methodology. 21 (1): 117. doi:10.1186/s12874-021-01304-y. PMC 8179078. PMID 34090351.
- Rosenberg, Daniel (2018-11-01). "Data as Word". Historical Studies in the Natural Sciences. 48 (5): 557–567. doi:10.1525/hsns.2018.48.5.557. hdl:21.11116/0000-0002-C567-C. ISSN 1939-1811. S2CID 149765492. Retrieved 2022-03-21.
- Joseph, Heather (2018-09-05). "Securing community-controlled infrastructure: SPARC's plan of action". College & Research Libraries News. 79 (8): 426. doi:10.5860/crln.79.8.426. S2CID 116057034.
- Federer, Lisa M.; Belter, Christopher W.; Joubert, Douglas J.; Livinski, Alicia; Lu, Ya-Ling; Snyders, Lissa N.; Thompson, Holly (2018-05-02). "Data sharing in PLOS ONE: An analysis of Data Availability Statements". PLOS ONE. 13 (5): –0194768. Bibcode:2018PLoSO..1394768F. doi:10.1371/journal.pone.0194768. ISSN 1932-6203. PMC 5931451. PMID 29719004.
- Ross-Hellauer, Tony; Schmidt, Birgit; Kramer, Bianca (2018). "Are funder Open Access platforms a good idea?". SAGE Open. 8 (4): 2158244018816717. doi:10.1177/2158244018816717. S2CID 220987901.
- Neylon, Cameron (2017-12-27). "Sustaining Scholarly Infrastructures through Collective Action: The Lessons that Olson can Teach us". KULA: Knowledge Creation, Dissemination, and Preservation Studies. 1: 3. doi:10.5334/kula.7. ISSN 2398-4112. Retrieved 2022-01-09.
- Allen, Liz; O’Connell, Alison; Kiermer, Veronique (2019). "How can we ensure visibility and diversity in research contributions? How the Contributor Role Taxonomy (CRediT) is helping the shift from authorship to contributorship". Learned Publishing. 32 (1): 71–74. doi:10.1002/leap.1210. ISSN 1741-4857. S2CID 67868432. Retrieved 2022-05-14.
- Smale, Nicholas Andrew; Unsworth, Kathryn; Denyer, Gareth; Magatova, Elise; Barr, Daniel (2020-01-01). "A Review of the History, Advocacy and Efficacy of Data Management Plans". International Journal of Digital Curation. 15 (1): 30. doi:10.2218/ijdc.v15i1.525. ISSN 1746-8256. Retrieved 2022-06-21.
- Tenopir, Carol; Rice, Natalie M.; Allard, Suzie; Baird, Lynn; Borycz, Josh; Christian, Lisa; Grant, Bruce; Olendorf, Robert; Sandusky, Robert J. (2020-03-11). "Data sharing, management, use, and reuse: Practices and perceptions of scientists worldwide". PLOS ONE. 15 (3): –0229003. Bibcode:2020PLoSO..1529003T. doi:10.1371/journal.pone.0229003. ISSN 1932-6203. PMC 7065823. PMID 32160189.
- van Reisen, Mirjam; Stokmans, Mia; Basajja, Mariam; Ong'ayo, Antony Otieno; Kirkpatrick, Christine; Mons, Barend (2020-01-01). "Towards the Tipping Point for FAIR Implementation". Data Intelligence. 2 (1–2): 264–275. doi:10.1162/dint_a_00049. ISSN 2641-435X. S2CID 207828428.
- Colavizza, Giovanni; Hrynaszkiewicz, Iain; Staden, Isla; Whitaker, Kirstie; McGillivray, Barbara (2020-04-22). "The citation advantage of linking publications to research data". PLOS ONE. 15 (4): –0230416. arXiv:1907.02565. Bibcode:2020PLoSO..1530416C. doi:10.1371/journal.pone.0230416. ISSN 1932-6203. PMC 7176083. PMID 32320428.
- Kerber, Wolfgang (2021). "Specifying and Assigning "Bundles of Rights" on Data: An Economic Perspective". SSRN Electronic Journal. doi:10.2139/ssrn.3847620. hdl:10419/234876. ISSN 1556-5068. S2CID 235457824. Retrieved 2022-05-14.
- Tedersoo, Leho; Küngas, Rainer; Oras, Ester; Köster, Kajar; Eenmaa, Helen; Leijen, Äli; Pedaste, Margus; Raju, Marju; Astapova, Anastasiya; Lukner, Heli; Kogermann, Karin; Sepp, Tuul (2021-07-27). "Data sharing practices and data availability upon request differ across scientific disciplines". Scientific Data. 8 (1): 192. Bibcode:2021NatSD...8..192T. doi:10.1038/s41597-021-00981-0. ISSN 2052-4463. PMC 8381906. PMID 34315906.
- Fecher, Benedikt; Kahn, Rebecca; Sokolovska, Nataliia; Völker, Teresa; Nebe, Philip (2021-08-01). "Making a Research Infrastructure: Conditions and Strategies to Transform a Service into an Infrastructure". Science and Public Policy. 48 (4): 499–507. doi:10.1093/scipol/scab026. ISSN 0302-3427. Retrieved 2021-12-22.
- Pujol Priego, Laia; Wareham, Jonathan; Romasanta, Angelo Kenneth S. (2022-02-07). "The puzzle of sharing scientific data". Industry and Innovation. 29 (2): 219–250. doi:10.1080/13662716.2022.2033178. ISSN 1366-2716. S2CID 246795400. Retrieved 2022-06-18.
- Federer, Lisa M. (2022-08-24). "Long-term availability of data associated with articles in PLOS ONE". PLOS ONE. 17 (8): –0272845. doi:10.1371/journal.pone.0272845. ISSN 1932-6203. PMC 9401135. PMID 36001577.
- Science Staff (2011-02-11). "Challenges and Opportunities". Science. 331 (6018): 692–693. Bibcode:2011Sci...331..692.. doi:10.1126/science.331.6018.692. PMID 21311002. S2CID 109422723.
서적 및 논문
- Bourne, Charles P.; Hahn, Trudi Bellardo (2003-08-01). A History of Online Information Services, 1963-1976. MIT Press. ISBN 978-0-262-26175-3.
- Borgman, Christine L. (2007-10-12). Scholarship in the Digital Age: Information, Infrastructure, and the Internet. Cambridge, MA, USA: MIT Press. ISBN 978-0-262-02619-2.
- Berners-Lee, Tim; Fischetti, Mark (2008). Weaving the Web: The Original Design and Ultimate Destiny of the World Wide Web by Its Inventor. Paw Prints. ISBN 978-1-4395-0036-1.
- Bygrave, Lee A.; Bing, Jon (2009-01-22). Internet Governance: Infrastructure and Institutions. OUP Oxford. ISBN 978-0-19-956113-1.
- Edwards, Paul N. (2010-03-12). A Vast Machine: Computer Models, Climate Data, and the Politics of Global Warming. Infrastructures. Cambridge, MA, USA: MIT Press. ISBN 978-0-262-01392-5.
- National Research Council (2012). Paul E. Uhlir (ed.). For Attribution: Developing Data Attribution and Citation Practices and Standards: Summary of an International Workshop. Washington, DC: The National Academies Press. ISBN 978-0-309-26728-1. Retrieved 2022-03-22.
- Gaillard, Rémi (2014). De l'Open data à l'Open research data: quelle(s) politique(s) pour les données de recherche ? (Thesis). ENSSIB.
- Hogan, A. (2014-04-09). Reasoning Techniques for the Web of Data. IOS Press. ISBN 978-1-61499-383-4.
- Borgman, Christine L. (2015-01-02). Big Data, Little Data, No Data: Scholarship in the Networked World. Cambridge, MA, USA: MIT Press. ISBN 978-0-262-02856-1.
- Briney, Kristin (2015-09-01). Data Management for Researchers: Organize, maintain and share your data for research success. Pelagic Publishing Ltd. ISBN 978-1-78427-013-1.
- Regazzi, John J. (2015-02-12). Scholarly Communications: A History from Content as King to Content as Kingmaker. Rowman & Littlefield. ISBN 978-0-8108-9088-6.
- Cox, Andrew; Verbaan, Eddy (2018-05-11). Exploring Research Data Management. Facet Publishing. ISBN 978-1-78330-280-2.
- Tim Davies; Stephen B. Walker; Mor Rubinstein; Fernando Perini, eds. (2019). The State of Open Data: Histories and Horizons. African Minds. Retrieved 2022-09-11.
- Lipton, Vera (2020-01-22). Open Scientific Data: Why Choosing and Reusing the RIGHT DATA Matters. BoD – Books on Demand. ISBN 978-1-83880-984-3.[어쩔 수 없는 소스?]
- Tibor, Koltay (2021-10-31). Research Data Management and Data Literacies. Chandos Publishing. ISBN 978-0-323-86002-4.
기타 소스
- Neylon, Cameron; Bilder, Geoffrey; Lin, Jennifer (2015). "Principles for Open Scholarly Infrastructures". Science in the open. Retrieved 2021-11-01.