데이터베이스 보존

Database preservation

데이터베이스 보존은 대개 데이터의 초기 특성(컨텍스트, 내용, 구조, 모양 및 행동)을 잃지 않고 기술이 변화함에 따라 데이터베이스에 저장된 정보를 장기적으로 접근하기 쉬운 형태로 변환하는 것을 포함한다.[1]

데이터베이스의 보급과 함께, 데이터베이스와 그 내용의 보존을 돕기 위한 다른 방법들이 개발되었다.이러한 방법은 데이터베이스 특성과 보존 필요성에 따라 다르다.[2]

데이터베이스 보존에는 마이그레이션, XML, 에뮬레이션의 세 가지 기본 방법이 있다.[1]또한 SIARD, 디지털 보존 툴킷, 크로노스, RODA를 포함한 데이터베이스의 보존을 돕기 위해 만들어진 특정 도구, 소프트웨어 및 프로젝트도 있다.

데이터베이스 특성

해당 데이터베이스의 보존을 시도할 때 데이터베이스 자체의 특성을 고려한다.관계형 데이터베이스는 레코드에 데이터를 포함하는 테이블로 구성되며, 이러한 테이블은 레코드에 저장된 공통 데이터 지점을 통해 서로 연결된다.[3]그러나 빅데이터의 등장으로 새로운 NoSQL 데이터베이스도 가동되고 있다.[4]데이터베이스는 개방 또는 폐쇄, 정적 또는 동적 데이터베이스로 특징지어진다.데이터베이스가 열린 것으로 간주되는 경우, 추가되는 데이터에 열려 있음을 의미하지만, 데이터베이스가 닫힌 것으로 간주되는 경우에는 그 반대(완료된 특성 때문에 새로운 데이터에 닫힌다는 의미)를 의미한다.데이터베이스는 초기 포함 후 편집되거나 변경되지 않은 레코드를 포함할 때는 정적인 것으로 간주되지만, 데이터베이스는 향후 편집될 수 있는 레코드를 포함할 때는 동적인 것으로 간주된다.데이터베이스가 개방적이고 정적인지, 개방적이고 동적인지, 폐쇄적이고 정적인지 또는 폐쇄적이고 동적인지 여부는 보존에 사용되는 방법에 영향을 미칠 것이다.데이터가 끊임없이 변화하기 때문에 정적 데이터베이스보다 동적 데이터베이스를 보존하는 것이 더 어렵고, 데이터가 지속적으로 추가되기 때문에 폐쇄형 데이터베이스보다 개방형 데이터베이스를 보존하는 것이 더 어렵다.기록 내에서 또는 기록을 추가하여 데이터베이스를 더 자주 변경할수록 보존을 위해 해당 변경사항을 캡처하기 위한 단계를 더 자주 수행해야 한다.[2]

데이터베이스 보존 방법

데이터베이스 보존에도 세 가지 핵심 방법의 디지털 보존이 적용될 수 있다.이러한 방법에는 마이그레이션, XML에뮬레이션이 포함된다.[1]

마이그레이션

마이그레이션 방법(비활성 보관이라고도 함)[3]은 구식 데이터베이스 프로그램에서 새로운 형식으로 데이터를 전송하는 것을 포함한다.마이그레이션 방법에는 역호환성, 상호운용성, 표준으로의 전환의 세 가지가 있다.역호환성은 이전 버전을 사용하여 만들어진 문서를 열고, 액세스하고, 읽기 위해 새로운 소프트웨어 또는 하드웨어 버전을 활용하는 것을 포함한다.상호운용성에는 특정 파일에 소프트웨어와 하드웨어의 둘 이상의 조합으로 접근할 수 있도록 함으로써 노후화 가능성을 줄이는 것이 포함된다.표준으로의 전환은 데이터 스토리지를 독점적 형식에서 보다 쉽게 접근 가능하고 널리 사용되는 형식으로 이전하는 것을 포함한다.[1]

XML

XML 방법(XML 정규화라고도 함)[3]은 원본 데이터베이스 정보를 XML 표준 형식으로 변환하는 것을 포함한다.포맷으로서의 XML은 (텍스트 편집기나 워드프로세서를 넘어) 특정 하드웨어나 소프트웨어가 필요하지 않으며, 인간과 기계를 모두 읽을 수 있어 보존과 보관 목적을 위한 지속 가능한 포맷이 된다.[1]그러나 데이터를 XML 형식으로 변환할 때 쿼리 기능과 같은 데이터베이스의 특정 대화형 기능은 손실된다.[3]

에뮬레이션

에뮬레이션 방법은 새로운 기술과 소프트웨어로 오래된 컴퓨팅 환경을 재현하는 것을 포함한다.이것은 구식 소프트웨어, 하드웨어 또는 파일 형식이 새로운 시스템에서 접근 가능한 상태를 유지할 수 있게 한다.따라서, 오래된 데이터베이스는 데이터베이스가 원래 만들어진 환경을 모방하는 에뮬레이터에서 실행될 수 있다.[1]

보존도구

SIARD

SIARD(Software Independent Archiving of Relational Database) 형식의 버전 1.0은 2007년 스위스 연방기록원에 의해 개발되었다.관계형 데이터베이스를 벤더 중립적인 형태로 보관하도록 설계되었다.SIARD 아카이브는 XML과 SQL:1999를 기반으로 한 ZIP 기반 파일 패키지다.SIARD 파일은 데이터베이스 컨텐츠와 데이터베이스 테이블의 구조와 그들의 관계를 기록하는 기계 처리 가능한 구조 메타데이터를 모두 통합한다.ZIP 파일에는 데이터베이스 구조(metadata.xml)를 설명하는 XML 파일과 테이블당 하나씩 XML 파일 모음이 들어 있어 테이블 내용을 캡처한다.또한 SIARD 아카이브에는 데이터베이스 대형 개체(BLOB 및 CLOB)를 나타내는 텍스트 파일과 이진 파일이 포함될 수 있다.SIARD는 ZIP 도구로 탐색하여 개별 테이블에 대한 직접 액세스를 허용한다.SIARD 아카이브는 운영 데이터베이스는 아니지만 아카이브된 데이터베이스를 SQL:1999를 지원하는 다른 관계형 데이터베이스 관리 시스템(RDBMS)으로 재통합할 수 있도록 지원한다.또한, SIARD는 데이터베이스 자체에 기록되지 않는 기술 및 상황별 메타데이터의 추가와 아카이브에 문서 파일을 내장하는 것을 지원한다.[5]SIARD 버전 1.0은 2013년에 표준 eCH-0165로 동질화되었다.[6]

SIARD 보존 포맷 버전 2.0은 E-ARK 프로젝트의 후원 하에 스위스 연방 기록보관소에 의해 설계 및 개발되었다.[7]버전 2.0은 버전 1.0을 기반으로 하며 버전 1.0과 역호환되는 형식을 정의한다.버전 2.0의 새로운 기능:

  • SQL:1999 지원을 SQL:2008 지원으로 업그레이드
  • 모든 SQL:2008 유형, 특히 UDT(사용자 정의 데이터 유형) 지원
  • 정규식을 사용하는 데이터 유형 정의에 대한 보다 명시적인 유효성 검사 규칙
  • "file:"를 사용하여 대형 객체를 SIARD 파일 외부에 저장하는 지원URIs
  • 압축 메커니즘으로서의 "감압"에 대한 지원.

DBML(데이터베이스 마크업 언어)

민호대학교의 연구원인 호세 카를로스 라말호가 관계형 데이터베이스에서 테이블 정보와 데이터를 캡처하기 위해 XML 스키마를 만들었다.2007년에 출판되었다.[8]

크로노스

크로노스는 데이터베이스 보존 도구의 역할을 하는 소프트웨어 제품이다.[4]CSP Chronos 아카이빙은 데이터베이스 보존을 위한 하나의 독점 솔루션을 대표한다.크로노스는 CSP에 의해 2004년부터 2006년까지 응용과학대학 랜드셔트의 전산학과와 제휴하여 개발되었다.[4][9]크로노스는 데이터베이스 관리 시스템에서 데이터를 가져와 크로노스 아카이브에 텍스트 또는 XML 파일로 저장한다.따라서 모든 데이터는 일반 텍스트 형식이므로 DBMS(Database Management System) 또는 CRONIOS 자체 없이도 액세스 및 읽을 수 있다.따라서 보존된 정적 데이터베이스를 읽기 위해만 DBMS를 유지할 필요가 없고, 잠재적으로 위험할 수 있는 새로운 데이터베이스 형식으로 데이터베이스 파일을 마이그레이션할 필요가 없다.[9]크로노스는 데이터를 일반 텍스트 형식으로 저장하지만 쿼리 기능은 관계형 데이터베이스와 비교 가능한 것으로 간주된다.[4]

데이터베이스 보존 툴킷

RODA 프로젝트가 관계형 데이터베이스를 표준화된 형식으로 수집하고 보존하기 위해 만든 일련의 단계는 데이터베이스 보존 툴킷 또는 dbtoolkit: 아카이브된 데이터베이스의 보존 및 액세스를 위해 설계된 계측기를 나타낸다.관계형 데이터베이스의 표준화를 달성하기 위해 Database Markup Language(데이터베이스 마크업 언어) 또는 SIARD로 변환되며, 둘 다 특정 또는 독점적 소프트웨어 또는 하드웨어가 필요하지 않은 표준 형식인 XML을 보존 형식에 활용한다.[10]

DBPTK(Database Reservation Toolkit)는 데이터베이스를 디지털 방식으로 보존하기 위해 라이브 시스템에 대한 연결을 포함한 데이터베이스 형식 간 변환을 허용한다.툴킷은 라이브 또는 백업된 데이터베이스를 데이터베이스 보존을 목적으로 만들어진 XML 기반 포맷인 SIARD와 같은 보존 형식으로 변환할 수 있다.이 변환 프로세스에서 툴킷은 DBMS 고유의 커넥터를 사용하여 고유한 DBMS 정보를 추출한다.이러한 커넥터는 특정 DBMS와 결합하여 데이터를 추출하고 이를 XML 형태로 나타내며 DBML과 SIARD로 표현된다.또한 새로운 DBMS'의 섭취를 위해 새로운 커넥터를 만들 수 있다.[10]또한 툴킷은 데이터베이스의 완전한 기능을 허용하기 위해 보존 형식을 라이브 시스템으로 다시 변환할 수 있다.예를 들어 PhpMyAdmin에 최적화된 MySQL로의 전문 내보내기를 지원하여 웹 인터페이스를 이용하여 데이터베이스를 완전하게 실험할 수 있다.

이 툴킷은 원래 RODA 프로젝트의[11] 일부였다가 자체적으로 출시되었다.그것은 SIARD 보존 포맷의 새로운 버전과 함께 E-ARK 프로젝트에서 더욱 발전되었다.

툴킷은 입력 및 출력 모듈을 사용한다.각 모듈은 특정 데이터베이스 형식 또는 라이브 시스템에 대한 읽기 및/또는 쓰기를 지원한다.새로운 모듈은 새로운 인터페이스를 구현하고 새로운 드라이버를 추가함으로써 쉽게 추가할 수 있다.[12]

데이터베이스 보존 프로젝트

이와 관련된 연구 프로젝트에는 다음이 포함된다.

RODA(정품 디지털 객체) 저장소

RODA(정품 디지털 오브젝트 리포지토리)는 포르투갈 국립문서보관소가 포르투갈의 정부기관에서 생산한 디지털 오브젝트를 보존하기 위해 2006년 포르투갈에서 시작한 프로젝트다.이 프로젝트는 여러 종류의 디지털 개체를 관계형 데이터베이스를 포함한 하나의 저장소로 결합하는 것을 목표로 했다.다양한 유형의 디지털 객체의 단일 저장소로서, RODA는 수집된 모든 객체를 정상화하는 것을 목표로 한다. 즉, 문서를 저장하는 데 사용되는 형식 유형을 최소화하고 유사한 형식으로 문서를 보존하는 것이다.[10]

RODA 프로젝트는 데이터베이스를 디지털 오브젝트로 보존하기 위한 표준화된 방법의 창조를 강조했다.데이터베이스 보존은 보존 프로세스가 데이터, 구조(로직), 의미론(인터페이스)의 세 계층으로 나뉘는 점에서 독특한 난제를 제기한다.[17] 즉, 데이터베이스의 구조와 의미론뿐만 아니라 데이터베이스의 데이터도 보존할 필요가 있다고 판단되었다.이 세 가지 요소를 모두 보존하기 위해, RODA 프로젝트는 데이터베이스 보존 툴킷을 개발했다.[10]

참고 항목

참조

  1. ^ a b c d e f 디지털 보존 테스트베드.(2003).디지털의 변동성에서 디지털 영속성까지: 데이터베이스 보존.ICTU 재단.https://docs.google.com/a/datanetworkservice.nl/viewer?a=v&pid=sites&srcid=ZGF0YW5ldHdvcmtzZXJ2aWNlLm5sfG1peGVkfGd4OjMzN2IyZTJjMTZlZmM3MTU
  2. ^ a b 애슐리, K. (2004)데이터베이스의 보존.BIN, 34(2), 66-70. https://doi.org/10.1108/03055720410551075
  3. ^ a b c d 브로건, 엠앤 브라운, 제이(n.d.)디지털 보존에 대한 당면 과제: 관계형 데이터베이스.에디스 코완 대학교의 컴퓨터 정보 과학 학교https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.89.886&rep=rep1&type=pdf
  4. ^ a b c d 린들리, A. (2013년 9월 3일-5일).데이터베이스 보존 평가 보고서 - SIARD vs. 크로노스: 기록 중심 접근방식을 통해 복잡한 구조를 데이터베이스로 보존?[논문 발표.iPRES 2013 - 포르투갈 리스본에서 열린 제10차 디지털 객체 보존 국제 회의.https://doi.org/10.13140/2.1.3272.8005
  5. ^ "SIARD (Software Independent Archiving of Relational Databases) Version 1.0". 30 May 2015.
  6. ^ 브루기서, H, Büchler, G, Dubois, A, 카이저, M, 칸시, L, Lischer, M, Röthlisberger-Jourdan, C, Thomas, H, & Voss, A. (2015)eCH-0165 SIARD 형식 명세서 2.0(초안).eCH E 정부 표준.https://www.eark-project.com/resources/specificationdocs/32-specification-for-siard-format-v20/STAN_e_FINAL_2015-07-04_eCH-0165_V2%200_SIARD-Format.pdf
  7. ^ "E-ARK Project".
  8. ^ José Carlos Ramalho, Miguel Ferreira, Luís Faria, and Rui Castro (August 7, 2007). "Relational Database Preservation through XML modelling" (PDF). Extreme Markup Languages. Retrieved April 16, 2017.{{cite web}}: CS1 maint: 작성자 매개변수 사용(링크)
  9. ^ a b Brandl, S, & Keller-Marxer, P.(2007년, 3월 23일)Chronos[Paper presentation]를 통한 관계형 데이터베이스의 장기 보관.스코틀랜드 에든버러 데이터베이스 보존에 관한 제1회 국제 워크숍(PresDB'07)https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.459.5158&rep=rep1&type=pdf
  10. ^ a b c d 라말호, J.C., 파리아, L., 홀더, S., & Coutada, M. (2013, 12월 31일)데이터베이스 보존 툴킷: 데이터베이스를 정규화하고 액세스할있는 유연한 도구.민호대학교.https://core.ac.uk/display/55635702?source=1&algorithmId=15&similarToDoc=55614406&similarToDocKey=CORE&recSetID=f3ffea4d-1504-45e9-bfd6-a0495f5c8f9c&position=2&recommendation_type=same_repo&otherRecs=55614407,55635702,55607961,55613627,2255664
  11. ^ "RODA Community - Repository of Authentic Digital Objects".
  12. ^ a b "db-preservation-toolkit by keeps".
  13. ^ Heuscher, Stephan; Jaermann, Stephan; Keller-Marxer, Peter; Moehle, Frank (2004). "Providing Authentic Long-term Archival Access to Complex Relational Data". Proceedings PV-2004: Ensuring the Long-Term Preservation and Adding Value to the Scientific and Technical Data, 5-7 October 2004. pp. 241–261. arXiv:cs/0408054. Bibcode:2004cs........8054H.
  14. ^ "RODA and Crib: A Service-Oriented Digital Repository" (PDF).
  15. ^ "Duurzaam beheer van digitaal archiefmateriaal - Nationaal Archief" (PDF).
  16. ^ "LOCKSS - Lots of Copies Keep Stuff Safe". Stanford University. Retrieved April 16, 2017.
  17. ^ 리바이로, C, & David, G. (2009년 3월 11일)데이터베이스 보존.디지털 보존 유럽.https://digitalpreservationeurope.eu/publications/briefs/database_preservation_ribiero_david.pdf