웹 아카이브

Web archiving

웹 아카이브World Wide Web의 일부를 수집하여 미래의 연구자, 역사가 및 일반인을 위한 아카이브에 정보를 보존하는 프로세스입니다.웹 아카이브 관리자는 일반적으로 웹상의 방대한 정보 크기와 양 때문에 자동 캡처를 위해크롤러를 사용합니다.대량 크롤링 방식을 기반으로 하는 가장 큰 웹 아카이브 조직은 Wayback Machine으로, 웹 전체의 아카이브를 유지하기 위해 노력하고 있습니다.

웹에서 작성 및 기록되는 인간 문화의 비중이 증가함에 따라 점점 더 많은 라이브러리와 아카이브가 [1]웹 아카이브의 과제에 직면할 수밖에 없습니다.국립도서관, 국립문서보관소 및 다양한 조직의 컨소시엄도 문화적으로 중요한 웹 콘텐츠 아카이브에 관여하고 있습니다.

기업 유산, 규제 또는 법적 목적을 위해 자체 웹 콘텐츠를 아카이브해야 하는 조직도 상용 웹 아카이브 소프트웨어와 서비스를 이용할 수 있습니다.

역사와 발전

1990년대 중후반부터 웹의 큐레이션과 구성이 성행하고 있는 가운데 최초의 대규모 웹 아카이브 프로젝트 중 하나는 1996년 [2]Brewster Kahle에 의해 설립된 비영리 단체인 Internet Archive였습니다.인터넷 아카이브(Internet Archive)는 2001년 [2]아카이브된 웹 콘텐츠를 보기 위한 자체 검색 엔진인 웨이백 머신을 출시했다.2018년 현재 인터넷 아카이브에는 40페타바이트의 [3]데이터가 저장되어 있습니다.또한 Internet Archive는 대량의 데이터를 효율적이고 안전하게 저장하기 위한 PetaBox와 북유럽 국립 [2]도서관과 함께 개발된 웹 크롤러인 Heritrix를 포함하여 데이터 수집 및 저장을 위한 많은 자체 도구를 개발했습니다.비슷한 시기에 시작된 다른 프로젝트로는 호주의 판도라 및 태즈메이니아 웹 아카이브와 스웨덴의 Kulturarw3가 있습니다.[4]

2001년부터 [failed verification]2010년까지 IWAW(International Web Archiving Workshop)는 경험을 공유하고 아이디어를 [5][6]교환하는 플랫폼을 제공했습니다.2003년에 설립된 IIPC(International Internet Preservation Consortium)는 웹 [7]아카이브 작성을 위한 표준 및 오픈 소스 도구 개발에 있어 국제적인 협력을 촉진하고 있습니다.

지금은 없어진 인터넷 메모리 재단은 2004년에 설립되었고 [2]유럽 위원회에서 유럽의 웹을 보관하기 위해 설립되었습니다.이 프로젝트는 "풍부한 미디어 캡처, 시간적 일관성 분석, 스팸 평가, 용어 진화 탐지"[2]와 같은 많은 오픈 소스 도구를 개발 및 출시했습니다.재단의 데이터는 현재 Internet Archive에 저장되어 있지만 현재 공개적으로 액세스할 [8]수 없습니다.

웹 콘텐츠의 보존에 대한 중앙 집중식 책임이 없음에도 불구하고, 웹 콘텐츠는 빠르게 공식 기록이 되고 있다.예를 들어, 2017년 미국 법무부는 정부가 대통령의 트윗을 공식 [9]성명으로 취급한다고 단언했다.

웹 수집

웹 아카이브 관리자는 일반적으로 HTML 웹 페이지, 스타일 시트, JavaScript, 이미지비디오를 포함한 다양한 유형의 웹 콘텐츠를 보관합니다.또한 액세스 시간, MIME 유형 및 내용 길이와 같은 수집된 리소스에 대한 메타데이터를 보관합니다.이 메타데이터는 아카이브된 컬렉션의 신뢰성신뢰성을 확립하는 데 유용합니다.

회수 방법

리모트 수집

가장 일반적인 웹 아카이브 기술은 웹 크롤러를 사용하여 웹 페이지 수집 프로세스를 자동화합니다.웹 크롤러는 일반적으로 브라우저를 가진 사용자가 웹을 보는 것과 동일한 방식으로 웹 페이지에 액세스하므로 비교적 간단한 원격 수집 방법을 제공합니다.웹 아카이브에 사용되는 웹 크롤러의 예는 다음과 같습니다.

웹 크롤링 기술을 사용하여 "온디맨드" 웹 리소스를 아카이브하는 데 사용할 수 있는 다양한 무료 서비스가 있습니다.이러한 서비스에는 Wayback Machine과 WebCite가 포함됩니다.

데이터베이스 아카이브

데이터베이스 아카이브는 데이터베이스 기반 웹 사이트의 기본 컨텐츠를 아카이브하는 방법을 말합니다.일반적으로 XML을 사용하여 데이터베이스 컨텐츠를 표준 스키마로 추출해야 합니다. 이 표준 형식으로 저장하면 단일 액세스 시스템을 사용하여 여러 데이터베이스의 아카이브된 컨텐츠를 사용할 수 있습니다. 접근방식은 Bibliothék Nationale de France와 National Library of Australia가 각각 개발한 DeepArc와 Xinq 도구에 의해 예시된다.DeepArc를 사용하면 관계형 데이터베이스의 구조를 XML 스키마에 매핑하고 XML 문서로 내보낸 내용을 매핑할 수 있습니다.그 후, Xinq는 그 컨텐츠가 온라인으로 전달되도록 합니다.웹 사이트의 원래 레이아웃과 동작을 정확하게 보존할 수는 없지만, Xinq는 기본적인 쿼리 및 검색 기능을 복제할 수 있습니다.

트랜잭션 아카이브

트랜잭션 아카이브는 웹 서버와 웹 브라우저 간에 발생하는 실제 트랜잭션을 수집하는 이벤트 기반 접근 방식입니다.주로 특정 웹 사이트에서 실제로 본 내용의 증거를 특정 날짜에 보존하는 수단으로 사용됩니다.이는 정보 [10]공개 및 보관을 위해 법적 또는 규제 요건을 준수해야 하는 조직에게 특히 중요합니다.

트랜잭션 아카이브 시스템은 일반적으로 웹 서버에 대한 모든 HTTP 요구를 대행 수신하고 웹 서버로부터의 응답을 대행 수신하여 각 응답을 필터링하여 중복 콘텐츠를 제거하고 응답을 비트스트림으로 영구 저장함으로써 작동합니다.

어려움과 제한

크롤러

웹 수집의 주요 수단으로 웹 크롤링을 사용하는 웹 아카이브는 웹 크롤링의 어려움에 영향을 받습니다.

  • 로봇 제외 프로토콜은 크롤러가 웹 사이트의 일부에 액세스하지 못하도록 요청할 수 있습니다.일부 웹 아카이브 관리자는 요청을 무시하고 그 부분을 기어다닐 수도 있습니다.
  • 사이트의 많은 부분이 Deep Web에 숨겨져 있을 수 있습니다.예를 들어 크롤러가 결과 페이지에 대한 링크를 따라갈 수 없는 경우 웹 양식 뒤의 결과 페이지가 딥 웹에 있을 수 있습니다.
  • 크롤러 트랩(예: 캘린더)으로 인해 크롤러가 무한대의 페이지를 다운로드 할 수 있으므로 크롤러는 일반적으로 크롤러가 크롤하는 동적 페이지 수를 제한하도록 구성됩니다.
  • 대부분의 보관 도구는 페이지를 그대로 캡처하지 않습니다.광고 배너나 이미지가 아카이브 중에 누락되는 경우가 많습니다.

단, 네이티브 형식의 웹 아카이브(즉, 완전히 탐색 가능한 웹 아카이브)는 작동 링크, 미디어 등을 사용하여 크롤러 기술을 사용해야만 가능합니다.

웹은 매우 크기 때문에 상당부분을 기어다니려면 많은 기술적 자원이 필요합니다.웹은 너무 빠르게 변화하고 있기 때문에 웹 사이트의 일부가 크롤러가 웹을 기어오르기도 전에 바뀔 수 있다.

일반적인 제한 사항

일부 웹 서버는 일반 브라우저 요청에 대한 응답과 다른 페이지를 웹 아카이브버 요청에 반환하도록 구성되어 있습니다.이는 일반적으로 검색 엔진을 속여 더 많은 사용자 트래픽을 웹 사이트로 전송하기 위해 수행되며, 대부분의 경우 책임을 회피하거나 향상된 콘텐츠를 표시할 수 있는 브라우저에만 제공하기 위해 수행됩니다.

웹 아카이브 관리자는 웹 아카이브의 기술적 문제에 대처해야 할 뿐만 아니라 지적재산권법에도 대처해야 합니다.Peter[11] Lyman은 "웹은 일반적으로 퍼블릭 도메인 리소스로 간주되지만 저작권이 있습니다.따라서 아카이브리스트는 웹을 복사할 법적 권리가 없습니다."라고 말합니다.그러나 일부 국가의[12] 국립도서관법적 보증금의 연장 하에 웹의 일부를 복사할 법적 권리가 있습니다.

WebCite, Internet Archive 또는 Internet Memory Foundation과 같이 공개적으로 액세스할 수 있도록 설정된 일부 비공개 비영리 웹 아카이브를 사용하면 컨텐츠 소유자가 일반인이 액세스할 수 없는 아카이브된 컨텐츠를 숨기거나 제거할 수 있습니다.그 외의 Web 아카이브는, 특정의 장소에서만 액세스 할 수 있거나, 사용이 규제되고 있습니다.WebCite는 최근 구글의 캐싱에 대한 소송에서 구글[13]승소했다고 인용했다.

법률

2017년 미국 금융 규제 기관인 금융 산업 규제 기관(FINRA)은 디지털 통신을 하는 모든 비즈니스가 기록을 남겨야 한다는 공지를 발표했습니다.여기에는 웹 사이트 데이터, 소셜 미디어 게시물 및 [14]메시지가 포함됩니다.일부 저작권법은 웹 아카이브를 금지할 수 있습니다.예를 들어 Sci-Hub에 의한 학술 아카이브는 현대 저작권법의 범위를 벗어납니다.이 사이트는 오픈 액세스 라이선스가 없는 학술 저작물을 포함한 지속적인 학술 저작물에 대한 액세스를 제공하며, 그렇지 않으면 [15][16]손실될 수 있는 과학 연구의 아카이브에 기여한다.

「 」를 참조해 주세요.

레퍼런스

인용문

  1. ^ Truman, Gail (2016). "Web Archiving Environmental Scan". Harvard Library.
  2. ^ a b c d e Toyoda, M.; Kitsuregawa, M. (May 2012). "The History of Web Archiving". Proceedings of the IEEE. 100 (Special Centennial Issue): 1441–1443. doi:10.1109/JPROC.2012.2189920. ISSN 0018-9219.
  3. ^ "Inside Wayback Machine, the internet's time capsule". The Hustle. September 28, 2018. sec. Wayyyy back. Retrieved July 21, 2020.
  4. ^ Costa, Miguel; Gomes, Daniel; Silva, Mário J. (September 2017). "The evolution of web archiving". International Journal on Digital Libraries. 18 (3): 191–205. doi:10.1007/s00799-016-0171-9.
  5. ^ "IWAW 2010: The 10th Intl Web Archiving Workshop". www.wikicfp.com. Retrieved August 19, 2019.
  6. ^ "IWAW - International Web Archiving Workshops". bibnum.bnf.fr. Archived from the original on November 20, 2012. Retrieved August 19, 2019.
  7. ^ "About the IIPC". IIPC. Retrieved April 17, 2022.
  8. ^ "Internet Memory Foundation : Free Web : Free Download, Borrow and Streaming". archive.org. Internet Archive. Retrieved July 21, 2020.
  9. ^ Regis, Camille (June 4, 2019). "Web Archiving: Think the Web is Permanent? Think Again". History Associates. Retrieved July 14, 2019.
  10. ^ Brown, Adrian (January 10, 2016). Archiving websites : a practical guide for information management professionals. ISBN 978-1-78330-053-2. OCLC 1064574312.
  11. ^ Lyman (2002)
  12. ^ "Legal Deposit IIPC". netpreserve.org. Archived from the original on March 16, 2017. Retrieved January 31, 2017.
  13. ^ "WebCite FAQ". Webcitation.org. Retrieved September 20, 2018.
  14. ^ "Social Media and Digital Communications" (PDF). finra.org. FINRA.
  15. ^ Claburn, Thomas (September 10, 2020). "Open access journals are vanishing from the web, Internet Archive stands ready to fill in the gaps". The Register.
  16. ^ Laakso, Mikael; Matthias, Lisa; Jahn, Najko (2021). "Open is not forever: A study of vanished open access journals". Journal of the Association for Information Science and Technology. 72 (9): 1099–1112. arXiv:2008.11933. doi:10.1002/ASI.24460. S2CID 221340749.

일반 참고 문헌 목록

외부 링크