웹 아카이브
Web archiving웹 아카이브는 World Wide Web의 일부를 수집하여 미래의 연구자, 역사가 및 일반인을 위한 아카이브에 정보를 보존하는 프로세스입니다.웹 아카이브 관리자는 일반적으로 웹상의 방대한 정보 크기와 양 때문에 자동 캡처를 위해 웹 크롤러를 사용합니다.대량 크롤링 방식을 기반으로 하는 가장 큰 웹 아카이브 조직은 Wayback Machine으로, 웹 전체의 아카이브를 유지하기 위해 노력하고 있습니다.
웹에서 작성 및 기록되는 인간 문화의 비중이 증가함에 따라 점점 더 많은 라이브러리와 아카이브가 [1]웹 아카이브의 과제에 직면할 수밖에 없습니다.국립도서관, 국립문서보관소 및 다양한 조직의 컨소시엄도 문화적으로 중요한 웹 콘텐츠 아카이브에 관여하고 있습니다.
기업 유산, 규제 또는 법적 목적을 위해 자체 웹 콘텐츠를 아카이브해야 하는 조직도 상용 웹 아카이브 소프트웨어와 서비스를 이용할 수 있습니다.
역사와 발전
1990년대 중후반부터 웹의 큐레이션과 구성이 성행하고 있는 가운데 최초의 대규모 웹 아카이브 프로젝트 중 하나는 1996년 [2]Brewster Kahle에 의해 설립된 비영리 단체인 Internet Archive였습니다.인터넷 아카이브(Internet Archive)는 2001년 [2]아카이브된 웹 콘텐츠를 보기 위한 자체 검색 엔진인 웨이백 머신을 출시했다.2018년 현재 인터넷 아카이브에는 40페타바이트의 [3]데이터가 저장되어 있습니다.또한 Internet Archive는 대량의 데이터를 효율적이고 안전하게 저장하기 위한 PetaBox와 북유럽 국립 [2]도서관과 함께 개발된 웹 크롤러인 Heritrix를 포함하여 데이터 수집 및 저장을 위한 많은 자체 도구를 개발했습니다.비슷한 시기에 시작된 다른 프로젝트로는 호주의 판도라 및 태즈메이니아 웹 아카이브와 스웨덴의 Kulturarw3가 있습니다.[4]
2001년부터 [failed verification]2010년까지 IWAW(International Web Archiving Workshop)는 경험을 공유하고 아이디어를 [5][6]교환하는 플랫폼을 제공했습니다.2003년에 설립된 IIPC(International Internet Preservation Consortium)는 웹 [7]아카이브 작성을 위한 표준 및 오픈 소스 도구 개발에 있어 국제적인 협력을 촉진하고 있습니다.
지금은 없어진 인터넷 메모리 재단은 2004년에 설립되었고 [2]유럽 위원회에서 유럽의 웹을 보관하기 위해 설립되었습니다.이 프로젝트는 "풍부한 미디어 캡처, 시간적 일관성 분석, 스팸 평가, 용어 진화 탐지"[2]와 같은 많은 오픈 소스 도구를 개발 및 출시했습니다.재단의 데이터는 현재 Internet Archive에 저장되어 있지만 현재 공개적으로 액세스할 [8]수 없습니다.
웹 콘텐츠의 보존에 대한 중앙 집중식 책임이 없음에도 불구하고, 웹 콘텐츠는 빠르게 공식 기록이 되고 있다.예를 들어, 2017년 미국 법무부는 정부가 대통령의 트윗을 공식 [9]성명으로 취급한다고 단언했다.
웹 수집
웹 아카이브 관리자는 일반적으로 HTML 웹 페이지, 스타일 시트, JavaScript, 이미지 및 비디오를 포함한 다양한 유형의 웹 콘텐츠를 보관합니다.또한 액세스 시간, MIME 유형 및 내용 길이와 같은 수집된 리소스에 대한 메타데이터를 보관합니다.이 메타데이터는 아카이브된 컬렉션의 신뢰성과 신뢰성을 확립하는 데 유용합니다.
회수 방법
리모트 수집
가장 일반적인 웹 아카이브 기술은 웹 크롤러를 사용하여 웹 페이지 수집 프로세스를 자동화합니다.웹 크롤러는 일반적으로 브라우저를 가진 사용자가 웹을 보는 것과 동일한 방식으로 웹 페이지에 액세스하므로 비교적 간단한 원격 수집 방법을 제공합니다.웹 아카이브에 사용되는 웹 크롤러의 예는 다음과 같습니다.
웹 크롤링 기술을 사용하여 "온디맨드" 웹 리소스를 아카이브하는 데 사용할 수 있는 다양한 무료 서비스가 있습니다.이러한 서비스에는 Wayback Machine과 WebCite가 포함됩니다.
데이터베이스 아카이브
데이터베이스 아카이브는 데이터베이스 기반 웹 사이트의 기본 컨텐츠를 아카이브하는 방법을 말합니다.일반적으로 XML을 사용하여 데이터베이스 컨텐츠를 표준 스키마로 추출해야 합니다. 이 표준 형식으로 저장하면 단일 액세스 시스템을 사용하여 여러 데이터베이스의 아카이브된 컨텐츠를 사용할 수 있습니다.이 접근방식은 Bibliothék Nationale de France와 National Library of Australia가 각각 개발한 DeepArc와 Xinq 도구에 의해 예시된다.DeepArc를 사용하면 관계형 데이터베이스의 구조를 XML 스키마에 매핑하고 XML 문서로 내보낸 내용을 매핑할 수 있습니다.그 후, Xinq는 그 컨텐츠가 온라인으로 전달되도록 합니다.웹 사이트의 원래 레이아웃과 동작을 정확하게 보존할 수는 없지만, Xinq는 기본적인 쿼리 및 검색 기능을 복제할 수 있습니다.
트랜잭션 아카이브
트랜잭션 아카이브는 웹 서버와 웹 브라우저 간에 발생하는 실제 트랜잭션을 수집하는 이벤트 기반 접근 방식입니다.주로 특정 웹 사이트에서 실제로 본 내용의 증거를 특정 날짜에 보존하는 수단으로 사용됩니다.이는 정보 [10]공개 및 보관을 위해 법적 또는 규제 요건을 준수해야 하는 조직에게 특히 중요합니다.
트랜잭션 아카이브 시스템은 일반적으로 웹 서버에 대한 모든 HTTP 요구를 대행 수신하고 웹 서버로부터의 응답을 대행 수신하여 각 응답을 필터링하여 중복 콘텐츠를 제거하고 응답을 비트스트림으로 영구 저장함으로써 작동합니다.
어려움과 제한
크롤러
웹 수집의 주요 수단으로 웹 크롤링을 사용하는 웹 아카이브는 웹 크롤링의 어려움에 영향을 받습니다.
- 로봇 제외 프로토콜은 크롤러가 웹 사이트의 일부에 액세스하지 못하도록 요청할 수 있습니다.일부 웹 아카이브 관리자는 요청을 무시하고 그 부분을 기어다닐 수도 있습니다.
- 웹 사이트의 많은 부분이 Deep Web에 숨겨져 있을 수 있습니다.예를 들어 크롤러가 결과 페이지에 대한 링크를 따라갈 수 없는 경우 웹 양식 뒤의 결과 페이지가 딥 웹에 있을 수 있습니다.
- 크롤러 트랩(예: 캘린더)으로 인해 크롤러가 무한대의 페이지를 다운로드 할 수 있으므로 크롤러는 일반적으로 크롤러가 크롤하는 동적 페이지 수를 제한하도록 구성됩니다.
- 대부분의 보관 도구는 페이지를 그대로 캡처하지 않습니다.광고 배너나 이미지가 아카이브 중에 누락되는 경우가 많습니다.
단, 네이티브 형식의 웹 아카이브(즉, 완전히 탐색 가능한 웹 아카이브)는 작동 링크, 미디어 등을 사용하여 크롤러 기술을 사용해야만 가능합니다.
웹은 매우 크기 때문에 상당부분을 기어다니려면 많은 기술적 자원이 필요합니다.웹은 너무 빠르게 변화하고 있기 때문에 웹 사이트의 일부가 크롤러가 웹을 기어오르기도 전에 바뀔 수 있다.
일반적인 제한 사항
일부 웹 서버는 일반 브라우저 요청에 대한 응답과 다른 페이지를 웹 아카이브버 요청에 반환하도록 구성되어 있습니다.이는 일반적으로 검색 엔진을 속여 더 많은 사용자 트래픽을 웹 사이트로 전송하기 위해 수행되며, 대부분의 경우 책임을 회피하거나 향상된 콘텐츠를 표시할 수 있는 브라우저에만 제공하기 위해 수행됩니다.
웹 아카이브 관리자는 웹 아카이브의 기술적 문제에 대처해야 할 뿐만 아니라 지적재산권법에도 대처해야 합니다.Peter[11] Lyman은 "웹은 일반적으로 퍼블릭 도메인 리소스로 간주되지만 저작권이 있습니다.따라서 아카이브리스트는 웹을 복사할 법적 권리가 없습니다."라고 말합니다.그러나 일부 국가의[12] 국립도서관은 법적 보증금의 연장 하에 웹의 일부를 복사할 법적 권리가 있습니다.
WebCite, Internet Archive 또는 Internet Memory Foundation과 같이 공개적으로 액세스할 수 있도록 설정된 일부 비공개 비영리 웹 아카이브를 사용하면 컨텐츠 소유자가 일반인이 액세스할 수 없는 아카이브된 컨텐츠를 숨기거나 제거할 수 있습니다.그 외의 Web 아카이브는, 특정의 장소에서만 액세스 할 수 있거나, 사용이 규제되고 있습니다.WebCite는 최근 구글의 캐싱에 대한 소송에서 구글이 [13]승소했다고 인용했다.
법률
2017년 미국 금융 규제 기관인 금융 산업 규제 기관(FINRA)은 디지털 통신을 하는 모든 비즈니스가 기록을 남겨야 한다는 공지를 발표했습니다.여기에는 웹 사이트 데이터, 소셜 미디어 게시물 및 [14]메시지가 포함됩니다.일부 저작권법은 웹 아카이브를 금지할 수 있습니다.예를 들어 Sci-Hub에 의한 학술 아카이브는 현대 저작권법의 범위를 벗어납니다.이 사이트는 오픈 액세스 라이선스가 없는 학술 저작물을 포함한 지속적인 학술 저작물에 대한 액세스를 제공하며, 그렇지 않으면 [15][16]손실될 수 있는 과학 연구의 아카이브에 기여한다.
「 」를 참조해 주세요.
레퍼런스
인용문
- ^ Truman, Gail (2016). "Web Archiving Environmental Scan". Harvard Library.
- ^ a b c d e Toyoda, M.; Kitsuregawa, M. (May 2012). "The History of Web Archiving". Proceedings of the IEEE. 100 (Special Centennial Issue): 1441–1443. doi:10.1109/JPROC.2012.2189920. ISSN 0018-9219.
- ^ "Inside Wayback Machine, the internet's time capsule". The Hustle. September 28, 2018. sec. Wayyyy back. Retrieved July 21, 2020.
- ^ Costa, Miguel; Gomes, Daniel; Silva, Mário J. (September 2017). "The evolution of web archiving". International Journal on Digital Libraries. 18 (3): 191–205. doi:10.1007/s00799-016-0171-9.
- ^ "IWAW 2010: The 10th Intl Web Archiving Workshop". www.wikicfp.com. Retrieved August 19, 2019.
- ^ "IWAW - International Web Archiving Workshops". bibnum.bnf.fr. Archived from the original on November 20, 2012. Retrieved August 19, 2019.
- ^ "About the IIPC". IIPC. Retrieved April 17, 2022.
- ^ "Internet Memory Foundation : Free Web : Free Download, Borrow and Streaming". archive.org. Internet Archive. Retrieved July 21, 2020.
- ^ Regis, Camille (June 4, 2019). "Web Archiving: Think the Web is Permanent? Think Again". History Associates. Retrieved July 14, 2019.
- ^ Brown, Adrian (January 10, 2016). Archiving websites : a practical guide for information management professionals. ISBN 978-1-78330-053-2. OCLC 1064574312.
- ^ Lyman (2002)
- ^ "Legal Deposit IIPC". netpreserve.org. Archived from the original on March 16, 2017. Retrieved January 31, 2017.
- ^ "WebCite FAQ". Webcitation.org. Retrieved September 20, 2018.
- ^ "Social Media and Digital Communications" (PDF). finra.org. FINRA.
- ^ Claburn, Thomas (September 10, 2020). "Open access journals are vanishing from the web, Internet Archive stands ready to fill in the gaps". The Register.
- ^ Laakso, Mikael; Matthias, Lisa; Jahn, Najko (2021). "Open is not forever: A study of vanished open access journals". Journal of the Association for Information Science and Technology. 72 (9): 1099–1112. arXiv:2008.11933. doi:10.1002/ASI.24460. S2CID 221340749.
일반 참고 문헌 목록
- Brown, A. (2006). Archiving Websites: A Practical Guide for Information Management Professionals. London: Facet Publishing. ISBN 978-1-85604-553-7.
- Brügger, N. (2005). Archiving Websites. General Considerations and Strategies. Aarhus: The Centre for Internet Research. ISBN 978-87-990507-0-3. Archived from the original on January 29, 2009.
- Day, M. (2003). "Preserving the Fabric of Our Lives: A Survey of Web Preservation Initiatives" (PDF). Research and Advanced Technology for Digital Libraries: Proceedings of the 7th European Conference (ECDL). Lecture Notes in Computer Science. 2769: 461–472. doi:10.1007/978-3-540-45175-4_42. ISBN 978-3-540-40726-3.
- Eysenbach, G. & Trudel, M. (2005). "Going, going, still there: using the WebCite service to permanently archive cited web pages". Journal of Medical Internet Research. 7 (5): e60. doi:10.2196/jmir.7.5.e60. PMC 1550686. PMID 16403724.
- Fitch, Kent (2003). "Web site archiving—an approach to recording every materially different response produced by a website". Ausweb 03. Archived from the original on July 20, 2003. Retrieved September 27, 2006.
- Jacoby, Robert (August 19, 2010). "Archiving a Web Page". Archived from the original on January 3, 2011. Retrieved October 23, 2010.
- Lyman, P. (2002). "Archiving the World Wide Web". Building a National Strategy for Preservation: Issues in Digital Media Archiving.
- Masanès, J.), ed. (2006). Web Archiving. Berlin: Springer-Verlag. ISBN 978-3-540-23338-1.
- Pennock, Maureen (2013). Web-Archiving. DPC Technology Watch Reports. Great Britain: Digital Preservation Coalition. doi:10.7207/twr13-01. ISSN 2048-7916.
- Toyoda, M., Kitsuregawa, M. (2012). "The History of Web Archiving". Proceedings of the IEEE. 100 (special centennial issue): 1441–1443. doi:10.1109/JPROC.2012.2189920.
{{cite journal}}
: CS1 maint: 작성자 파라미터 사용(링크)
외부 링크
이 섹션의 외부 링크 사용은 Wikipedia의 정책 또는 지침을 따르지 않을 수 있습니다. 한 외부 링크나 한 외부 를 하고 유용한 를 로 하여 이 를 하십시오. (2014년 3월 (이 메시지 삭제 및 에 대해 ) |
라이브러리 리소스 정보 웹 아카이브 |
- 국제 인터넷 보존 컨소시엄(IIPC): 미래 세대를 위해 인터넷에서 접근 가능한 지식과 정보를 입수, 보존 및 만드는 것을 사명으로 하는 국제 컨소시엄
- IWAW(International Web Archiving Workshop) - 웹 아카이브에 초점을 맞춘 연례 워크숍
- 호주 국립도서관, 디지털 정보 접근 보호(PADI)
- 의회 도서관 - 웹 아카이브
- 웹 아카이브 라이브러리: 웹 아카이브 리소스 길이 목록
- "지속적인 웹 아카이브를 지향한다" - 프랑스 국립도서관 Julien Masanés
- 2015년 10월 12일 Wayback Machine에서 아카이브된 웹 아카이브 서비스 비교