웹 아카이브

웹 아카이브는 World Wide Web의 일부를 수집하여 미래의 연구자, 역사가 및 일반인을 위한 아카이브에 정보를 보존하는 프로세스입니다.웹 아카이브 관리자는 일반적으로 웹상의 방대한 정보 크기와 양 때문에 자동 캡처를 위해 웹 크롤러를 사용합니다.대량 크롤링 방식을 기반으로 하는 가장 큰 웹 아카이브 조직은 Wayback Machine으로, 웹 전체의 아카이브를 유지하기 위해 노력하고 있습니다.

웹에서 작성 및 기록되는 인간 문화의 비중이 증가함에 따라 점점 더 많은 라이브러리와 아카이브가 ^[1]웹 아카이브의 과제에 직면할 수밖에 없습니다.국립도서관, 국립문서보관소 및 다양한 조직의 컨소시엄도 문화적으로 중요한 웹 콘텐츠 아카이브에 관여하고 있습니다.

기업 유산, 규제 또는 법적 목적을 위해 자체 웹 콘텐츠를 아카이브해야 하는 조직도 상용 웹 아카이브 소프트웨어와 서비스를 이용할 수 있습니다.

역사와 발전

1990년대 중후반부터 웹의 큐레이션과 구성이 성행하고 있는 가운데 최초의 대규모 웹 아카이브 프로젝트 중 하나는 1996년 ^[2]Brewster Kahle에 의해 설립된 비영리 단체인 Internet Archive였습니다.인터넷 아카이브(Internet Archive)는 2001년 ^[2]아카이브된 웹 콘텐츠를 보기 위한 자체 검색 엔진인 웨이백 머신을 출시했다.2018년 현재 인터넷 아카이브에는 40페타바이트의 ^[3]데이터가 저장되어 있습니다.또한 Internet Archive는 대량의 데이터를 효율적이고 안전하게 저장하기 위한 PetaBox와 북유럽 국립 ^[2]도서관과 함께 개발된 웹 크롤러인 Heritrix를 포함하여 데이터 수집 및 저장을 위한 많은 자체 도구를 개발했습니다.비슷한 시기에 시작된 다른 프로젝트로는 호주의 판도라 및 태즈메이니아 웹 아카이브와 스웨덴의 Kulturarw3가 있습니다.^[4]

2001년부터 ^{[failed verification]}2010년까지 IWAW(International Web Archiving Workshop)는 경험을 공유하고 아이디어를 ^[5]^[6]교환하는 플랫폼을 제공했습니다.2003년에 설립된 IIPC(International Internet Preservation Consortium)는 웹 ^[7]아카이브 작성을 위한 표준 및 오픈 소스 도구 개발에 있어 국제적인 협력을 촉진하고 있습니다.

지금은 없어진 인터넷 메모리 재단은 2004년에 설립되었고 ^[2]유럽 위원회에서 유럽의 웹을 보관하기 위해 설립되었습니다.이 프로젝트는 "풍부한 미디어 캡처, 시간적 일관성 분석, 스팸 평가, 용어 진화 탐지"^[2]와 같은 많은 오픈 소스 도구를 개발 및 출시했습니다.재단의 데이터는 현재 Internet Archive에 저장되어 있지만 현재 공개적으로 액세스할 ^[8]수 없습니다.

웹 콘텐츠의 보존에 대한 중앙 집중식 책임이 없음에도 불구하고, 웹 콘텐츠는 빠르게 공식 기록이 되고 있다.예를 들어, 2017년 미국 법무부는 정부가 대통령의 트윗을 공식 ^[9]성명으로 취급한다고 단언했다.

웹 수집

웹 아카이브 관리자는 일반적으로 HTML 웹 페이지, 스타일 시트, JavaScript, 이미지 및 비디오를 포함한 다양한 유형의 웹 콘텐츠를 보관합니다.또한 액세스 시간, MIME 유형 및 내용 길이와 같은 수집된 리소스에 대한 메타데이터를 보관합니다.이 메타데이터는 아카이브된 컬렉션의 신뢰성과 신뢰성을 확립하는 데 유용합니다.

회수 방법

리모트 수집

가장 일반적인 웹 아카이브 기술은 웹 크롤러를 사용하여 웹 페이지 수집 프로세스를 자동화합니다.웹 크롤러는 일반적으로 브라우저를 가진 사용자가 웹을 보는 것과 동일한 방식으로 웹 페이지에 액세스하므로 비교적 간단한 원격 수집 방법을 제공합니다.웹 아카이브에 사용되는 웹 크롤러의 예는 다음과 같습니다.

웹 크롤링 기술을 사용하여 "온디맨드" 웹 리소스를 아카이브하는 데 사용할 수 있는 다양한 무료 서비스가 있습니다.이러한 서비스에는 Wayback Machine과 WebCite가 포함됩니다.

데이터베이스 아카이브

데이터베이스 아카이브는 데이터베이스 기반 웹 사이트의 기본 컨텐츠를 아카이브하는 방법을 말합니다.일반적으로 XML을 사용하여 데이터베이스 컨텐츠를 표준 스키마로 추출해야 합니다. 이 표준 형식으로 저장하면 단일 액세스 시스템을 사용하여 여러 데이터베이스의 아카이브된 컨텐츠를 사용할 수 있습니다.이 접근방식은 Bibliothék Nationale de France와 National Library of Australia가 각각 개발한 DeepArc와 Xinq 도구에 의해 예시된다.DeepArc를 사용하면 관계형 데이터베이스의 구조를 XML 스키마에 매핑하고 XML 문서로 내보낸 내용을 매핑할 수 있습니다.그 후, Xinq는 그 컨텐츠가 온라인으로 전달되도록 합니다.웹 사이트의 원래 레이아웃과 동작을 정확하게 보존할 수는 없지만, Xinq는 기본적인 쿼리 및 검색 기능을 복제할 수 있습니다.

트랜잭션 아카이브

트랜잭션 아카이브는 웹 서버와 웹 브라우저 간에 발생하는 실제 트랜잭션을 수집하는 이벤트 기반 접근 방식입니다.주로 특정 웹 사이트에서 실제로 본 내용의 증거를 특정 날짜에 보존하는 수단으로 사용됩니다.이는 정보 ^[10]공개 및 보관을 위해 법적 또는 규제 요건을 준수해야 하는 조직에게 특히 중요합니다.

트랜잭션 아카이브 시스템은 일반적으로 웹 서버에 대한 모든 HTTP 요구를 대행 수신하고 웹 서버로부터의 응답을 대행 수신하여 각 응답을 필터링하여 중복 콘텐츠를 제거하고 응답을 비트스트림으로 영구 저장함으로써 작동합니다.

어려움과 제한

크롤러

웹 수집의 주요 수단으로 웹 크롤링을 사용하는 웹 아카이브는 웹 크롤링의 어려움에 영향을 받습니다.

로봇 제외 프로토콜은 크롤러가 웹 사이트의 일부에 액세스하지 못하도록 요청할 수 있습니다.일부 웹 아카이브 관리자는 요청을 무시하고 그 부분을 기어다닐 수도 있습니다.
웹 사이트의 많은 부분이 Deep Web에 숨겨져 있을 수 있습니다.예를 들어 크롤러가 결과 페이지에 대한 링크를 따라갈 수 없는 경우 웹 양식 뒤의 결과 페이지가 딥 웹에 있을 수 있습니다.
크롤러 트랩(예: 캘린더)으로 인해 크롤러가 무한대의 페이지를 다운로드 할 수 있으므로 크롤러는 일반적으로 크롤러가 크롤하는 동적 페이지 수를 제한하도록 구성됩니다.
대부분의 보관 도구는 페이지를 그대로 캡처하지 않습니다.광고 배너나 이미지가 아카이브 중에 누락되는 경우가 많습니다.

단, 네이티브 형식의 웹 아카이브(즉, 완전히 탐색 가능한 웹 아카이브)는 작동 링크, 미디어 등을 사용하여 크롤러 기술을 사용해야만 가능합니다.

웹은 매우 크기 때문에 상당부분을 기어다니려면 많은 기술적 자원이 필요합니다.웹은 너무 빠르게 변화하고 있기 때문에 웹 사이트의 일부가 크롤러가 웹을 기어오르기도 전에 바뀔 수 있다.

일반적인 제한 사항

일부 웹 서버는 일반 브라우저 요청에 대한 응답과 다른 페이지를 웹 아카이브버 요청에 반환하도록 구성되어 있습니다.이는 일반적으로 검색 엔진을 속여 더 많은 사용자 트래픽을 웹 사이트로 전송하기 위해 수행되며, 대부분의 경우 책임을 회피하거나 향상된 콘텐츠를 표시할 수 있는 브라우저에만 제공하기 위해 수행됩니다.

웹 아카이브 관리자는 웹 아카이브의 기술적 문제에 대처해야 할 뿐만 아니라 지적재산권법에도 대처해야 합니다.Peter^[11] Lyman은 "웹은 일반적으로 퍼블릭 도메인 리소스로 간주되지만 저작권이 있습니다.따라서 아카이브리스트는 웹을 복사할 법적 권리가 없습니다."라고 말합니다.그러나 일부 국가의^[12] 국립도서관은 법적 보증금의 연장 하에 웹의 일부를 복사할 법적 권리가 있습니다.

WebCite, Internet Archive 또는 Internet Memory Foundation과 같이 공개적으로 액세스할 수 있도록 설정된 일부 비공개 비영리 웹 아카이브를 사용하면 컨텐츠 소유자가 일반인이 액세스할 수 없는 아카이브된 컨텐츠를 숨기거나 제거할 수 있습니다.그 외의 Web 아카이브는, 특정의 장소에서만 액세스 할 수 있거나, 사용이 규제되고 있습니다.WebCite는 최근 구글의 캐싱에 대한 소송에서 구글이 ^[13]승소했다고 인용했다.

법률

2017년 미국 금융 규제 기관인 금융 산업 규제 기관(FINRA)은 디지털 통신을 하는 모든 비즈니스가 기록을 남겨야 한다는 공지를 발표했습니다.여기에는 웹 사이트 데이터, 소셜 미디어 게시물 및 ^[14]메시지가 포함됩니다.일부 저작권법은 웹 아카이브를 금지할 수 있습니다.예를 들어 Sci-Hub에 의한 학술 아카이브는 현대 저작권법의 범위를 벗어납니다.이 사이트는 오픈 액세스 라이선스가 없는 학술 저작물을 포함한 지속적인 학술 저작물에 대한 액세스를 제공하며, 그렇지 않으면 ^[15]^[16]손실될 수 있는 과학 연구의 아카이브에 기여한다.

「」를 참조해 주세요.

레퍼런스

인용문

^ Truman, Gail (2016). "Web Archiving Environmental Scan". Harvard Library.
^ ^a ^b ^c ^d ^e Toyoda, M.; Kitsuregawa, M. (May 2012). "The History of Web Archiving". Proceedings of the IEEE. 100 (Special Centennial Issue): 1441–1443. doi:10.1109/JPROC.2012.2189920. ISSN 0018-9219.
^ "Inside Wayback Machine, the internet's time capsule". The Hustle. September 28, 2018. sec. Wayyyy back. Retrieved July 21, 2020.
^ Costa, Miguel; Gomes, Daniel; Silva, Mário J. (September 2017). "The evolution of web archiving". International Journal on Digital Libraries. 18 (3): 191–205. doi:10.1007/s00799-016-0171-9.
^ "IWAW 2010: The 10th Intl Web Archiving Workshop". www.wikicfp.com. Retrieved August 19, 2019.
^ "IWAW - International Web Archiving Workshops". bibnum.bnf.fr. Archived from the original on November 20, 2012. Retrieved August 19, 2019.
^ "About the IIPC". IIPC. Retrieved April 17, 2022.
^ "Internet Memory Foundation : Free Web : Free Download, Borrow and Streaming". archive.org. Internet Archive. Retrieved July 21, 2020.
^ Regis, Camille (June 4, 2019). "Web Archiving: Think the Web is Permanent? Think Again". History Associates. Retrieved July 14, 2019.
^ Brown, Adrian (January 10, 2016). Archiving websites : a practical guide for information management professionals. ISBN 978-1-78330-053-2. OCLC 1064574312.
^ Lyman (2002)
^ "Legal Deposit IIPC". netpreserve.org. Archived from the original on March 16, 2017. Retrieved January 31, 2017.
^ "WebCite FAQ". Webcitation.org. Retrieved September 20, 2018.
^ "Social Media and Digital Communications" (PDF). finra.org. FINRA.
^ Claburn, Thomas (September 10, 2020). "Open access journals are vanishing from the web, Internet Archive stands ready to fill in the gaps". The Register.
^ Laakso, Mikael; Matthias, Lisa; Jahn, Najko (2021). "Open is not forever: A study of vanished open access journals". Journal of the Association for Information Science and Technology. 72 (9): 1099–1112. arXiv:2008.11933. doi:10.1002/ASI.24460. S2CID 221340749.

일반 참고 문헌 목록

Brown, A. (2006). Archiving Websites: A Practical Guide for Information Management Professionals. London: Facet Publishing. ISBN 978-1-85604-553-7.
Brügger, N. (2005). Archiving Websites. General Considerations and Strategies. Aarhus: The Centre for Internet Research. ISBN 978-87-990507-0-3. Archived from the original on January 29, 2009.
Day, M. (2003). "Preserving the Fabric of Our Lives: A Survey of Web Preservation Initiatives" (PDF). Research and Advanced Technology for Digital Libraries: Proceedings of the 7th European Conference (ECDL). Lecture Notes in Computer Science. 2769: 461–472. doi:10.1007/978-3-540-45175-4_42. ISBN 978-3-540-40726-3.
Eysenbach, G. & Trudel, M. (2005). "Going, going, still there: using the WebCite service to permanently archive cited web pages". Journal of Medical Internet Research. 7 (5): e60. doi:10.2196/jmir.7.5.e60. PMC 1550686. PMID 16403724.
Fitch, Kent (2003). "Web site archiving—an approach to recording every materially different response produced by a website". Ausweb 03. Archived from the original on July 20, 2003. Retrieved September 27, 2006.
Jacoby, Robert (August 19, 2010). "Archiving a Web Page". Archived from the original on January 3, 2011. Retrieved October 23, 2010.
Lyman, P. (2002). "Archiving the World Wide Web". Building a National Strategy for Preservation: Issues in Digital Media Archiving.
Masanès, J.), ed. (2006). Web Archiving. Berlin: Springer-Verlag. ISBN 978-3-540-23338-1.
Pennock, Maureen (2013). Web-Archiving. DPC Technology Watch Reports. Great Britain: Digital Preservation Coalition. doi:10.7207/twr13-01. ISSN 2048-7916.
Toyoda, M., Kitsuregawa, M. (2012). "The History of Web Archiving". Proceedings of the IEEE. 100 (special centennial issue): 1441–1443. doi:10.1109/JPROC.2012.2189920.{{cite journal}}: CS1 maint: 작성자 파라미터 사용(링크)

외부 링크

국제 인터넷 보존 컨소시엄(IIPC): 미래 세대를 위해 인터넷에서 접근 가능한 지식과 정보를 입수, 보존 및 만드는 것을 사명으로 하는 국제 컨소시엄
IWAW(International Web Archiving Workshop) - 웹 아카이브에 초점을 맞춘 연례 워크숍
호주 국립도서관, 디지털 정보 접근 보호(PADI)
의회 도서관 - 웹 아카이브
웹 아카이브 라이브러리: 웹 아카이브 리소스 길이 목록
"지속적인 웹 아카이브를 지향한다" - 프랑스 국립도서관 Julien Masanés
2015년 10월 12일 Wayback Machine에서 아카이브된 웹 아카이브 서비스 비교

[1] Truman, Gail (2016). "Web Archiving Environmental Scan". Harvard Library.

[kitsuregawa-2] Toyoda, M.; Kitsuregawa, M. (May 2012). "The History of Web Archiving". Proceedings of the IEEE. 100 (Special Centennial Issue): 1441–1443. doi:10.1109/JPROC.2012.2189920. ISSN 0018-9219.

[3] "Inside Wayback Machine, the internet's time capsule". The Hustle. September 28, 2018. sec. Wayyyy back. Retrieved July 21, 2020.

[4] Costa, Miguel; Gomes, Daniel; Silva, Mário J. (September 2017). "The evolution of web archiving". International Journal on Digital Libraries. 18 (3): 191–205. doi:10.1007/s00799-016-0171-9.

[5] "IWAW 2010: The 10th Intl Web Archiving Workshop". www.wikicfp.com. Retrieved August 19, 2019.

[6] "IWAW - International Web Archiving Workshops". bibnum.bnf.fr. Archived from the original on November 20, 2012. Retrieved August 19, 2019.

[7] "About the IIPC". IIPC. Retrieved April 17, 2022.

[8] "Internet Memory Foundation : Free Web : Free Download, Borrow and Streaming". archive.org. Internet Archive. Retrieved July 21, 2020.

[9] Regis, Camille (June 4, 2019). "Web Archiving: Think the Web is Permanent? Think Again". History Associates. Retrieved July 14, 2019.

[10] Brown, Adrian (January 10, 2016). Archiving websites : a practical guide for information management professionals. ISBN 978-1-78330-053-2. OCLC 1064574312.

[11] Lyman (2002)

[12] "Legal Deposit IIPC". netpreserve.org. Archived from the original on March 16, 2017. Retrieved January 31, 2017.

[13] "WebCite FAQ". Webcitation.org. Retrieved September 20, 2018.

[14] "Social Media and Digital Communications" (PDF). finra.org. FINRA.

[Claburn_2020-15] Claburn, Thomas (September 10, 2020). "Open access journals are vanishing from the web, Internet Archive stands ready to fill in the gaps". The Register.

[16] Laakso, Mikael; Matthias, Lisa; Jahn, Najko (2021). "Open is not forever: A study of vanished open access journals". Journal of the Association for Information Science and Technology. 72 (9): 1099–1112. arXiv:2008.11933. doi:10.1002/ASI.24460. S2CID 221340749.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

v t 디지털 보존
개념	아티팩트 값 큐레이션 암흑시대 진부화 오픈 아카이브 정보 시스템
기술	법의학 에뮬레이션
종류별	아트웍스 이메일 웹 사이트
단체들	컴퓨터 박물관 디지털 큐레이션 센터 미국 디지털 정보 인프라 및 보존 프로그램(미국)
리스트	보존 이니셔티브 타임라인 오디오 형식 연대표 웹 아카이브 이니셔티브
카테고리

v t 문화유산 및 역사적 보존
토픽 및 문제	열화의 원인 아카이브 처리 고고학 고고학 기록 보관소 생물고고학 캘린더(아카이브) 문화재 보존 및 복원 부동문화재의 보존 및 복원 이동문화재의 보존 및 복원 보존과학(문화재) 모으기 컬렉션(박물관) 컬렉션 카탈로그 컬렉션 유지 보수 수집 관리 수금관리시스템 문화유산 문화재 관리 문화재 문화재 문서 문화재전 문화재 이미징 문화재 보관소 문화자원 관리 데이터베이스 보존 액세스 해제(박물관) 디지털 라이브러리 디지털 사진 복원 디지털 보존 재해대책(문화재) 필름 보존 도움 찾기 애지중지하다 컬렉션에서 발견됨 유산자산 유산과학 본연의 악덕 무형 문화재 통합해충관리(문화재) 인벤토리(라이브러리 및 아카이브) 인벤토리(박물관) 미디어 보존 금형관리 및 방지(도서관 및 아카이브) 박물관 광학 미디어의 보존 보존(도서관 및 아카이브) 보존 메타데이터 보존 조사 프로벤스 송환 폐허 지속 가능한 보존 보물 웹 아카이브
역할 전문지식	아카이브리스트 미술상 아트 핸들러 경매인 컬렉션 매니저 Conservator-restore restore 자연보호학자 보호 기술자 큐레이터 전시 디자이너 마운트 메이커 오브젝트 컨서버레이터 그림 관리인 사진관리자 환경보호론자 등록관(문화재) 직물 관리인
방법들 및 기술	에이징(아트워크) 무지외반증 부패를 막힘 크래들링(도장) 문화재 방사선 촬영 벽화 분리 데스메트법 진열장 리스크 평가에 근거한 디지털 저장소 감사 방법 이력 페인트 분석 인페인팅 긴츠기 리프캐스팅 그림 안감 대량 탈산 오버페인팅 고영감 용지 분할 재구축(아키텍처) 리스베르클레붕 섬유 안정화 판넬 도장의 이동 UVC 기반 보존 Visual Audio
보존. 및 복원 움직이지 않는 문화재 항목 유형별로	유적지 프레스코스 헤리티지 철도 역사적 정원 야외 미술품 옥외 청동 물체 야외 벽화
보존. 및 복원 움직일 수 있는 문화재 항목 유형별로	항공기 고대 그리스 도자기 골격, 뿔 및 뿔 개체 서적, 원고, 문서 및 덧없음 세라믹 오브젝트 시계 구리 기반 객체 깃털들 영화 깃발 및 배너 퍼 오브젝트 유리 물체 하바리아 유골 일루미네 곤충 표본 철 및 강철 물체 상아색 물체 유대교 칠기 가죽 제품 등대 금속 악기 네온 객체 뉴미디어 아트 그림 액자 그리기 패널 페인팅 파피루스속 양피지 퍼포먼스 아트 사진들 사진판 플라스틱 물체 철도 차량 도로 차량 난파선 유물 은색 물체 남아시아의 사당 스테인드글라스 박제 직물 티베트 탕카 시간 기반 미디어 아트 토템폴 비닐 디스크 목판화 목조 공예품 목제 가구
무형의 문화 유산 보존	고대 음악 응용민속학 댄스 표기법 초기 음악 멸종 위기 언어 민족행동학 민족음악학 민족학 가족 민속 민속학 민속 예술 포크 댄스 민간 어원 민속 악기 민간의학 포크 음악 민속 과정 민속극 푸드웨이 민속학 헤리티지 언어 유산 언어 학습 고유 지적 재산 토착 문화 토착어 언어의 죽음 언어 보존 언어 활성화 살아있는 역사 구술 이력 보존 의미 보존 원시 음악 전통 보존 종래의 지식
주목할 만한 프로젝트	폼페이와 헤르쿨라네움의 보존 문제 엘리아스 가르시아 마르티네스의 에체 호모 보존 복원 Thomas Eakins의 Gross Clinic 보존-복원 레오나르도 다빈치의 최후의 만찬 보존 복원 폼페이 벽화 토리노 장막의 보존 복원 시스티나 성당 벽화 보존 복원 자유의 여신상 보존 복원 H.L.의 보존-복원 헨리 피렌체 아르노 홍수에 대한 자연보호 대응 근현대미술연구구상 보존 메타데이터:도입 전략

권한 관리
국립도서관	일본. 체코 공화국
다른.	대상 용어의 적용 면

Search

웹 아카이브

네임스페이스

더

목차

역사와 발전

웹 수집

회수 방법

리모트 수집

데이터베이스 아카이브

트랜잭션 아카이브

어려움과 제한

크롤러

일반적인 제한 사항

법률

「」를 참조해 주세요.

레퍼런스

인용문

일반 참고 문헌 목록

외부 링크

Search

웹 아카이브

역사와 발전

웹 수집

회수 방법

리모트 수집

데이터베이스 아카이브

트랜잭션 아카이브

어려움과 제한

크롤러

일반적인 제한 사항

법률

「 」를 참조해 주세요.

레퍼런스

인용문

일반 참고 문헌 목록

외부 링크

「」를 참조해 주세요.