웹 ARChive

Web ARChive
웹 ARChive
파일 이름 확장자
워크
인터넷 미디어 유형
응용 프로그램/와크[1]
확장원아아크[2]
표준.ISO 28500:2017[3]
오픈 포맷?네.
웹 사이트iipc.github.io/warc-specifications/specifications/warc-format/warc-1.1/

Web ARC(Web ARCive) 아카이브 형식은 여러 디지털 리소스를 관련 정보와 함께 집약 아카이브 파일로 결합하는 방법을 지정합니다.WARC 형식은 Internet Archive의 ARC_를 리비전한 것입니다.IA 파일[4] 형식. 전통적으로 " 크롤"을 월드 와이드 웹에서 수집된 콘텐츠 블록 시퀀스로 저장하는 데 사용되었습니다.WARC 형식은 아카이브 조직의 수집, 액세스 및 교환 요구를 보다 효과적으로 지원하기 위해 이전 형식을 일반화합니다.리비전은 현재 기록된 1차 콘텐츠 외에 할당된 메타데이터, 생략된 중복 검출 이벤트 및 최신 [5]변환과 같은 관련 2차 콘텐츠를 수용합니다.WARC 형식은 HTTP/1.0 스트림에서 영감을 받아 유사한 헤더를 사용하고 CRLF를 구분자로 사용하기 때문에 크롤러 구현에 매우 도움이 됩니다.

2008년에 처음 지정된 [6]WARC는 현재 대부분의 국립 도서관 시스템에서 웹 [7]아카이브의 표준으로 인식되고 있습니다.

소프트웨어

레퍼런스

  1. ^ "application/warc". Retrieved 17 March 2018.
  2. ^ "Introduction". SourceForge. Retrieved 5 March 2015.
  3. ^ "Information and documentation -- WARC file format". Retrieved 16 March 2018.
  4. ^ "ARC_IA, Internet Archive ARC file format". www.digitalpreservation.gov. 14 February 2008. Retrieved 2015-05-09.
  5. ^ "WARC, Web ARChive file format". www.digitalpreservation.gov. 31 August 2009. Retrieved 2015-05-09.
  6. ^ Arvidson, Allan; Kunze, John; Mohr, Gordon; Stack, Michael (5 July 2008). "The WARC File Format". IETF. Retrieved 2021-04-29.
  7. ^ Allegrezza, Stefano (21 April 2016). "Nuove prospettive per il Web archiving: Gli standard ISO 28500 (Formato WARC) e ISO/TR 14873 sulla qualità del Web archiving". Digitalia. 2015: 49–61.
  8. ^ Scrivano, Giuseppe (August 6, 2012). "GNU wget 1.14 released". GNU wget 1.14 released. Free Software Foundation, Inc. Retrieved February 25, 2016.

외부 링크