웹 ARChive
Web ARChive파일 이름 확장자 | 워크 |
---|---|
인터넷 미디어 유형 | 응용 프로그램/와크[1] |
확장원 | 아아크[2] |
표준. | ISO 28500:2017[3] |
오픈 포맷? | 네. |
웹 사이트 | iipc |
Web ARC(Web ARCive) 아카이브 형식은 여러 디지털 리소스를 관련 정보와 함께 집약 아카이브 파일로 결합하는 방법을 지정합니다.WARC 형식은 Internet Archive의 ARC_를 리비전한 것입니다.IA 파일[4] 형식. 전통적으로 "웹 크롤"을 월드 와이드 웹에서 수집된 콘텐츠 블록 시퀀스로 저장하는 데 사용되었습니다.WARC 형식은 아카이브 조직의 수집, 액세스 및 교환 요구를 보다 효과적으로 지원하기 위해 이전 형식을 일반화합니다.리비전은 현재 기록된 1차 콘텐츠 외에 할당된 메타데이터, 생략된 중복 검출 이벤트 및 최신 [5]변환과 같은 관련 2차 콘텐츠를 수용합니다.WARC 형식은 HTTP/1.0 스트림에서 영감을 받아 유사한 헤더를 사용하고 CRLF를 구분자로 사용하기 때문에 크롤러 구현에 매우 도움이 됩니다.
2008년에 처음 지정된 [6]WARC는 현재 대부분의 국립 도서관 시스템에서 웹 [7]아카이브의 표준으로 인식되고 있습니다.
소프트웨어
레퍼런스
- ^ "application/warc". Retrieved 17 March 2018.
- ^ "Introduction". SourceForge. Retrieved 5 March 2015.
- ^ "Information and documentation -- WARC file format". Retrieved 16 March 2018.
- ^ "ARC_IA, Internet Archive ARC file format". www.digitalpreservation.gov. 14 February 2008. Retrieved 2015-05-09.
- ^ "WARC, Web ARChive file format". www.digitalpreservation.gov. 31 August 2009. Retrieved 2015-05-09.
- ^ Arvidson, Allan; Kunze, John; Mohr, Gordon; Stack, Michael (5 July 2008). "The WARC File Format". IETF. Retrieved 2021-04-29.
- ^ Allegrezza, Stefano (21 April 2016). "Nuove prospettive per il Web archiving: Gli standard ISO 28500 (Formato WARC) e ISO/TR 14873 sulla qualità del Web archiving". Digitalia. 2015: 49–61.
- ^ Scrivano, Giuseppe (August 6, 2012). "GNU wget 1.14 released". GNU wget 1.14 released. Free Software Foundation, Inc. Retrieved February 25, 2016.