djvu

DjVu
djvu
Djvu icon.svg
파일 이름 확장명
.djvu, .djv
인터넷 미디어 유형
image/vnd.provu, image/x-provu
매직넘버AT&T
개발자AT&T Labs – Research
초기 릴리즈1998; 24년 전 (1998년)
최신 릴리즈
버전 26[1]
2005년 4월; 16년 전(2005-04)
형식 유형이미지 파일 형식
포함자교환 파일 형식
오픈 포맷?

djVu(/ˌdedeɑɑːvvvv///DAY-zah-VOO, 프랑스어 "데자뷰"와 같이)[2]스캔한 문서, 특히 텍스트, 선 도면, 색인된 색상 이미지 및 사진의 조합이 포함된 문서들을 주로 저장하도록 설계컴퓨터 파일 형식이다.텍스트와 배경/이미지의 영상층 분리, 점진적 로딩, 산술 코딩, 비트론(모노크롬) 영상의 손실 압축 등의 기술을 사용한다.이를 통해 고화질, 판독 가능한 영상을 최소한의 공간에 저장할 수 있어 웹에서 사용할 수 있도록 할 수 있다.

djVu는 대부분의 스캔한 문서에 대해 PDF보다 작은 파일을 제공하는 것으로 홍보되어 왔다.[3]DjVu 개발자들은 컬러 매거진 페이지가 40–70 kB로 압축되고, 흑백 기술 논문이 15–40 kB로 압축되며, 고대 원고가 100 kB로 압축된다고 보고한다. 만족스러운 JPEG 이미지는 일반적으로 500 kB가 필요하다.[4]djVu는 PDF와 마찬가지로 OCR 텍스트 레이어를 포함할 수 있어 복사 붙여넣기, 텍스트 검색 작업을 쉽게 수행할 수 있다.

무료 크리에이터, 조작기, 컨버터, 웹 브라우저 플러그인 및 데스크톱 뷰어를 이용할 수 있다.[2]djVu는 Linux(Okular, Evince), Windows(Okular, SumatraPDF), Android(FBReader, EBookDroid, PocketBook)에서 다수의 다중 형식 문서 뷰어와 전자책 리더 소프트웨어의 지원을 받고 있다.

역사

djVu 기술은 원래 얀 르쿤, 레온 보투, 패트릭 하프너, 폴 G에 의해 개발되었다. 1996년부터 2001년까지 AT&T 연구소에서 하워드, 파트리스 시마르, 요수아 벤지오.[4]

2008년 PDF 표준화에 앞서 djVu는 당시 PDF의 독점적 성격과 달리 공개 파일 형식이어서 우수하다는 평가를 받아왔다.[5][6]선언된 높은 압축 비율(따라서 파일 크기가 작아짐)과 대량의 텍스트를 DjVu 형식으로 변환할 수 있다는 주장 역시 2004년의 기술 환경에서 DjVu가 PDF에 비해 우월하다는 주장이었다.독립 기술자 Brewster Kahle은 2004년 IT Dialogs에 관한 강연에서 DjVu 파일에 대한 더 쉬운 접근을 허용하는 것의 이점에 대해 논의했다.[7][8]

오픈소스 패키지의 일부로 배포된 djVu 라이브러리는 djVu Libre가 djVu 형식의 참조 구현이 되었다.djVuLibre는 2002년부터 djVu의 원래 개발자들에 의해 유지되고 업데이트 되었다.[9]

djVu 파일 형식 사양은 여러 가지 수정을 거쳤으며, 가장 최근의 것은 2005년부터이다.

수정이력
버전 출시일자 메모들
이상 유지되지 않는 이전 버전: 1-19[citation needed] 1996–1999 리자드테크에 포맷을 판매하기 전에 AT&T 연구소에 의한 개발 버전.
더 이상 유지 관리되지 않는 이전 버전:버전 20[1] 1999년 4월 DjVu 버전 3.djVu는 한 페이지 형식에서 다중 페이지 형식으로 변경했다.
이전 버전이지만 여전히 유지:버전 21[1] 1999년 9월 교체된 간접 저장 형식.검색 가능한 텍스트 레이어가 추가되었다.
이전 버전이지만 여전히 유지:버전 22[1] 2001년 4월 페이지 방향, 색상 JB2
더 이상 유지 관리되지 않는 이전 버전:버전 23[1] 2002년 7월 CID 청크
더 이상 유지 관리되지 않는 이전 버전:버전 24[1] 2003년 2월 LTAnno 청크
이전 버전이지만 여전히 유지:버전 25[1] 2003년 5월 NAVM 청크.DjVu 북마크(아웃라인) 지원이 추가됐다.버전 23과 24에 의해 이루어진 변경은 쓸모없게 되었다.
현재 안정적인 버전: 버전 26[1] 2005년 4월 텍스트/라인 주석
범례:
구버전
이전 버전, 계속 유지 관리됨
최신 버전
최신 미리보기 버전
향후 릴리즈

소프트웨어 에코시스템에서의 역할

djVu 형식의 주요 용도는 인쇄된 문서에 버금가는 품질을 가진 문서의 전자 배포였다.그 틈새 또한 PDF의 주요 용도인 만큼, 두 형식이 경쟁자가 될 수밖에 없었다.그러나 PDF는 주로 그래픽과 텍스트를 벡터링 데이터로 인코딩하는 반면, DjVu는 픽스맵 이미지로 인코딩하는 매우 다른 방식으로 고해상도 문서를 전달하는 문제에 접근한다는 점을 유념해야 한다.PDF는 문서를 렌더링해야 하는 부담을 독자에게, djVu는 작성자에게 부담을 주는 것을 의미한다.

DjVu가 개발되고 있는 기간과 상당히 겹치는 수 년 동안 무료 운영 체제를 위한 PDF 뷰어는 없었다. 특히 걸림돌은 PDF의 작은 파일 크기와 고해상도 결합에 필수적인 벡터링 글꼴의 렌더링이었다.DjVu를 표시하는 것이 무료 소프트웨어를 사용할 수 있는 더 간단한 문제였기 때문에, 무료 소프트웨어 이동에는 PDF 대신 DjVu를 사용하여 문서를 배포해야 한다는 제안이 있었다. DjVu를 생성하는 렌더링은 원칙적으로 장치별 프린터 드라이버의 렌더링과 크게 다르지 않으며, DjVu는 마지막 수단으로 사용할 수 있다.종이 매체의 스캔에서 생성되다그러나 2000년 FreeType 2.0이 모든 주요 벡터링 글꼴 형식을 렌더링하기 시작했을 때, DjVu의 특정 장점은 사라지기 시작했다.

2000년대에는, 월드 와이드 웹의 성장과 광대역의 채택을 확산하려면 지난번과, DjVu 종종 디지털 도서관에 의해 그들의 선택의 형식, 소프트웨어와 함께 Greenstone[10]과 고급 온라인 검색, 유사한 qua 위한 작은 파일 크기가 됐다 인터넷 Archive,[11]브라우저 플러그 인과 같은 그것의 통합 덕분으로 채택되었다.의 lity북 스캔 및 기타 이미지 집약적인 문서와[12] OCR의 전체 텍스트 포함 [13][14]및 검색 지원썸네일 프리뷰와 같은 일부 기능은 이후 Internet Archive의 BookReader에[15] 통합되었고 DjVu 브라우징은 2015년경 일부 주요 브라우저가 NPAPI 및 DjVu 플러그인에 대한 지원을 중단함에 따라 이 기능을 선호하지 않게 되었다.[16]

DjVu.js Viewer가 누락된 플러그인의 교체를 시도한다.

기술 개요

파일 구조

DjVu 파일 형식은 인터체인지 파일 형식에 기초하며 계층적으로 구성된 청크로 구성된다.IFF 구조는 4바이트가 선행한다.AT&T 마법의 숫자다음은 싱글이다.FORM다음 중 하나의 보조 식별자로 청크DJVU또는DJVM한 페이지 또는 여러 페이지 문서의 경우.

모든 청크는 소위 번들 문서의 경우 하나의 파일에 포함될 수 있거나, 페이지마다 하나의 파일과 공유 청크가 있는 일부 파일 등 여러 파일에 포함될 수 있다.

청크 유형

DjVu 파일의 청크 유형
청크 식별자 포함자 설명
양식:DJVU 양식:DJVM 단일 페이지를 설명한다.문서의 루트에 있고 단일 페이지 문서 또는 에서 참조할 수 있음DIRM덩어리로 만들다
양식:DJVM 해당 없음 다중 페이지 문서 설명.문서의 루트 청크.
양식:DJVI 양식:DJVM 여러 페이지에서 공유하는 데이터 포함.
양식:THUM 양식:DJVM 미리 보기 포함.
정보 양식:DJVU 첫 번째 청크일 거야페이지 너비, 높이, 형식 버전, 분해능, 감마 및 회전을 설명한다.
DREAM 양식:DJVM 첫 번째 청크일 거야참조기타FORM덩어리들이 청크들은 그 안에 있는 이 청크를 따라갈 수 있다.FORM:DJVM청크 또는 외부 파일에 포함.이러한 유형의 문서를 각각 번들 또는 간접 문서라고 한다.
NAVM 양식:DJVM 존재하는 경우, 즉시 다음 사항을 따라야 한다.DIRM청크. 문서의 BZZ 압축 개요를 포함한다.
앤타, 앤츠 양식:DJVI 또는 양식:디제이뷰 주석
TXTA, TXTz 양식:DJVU 유니코드 텍스트 및 레이아웃 정보.
포함 양식:DJVU 포함된 IDFORM::DJVI덩어리로 만들다
스제이브스 양식:DJVU 마스크 저장에 사용되는 BZZ 압축 JB2 비트론 데이터.
djbz 양식:DJVI 또는 양식:디제이뷰 공유 셰이프 테이블.
WMRM ? 워터마크 제거에 필요한 JB2 데이터
CIDA 양식:DJVU 알 수 없는 내용이 있는 구식 청크.

압축

djVu는 하나의 이미지를 여러 개의 다른 이미지로 나눈 다음, 따로 압축한다.DjVu 파일을 생성하기 위해 초기 이미지는 먼저 배경 이미지, 전경 이미지, 마스크 이미지의 세 가지 이미지로 구분된다.배경 및 전경 이미지는 일반적으로 저해상도 컬러 이미지(예: 100dpi)이며, 마스크 이미지는 고해상도 담즙 이미지(예: 300dpi)이며 일반적으로 텍스트가 저장되는 곳이다.그런 다음 배경 및 전경 영상은 IW44라는 이름의 웨이블렛 기반 압축 알고리즘을 사용하여 압축된다.[4]마스크 이미지는 JB2(JBIG2와 유사)라는 방법을 사용하여 압축된다.JB2 인코딩 방법은 주어진 글꼴, 스타일 및 크기에서 특정 문자가 여러 번 나타나는 것과 같이 페이지에서 거의 동일한 모양을 식별한다.각각의 고유한 도형의 비트맵을 별도로 압축한 다음, 페이지에 나타나는 각 도형의 위치를 인코딩한다.따라서 주어진 글꼴로 문자 "e"를 여러 번 압축하는 대신 문자 "e"를 한 번(압축된 비트 이미지로) 압축한 다음 발생 페이지에 모든 위치를 기록한다.

선택적으로, 이러한 모양은 UTF-8 코드(손이나 텍스트 인식 시스템에 의해)에 매핑되어 DjVu 파일에 저장될 수 있다.이 매핑이 존재한다면, 텍스트를 선택하고 복사할 수 있다.

JB2(DjVuBitonal이라고도 함)는 JBIG2에 대한 변형으로, 동일한 원리에 작용하기 때문에 두 압축 방법 모두 손실 압축을 수행할 때 동일한 문제가 발생한다.[17]2013년에 제록스 복사기와 스캐너는 비슷하게 생긴 숫자로 숫자를 대체해왔다는 것이 밝혀졌다. 예를 들어, 6을 8로 대체했다.[18]피를 흘리는 세리프가 u로 변하는 n, 안에 있는 점이 e로 변하는 o 등 캐릭터 대체물이 담긴 djVu 문서가 야생에서 포착됐다.[19]압축 손실 여부는 파일에 저장되지 않는다.[20]따라서 DjView 보기 애플리케이션은 손실 압축 파일을 열 때나 정보 또는 메타데이터 대화 상자에서도 글리프 대체 현상이 발생했을 수 있음을 사용자에게 경고할 수 없다.[21]

라이센싱 형식 지정

djVu는 특허를 가진 오픈 파일 형식이다.[3]참조 라이브러리의 소스 코드와 함께 파일 형식 사양이 게시된다.[3]원저자들은 GNU 일반공인면허에 따라 "DjVuLibre"라는 이름의 오픈소스 구현을 배포한다.인코딩 소프트웨어의 상업적 개발권은 AT&T 코퍼레이션, 리자드 테크,[22] 셀라템[23], 쿠미나스 등 여러 회사로 수년간 이전되어 왔다.[24]

셀라템은 리자드 테크와 익스텐디스를 인수했다.[25][26][23][27][28]

지원

djVu는 소프트웨어를 스캔하고 보는 것으로 널리 지원되지 않는다.시청자는 다운로드가 가능하지만, 대부분의 운영 체제에서는 기본적으로 DjVu 파일을 여는 것이 구현되지 않는다.주된 예외는 대부분의 리눅스 배포판이다.

2002년, 인터넷 아카이브에 의해 그것의 Million Book Project가 스캔한 공공 도메인 책을 온라인으로 제공하는 형식으로 djVu 파일 형식이 선택되었다(TIFF,[29] PDF와 함께).2016년 2월 인터넷 아카이브는 djVu가 새로운 업로드에 더 이상 사용되지 않을 것이라고 발표했는데, 그 포맷의 사용이 줄고 포맷의 자바 애플릿 기반 뷰어를 유지하는 것이 어렵다는 이유였다.[16]

위키피디아사용하는 미디어 저장소인 위키미디어 커먼스는 조건부로 PDF와 DjVu 미디어 파일을 허용하고 있다.[30]

참고 항목

참조

  1. ^ a b c d e f g h "Lizardtech DjVu Reference" (PDF). Cuminas.jp. p. 25. Retrieved 7 December 2021.
  2. ^ a b "DjVu.org – the premier menu for djvu resources". djvu.org. Retrieved 2017-07-02.
  3. ^ a b c "What is DjVu – DjVu.org". DjVu.org. Retrieved 2009-03-05.
  4. ^ a b c Léon Bottou; Patrick Haffner; Paul G. Howard; Patrice Simard; Yoshua Bengio; Yann Le Cun (1998). "High Quality Document Image Compression with DjVu, 7(3):410–425" (PDF). Journal of Electronic Imaging.
  5. ^ "ISO 32000-1:2008 – Document management – Portable document format – Part 1: PDF 1.7". Iso.org. 2008-07-01. Retrieved 2010-02-21.
  6. ^ Orion, Egan (2007-12-05). "PDF 1.7 is approved as ISO 32000". The Inquirer. Incisive Media. Archived from the original on December 13, 2007. Retrieved 2007-12-05.
  7. ^ Brewster Kahle (December 16, 2004). "Universal Access to All Knowledge" (Audio; Speech at 1h:31 m:20s). Conversations Network.
  8. ^ "LizardTech To Open Source A DjVu Java Viewer". ECM Connection. 7 December 2004. Retrieved 18 August 2017.
  9. ^ "DjVuLibre: Open Source DjVu library and viewer". djvu.sourceforge.net.
  10. ^ "nzdl:projects - Greenstone". Wiki.greenstone.org. Retrieved 7 December 2021.
  11. ^ Eric Rumsey (2018-09-05). "Google Books vs DjVu in Internet Archive". Blog.libuiowa.edu.
  12. ^ Eric Rumsey (2018-09-10). "DjVu again". Blog.libuiowa.edu.
  13. ^ Jeff Kaplan (2004-12-09). "New book collection: color scans, djvu, some pdf" (PDF). Blog.archive.org.
  14. ^ Janusz S. Bień (2011-09-12). "Efficient search in hidden text of large DjVu documents". Advanced Language Technologies for Digital Libraries (PDF). Lecture Notes in Computer Science. Vol. 6699. pp. 1–14. doi:10.1007/978-3-642-23160-5_1. ISBN 978-3-642-23159-9. S2CID 3095526.
  15. ^ Eric Rumsey (2010-09-10). "Internet Archive's BookReader Thumbnail View". Blog.libuiowa.edu.
  16. ^ a b Brewster Kahle; Jeff Kaplan (2016-02-26). "DjVu files for new uploads". Archive.org.
  17. ^ Artem Mikheev, Luc Vincent, Mike Hawrycz & Léon Botou:DjVu를 이용한 전자문서 출판
  18. ^ 자세한 내용과 참조사항은 JBIG2 문서를 참조하십시오.
  19. ^ "This document caused me a fair bit of consternation transcribing it on a site th... Hacker News". News.ycombinator.com. Retrieved 7 December 2021.
  20. ^ "Lizardtech DjVu Reference" (PDF). Cuminas.jp. Retrieved 7 December 2021.
  21. ^ "DjVuLibre". SourceForge.net. Retrieved 7 December 2021.
  22. ^ Extensis. "Company – About – LizardTech". Lizardtech.com.
  23. ^ a b "Celartem, Inc.: Private Company Information – Bloomberg". Bloomberg.com.
  24. ^ "会社情報 - Cuminas Corporation". Cuminas.jp. Archived from the original on 2018-01-15. Retrieved 2018-01-14.
  25. ^ "Company Overview – Celartem Technology, Inc". Celartem.com. Retrieved 7 December 2021.
  26. ^ "Celartem Technology Announces Merger of US Holdings – Extensis.com". Archived from the original on 2018-01-15. Retrieved 2018-01-14.
  27. ^ "Celartem Technology Inc.: Private Company Information – Bloomberg". Bloomberg.com.
  28. ^ "Celartem Sells Extensis and LizardTech Plugins and XTensions to onOne Software – Big Picture – Wide Format Printing". bigpicture.net.
  29. ^ "Image file formats – OLPC". Wiki.laptop.org. Retrieved 2008-09-09.
  30. ^ 위키미디어 커먼즈. 프로젝트 범위: PDFDjVu.

외부 링크