위키백과:데이터베이스 다운로드
Wikipedia![]() |
독자 FAQ |
---|
![]() |
위키피디아는 관심 있는 사용자들에게 이용 가능한 모든 콘텐츠의 무료 사본을 제공합니다.이러한 데이터베이스는 미러링, 개인 사용, 비공식 백업, 오프라인 사용 또는 데이터베이스 쿼리(예: Wikipedia:유지관리).모든 텍스트 콘텐츠는 Creative Commons Attribution-Share Alike 3.0 라이센스(CC-BY-SA)에 따라 라이센스가 부여되며, 대부분은 GNU 자유 문서 라이센스(GFDL)[1]에 따라 추가 라이센스가 부여됩니다.이미지 및 기타 파일은 설명 페이지에서 자세히 설명한 대로 다른 용어로 사용할 수 있습니다.이러한 라이센스 준수에 대한 조언은 위키백과를 참조하십시오.저작권.
오프라인 위키백과 독자
오프라인 상태에서 Wikipedia를 읽는 여러 가지 방법 중 일부는 다음과 같습니다.
- XOWA: (§▁x XOWA)
- Kiwix: (주: Kiwix)
- WikiTaxi: » WikiTaxi(Windows용)
- aard dictionary : § Aard Dictionary / Aard 2
- BzReader: §BzReader 및 MzReader(Windows용)
- 인쇄된 문서로 위키백과 문서 선택:도움말: 인쇄
- Wiki as E-Book: § E-Book
- WikiFilter: » WikiFilter
- 록박스에 관한 위키백과: 록박스용 위키뷰어
그 중 일부는 모바일 응용프로그램입니다. "위키백과 모바일 응용프로그램 목록"을 참조하십시오.
어디서 구하죠?
영어 위키백과
- Wikimedia Foundation 프로젝트에서 덤프: 덤프.wikimedia.org 및 인터넷 아카이브
- 영어 위키백과의 SQL 및 XML 덤프: dumps.wikimedia
.org/enwiki/ 및 인터넷 아카이브 - BitTorrent 클라이언트를 사용하여 데이터 덤프를 다운로드합니다(토렌트는 많은 이점이 있고 서버 로드를 줄여 대역폭 비용을 절약합니다).
- pages-article-multistream.xml.bz2 – 현재 리비전만 가능하며, 토크 또는 사용자 페이지는 없습니다. 이것이 아마도 당신이 원하는 것이며, 19GB 이상의 압축을 풀었을 때 86GB 이상으로 확장됩니다.
- pages-meta-current.xml.bz2 – 현재 리비전만, 모든 페이지(토크 포함)
- abstract.xml.gz – 페이지 요약
- all-titles-in-ns0.gz – 아티클 제목만(리다이렉트 포함)
- 페이지 및 링크에 대한 SQL 파일도 사용할 수 있습니다.
- 모든 수정사항, 모든 페이지:이러한 파일은 수 테라바이트의 텍스트로 확장됩니다. 이 양의 데이터를 처리할 수 있다는 것을 알고 있는 경우에만 다운로드하십시오.최신 덤프로 이동하여 이름에 'pages-meta-history'가 있는 모든 파일을 찾습니다.
- 특정 범주 또는 문서 목록과 같은 XML 형식의 데이터베이스 하위 집합을 다운로드하려면 특수:내보내기, 사용법은 도움말에서 설명합니다.내보내기.
- Wiki 프런트 엔드 소프트웨어:미디어위키 [1].
- 데이터베이스 백엔드 소프트웨어:MySQL.
- 이미지 덤프:아래를 참조하십시오.
멀티스트림으로 할까요?
TL;DR: Multistream Version!(및 해당 인덱스 파일, pages-article-multistream-index.txt.bz2)
pages-article.xml.bz2와 pages-article-transmream.xml.bz2는 모두 동일한 xml 내용을 포함합니다.따라서 둘 중 하나를 풀어도 동일한 데이터를 얻을 수 있습니다.그러나 멀티스트림을 사용하면 전체 패키지를 풀지 않고 아카이브에서 기사를 가져올 수 있습니다.독자가 이를 처리해야 합니다. 독자가 이를 지원하지 않으면 멀티스트림과 비 멀티스트림이 동일한 xml을 포함하므로 어쨌든 작동합니다.멀티스트림의 유일한 단점은 그것이 약간 크다는 것입니다.더 작은 비멀티스트림 아카이브를 원할 수도 있지만, 압축을 풀지 않으면 소용이 없습니다.그리고 그것은 원래 크기의 5-10배까지 포장을 풀 것입니다.페니 현명하게, 바보같이.멀티스트림을 가져옵니다.
멀티스트림 덤프 파일에는 하나의 스트림을 포함하는 바닐라 파일과 달리 여러 bz2 '스트림'(bz2 헤더, 본문, 바닥글)이 하나의 파일로 연결되어 있습니다.멀티스트림 덤프의 각 개별 '스트림'(또는 실제로 파일)에는 마지막 페이지를 제외하고 100페이지가 포함됩니다.
멀티스트림을 사용하는 방법?
멀티스트림의 경우 인덱스 파일, pages-article-multistream-index.txt.bz2를 가져올 수 있습니다.이 인덱스의 첫 번째 필드는 압축된 아카이브 페이지(article-multistream.xml.bz2)에서 검색할 바이트 수입니다. 두 번째 필드는 아티클 ID이고 세 번째 아티클 제목입니다.
인덱스에 있는 바이트 오프셋을 사용하여 dd를 사용하여 아카이브에서 작은 부분을 잘라냅니다.그런 다음 bzip2 압축을 풀거나 bzip2 복구를 사용하여 첫 번째 파일에서 아티클 ID를 검색할 수 있습니다.
이러한 멀티스트림 파일에 대한 정보와 파이썬으로 압축을 푸는 방법은 https://docs.python.org/3/library/bz2.html#bz2.BZ2Decompressor 을 참조하십시오. 오래된 작동 장난감에 대한 https://gerrit.wikimedia.org/r/plugins/gitiles/operations/dumps/+/ariel/toys/bz2multistream/README.txt 및 관련 파일도 참조하십시오.
기타 언어
울적한 상태에서.wikimedia.org 디렉토리에는 영어뿐만 아니라 프로젝트에 대한 최신 SQL 및 XML 덤프가 있습니다.하위 디렉터리의 이름은 언어 코드와 해당 프로젝트의 이름입니다.동일한 구조를 가진 일부 다른 디렉터리(예: 단순, 향수)가 존재합니다.이러한 덤프는 Internet Archive에서도 사용할 수 있습니다.
업로드된 파일(이미지, 오디오, 비디오 등)은 어디에 있습니까?
이미지 및 기타 업로드된 미디어는 Wikimedia 서버에서 직접 제공될 뿐만 아니라 미러에서도 사용할 수 있습니다.2013년 9월 기준으로 대량 다운로드는 미러에서 가능하지만 Wikimedia 서버에서 직접 제공되지는 않습니다.현재 미러 목록을 참조하십시오.미러에서 rsync한 다음 업로드에서 누락된 이미지를 입력해야 합니다.wikimedia.org ; 에서 다운로드하는 경우upload.wikimedia.org
초당 캐시 누락 횟수를 1회로 제한해야 하며(응답 시 헤더를 확인하여 히트 또는 미스 여부를 확인한 후 누락이 발생하면 다시 꺼짐) HTTP 연결을 하나 또는 두 개 이상 동시에 사용해서는 안 됩니다.어떤 경우에도 연락처 정보(전자 메일 주소)가 포함된 정확한 사용자 에이전트 문자열이 있는지 확인하여 문제가 있는 경우 ops에서 연락할 수 있습니다.당신은 mediawiki API에서 체크섬을 가져와 확인해야 합니다.API 에티켓 페이지에는 일부 지침이 포함되어 있지만 모든 지침이 적용되는 것은 아닙니다(예: 업로드).wikimedia.org 은 미디어위키가 아닙니다, 없습니다.maxlag
매개 변수).
대부분의 문서 텍스트와 달리 이미지는 GFDL & CC-BY-SA-3.0에 따라 라이센스가 부여되지 않습니다.공공 영역에서 공정한 사용으로 여겨지는 많은 무료 라이센스 중 하나일 수도 있고 심지어 저작권 침해(삭제되어야 함)일 수도 있습니다.특히, 위키백과나 유사한 저작물의 맥락 밖에서 공정한 사용 이미지를 사용하는 것은 불법일 수 있습니다.대부분의 라이센스에 따른 이미지에는 크레딧 및 기타 첨부된 저작권 정보가 필요합니다.이 정보는 덤프에서 사용할 수 있는 텍스트 덤프의 일부인 이미지 설명 페이지에 포함됩니다.wikimedia.org .결론적으로, 이러한 이미지는 사용자의 책임 하에 다운로드하십시오(법적).
압축 파일 처리
압축된 덤프 파일은 상당히 압축되므로 압축을 푼 후에는 드라이브 공간을 많이 차지합니다.압축 해제 프로그램의 많은 목록이 파일 아카이브와 비교하여 설명됩니다.특히 다음 프로그램을 사용하여 bzip2, .bz2, .zip 및 .7z 파일의 압축을 해제할 수 있습니다.
Windows XP부터는 기본 압축 해제 프로그램을 사용하여 zip [2][3]파일의 압축을 해제할 수 있습니다.다음은 bzip2 파일의 압축을 푸는 데 사용할 수 있습니다.
- 매킨토시(Mac)
- macOS는 명령줄 bzip2 도구와 함께 제공됩니다.
- GNU/리눅스
- 대부분의 GNU/리눅스 배포판은 명령줄 bzip2 도구와 함께 제공됩니다.
- BSD(Berkeley 소프트웨어 배포)
- 일부 BSD 시스템은 운영 체제의 일부로 명령줄 bzip2 도구와 함께 제공됩니다.OpenBSD와 같은 다른 제품은 먼저 설치해야 하는 패키지로 제공합니다.
- 메모들
- 일부 이전 버전의 bzip2는 2GB보다 큰 파일을 처리하지 못할 수 있으므로 문제가 발생할 경우 최신 버전을 사용해야 합니다.
- 일부 오래된 아카이브는 PKZIP(가장 일반적인 윈도우즈 형식)과 호환되는 gzip으로 압축됩니다.
대용량 파일 처리
파일의 크기가 커짐에 따라, 파일이 컴퓨팅 장치의 일부 제한을 초과할 가능성도 커집니다.각 운영 체제, 파일 시스템, 하드 저장 장치 및 소프트웨어(응용 프로그램)에는 최대 파일 크기 제한이 있습니다.이들 중 각각의 최대값은 서로 다를 수 있으며, 이 중 가장 낮은 제한은 스토리지 디바이스의 파일 크기 제한이 됩니다.
컴퓨터 장치의 소프트웨어가 오래될수록 시스템 어딘가에 2GB의 파일 제한이 있을 가능성이 높습니다.이는 파일 인덱싱에 32비트 정수를 사용하는 이전 소프트웨어로 인해 파일 크기가 2^31바이트(서명된 정수의 경우 2GB) 또는 2^32(서명되지 않은 정수의 경우 4GB)로 제한되기 때문입니다.이전 C 프로그래밍 라이브러리에는 이 2 또는 4GB 제한이 있지만 최신 파일 라이브러리는 64비트 정수로 변환되어 최대 2^63 또는 2^64바이트(8 또는 16EB)의 파일 크기를 지원합니다.
대용량 파일 다운로드를 시작하기 전에 저장 장치에서 파일 시스템이 대용량 파일을 지원할 수 있는지 확인하고, 다운로드한 파일을 저장할 수 있는지 확인할 수 있는 여유 공간을 확인합니다.
파일 시스템 제한
파일 시스템에는 파일 시스템 크기 제한과 파일 시스템 제한의 두 가지 제한이 있습니다.일반적으로 파일 크기 제한이 파일 시스템 제한보다 작기 때문에 파일 시스템 제한이 클수록 문제가 발생합니다.대부분의 사용자는 자신의 스토리지 장치 크기까지 파일을 만들 수 있다고 가정하지만 이 가정은 잘못된 것입니다.예를 들어 FAT32 파일 시스템으로 포맷된 16GB 저장 장치의 경우 단일 파일에 대한 파일 제한은 4GB입니다.다음은 가장 일반적인 파일 시스템 목록입니다. 자세한 내용은 파일 시스템 비교를 참조하십시오.
- FAT16은 최대 4GB의 파일을 지원합니다. FAT16은 소형 USB 드라이브와 2GB 이하의 모든 SD 카드의 출고 시 포맷입니다.
- FAT32는 최대 4GB의 파일을 지원합니다.FAT32는 4GB 이상의 대형 USB 드라이브 및 모든 SDHC 카드의 출고 시 포맷입니다.
- exFAT는 최대 127PB의 파일을 지원합니다. exFAT는 모든 SDXC 카드의 출고 시 형식이지만 라이센스 문제로 인해 대부분의 UNIX 버전과 호환되지 않습니다.
- NTFS는 최대 16TB의 파일을 지원합니다.NTFS는 Windows 2000, Windows XP 및 현재까지의 모든 후속 제품을 포함한 최신 Windows 컴퓨터의 기본 파일 시스템입니다.파일 시스템이 더 큰 클러스터 크기로 포맷된 경우 Windows 8 이후 버전에서는 더 큰 파일을 지원할 수 있습니다.
- ReFS는 최대 16EB의 파일을 지원합니다.
- 매킨토시(Mac)
- HFS Plus(HFS+)는 macOS 10.2+ 및 iOS에서 최대 8EB의 파일을 지원합니다. HFS+는 2017년 macOS High Sierra 이전의 macOS 컴퓨터용 기본 파일 시스템으로 Apple File System, APFS로 기본 교체되었습니다.
- ext2 및 ext3는 최대 16GB의 파일을 지원하지만 블록 크기가 큰 경우 최대 2TB를 지원합니다.자세한 내용은 https://users.suse.com/ ~aj/linux_lfs.dll을 참조하십시오.
- ext4는 4KB 블록 크기를 사용하여 최대 16TB의 파일을 지원합니다.(e2fsrogs-1.42(2012)에서 제한 제거)
- XFS는 최대 8EB의 파일을 지원합니다.
- ReiserFS는 32비트 시스템에서 최대 1EB, 8TB의 파일을 지원합니다.
- JFS는 최대 4PB의 파일을 지원합니다.
- Btrfs는 최대 16EB의 파일을 지원합니다.
- NILFS는 최대 8EB의 파일을 지원합니다.
- YAFS2는 최대 2GB의 파일을 지원합니다.
- ZFS는 최대 16EB의 파일을 지원합니다.
- FreeBSD 및 기타 BSD
- UNIX 파일 시스템(UFS)은 최대 8ZiB의 파일을 지원합니다.
운영 체제 제한
각 운영 체제에는 파일 시스템 또는 실제 미디어와 독립적인 파일 크기 및 드라이브 크기에 대한 내부 파일 시스템 제한이 있습니다.운영 체제에 파일 시스템이나 실제 미디어보다 낮은 제한이 있는 경우 OS 제한이 실제 제한이 됩니다.
- Windows 95, 98, ME에는 모든 파일 크기에 대해 4GB 제한이 있습니다.
- Windows XP에는 모든 파일 크기에 대해 16TB 제한이 있습니다.
- Windows 7(윈도우 7)에는 모든 파일 크기에 대해 16TB 제한이 있습니다.
- 윈도우즈 8, 10 및 서버 2012에는 모든 파일 크기에 대해 256TB 제한이 있습니다.
- 32비트 커널 2.4.x 시스템에는 모든 파일 시스템에 대해 2TB 제한이 있습니다.
- 64비트 커널 2.4.x 시스템에는 모든 파일 시스템에 대해 8EB 제한이 있습니다.
- CONFIG_LVD 옵션이 없는 32비트 커널 2.6.x 시스템은 모든 파일 시스템에 대해 2TB 제한이 있습니다.
- CONFIG_LVD 옵션이 있는 32비트 커널 2.6.x 시스템과 모든 64비트 커널 2.6.x 시스템에는 모든 파일 [4]시스템에 대해 8ZB 제한이 있습니다.
Android:Android는 기본 한계를 결정하는 Linux를 기반으로 합니다.
- 내부 저장소:
- 외부 스토리지 슬롯:
- 모든 Android 장치는 FAT16, FAT32, ext2 파일 시스템을 지원해야 합니다.
- Android 2.3 이상은 ext4 파일 시스템을 지원합니다.
- 모든 장치는 내부 스토리지용 HFS Plus(HFS+)를 지원합니다.외부 저장 슬롯이 있는 장치가 없습니다.10.3 이상의 장치에서는 최대 8EB의 파일 크기를 지원하는 Apple 파일 시스템을 실행합니다.
팁
손상된 파일 탐지
MD5 합계(다운로드 디렉토리의 파일에 제공됨)를 확인하여 다운로드가 완료되고 정확한지 확인하는 것이 유용합니다.다운로드한 파일에서 "md5sum" 명령을 실행하여 확인할 수 있습니다.크기를 고려할 때 계산하는 데 시간이 걸릴 수 있습니다.파일 저장 방법에 대한 기술적 세부 사항으로 인해 파일 크기는 파일 시스템에 따라 다르게 보고될 수 있으므로 반드시 신뢰할 수 있는 것은 아닙니다.또한 다운로드 중에 손상이 발생했을 수도 있지만 그럴 가능성은 거의 없습니다.
외장 USB 드라이브 다시 포맷
Wikipedia Dump 파일을 한 컴퓨터에 다운로드하고 외장 USB 플래시 드라이브 또는 하드 드라이브를 사용하여 다른 컴퓨터에 복사하려는 경우 4GB FAT32 파일 크기 제한이 발생합니다.이 제한을 해결하려면 4GB 이상의 USB 드라이브를 더 큰 파일 크기를 지원하는 파일 시스템으로 다시 포맷합니다.Windows 컴퓨터에서만 작동하는 경우 USB 드라이브를 NTFS 파일 시스템으로 다시 포맷합니다.
리눅스 및 유닉스
2GB 제한에 도달하는 것 같으면 wget 버전 1.10 이상, cURL 버전 7.11.1-1 이상 또는 최신 버전의 lynx(-dump 사용)를 사용해 보십시오.또한 다운로드를 재개할 수 있습니다(예: wget -c).
런타임에 wikipedia.org 에서 데이터를 검색하는 것이 어떻습니까?
특정 지점에서 위키백과에서 가져온 정보를 표시하는 소프트웨어를 만들고 있다고 가정합니다.프로그램에서 라이브 버전에서 볼 수 있는 것과 다른 방식으로 정보를 표시하려면 완료된 HTML 대신 입력하는 데 사용되는 Wiki 코드가 필요합니다.
또한 모든 데이터를 가져오려면 가능한 한 가장 효율적인 방법으로 데이터를 전송해야 합니다.wikipedia.org 서버는 위키코드를 HTML로 변환하기 위해 상당한 작업을 해야 합니다. 이는 사용자와 wikipedia.org 서버 모두에게 시간이 소요되므로 모든 페이지를 단순히 탐색하는 것은 방법이 아닙니다.
XML 문서에 한 번에 하나씩 액세스하려면 특수:아티클의 내보내기/제목입니다.
이에 대한 자세한 내용은 스페셜에서 확인하십시오.내보내기.
위키미디어 서버에서 동적으로 로드되는 위키백과의 라이브 미러는 금지됩니다.위키백과를 참조하십시오.거울과 포크.
웹 크롤러를 사용하지 마십시오.
웹 크롤러를 사용하여 대량의 기사를 다운로드하지 마십시오.서버를 공격적으로 크롤링하면 Wikipedia가 크게 느려질 수 있습니다.
차단된 크롤러 전자 메일 샘플
- IP 주소 nnn.nnn.nnn.nnn은 wikipedia.org 주소에서 초당 최대 50페이지를 검색하고 있습니다.요청 사이에 최소한 두 번째 지연이 발생하는 것이 합리적입니다.그 설정을 존중해 주세요.이 값을 조금 초과해야 하는 경우에는 stats.wikimedia.org/EN/ChartsWikipediaZZ.htm 의 사이트 로드 그래프에 표시된 가장 사용량이 적은 시간에만 이 작업을 수행하십시오. 초당 한 번의 검색으로 전체 사이트를 탐색하려면 몇 주가 걸립니다.원본 IP가 이제 차단되었거나 곧 차단될 예정입니다.차단 해제를 원하시면 연락주시기 바랍니다.이 문제를 회피하려고 하지 마십시오. 전체 IP 범위를 차단할 뿐입니다.
- 컨텐츠를 보다 효율적으로 가져오는 방법에 대한 정보를 원하시면 MySQL에 로드하고 편리한 속도로 로컬로 이동할 수 있는 주간 데이터베이스 덤프를 포함하여 다양한 방법을 제공합니다.또한 인프라를 구축한 후 원하는 시간에 원하는 대로 이를 수행할 수 있는 툴도 제공됩니다.
- 이메일 답변 대신 irc.libera.chat의 #mediawiki를 방문하여 당사 팀과 옵션에 대해 논의하는 것이 좋습니다.
현재 데이터베이스 덤프에서 SQL 쿼리를 수행하는 중
사용하지 않도록 설정된 Special:를 대체하여 Quarry를 사용하여 현재 데이터베이스 덤프에서 SQL 쿼리를 수행할 수 있습니다.질문ql 페이지).
데이터베이스 스키마
SQL 스키마
참고 항목: mw: 수동:데이터베이스 레이아웃
MediaWiki 데이터베이스를 초기화하는 데 사용되는 sql 파일은 여기에서 찾을 수 있습니다.
XML 스키마
각 덤프의 XML 스키마는 파일의 맨 위에 정의되며 MediaWiki 내보내기 도움말 페이지에서 설명합니다.
스크립트에서 사용하기 위해 덤프를 구문 분석하는 데 도움이 됩니다.
- 위키백과:컴퓨터 헬프 데스크/ParseMediaWikiDump는 Perl Parse를 설명합니다.XML 덤프를 구문 분석할 수 있는 MediaWikiDump 라이브러리입니다.
- 위키백과 사전 처리기(wikiprep.pl )는 원시 XML 덤프를 사전 처리하고 링크 테이블, 범주 계층 구조를 작성하고 각 기사에 대한 앵커 텍스트를 수집하는 Perl 스크립트입니다.
- 위키백과 SQL 덤프 파서는 입니다.MySQL 데이터베이스를 사용할 필요 없이 MySQL 덤프를 읽기 위한 NET 라이브러리
- WikiDump Parser – a.데이터베이스 덤프를 구문 분석하는 NET Core 라이브러리입니다.
- Dictionary Builder는 XML 덤프를 구문 분석하고 파일의 항목을 추출할 수 있는 Rust 프로그램입니다.
- Wikipedia 덤프 구문 분석 스크립트 » – Wikipedia 덤프에서 sql.gz 파일을 구문 분석하는 Python 기반 스크립트.
- parse-mediawiki-sql – 최소한의 메모리 할당으로 SQL 덤프 파일을 빠르게 구문 분석할 수 있는 Rust 라이브러리
- gitlab.com/tozd/go/mediawiki – Wikipedia 및 Wikidata 덤프를 처리하기 위한 유틸리티를 제공하는 Go 패키지입니다.
Wikipedia 현재 데이터베이스 덤프에서 Hadoop MapReduce 실행
현재 데이터베이스 덤프에서 Hadoop MapReduce 쿼리를 수행할 수 있지만 각 <page> </page>를 단일 매퍼 입력으로 만들려면 InputRecordFormat의 확장이 필요합니다.jobControl, mapper, reducer 및 XmlInputRecordFormat의 작업 세트는 Wikipedia의 Hadoop에서 사용할 수 있습니다.
MySQL로 덤프 가져오기 도움말
참조:
Wikimedia Enterprise HTML 덤프
Wikimedia Enterprise의 일부로 HTML 덤프의 일부 미러가 공개됩니다.덤프는 특정 네임스페이스 및 Wiki 집합에 대해 생성된 다음 공용 다운로드에 사용할 수 있습니다.각 덤프 출력 파일은 tar.gz 아카이브로 구성됩니다. tar.gz 아카이브는 압축이 해제되고 tar가 해제되면 json 형식으로 아티클당 한 줄씩 파일을 포함합니다.이것은 현재 실험적인 서비스입니다.
미러링 또는 CD 배포를 위한 정적 HTML 트리 덤프
MediaWiki 1.5에는 라이브 위키에서 사용되는 것과 동일한 파서를 사용하여 HTML로 렌더링하는 위키를 덤프하는 루틴이 포함되어 있습니다.다음 페이지에 나와 있듯이 이러한 덤프 중 하나를 수정되지 않은 상태로 웹에 게시하면 상표권 위반이 됩니다.인트라넷 또는 데스크톱 설치에서 개인적으로 볼 수 있습니다.
- 기존 웹 사이트를 Mediawiki로 초안하여 HTML 형식으로 덤프하려면 사용자가 mw2html을 사용해 보십시오.코넬리.
- 덤프에서 정적 HTML 도구를 개발하는 데 도움이 되고 싶다면 개발자의 메일링 목록에 메모를 남겨주시기 바랍니다.
- 이제 정적 HTML 덤프를 사용할 수 있습니다.
참고 항목:
- mw: 대체 파서는 정적 HTML 덤프를 가져오기 위한 일부 작동하지 않는 옵션을 나열합니다.
- 위키백과:스냅샷
- 위키백과:TomeRaider 데이터베이스
키윅스

Kiwix는 지금까지 위키백과의 가장 큰 오프라인 배포판입니다.오프라인 리더로서 Kiwix는 zim 파일인 컨텐츠 라이브러리와 함께 작업합니다. 사용자는 TED Talks, PhET Interactive Maths & Physics 시뮬레이션, Project Gutenberg 등의 Wikimedia 프로젝트(모든 언어로 된 Wikipedia, Wiktionary, Wikipedia 등)를 선택하고 선택할 수 있습니다.
무료 및 오픈 소스이며 현재 다음 사이트에서 다운로드할 수 있습니다.
또한 Chrome & Firefox 브라우저, 서버 솔루션 등을 위한 확장 기능도 제공합니다.전체 Kiwix 포트폴리오는 공식 웹사이트를 참조하십시오.
Aard 사전 / Aard
Aard Dictionary는 오프라인 위키백과 리더입니다.이미지 없음.Windows, Mac, Linux, Android, Maemo용 크로스 플랫폼.Nook 및 Sony PRS-T1 전자책 리더에서 실행됩니다.
그것은 또한 후계자 Aard 2를 가지고 있습니다.
록박스용 위키뷰어
록박스용 위키뷰어 플러그인을 사용하면 많은 록박스 장치에서 변환된 위키백과 덤프를 볼 수 있습니다.http://www.rockbox.org/tracker/4755 에서 제공하는 지침을 사용하여 Wiki 덤프를 사용자 정의 빌드 및 변환해야 합니다.변환은 파일을 다시 압축하여 1GB 파일과 인덱스 파일로 분할합니다. 인덱스 파일은 모두 장치 또는 마이크로소프트 SD 카드의 동일한 폴더에 있어야 합니다.
오래된 쓰레기장
- 위키미디어에 의해 만들어진 위키백과의 정적 버전: http://static.wikipedia.org/ 2013년 2월 11일 - 이것은 지금 분명히 오프라인 상태입니다.내용이 없습니다.
- Wiki2static(2005년 10월[update] 현재 사이트 다운)은 사용자가 설치한 실험 프로그램입니다.이미지, 검색 기능 및 알파벳 색인을 포함한 HTML 덤프를 생성하는 Alfio입니다.연결된 사이트의 실험 덤프에서 스크립트 자체를 다운로드할 수 있습니다.예를 들어 2004년 4월 24일 영어 위키피디아, 2004년 5월 1일 단순 위키피디아(이전 데이터베이스) 형식 및 2004년 7월 24일 단순 위키피디아, 2004년 7월 24일 위키피디아 프랑시스 27일자(새로운 형식)의 사본을 생성하는 데 사용되었습니다.BozMo는 버전을 사용하여 고정 참조(2017년 10월 현재 사이트 다운)에서 정기적인 정적 복사본을 생성합니다.
로컬 XML 데이터베이스 덤프에서 동적 HTML 생성
데이터베이스 덤프 파일을 많은 정적 HTML로 변환하는 대신 동적 HTML 생성기를 사용할 수도 있습니다.Wiki 페이지를 검색하는 것은 Wiki 사이트를 검색하는 것과 동일하지만 브라우저의 요청에 따라 로컬 덤프 파일에서 내용을 가져와 변환합니다.
XOWA
XOWA는 위키백과를 컴퓨터에 다운로드하는 것을 도와주는 무료 오픈 소스 응용 프로그램입니다.인터넷 연결 없이 모든 위키백과에 오프라인으로 액세스할 수 있습니다!현재 개발 베타 단계에 있지만 기능적입니다.여기에서 다운로드할 수 있습니다.
특징
- 인터넷에 연결되지 않은 Wikipedia의 모든 기사를 표시합니다.
- 영어 위키백과의 완전한 최신 버전을 다운로드합니다.
- 전체 HTML 형식으로 520만 개 이상의 아티클을 표시합니다.
- 아티클 내의 이미지를 표시합니다.오프라인 이미지 데이터베이스를 사용하여 370만 개 이상의 이미지에 액세스할 수 있습니다.
- Wikipedia, Wikiptionary, Wikipedia, Wikipote, Wikipage를 포함한 모든 Wikipedia Wikipedia Wikipedia Wikipedia와 함께 작동합니다(일부 비 wmf 덤프도 있음).
- 프랑스어 위키백과, 독일어 위키백과, 네덜란드어 위키백과 등 영어 이외의 위키와 연동됩니다.
- Wikidata, Wikimedia Commons, Wikispecies 또는 기타 MediaWiki에서 생성된 덤프와 같은 다른 전문 위키와 함께 작동합니다.
- 다음을 포함한 660개 이상의 기타 Wiki 설정:
- 영어 위키사전
- 영어 위키 소스
- 영어 위키 인용문
- 영어 위키백과
- 영어 이외의 위키(예: 프랑스어 위키백과, 독일어 위키백과, 네덜란드어 위키백과)
- 위키데이터
- 위키미디어 커먼즈
- 위키종
- 그리고 더 많은 것들!
- Wikimedia의 데이터베이스 백업을 사용하여 원할 때마다 Wiki를 업데이트합니다.
- 오프라인 Wiki 간을 탐색합니다."Wiktionary에서 이 단어 찾기"를 누른 후 Wiktionary에서 페이지를 즉시 확인합니다.
- 기사를 편집하여 반달리즘 또는 오류를 제거합니다.
- 다른 시스템으로 이동할 수 있도록 플래시 메모리 카드에 설치합니다.
- Windows, Linux 및 Mac OS X에서 실행됩니다.
- 모든 Wiki 페이지의 HTML을 봅니다.
- Wikipedia와 같은 검색 상자를 사용하여 제목별로 페이지를 검색합니다.
- 특수: 를 사용하여 알파벳 순으로 페이지를 찾습니다.모든 페이지.
- 페이지에서 단어를 찾습니다.
- 본 페이지의 기록에 액세스합니다.
- 즐겨찾기 페이지를 즐겨찾기에 추가합니다.
- 요청 시 이미지 및 기타 파일 다운로드(인터넷에 연결된 경우)
- 5분 이내에 간단한 위키백과를 설정합니다.
- 키보드 단축키부터 HTML 레이아웃, 내부 옵션에 이르기까지 다양한 수준에서 사용자 정의 가능
주요 기능
- 매우 빠른 검색
- 키워드(실제 제목 단어) 기반 검색
- 검색은 여러 개의 가능한 문서를 생성합니다. 그 중에서 선택할 수 있습니다.
- 수학 공식을 위한 LaTeX 기반 렌더링
- 최소 공간 요구 사항: 원본 .bz2 파일과 인덱스
- MySQL에 덤프를 로드하는 것에 비해 매우 빠른 설치(몇 시간 만에)
Wiki 필터
WikiFilter는 Wiki 사이트를 방문하지 않고도 100개 이상의 덤프 파일을 검색할 수 있는 프로그램입니다.
WikiFilter 시스템 요구 사항
- 최신 Windows 버전(Windows XP는 정상이며 Windows 98 및 ME는 NTFS를 지원하지 않기 때문에 작동하지 않음)
- 상당한 양의 하드 드라이브 공간(설치에는 약 12~15GB가 필요하며, 이후에는 약 10GB만 필요함)
WikiFilter 설정 방법
- 영어 위키백과 덤프와 같은 위키백과 데이터베이스 덤프 파일 다운로드를 시작합니다.GetRight와 같은 다운로드 관리자를 사용하여 다운로드 중에 컴퓨터가 손상되거나 종료된 경우에도 파일을 다시 다운로드할 수 있도록 하는 것이 가장 좋습니다.
- [2]에서 XAMPPLITE를 다운로드합니다(작동하려면 1.5.0 버전을 받아야 합니다).파일 이름이 .exe로 끝나는 파일을 선택해야 합니다.
- C:\XAMPPLITE에 설치/해동합니다.
- 다음 사이트에서 WikiFilter 2.3을 다운로드하십시오. http://sourceforge.net/projects/wikifilter다운로드할 파일을 선택할 수 있으므로 2.3 버전을 선택해야 합니다.C:\로 추출합니다.Wikifilter.
- WikiFilter.so 을 C:\XAMPPLITE\apache\modules 폴더에 복사합니다.
- C:\xamplite\apache\conf\httpd.conf 파일을 편집하고 다음 행을 추가합니다.
- LoadModule WikiFilter_module "C:/XAMPPLITE/apache/modules/WikiFilter.so "
- Wikipedia 파일 다운로드가 완료되면 C:\로 압축을 풉니다.WiKIFilter 폴더. (WinRAR http://www.rarlab.com/ 데모 버전을 사용했습니다 – BitZipper http://www.bitzipper.com/winrar.html 도 잘 작동합니다.)
- WikiFilter(WikiIndex.exe)를 실행하고 C:\로 이동합니다.WIKIFilter 폴더에서 XML 파일을 창으로 끌어다 놓고 Load, Start를 차례로 클릭합니다.
- 작업이 완료되면 창을 종료하고 C:\XAMPPLITE 폴더로 이동합니다.setup_xampp.bat 파일을 실행하여 xampp를 구성합니다.
- 작업을 마치면 Xampp-Control.exe 파일을 실행하고 Apache를 시작합니다.
- http://localhost/wiki를 찾아 작동하는지 확인합니다.
- 작동하지 않으면 포럼을 참조하십시오.
WikiTaxi(Windows용)
WikiTaxi는 미디어위키 형식의 위키를 위한 오프라인 리더입니다.사용자는 인터넷에 연결하지 않고도 위키백과, 위키 인용문 또는 위키뉴스와 같은 인기 있는 위키를 검색하고 검색할 수 있습니다.WikiTaxi는 영어, 독일어, 터키어 등 다른 언어와 잘 작동하지만 오른쪽에서 왼쪽으로 언어 스크립트에 문제가 있습니다.WikiTaxi는 이미지를 표시하지 않습니다.
WikiTaxi 시스템 요구 사항
- Windows 95 이상에서 시작하는 모든 Windows 버전.대용량 위키에 대한 대용량 파일 지원(exFAT 파일 시스템이 필요한 4GB 이상)(이 문서 작성 시점의 영어만 해당)
- 또한 Linux with Wine에서도 작동합니다.
- WikiTaxi 리더의 경우 최소 16MB RAM, 임포터의 경우 128MB 권장(속도에 대한 추가 정보).
- WikiTaxi 데이터베이스의 저장소 공간입니다.영어 위키백과의 경우 2011년 4월 5일 기준으로 약 11.7 GiB, 독일어의 경우 2 GB가 필요하며 다른 위키백과의 경우 더 적습니다.이러한 수치는 미래에 증가할 가능성이 높습니다.
WikiTaxi 사용법
- WikiTaxi를 다운로드하여 빈 폴더에 압축을 풉니다.달리 설치할 필요가 없습니다.
- 즐겨찾는 Wiki의 XML 데이터베이스 덤프(*.xml.bz2)를 다운로드합니다.
- WikiTaxi_Importer를 실행합니다.exe를 사용하여 데이터베이스 덤프를 WikiTaxi 데이터베이스로 가져옵니다.임포터는 덤프가 가져올 때 압축을 풀 수 있도록 주의를 기울이므로 드라이브 공간을 절약하고 압축을 풀지 마십시오.
- 가져오기가 완료되면 WikiTaxi.exe를 시작하고 생성된 데이터베이스 파일을 엽니다.검색, 검색 및 읽기를 즉시 시작할 수 있습니다.
- 가져오기가 성공하면 XML 덤프 파일이 더 이상 필요하지 않으며 디스크 공간을 회수하기 위해 삭제할 수 있습니다.
- WikiTaxi용 오프라인 Wiki를 업데이트하려면 최신 데이터베이스 덤프를 다운로드하여 가져옵니다.
WikiTaxi 읽기의 경우 두 개의 파일만 필요합니다.WikiTaxi.exe 및 .taxi 데이터베이스.저장 장치(메모리 스틱 또는 메모리 카드)에 복사하거나 CD 또는 DVD에 굽고 Wikipedia를 어디서나 휴대할 수 있습니다!
BzReader 및 MzReader(Windows용)
BzReader는 빠른 검색 기능을 갖춘 오프라인 위키백과 리더입니다.그러면 Wiki 텍스트가 HTML로 렌더링되고 데이터베이스의 압축을 풀 필요가 없습니다.Microsoft가 필요합니다.NET 프레임워크 2.0.
Mun206의 MzReader는 BzReader와 함께 작동하며, 모노북 스킨의 해석을 포함하여 위키코드를 더 나은 HTML로 렌더링할 수 있습니다.그것은 페이지를 더 읽기 쉽게 만드는 것을 목표로 합니다.다운로드와 함께 제공되지 않는 Microsoft Visual Basic 6.0 런타임이 필요합니다.또한 다운로드와 함께 패키지로 제공되는 Inet Control 및 Internet Control(Internet Explorer 6 ActiveX)이 필요합니다.
EPWING
일본에서 일반적이고 오래된 일본 산업 표준(JIS)인 EPWING 사전 형식의 오프라인 위키백과 데이터베이스는 판독기가 있는 모든 시스템에서 섬네일 이미지와 일부 렌더링 제한이 있는 테이블을 포함하여 읽을 수 있습니다(Bookends).Windows(Mobile 포함), Mac OS X, iOS(iPhone, iPad), Android, Unix-Linux-BSD, DOS 및 Java 기반 브라우저 응용 프로그램(EPWING Viewer)용 무료 및 상업용 리더가 많이 있습니다.
미러 빌딩
WP-Mirror
- 중요: WP-mirror는 2014년 이후 지원되지 않고 있으며, 실제로 작동하는지 커뮤니티 검증이 필요합니다.대화 페이지를 참조하십시오.
WP-MIROR은 원하는 WMF Wiki 세트를 미러링하기 위한 무료 유틸리티입니다.즉, 사용자가 로컬로 검색할 수 있는 Wiki 팜을 만듭니다.WP-MIROR은 원래 크기의 미디어 파일로 완전한 미러를 구축합니다.WP-MIROR을 다운로드할 수 있습니다.
참고 항목
- DB pedia
- WikiReader
- mw:도움말:내보내기
- m:도움말:페이지 다운로드
- m:도움말:가져오기
- 메타:데이터 덤프/기타 도구(예: 추출기 및 "덤프 리더")
- 위키백과:위키백과 CD 선택
- 위키백과:위키백과의 규모
- 메타:Meta:Mirroring Wikimedia 프로젝트 XML 덤프
- 메타:정적 버전 도구
- 위키미디어 오프라인 프로젝트
레퍼런스
- ^ 위키백과 참조:위키백과 내용 재사용 » GFDL과의 호환성에 대한 자세한 내용을 보려면 GNU 자유 문서 사용 허가서에 따라 텍스트를 재사용하십시오.
- ^ "Benchmarked: What's the Best File Compression Format?". How To Geek. How-To Geek, LLC. Retrieved 18 January 2017.
- ^ "Zip and unzip files". Microsoft. Microsoft. Retrieved 18 January 2017.
- ^ Linux에서 대용량 파일 지원
- ^ Android 2.2 이전 버전에서는 YAFS 파일 시스템을 사용했습니다. 2010년 12월 14일.
외부 링크
- Wikimedia 다운로드.
- 도마는 로그를 방문합니다(이것을 읽으세요!).또한 인터넷 보관소의 오래된 데이터.
- Wikimedia 메일링 목록은 보관 파일을 나열합니다.
- 사용자: Emijrp/Wikipedia Archive.사용 가능한 모든 Wiki[mp]edia 데이터를 찾고 사람들이 이 데이터를 다운로드하여 전 세계에 저장하도록 장려하기 위한 노력입니다.
- 모든 Wikipedia 7z 덤프를 다운로드하는 스크립트입니다.