위키백과:AutoWikiBrowser/데이터베이스 스캐너

Wikipedia:
장: 코어 · 데이터베이스 스캐너 · 찾기 및 바꾸기 · 정규식 · 일반 수정 사항
스크린샷 예제 표시
  • 시작 - 다른 옵션 상자에 설정된 설정을 기준으로 선택한 데이터베이스 덤프 검색
  • 일시 중지 -
  • 재설정 -

매개변수

데이터베이스

  • 데이터베이스 파일 - 찾아보기 단추를 사용하여 시스템에서 데이터베이스 덤프(XML 형식, XML 파일)를 다운로드한 위치를 지정하십시오.(여기서부터)
    • 다음은 지정된 XML 파일의 헤더에서 자동으로 읽힌다.
      • 사이트 이름 — 예: "Wikipedia".
      • 베이스 — 사이트의 홈페이지.예: "https://en.wikipedia.org/wiki/Main_Page".
      • 생성기 - 덤프 파일을 생성한 소프트웨어 버전.예: "MediaWiki 1.39.0-wmf.4 (94515a4)"
      • 케이스 — 사이트의 케이스 구성."첫 글자"의 예.

네임스페이스

스크린샷 예제 표시

검색할 네임스페이스를 선택하십시오.체크 표시가 없으면 모든 네임스페이스에 대한 검색이 수행된다.참고: 덤프 파일에 Wiki에서 사용할 수 있는 모든 네임스페이스에 대한 데이터가 포함되어 있지 않을 수 있음.

제목 일치

스크린샷 예제 표시
  • 제목에는 텍스트가 포함된 제목 또는 Regex 옵션이 사용된 경우 텍스트와 일치하는 제목으로 검색 제한
  • 제목에 텍스트가 포함되지 않음 — 검색 제목을 텍스트가 포함되지 않는 제목으로 제한하거나, Regex 옵션을 사용하는 경우 텍스트와 일치하지 않는 항목으로 제한.
  • Regex - AWB Regex 도움말
  • 대소문자 구분 - 텍스트/매칭 패턴이 대소문자를 구분해야 하는지 여부.

수정기호

스크린샷 예제 표시

마지막 편집 날짜

  • 검색 날짜 — 범위 사이에 수정기호(마지막 편집된) 날짜가 있는 페이지로 검색을 제한하려면 선택하십시오.
    • 시작 - 범위의 시작 날짜.
    • 받는 사람 - 범위 종료 날짜.

텍스트

스크린샷 예제 표시

텍스트 검색

  • 포함 - %%title%%, %%key%%, %%titlename% 및 %%namespace%%%가 검색이 다시 설정되지 않은 경우 작동함
  • 포함 안 함 — %%title%%, %%key%%, %%titlename% 및 %%namespace%%가 검색이 다시 설정되지 않은 경우 작동함
  • Regex - AWB Regex 도움말
  • 단일선 - 새로운 선과 다른 모든 문자와 일치하도록 "."의 의미를 변경
  • 대소문자 구분 - 대소문자 구분 가능
  • 멀티라인 — 전체 문자열의 의미가 아닌 모든 행의 시작과 끝을 각각 나타내도록 "^" 및 "$"의 의미를 변경
  • <!-- comments --> 무시 - —

페이지 텍스트 속성

  • 문자 -
  • 링크 -
  • 단어 -

검색 중

스크린샷 예제 표시

AWB별

  • 없음 - 데이터베이스 덤프의 모든 페이지(다른 검색 필터 기준과 일치하는)만 나열함
  • 제목 AWB가 강조함
  • AWB가 단순화할 수 있는 링크 있음 - DB 덤프에서 단순화할 수 있는 링크를 검색할 수 있음(예:
  • [[Dog Dog]와 같은 링크에서 [Dog]로 단순화
  • [[Dog Dog]와 같은 링크에서 [Dog]로 단순화
  • AWB가 해결할 불량 링크 있음
  • HTML 항목 있음
  • 단면오류
  • 글머리 기호 해제 링크 - 글머리 기호가 지정되지 않은 외부 링크가 있는 페이지를 데이터베이스 덤프에서 검색
  • 타이포 - RegexTypeoFix를 사용할 때 AWB가 사용할 수 있는 것과 동일한 방법으로 데이터베이스 덤프에서 맞춤법 오류를 검색할 수 있음
  • 누락된 {{defaultsort}}

기타 옵션

  • 시작 페이지 - 입력한 페이지 이름에서 시작.지정된 페이지가 발견될 때까지 덤프를 스캔한 다음 다른 검색 설정을 사용하여 정상적으로 스캔을 계속한다.페이지가 발견될 때까지 검색하는 것이 전체 설정을 사용하여 검색하는 것보다 빠르지만, 페이지까지 덤프 파일을 읽어야 하므로, 여전히 시간이 걸린다(시스템의 CPU 속도에 따라 XML 데이터의 기가바이트당 약 30초).
  • 결과 제한 위치 - 데이터베이스 덤프에서 표시할 결과 수를 제한하십시오.한계에 도달하면 스캔이 일찍 중지된다.

제한

스크린샷 예제 표시

편집 제한(반미 보호, 완전 보호 등)이 있는 페이지를 검색할 수 있도록 허용.

도움

스크린샷 예제 표시

관련 덤프 도움말 페이지에 대한 일부 URL 링크

출력

퍼포먼스

데이터베이스 스캐너의 속도는 주로 실행되는 시스템의 두 가지 요인에 따라 달라진다.

  1. CPU 단일 스레드 성능
  2. 하드 디스크 읽기 속도.

성능 예:Intel Core i5 520M 모바일 CPU: 최대 CPU 사용량 및 최대 30MB/s 디스크 순차 읽기

따라서 합리적인 2010년 이상의 CPU로 AWB는 데이터베이스 XML 덤프 파일을 약 30MB/s로 읽고 CPU를 제한한다.따라서 네트워크 스토리지 영역에서 데이터베이스 파일을 읽는 경우, 네트워크 전송 속도가 이 속도보다 낮으면 데이터베이스 검색 성능이 저하된다.로컬 디스크에서 데이터베이스 XML 덤프 파일을 읽을 때 최신 기계식 하드 디스크는 일반적으로 30MB/s를 훨씬 초과하는 순차 읽기 속도를 제공할 수 있으므로 데이터베이스 검색 속도는 CPU로 제한된다.

데이터베이스 스캐너는 다중 스레드: 데이터베이스 스캐너는 디스크에서 데이터베이스 XML 파일을 읽기 위해 메인 스레드를 사용하고 사용자의 검색 기준에 따라 기사를 검색하기 위해 추가 스레드를 사용한다. 전체 스레드는 CPU 코어 수를 동일시한다(예: 하이퍼스레딩이 없는 쿼드 코어 CPU의 경우 1개의 메인 스레드 및 3개의 보조 스레드).메인 스레드는 XML 읽기를 일시 중지하고 보조 스레드가 너무 뒤처질 경우 기사 검색에 기여한다.검색 기준에 따라 기사를 검색하는 것이 XML 파일에서 기사를 읽는 것보다 느릴 경우, 일반적으로 그렇다.이러한 현상이 발생하는 Core i520M의 예에서 데이터베이스 스캐너 성능은 모든 스레드가 기사를 검색할 수 있는 속도로 제한되므로 전반적인 성능은 CPU의 멀티스레드 성능으로 제한된다.

더 많은 코어 및/또는 더 나은 성능을 가진 CPU는 데이터베이스 스캐너 성능을 향상시킬 것이다.

결과

  • 필터 - DB Dump에서 찾은 결과를 필터링할 수 있다.일반 AWB 목록 필터에 대한 옵션은 동일함
  • 저장 - 목록을 텍스트 문서로 저장
  • 지우기 - 페이지 목록 지우기

변환

  • 제목 추가 간격 - 매 x줄마다 제목 추가
  • 알파벳 문자 표제 -
  • # — 각 페이지 이름 앞에 #로 목록을 만들고, 위키 페이지에 배치되면 줄에 번호를 매긴다.
  • * — 각 페이지 이름 앞에 **로 목록을 작성하고, 위키 페이지에 배치되면 줄에 글머리표를 붙인다.
  • A B C... 제목 — 해당 문자로 시작하는 페이지 이름에 제목 == 제목 ==를 추가함
  • 만들기 - 목록 만들기
  • 복사 - 목록을 사용자 클립보드로 복사하여 다른 문서에 붙여넣기
  • 저장 - 목록을 텍스트 문서로 저장
  • 지우기 - 페이지 목록에서 모든 페이지 제거