포커스 크롤러
Focused crawler집중 크롤러는 크롤 프런티어를 신중하게 우선시하고 하이퍼링크 탐색 프로세스를 관리하여 특정 속성을 만족시키는 웹 페이지를 수집하는 웹 크롤러다.[1] 일부 술어는 단순하고 결정론적 및 표면적 특성에 기초할 수 있다. 예를 들어 크롤러의 임무는 .jp 도메인에서만 페이지를 기어오는 것일 수 있다. 다른 술어는 "야구에 관한 크롤 페이지" 또는 "큰 페이지 랭크가 있는 크롤 페이지"와 같이 더 부드럽거나 비교될 수 있다. 중요한 페이지 속성은 주제와 관련이 있어 '주제 크롤러'로 이어진다. 예를 들어, 태양열 발전, 돼지 독감 또는 논란과[2] 같은 더 추상적인 개념에 대한 페이지를 수집하기 위해 주제 크롤러를 배치하는 동시에 다른 주제에 대한 페이지를 가져오는 데 소비되는 자원을 최소화할 수 있다. 크롤 프런티어 관리는 초점화된 크롤러가 사용하는 유일한 장치가 아닐 수 있으며, 웹 디렉토리, 웹 텍스트 색인, 백링크 또는 기타 웹 아티팩트를 사용할 수 있다.
집중 크롤러는 페이지를 실제로 다운로드하기 전에 방문하지 않은 페이지가 관련될 확률을 예측해야 한다.[3] 가능한 예측 변수는 링크의 앵커 텍스트로, 이것은 핑커튼이[4] 웹 초기에 개발한 크롤러에서 취한 접근법이었다. 국부적 기어가는 것은 필리포 멘체르[5][6] 차크라바르티 등이 '초점 크롤러'라는 용어를 처음 만들어내고 텍스트[7] 분류기를 사용해 기어가는 프론티어의 우선순위를 정했다. Andrew McCallum과 공동 저자는 크롤러에 초점을 맞추기 위해 강화 학습을[8][9] 사용하기도 했다. Davidii 등에서는 분류자를 교육하기 위해 관련 페이지와 텍스트 내용까지 이어지는 상황[10] 그래프를 추적했다. 온라인 강화 학습의 형태는 DOM 트리에서 추출한 특징과 페이지 연결 텍스트와 함께 사용되어 크롤을 안내하는 분류자를[11] 지속적으로 양성하고 있다. 국소적 기어가는 알고리즘에 대한 리뷰에서 멘처 등은 그러한 간단한 전략이 짧은 크롤에 매우 효과적이지만, 강화 학습과 진화적응과 같은 보다 정교한 기술은 더 긴 크롤에 비해 최상의 성능을 제공할 수 있다는 것을 보여준다.[12] 웹 문서를 분류하기 위해서는 공간 정보가 중요하다는 것이 밝혀졌다.[13]
또 다른 유형의 집중 크롤러는 의미 중심 크롤러로, 도메인 온톨로지를 사용하여 주제 지도를 나타내고 웹 페이지를 선택과 분류 목적을 위한 관련 온톨로지 개념과 연결한다.[14] 또한 온톨로지는 기어가는 과정에서 자동으로 업데이트될 수 있다. 동 등은 웹페이지 탐색 시 온톨로지 개념의 내용을 업데이트하기 위해 서포트 벡터 머신을 이용한 온톨로지 학습 기반 크롤러를 소개했다.[15]
크롤러는 주제 이외의 페이지 속성에도 초점을 맞춘다. 조씨 등은 다양한 크롤 우선 순위 정책과 그것들이 가져온 페이지의 링크 인기에 미치는 영향에 대해 연구한다.[16] Najork와 Weiner는[17] 인기 있는 종자 페이지에서 시작하여 넓이 먼저 기어가면 크롤 초기에 큰 페이지 랭크 페이지를 수집하게 된다는 것을 보여준다. 오래된(잘 유지되지 않는) 페이지의 검출과 관련된 개선사항은 아이론 외 연구진에 의해 보고되었다.[18] 일종의 의미 중심 크롤러의 일종으로, 강화 학습의 개념을 활용하는 것이 Meusel 외 연구진에 의해 소개되었다.[19] RDFa, Microformats, Microdata와 같은 마크업 언어로 페이지를 효율적으로 탐색하기 위해 도적단 기반 선택 전략과 함께 온라인 기반 분류 알고리즘을 사용한다.
초점 크롤러의 성능은 검색되는 특정 주제에 있는 링크의 풍부함에 따라 달라지며, 초점 크롤러는 보통 출발점을 제공하기 위해 일반적인 웹 검색 엔진에 의존한다. Davison은[20] 웹 링크와 왜 집중된 기어가 광범위한 주제에서 성공하는지를 설명하는 텍스트에 대한 연구를 발표했다; 유사한 연구들은 Chakrabarti 외 연구자들에 의해 발표되었다.[21] 종자 선택은 집중적인 크롤러에게 중요할 수 있으며 크롤링 효율에 상당한 영향을 미칠 수 있다.[22] 화이트리스트 전략은 고품질 시드 URL 목록에서 포커스 크롤을 시작하고 탐색 범위를 이러한 URL의 도메인으로 제한하는 것이다. 이러한 고품질 씨앗은 오랜 기간 동안 일반 웹 탐색에 걸쳐 축적된 URL 후보 목록을 기반으로 선택해야 한다. 화이트리스트는 작성된 후 주기적으로 업데이트해야 한다.
참조
- ^ 데이터베이스 시스템 백과사전에서 포커스 웹 크롤링(Focused Web Growing)을 하는 Soumen Chakrabarti.
- ^ 논란이 되는 주제
- ^ 포커스 웹 크롤러의 성능 향상[1], 소티리스 바타키스, 유로피데스 G. M. 페트라키스, 에반게로스 밀리오스, 2012-04-09
- ^ 핑커튼, B. (1994년) 사람들이 원하는 것 찾기: WebCrawler에 대한 경험. 스위스 제네바에서 열린 제1차 월드 와이드 웹 컨퍼런스 진행 중
- ^ Menczer, F. (1997) ARACHNID: 정보 검색을 위해 휴리스틱 지역을 선택하는 적응 검색 에이전트 웨이백 머신에 2012-12-21 보관. D. Fisher, ed, 제14회 기계학습 국제회의의 진행(ICML97). 모건 카우프만
- ^ Menczer, F., Belew, R.K. (1998년) 분산 텍스트 환경의 적응형 정보 에이전트 웨이백 시스템에 2012-12-21 보관. K. Sycara와 M에서. 울드리지 (eds) 제2차 국제 자치 대리점 회의의 진행 (에이전트 '98. ACM Press.
- ^ 집중적인 탐색: 주제별 웹 자원 발견, 수멘 차크라바티, 마틴 판 덴 버그와 바이런 돔, 1999년 WWW.
- ^ 도메인별 검색 엔진 구축에 대한 머신러닝 접근방식, Andrew McCallum, Kamal Nigam, Jason Rennie, and Kristie Seymore, IJCAI 1999.
- ^ 웹을 효율적으로 스파이더에 대한 강화 학습 사용, ICML 1999의 Jason Renie와 Andrew McCallum.
- ^ 엔스티니, 엠, 코에체, 에프, 로렌스, 자일스, C. L, 고리, M. (2000) 컨텍스트 그래프를 사용한 집중 탐색 2008-03-07 웨이백 머신에 보관. 제26회 초대형 데이터베이스 국제회의(VLDB) 절차에서 이집트 카이로의 527-534페이지.
- ^ 온라인 관련 피드백, Soumen Chakrabarti, Kunal Punera, 2002년 WWW의 Mallela Subramanyam을 통해 가속화된 집중적 기어가기.
- ^ Menczer, F, Pant, G, Srinivasan, P. (2004) 주제 웹 크롤러: 적응 알고리즘 평가. ACM Trans. 인터넷 기술 4(4): 378–419.
- ^ 시각적 정보를 이용한 웹페이지의 공통 영역 인식: 페이지 분류의 가능한 적용 가능, Milos Kovacevic, Melko Jori, Veljko Milutinovic, Data Mining, 2002. ICDM 2003.
- ^ 동, H, 후세인, F.K. 장, E. 의미 중심 크롤러의 기술 상태. Computing Science and its Applications – ICCSA 2009. 한국, 서울, Springer-Verlag (2009년 7월) 페이지 910-924
- ^ 동, H, 후세인, F.K. : 반 감독 온톨로지 학습 기반 크롤러. 동시성과 연산: 연습과 경험. 25 (12) (2013년 8월) 페이지 1623-1812
- ^ 조정호, 헥터 가르시아-몰리나, 로렌스 페이지: URL 오더링(Efficient Trawing Through Through Urline Ordering) 컴퓨터 네트워크 30(1-7): 161-172(1998)
- ^ 마크 나조크, 자넷 L. Wiener: 너비 우선 기어가면 고급 페이지가 나온다. WWW 2001: 114-118
- ^ Nadav Eiron, Kevin S. McCurley, John A. 톰린: 웹 프런티어 순위 매기기. WW 2004: 309-318.
- ^ Meuel R, Mika P, Blanco R. (2014) 구조화된 데이터를 위한 집중 탐색. 정보 및 지식 관리에 관한 ACM 국제 회의, 1039-1048페이지.
- ^ 브라이언 D. 데이비슨: 웹의 국부적 지역성. SIGIR 2000: 272-279.
- ^ 수멘 차크라바티, 무쿨조시, 쿠날 푸네라, 데이비드 M. 페녹: 웹 상의 광범위한 주제 구조. WW 2002: 251-262.
- ^ 지안 우, 프라데프 테레고우다, 후안 파블로 페르난데스 라미레스, 프라센지트 미트라, 슈이정, C. Lee Giles, 학술 문서 검색 엔진의 탐색 전략의 진화: 화이트리스트와 블랙리스트, 2012년 6월, Evanston, IL, Evanston, 340-343페이지의 제3차 ACM Web Science Conference Page 340-343페이지의 진행 중, 2012년 6월.