아파치 너치

Apache Nutch
아파치 너치
Apache Nutch logo.svg
스크린샷
NutchScreenshot.png
Nutch 웹 인터페이스 검색
원본 작성자더그 커팅, 마이크 카파렐라
개발자아파치 소프트웨어 재단
안정적 해제
1.x1.18 / 2021년 1월 24일; 12개월(2021-01-24)[1]
2.x2.4 / 2019년 10월 2일; 2년(2019-10-02)[2]
리포지토리너치 저장소
기록 위치자바
운영 체제크로스 플랫폼
유형웹 크롤러
면허증아파치 라이선스 2.0
웹사이트nutch.apache.org

Apache Nutch는 확장성과 확장성이 뛰어난 오픈 소스크롤러 소프트웨어 프로젝트다.

특징들

너치 로봇 마스코트

Nutch는 자바 프로그래밍 언어로 전적으로 코딩되지만 데이터는 언어에 독립적인 형식으로 작성된다. 그것은 고도로 모듈화된 아키텍처를 가지고 있어 개발자들이 미디어형 파싱, 데이터 검색, 쿼리, 클러스터링을 위한 플러그인을 만들 수 있다.

이 프로젝트를 위해 특별히 페처("로봇" 또는 "웹 크롤러")가 처음부터 작성되었다.

역사

뉴치는 루센하둡을 함께 만든 더그 커팅마이크 카파렐라에서 비롯됐다.

2003년 6월, 1억 페이지 규모의 성공적인 데모 시스템이 개발되었다. 크롤 및 인덱스 작업의 다중 머신 처리 요구를 충족하기 위해 Nutch 프로젝트도 MapReduce 시설과 분산 파일 시스템을 구현했다. 이 두 시설은 하둡이라고 불리는 자체 서브 프로젝트로 분리되었다.

2005년 1월 누치는 아파치 인큐베이터에 가입했고, 이로부터 졸업해 같은 해 6월 루센의 서브프로젝트가 되었다. 2010년 4월부터 뉴치는 아파치 소프트웨어 재단의 독립된 최상위 프로젝트로 여겨져 왔다.[3]

2014년 2월 Common Crawl 프로젝트는 Nutch를 오픈 대규모 웹 크롤로 채택했다.[4]

한때 뉴치 프로젝트가 글로벌 대형 웹 검색 엔진을 출시하는 것이 목표였지만 이제는 그렇지 않다.[citation needed]

발매이력

1.x

나뭇가지

2.x

나뭇가지

출시일자 설명
1.1 2010-06-06 이 릴리스에는 Nutch가 의존하는 기존 라이브러리(하둡, Solr, Tika 등)의 몇 가지 주요 업그레이드가 포함되어 있다. 다양한 버그 수정, 스피드 업(예: Fetcher2)도 포함되었다.
1.2 2010-10-24 이 릴리스에는 몇 가지 개선 사항(선택 가능한 파서로서의 파스-html 추가, 필드별 인덱싱 구성 가능), 새로운 기능(모든 툴 클래스에 타이밍 정보 추가, 파서 타임아웃 구현 포함) 및 버그 수정(분산 검색에서 NPE 수정, 문서 필드당 XML 형식 문제 수정)이 포함되어 있다.
1.3 2011-06-07 이 릴리스에는 몇 가지 개선 사항이 포함되어 있다(RSS 구문 분석 지원 개선, Apache Tika와의 긴밀한 통합, 외부 구문 분석 지원, 언어 식별 개선 및 대규모 소스 릴리스 타르볼 순서(약 2MB).
1.4 2011-11-26 이 릴리스에는 파서스가 다중 MIME 유형에 대한 지원 선언, 구성 가능한 Fetcher Queue 깊이, Fetcher 속도 향상, Tika 통합 강화, Solr 인덱싱의 HTTP 인증 지원 등을 포함한 몇 가지 개선 사항이 포함되어 있다.
1.5 2012-06-07 이 릴리스에는 Tika 1.1 및 Hadoop 1.0.0을 포함한 몇 가지 주요 구성 요소의 업그레이드, LinkLank 및 WebGraph 요소의 개선, 블랙리스트 작성, 필터링 및 파싱 등을 포함하는 여러 가지 새로운 플러그인이 포함되어 있다.
2.0 2012-07-07 이번 출시에서는 Apache Abulo, Apache Avro, Apache Cassandra, Apache HBase, HDFS, 내장 메모리 데이터 저장소 및 다양한 유명 SQL 저장소를 위한 스토리지 추상화(Apache Gora를 통해)를 기반으로 하는 대규모 크롤링에 초점을 맞춘 에디션을 제공한다.
1.5.1 2012-07-10 이번 발매는 커뮤니티 내에서 널리 채택되어 온 인기 있는 1.5.X 메인스트림 버전의 Nutch의 유지보수 발매물이다.
2.1 2012-10-05 이번 출시로 Nutch 사용자들은 커뮤니티 내에서 인기를 끌고 있는 2.x 개발 드라이브에 있는 단순화된 Nutch 유통 건물을 계속 제공하고 있다. 이 릴리스는 20개의 버그를 해결하는 것뿐만 아니라 보다 나은 Solr 구성을 위한 향상된 속성, 다양한 Gora 종속성으로의 업그레이드 및 탄력적인 검색에서 인덱스를 작성하는 옵션의 도입도 제공한다.
1.6 2012-12-06 이 릴리스에는 새로운 HostNormalizer를 포함한 새로운 기능, MIME 형식에 의한 petchInterval을 동적으로 설정하는 기능 및 URL의 표준화 및 로봇 noIndex 문서 삭제를 포함한 Indexer API의 기능 향상 기능뿐만 아니라 20개 이상의 버그 수정 사항이 포함되어 있다. 기타 주목할 만한 개선 사항으로는 Tika 1.2 및 Automaton 1.11-8로 키 의존성을 업그레이드한 것이 있다.
2.2 2013-06-08 이 릴리스에는 30개 이상의 버그 수정과 점점 인기를 끌고 있는 2.x Nutch 시리즈의 세 번째 릴리즈를 나타내는 25개 이상의 개선 사항이 포함되어 있다. 이번 출시에는 뉴치가 현재 개선된 로봇에 활용하고 있는 크롤러-콤몬이 포함된 것이 특징이다.txt 구문 분석, Apache Hadoop 1.1.1, Apache Gora 0.3, Apache Tika 1.2 및 Automaton 1.11-8로 라이브러리 업그레이드.
1.7 2013-06-24 이 릴리스에는 20개 이상의 버그 수정 사항이 포함되어 있으며, 현재 Apache Solr 및 Elastic Search를 지원하는 새로운 플러그형 인덱싱 아키텍처를 가장 눈에 띄게 특징으로 한다. 최근 Nutch 2.2 릴리즈의 그림자, 로봇의 파싱.txt는 이제 Crawler-Commons에 위임된다. 주요 라이브러리 업그레이드는 Apache Hadoop 1.2.0 및 Apache Tika 1.3으로 이루어졌다.
2.2.1 2013-07-02 이 릴리스에는 Apache Hadoop 1.2.0 및 Apache Tika 1.3으로 라이브러리 업그레이드가 포함되며, 주로 NUTCH-1591 버그 수정 - ByteBuffer를 String으로 잘못 변환.
1.8 2014-03-17 이 릴리스에는 크롤러 커먼즈 0.3 및 아파치 티카 1.5로의 라이브러리 업그레이드가 포함되지만, 30개 이상의 버그 수정 기능뿐만 아니라 18개 이상의 개선 기능도 제공한다.
2.3 2015-01-22 Nutch 2.3 릴리즈는 이제 독립형 Apache Wicket 기반 웹 애플리케이션과 함께 패키지로 제공된다. 고라에 대한 SQL 백엔드는 더 이상 사용되지 않았다.[5]
1.10 2015-05-06 이 릴리스에는 Tika 1.6에 대한 라이브러리 업그레이드가 포함되며, 또한 46개 이상의 버그 수정 기능과 37개 이상의 개선 사항 및 12개의 새로운 기능을 제공한다.[6]
1.11 2015-12-07 이 릴리스에는 Hadoop 2.X, Tika 1.11로 라이브러리 업그레이드가 포함되며, 32개 이상의 버그 수정뿐만 아니라 35개 이상의 개선 사항과 14개의 새로운 기능도 제공된다.[7]
2.3.1 2016-01-21 이 버그 수정 릴리스에는 해결된 약 40개의 문제가 포함되어 있다.
1.12 2016-06-18
1.13 2017-04-02
1.14 2017-12-23
1.15 2018-08-09
1.16 2019-10-11
2.4 2019-10-11 2.X 시리즈의 마지막 발매가 될 것으로 예상된다.[8]
1.17 2020-07-02
1.18 2021-01-24

확장성

IBM Research는 CSO(Commercial Scale Out) 프로젝트의 일환으로 Nutch/Lucene의 성능을[9] 연구했다.[10] 그들의 연구 결과는 Nutch/Lucene과 같은 스케일 아웃 시스템이 POWER5와 같은 스케일 업 컴퓨터에서는 달성할 수 없는 블레이드 클러스터에서 성능 수준을 달성할 수 있다는 것이었다.

CleverWeb09 데이터 집합(예: TREC)는 Nutch를 이용하여 수집하였으며, 평균 초속 755.31개의 문서를 가지고 있다.[11]

관련 프로젝트

  • Hadoop – 대형 클러스터에서 실행되는 분산 애플리케이션을 지원하는 Java 프레임워크.

Nutch로 제작된 검색 엔진

참고 항목

참조

  1. ^ "ASF Git Repos - nutch.git/commit". Retrieved 19 October 2020.
  2. ^ "ASF Git Repos - nutch.git/commit". Retrieved 11 March 2020.
  3. ^ "Apache Nutch -". nutch.apache.org.
  4. ^ a b "Common Crawl's Move to Nutch – Common Crawl – Blog". blog.commoncrawl.org. Retrieved 2015-10-14.
  5. ^ "Nutch 2.3 Release". Apache Nutch News. The Apache Software Foundation. 22 January 2015. Retrieved 18 January 2016.
  6. ^ "Nutch 1.10 Release Notes". ASF JIRA. The Apache Software Foundation. 6 May 2015. Retrieved 18 January 2016.
  7. ^ "Nutch 1.11 Release Notes". ASF JIRA. The Apache Software Foundation. 7 December 2015. Retrieved 18 January 2016.
  8. ^ "Nutch 2.4 Release". Apache Nutch News. The Apache Software Foundation. 11 October 2019. Retrieved 19 October 2020.
  9. ^ "Scalability of the Nutch search engine" (PDF).
  10. ^ "Base Operating System Provisioning and Bringup for a Commercial Supercomputer" (PDF). Archived from the original (PDF) on December 3, 2008.
  11. ^ Sapfire Web Crawler - Crawler Statistics. Boston.lti.cs.cmu.edu (2008-10-01) 2013-07-21에 검색됨.
  12. ^ "Our Updated Search". Creative Commons. 2004-09-03.
  13. ^ "Creative Commons Unique Search Tool Now Integrated into Firefox 1.0". Creative Commons. 2004-11-22. Archived from the original on 2010-01-07.
  14. ^ "New CC search UI". Creative Commons. 2006-08-02.
  15. ^ "Where can I get the source code for Wikia Search?". Archived from the original on 2011-11-04. Retrieved 2010-02-12.
  16. ^ "Update on Wikia – doing more of what's working Jimmy Wales".

참고 문헌 목록

외부 링크