스파이더 트랩

Spider trap

스파이더 트랩(또는 크롤러 트랩)은 웹 크롤러검색봇이 무한정 많은 요청을 하거나 제대로 구성되지 않은 크롤러가 충돌하도록 의도적이거나 의도치 않게 사용될 수 있는 웹 페이지 집합이다. 웹 크롤러는 또한 웹 거미라고도 불리며, 이 거미로부터 그 이름이 유래되었다. 스파이더 트랩은 웹 사이트의 대역폭을 낭비하는 스팸봇 또는 기타 크롤러를 "캐치"하기 위해 만들어질 수 있다. 그것들은 또한 다음 날 또는 연도를 지속적으로 가리키는 링크가 있는 동적 페이지를 사용하는 달력에 의해 의도치 않게 만들어질 수도 있다.

사용되는 일반적인 기법은 다음과 같다.

  • 다음과 같은 무한정 심층 디렉토리 구조 생성 http://example.com/bar/foo/bar/foo/bar/foo/bar/...
  • 웹 크롤러가 추적할 수 있도록 제한되지 않은 수의 문서를 생성하는 동적 페이지. 그 예로는 달력과[1] 알고리즘적으로 생성된 언어 시가 있다.[2]
  • 많은 문자로 채워진 문서들, 문서를 파싱하는 어휘 분석기를 망가뜨렸다.
  • 필수 쿠키를 기반으로 세션 ID가 있는 문서

모든 스파이더 트랩을 탐지하는 알고리즘은 없다. 일부 종류의 트랩은 자동으로 탐지될 수 있지만 인식되지 않는 새 트랩이 빠르게 발생한다.

공손함

거미 덫은 거미줄 크롤러가 무한 루프 같은 것으로 들어가 거미 자원을 낭비하고 생산성을 떨어뜨리며,[3][4] 글씨가 서투른 크롤러의 경우 프로그램을 다운시킬 수 있다. 예의 바른 거미들은 서로 다른 호스트들 사이에서 요청을 번갈아 하며, 같은 서버로부터 몇 초마다 한 번 이상 문서를 요청하지 않는다.[5] 즉, "친절하지 않은" 웹 크롤러가 "충분하지 않은" 크롤러보다 훨씬 덜 영향을 받는다는 것을 의미한다.

게다가, 거미 덫이 있는 사이트들은 보통 로봇을 가지고 있다.txt는 봇들에게 덫에 가지 말라고 말하므로, 합법적인 봇은 덫에 빠지지 않는 반면, 로봇들을 무시하는 "불충분한" 봇은 덫에 걸리지 않을 것이다.txt 설정은 트랩의 영향을 받을 수 있다.[6]

참고 항목

참조

  1. ^ ""What is a Spider Trap?"". Techopedia. Retrieved 2018-05-29.
  2. ^ 닐 M 헤네시 "The Sweet Poice, 즉 The Discovery of L=A=N=G=U=A=G=E Poets on the web." 2013-09-26 접속.
  3. ^ "Portent". Portent. 2016-02-03. Retrieved 2019-10-16.
  4. ^ "How to Set Up a robots.txt to Control Search Engine Spiders (thesitewizard.com)". www.thesitewizard.com. Retrieved 2019-10-16.
  5. ^ "Building a Polite Web Crawler". The DEV Community. Retrieved 2019-10-16.
  6. ^ Group, J. Media (2017-10-12). "Closing a spider trap: fix crawl inefficiencies". J Media Group. Retrieved 2019-10-16.