웹 스크랩

웹 스크랩, 웹 수집 또는 웹 데이터 추출은 웹 사이트에서 데이터를 추출하는 데 사용되는 데이터 스크랩입니다.웹 스크랩 소프트웨어는 Hypertext Transfer Protocol 또는 웹 브라우저를 사용하여 World Wide Web에 직접 액세스할 수 있습니다.웹 스크랩은 소프트웨어 사용자가 수동으로 수행할 수 있지만 일반적으로 봇 또는 웹 크롤러를 사용하여 구현되는 자동화된 프로세스를 의미합니다.웹에서 특정 데이터를 수집하여 중앙 로컬 데이터베이스 또는 스프레드시트로 복사하여 나중에 검색 또는 분석하기 위한 복사 형식입니다.

웹 페이지를 스크랩하려면 웹 페이지를 가져오고 추출해야 합니다.가져오기란 사용자가 페이지를 볼 때 브라우저가 수행하는 페이지 다운로드입니다.따라서 웹 크롤링은 웹 스크랩의 주요 구성 요소이며 나중에 처리하기 위해 페이지를 가져옵니다.가져오면 추출을 수행할 수 있습니다.페이지의 내용은 구문 분석, 검색 및 다시 포맷할 수 있으며, 해당 데이터는 스프레드시트에 복사되거나 데이터베이스에 로드됩니다.웹 스크랩러는 일반적으로 페이지에서 무언가를 꺼내 다른 용도로 사용합니다.예를 들어 이름과 전화번호, 회사와 그 URL 또는 전자 메일주소를 검색하여 목록에 복사(연락처 스크래핑)하는 경우가 있습니다.

웹 스크랩은 연락처 스크랩뿐만 아니라 웹 인덱싱, 웹 마이닝 및 데이터 마이닝, 온라인 가격 변경 모니터링 및 가격 비교, 제품 리뷰 스크랩(경쟁을 보기 위해), 부동산 목록 수집, 날씨 데이터 모니터링, 웹사이트 변경 감지, 조사, 온라인 사전 추적에 사용되는 애플리케이션의 구성요소로 사용됩니다.평가, 웹 매시업, 웹 데이터 통합 등 다양한 이점을 제공합니다.

웹 페이지는 텍스트 기반 마크업 언어(HTML 및 XHTML)를 사용하여 구축되며 많은 경우 텍스트 형식으로 유용한 데이터를 포함합니다.그러나 대부분의 웹 페이지는 자동 사용을 위해 설계된 것이 아니라 최종 사용자를 위해 설계되었습니다.그 결과, Web 페이지의 스크랩을 용이하게 하기 위한 전용 툴과 소프트웨어가 개발되었습니다.

새로운 형태의 웹 스크랩에는 웹 서버로부터의 데이터 피드를 감시하는 것이 포함됩니다.예를 들어 JSON은 클라이언트와 웹 서버 간의 전송 스토리지 메커니즘으로 일반적으로 사용됩니다.

일부 웹 사이트에서는 웹 스크랩을 방지하기 위해 봇의 페이지 크롤링(보기)을 탐지 및 허용하지 않는 방법이 있습니다.이에 대응하여 DOM 해석, 컴퓨터 비전 및 자연어 처리 기술을 사용하여 인간의 브라우징을 시뮬레이션하고 오프라인 해석을 위한 웹 페이지 콘텐츠를 수집할 수 있는 웹 스크랩 시스템이 있습니다.

역사

웹 스크랩의 역사는 거의 월드 와이드 웹이 탄생한 시기로 거슬러 올라간다.

1989년 월드 와이드 웹이 탄생한 후, 최초의 웹 ^[1]로봇인 월드 와이드 웹 방랑자가 1993년 6월에 만들어졌는데, 이것은 오직 웹의 크기를 측정하기 위한 것이었다.
1993년 12월, 최초의 크롤러 기반의 웹 검색 엔진인 JumpStation이 출시되었습니다.웹에서 이용할 수 있는 웹사이트가 적었기 때문에, 그 당시 검색 엔진은 링크를 수집하고 포맷하기 위해 인간 관리자에게 의존하곤 했다.이에 비해, JumpStation은 웹 로봇에 의존하는 최초의 WWW 검색 엔진이었다.
2000년에 최초의 웹 API와 API 크롤러가 생성되었습니다.API(Application Programming Interface)는 구성 요소를 제공함으로써 프로그램 개발을 훨씬 쉽게 하는 인터페이스입니다.2000년에 Salesforce와 eBay는 프로그래머가 일반인이 이용할 수 있는 데이터 중 일부를 액세스하고 다운로드할 수 있는 자체 API를 출시했다.그 이후로, 많은 웹사이트들은 사람들이 그들의 공용 데이터베이스에 접근할 수 있도록 웹 API를 제공한다.

기술

웹 스크랩은 자동으로 데이터를 마이닝하거나 월드 와이드 웹에서 정보를 수집하는 과정입니다.시멘틱 웹 비전과 공통의 목표를 공유하는 활발한 개발을 가진 분야로, 텍스트 처리, 시멘틱 이해, 인공지능 및 인간-컴퓨터 상호 작용에서 여전히 획기적인 발전을 필요로 하는 야심찬 이니셔티브입니다.

인간 복사 및 붙여넣기

웹 스크랩의 가장 간단한 형태는 웹 페이지에서 데이터를 수동으로 복사하여 텍스트 파일 또는 스프레드시트에 붙여넣는 것입니다.최고의 웹 스크래핑 테크놀로지라고 해도 인간의 수동 검사나 복사 앤 페이스트(copy-and-paste)를 대체할 수 없는 경우가 있습니다.또, 스크래핑용의 Web 사이트가 기계 자동화를 막기 위해서 명시적으로 장벽이 설정되어 있는 경우는, 이 방법만이 유효한 경우가 있습니다.

텍스트 패턴 일치

웹 페이지에서 정보를 추출하는 단순하지만 강력한 접근법은 UNIX grep 명령 또는 프로그래밍 언어의 정규 표현식 일치 기능(Perl 또는 Python 등)을 기반으로 할 수 있습니다.

HTTP 프로그래밍

소켓 프로그래밍을 사용하여 리모트 웹 서버에 HTTP 요청을 게시함으로써 정적 및 동적 웹 페이지를 가져올 수 있습니다.

HTML 해석

많은 웹 사이트에는 데이터베이스와 같은 기본 구조화된 소스에서 동적으로 생성되는 많은 페이지 모음이 있습니다.일반적으로 같은 카테고리의 데이터는 공통 스크립트 또는 템플릿에 의해 유사한 페이지로 인코딩됩니다.데이터 마이닝에서는 특정 정보 소스에서 이러한 템플릿을 검출하고 그 내용을 추출하여 관계 형식으로 변환하는 프로그램을 래퍼라고 합니다.래퍼 생성 알고리즘은 래퍼 유도 시스템의 입력 페이지가 공통 템플릿에 준거하고 URL 공통 ^[2]스킴으로 쉽게 식별할 수 있다고 가정한다.또한 XQuery 및 HTQL과 같은 일부 반구조화된 데이터 쿼리 언어를 사용하여 HTML 페이지를 해석하고 페이지 내용을 검색 및 변환할 수 있습니다.

DOM 해석

Internet Explorer 또는 Mozilla 브라우저 컨트롤과 같은 완전한 웹 브라우저를 내장함으로써 프로그램은 클라이언트 측 스크립트에 의해 생성된 동적 콘텐츠를 가져올 수 있습니다.이러한 브라우저 컨트롤은 또한 웹 페이지를 DOM 트리로 구문 분석하여 어떤 프로그램이 페이지의 일부를 검색할 수 있는지를 기반으로 합니다.Xpath 등의 언어를 사용하여 결과 DOM 트리를 해석할 수 있습니다.

수직 집약

수직 전용 수확 플랫폼을 개발한 회사가 몇 개 있습니다.이러한 플랫폼은, 「맨 인 루프」(인간의 직접 개입 없음)나 특정의 타겟 사이트에 관련하는 작업이 없는 특정의 수직에 대해서, 다수의 「봇」을 작성 및 감시합니다.이 준비에는 전체 수직에 대한 기술 자료를 구축하고 플랫폼이 자동으로 봇을 생성합니다.플랫폼의 견고성은 검색하는 정보의 품질(일반적으로 필드 수)과 확장성(수백 또는 수천 사이트까지 얼마나 빠르게 확장할 수 있는지)에 따라 측정됩니다.이 scalability는, 통상의 애그리게이터가, 복잡하고 노동 집약적인 컨텐츠를 수집하기 어려운 사이트의 롱 테일(Long Tail)을 타겟으로 하는 데 주로 사용됩니다.

의미 주석 인식

스크랩되는 페이지는 메타데이터 또는 시멘틱 마크업 및 주석을 포함할 수 있으며, 이를 사용하여 특정 데이터 스니펫을 찾을 수 있습니다.Microformat처럼 페이지에 주석이 포함되어 있으면 이 기술은 DOM 파싱의 특수한 경우로 볼 수 있습니다.다른 경우에서는 의미 계층으로 ^[3]편성된 주석이 웹 페이지와 별도로 저장 및 관리되므로 스크래퍼는 페이지를 스크래핑하기 전에 이 계층에서 데이터 스키마 및 명령을 검색할 수 있다.

컴퓨터 비전 웹 페이지 분석

페이지를 사람처럼 ^[4]시각적으로 해석함으로써 웹 페이지에서 정보를 식별하고 추출하는 기계 학습과 컴퓨터 비전을 사용하는 노력이 있다.

소프트웨어

웹 스크래핑 솔루션을 커스터마이즈하는 데 사용할 수 있는 많은 소프트웨어 도구가 있습니다.이 소프트웨어는 페이지의 데이터 구조를 자동으로 인식하거나 웹 스크래핑 코드를 수동으로 쓸 필요가 없는 기록 인터페이스 또는 콘텐츠 추출 및 변환에 사용할 수 있는 스크립트 기능 및 스크래핑된 데이터를 로컬 데이터베이스에 저장할 수 있는 데이터베이스 인터페이스를 제공합니다.일부 웹 스크랩 소프트웨어는 API에서 직접 데이터를 추출하는 데 사용할 수도 있습니다.

법적 문제

웹 스크래핑의 합법성은 전 세계적으로 다양합니다.일반적으로 웹 스크래핑은 일부 웹 사이트의 이용 약관에 어긋날 수 있지만, 이러한 약관의 적용 가능성은 불분명합니다.^[5]

미국

미국에서는 웹 사이트 소유자가 원치 않는 웹 스크랩을 방지하기 위해 (1) 저작권 침해(컴파일), (2) 컴퓨터 사기 및 남용법(CFAA) 위반, (3) 채틀 ^[6]침해의 3가지 주요 법적 클레임을 사용할 수 있습니다.그러나 이러한 주장의 효과는 다양한 기준을 충족시키는 것에 달려 있으며, 판례법은 여전히 진화하고 있다.예를 들어 저작권에 관해서는 대부분의 경우 원문 표현의 완전한 복제가 불법이지만 미국에서는 Feist Publications v. Routural Telephone Service에서 법원이 사실의 복제가 허용된다고 판결했다.

미국 법원은 "스크래퍼"나 "로봇" 사용자들이 채텔에 ^[7]^[8]침입한 것에 대해 책임을 질 수 있다는 것을 인정했습니다. 채텔은 컴퓨터 시스템 자체가 스크래퍼 사용자가 침입한 개인 재산으로 간주되는 것을 포함합니다.이 사건들 중 가장 잘 알려진 사건인 eBay v. Bider's Edge는 Bider's Edge에 대해 eBay 웹사이트에서 경매에 대한 접근, 수집 및 색인화를 중지하라는 명령으로 귀결되었다.이 사건에는 경매 스니핑으로 알려진 자동 입찰이 포함되었습니다.다만, 동산침입 청구를 성공시키기 위해서는, 원고가 고의로 허가 없이 컴퓨터 시스템에 대한 원고의 소유권을 침해했다는 것과 피고의 무단사용이 원고에 손해를 입혔다는 것을 증명해야 한다.법원에서 제기되는 모든 웹스파이싱 사건들이 ^[9]채틀의 침입으로 간주된 것은 아니다.

스크린 스크래핑의 첫 번째 주요 테스트 중 하나는 아메리칸 항공(AA)과 ^[10]FareChase라는 회사였다.AA는 성공적으로 텍사스 재판 법원으로부터 가처분 신청을 받아, 만약 소프트웨어가 AA의 웹사이트를 검색한다면 사용자가 온라인 요금을 비교할 수 있는 소프트웨어를 판매하지 못하게 했다.항공사는 FareChase의 웹 검색 소프트웨어가 공개적으로 이용 가능한 데이터를 수집할 때 AA의 서버에 침입했다고 주장했다.FareChase는 2003년 3월에 항소를 제기했다.6월까지, FareChase와 AA는 합의를 보았고 항소는 ^[11]기각되었다.

사우스웨스트 항공은 또한 스크린 스크래핑 관행에 이의를 제기했고, FareChase와 또 다른 회사인 Outtask를 법적 청구에 포함시켰습니다.사우스웨스트 항공은 스크린 스크래핑이 "컴퓨터 사기와 남용"의 한 예이며 사우스웨스트 사이트의 "손상 및 분실"과 "부정 액세스"로 이어졌기 때문에 불법이라고 비난했다.또한 "비즈니스 관계 간섭", "트레스패스" 및 "컴퓨터에 의한 유해 액세스"를 구성합니다.그들은 또한 스크린 스크래핑이 웹사이트의 사용자 동의 위반일 뿐만 아니라 법적으로 "잘못된 점유와 부당이득"으로 알려진 것에 해당한다고 주장했다.Outtask는 이러한 주장을 모두 부인하고, 이 경우 현행법은 미국 저작권법이어야 하며, 저작권 하에서는 스크랩되는 정보는 저작권 보호 대상이 되지 않는다고 주장했습니다.미국 대법원에서 이 사건은 해결되지 않았지만 FareChase는 결국 모회사인 Yahoo!에 의해 폐쇄되었고 Outtask는 여행 경비 회사인 ^[12]Concur에 의해 인수되었다.2012년, 3Taps라는 스타트업이 Craigslist의 기밀 주택 광고를 스크랩했습니다.Craigslist는 3Taps에 중지 및 폐지 서한을 보내 그들의 IP 주소를 차단하고 나중에 Craigslist 대 3Taps에서 소송을 제기했다.법원은 Craigslist가 3Taps가 컴퓨터 사기 및 남용법을 위반했다고 적절히 주장하기에 충분하다고 판결했다.

비록 이러한 결정들이 조기에 폐기되고 책임론이 통일되지 않지만, 법원이 상업 사이트의 소유주에게 바람직하지 않은 사용으로부터 독점적인 콘텐츠를 보호할 준비가 되어 있다는 패턴을 무시하기는 어렵다.그러나 이러한 콘텐츠에 대한 보호 수준은 정해지지 않았으며 스크레이퍼에 의한 접근 유형, 접근 및 복사된 정보의 양, 접근이 사이트 소유자의 시스템에 악영향을 미치는 정도 및 그러한 ^[13]행위에 대한 금지 유형과 방식에 따라 달라집니다.

이 지역의 법이 보다 정착되는 한편, 공공 웹사이트에 접속하기 위해 스크래핑 프로그램을 사용하는 것을 고려하고 있는 단체들은 이용 약관 및 사이트에 게시되거나 사이트를 통해 이용 가능한 다른 조건이나 통지를 검토함으로써 그러한 조치가 승인되었는지도 고려해야 한다.2010년 Cvent, Inc. 대 Eventbrite, Inc. 판결미국 동부 버지니아 지방법원은 브라우즈 랩 계약이나 라이선스가 ^[14]시행되기 위해서는 이용약관을 이용자에게 알려야 한다고 판결했다.2014년 미국 동부 펜실베니아 ^[15]지방법원에 제출된 전자상거래 사이트 QVC는 핀터레스트와 같은 쇼핑 애그리게이터 Resultly가 실시간 가격 데이터를 얻기 위해 QVC 사이트를 스크랩한 것에 대해 이의를 제기했다.QVC는 결과적으로 QVC의 소매 사이트(분당 200~300건의 검색 요청을 QVC의 웹사이트에 전송, 때로는 분당 최대 36,000건의 요청)를 "과도하게" 탐색하여 QVC의 사이트가 이틀 동안 중단되고 결과적으로 QVC의 ^[16]매출이 감소했다고 주장한다.QVC의 제소는 피고가 웹 크롤러를 위장하여 송신원 IP 주소를 숨겼기 때문에 QVC가 문제를 신속하게 복구하지 못했다고 주장하고 있습니다.QVC가 웹사이트를 이용할 수 없는 것에 대해 손해배상을 청구하고 있기 때문에 이것은 특히 흥미로운 스크랩 사례이다.QVC는 그 피해가 결과적으로 발생했다고 주장한다.

본 재판 기간 중 원고 웹사이트에서는 대부분의 인터넷 사이트와 마찬가지로 페이지 하단의 모든 링크 중 이용약관 링크가 표시된다.이 판결은 아래에 기술된 아일랜드 판결과 모순된다.법원은 또한 버지니아가 통일 컴퓨터 정보 거래법(UCITA)을 채택한 것을 고려할 때 브라우즈 랩 제한이 강제력이 있다는 원고의 주장을 기각했다. 이 법은 많은 사람들이 일반적인 브라우즈 랩 계약 ^[17]관행에 찬성한다고 믿었다.

2012년 Facebook, Inc. v. Power Ventures, Inc.에서 지방법원은 Power Ventures가 페이스북 사용자를 대신하여 Facebook 페이지를 삭제할 수 없다고 판결했다.이 사건은 항소 중이고, 전자 프론티어 재단은 2015년에 ^[18]^[19]기각할 것을 요청하는 브리핑을 제출했다.AP통신 v. 멜트워터 US 홀딩스, Inc.에서 미국 법원은 멜트워터가 AP통신의 뉴스 정보를 스크랩 및 재게재한 것에 대해 책임을 물었지만, 영국 법원은 멜트워터의 손을 들어주었다.

Internet Archive(인터넷 아카이브)는 저작권법을 위반하는 것으로 간주되지 않고 많은 공개 웹 페이지를 수집하여 배포합니다.

유럽 연합

2006년 2월 덴마크 해양상업법원(코벤하겐)은 부동산 사이트 Home.dk의 포털 사이트 ofir.dk에 의한 체계적인 크롤링, 색인화 및 딥링크는 덴마크 법률 또는 유럽연합의 ^[20]데이터베이스 지침에 위배되지 않는다고 판결했다.

2010년 2월 사법권 문제로 복잡한 사건에서 아일랜드 고등법원은 판례법의 초기 상태를 보여주는 평결을 내렸다.Ryanair Ltd v Billigfluege.de GmbH 사건에서 아일랜드 고등법원은 Ryanair의 "클릭" 계약을 법적 구속력으로 판결했다.미국 동부 버지니아 지방 법원 및 덴마크 해양 상업 법원의 판결과는 달리, Michael Hanna 판사는 라이언에어의 약관에 대한 하이퍼링크가 명백하며, 사용자가 접근하기 위해 약관에 동의해야 할 책임이 있다고 판결했다.nline 서비스는 계약 ^[21]관계를 구성하기에 충분합니다.그 결정은 아일랜드 ^[22]대법원에서 항소 중이다.

2020년 4월 30일, 프랑스 데이터 보호국(CNIL)은 ^[23]웹 스크랩에 관한 새로운 지침을 발표했습니다.CNIL 가이드라인에서는 공개된 데이터는 여전히 개인 데이터이며 해당 데이터가 ^[24]속한 사람이 알지 못하는 한 용도 변경할 수 없음을 명확히 했습니다.

호주.

호주에서는 2003년 스팸법에 따라 일부 형태의 웹 수집이 금지되지만 이는 이메일 ^[25]^[26]주소에만 적용됩니다.

인도

지적재산권 침해를 다루는 몇몇 사건을 남겨두고, 인도 법원은 웹 스크래핑의 합법성에 대해 명시적으로 판결하지 않았다.그러나 인도에서는 일반적인 전자계약의 모든 형태가 시행이 가능하기 때문에 데이터 스크랩을 금지하는 이용약관을 위반하는 것은 계약법 위반이 된다.또한 컴퓨터 자원에 대한 무단 액세스 또는 컴퓨터 자원에서 데이터를 추출하는 행위를 처벌하는 정보기술법 2000에도 위반됩니다.

웹 스크랩 방지 방법

웹 사이트의 관리자는 다양한 방법을 사용하여 봇을 중지하거나 속도를 늦출 수 있습니다.몇 가지 기술은 다음과 같습니다.

IP 주소를 수동으로 차단하거나 지올로케이션이나 DNSRBL 등의 기준에 따라 차단합니다.또, 그 주소로부터의 브라우징도 모두 차단됩니다.
웹 사이트의 시스템에서 노출될 수 있는 웹 서비스 API를 비활성화합니다.
봇은 때때로 사용자 에이전트 문자열을 사용하여 자신이 누구인지 선언하고 로봇을 사용하여 차단할 수 있습니다.txt: 'google bot'이 그 예입니다.다른 봇은 브라우저를 사용하는 사람과 자신을 구분하지 않습니다.
초과 트래픽을 모니터링하여 봇을 차단할 수 있습니다.
경우에 따라서는 CAPTCHA와 같은 실제 사용자가 사이트에 액세스하고 있는지 확인하는 도구로 봇을 차단할 수 있습니다.봇은 때때로 특정 CAPTCHA 패턴을 명시적으로 깨도록 코드화되거나 인간의 노동력을 활용하여 실시간으로 CAPTCHA 과제를 읽고 대응하는 제3자 서비스를 사용할 수 있다.
상용 안티봇 서비스:회사들은 웹사이트에 안티봇과 스크래핑 서비스를 제공한다.일부 웹 애플리케이션 방화벽은 봇 탐지 기능도 제한적입니다.그러나 그러한 해결책들은 그다지 ^[27]효과적이지 않다.
자동화된 크롤러의 IP 주소를 식별하기 위한 허니팟 또는 기타 방법을 사용하여 봇을 찾습니다.
CSS 스프라이트를 사용하여 전화 번호나 이메일주소 등의 데이터를 표시하는 난독화는 스크린 리더 사용자의 접근성을 희생합니다.
봇은 대상 웹사이트의 프런트 엔드 코드의 일관성에 의존하기 때문에 중요한 데이터와 내비게이션 요소를 둘러싼 HTML/CSS에 작은 변화를 추가하는 것은 봇의 초기 셋업에 더 많은 사람의 개입을 필요로 하며, 효과적으로 행해진다면 대상 웹사이트는 자동기능의 저하로 스크래핑이 어려워질 수 있습니다.스크래핑 프로세스를 결합합니다.
웹사이트들은 로봇 안에서 기어다니는 것이 허용되는지 여부를 선언할 수 있다.txt 파일 및 부분 액세스 허용, 크롤 속도 제한, 크롤링 최적 시간 지정 등을 수행합니다.
데이터베이스 데이터를 AJAX를 통해 HTML DOM에 직접 로드하고 DOM 메서드를 사용하여 표시합니다.원본 문서에 볼 수 있는 데이터가 없으면 스크래핑할 수 없습니다.

「」를 참조해 주세요.

레퍼런스

^ "Search Engine History.com". Search Engine History. Retrieved November 26, 2019.
^ Song, Ruihua; Microsoft Research (Sep 14, 2007). "Joint Optimization of Wrapper Generation and Template Detection" (PDF). The 13th International Conference on Knowledge Discovery and Data Mining: 894. doi:10.1145/1281192.1281287. ISBN 9781595936097. S2CID 833565. Archived from the original (PDF) on October 11, 2016.
^ 시맨틱 주석 기반 웹 스크랩
^ Roush, Wade (2012-07-25). "Diffbot Is Using Computer Vision to Reinvent the Semantic Web". www.xconomy.com. Retrieved 2013-03-15.
^ "FAQ about linking – Are website terms of use binding contracts?". www.chillingeffects.org. 2007-08-20. Archived from the original on 2002-03-08. Retrieved 2007-08-20.
^ Kenneth, Hirschey, Jeffrey (2014-01-01). "Symbiotic Relationships: Pragmatic Acceptance of Data Scraping". Berkeley Technology Law Journal. 29 (4). doi:10.15779/Z38B39B. ISSN 1086-3818.
^ "Internet Law, Ch. 06: Trespass to Chattels". www.tomwbell.com. 2007-08-20. Retrieved 2007-08-20.
^ "What are the "trespass to chattels" claims some companies or website owners have brought?". www.chillingeffects.org. 2007-08-20. Archived from the original on 2002-03-08. Retrieved 2007-08-20.
^ "Ticketmaster Corp. v. Tickets.com, Inc". 2007-08-20. Retrieved 2007-08-20.
^ "American Airlines v. FareChase" (PDF). 2007-08-20. Archived from the original (PDF) on 2011-07-23. Retrieved 2007-08-20.
^ "American Airlines, FareChase Settle Suit". The Free Library. 2003-06-13. Retrieved 2012-02-26.
^ Imperva (2011년)사이트 스크랩 공격 검출 및 차단Imperva 화이트 페이퍼..
^ Adler, Kenneth A. (2003-07-29). "Controversy Surrounds 'Screen Scrapers': Software Helps Users Access Web Sites But Activity by Competitors Comes Under Scrutiny". Archived from the original on 2011-02-11. Retrieved 2010-10-27.
^ "QVC Inc. v. Resultly LLC, No. 14-06714 (E.D. Pa. filed Nov. 24, 2014)" (PDF). 2014-11-24. Retrieved 2015-11-05.
^ "QVC Inc. v. Resultly LLC, No. 14-06714 (E.D. Pa. filed Nov. 24, 2014)". United States District Court for the Eastern District of Pennsylvania. Retrieved 5 November 2015.
^ Neuburger, Jeffrey D (5 December 2014). "QVC Sues Shopping App for Web Scraping That Allegedly Triggered Site Outage". The National Law Review. Proskauer Rose LLP. Retrieved 5 November 2015.
^ "Did Iqbal/Twombly Raise the Bar for Browsewrap Claims?" (PDF). 2010-09-17. Retrieved 2010-10-27.
^ "Can Scraping Non-Infringing Content Become Copyright Infringement... Because Of How Scrapers Work? Techdirt". Techdirt. 2009-06-10. Retrieved 2016-05-24.
^ "Facebook v. Power Ventures". Electronic Frontier Foundation. Retrieved 2016-05-24.
^ "UDSKRIFT AF SØ- & HANDELSRETTENS DOMBOG" (PDF) (in Danish). bvhd.dk. 2006-02-24. Archived from the original (PDF) on 2007-10-12. Retrieved 2007-05-30.
^ "High Court of Ireland Decisions >> Ryanair Ltd -v- Billigfluege.de GMBH 2010 IEHC 47 (26 February 2010)". British and Irish Legal Information Institute. 2010-02-26. Retrieved 2012-04-19.
^ Matthews, Áine (June 2010). "Intellectual Property: Website Terms of Use". Issue 26: June 2010. LK Shields Solicitors Update. p. 03. Retrieved 2012-04-19.
^ "La réutilisation des données publiquement accessibles en ligne à des fins de démarchage commercial CNIL". www.cnil.fr (in French). Retrieved 2020-07-05.
^ FindDataLab.com (2020-06-09). "Can You Still Perform Web Scraping With The New CNIL Guidelines?". Medium. Retrieved 2020-07-05.
^ National Office for the Information Economy (February 2004). "Spam Act 2003: An overview for business". Australian Communications Authority. p. 6. Retrieved 2017-12-07.
^ National Office for the Information Economy (February 2004). "Spam Act 2003: A practical guide for business" (PDF). Australian Communications Authority. p. 20. Retrieved 2017-12-07.
^ Mayank Dhiman Breaking Freching & Bot Detection Solutions OWASP AppSec Cali' 2018년 2월 10일 취득.

[1] "Search Engine History.com". Search Engine History. Retrieved November 26, 2019.

[2] Song, Ruihua; Microsoft Research (Sep 14, 2007). "Joint Optimization of Wrapper Generation and Template Detection" (PDF). The 13th International Conference on Knowledge Discovery and Data Mining: 894. doi:10.1145/1281192.1281287. ISBN 9781595936097. S2CID 833565. Archived from the original (PDF) on October 11, 2016.

[3] 시맨틱 주석 기반 웹 스크랩

[4] Roush, Wade (2012-07-25). "Diffbot Is Using Computer Vision to Reinvent the Semantic Web". www.xconomy.com. Retrieved 2013-03-15.

[5] "FAQ about linking – Are website terms of use binding contracts?". www.chillingeffects.org. 2007-08-20. Archived from the original on 2002-03-08. Retrieved 2007-08-20.

[6] Kenneth, Hirschey, Jeffrey (2014-01-01). "Symbiotic Relationships: Pragmatic Acceptance of Data Scraping". Berkeley Technology Law Journal. 29 (4). doi:10.15779/Z38B39B. ISSN 1086-3818.

[7] "Internet Law, Ch. 06: Trespass to Chattels". www.tomwbell.com. 2007-08-20. Retrieved 2007-08-20.

[8] "What are the "trespass to chattels" claims some companies or website owners have brought?". www.chillingeffects.org. 2007-08-20. Archived from the original on 2002-03-08. Retrieved 2007-08-20.

[9] "Ticketmaster Corp. v. Tickets.com, Inc". 2007-08-20. Retrieved 2007-08-20.

[10] "American Airlines v. FareChase" (PDF). 2007-08-20. Archived from the original (PDF) on 2011-07-23. Retrieved 2007-08-20.

[11] "American Airlines, FareChase Settle Suit". The Free Library. 2003-06-13. Retrieved 2012-02-26.

[impervawp2011-12] Imperva (2011년)사이트 스크랩 공격 검출 및 차단Imperva 화이트 페이퍼..

[13] Adler, Kenneth A. (2003-07-29). "Controversy Surrounds 'Screen Scrapers': Software Helps Users Access Web Sites But Activity by Competitors Comes Under Scrutiny". Archived from the original on 2011-02-11. Retrieved 2010-10-27.

[14] "QVC Inc. v. Resultly LLC, No. 14-06714 (E.D. Pa. filed Nov. 24, 2014)" (PDF). 2014-11-24. Retrieved 2015-11-05.

[15] "QVC Inc. v. Resultly LLC, No. 14-06714 (E.D. Pa. filed Nov. 24, 2014)". United States District Court for the Eastern District of Pennsylvania. Retrieved 5 November 2015.

[16] Neuburger, Jeffrey D (5 December 2014). "QVC Sues Shopping App for Web Scraping That Allegedly Triggered Site Outage". The National Law Review. Proskauer Rose LLP. Retrieved 5 November 2015.

[17] "Did Iqbal/Twombly Raise the Bar for Browsewrap Claims?" (PDF). 2010-09-17. Retrieved 2010-10-27.

[18] "Can Scraping Non-Infringing Content Become Copyright Infringement... Because Of How Scrapers Work? Techdirt". Techdirt. 2009-06-10. Retrieved 2016-05-24.

[19] "Facebook v. Power Ventures". Electronic Frontier Foundation. Retrieved 2016-05-24.

[20] "UDSKRIFT AF SØ- & HANDELSRETTENS DOMBOG" (PDF) (in Danish). bvhd.dk. 2006-02-24. Archived from the original (PDF) on 2007-10-12. Retrieved 2007-05-30.

[21] "High Court of Ireland Decisions >> Ryanair Ltd -v- Billigfluege.de GMBH 2010 IEHC 47 (26 February 2010)". British and Irish Legal Information Institute. 2010-02-26. Retrieved 2012-04-19.

[22] Matthews, Áine (June 2010). "Intellectual Property: Website Terms of Use". Issue 26: June 2010. LK Shields Solicitors Update. p. 03. Retrieved 2012-04-19.

[23] "La réutilisation des données publiquement accessibles en ligne à des fins de démarchage commercial CNIL". www.cnil.fr (in French). Retrieved 2020-07-05.

[24] FindDataLab.com (2020-06-09). "Can You Still Perform Web Scraping With The New CNIL Guidelines?". Medium. Retrieved 2020-07-05.

[25] National Office for the Information Economy (February 2004). "Spam Act 2003: An overview for business". Australian Communications Authority. p. 6. Retrieved 2017-12-07.

[26] National Office for the Information Economy (February 2004). "Spam Act 2003: A practical guide for business" (PDF). Australian Communications Authority. p. 20. Retrieved 2017-12-07.

[27] Mayank Dhiman Breaking Freching & Bot Detection Solutions OWASP AppSec Cali' 2018년 2월 10일 취득.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

Search

웹 스크랩

네임스페이스

더

목차

역사

기술

인간 복사 및 붙여넣기

텍스트 패턴 일치

HTTP 프로그래밍

HTML 해석

DOM 해석

수직 집약

의미 주석 인식

컴퓨터 비전 웹 페이지 분석

소프트웨어

법적 문제

미국

유럽 연합

호주.

인도

웹 스크랩 방지 방법

「」를 참조해 주세요.

레퍼런스

Search

웹 스크랩

역사

기술

인간 복사 및 붙여넣기

텍스트 패턴 일치

HTTP 프로그래밍

HTML 해석

DOM 해석

수직 집약

의미 주석 인식

컴퓨터 비전 웹 페이지 분석

소프트웨어

법적 문제

미국

유럽 연합

호주.

인도

웹 스크랩 방지 방법

「 」를 참조해 주세요.

레퍼런스

「」를 참조해 주세요.