스크레이퍼 사이트

Scraper site

스크레이퍼 사이트는 웹 스크래핑을 사용하여 다른 웹사이트의 콘텐츠를 복사하는 웹 사이트입니다.컨텐츠는, 통상, 광고나 유저 데이터의 판매를 통해서 수익을 창출하는 것을 목표로 하고 있습니다.스크레이퍼 사이트는 다양한 형태로 제공됩니다.일부는 자료나 정보는 거의 제공하지 않으며 스팸 전자 메일의 대상이 되는 전자 메일 주소 등의 사용자 정보를 얻기 위한 것입니다.가격 집계 사이트와 쇼핑 사이트는 한 제품의 여러 목록에 접속하여 사용자가 가격을 빠르게 비교할 수 있도록 합니다.

스크레이퍼 웹사이트의 예

구글같은 검색 엔진은 스크레이퍼 사이트의 한 종류로 여겨질 수 있다.검색 엔진은 다른 웹사이트에서 콘텐츠를 수집하여 데이터베이스에 저장하고 인덱스를 작성하여 스크랩된 콘텐츠를 검색 엔진의 사용자에게 제공합니다.검색 엔진에 의해 스크랩된 콘텐츠의 대부분은 [1]저작권이 있습니다.

스크래핑 기술은 다양한 데이트 사이트에서도 사용되고 있다.이 사이트들은 종종 스크래핑 활동과 얼굴 [2][3][4][5][6][7][8][9][10][11]인식을 결합합니다.

스크래핑은 일반적인 이미지 인식 사이트, 병충해나 질병이[12][13] 있는 작물의 이미지를 특정하기 위해 특별히 만들어진 웹사이트에서도 사용됩니다.

광고용

몇몇 스크레이퍼 사이트는 광고 프로그램을 사용하여 돈을 벌기 위해 만들어졌다.이 경우 Made for AdSense 사이트 또는 MFA라고 합니다.광고 [14]클릭만을 목적으로 방문자를 유인하는 것 외에는 아무런 보상 가치가 없는 웹사이트를 일컫는 말이다.

AdSense 사이트용으로 제작됨은 검색 결과를 만족스럽지 못한 검색 결과로 희석시키는 검색 엔진 스팸으로 간주됩니다.스크랩된 콘텐츠는 목록에 MFA 웹사이트가 없는 경우 검색 엔진에 표시되는 콘텐츠와 중복됩니다.

일부 스크레이퍼 사이트는 사설 블로그 네트워크를 통해 검색 엔진 순위를 높이기 위해 다른 사이트로 링크합니다.구글이 판다로 알려진 검색 알고리즘을 업데이트하기 전에, 오토 블로그로 알려진 스크레이퍼 사이트는 스팸덱싱으로 알려진 방법을 사용하는 블랙 햇 마케터들 사이에서 꽤 흔했다.

합법성

스크레이퍼 사이트는 저작권법을 위반할 수 있습니다.오픈 콘텐츠사이트에서 콘텐츠를 가져가는 것조차 라이선스를 존중하지 않는 방법으로 행해진다면 저작권 위반이 될 수 있습니다.예를 들어 Wikipedia에서[17] 사용되는 GNU Free Documentation License(GFDL)[15] Creative Commons ShareAlike(CC-BY-SA)[16] 라이센스는 Wikipedia의 재게시자가 이러한 라이센스의 조건을 독자에게 알리고 원본 작성자에게 [original research?]크레딧을 제공해야 합니다.

기술

스크레이퍼의 목적에 따라 웹 사이트를 대상으로 하는 방법이 달라집니다.예를 들어, 항공사, 가전제품, 백화점 등과 같이 콘텐츠가 많은 사이트는 가격 정보에 보조를 맞추기 위해 일상적으로 경쟁의 표적이 될 수 있다.

또 다른 유형의 스크레이퍼는 그들이 목표로 삼은 키워드의 상위 순위를 차지하는 웹사이트에서 단편과 텍스트를 추출합니다.이렇게 하면 검색 엔진 결과 페이지(SERP)에서 상위 순위를 차지하여 원래 페이지의 페이지 순위를 피기백할 수 있습니다.RSS 피드는 스크레이퍼에 취약합니다.

다른 스크레이퍼 사이트는 사전에서 무작위로 선택된 단어들의 광고와 단락으로 구성되어 있다.방문자는 종종 이러한 사이트의 클릭당 유료 광고를 클릭할 것입니다. 왜냐하면 이 광고는 이 페이지에서 유일하게 이해할 수 있는 텍스트이기 때문입니다.이러한 스크레이퍼 사이트의 운영자는 이러한 클릭을 통해 금전적으로 이익을 얻을 수 있습니다.광고 네트워크는 이러한 사이트를 프로그램에서 제거하기 위해 끊임없이 노력하고 있지만, 이러한 네트워크는 이러한 종류의 사이트에서 발생하는 클릭으로 직접 혜택을 받습니다.광고주의 관점에서 볼 때, 방송사들은 이 문제를 막기 위한 충분한 노력을 하지 않는 것 같다.

스크레이퍼는 링크 팜과 관련된 경향이 있으며 여러 스크레이퍼가 동일한 대상 사이트에 링크될 때 동일한 것으로 인식될 수 있습니다.다수의 스크레이퍼 사이트에서 링크된 피해자 웹사이트로의 착신 링크의 인위적인 패턴으로 인해 빈번한 대상 피해자 사이트는 링크 팜 참여로 고발될 수 있습니다.

도메인 하이잭

스크레이퍼 사이트를 만드는 일부 프로그래머는 최근 만료된 도메인 이름을 구입하여 Google에서 SEO 기능을 재사용할 수 있습니다.모든 기업은 유효기간이 지난 모든 도메인을 파악하여[citation needed] 과거의 순위 부여 능력을 위해 활용하는 데 주력하고 있습니다.이렇게 하면 SEO는 도메인 이름에 대해 이미 확립된 백링크를 이용할 수 있습니다.일부 스팸 발송자는 만료된 사이트의 주제를 일치시키거나 인터넷 아카이브에서 기존 콘텐츠를 복사하여 백링크가 끊어지지 않도록 사이트의 신뢰성을 유지할 수 있습니다.예를 들어 사진작가에 관한 기한이 지난 웹 사이트를 재등록하여 사진작가의 팁에 관한 사이트를 만들거나 개인 블로그 네트워크에서 도메인 이름을 사용하여 자신의 사진 사이트에 전력을 공급할 수 있다.

일부 만료된 도메인 이름 등록 에이전트의 서비스는 이러한 만료된 도메인을 찾는 기능과 도메인 이름이 웹 [citation needed]사이트에 있던 HTML을 수집하는 기능을 모두 제공합니다.

참고 항목

레퍼런스

  1. ^ Google이 Amazon, Yelp, TripAdvisor에서 불법적으로 콘텐츠를 가져갔다고 보고서는 밝혔다.
  2. ^ Tinder에서 유명인처럼 보이는 사람을 찾을 수 있는 앱입니다.
  3. ^ 데이트 앱 보스는 동의 없이 페이스매칭에 '문제없다'고 본다.
  4. ^ Dating.ai 앱은 당신을 유명인의 외모와 매치합니다.
  5. ^ 얼굴인식 앱은 낯선 사람을 온라인 프로필에 연결시켜 줍니다.
  6. ^ NameTag: 섬뜩하고 침습적이라고 비판받는 얼굴인식 앱
  7. ^ 스와이프 버스터
  8. ^ 스토커 친화적인 앱인 Name Tag는 얼굴 인식을 사용하여 온라인으로 검색한다.
  9. ^ 이 스마트(단, 불안함) 앱을 통해 전화를 다른 사람에게 연결하면 다른 사람이 누구인지 알 수 있습니다.
  10. ^ Truly.am는 얼굴 인식을 사용하여 온라인 데이트 확인에 도움이 됩니다.
  11. ^ 얼굴을 검색하는 3가지 매력적인 검색 엔진
  12. ^ Wolfram은 당신이 던지는 어떤 이미지라도 식별할 수 있는 웹사이트를 만들었습니다.
  13. ^ 기계학습으로 소규모 농부들이 식물의 해충과 질병을 식별할 수 있다
  14. ^ AdSense용
  15. ^ "Text of the GNU Free Documentation License".
  16. ^ "Creative Commons Attribution-ShareAlike 3.0 Unported License".
  17. ^ "Wikipedia:Reusing Wikipedia content".