스팸 삭제
Spamdexing스팸 추출(검색 엔진 스팸, 검색 엔진 중독, 블랙 햇 검색 엔진 최적화, 검색 스팸 또는 웹 [1]스팸이라고도 함)은 검색 엔진 인덱스를 의도적으로 조작하는 것입니다.여기에는 링크 구축 및 관련 없는 문구 반복과 같은 여러 가지 방법이 포함되며 인덱싱 시스템의 [2][3]목적과 일치하지 않는 방식으로 인덱싱된 리소스의 관련성 또는 중요도를 조작할 수 있습니다.
웹 사이트 콘텐츠의 품질과 외관을 개선하고 [4]많은 사용자에게 유용한 콘텐츠를 제공하는 많은 검색 엔진 최적화 방법이 있지만, 스팸 추출은 검색 엔진 최적화의 일부로 간주될 수 있습니다.
검색 엔진은 다양한 알고리즘을 사용하여 관련 순위를 결정합니다.이러한 작업에는 검색어가 웹 페이지의 본문 텍스트 또는 URL에 표시되는지 확인하는 작업이 포함됩니다.대부분의 검색 엔진은 스팸 검색 인스턴스를 검사하고 색인에서 의심스러운 페이지를 제거합니다.또한 검색 엔진 운영자는 스팸 추출을 사용하는 전체 웹사이트의 결과 목록을 빠르게 차단할 수 있습니다. 아마도 잘못된 일치에 대한 사용자의 항의에 대한 응답일 것입니다.1990년대 중반 스팸 발송의 증가는 그 시대의 선도적인 검색 엔진을 덜 유용하게 만들었다.비윤리적인 방법을 사용하여 웹 사이트를 검색 엔진 결과에서 다른 방법보다 더 높은 순위를 매기는 것을 SEO(검색 엔진 최적화) 업계에서는 일반적으로 "블랙 햇 SEO"라고 부릅니다.이러한 방법은 검색 엔진 프로모션 규칙 및 지침을 위반하는 데 더 초점이 맞춰져 있습니다.이 외에도, 가해자들은 구글 판다와 구글 펭귄 검색 결과 순위 [5]매기기 알고리즘에 의해 그들의 웹사이트가 심각한 처벌을 받을 위험을 무릅쓰고 있다.
일반적인 스팸 추출 기술은 콘텐츠 스팸[4](또는 스팸이라는 용어)과 링크 [3]스팸의 두 가지 큰 클래스로 분류할 수 있습니다.
역사
1996년 5월 22일자 보스턴 헤럴드지에 실린 에릭 컨베이어의 기사 'Porn skeeks way back on Web(Porn sneeks way on Web)'에서 스팸덱싱이라는 용어에 대해 가장 먼저[2] 언급한 것은 다음과 같다.
이 문제는 사이트 운영자가 웹 페이지를 수백 개의 관련 없는 용어로 로드하여 검색 엔진이 합법적인 주소 사이에 나열할 때 발생합니다.이 프로세스를 "스팸덱싱(spamdexing)"이라고 합니다.스팸은 스팸(사용자에게 원하지 않는 정보를 보내는 인터넷 용어)과 "인덱싱([2]indexing)"의 합성어입니다.
콘텐츠 스팸
이러한 기법에는 검색 엔진이 페이지 내용에 대해 가지는 논리적 보기를 변경하는 작업이 포함됩니다.이들은 모두 텍스트 수집에 대한 정보 검색을 위한 벡터 공간 모델의 변형을 목표로 한다.
키워드 입력
키워드 입력에는 페이지 내의 키워드를 계산하여 배치하여 페이지의 키워드 수, 종류 및 밀도를 높입니다.이 기능은 웹 크롤러와 관련이 있는 것처럼 보이도록 페이지를 찾을 수 있도록 하는 데 유용합니다.예: 폰지 스킴의 발기인은 자신의 사기행각을 광고하는 사이트로 웹서퍼들을 끌어들이고 싶어 한다.그는 인기 음악 그룹의 팬 페이지에 어울리는 숨겨진 텍스트를 자신의 페이지에 배치하고 페이지가 팬 사이트로 등재되어 음악 애호가들의 방문을 많이 받기를 바란다.이전 버전의 색인 프로그램에서는 키워드가 표시되는 빈도를 세어 관련 수준을 결정하는 데 사용했을 뿐입니다.대부분의 최신 검색 엔진에는 검색 엔진 트래픽을 유인하기 위해 특별히 만들어진 다른 사이트와 일치하는 빈도가 있는지 여부를 확인할 수 있는 기능이 있습니다.또한 큰 웹 페이지는 잘리기 때문에 하나의 [citation needed]웹 페이지에서 방대한 사전 목록을 인덱싱할 수 없습니다.(단, 스팸 발송자는 여러 웹 페이지를 개별적으로 설정하거나 서로 링크하는 것만으로 이러한 웹 페이지 크기 제한을 피할 수 있습니다.)
숨김 또는 숨김 텍스트
관련 없는 숨겨진 텍스트는 배경과 같은 색으로 하거나 작은 글꼴 크기를 사용하거나 "프레임 없음" 섹션, alt 속성, 0 크기 DIV 및 "스크립트 없음" 섹션과 같은 HTML 코드 내에 숨김으로써 위장됩니다.검색 엔진 회사의 빨간색 플래그가 부착된 웹 사이트를 수동으로 스크리닝하는 사람들은 일부 페이지에 보이지 않는 텍스트가 있다는 이유로 웹 사이트 전체를 일시적으로 또는 영구적으로 차단할 수 있습니다.그러나 숨겨진 텍스트가 항상 스팸 발송되는 것은 아닙니다. 접근성을 [6]높이기 위해 사용할 수도 있습니다.
메타태그 충전재
여기에는 메타 태그에서 키워드를 반복하고 사이트의 내용과 관련이 없는 메타 키워드를 사용해야 합니다.이 전략은 [citation needed]2005년부터 효과가 없었다.
출입구 페이지
"게이트웨이" 또는 출입구 페이지는 매우 적은 콘텐츠로 만들어진 낮은 품질의 웹 페이지이며, 대신 매우 유사한 키워드와 문구로 채워집니다.검색 결과에서 높은 순위를 차지하도록 설계되었지만 정보를 찾는 방문자에게는 아무런 도움이 되지 않습니다.출입구 페이지에는 일반적으로 페이지에 "입력하려면 여기를 클릭"이 있습니다.또, 자동 보증을 사용할 수도 있습니다.2006년 구글은 독일 사이트인 BMW.de에 "홈페이지"[7]를 사용했다는 이유로 자동차 제조업체 BMW를 퇴출시켰다.
스크레이퍼 사이트
스크레이퍼 사이트는 검색 결과 페이지 또는 기타 콘텐츠 소스를 "스케이핑"하고 [citation needed]웹 사이트의 "콘텐츠"를 작성하도록 설계된 다양한 프로그램을 사용하여 생성됩니다.이러한 사이트에서의 콘텐츠의 구체적인 프레젠테이션은 독특하지만, 다른 소스로부터 취합한 컨텐츠의 조합에 지나지 않습니다(대부분의 경우, 허가 없이).이러한 웹 사이트는 일반적으로 (클릭당 결제 광고 등) 광고로 가득 차 있거나 사용자를 다른 사이트로 리디렉션합니다.스크레이퍼 사이트들은 자신의 정보와 조직명을 위해 원래 웹사이트보다 순위를 매기는 것도 가능하다.
물품 회전
기사 회전은 단순히 다른 사이트에서 콘텐츠를 스크랩하는 것이 아니라 기존 기사를 고쳐 쓰는 것을 포함하므로 중복 콘텐츠에 대한 검색 엔진에 의해 부과되는 처벌을 피할 수 있습니다.이 과정은 고용된[citation needed] 작가에 의해 수행되거나 시소러스 데이터베이스 또는 신경망을 사용하여 자동화됩니다.
기계 번역
기사 스피닝과 마찬가지로 일부 사이트에서는 기계번역을 사용하여 콘텐츠를 여러 언어로 렌더링합니다.인간의 편집은 필요 없습니다.그 결과, 이해하기 어려운 텍스트가 생성되어도, 검색 엔진에 의해서 계속 인덱스가 작성되어 트래픽을 끌어당깁니다.
링크 스팸
링크 스팸은 [8]장점 이외의 이유로 존재하는 페이지 간의 링크로 정의됩니다.링크 스팸은 링크 기반의 랭킹알고리즘을 이용합니다.이 알고리즘은 다른 상위 웹사이트가 링크할수록 웹사이트의 랭킹이 높아집니다.이러한 기술은 HITS 알고리즘 [citation needed]등의 다른 링크 기반 랭킹 기술에 영향을 주는 것도 목적으로 합니다.
링크 팜
링크 팜은 검색 엔진 순위 지정 알고리즘을 이용하기 위한 유일한 목적으로 서로 링크하는 긴밀하게 연결된 웹 사이트 네트워크입니다.이것들은 또한 익살스럽게 상호 동경의 [9]사회로 알려져 있다.2011년 2월 Google의 첫 번째 Panda Update가 출시되면서 링크 팜의 사용이 크게 감소했으며, 이로 인해 스팸 탐지 알고리즘이 대폭 개선되었습니다.
개인 블로그 네트워크
블로그 네트워크(PBN)는 검색 엔진 랭킹을 높이기 위해 소유자의 메인 웹 사이트를 가리키는 컨텍스트 링크의 소스로 사용되는 권위 있는 웹 사이트 그룹입니다.PBN 웹 사이트의 소유자는 만료된 도메인 또는 상위 권한 웹 사이트의 백링크가 있는 경매 도메인을 사용합니다.구글은 2014년 [10]이후 여러 차례 대규모 색인 해제 캠페인을 통해 PBN 사용자를 대상으로 하고 처벌했습니다.
숨김 링크
방문자가 볼 수 없는 곳에 하이퍼링크를 설치하는 것은 링크의 인기를 높이기 위해 사용됩니다.강조 표시된 링크 텍스트는 해당 문구와 일치하는 웹 페이지의 순위를 높게 매기는 데 도움이 됩니다.
시빌 공격
시빌 공격은 유명한 해리성 정체성 장애 환자 "시빌"[citation needed]의 이름을 딴 악의적인 의도를 가진 여러 개의 신원을 위조하는 것이다.스팸 발송자는 가짜 블로그(스팸 블로그)와 같이 서로 링크되는 서로 다른 도메인 이름으로 여러 웹 사이트를 만들 수 있습니다.
스팸 블로그
스팸 블로그는 상업적인 홍보 및 대상 사이트로의 링크 권한 전달을 목적으로만 작성된 블로그입니다.이러한 「스플로그」는, 정당한 Web 사이트의 효과를 가져오는 오해의 소지가 있는 방법으로 설계되는 경우가 많지만, 면밀한 검사를 실시하면, 스피닝 소프트웨어를 사용해 작성되거나, 거의 읽을 수 없는 컨텐츠로 작성되는 경우가 많습니다.그것들은 본질적으로 연계 [citation needed]농장과 유사하다.
게스트 블로그 스팸
게스트 블로그 스팸은 게스트 블로그를 다른 웹 사이트 또는 웹 사이트에 링크하기 위한 목적으로만 웹 사이트에 게시하는 프로세스입니다.안타깝게도, 이들은 종종 링크를 배치하는 것 외에 다른 동기로 게스트 블로그를 합법적으로 작성하는 것과 혼동됩니다.이 기술은 Matt Cutts에 의해 유명해졌는데, 그는 이러한 형태의 링크 [11]스팸에 대한 "전쟁"을 공개적으로 선언했다.
만료된 도메인 구입
일부 링크 스팸 발송자는 만료된 도메인 크롤러 소프트웨어를 사용하거나 곧 만료될 도메인의 DNS 레코드를 모니터링한 다음 만료될 때 구입하고 페이지에 대한 링크로 페이지를 바꿉니다.그러나 Google이 만료된 [citation needed]도메인의 링크 데이터를 재설정하는 것은 가능하지만 확인되지 않습니다.도메인에 대한 이전의 모든 Google 순위 데이터를 유지하려면 "삭제"되기 전에 구매자가 도메인을 획득하는 것이 좋습니다.
이러한 기술 중 일부는 Google 폭탄 작성에 적용될 수 있습니다. 즉, 다른 사용자와 협력하여 특정 쿼리의 특정 페이지 순위를 올리기 위해서입니다.
쿠키 스터핑
쿠키 스터핑은 웹사이트 방문자의 컴퓨터에 그들이 모르는 사이에 제휴사 추적 쿠키를 올리는 것을 포함하며, 이것은 쿠키 스터핑을 하는 사람에게 수익을 창출할 것이다.이는 사기에 의한 제휴사 매출을 발생시킬 뿐만 아니라 다른 제휴사의 쿠키를 덮어쓸 가능성이 있으며, 기본적으로 합법적으로 벌어들인 수수료를 가로챌 수 있습니다.
전역 쓰기 가능한 페이지 사용
사용자가 편집할 수 있는 웹 사이트는 적절한 안티스팸 조치가 취해지지 않은 경우 스팸 탐지자가 스팸 사이트에 대한 링크를 삽입하는 데 사용할 수 있습니다.
자동화된 스팸봇으로 인해 사용자가 편집할 수 있는 사이트 부분을 빠르게 사용할 수 없게 될 수 있습니다.프로그래머들은 스팸봇을 차단하거나 최소한 속도를 늦추기 위해 다양한 자동화된 스팸 방지 기술을 개발했습니다.
블로그 스팸
블로그 스팸은 다른 사이트에 링크를 랜덤하게 배치하거나 요청하는 것으로, 원하는 키워드를 인바운드 링크의 하이퍼링크 텍스트에 배치합니다.방명록, 포럼, 블로그 및 방문자의 의견을 받아들이는 사이트는 특별한 대상이며, 대개는 관계없고 원치 않는 링크가 포함된 무의미한 게시물을 자동 소프트웨어로 생성하는 드라이브 바이 스팸의 희생양이 됩니다.
댓글 스팸
댓글 스팸은 Wiki, 블로그 및 게스트북 등의 동적 사용자 편집을 허용하는 웹 페이지에서 발생하는 링크 스팸의 한 형태입니다.Wikipedia 문서 등 사용자가 편집한 웹 페이지를 자동으로 선택하고 스팸 [12]링크를 추가하는 에이전트가 작성될 수 있기 때문에 문제가 발생할 수 있습니다.
Wiki 스팸
Wiki 스팸은 스팸 발송자가 Wiki 시스템의 개방형 편집 기능을 사용하여 Wiki 사이트에서 스팸 사이트로 링크를 배치하는 것입니다.
Referrer 로그 스팸 발송
레퍼러 스팸은 스팸 가해자 또는 퍼실리테이터가 다른 웹 페이지(레퍼러)의 링크를 따라 웹 페이지(레퍼러)에 접속할 때 발생하며, 레퍼러 주소가 사용자의 인터넷 브라우저에 의해 부여됩니다.일부 웹 사이트에는 해당 사이트에 링크된 페이지를 보여주는 레퍼러 로그가 있습니다.로봇이 레퍼러로 지정된 메시지 또는 특정 주소를 사용하여 여러 번 사이트에 랜덤하게 액세스하면 해당 메시지 또는 인터넷 주소가 레퍼러 로그가 있는 사이트의 레퍼러 로그에 나타납니다.일부 웹 검색 엔진은 사이트에 링크되어 있는 다른 사이트의 수에 따라 사이트의 중요성을 고려하기 때문에 referrer-log 스팸은 스팸 발송자의 사이트의 검색 엔진 순위를 높일 수 있습니다.또한 로그에서 레퍼러 로그 엔트리를 발견한 사이트 관리자는 링크를 따라 스팸 발송자의 레퍼러 페이지로 돌아갈 수 있습니다.
대책
사용자가 편집할 수 있는 웹 페이지에 게시된 대량의 스팸 때문에 구글은 링크와 함께 내장될 수 있는 "nofollow" 태그를 제안했다.구글의 PageRank 시스템과 같은 링크 기반 검색 엔진은 링크에 nofollow 태그가 있을 경우 링크된 웹사이트의 점수를 높이기 위해 링크를 사용하지 않습니다.이렇게 하면 사용자가 편집할 수 있는 웹 사이트에 대한 스팸 링크가 검색 엔진과 함께 사이트의 순위를 올리지 않습니다.Nofollow는 Wordpress, Blogger,[citation needed] Wikipedia를 포함한 여러 주요 웹사이트에서 사용됩니다.
기타 타입
웹 사이트 미러링
미러 사이트는 개념적으로는 비슷하지만 다른 URL을 사용하여 여러 웹 사이트를 호스팅하는 것입니다.일부 검색 엔진에서는 검색된 키워드가 URL에 표시되는 결과에 더 높은 순위를 부여합니다.
URL 리다이렉션
URL 리다이렉션은 사용자가 개입하지 않고 다른 페이지로 이동하는 것입니다.예를 들어, META 리프레시 태그, 플래시, JavaScript, 자바 또는 서버 측 리다이렉트를 사용합니다.단, 301 리다이렉트(영구 리다이렉트)는 악의적인 동작으로 간주되지 않습니다.
클로킹
클로킹은 검색엔진 스파이더에게 페이지를 제공하는 여러 수단 중 하나로, 사용자가 보는 것과는 다른 것을 말한다.특정 웹 사이트의 콘텐츠에 대한 검색 엔진을 오도하려는 시도일 수 있습니다.그러나 클로킹은 장애가 있는 사용자에게 사이트의 접근성을 윤리적으로 높이거나 검색 엔진이 처리하거나 구문 분석할 수 없는 콘텐츠를 인간 사용자에게 제공하기 위해 사용될 수도 있습니다.또한 사용자의 위치를 기반으로 콘텐츠를 전달하는 데에도 사용됩니다. Google은 결과를 제공하기 위해 클로킹의 한 형태인 IP 전송을 사용합니다.클로킹의 또 다른 형태는 코드 스와프입니다.즉, 톱랭킹에 맞추어 페이지를 최적화한 후 톱랭킹에 도달하면 그 자리에서 다른 페이지를 스와프하는 것입니다.구글은 이러한 유형의 리다이렉트를 스니키 [13]리다이렉트라고 부릅니다.
대책
![]() | 이 섹션은 확장해야 합니다.추가하시면 됩니다. (2017년 10월) |
검색 엔진별 페이지 누락
스팸 처리된 페이지는 검색 엔진에 의해 검색 결과에서 제거될 수 있습니다.
사용자별 페이지 누락
사용자는 필터링을 위해 검색 연산자를 사용할 수 있습니다.구글의 경우 키워드 앞에 "-"(마이너스)가 붙으면 해당 키워드가 포함된 사이트가 검색 결과에서 제외됩니다.예를 들어 검색 "-<unwanted site>"는 페이지에 "<unwanted site>"라는 단어가 포함된 사이트와 URL에 "<unwanted site>"가 포함된 페이지를 삭제합니다.
구글이 2011년 출시한 구글 크롬 확장판 퍼스널 블록리스트(by 구글)도 콘텐츠 [14][15]농사에 대한 대책으로 사용할 수 있다.확장을 통해 사용자는 특정 페이지 또는 일련의 페이지가 검색 결과에 나타나지 않도록 차단할 수 있습니다.2021년을 기점으로 원래 확장자는 제거된 것으로 보이지만 유사한 기능 확장을 사용할 수 있습니다.
참고 항목
- 적대적 정보 검색
- 색인(검색 엔진) – 검색 엔진 색인 기술 개요
- Trust Rank
- 웹 스크랩
- Microsoft SmartScreen
- Microsoft Defender
레퍼런스
- ^ Search Engine Land, Danny Sullivan의 검색 엔진 스팸에 대한 비디오 설명, 2008년 10월, Wayback Machine에서 2008-12-17 아카이브. 2008-11-13 취득.
- ^ a b c 「Word Spy - spamdexing」(정의), 2003년 3월, Web 페이지:WordSpy-spamdexing 2014-07-18 Wayback Machine에서 보관되었습니다.
- ^ a b Gyöngyi, Zoltán; Garcia-Molina, Hector (2005), "Web spam taxonomy" (PDF), Proceedings of the First International Workshop on Adversarial Information Retrieval on the Web (AIRWeb), 2005 in The 14th International World Wide Web Conference (WWW 2005) May 10, (Tue)-14 (Sat), 2005, Nippon Convention Center (Makuhari Messe), Chiba, Japan., New York, NY: ACM Press, ISBN 1-59593-046-9, archived (PDF) from the original on 2020-02-15, retrieved 2007-10-05
- ^ a b Ntoulas, Alexandros; Manasse, Mark; Najork, Marc; Fetterly, Dennis (2006), "Detecting Spam Web Pages through Content Analysis", The 15th International World Wide Web Conference (WWW 2006) May 23–26, 2006, Edinburgh, Scotland., New York, NY: ACM Press, ISBN 1-59593-323-9
- ^ Smarty, Ann (2008-12-17). "What Is BlackHat SEO? 5 Definitions". Search Engine Journal. Archived from the original on 2012-06-21. Retrieved 2012-07-05.
- ^ Montti, Roger (2020-10-03). "Everything You Need to Know About Hidden Text & SEO". Search Engine Journal. Archived from the original on 2021-11-22. Retrieved 2021-11-22.
- ^ Segal, David (2011-02-13). "The Dirty Little Secrets of Search". The NY Times. Archived from the original on 2012-07-23. Retrieved 2012-07-03.
- ^ Davison, Brian (2000), "Recognizing Nepotistic Links on the Web" (PDF), AAAI-2000 workshop on Artificial Intelligence for Web Search, Boston: AAAI Press, pp. 23–28, archived (PDF) from the original on 2007-04-18, retrieved 2007-10-23
- ^ "Search Engines:Technology, Society, and Business - Marti Hearst, Aug 29, 2005" (PDF). berkeley.edu. Archived (PDF) from the original on July 8, 2007. Retrieved August 1, 2007.
- ^ "Google Targets Sites Using Private Blog Networks With Manual Action Ranking Penalties". Search Engine Land. 2014-09-23. Archived from the original on 2016-11-22. Retrieved 2016-12-12.
- ^ "The decay and fall of guest blogging for SEO". mattcutts.com. 20 January 2014. Archived from the original on 3 February 2015. Retrieved 11 January 2015.
- ^ Mishne, Gilad; David Carmel; Ronny Lempel (2005). "Blocking Blog Spam with Language Model Disagreement" (PDF). Proceedings of the First International Workshop on Adversarial Information Retrieval on the Web. Archived (PDF) from the original on 2011-07-21. Retrieved 2007-10-24.
- ^ "Sneaky redirects - Search Console Help". support.google.com. Archived from the original on 2015-05-18. Retrieved 2015-05-14.
- ^ "Google検索結果の悪質なサイトを非表示&通報し検索品質アップに貢献できるGoogle公式Chrome拡張機能「Personal Blocklist」". gigazine.net. Archived from the original on 2022-05-27. Retrieved 2017-10-06.
- ^ "New: Block Sites From Google Results Using Chrome's "Personal Blocklist" - Search Engine Land". searchengineland.com. 14 February 2011. Archived from the original on 6 October 2017. Retrieved 6 October 2017.
외부 링크
