정지어

Stop word

중지 단어자연어 데이터(텍스트)의 처리 전 또는 후에 필터링(예: 중지)되는 중지 목록(또는 중지 목록 또는 음의 사전)에 있는 임의의 단어다.[1]모든 자연 언어 처리 도구에 사용되는 단 하나의 보편적인 정지 단어 목록도 없고, 정지 단어 식별에 관한 규칙에도 합의된 것도 없으며, 실제로 모든 도구는 그러한 목록조차 사용하지 않는다.그러므로 어떤 단어의 집단이든 일정한 목적을 위한 정지단어로 선택할 수 있다."시간이 지남에 따라 [정보 검색] 시스템의 일반적인 경향은 상당히 큰 정지목록(200~300 용어)을 표준으로 사용하는 것에서부터 매우 작은 정지목록(7-12 용어)까지이며 정지목록이 전혀 없는 것"[2]

스톱 워드의 역사

이전의 개념은 몇 가지 일치점을 만드는 데 사용되었다.예를 들어, 첫 번째 히브리어 용어인 Me'ir nativ는 색인화되지 않은 단어의 한 페이지 목록을 포함했으며, 현대적인 정지 단어와 유사한 비확실성 전치사와 접속사들을 포함했다.[3]

정보 검색의 선구자 중 한 명인 한스 피터 룬은 자신의 키워드-인-콘텍스트 자동 인덱싱 프로세스를 도입할 때 이 문구를 코칭하고 개념을 사용한 공로를 인정받고 있다.[4]룬의 1959년 발표에는 없는 'stop word'라는 문구와 관련 용어인 'stop list'와 'stop list'가 바로 그 후 문헌에 등장한다.[5]

일반적으로 정지목록에는 언어에서 가장 빈번한 단어만 포함된다고 가정하지만, 단어 빈도 정보에 기초하지 않은 최초의 표준화된 목록을 제안한 사람은 C.J. Van Rijsbergen이었다.'반 리스트'에는 250개의 영어 단어가 포함되어 있었다.1980년대에 개발된 마틴 포터의 단어 유래 프로그램은 밴 리스트에 올라 있으며, 포터 리스트는 현재 다양한 소프트웨어 어플리케이션에서 기본 정지 리스트로 흔히 사용되고 있다.

1990년에 Christopher Fox는 Brown Corpus에서 파생된 경험적 단어 빈도 정보를 바탕으로 최초의 일반 중지 목록을 제안했다.

이 논문은 영어로 된 광범위한 문헌에서 101만4000개의 단어들을 브라운 말뭉치에 기초하여 일반 텍스트의 정지 목록을 작성하는 연습을 보고한다.우리는 우선 브라운 말뭉치에서 300번 이상 발생한 토큰 목록부터 시작한다.이 278개 단어 중에서 32개가 잠재적 지수 용어로서 너무 중요하다는 이유로 도태된다.그런 다음 특정 종류의 문학에서 매우 자주 일어날 수 있다는 믿음으로 26개의 단어가 리스트에 추가된다.마지막으로, 이 목록을 사용하고자 하는 유한 상태 기계 기반 필터는 거의 비용 없이 필터링할 수 있기 때문에 149개의 단어가 목록에 추가된다.최종 산출물은 일반 문헌에서 가장 자주 발생하고 의미론적으로 중립적인 단어를 영어로 걸러내는 데 최대 효율적이고 효과적이어야 하는 421개의 정지어 목록이다.[6]

SEO 용어에서 정지 단어는 크롤이나 인덱싱 중에 대용량 데이터의 처리 시간과 공간을 절약하기 위해 많은 검색 엔진에서 피하는 가장 일반적인 단어다.이것은 검색 엔진들이 그들의 데이터베이스의 공간을 절약하는 것을 돕는다.[7]

일부 검색 엔진의 경우, 이 단어들은 가장 흔하고 짧은 기능 단어들 중 몇 가지인데, 를 들어, 는, at, what, on이다.이 경우 스톱 워드는 특히 "The Who", "The" 또는 "Take That"과 같은 이름에서, 스톱 워드가 포함된 구문을 검색할 때 문제를 일으킬 수 있다.다른 검색 엔진은 성능을 향상시키기 위해 질의에서 "원하는" 것과 같은 어휘적 단어를 포함하여 가장 일반적인 단어 중 일부를 제거한다.[8]

참고 항목

참조

  1. ^ Rajaraman, A.; Ullman, J. D. (2011). "Data Mining" (PDF). Mining of Massive Datasets. pp. 1–17. doi:10.1017/CBO9781139058452.002. ISBN 9781139058452.
  2. ^ Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze (2008). Introduction to Information Retrieval. Cambridge University Press. p. 27.{{cite book}}: CS1 maint : 복수이름 : 작성자 목록(링크)
  3. ^ Weinberg, Bella Hass (2004). "Predecessors of scientific indexing structures in the domain of religion" (PDF). Second Conference on the History and Heritage of Scientific and Technical Information Systems: 126–134. Retrieved 17 February 2016.
  4. ^ Luhn, H. P. (1959). "Keyword-in-Context Index for Technical Literature (KWIC Index)". American Documentation. Yorktown Heights, NY: International Business Machines Corp. 11 (4): 288–295. doi:10.1002/asi.5090110403.
  5. ^ Flood, Barbara J. (1999). "Historical note: The Start of a Stop List at Biological Abstracts". Journal of the American Society for Information Science. 50 (12): 1066. doi:10.1002/(SICI)1097-4571(1999)50:12<1066::AID-ASI5>3.0.CO;2-A.
  6. ^ Fox, Christopher (1989-09-01). "A stop list for general text". ACM SIGIR Forum. 24 (1–2): 19–21. doi:10.1145/378881.378888. ISSN 0163-5840.
  7. ^ "Stop Words and Impact on SEO - Search Engine Nation". Search Engine Nation. 2018-04-24. Retrieved 2018-05-24.
  8. ^ 스택오버플로우(Stackoverflow): "관련 질문" 쿼리에 대한 주요 성능 최적화 중 하나는 SQL Server 2008 전체 텍스트 엔진에 쿼리를 제출하기 전에 (구글 검색에 의해 결정된) 가장 일반적인 10,000개의 영어 사전 단어를 제거하는 것이다.상위 10k 영어 사전 단어를 삭제하면 대부분의 게시물이 얼마나 적게 남는지 충격적이다.이는 반환된 결과를 제한하고 좁히는 데 도움이 되며, 이는 쿼리를 훨씬 더 빠르게 만든다."

외부 링크