웹 쿼리

Web query

웹 쿼리 또는 웹 검색 쿼리는 사용자가 자신정보 요구를 충족시키기 위해 웹 검색 엔진에 입력하는 쿼리다. 웹 검색 쿼리는 보통 텍스트인 경우가 많고 부울 검색 명령어는 거의 사용되지 않는다는 점에서 독특하다. 그것들은 키워드나 위치 매개변수가 있는 명령어로서 엄격한 구문 규칙에 의해 지배되는 표준 질의어와는 크게 다르다.

종류들

대부분의 웹 검색 쿼리를 다루는 세 가지 범주가 있다: 정보, 탐색 및 트랜잭션.[1] 이런 것들을 '도(do, know, go)'라고도 하는데,[2] 이 검색 모델은 이론적으로 도출되지 않았지만, 실제 검색엔진 쿼리를 통해 그 분류가 실증적으로 검증되었다.[3]

  • 정보 쿼리 – 수천 개의 관련 결과가 있을 수 있는 광범위한 주제(예: 콜로라도 또는 트럭)를 다루는 쿼리.
  • 탐색 쿼리 – 단일 엔터티의 단일 웹 사이트 또는 웹 페이지(예: 유튜브 또는 델타 에어라인)를 찾는 쿼리.
  • 트랜잭션 쿼리 – 차량 구입 또는 화면 보호기 다운로드와 같은 특정 작업을 수행하려는 사용자의 의도를 반영하는 쿼리.

검색 엔진은 종종 훨씬 덜 자주 사용되는 네 번째 유형의 쿼리를 지원한다.

특성.

검색 쿼리에 대한 검색 제안 목록

대부분의 상용 웹 검색 엔진은 검색 로그를 공개하지 않기 때문에 사용자가 웹에서 검색하는 정보에 대한 정보를 얻기 어렵다.[5] 그럼에도 불구하고, 연구 연구는 1998년에 나타나기 시작했다.[6][7] 익사이즈 검색 엔진의 쿼리를 [8]분석한 2001년 연구는 웹 검색의 몇 가지 흥미로운 특징을 보여주었다.

  • 질의의 평균 길이는 2.4항이었다.
  • 3분의 1도 안 되는 사용자가 3개 이상의 고유 쿼리를 입력하는 동안 사용자의 약 절반은 단일 쿼리를 입력했다.
  • 사용자의 절반 가까이가 처음 한두 페이지(페이지당 10개의 결과)의 결과만을 조사했다.
  • 사용자의 5% 미만이 고급 검색 기능(예: AND, OR 및 NOT와 같은 부울 연산자)을 사용했다.
  • 가장 자주 사용되는 네 가지 용어는 ( 검색), 그리고,(性)이었다.

동일한 익사이즈 쿼리 로그에 대한 연구에 따르면 쿼리 중 19%가 지리적 용어(예: 장소 이름, 우편번호, 지리적 특징 등)[9]를 포함하고 있는 것으로 나타났다.

연구에 따르면 짧은 쿼리(용어가 적은 쿼리) 외에도 사용자가 쿼리를 변경하는 방법에 대해 예측 가능한 패턴이 있다고 한다.[10]

야후의 쿼리 로그에 대한 2005년 연구는 동일한 사용자로부터의 쿼리 중 33%가 반복 쿼리였고 87%의 경우 사용자가 동일한 결과를 클릭할 것이라는 것을 밝혔다.[11] 이것은 많은 사용자들이 정보를 재방문하거나 다시 찾기 위해 반복 쿼리를 사용한다는 것을 암시한다. 이러한 분석은 Bing 검색 엔진 블로그 게시물에 의해 확인되며, 이 게시물에는 약 30%의 쿼리가 탐색적 쿼리라고 적혀 있다.[12]

또한, 연구에 따르면 쿼리 용어 주파수 분포는 전력 법칙 또는꼬리 분포 곡선에 부합한다. 즉, 큰 쿼리 로그에서 관찰된 용어 중 작은 부분(예: 1억 개의 쿼리)이 가장 자주 사용되는 반면, 나머지 용어는 개별적으로 덜 자주 사용된다.[13]Pareto 원칙의 예(또는 80–20 규칙)는 검색 엔진에 인덱스 또는 데이터베이스 분할, 캐싱, 프리페치 등과 같은 최적화 기법을 채택할 수 있도록 허용한다. 또한, 웹 쿼리가 탐색인지, 정보인지, 트랜잭션인지 인식할 수 있는 언어 지향적 속성으로 연구가 수행되었다.[14]

2011년의 한 연구는 질의의 평균 길이가 시간이 지남에 따라 꾸준히 증가해왔고 영어 이외의 언어 질의의 평균 길이가 영어 질의보다 더 많이 증가했다는 것을 발견했다.[15] 구글은 더 많은 검색이 대화형이기 때문에 더 긴 검색 질의를 처리하기 위해 2013년 8월에 벌새 업데이트를 시행했다(예: "가장 가까운 커피숍은 어디인가?"[16]

구조화된 쿼리

부울 연산자와 괄호를 지원하는 검색엔진으로는 사서들이 전통적으로 사용하는 기법을 적용할 수 있다. 몇 가지 주제나 측면을 다루는 문서를 찾고 있는 사용자는 다음과 같은 특징적인 단어를 구분하여 각각을 기술하기를 원할 수 있다. vehicles OR cars OR automobiles. 면면 질의는 그러한 면의 결합이다. 예를 들어 다음과 같은 질의. (electronic OR computerized OR DRE) AND (voting OR elections OR election OR balloting OR electoral) 전자투표, 투표라는 단어 중 하나를 생략해도 전자투표에 관한 문서가 발견될 가능성이 높다.[17]

참고 항목

참조

  1. ^ 브로더, A. (2002) 웹 검색 분류법. SIGIR 포럼, 36(2), 3–10.
  2. ^ Gibbons, Kevin (2013-01-11). "Do, Know, Go: How to Create Content at Each Stage of the Buying Cycle". Search Engine Watch. Retrieved 24 May 2014.
  3. ^ 얀센, B. J., 부스, D., 스핑크, A. (2008) 웹 질의의 정보, 탐색 거래 의도 결정, 정보 처리 및 관리. 44(3), 1251-1266.
  4. ^ Moore, Ross. "Connectivity servers". Cambridge University Press. Retrieved 24 May 2014.
  5. ^ 여명 가와모토·엘리너 밀스(2006) AOL, 사용자 검색 데이터 공개 사과
  6. ^ Jansen, B. J., Spink, A., Bateman, J., Saracevic, T. 1998. 실제 정보 검색: 웹에서 사용자 쿼리에 대한 연구. SIGIR 포럼, 32(1), 5 -17.
  7. ^ Silverstein, C, Henzinger, M, Marais, H, & Moricz, M. (1999년) 매우 큰 웹 검색 엔진 쿼리 로그 분석. SIGIR 포럼, 33(1), 6–12.
  8. ^ Amanda Spink; Dietmar Wolfram; Major B. J. Jansen; Tefko Saracevic (2001). "Searching the web: The public and their queries" (PDF). Journal of the American Society for Information Science and Technology. 52 (3): 226–234. CiteSeerX 10.1.1.23.9800. doi:10.1002/1097-4571(2000)9999:9999<::AID-ASI1591>3.3.CO;2-I.
  9. ^ Mark Sanderson & Janet Kohler (2004). "Analyzing geographic queries". Proceedings of the Workshop on Geographic Information (SIGIR '04).
  10. ^ 얀센, B. J. 부스, D. L., & 스핑크, A. (2009) 웹 검색쿼리 수정 패턴. 미국정보과학기술학회지. 60(3), 557-570. 60(7), 1358-1371.
  11. ^ Jaime Teevan; Eytan Adar; Rosie Jones; Michael Potts (2005). "History repeats itself: Repeat Queries in Yahoo's query logs" (PDF). Proceedings of the 29th Annual ACM Conference on Research and Development in Information Retrieval (SIGIR '06). pp. 703–704. doi:10.1145/1148170.1148326.[영구적 데드링크]
  12. ^ http://www.bing.com/community/site_blogs/b/search/archive/2011/02/10/making-search-yours.aspx
  13. ^ Ricardo Baeza-Yates (2005). "Applications of Web Query Mining". Advances in Information Retrieval. Lecture Notes in Computer Science. Vol. 3408. Springer Berlin / Heidelberg. pp. 7–22. doi:10.1007/978-3-540-31865-1_2. ISBN 978-3-540-25295-5.
  14. ^ Alejandro Figueroa (2015). "Exploring effective features for recognizing the user intent behind web queries". Computers in Industry. Elsevier. 68: 162–169. doi:10.1016/j.compind.2015.01.005.
  15. ^ Mona Taghavi; Ahmed Patel; Nikita Schmidt; Christopher Wills; Yiqi Tew (2011). "An analysis of web proxy logs with query distribution pattern approach for search engines". Journal of Computer Standards & Interfaces. 34 (1): 162–170. doi:10.1016/j.csi.2011.07.001.
  16. ^ Sullivan, Danny (2013-09-26). "FAQ: All About The New Google "Hummingbird" Algorithm". Search Engine Land. Retrieved 24 May 2014.
  17. ^ Vojkan Mihajlović; Djoerd Hiemstra; Henk Ernst Blok; Peter M.G. Apers (October 2006). "Exploiting Query Structure and Document Structure to Improve Document Retrieval Effectiveness" (PDF). {{cite journal}}: Cite 저널은 필요로 한다. journal= (도움말)