웹 쿼리 분류

Web query classification

정보과학에서는 웹 질의 주제 분류/범주화가 문제다. 태스크는 주제에 따라 하나 이상의 미리 정의된 카테고리에 웹 검색 쿼리를 할당하는 것이다. 쿼리 분류의 중요성은 웹 검색에 의해 제공되는 많은 서비스에 의해 강조된다. 직접 애플리케이션은 서로 다른 범주의 관심사를 가진 사용자들에게 더 나은 검색 결과 페이지를 제공하는 것이다. 예를 들어, 웹 질의 "apple"을 발행하는 사용자는 과일 사과와 관련된 웹 페이지를 볼 것을 기대하거나 컴퓨터 회사와 관련된 제품이나 뉴스를 보는 것을 선호할 수 있다. 온라인 광고 서비스는 질의 분류 결과에 의존해 서로 다른 제품을 보다 정확하게 홍보할 수 있다. 검색 결과 페이지는 쿼리 분류 알고리즘에 의해 예측된 범주에 따라 그룹화할 수 있다. 그러나 쿼리 분류의 계산은 비교가 안 된다. 문서 분류 태스크와는 달리, 웹 검색 사용자가 제출한 쿼리는 대개 짧고 모호하며, 또한 쿼리의 의미도 시간이 지남에 따라 진화하고 있다. 따라서 질의 주제 분류는 기존의 문서 분류 과제보다 훨씬 어렵다.

KDDCUP 2005

KDDCUP 2005 대회는[1] 질의 분류에 대한 관심을 강조했다. 이 대회의 목표는 80만 개의 실제 사용자 쿼리를 67개의 목표 범주로 분류하는 것이다. 각 쿼리는 둘 이상의 대상 범주에 속할 수 있다. QC 과제의 예로서, 질의 "apple"을 고려할 때, 그것은 "Computers \ Hardware; Living \ Food & Cooking"의 순위 범주로 분류되어야 한다.

질의 분류
사과 컴퓨터 \ 하드웨어
리빙 \ 푸드 & 쿠킹
FIFA 2006 스포츠 \ 축구
스포츠 \ 일정 & 티켓
엔터테인먼트 \ 게임 & 장난감
치즈케이크 요리법 리빙 \ 푸드 & 쿠킹
정보 \ 예술 & 인문학
우정의 시 정보 \ 예술 & 인문학
리빙 \ 데이트 & 관계

Web query length.gif Web query meaning.gif

어려움

웹 쿼리 항목 분류는 쿼리를 미리 정의된 일부 범주에 자동으로 할당하는 것이다. 기존의 문서 분류 작업과는 달리, 웹 질의 이해의 진행을 방해하는 몇 가지 주요 어려움이 있다.

웹 쿼리에 적합한 피쳐 표현을 도출하는 방법

많은 쿼리는 짧고 쿼리 용어는 시끄럽다. 예를 들어, KDDCUP 2005 데이터 집합에서 3개의 단어를 포함하는 쿼리가 가장 빈번하다(22%) 또한 79%의 쿼리는 4단어 이하가 된다. 사용자 쿼리는 종종 여러 의미를 갖는다. 예를 들어, "애플"은 과일의 일종이나 컴퓨터 회사를 의미할 수 있다. "자바"는 인도네시아에서 프로그래밍 언어나 섬을 의미할 수 있다. KDDCUP 2005 데이터 집합에서 대부분의 쿼리는 둘 이상의 의미를 포함하고 있다. 따라서 쿼리의 키워드를 사용해서만 분류를 위한 벡터 공간 모델을 설정하는 것은 적절하지 않다.

  • 쿼리 기반 방법은 검색[2][3] 엔진을 통해 텍스트 문서 모음으로 사용자 쿼리를 강화하는 것으로 시작한다. 따라서 각 쿼리는 검색 엔진에서 검색한 상위 결과 페이지의 스니펫으로 구성된 유사 문서로 표현된다. 이후 텍스트 문서는 순진한 베이즈(NB), 지원 벡터 머신(SVM) 등 동의어 기반 분류기 또는 통계 분류기를 사용하여 대상 범주로 분류된다.

시간 경과에 따라 쿼리와 범주의 변경사항을 조정하는 방법

질의의 의미 또한 시간이 지남에 따라 진화할 수 있다. 따라서 라벨이 붙어 있는 오래된 훈련 질의는 곧 데이터가 부족하고 쓸모 없게 될 수도 있다. 분류기를 어떻게 시간이 지남에 따라 적응시키느냐가 큰 이슈가 된다. 예를 들어 바르셀로나라는 단어는 AMD의 새로운 마이크로프로세서라는 새로운 의미를 갖고 있는 반면, 2007년 이전의 도시나 축구 클럽을 지칭한다. 그러므로 이 용어의 의미 배포는 웹 상에서 시간의 함수다.

  • 중간 분류법 기반 방법은[4] 먼저 ODP(Open Directory Project)와 같은 중간 분류법에 오프라인 모드로 브리징 분류기를 구축한다. 이 분류기는 온라인 모드에서 중간 분류법을 통해 사용자 쿼리를 대상 범주에 매핑하는 데 사용된다. 이 접근방식의 이점은 브리징 분류기는 단 한 번만 훈련되어야 하며 각각의 새로운 대상 범주와 들어오는 질의 집합에 적응할 수 있다는 것이다.

레이블이 없는 쿼리 로그를 사용하여 쿼리 분류에 도움이 되는 방법

쿼리 분류를 위해 수동으로 라벨이 부착된 교육 데이터는 비용이 많이 들기 때문에, 자동 쿼리 분류를 돕기 위해 라벨이 부착되지 않은 데이터의 소스로 매우 큰 웹 검색 엔진 쿼리 로그를 사용하는 방법이 뜨거운 이슈가 되고 있다. 이러한 로그는 검색 엔진을 통해 정보를 검색할 때 웹 사용자의 행동을 기록한다. 수년간 쿼리 로그는 월드 와이드 웹에 대한 웹 사용자들의 지식을 담고 있는 풍부한 자원이 되었다.

  • 쿼리 클러스터링 방법은[5] 단일 사용자 상호 작용의 여러 쿼리 및 클릭스루 정보를 포함하는 "세션 데이터"를 클러스터링하여 관련 쿼리를 연결하려고 시도한다. 그들은 질의 집합이 공통적으로 가지고 있는 결과 문서의 용어를 고려한다. 질의 키워드를 세션 데이터와 함께 사용하는 것이 질의 클러스터링을 수행하는 가장 효과적인 방법인 것으로 나타났다.
  • 선택적 기본 설정 기반[6] 메서드는 쿼리 용어 사이의 일부 연결 규칙을 이용하여 쿼리 분류를 돕는다. 교육 데이터를 고려할 때, 그들은 라벨링된 데이터를 사용한 정확한 일치, 라벨링된 데이터를 사용한 N-Gram 일치, 지각에 기초한 분류자를 포함한 몇 가지 분류 접근법을 이용한다. 그들은 선택적 선호라는 컴퓨터 언어학에서 채택된 접근방식을 강조한다. x와 y가 한 쌍(x; y)을 형성하고 y가 범주 c에 속하면 x가 헤딩한 다른 모든 쌍(x; z)은 c에 속한다. 이들은 라벨이 부착되지 않은 쿼리 로그 데이터를 사용하여 이러한 규칙을 파악하고 라벨이 부착된 일부 쿼리에 대한 접근법의 효과를 검증한다.

적용들

  • 메타서치 엔진은 여러 검색 엔진에 사용자 쿼리를 보내고 각각의 상위 결과를 하나의 전체 목록으로 혼합한다. 검색 엔진은 웹 사용자의 탐색을 편리하게 하기 위해 발급된 질의의 잠재적 범주에 따라 검색 결과의 많은 수의 웹 페이지를 구성할 수 있다.
  • 수직적 검색은 일반 검색에 비해 특정 영역에 초점을 맞추고 틈새 대상자와 직업의 특정 정보 요구를 해결한다. 일단 검색엔진은 웹 사용자가 찾고 있는 정보의 범주를 예측할 수 있게 되면 사용자가 수직 검색엔진에 명시적으로 접근하도록 강요하지 않고 특정 수직 검색엔진을 자동으로 선택할 수 있다.
  • 온라인 광고[7][8] 웹 사용자들이 검색 활동을 하는 동안 흥미로운 광고를 제공하는 것을 목표로 한다. 검색 엔진은 웹 사용자들에게 그들의 관심사에 따라 적절한 광고를 제공할 수 있기 때문에, 웹 사용자들은 그들의 광고 비용을 줄일 수 있는 반면, 웹 사용자들은 연구에 시간과 노력을 절약할 수 있다.

이 모든 서비스는 웹 쿼리를 통해 웹 사용자의 검색 내용을 이해하는 것에 의존한다.

참고 항목

참조

  1. ^ KDDCUP 2005 데이터 집합
  2. ^ 션 외 "Q2C@UST: 질의 분류에 대한 우리의 승리 솔루션" ACM SIGKDD 탐사, 2005년 12월 제7권 제2호.
  3. ^ 션 외 "쿼리를 위한 쿼리 농축" ACM TOIS, Vol. 24, 2006년 7월 3일.
  4. ^ 션 외 "웹 질의 분류를 위한 교량 구축" ACM SIGIR, 2006.
  5. ^ Wen 외. "사용자 로그를 사용한 쿼리 클러스터링", ACM TOIS, Volume 20, 이슈 1, 2002년 1월.
  6. ^ 베이첼 외 "표시되지 않은 매우쿼리 로그를 사용한 웹 쿼리의 자동 분류", ACM TOIS, 제25권, 제2호, 2007년 4월.
  7. ^ 광고용 데이터 마이닝 시청자 인텔리전스(ADKDD'07), KDD 워크샵 2007
  8. ^ 온라인 광고(TROA'08)의 타겟팅 및 순위, WWW 워크샵 2008

추가 읽기