확장 부울 모델

Extended Boolean model

Extended Boolean 모델은 Gerard Salton, Edward A에 의해 1983년에 등장한 ACM의 통신 기사에서 설명되었다.폭스, 그리고 해리 우.확장 부울 모델의 목표는 정보 검색에 사용되어 온 부울 모델의 단점을 극복하는 것이다.부울 모델은 쿼리에서 항 가중치를 고려하지 않으며, 부울 질의의 결과 집합이 너무 작거나 너무 큰 경우가 많다.확장 모델의 아이디어는 벡터 공간 모델에서와 같이 부분 일치와 항 가중치를 사용하는 것이다.벡터 스페이스 모델의 특성과 부울대수의 특성을 결합하고 질의와 문서의 유사성을 순위를 매긴다.이러한 방식으로 문서가 쿼리된 일부 조건과 일치하고 결과적으로 반환되는 경우 다소 목적적합할 수 있지만, 표준 부울 모델에서는 그렇지 않았다.[1]null

따라서 확장 부울 모델은 부울과 벡터 공간 모델의 일반화로 간주될 수 있다. 이 두 모델은 적절한 설정과 정의를 채택한 경우 특별한 경우다.또한, 연구는 부울 질의 처리에 비해 효과성이 향상되었음을 보여주었다.다른 연구는 관련성 피드백과 질의 확장이 확장된 부울 질의 처리와 통합될 수 있다는 것을 보여주었다.null

정의들

확장 부울 모델에서 문서는 벡터로 표현된다(벡터 모델에서와 유사함). i차원은 문서와 관련된 별도의 용어에 해당한다.null

문서 dj 연관된 용어 Kx 가중치는 표준화된 용어 빈도로 측정되며 다음과 같이 정의할 수 있다.

여기서 Idfx문서 빈도이며 문서 j에서 용어 x에 대한 용어 f이다x,j.

문서 dj 관련된 중량 벡터는 다음과 같이 나타낼 수 있다.

2차원 예

Figure 1
그림 1: 문서 ddx qy = (K dj K)의j+1 유사성
Figure 2
그림 2: 문서 ddx qy = (K dj K)의j+1 유사성

Kx K라는y 두 용어로만 구성된 공간을 고려할 때 해당 용어의 가중치1 w2 w이다.[2]따라서 질의 qor = (KxKy)에 대해서는 다음 공식과의 유사성을 계산할 수 있다.

쿼리 qand = (KxKy)의 경우 다음을 사용할 수 있다.

아이디어 및 P-표준 일반화

우리는 유클리드 거리를 이용하여 이전의 2D 확장 부울 모델 예를 더 높은 t차원 공간으로 일반화할 수 있다.null

이는 거리 개념을 확장하여 p-distance를 포함하는 P-norms를 사용하여 수행할 수 있다. 여기서 1 ≤ p ≤새로운 매개변수다.[3]null

  • 일반화된 접속 질의를 하는 방법은 다음과 같다.
  • r d 의 유사성은 다음과 같이 정의할 수 있다.

: s d )= + w +.. ..+ 1}^{}

  • 일반화된 이분법적 질의는 다음과 같이 제공된다.
  • 의 유사성은 다음과 같이 정의할 수 있다.

쿼리 q = (K1 K2) K3 고려한다.질의 q와 문서 d의 유사성은 다음 공식을 사용하여 계산할 수 있다.

표준 부울 모델에 대한 개선 사항

Lee와 Fox는[4] Standard와 Extended Boolean 모델을 CISI, CACM, INSEC의 세 가지 테스트 컬렉션과 비교했다.P-표준을 사용해 각각 CIISI, CACM, INSEC 컬렉션에서 표준 모델 대비 평균 79%, 106%, 210%의 정밀도 향상을 얻었다.
P-norm 모델은 필요한 지수 연산의 수 때문에 계산적으로 비용이 많이 들지만 표준 모델과 퍼지 검색 기법보다 훨씬 더 좋은 결과를 얻는다.스탠더드 부울 모델은 여전히 가장 효율적이다.null

추가 읽기

  • 확장부울 모델에서의 Dr.에 관한 연구최종필
  • 확장 부울 검색 모델의 보간
  • Fox, E.; Betrabet, S.; Koushik, M.; Lee, W. (1992), Information Retrieval: Algorithms and Data structures; Extended Boolean model, Prentice-Hall, Inc.
  • Skorkovská, Lucie; Ircing, Pavel (2009), "Experiments with Automatic Query Formulation in the Extended Boolean Model", Text, Speech and Dialogue, Lecture Notes in Computer Science, vol. 5729, Springer Berlin / Heidelberg, pp. 371–378, doi:10.1007/978-3-642-04208-9_51, hdl:11025/16985, ISBN 978-3-642-04207-2

참고 항목

참조

  1. ^ Salton, Gerard; Fox, Edward A.; Wu, Harry (1983), "Extended Boolean information retrieval", Communications of the ACM, Communications of the ACM, Volume 26, Issue 11, 26 (11): 1022–1036, doi:10.1145/182.358466, hdl:1813/6351
  2. ^ "Lusheng Wang". Archived from the original on 2011-09-27. Retrieved 2009-12-01.
  3. ^ Garcia, Dr. E., The Extended Boolean Model - Weighted Queries: Term Weights, p-Norm Queries and Multiconcept Types. Boolean OR Extended? AND that is the Query
  4. ^ Lee, W. C.; Fox, E. A. (1988), Experimental Comparison of Schemes for Interpreting Boolean Queries (PDF)