오카피 BM25

정보 검색에서 Okapi BM25(BM은 best matching의 줄임말)는 검색 엔진이 주어진 검색 쿼리에 대한 문서의 관련성을 추정하기 위해 사용하는 랭킹 함수입니다.이것은 Stephen E. Robertson, Karen Spérck Jones 등이 1970년대와 1980년대에 개발한 확률론적 검색 프레임워크를 기반으로 한다.

실제 랭킹 함수의 이름은 BM25입니다.Okapi BM25라는 풀네임에는 1980년대와 1990년대에 런던 시티 대학에서 구현된 Okapi 정보 검색 시스템인 Okapi BM25가 포함되어 있습니다.BM25 및 BM25F(문서 구조와 앵커 텍스트를 고려할 수 있는 BM25 버전)와 같은 새로운 변형은 문서 ^{[citation needed]}검색에 사용되는 TF-IDF와 같은 검색 기능을 나타냅니다.

순위 매기기 기능

BM25는 문서 내의 근접성에 관계없이 각 문서에 나타나는 쿼리 용어를 기준으로 문서 집합을 서열화하는 단어 모음 검색 기능입니다.이것은 구성 요소와 파라미터가 약간 다른 스코어링 함수 제품군입니다.함수의 가장 두드러진 예시 중 하나는 다음과 같습니다.

$q_{1},...,q_{n}$ $q_{1},...,q_{n}$ 1 $q_{1},...,q_{n}$ , $q_{1},...,q_{n}$ . . $q_{1},...,q_{n}$ , $q_{1},...,q_{n}$ n { $displaystyle q _$ {1} , , $q$ _ { $n$ 를 포함한 $쿼리$ Q 를 지정하면 $문서$ D 의 BM25 스코어는 다음과 같습니다.

{text{score}(D,Q)=\sum _{i=1}^{n}{\text{\text}IDF}}(q_{i})\cdot {f(q_{i},D)\cdot (k_{1}+1)}{f(q_{i},D)+k_{1}\cdot \left (1-b+b\cdot {D}{\text{avgdl}}}\오른쪽)}}

$f(q_{i},D)$ 서 $f(q_{i},D)$ f ( $f(q_{i},D)$ i $f(q_{i},D)$ , $f(q_{i},D)$ D ) { $style$ f ( $q _$ { i , $f(q_{i},D)$ D ) $f(q_i, D)$ 、 $q$ i $q_{i}$ 、 $display style$ $q _$ { $i$ $k_{1}$ $}$ 、 D $|D|$ k 、 D $k$ 、 $k$ k k k D 、 $k$ k k k k k k k k k k k k k k k k k $k$ k k k k k k k k k k k k k k k k k k k $k_{1}$ k k k k k k k k k k k k k k k k k k k k k k k k k k k k k k k k k k k k $및$ b는 $k_{1}\in [1.2,2.0]$ 최적화가 없는 경우 k 1 $k_{1}\in [1.2,2.0]$ [ $k_{1}\in [1.2,2.0]$ , $]$ \ $in$ [ 1.2 , 2. $0$ ] \ $b=0.75$ [ $1 .$ $2$ . 0 . 0 ]및 ${\text{IDF}}(q_{i})$ $b=0.75$ { $display style$ b $= 0$ . 75 $b=0.75$ ^[1] ${\text{IDF}}(q_{i})$ . ${\text{IDF}}(q_{i})$ ( ${\text{IDF}}(q_{i})$ qi )\ $displaystyle$ { $k_{1}\in [1.2,2.0]$ $text$ { text ${\text{IDF}}(q_{i})$ }로서 $k_1 \in [1.2,2.0]$ 선택되는 자유 파라미터입니다. $IDF}}(q_{i})$ 는 $\text{IDF}(q_i)$ 쿼리 $q_{i}$ $({$ 의 IDF(역문서 빈도) 가중치입니다.일반적으로 다음과 같이 계산됩니다.

디스플레이 스타일IDF}}(q_{i})=\ln \leftfac {N-n(q_{i})+0.5}{n(q_{i}+0.5}}+1\right)}

여기서 N은 컬렉션에 포함된 문서의 $n(q_{i})$ 입니다 $n(q_{i})$ ( $n(q_{i})$ i ) { $displaystyle$ n ( $q$ _ { $i$ $n(q_{i})$ } ) $q_{i}$ 、 $q$ i $q_{i}$ _ { i $q_{i}$ } 。

IDF에 대한 해석과 공식에 대한 약간의 변화가 있다.원래의 BM25 파생 모델에서는, IDF 컴포넌트는 바이너리 독립 모델로부터 파생됩니다.

IDF 정보 이론적 해석

여기 정보 이론의 해석이 있다.쿼리 $용어$ q { $displaystyle$ $q$ $n(q)$ 가 n ( q $n(q)$ ) { $displaystyle$ n $(q)}$ 문서에 $q$ $n(q)$ $n(q)$ 가정합니다.그런 다음 무작위로 선택된 $문서$ D(\ $displaystyle$ D $)$ 에는 $D$ 확률 ${\frac {n(q)}{N}}$ (\ $display\frac {n(q)}{N})$ 이라는 용어가 포함됩니다( $N$ 서N(\ $displaystyle$ N $)$ 은 $N$ 컬렉션 내 문서 세트의 카디널리티입니다).따라서 " $\displaystyle$ D $"$ $q$ q $q$ 메시지의 정보 내용은 다음과 같습니다.

-\log {n(q)}{N}=\log {n(q)}.

여기서 2개의 $q_{1}$ $q_{1}$ 1({ $displaystyle q_{$ 1 $q_{1}$ })과 q $q_{2}$ 2({ $displaystyle q_{$ 2 $q_{2}$ 가 있다고 가정합니다.두 용어가 서로 완전히 독립적으로 문서 내에서 발생하는 경우, 무작위로 선택된 $문서$ D({ $displaystyle q_$ $2})$ 에서 $q_{1}$ $q_{2}$ 과 $q$ 2({displaystyle $q_{$ 2}})를 $q_{2}$ 모두 볼 수 있습니다 $.$ $playstyle$ D $}$ 는 $D$ 다음과 같습니다.

{\displaystyle\frac{n(q_{1}}}{N}}\cdot {n(q_{2})}{N},

이러한 이벤트의 정보 내용은 다음과 같습니다.

(\displaystyle \sum _{i=1}^{2}\log {frac {N}{n(q_{i})}).}

BM25의 IDF 컴포넌트에 의해 정확하게 표현되는 것은 작은 변화입니다.

변경 사항

$계수$ 의 극단값에서 b BM25는 BM11(b $1$ 의 $b=1$ ) 및 BM15 $($ b $=$ ^[2] $0의 경우$ )로 알려진 순위 함수로 바뀝니다.
BM25F는^[3]^[4] BM25를 수정한 것으로, BM25는 문서가 중요도, 용어 관련 포화도, 길이 정규화 등이 다를 수 있는 여러 분야(제목, 메인 텍스트, 앵커 텍스트 등)로 구성된 것으로 간주한다.
노동. BM25+의 BM25+[5]은 확장을 사용하여 표준 노동에 문서 길이에 의해 용어 주파수 정상화의 구성 요소를 제대로 lower-bounded지 않다의 한 결핍을 해결하는 것이다. 이 결핍의 결과를 쿼리 임기 일치하는 긴 문서를 종종 불공정하게 노동 이와 비슷한 수준으로 관련성을 가진 것으로 얻을 수 있도록 개발되었다. 로.쿼리 용어를 전혀 포함하지 않는 더 짧은 문서.BM25+의 스코어링 공식은 BM25와 비교하여 자유 파라미터 $"\displaystyle \delta"($ 훈련 데이터가 없는 경우 $기본값$ 은 1.0 $)$ 를 하나만 가집니다.

{text{score}(D,Q)=\sum _{i=1}^{n}{\text{\text}IDF}}(q_{i})\cdot \left[{\frac {f(q_{i},D)\cdot (q_{1}+1)}{f(q_{i},D)+k_{1}\cdot \left(1-b+b\cdot {Delav}}}\l}오른쪽}}}

레퍼런스

^ 크리스토퍼 D.매닝, 프라하카르 라그하반, 힌리히 쉬체A Information Retrieval, Cambridge University Press, 2009, 페이지 233.
^ "The BM25 Weighting Scheme".
^ 휴고 사라고사, 닉 크라스웰, 마이클 테일러, 수치 사리아, 스티븐 로버트슨.Microsoft Cambridge at TEC-13: Web 및 하드 트랙.TEC-2004의 회보에서.
^ Stephen Robertson & Hugo Zaragoza (2009). "The Probabilistic Relevance Framework: BM25 and Beyond". Foundations and Trends in Information Retrieval. 3 (4): 333–389. CiteSeerX 10.1.1.156.5282. doi:10.1561/1500000019.
^ 위안화 Lv와 청샹자이.하한 용어 주파수 정규화.CIKM'2011 절차서, 7-16페이지.

일반 참고 자료

Stephen E. Robertson; Steve Walker; Susan Jones; Micheline Hancock-Beaulieu & Mike Gatford (November 1994). Okapi at TREC-3. Proceedings of the Third Text REtrieval Conference (TREC 1994). Gaithersburg, USA.
Stephen E. Robertson; Steve Walker & Micheline Hancock-Beaulieu (November 1998). Okapi at TREC-7. Proceedings of the Seventh Text REtrieval Conference. Gaithersburg, USA.
Spärck Jones, K.; Walker, S.; Robertson, S. E. (2000). "A probabilistic model of information retrieval: Development and comparative experiments: Part 1". Information Processing & Management. 36 (6): 779–808. CiteSeerX 10.1.1.134.6108. doi:10.1016/S0306-4573(00)00015-7.
Spärck Jones, K.; Walker, S.; Robertson, S. E. (2000). "A probabilistic model of information retrieval: Development and comparative experiments: Part 2". Information Processing & Management. 36 (6): 809–840. doi:10.1016/S0306-4573(00)00016-9.
Stephen Robertson & Hugo Zaragoza (2009). "The Probabilistic Relevance Framework: BM25 and Beyond". Foundations and Trends in Information Retrieval. 3 (4): 333–389. CiteSeerX 10.1.1.156.5282. doi:10.1561/1500000019.

외부 링크

Robertson, Stephen; Zaragoza, Hugo (2009). The Probabilistic Relevance Framework: BM25 and Beyond (PDF). NOW Publishers, Inc. ISBN 978-1-60198-308-4.

[1] 크리스토퍼 D.매닝, 프라하카르 라그하반, 힌리히 쉬체A Information Retrieval, Cambridge University Press, 2009, 페이지 233.

[2] "The BM25 Weighting Scheme".

[3] 휴고 사라고사, 닉 크라스웰, 마이클 테일러, 수치 사리아, 스티븐 로버트슨.Microsoft Cambridge at TEC-13: Web 및 하드 트랙.TEC-2004의 회보에서.

[robertson2009-4] Stephen Robertson & Hugo Zaragoza (2009). "The Probabilistic Relevance Framework: BM25 and Beyond". Foundations and Trends in Information Retrieval. 3 (4): 333–389. CiteSeerX 10.1.1.156.5282. doi:10.1561/1500000019.

[5] 위안화 Lv와 청샹자이.하한 용어 주파수 정규화.CIKM'2011 절차서, 7-16페이지.

[1]

[2]

[3]

[4]

Search