명시적 의미 분석

Explicit semantic analysis

자연어 처리정보 검색에서 명시적 의미 분석(ESA)은 문서 말뭉치를 지식 기반으로 사용하는 텍스트(개별 단어 또는 전체 문서)의 벡터 표현입니다.특히 ESA에서 단어는 텍스트 코퍼스의 tf-idf 행렬에서 열 벡터로 표현되며 문서(단어의 문자열)는 단어를 나타내는 벡터의 중심으로 표현된다.일반적으로 텍스트 말뭉치는 영어 위키피디아이지만 오픈 디렉토리 프로젝트를 포함한 다른 말뭉치가 [1]사용되었습니다.

ESA에그 에니 Gabrilovich과 Markovitch서 텍스트 categorization[2]을 개선하기 위한 수단과 연구자 쌍에 의해 그들이"의미론적 상호 관련성"라고 부르는 앞서 언급한 벡터 사이의 코사인 유사성의 수단, 집합적으로 개념을 명시적으로 정의된 드"의 공간으로 해석에 의해 계산하기 위해 사용되어 왔다 설계되었다.스클ibed by human"은 위키피디아 기사(또는 ODP 항목 또는 기타 지식 기반 말뭉치의 문서 제목)를 개념과 동일시한다."명시적 의미 분석"이라는 이름은 잠재 의미 분석(LSA)과 대조되는데, 지식 기반을 사용하면 벡터 [1][3]공간을 구성하는 개념에 사람이 읽을 수 있는 레이블을 할당할 수 있기 때문이다.

모델

ESA의 기본 변형을 수행하려면 텍스트 모음, 예를 들어 모든 위키피디아 문서 모음으로 시작합니다. 모음에 있는 문서 수는 N개입니다.이것들은 모두 역색인에 저장된 용어 빈도 히스토그램과 같은 "단어 가방"으로 변환된다.에고지, 마르코비치, 가브릴로비치 등의 어휘에서 "위키피디아 말뭉치에 나타나는 각 단어는 반전 [1]색인에서 가리키는 각각의 개념을 촉발하는 것으로 보일 수 있다"는 이 반전 색인을 사용하여 이 단어를 포함하는 위키피디아 기사 세트를 찾을 수 있다.

단일 단어 쿼리에 대한 반전 색인의 출력은 색인화된 문서 목록(Wikipedia 문서)이며, 각 문서에는 해당 단어가 얼마나 자주 발생했는지에 따라 점수가 부여됩니다(문서 내 총 단어 수에 따라 가중치 부여됨).수학적으로 이 리스트는 워드 문서 점수의 N차원 벡터이며, 쿼리 워드를 포함하지 않는 문서는 스코어가 0입니다.두 단어의 관련성을 계산하기 위해 코사인 유사도를 계산하여 벡터(를 들어 u와 v)를 비교합니다.

그리고 이것은 단어의 의미적 관련성에 대한 수치적 추정치를 제공한다.이 체계는 텍스트 [3]내의 모든 단어의 벡터를 단순히 합산함으로써 단일 단어에서 다중 단어 텍스트로 확장된다.

분석.

원래 가브릴로비치와 마르코비치(Markovitch)에 의해 배치된 ESA는 지식 기반이 국소적으로 직교하는 개념을 포함하고 있다는 가정 하에 작동한다.그러나 나중에 Anderka와 Stein에 의해 ESA가 Wikipedia가 아닌 로이터 통신의 뉴스 와이어 기사 말뭉치를 기반으로 할 때 정보 검색 시스템의 성능을 향상시킨다는 것이 입증되었다. 이것은 직교성을 만족시키지 못한다; 그들의 실험에서 Anderka와 Stein은 뉴스 와이어 스토리를 "개념"[4]으로 사용했다.이러한 관찰을 설명하기 위해 ESA와 일반화 벡터 공간 [5]모델 사이의 링크가 제시되었다.가브릴로비치와 마르코비치는 안데르카와 스타인에게 그들의 실험 결과는 "ESA(텍스트 유사성)의 단일 응용 프로그램"과 "50개의 뉴스 [1]문서로 구성된 단일, 극히 작고 균질한 테스트 모음"을 사용하여 달성되었다고 지적함으로써 대답했다.

적용들

단어 관련성

ESA는 그 저자에 의해 (의미적 유사성과는 대조적으로) 의미적 관련성의 척도로 간주된다.단어의 관련성을 벤치마킹하는 데 사용되는 데이터 집합에서 ESA는 WordNet 의미 유사성 측정 및 건너뛰기-그램 Neural Network Language Model(Word2vec)[6]포함한 다른 알고리즘을 능가한다.

문서 관련성

ESA는 문서의 [7]관련성을 계산하기 위해 상용 소프트웨어 패키지에 사용됩니다.ESA 모델에 대한 도메인별 제한이 보다 강력한 문서 일치를 제공하기 [8]위해 사용될 수 있습니다.

내선번호

교차언어 명시적 의미 분석(CL-ESA)은 ESA의 [9]다국어 일반화입니다. CL-ESA는 문서에 정렬된 다국어 참조 모음(예: 위키백과)을 이용하여 언어에 의존하지 않는 개념 벡터로 문서를 표현합니다.다른 언어로 된 두 문서의 관련성은 대응하는 벡터 표현 간의 코사인 유사성에 의해 평가된다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ a b c d Egozi, Ofer; Markovitch, Shaul; Gabrilovich, Evgeniy (2011). "Concept-Based Information Retrieval using Explicit Semantic Analysis" (PDF). ACM Transactions on Information Systems. 29 (2): 1–34. doi:10.1145/1961209.1961211. S2CID 743663. Retrieved January 3, 2015.
  2. ^ Gabrilovich, Evgeniy; Markovitch, Shaul (2006). Overcoming the brittleness bottleneck using Wikipedia: enhancing text categorization with encyclopedic knowledge (PDF). Proc. 21st National Conference on Artificial Intelligence (AAAI). pp. 1301–1306.
  3. ^ a b Gabrilovich, Evgeniy; Markovitch, Shaul (2007). Computing semantic relatedness using Wikipedia-based Explicit Semantic Analysis (PDF). Proc. 20th Int'l Joint Conf. on Artificial Intelligence (IJCAI). pp. 1606–1611.
  4. ^ Maik Anderka와 Benno Stein.ESA 취득 모델을 재검토했습니다.제32회 SIGIR(International ACM Conference on R&D in Information Retrieval, SIGIR), 670-671, 2009.
  5. ^ 토마스 고트론, 메이크 안데르카, 벤노 스타인입니다명시적 의미 분석에 대한 통찰력.제20회 ACM 국제정보지식관리회의(CIKM), 1961-1964, 2011년 페이지.
  6. ^ 클리에그, 토마시, 온데제 자마잘.반의어도 비슷합니다. SimLex-999와 WordSim-353의 평가 유사성에 대한 패러다임적 연관성 접근법.데이터 & 놀리지 엔지니어링 115 (2018년): 174~193년 (출처: 유료, 미러)
  7. ^ https://blogs.oracle.com/r/explicit-semantic-analysis-esa-for-text-analytics
  8. ^ 루카 마졸라, 패트릭 지그프리드, 안드레아스 발디스, 마이클 카우프만, 알렉산더 덴즐러문서 의미 설명에 대한 도메인 고유의 ESA 인스파이어 방식.제9차 IEEE 회의의 진행.(Intelligent Systems 2018(IS), 페이지 383-390, 2018).
  9. ^ 마틴 포타스트, 벤노 스타인, 메이크 안데르카.Wikipedia 기반 다국어 검색 모델입니다.제30회 유럽 IR 연구 회의(ECIR), 페이지 522-530, 2008.

외부 링크