엔티티 링크

Entity linking

자연 언어에서 처리, 실체 시범 공단 착공, 또한 named-entity로 실체에 대한 독특한 정체성을 할당하는(NEL)[1]named-entity 동음 이의(NED), named-entity 인식과 동음 이의(전미 왕 얼간이 단체)또는 named-entity 정상화(망 기기 번호)[2]를 연결하는 업무(유명한 개인들, 장소, 또는 회사와 같은)tex.에 언급된 언급t.예를 들어, "파리는 프랑스의 수도"라는 문장이 주어진다면, "파리"파리시를 지칭하는 것이지, 패리스 힐튼이나 "파리"로 지칭될 수 있는 다른 실체를 지칭하는 것이 아니다.엔티티 링크는 NER가 지정된 엔티티의 발생을 텍스트로 식별하지만 어떤 특정 엔티티를 식별하지 않는다는 점에서 NER(Named-Entity Recognition)와 다르다(다른 기술과의 차이 참조).

엔티티 링크에서는 이름 있는 각 엔티티는 하나의 식별자에 링크됩니다.대부분의 경우 이 식별자는 Wikipedia 페이지에 해당합니다.

서론

엔티티 링크에서 관심어(개인, 위치 및 회사의 이름)는 입력 텍스트에서 대상 지식 기반 내의 대응하는 고유 엔티티에 매핑된다.관심 단어는 Named Entity(NE; 명명된 엔티티), 멘션 또는 표면 형식이라고 합니다.대상 기술 자료는 대상 애플리케이션에 따라 다르지만 개방형 도메인 텍스트에서 작동하도록 설계된 시스템을 연결하는 엔티티의 경우 Wikipedia에서 파생[2][3]지식 기반(Wikidata 또는 DBpedia 등)을 사용하는 것이 일반적입니다.이 경우, 각 개별 위키피디아 페이지는 개별 엔티티로 간주됩니다.명명된 엔티티를 Wikipedia 엔티티에 매핑하는 엔티티 링크 기술을 Wikipedia라고도 [4]합니다.

"파리는 프랑스의 수도"라는 예문을 다시 생각해 보면, 엔티티 연계 시스템의 예상 산출물은 파리와 프랑스가 될 이다.이러한 Uniform Resource Locator(URL; 균일한 자원 로케이터)는 기술 자료 내의 엔티티에 대한 고유한 Uniform Resource Identifier(URI; 균일한 자원 식별자)로 사용할 수 있습니다.다른 기술 자료를 사용하면 다른 URI가 반환되지만 Wikipedia에서 시작하는 기술 자료에는 일대일 URI [5]매핑이 있습니다.

대부분의 경우 지식 기반은 수동으로 [6]구축되지만, 대규모 텍스트 코퍼스를 사용할 수 있는 애플리케이션에서는 사용 가능[7]텍스트에서 지식 기반을 자동으로 추론할 수 있습니다.

엔티티 링크는 웹 데이터와 지식 베이스를 연결하는 중요한 단계이며, 웹 상의 방대한 양의 원시 데이터 및 종종 노이즈가 발생하는 데이터에 주석을 다는 데 유용하며 시맨틱 [8]의 비전에 기여합니다.엔티티 링크 외에 이벤트 추출,[9] 이벤트[10] 링크 등 중요한 단계가 있습니다.

적용들

엔티티 링크는 텍스트 분석, 추천 시스템, 시멘틱 검색 및 챗봇에서 발생하므로 텍스트에서 추상적 표현을 추출해야 하는 필드에서 유용합니다.이러한 모든 필드에서 응용 프로그램과 관련된 개념은 텍스트 및 기타 의미 없는 [11][12]데이터와 분리됩니다.

예를 들어, 검색 엔진이 수행하는 일반적인 작업은 입력으로 제공된 문서와 유사한 문서를 찾거나 문서에 언급된 사람에 대한 추가 정보를 찾는 것입니다.'프랑스의 수도'라는 표현이 포함된 문장을 생각해 보자.실체 링크가 없으면 문서 내용을 보는 검색 엔진은 '파리'라는 단어가 포함된 문서를 직접 검색할 수 없게 되어 이른바 '거짓 네거티브'(FN)로 이어진다.더 나쁜 것은 검색 엔진이 가짜 일치(또는 잘못된 포)를 생성할 수 있다는 것이다.를 들어, "프랑스"를 국가로 지칭하는 문서 검색과 같은 사이트 활동(FP)입니다.

입력 문서와 유사한 문서를 검색하기 위해 엔티티 링크와 직교하는 많은 접근 방식이 존재합니다.를 들어 잠재의미분석(LSA)이나 doc2vec과의 문서 임베딩 비교 등이 있습니다.그러나 이러한 기법은 원본 문서를 개괄적으로 표현하는 대신 다른 문서를 반환하기 때문에 기업 연계에 의해 제공되는 것과 같은 세분화된 통제를 허용하지 않는다.예를 들어 Wikipedia 정보 상자에 표시된 "파리"에 대한 개략적인 정보를 얻는 것은 질의의 [13]복잡성에 따라 훨씬 덜 간단하거나 실현 불가능할 수 있습니다.

또한 엔티티 링크는 정보 검색[2] 시스템의 성능을 개선하고 디지털 라이브러리의 [14]검색 성능을 개선하기 위해 사용되어 왔습니다.엔티티 링크는 의미 [15]검색의 주요 입력이기도 합니다.

엔티티 링크의 과제

엔티티 링크 시스템은 실제 어플리케이션에서 실행되기 전에 많은 과제에 대처해야 합니다.이러한 문제 중 일부는 텍스트 모호성과 같은 엔티티 [16]링크 태스크에 고유한 문제이며, 확장성 및 실행 시간과 같은 다른 문제들은 이러한 시스템의 실제 사용을 고려할 때 관련이 있다.

  • 이름 변형: 텍스트 표현과 함께 동일한 엔티티가 나타날 수 있습니다.이러한 변화의 원인에는 약어(뉴욕, 뉴욕), 별칭(뉴욕, 빅 애플), 철자 변형 및 오류(뉴욕) 등이 있습니다.
  • 모호성: 동일한 언급은 종종 상황에 따라 여러 개의 다른 실체를 언급할 수 있다. 왜냐하면 많은 실체 이름이 다의미(복수의 의미를 갖는) 경향이 있기 때문이다.무엇보다도 파리라는 단어는 프랑스의 수도패리스 힐튼을 가리키는 것일 수 있다.(프랑스의 수도와 같이) 어떤 경우에는 언급 텍스트와 실제 대상 개체(파리) 사이에 텍스트 유사성이 없다.
  • 부재: 일부 명명된 엔티티가 대상 기술 자료에 올바른 엔티티 링크가 없을 수 있습니다.이는 매우 특정하거나 특이한 실체를 다룰 때 또는 기술 자료에 아직 대응하는 실체가 없는 개인이나 사건에 대한 언급이 있을 수 있는 최근의 사건에 대한 문서를 처리할 때 발생할 수 있다.누락된 엔티티가 있는 또 다른 일반적인 상황은 도메인 고유의 지식 기반(예를 들어 생물학 지식 기반 또는 동영상 데이터베이스)을 사용하는 경우입니다.이러한 경우 모두 엔티티 링크시스템이 반환해야 합니다.NIL엔티티 링크반환 시기 이해NIL예측은 간단하지 않고, 많은 다른 접근법이 제안되어 왔다. 예를 들어, 실체 연계 시스템에서 모종의 신뢰 점수를 임계값화하거나 추가 값을 추가함으로써NIL기술 자료로 이동합니다. 기술 자료도 다른 엔티티와 동일하게 취급됩니다.또한, 일부 경우에는 잘못되었지만 관련된 [16]엔티티 링크 예측을 제공하는 것이 최종 사용자의 관점에서 전혀 결과가 없는 것보다는 나을 수 있습니다.
  • scalability와 속도: 산업 실체 연결 시스템은 합리적인 시간 내에, 그리고 많은 경우 실시간으로 결과를 제공하는 것이 바람직합니다.이 요건은 검색 엔진, 채팅봇 및 데이터 분석 플랫폼에서 제공하는 엔티티 링크 시스템에 매우 중요합니다.대규모 Knowledge Base를 사용하거나 대용량 [17]문서를 처리할 때 실행 시간을 단축하는 것이 어려울 수 있습니다.예를 들어, 위키피디아는 거의 9백만 개의 단체와 그들 사이의 1억 7천만 개 이상의 관계를 가지고 있다.
  • 진화하는 정보: 실체 링크 시스템은 진화하는 정보에도 대응해야 하며 기술 기반에 업데이트를 쉽게 통합해야 합니다.정보의 진화의 문제는,[18] 새로운 것으로 인해 지식 베이스에 대응하는 엔트리가 없는 최근의 뉴스 기사를 처리하는 경우 등, 엔티티의 누락의 문제와 관련되는 경우가 있다.
  • 다국어: 시스템 연결 엔티티는 여러 언어로 수행된 쿼리를 지원할 수 있습니다.엔티티 링크 시스템의 정확도는 입력 언어에 의해 영향을 받지 않는 것이 이상적이며, 지식 기반 내의 엔티티는 다른 [19]언어 간에 동일해야 합니다.

다른 기술과의 차이점

엔티티 링크는 Named-Entity Dismarkization(NED; 명명된 엔티티 명확화)이라고도 하며 Wikiation 및 레코드 [20]링크와 밀접하게 관련되어 있습니다.정의는 종종 모호하고 작성자마다 조금씩 다릅니다.Alhelbawy [21]은 엔티티 링크를 NED의 더 넓은 버전으로 간주한다.NED는 특정 텍스트 이름 있는 엔티티 언급과 정확히 일치하는 엔티티가 기술 기반에 있다고 가정해야 하기 때문이다.엔티티 연결 시스템은 지정된 엔티티에 대한 항목을 참조 기술 자료에서 사용할 수 없는 경우를 처리할 수 있습니다.다른 작가들은 이러한 구별을 하지 않고 두 이름을 [22][23]서로 바꾸어 사용한다.

  • Wikipedia는 텍스트 표기를 Wikipedia의 엔티티에 링크하는 작업입니다(일반적으로 다국어 위키피디아의 경우 범위를 영어 위키피디아로 제한합니다).
  • Record Linking(RL; 레코드 링크)은 엔티티 링크보다 넓은 필드로 간주되며, 동일한 [14]엔티티를 참조하는 여러 이기종 데이터 세트에 걸쳐 레코드를 검색하는 데 사용됩니다.레코드 연계는 아카이브를 디지털화하고 여러 지식 [14]기반에 가입하기 위한 핵심 구성요소입니다.
  • named-entity 인식은 구조화되지 않은 텍스트에서 이름, 조직, 위치 등의 미리 정의된 카테고리로 명명된 엔티티를 찾아 분류합니다.예를 들어, 다음 문장은 다음과 같습니다.

파리는 프랑스의 수도입니다.

다음 출력을 얻기 위해 NER 시스템에 의해 처리됩니다.

[City파리]Country프랑스의 수도이다.

명명된 엔티티 인식은 일반적으로 엔티티 링크 시스템의 전처리 단계이며, 어떤 단어가 지식 기반 엔티티에 링크되어야 하는지 미리 아는 것이 유용할 수 있습니다.
  • 상호 참조 해결은 텍스트 내의 여러 단어가 동일한 엔티티를 참조하는지 여부를 파악합니다.예를 들어 대명사가 가리키는 단어를 이해하는 것은 유용할 수 있다.다음 예를 생각해 보겠습니다.

파리는 프랑스의 수도입니다.그것은 또한 프랑스에서 가장 큰 도시입니다.

이 예에서 상호 참조 해결 알고리즘은 대명사 It이 프랑스나 다른 실체가 아닌 파리를 가리키는 것을 식별합니다.엔티티 링크와 비교하여 주목할 만한 차이점은 코어 레퍼런스 해결이 일치하는 단어에 고유한 ID를 할당하지 않고 단순히 동일한 엔티티를 참조하는지 여부를 나타낸다는 것입니다.그런 의미에서, 상호 참조 해결 시스템의 예측은 후속 연결 요소에 유용할 수 있다.

엔티티 링크에 대한 접근법

엔티티 링크는 지난 10년간 업계와 학계에서 큰 화제가 되어 왔습니다.그러나 오늘날까지 대부분의 기존 과제는 여전히 해결되지 않고 있으며, 장점과 단점이 크게 다른 많은 실체 연계 시스템이 [24]제안되고 있다.

대략적으로 말하면, 현대의 엔티티 링크 시스템은 2개의 카테고리로 나눌 수 있습니다.

  • 텍스트 코퍼스에서 추출한 텍스트 기능을 사용하는 텍스트 기반 접근법(예: 용어 빈도-)역문서 빈도(Tf-Idf), 단어 공존 확률 등.[25][16]
  • 그래프 기반 접근법 - 지식 그래프의 구조를 이용하여 [3][26]엔티티의 컨텍스트와 관계를 나타냅니다.

종종 엔티티 링크 시스템은 어느 범주에도 엄밀하게 분류할 수 없지만 지식 그래프 자체를 [22][23]구축하기 위해 사용된 텍스트 말뭉치에서 추출된 추가 텍스트 기능으로 풍부해진 지식 그래프를 사용한다.

엔티티 링크 알고리즘의 주요 단계를 나타냅니다.대부분의 엔티티 링크 알고리즘은 원문(여기서는 파리, 프랑스)에서 명명된 엔티티가 발견되는 초기 명명된 엔티티 인식 단계와 각 명명된 엔티티가 대응하는 고유 식별자에 링크되는 후속 단계(여기서는 위키피디아 페이지)로 구성됩니다.이 마지막 단계는 종종 각 명명된 엔티티에 대해 소량의 후보 식별자 세트를 작성하고 선택한 메트릭에 대해 가장 유망한 후보를 선택함으로써 수행됩니다.

텍스트 기반 엔티티 링크

2007년 Cucerzan에 의한 중요한 작업은 문헌에 등장한 최초의 시스템 연결 실체 중 하나를 제안하고 텍스트 표기와 위키피디아 [25]페이지를 연결하는 위키피디아 작업을 다루었다.이 시스템은 각 엔티티에 범주를 할당하는 데 사용되는 엔티티, 모호성 또는 목록 페이지로 페이지를 분할합니다.각 엔티티 페이지에 있는 엔티티 집합은 엔티티의 컨텍스트를 구축하는 데 사용됩니다.최종 엔티티 연결 단계는 수작업으로 만든 피쳐와 각 엔티티의 컨텍스트에서 얻은 이진 벡터를 비교하여 수행되는 집합적 모호성 제거입니다.Cucerzan의 엔티티 링크 시스템은 최근 많은 [27]작품에서 여전히 베이스라인으로 사용되고 있습니다.

Rao 등의 연구는 [16]실체 연계 분야에서 잘 알려진 논문이다.저자는 명명된 엔티티를 대상 기술 기반 내의 엔티티에 연결하는 2단계 알고리즘을 제안한다.우선 문자열 매칭, 줄임말 및 기존 에일리어스를 사용하여 후보 엔티티 세트가 선택됩니다.다음으로 언어 기능을 사용하는 순위 지원 벡터 머신(SVM)을 사용하여 후보 중 가장 적합한 링크를 선택합니다.

차이 [20]등이 제안한 것과 같은 최근의 시스템은 언어 특징으로서 스킵그램 모델로 얻은 단어 임베딩을 채택하고 있으며, 단어 임베딩을 구축하기 위해 대규모 말뭉치가 제공되는 한 어떤 언어에도 적용할 수 있다.대부분의 엔티티 링크 시스템과 마찬가지로 링크는 두 단계로 이루어지며, 첫 번째 후보 엔티티 선택과 선형 랭킹 SVM을 두 번째 단계로 한다.

엔티티 모호성 문제를 해결하기 위해 다양한 접근법이 시도되어 왔다.Milne와 Witten의 주도적 접근법에서는 위키피디아 엔티티의 앵커 텍스트를 훈련 [28]데이터로 사용하여 감독된 학습을 사용한다.다른 접근법도 모호하지 않은 [29]동의어를 기반으로 훈련 데이터를 수집했다.

그래프 기반 엔티티 링크

현대의 엔티티 링크 시스템은 입력 문서나 텍스트 말뭉치에서 생성된 텍스트 기능에 분석을 제한하지 않고 위키피디아와 같은 지식 기반에서 생성된 대규모 지식 그래프를 사용한다.이러한 시스템은 지식 그래프 토폴로지를 활용하거나 엔티티 간의 다단계 연결을 활용하는 복잡한 기능을 추출합니다. 이러한 기능은 단순한 텍스트 분석으로 숨겨집니다.게다가 자연어 처리(NLP)에 근거해 다언어 엔티티 링크 시스템을 작성하는 것은 본질적으로 어렵다.다국어에는 없는 경우가 많은 큰 텍스트 코퍼스나 언어마다 크게 다른 수작업의 문법 규칙 중 하나가 필요하기 때문이다.Han 등은 명확화 그래프(후보 [3]실체를 포함하는 지식 기반의 하위 그래프)의 생성을 제안한다.이 그래프는 각 텍스트 언급에 대한 최적의 후보 링크를 찾는 순수 집단 순위 지정 절차에 사용된다.

또 다른 유명한 엔티티 링크 접근법은 일련의 복잡한 그래프 알고리즘을 사용하는 AIDA와 집합적 [26]모호성을 수행하기 위해 컨텍스트 유사성과 정점 중요도 특징을 고려함으로써 조밀한 하위 그래프에서 일관된 언급을 식별하는 탐욕 알고리즘이다.

그래프 순위(또는 정점 순위)는 PageRank(PR) 및 하이퍼링크 유도 토픽 검색(HITS)과 같은 알고리즘을 나타내며, 전체 그래프에서 상대적인 중요성을 나타내는 각 정점에 점수를 할당하는 것을 목표로 합니다.Alhelbawy 등에 제시된 엔티티 연계 시스템은 PageRank를 사용하여 명확화 그래프에서 집단 엔티티 연동을 수행하고 어떤 엔티티가 서로 더 강하게 관련되며 더 나은 [21]연계를 나타내는지를 파악한다.

수학적 실체 연결

수학 표현식(기호 및 공식)은 자연어 의미와 함께 라벨링된 의미 실체(예: 위키피디아[30] 기사 또는 위키데이터[31] 항목)와 연결될 수 있다.기호가 서로 다른 의미를 가질 수 있기 때문에(예: "E"는 "에너지" 또는 "기대값" 등이 될 수 있음) 이것은 명확화에 필수적이다.[32][31]예를 들어 Wikimedia에서 [33][34][35]호스팅하는 "AnnoMathTeX" 시스템을 사용하여 주석 권장 사항을 통해 수학 개체 연결 프로세스를 촉진하고 가속화할 수 있습니다.

MathEL(Mathematical Entity Linking) 실험의 재현성을 촉진하기 위해 벤치마크 MathMLben이 [36][37]생성되었다.Wikipedia, arXiV 및 NIST DLMF(Digital Library of Mathematical Functions)의 공식을 포함하고 있습니다.벤치마크의 공식 엔트리는 Wikidata [31]마크업에 의해 라벨이 부착되고 강화됩니다.또한, arXiv[38][39] zbMATH 저장소 분포의 두 개의 큰 코퍼스에 대해 수학적 표기법을 조사했다.Motical Objects of Interest(MOI)는 MathEL의 잠재적 [40]후보로 식별됩니다.

Wikipedia에[37] 링크하는 것 [31]외에 Schubotz와 Scharpf 등은 MathML과 LaTeX 마크업 모두에서 수학 공식 콘텐츠를 Wikidata에 링크하는 것을 설명한다.수학에 의한 고전적인 인용을 확장하기 위해, 그들은 자동화된 MathEL을 정교하게 하기 위해 공식 개념 발견(FCD)과 공식 개념 인식(FCR) 도전을 요구한다.FCD 접근 방식은 빈번한 공식의 동등한 표현을 검색하기 위해 68%를 회수하고 NTCIR[41] arXiv 데이터 세트의 [35]주변 텍스트에서 공식 이름을 추출하기 위해 72%를 회수합니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Hachey, Ben; Radford, Will; Nothman, Joel; Honnibal, Matthew; Curran, James R. (2013-01-01). "Artificial Intelligence, Wikipedia and Semi-Structured ResourcesEvaluating Entity Linking with Wikipedia". Artificial Intelligence. 194: 130–150. doi:10.1016/j.artint.2012.04.005.
  2. ^ a b c M. A. Kalid, V. Jijkoun 및 M. de Rijke(2008).명명된 엔티티 정규화가 질문 답변에 대한 정보 검색에 미치는 영향.검사, ECIR
  3. ^ a b c Han, Xianpei; Sun, Le; Zhao, Jun (2011). "Collective Entity Linking in Web Text: A Graph-based Method". Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM: 765–774. doi:10.1145/2009916.2010019. ISBN 9781450307574. S2CID 14428938.
  4. ^ Rada Mihalcea and Andras Csomai (2007)Wikify! 문서를 백과사전 지식으로 연결합니다.검사, CIKM
  5. ^ "Wikipedia Links".
  6. ^ 위키데이터
  7. ^ 애런 M.Cohen(2005년).자동으로 추출된 사전을 사용한 감독되지 않은 유전자/단백질 명명 개체 정규화.생물학 문헌, 온톨로지 및 데이터베이스 링크에 관한 ACL-ISMB 워크숍:마이닝 생물학적 의미론, 페이지 17-24.
  8. ^ 지식 기반과 연결된 Shen W, Wang J, Han J. 엔티티:문제, 기술 및 솔루션 [J]IEEE Transactions on Knowledge and Data Engineering, 2014, 27(2): 443-460.
  9. ^ 장YC, 추CH, 쑤YC 등PIPE: BioCreative challenge[J]를 위한 단백질-단백질 상호작용 경로 추출 모듈.데이터베이스, 2016, 2016.
  10. ^ Lou P, Jimeno Yepes A, Zhang Z 등BioNorm: 반응 데이터베이스 큐레이션을 위한 딥 러닝 기반 이벤트 정규화[J].생물정보학, 2020, 36(2): 611-620.
  11. ^ Slawski, Bill (16 September 2015). "How Google Uses Named Entity Disambiguation for Entities with the Same Names".
  12. ^ Zhou, Ming; Lv, Weifeng; Ren, Pengjie; Wei, Furu; Tan, Chuanqi (2017). "Entity Linking for Queries by Searching Wikipedia Sentences". Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. pp. 68–77. arXiv:1704.02788. doi:10.18653/v1/D17-1007. S2CID 1125678.
  13. ^ Le, Quoc; Mikolov, Tomas (2014). "Distributed Representations of Sentences and Documents". Proceedings of the 31st International Conference on International Conference on Machine Learning - Volume 32. JMLR.org: II–1188–II–1196. arXiv:1405.4053.
  14. ^ a b c Hui Han, Hongyuan Zha, C.Lee Giles, "K-way 스펙트럼 클러스터링 방법을 사용한 저자 인용의 명칭 명확화", ACM/IEEE 디지털 라이브러리 공동 회의 2005(JCDL 2005): 334-343, 2005
  15. ^ 스틱
  16. ^ a b c d Rao, Delip; McNamee, Paul; Dredze, Mark (2013). "Entity Linking: Finding Extracted Entities in a Knowledge Base". Multi-source, Multilingual Information Extraction and Summarization. Theory and Applications of Natural Language Processing. Springer Berlin Heidelberg: 93–115. doi:10.1007/978-3-642-28569-1_5. ISBN 978-3-642-28568-4.
  17. ^ Parravicini, Alberto; Patra, Rhicheek; Bartolini, Davide B.; Santambrogio, Marco D. (2019). "Fast and Accurate Entity Linking via Graph Embedding". Proceedings of the 2Nd Joint International Workshop on Graph Data Management Experiences & Systems (GRADES) and Network Data Analytics (NDA). ACM: 10:1–10:9. doi:10.1145/3327964.3328499. hdl:11311/1119019. ISBN 9781450367899. S2CID 195357229.
  18. ^ Hoffart, Johannes; Altun, Yasemin; Weikum, Gerhard (2014). "Discovering Emerging Entities with Ambiguous Names". Proceedings of the 23rd International Conference on World Wide Web. ACM: 385–396. doi:10.1145/2566486.2568003. ISBN 9781450327442. S2CID 7562986.
  19. ^ Doermann, David S.; Oard, Douglas W.; Lawrie, Dawn J.; Mayfield, James; McNamee, Paul (2011). "Cross-Language Entity Linking". S2CID 3801685. {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
  20. ^ a b Tsai, Chen-Tse; Roth, Dan (2016). "Cross-lingual Wikification Using Multilingual Embeddings". Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Vol. Proceedings of NAACL-HLT 2016. pp. 589–598. doi:10.18653/v1/N16-1072. S2CID 15156124.
  21. ^ a b Alhelbawy, Ayman; Gaizauskas, Robert (August 2014). "Collective Named Entity Disambiguation using Graph Ranking and Clique Partitioning Approaches". Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers (Dublin City University and Association for Computational Linguistics): 1544–1555. {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
  22. ^ a b Zwicklbauer, Stefan; Seifert, Christin; Granitzer, Michael (2016). "Robust and Collective Entity Disambiguation Through Semantic Embeddings". Proceedings of the 39th International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM: 425–434. doi:10.1145/2911451.2911535. ISBN 9781450340694. S2CID 207237647.
  23. ^ a b Hachey, Ben; Radford, Will; Nothman, Joel; Honnibal, Matthew; Curran, James R. (2013). "Evaluating Entity Linking with Wikipedia". Artif. Intell. 194: 130–150. doi:10.1016/j.artint.2012.04.005. ISSN 0004-3702.
  24. ^ Ji, Heng; Nothman, Joel; Hachey, Ben; Florian, Radu (2015). "Overview of TAC-KBP2015 Tri-lingual Entity Discovery and Linking". TAC.
  25. ^ a b Cucerzan, Silviu (June 2007). "Large-Scale Named Entity Disambiguation Based on Wikipedia Data". Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL): 708–716. {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
  26. ^ a b Weikum, Gerhard; Thater, Stefan; Taneva, Bilyana; Spaniol, Marc; Pinkal, Manfred; Fürstenau, Hagen; Bordino, Ilaria; Yosef, Mohamed Amir; Hoffart, Johannes (2011). "Robust Disambiguation of Named Entities in Text". Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing: 782–792.
  27. ^ Kulkarni, Sayali; Singh, Amit; Ramakrishnan, Ganesh; Chakrabarti, Soumen (2009). Collective annotation of Wikipedia entities in web text. Proc. 15th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining (KDD). doi:10.1145/1557019.1557073. ISBN 9781605584959.
  28. ^ David Milne과 Ian H. Witten(2008).위키피디아와 연계하는 법을 배우고 있다.검사, CIKM
  29. ^ Zhang, Wei; Jian Su; Chew Lim Tan (2010). "Entity Linking Leveraging Automatically Generated Annotation". Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010).
  30. ^ Giovanni Yoko Kristianto; Goran Topic; Akiko Aizawa; et al. (2016). "Entity Linking for Mathematical Expressions in Scientific Documents". International Conference on Asian Digital Libraries. Lecture Notes in Computer Science. Springer. 10075: 144–149. doi:10.1007/978-3-319-49304-6_18. ISBN 978-3-319-49303-9.
  31. ^ a b c d Philipp Scharpf; Moritz Schubotz; et al. (2018). Representing Mathematical Formulae in Content MathML using Wikidata. ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2018).
  32. ^ Moritz Schubotz; Philipp Scharpf; et al. (2018). "Introducing MathQA: a Math-Aware question answering system". Information Discovery and Delivery. Emerald Publishing Limited. 46 (4): 214–224. arXiv:1907.01642. doi:10.1108/IDD-06-2018-0022. S2CID 49484035.
  33. ^ "AnnoMathTeX Formula/Identifier Annotation Recommender System".
  34. ^ Philipp Scharpf; Ian Mackerracher; et al. (17 September 2019). "AnnoMathTeX : a formula identifier annotation recommender system for STEM documents" (PDF). Proceedings of the 13th ACM Conference on Recommender Systems (RecSys 2019): 532–533. doi:10.1145/3298689.3347042. ISBN 9781450362436. S2CID 202639987.
  35. ^ a b Philipp Scharpf; Moritz Schubotz; Bela Gipp (14 April 2021). "Fast Linking of Mathematical Wikidata Entities in Wikipedia Articles Using Annotation Recommendation" (PDF). Companion Proceedings of the Web Conference 2021 (WWW '21 Companion): 602–609. arXiv:2104.05111. doi:10.1145/3442442.3452348. ISBN 9781450383134. S2CID 233210264.
  36. ^ "MathMLben formula benchmark".
  37. ^ a b Moritz Schubotz; André Greiner-Petter; Philipp Scharpf; Norman Meuschke; Howard Cohl; Bela Gipp (2018). "Improving the Representation and Conversion of Mathematical Formulae by Considering their Textual Context" (PDF). 18th ACM/IEEE on Joint Conference on Digital Libraries 2018. 39 (3): 233–242. arXiv:1804.04956. doi:10.1145/3197026.3197058. ISBN 9781450351782. PMC 8474120. PMID 34584342. S2CID 4872257.
  38. ^ "arXiv preprint repository".
  39. ^ "zbMath mathematical document library".
  40. ^ André Greiner-Petter; Moritz Schubotz; Fabian Mueller; Corinna Breitinger; Howard S. Cohl; Akiko Aizawa; Bela Gipp (2020). "Discovering Mathematical Objects of Interest – A Study of Mathematical Notations" (PDF). Proceedings of the Web Conference 2020 (WWW '20): 1445–1456. arXiv:2002.02712. doi:10.1145/3366423.3380218. ISBN 9781450370233. S2CID 211066554.
  41. ^ Akiko Aizawa; Michael Kohlhase; Iadh Ounis; Moritz Schubotz. "NTCIR-11 Math-2 Task Overview". Proceedings of the 11th NTCIR Conference on Evaluation of Information Access Technologies.