이름 있는 엔티티 인식

Named-entity recognition

NER(Named-Entity Recognition, (Named) 엔티티 식별, 엔티티 청킹 엔티티 추출이라고도 함)는 비구조화 텍스트에서 언급된 이름 있는 엔티티를 개인 이름, 조직, 위치, 의료 코드, 시간 표현, 수량 등의 사전 정의된 범주로 찾아 분류하는 정보 추출 하위 작업이다.아이티, 화폐 가치, 비율 등

NER/NEE 시스템에 대한 대부분의 연구는 다음과 같이 주석 없이 텍스트 블록을 취하도록 구성되어 있다.

짐은 2006년에 Acme Corp.의 주식 300주를 샀다.

또한 엔티티 이름을 강조 표시하는 주석 텍스트 블록 생성:

[Jim]Person은 [2006년]Time에 [Acme Corp]Organization의 주식을 300주 샀다.

이 예에서는 1개의 토큰, 2개의 토큰으로 이루어진 회사명 및 시간식으로 구성된 개인명이 검출되어 분류되었습니다.

영어용 최첨단 NER 시스템은 인간에 가까운 성능을 제공합니다.예를 들어, MUC-7에 진입하는 최상의 시스템은 F 측정의 93.39%를 기록한 반면, 인간 주석자는 97.60%와 96.[1][2]95%를 기록했다.

이름 있는 엔티티 인식 플랫폼

주요 NER 플랫폼은 다음과 같습니다.

  • GATE는 많은 언어 및 도메인에 걸쳐 NER를 지원하며 그래픽 인터페이스와 Java API를 통해 사용할 수 있습니다.
  • OpenNLP에는 규칙 기반 및 통계 이름 지정 엔티티 인식이 포함됩니다.
  • SpaCy는 고속 통계 NER와 오픈 소스 이름 엔티티 비주얼라이저를 특징으로 합니다.

문제의 정의

엔티티라는 표현에서 이름 붙여진 단어는 하나 이상의 문자열(예: 단어 또는 구)이 일관되게 참조되는 엔티티로 작업을 제한합니다.이는 Kripke[3][4]의해 정의된 바와 같이 엄격한 지정자와 밀접하게 관련되어 있지만, 실제로는 NER가 철학적으로 "강하지 않은" 많은 이름 및 참조자를 다루고 있습니다.예를 들어, 1903년에 헨리 포드가 설립한 자동차 회사는 포드 또는 포드 자동차 회사라고 불릴 수 있지만, "포드"는 다른 많은 기업들도 지칭할 수 있습니다(포드 참조).경직된 지정자는 특정 생물학적 종과 [5]물질에 대한 고유 명칭뿐만 아니라 고유 명칭도 포함하지만, 대명사("그것"과 같은 상호 참조 해결 참조), 특성별로 참조를 선택하는 설명(De dictode re 참조), 개인에 대한 반대되는 종류의 이름(예: "뱅크")은 제외한다.

완전한 네임 엔티티 인식은 개념적으로도 경우에 [6]따라서는 두 가지 뚜렷한 문제로서 분류되는 경우가 많습니다.이름의 검출과 그것이 참조하는 엔티티 유형(예: 사람, 조직 또는 장소)[7]에 의한 이름의 분류입니다.첫 번째 단계는 일반적으로 세분화 문제로 단순화됩니다. 이름은 네스트 없이 연속된 토큰 범위로 정의되므로 "Bank of America"는 단일 이름입니다. 이 이름 안에 "America"라는 하위 문자열 자체가 이름이라는 사실을 무시합니다.이 분할 문제는 형식적으로 청킹과 비슷합니다.두 번째 단계에서는 사물의 범주를 구성할 온톨로지를 선택해야 합니다.

시간적 표현과 일부 숫자 표현(예: 돈, 비율 등)도 NER 과제의 맥락에서 명명된 개체로 간주할 수 있다.이러한 유형의 예는 엄격한 지정자의 좋은 예이지만(2001년 등) 무효 지정자도 많다(예: "6월"에 휴가를 낸다).첫 번째 경우, 2001년은 그레고리력으로 2001년을 가리킨다.두 번째 경우, 6월은 정의되지 않은 연도의 달(과거 6월, 다음 6월, 매년 6월 등)을 나타낼 수 있습니다.이러한 경우 명명된 실체의 정의가 실질적인 이유로 느슨해진다는 것은 논쟁의 여지가 있다.따라서 엔티티라는 용어의 정의는 엄격하지 않으며 [8]종종 사용되는 맥락에서 설명해야 한다.

명명된 엔티티 유형의 특정 계층이 문헌에서 제안되었다.2002년에 제안된 BBN 카테고리는 질문 답변에 사용되며 29개 유형 및 64개 하위 [9]유형으로 구성됩니다.2002년에 제안된 Sekine의 확장 계층은 200개의 하위 [10]유형으로 구성되어 있습니다.보다 최근에는 2011년에 Ritter는 소셜 미디어 [11]텍스트에 대한 NER의 획기적인 실험에서 일반적인 FreeBase 엔티티 유형에 기반한 계층을 사용했습니다.

정식 평가

NER 시스템 출력의 품질을 평가하기 위해 몇 가지 척도가 정의되어 있습니다.일반적인 척도는 정밀도, 호출F1 점수라고 합니다.그러나 이러한 값을 계산하는 방법에는 몇 가지 문제가 남아 있다.

이러한 통계적 척도는 실제 실체를 정확히 찾거나 놓치는 명백한 사례와 비실체를 찾는 경우에 상당히 효과적이다.그러나 NER는 다른 많은 방법으로 실패할 수 있으며, 그 중 많은 부분이 거의 "부분적"이며 완전한 성공 또는 실패로 간주해서는 안 된다.예를 들어, 실제 엔티티의 식별은 다음과 같습니다.

  • (예를 들어 "John Smith, M.D."의 마지막 토큰이 누락됨)
  • (예를 들어 'MD 대학'의 첫 번째 단어 포함)
  • 인접 엔티티를 다르게 분할한다(예를 들어 "Smith, Jones Robinson"을 2 대 3 엔티티로 취급한다).
  • 완전히 잘못된 유형 할당(예를 들어 개인 이름을 조직으로 호출)
  • 관련성이 있지만 부정확한 유형(예: "학교" 대 "학교" 또는 "학교" 대「조직」
  • 사용자가 원하는 것이 더 작거나 더 큰 범위의 엔티티인 경우(예를 들어, "제임스 매디슨 대학"의 일부인 경우 "제임스 매디슨"을 개인 이름으로 식별하는 경우).일부 NER 시스템에서는 엔티티가 중복되거나 중첩되지 않도록 제한하고 있습니다.즉, 경우에 따라서는 임의의 또는 태스크 고유의 선택을 해야 합니다.

정확성을 측정하는 지나치게 간단한 방법 중 하나는 텍스트 내의 모든 토큰 중 어떤 부분이 엔티티 참조의 일부로(또는 올바른 유형의 엔티티로) 올바르게 식별되었는지 또는 잘못 식별되었는지 계산하는 것입니다.이 두가지 문제점 실체 이름의 기준선이 정확도(항상 예측하" 아닌 실체") 지나칠 정도로 높은은 첫째, 실제 텍스트에 토큰의 대다수가 아닌 일반적으로입니다.;90%. 둘째, 실체 이름의 전체 범위 mispredicting 적절히(단 한 사람의 첫번째 때 이름을 발견한 처벌을 받지 않을 앓고 있다. 안녕다음에 나오는 성은 「정확도」라고 평가됩니다).

CoNLL과 같은 학회에서 F1 점수의 변형은 [7]다음과 같이 정의되었습니다.

  • Precision은 골드 표준 평가 데이터의 범위와 정확히 일치하는 예측 엔티티 이름 범위 수입니다.즉, [Hans]Person [Blick]가 예측되지만 PersonPerson[Hans Blick]이 필요한 경우 예측된 이름의 정밀도는 0입니다.그런 다음 예측된 모든 엔티티 이름에 대해 정밀도가 평균화됩니다.
  • 리콜은 마찬가지로 예측에서 정확히 동일한 위치에 나타나는 금본위제의 이름 수입니다.
  • F1 점수는 이 두 개의 조화 평균입니다.

위의 정의에 따르면 단일 토큰을 놓치거나 스플리어스 토큰을 포함하거나 잘못된 클래스를 가진 예측은 하드오류이며 정밀도 또는 호출에 긍정적인 영향을 미치지 않습니다.따라서 이 조치는 비관적이라고 할 수 있다.많은 "오류"가 수정에 가깝고 특정 목적에 적합할 수 있다.예를 들어, 한 시스템은 항상 "Ms." 또는 "Ph.D."와 같은 제목을 생략할 수 있지만 제목이 포함될 것으로 예상되는 시스템 또는 실제 데이터와 비교될 수 있다.이 경우 이러한 이름은 모두 오류로 처리됩니다.이러한 문제 때문에, 실제로 오류의 종류를 조사하고, 그 오류에 대한 목표와 요구 사항을 어느 정도 부여받았는지를 결정하는 것이 중요하다.

토큰별 매칭에 기초한 평가 모델이 [12]제안되었습니다.그러한 모델은 중복되는 일치에 대해 부분적인 신용을 부여할 수 있다(예: Union에 대한 교차 기준 사용).추출 시스템을 보다 세밀하게 평가하고 비교할 수 있습니다.

접근

NER 시스템은 언어 문법 기반 기술 및 기계 학습과 같은 통계 모델을 사용하는 것이 개발되었습니다.수작업으로 만든 문법 기반 시스템은 일반적으로 더 높은 정밀도를 얻지만, 적은 회수율과 숙련된 컴퓨터 언어학자[13]수개월에 걸친 작업을 희생합니다.통계 NER 시스템은 일반적으로 대량의 수동 주석이 달린 훈련 데이터를 필요로 합니다.주석 [14][15]작업의 일부를 피하기 위해 반감시적 접근법이 제안되었다.

기계에서 학습한 NER를 실행하기 위해 다양한 분류자 유형이 사용되었으며, 조건부 랜덤 필드가 일반적인 [16]선택입니다.

문제 도메인

2001년에는 최첨단 NER 시스템조차 취약하다는 연구 결과가 나왔는데, 이는 한 도메인용으로 개발된 NER 시스템이 일반적으로 다른 [17]도메인에서는 잘 작동하지 않는다는 것을 의미합니다.NER 시스템을 조정하여 새로운 도메인에서 잘 작동하도록 하는 작업은 상당히 중요합니다.이것은 규칙 기반 통계 시스템과 훈련 가능한 통계 시스템 모두에 해당됩니다.

1990년대 NER 시스템의 초기 연구는 주로 저널리즘 기사에서 추출하는 것을 목표로 했다.그 후 관심은 군 파견과 보고서 처리에 쏠렸다.자동 콘텐츠 추출(ACE) 평가의 후반 단계에는 웹로그대화 전화 음성 대화 텍스트 대화록과 같은 몇 가지 유형의 비공식 텍스트 스타일도 포함되었다.약 1998년 이후 분자생물학, 생물정보학 의료자연어 처리 커뮤니티에서 개체 식별에 대한 많은 관심이 있었다.그 영역에서 가장 일반적인 관심사는 유전자와 유전자 생산물의 이름이었다.또한 27개 팀이 이 [18]작업에 참여하면서 CHEMDNER 경쟁의 맥락에서 화학 실체와 약물의 인정에 상당한 관심이 있었다.

현재의 과제와 연구

MUC-7 데이터셋에서 보고된 높은 F1 수치에도 불구하고, 명명된 엔티티 인식 문제는 아직 해결되지 않았습니다.주요 노력은 반감독 학습,[14][19] 도메인 전반의[20][21] 강력한 성능 및 세분화된 엔티티 [10][22]유형까지 확장하여 주석 노동을 줄이는 데 있다.최근 몇 년 동안 많은 프로젝트가 크라우드 소싱으로 전환되었습니다. 크라우드 소싱은 [23]NER에 대한 감독 및 반감독 기계 학습 접근법에 대한 고품질 종합 인간의 판단을 얻기 위한 유망한 솔루션입니다.또 다른 어려운 작업은 트위터나 검색 [24]질의와 같은 언어적으로 복잡한 상황에 대처하기 위한 모델을 고안하는 것입니다.

HMM(숨겨진 마르코프 모델), ME(최대 엔트로피), CRF(조건부 랜덤 필드) 및 특징 [25]집합과 같은 다른 통계 모델의 NER 성능에 대해 비교한 연구자가 있다.또한 일부 연구자들은 최근 특정 언어 NER [26]작업에 대해 그래프 기반의 반감독 학습 모델을 제안했습니다.

텍스트에서 "중요한 표현"을 식별하고 를 위키피디아에 상호[27][28][29] 연결하는 최근 떠오르는 작업은 매우 세밀한 이름-엔티티 인식의 한 예로 볼 수 있습니다. 여기서 유형은 (잠재적으로 모호할 수 있는) 개념을 설명하는 실제 위키피디아 페이지입니다.다음은 Wikiation 시스템의 출력 예입니다.

<ENTITY url="https://en.wikipedia.org/wiki/Michael_I._Jordan"> Michael Jordan </ENTITY>는 <ENTITY url="https://en.wikipedia.org/wiki/University_of_California,_Berkeley"> 버클리 </ENTITY>의 교수입니다.

진보했지만 여전히 어려운 또 다른 분야는 트위터와 다른 [30][vague]마이크로블로그에 NER를 적용하는 것입니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Elaine Marsh, Dennis Perzanowski, MUC-7 IE 테크놀로지 평가:결과의 개요", 1998년 4월 29일 PDF
  2. ^ MUC-07 프로시저(이름 있는 엔티티 태스크)
  3. ^ Kripke, Saul (1971). "Identity and Necessity". In M.K. Munitz (ed.). Identity and Individuation. New York: New York University Press. pp. 135–64.
  4. ^ LaPorte, Joseph (2018). "Rigid Designators". The Stanford Encyclopedia of Philosophy.
  5. ^ Nadeau, David; Sekine, Satoshi (2007). A survey of named entity recognition and classification (PDF). Lingvisticae Investigationes.
  6. ^ Carreras, Xavier; Màrquez, Lluís; Padró, Lluís (2003). A simple named entity extractor using AdaBoost (PDF). CoNLL.
  7. ^ a b Tjong Kim Sang, Erik F.; De Meulder, Fien (2003). Introduction to the CoNLL-2003 shared task: Language-independent named entity recognition. CoNLL.
  8. ^ 이름 있는 엔티티 정의.Webknox.com 를 참조해 주세요.2013-07-21에 회수.
  9. ^ Brunstein, Ada. "Annotation Guidelines for Answer Types". LDC Catalog. Linguistic Data Consortium. Retrieved 21 July 2013.
  10. ^ a b Sekine의 확장 명명된 엔티티 계층.Nlp.cs.nyu.edu 를 참조해 주세요.2013-07-21에 회수.
  11. ^ Ritter, A.; Clark, S.; Mausam; Etzioni., O. (2011). Named Entity Recognition in Tweets: An Experimental Study (PDF). Proc. Empirical Methods in Natural Language Processing.
  12. ^ Esuli, Andrea; Sebastiani, Fabrizio (2010). Evaluating Information Extraction (PDF). Cross-Language Evaluation Forum (CLEF). pp. 100–111.
  13. ^ Kapetanios, Epaminondas; Tatar, Doina; Sacarea, Christian (2013-11-14). Natural Language Processing: Semantic Aspects. CRC Press. p. 298. ISBN 9781466584969.
  14. ^ a b Lin, Dekang; Wu, Xiaoyun (2009). Phrase clustering for discriminative learning (PDF). Annual Meeting of the ACL and IJCNLP. pp. 1030–1038.
  15. ^ Nothman, Joel; et al. (2013). "Learning multilingual named entity recognition from Wikipedia". Artificial Intelligence. 194: 151–175. doi:10.1016/j.artint.2012.03.006.
  16. ^ Jenny Rose Finkel; Trond Grenager; Christopher Manning (2005). Incorporating Non-local Information into Information Extraction Systems by Gibbs Sampling (PDF). 43rd Annual Meeting of the Association for Computational Linguistics. pp. 363–370.
  17. ^ Poibeau, Thierry; Kosseim, Leila (2001). "Proper Name Extraction from Non-Journalistic Texts" (PDF). Language and Computers. 37 (1): 144–157. doi:10.1163/9789004333901_011. S2CID 12591786. Archived from the original (PDF) on 2019-07-30.
  18. ^ Krallinger, M; Leitner, F; Rabal, O; Vazquez, M; Oyarzabal, J; Valencia, A (2013). "Overview of the chemical compound and drug name recognition (CHEMDNER) task". Proceedings of the Fourth BioCreative Challenge Evaluation Workshop vol. 2. pp. 6–37. CiteSeerX 10.1.1.684.4118.
  19. ^ Turian, J., Ratinov, L., & Bengio, Y. (2010년, 7월)단어 표현: 반감독 학습을 위한 간단하고 일반적인 방법.컴퓨터 언어학 협회 제48회 연차총회 진행 중 (384-394페이지).컴퓨터 언어학 협회PDF
  20. ^ Latinov, L., & Roth, D. (2009년, 6월)명명된 엔티티 인식에 있어서의 설계상의 과제와 오해.컴퓨터 자연어 학습에 관한 제13차 총회의 계속(p. 147-155).컴퓨터 언어학 협회
  21. ^ "Frustratingly Easy Domain Adaptation" (PDF). Archived from the original (PDF) on 2010-06-13. Retrieved 2012-04-05.
  22. ^ 질의응답에 조건부 랜덤필드를 사용한 세밀한 이름 있는 엔티티 인식.
  23. ^ 임상 자연어 처리의 고품질 골드 표준 개발을 위한 Web 2.0 기반 크라우드 소싱
  24. ^ Eiselt, Andreas; Figueroa, Alejandro (2013). A Two-Step Named Entity Recognizer for Open-Domain Search Queries. IJCNLP. pp. 829–833.
  25. ^ 한, 리펑 아론, 웡, 파이, 차오, 리디아 샘. (2013년)중국어 특성에 비추어 조건부 무작위 필드를 사용한 중국어 명명 개체 인식국제 언어 처리 및 인텔리전트 정보 시스템 회의의 진행.M.A. Klopotek 등 (Ed.) : IIS 2013, LNCS Vol. 7912, 57~68 페이지 [1]
  26. ^ Han, Li-Feng Aaron, Wong, Zeng, Xiaodong, Derek Fai, Chao, Lidia Sam. (2015년)그래프 기반 반감독 학습 모델을 사용한 중국어 명명 개체 인식.ACL-IJCNLP의 SAHAN 워크숍 진행 2015.[2]
  27. ^ 문서를 백과사전 지식으로 연결.
  28. ^ "Learning to link with Wikipedia" (PDF). Archived from the original (PDF) on 2019-01-25. Retrieved 2014-07-21.
  29. ^ 위키피디아에 대한 명확화를 위한 로컬 및 글로벌 알고리즘.
  30. ^ Derczynski, Leon and Diana Maynard, Giuseppe Rizzo, Marieke van Erp, Genevieve Gorrell, Raphael Troncy, Johann Petrak 및 Kalian Botcheva(2014)."이름 있는 엔티티 인식 분석 및 트윗 링크"정보처리관리 51 (2) : 32~49페이지.