단어 의미의 모호성

Word-sense disambiguation

WSD(Word-sense disambiguation)는 문장이나 다른 맥락 부분에서 어떤 단어의 감각을 의미하는지를 확인하는 과정입니다.인간의 언어 처리인지에서, 그것은 보통 잠재의식적/자동적이지만, 자연어의 만연한 다의성을 고려할 때, 모호성이 의사소통의 명확성을 저해할 때 종종 의식적인 주의를 끌 수 있습니다.컴퓨터 언어학에서, 그것은 담화, 검색 엔진의 관련성 향상, 아포라 해상도, 일관성, 추론과 같은 다른 컴퓨터 관련 글쓰기에 영향을 미치는 열린 문제입니다.

자연 언어가 뇌의 신경망에 의해 제공되는 능력에 의해 형성되는 신경학적 현실을 반영해야 한다는 것을 고려할 때, 컴퓨터 과학은 컴퓨터에서 자연 언어 처리기계 학습을 하는 능력을 개발하는 데 오랜 도전을 해왔습니다.

어휘 자원에 인코딩된 지식을 사용하는 사전 기반 방법, 분류기가 수동으로 감각 주석이 달린 예의 말뭉치에서 각각의 다른 단어에 대해 훈련되는 감독된 기계 학습 방법, 단어의 발생을 군집화하는 완전한 감독되지 않은 방법 등 많은 기술이 연구되어 왔습니다.단어 감각을 유도합니다.이 중 지도 학습 접근법은 현재까지 가장 성공적인 알고리즘이었습니다.

현재 알고리즘의 정확성은 많은 주의 사항 없이 진술하기 어렵습니다.영어에서 거친 입자(호모그래프) 수준의 정확도는 일상적으로 90% 이상이며(2009년 기준), 특정 호모그래프에 대한 일부 방법은 96% 이상을 달성합니다.세분화된 감각 구별에서 59.1%에서 69.0%의 최고 정확도가 평가 연습(SemEval-2007, Senseval-2)에서 보고되었으며, 항상 가장 빈번한 감각을 선택하는 가장 간단한 알고리듬의 기본 정확도는 각각 51.4%와 57%였습니다.

변형

모호성을 해제하려면 두 가지의 엄격한 입력이 필요합니다. 모호성을 해제할 감각을 지정하기 위한 사전과 모호성을 해제해야 하는 언어 데이터의 말뭉치(일부 방법에서는 언어 예제의 훈련 말뭉치도 필요합니다).WSD 작업에는 "어휘 샘플"(이전에 선택한 대상 단어의 작은 샘플의 발생을 명확하게 하는 것)과 "모든 단어" 작업(실행 중인 텍스트의 모든 단어를 명확하게 하는 것)의 두 가지 변형이 있습니다."모든 단어" 작업은 일반적으로 더 현실적인 평가 형태로 간주되지만, 인간 주석자는 동일한 대상 단어에 대한 인스턴스 블록에 대해 한 번이 아니라 태그 결정을 내릴 때마다 시퀀스의 각 단어에 대한 정의를 읽어야 하기 때문에 말뭉치를 만드는 데 비용이 더 많이 듭니다.

역사

WSD는 1940년대 기계 번역 초기에 별개의 계산 작업으로 처음 공식화되어 컴퓨터 언어학에서 가장 오래된 문제 중 하나가 되었습니다.Warren Weaver는 1949년 번역에 관한 그의 비망록에서 계산적 맥락에서 이 문제를 처음 소개했습니다.[1]나중에 Bar-Hille (1960)은 WSD가 일반적으로 모든 세계 지식을 모델링해야 하는 필요성 때문에 "전자 컴퓨터"에 의해 해결될[2] 수 없다고 주장했습니다.

1970년대 WSD는 Wilks의 선호 의미론을 시작으로 인공지능 분야 내에서 발전된 의미론 해석 시스템의 하위 작업이었습니다.그러나 당시 WSD 시스템은 대부분 규칙 기반이고 수작업으로 코딩되었기 때문에 지식 획득 병목 현상이 발생하기 쉽습니다.

1980년대에 이르러 옥스포드 고급 학습자의 현재 영어 사전(OALD)과 같은 대규모 어휘 리소스가 사용 가능하게 되었습니다. 손 코딩은 이러한 리소스에서 자동으로 추출된 지식으로 대체되었지만 모호성은 여전히 지식 기반 또는 사전 기반이었습니다.

1990년대에 통계 혁명은 컴퓨터 언어학을 발전시켰고, WSD는 지도 기계 학습 기술을 적용하는 패러다임 문제가 되었습니다.

2000년대에는 지도 기법이 정확도에서 고원에 도달했으며, 따라서 더 거친 감각, 도메인 적응, 준지도 및 비지도 코퍼스 기반 시스템, 다양한 방법의 조합 및 그래프 기반 방법을 통한 지식 기반 시스템의 반환으로 관심이 이동했습니다.그럼에도 불구하고 감독 시스템은 여전히 최상의 성능을 유지하고 있습니다.

어려움

사전간의 차이

단어 감각의 모호성과 관련된 문제 중 하나는 서로 다른 사전과 사우루스가 단어를 감각으로 구분하는 것을 제공하기 때문에 감각이 무엇인지 결정하는 것입니다.일부 연구자들은 특정 사전을 선택하고, 이 문제를 다루기 위해 그것의 감각을 사용할 것을 제안했습니다.그러나 일반적으로 감각의 차이를 이용한 연구 결과는 좁은 것을 이용한 연구 결과보다 훨씬 뛰어났습니다.[3][4]대부분의 연구자들은 세분화된 WSD에 대한 연구를 계속하고 있습니다.

WSD 분야의 대부분의 연구는 WordNet을 영어의 참조 의미 인벤토리로 사용하여 수행됩니다.WordNet은 개념을 동의어 집합으로 인코딩하는 계산 어휘입니다(예: 자동차의 개념은 {car, auto, auto, machine, motorcar}로 인코딩됨).모호성을 해소하기 위해 사용되는 다른 자료로는 Roget의 Theosaurus[5] Wikipedia가 있습니다.[6]최근에는 다국어 백과사전인 BabelNet이 다국어 WSD에 사용되고 있습니다.[7]

품사 태깅

실제 테스트에서 품사 태깅과 감지 태깅은 서로 매우 밀접한 관련이 있는 것으로 입증되었으며, 각각은 잠재적으로 서로에게 제약을 가합니다.이러한 작업이 함께 유지되어야 하는지 아니면 분리되어야 하는지에 대한 문제는 여전히 만장일치로 해결되지 않고 있지만, 최근 과학자들은 이러한 작업을 별도로 테스트하는 경향이 있습니다(예: Senseval/SemEval 대회에서 음성 부분이 텍스트가 명확하지 않도록 입력으로 제공됨).

WSD와 품사 태깅 모두 단어를 명확하게 나타내거나 태그를 지정하는 것을 포함합니다.그러나 하나에 사용되는 알고리즘은 주로 단어의 발화 부분이 바로 인접한 1~3개의 단어에 의해 결정되는 반면 단어의 감각은 더 멀리 떨어져 있는 단어에 의해 결정되기 때문에 다른 하나에 대해 잘 작동하지 않는 경향이 있습니다.현재 음성 부분 태깅 알고리듬의 성공률은 WSD의 경우보다 훨씬 높으며, 최첨단 기술은 약 96%[8] 이상의 정확도를 보이며, 지도 학습을 통한 단어 의미 모호성의 정확도는 75%[citation needed] 미만입니다.이 수치들은 영어에 전형적인 것이고, 다른 언어에 대한 수치들과 매우 다를 수 있습니다.

심판간분산

또 다른 문제는 심사위원 의 편차입니다.WSD 시스템은 일반적으로 사람의 결과와 비교하여 작업에 대한 결과를 가지고 테스트됩니다.하지만, 텍스트에 음성의 일부를 할당하는 것은 비교적 쉽지만, 사람들이 감각에 태그를 붙이도록 훈련시키는 것은 훨씬 더 어려운 것으로 증명되었습니다.[9]사용자들은 단어가 취할 수 있는 모든 언어의 가능한 부분을 기억할 수 있지만, 개인들이 단어가 취할 수 있는 모든 감각을 기억하는 것은 종종 불가능합니다.게다가, 인간은 당면한 과제에 동의하지 않습니다 – 감각과 문장의 목록을 제시하고, 인간은 어떤 단어가 어떤 의미에서 속하는지에 대해 항상 동의하지는 않을 것입니다.[10]

인간의 성능이 기준이 되기 때문에 컴퓨터 성능의 상한이 되는 것입니다.그러나 인간의 성과는 세밀한 구분보다 거친 구분이 훨씬 더 낫기 때문에 최근 WSD 평가 연습에서 거친 구분에[11][12] 대한 연구가 시험대에 오른 이유입니다.[3][4]

인벤토리 및 알고리즘의 작업 의존성 감지

작업 독립적인 감각 인벤토리는 일관성 있는 개념이 아닙니다.[13] 각 작업은 작업과 관련된 감각으로 단어 의미를 자체적으로 분할해야 합니다.또한 애플리케이션마다 전혀 다른 알고리즘이 필요할 수도 있습니다.기계 번역에서 문제는 목표 단어 선택의 형태를 취합니다."센스"는 대상 언어의 단어로, 종종 원천 언어의 중요한 의미 차이("bank"는 프랑스어의 "bank", 즉 "금융 은행" 또는 "라이브", 즉 '강의 가장자리'로 번역될 수 있음)에 해당합니다.정보 검색에서 의미 인벤토리가 반드시 필요한 것은 아닙니다. 쿼리에서 단어가 같은 의미로 사용되고 검색된 문서가 어떤 의미로 사용되는지 알 수 있으면 충분하기 때문입니다. 즉, 어떤 의미인지는 중요하지 않습니다.

감각의 분별력

마지막으로, "단어 감각"이라는 개념은 미끄럽고 논란의 여지가 있습니다.대부분의 사람들은 조잡호모그래피 수준(예를 들어 필기구나 외함 같은 펜)에서 차이를 보일 수 있지만, 조잡다의성으로 한 단계 내려가면서 의견 차이가 발생합니다.예를 들어, 세분화된 감각 구분을 사용한 Senseval-2에서 인간 주석자는 단어 발생의 85%에서만 동의했습니다.[14]단어 의미는 원칙적으로 무한히 가변적이고 문맥에 민감합니다.이는 구별되거나 분리된 하위 의미로 쉽게 구분되지 않습니다.[15]사전 편찬자들은 종종 말뭉치로 느슨하고 중복되는 단어 의미와 표준적이거나 관습적인 의미들이 당황스러울 정도로 다양하게 확장되고 변조되고 이용된다는 것을 발견합니다.사전 편찬의 기술은 말뭉치에서 단어의 모든 범위의 의미를 환기시키고 설명하는 정의로 일반화하여 의미론적으로 단어가 잘 행동하는 것처럼 보이게 하는 것입니다.그러나 사전 편찬자의 결정은 대개 다른 고려 사항에 의해 결정되기 때문에 이러한 동일한 의미의 구별이 컴퓨터 응용 분야에서 적용 가능한지는 전혀 명확하지 않습니다.2009년에, 어휘 대체라는 이름의 과제가 감각의 이산성 문제에 대한 가능한 해결책으로 제안되었습니다.[16]과제는 원래 단어의 의미를 보존하는 맥락에서 단어의 대체어를 제공하는 것으로 구성됩니다(잠재적으로 대상 언어의 전체 어휘에서 대체어를 선택할 수 있으므로 불확실성을 극복할 수 있습니다).

접근방법 및 방법

WSD에는 크게 두 가지 접근법, 즉 심층 접근법과 얕은 접근법이 있습니다.

심층적 접근은 포괄적인 세계 지식에 대한 접근을 전제로 합니다.이러한 접근법은 일반적으로 매우 제한된 영역 밖에서는 주로 컴퓨터로 읽을 수 있는 형식으로 존재하지 않기 때문에 실제로는 그다지 성공적이지 않은 것으로 여겨집니다.[17]또한, 컴퓨터 언어학의 오랜 전통으로 인해 코드화된 지식과 경우에 따라 그러한 접근 방식을 시도하는 것은 언어학적 또는 세계적 지식과 관련된 지식을 구별하는 것이 어려울 수 있습니다.첫번째 시도는 1950년대 영국의 캠브리지 언어 연구소에 있는 Margaret Masterman과 그녀의 동료들에 의한 것이었습니다.이 시도는 Roget의 Theosaurus와 번호가 매겨진 "헤드"의 천공 카드 버전의 데이터로 사용되었으며, 주제의 표시자로 사용되었으며, 설정된 교차 알고리즘을 사용하여 텍스트의 반복을 찾았습니다.그것은 그다지 성공적이지는 않았지만,[18] 이후의 작업, 특히 1990년대에 야로스키의 시소러스 방법의 기계 학습 최적화 작업과 강한 관계를 맺었습니다.

얕은 접근법은 텍스트를 이해하려고 하지 않고, 대신에 주변 단어를 고려합니다.이 규칙들은 단어 감각이 태그된 단어들의 훈련 코퍼스를 사용하여 컴퓨터에 의해 자동적으로 도출될 수 있습니다.이 접근 방식은 이론적으로 심층 접근 방식만큼 강력하지는 않지만, 컴퓨터의 제한된 세계 지식 때문에 실제로는 우수한 결과를 제공합니다.

WSD에 대한 기존의 접근 방식은 다음과 같습니다.

  • 사전 및 지식 기반 방법:이것들은 말뭉치 증거를 사용하지 않고 주로 사전, 시소리, 어휘 지식 기반에 의존합니다.
  • 준감독 또는 최소감독 방법:이들은 작은 주석이 달린 말뭉치를 부트스트래핑 프로세스의 시드 데이터로 사용하거나 단어 정렬 이중 언어 말뭉치와 같은 2차 지식 소스를 사용합니다.
  • 지도 방법:이것들은 센스있는 말뭉치를 사용하여 훈련합니다.
  • 감독되지 않은 방법:이러한 정보는 (거의) 완전히 외부 정보를 회피하고 주석이 없는 원시 기업에서 직접 작동합니다.이 방법들은 단어 감각 판별이라는 이름으로도 알려져 있습니다.

거의 모든 접근법은 말뭉치에서 모호해질 각 단어를 중심으로 n개의 내용 단어의 창을 정의하고, 그 n개의 주변 단어를 통계적으로 분석함으로써 작동합니다.훈련하고 모호성을 없애는 데 사용되는 두 가지 얕은 접근법은 Na ïve Bayes 분류기와 의사결정 나무입니다.최근 연구에서 지원 벡터 머신과 같은 커널 기반 방법지도 학습에서 우수한 성능을 보여주었습니다.그래프 기반 접근법은 또한 연구 커뮤니티로부터 많은 관심을 받았으며 현재 최첨단 수준의 성능을 달성하고 있습니다.

사전 및 지식 기반 방법

Lesk 알고리즘[19] 중요한 사전 기반 방법입니다.텍스트에서 함께 사용되는 단어들이 서로 연관되어 있고, 단어의 정의와 감각에서 그 연관성을 관찰할 수 있다는 가설에 근거하고 있습니다.사전 정의에서 단어 중복이 가장 큰 사전 감각 쌍을 찾음으로써 두 개 이상의 단어가 모호해집니다.예를 들어, "소나무 원뿔"에서 단어를 명확하게 할 때, 적절한 감각의 정의는 상록수와 나무(적어도 하나의 사전에서)라는 단어를 모두 포함합니다.유사한[20] 접근법은 두 단어 사이의 가장 짧은 경로를 검색합니다. 두 번째 단어는 첫 번째 단어의 모든 의미 변형의 정의에서 반복적으로 검색되고, 이전 정의에서 각 단어의 모든 의미 변형의 정의에서 검색되는 등입니다.마지막으로, 첫 번째 단어에서 두 번째 단어까지의 거리를 최소화하는 의미 변형을 선택하여 첫 번째 단어를 모호하게 합니다.

정의의 사용에 대한 대안은 일반적인 단어-감각 관련성을 고려하고 워드넷과 같은 주어진 어휘 지식 기반을 기반으로 각 단어-감각 쌍의 의미적 유사성을 계산하는 것입니다.AI 연구 초기의 확산 활성화 연구를 연상시키는 그래프 기반 방법이 적용되어 어느 정도 성공을 거두었습니다.더 복잡한 그래프 기반 접근 방식은 감독된 방법과[21] 거의 동일하게 수행되거나 특정 도메인에서 더 우수한 성능을 발휘하는 것으로 나타났습니다.[3][22]최근에는 정도와 같은 간단한 그래프 연결 측정이 충분히 풍부한 어휘 지식 기반이 있는 상태에서 최첨단 WSD를 수행하는 것으로 보고되었습니다.[23]또한 의미 관계의 형태로 지식을 위키피디아에서 워드넷으로 자동 전달하면 단순한 지식 기반 방법이 향상되어 최고의 지도 시스템과 경쟁할 수 있으며 도메인별 환경에서도 우수한 성능을 발휘할 수 있습니다.[24]

선택적 선호(또는 선택적 제한)의 사용은 또한 유용합니다. 예를 들어, 한 사람이 일반적으로 음식을 요리한다는 것을 알고 있기 때문에, "나는 베이스를 요리하고 있다"(즉, 그것은 악기가 아닙니다)에서 베이스라는 단어를 명확하게 할 수 있습니다.

지도방법

감독된 방법은 문맥이 단어를 명확하게 할 수 있는 충분한 증거를 스스로 제공할 수 있다는 가정에 기초합니다(따라서 상식추론은 불필요하다고 간주됩니다).아마도 기능 선택, 매개 변수 최적화 및 앙상블 학습과 같은 관련 기술을 포함하여 진행되는 모든 기계 학습 알고리즘이 WSD에 적용되었을 것입니다.지원 벡터 머신(Support Vector Machine)과 메모리 기반 학습(Memory Based Learning)은 현재까지 가장 성공적인 접근 방식으로 나타났는데, 이는 아마도 특징 공간의 고차원성을 극복할 수 있기 때문일 것입니다.그러나 이러한 지도 방법은 훈련을 위해 상당한 양의 수동 감지 태그가 지정된 말뭉치에 의존하기 때문에 새로운 지식 획득 병목 현상을 일으킬 수 있습니다. 이는 만들기가 힘들고 비용이 많이 듭니다.

준지도법

훈련 데이터가 부족하기 때문에 많은 단어 감각 모호성 알고리즘은 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터를 모두 허용하는 준 지도 학습을 사용합니다.야로스키 알고리즘은 그러한 알고리즘의 초기 예였습니다.[25]인간 언어의 '일맥일맥일맥일맥일맥일맥일맥일맥일맥일맥일맥일맥일맥일맥일맥일맥일맥일맥일맥일맥일맥일맥일맥일맥일맥일맥일맥일맥일맥일맥일맥상통관찰 결과, 단어들은 대부분의 주어진 담화와 주어진 집합에서 하나의 의미만을 나타내는 경향이 있습니다.[26]

부트스트래핑(bootstrapping) 접근법은 각 단어에 대한 소량의 시드 데이터(수동으로 태그가 지정된 훈련 예제 또는 소수의 확실한 결정 규칙)에서 시작됩니다(예: '베이스'의 맥락에서 '플레이'는 거의 항상 악기를 나타냅니다).시드는 감독된 방법을 사용하여 초기 분류기를 훈련하는 데 사용됩니다.그런 다음 이 분류기는 코퍼스의 태그가 없는 부분에서 가장 신뢰할 수 있는 분류만 포함된 더 큰 훈련 세트를 추출하는 데 사용됩니다.이 과정은 반복되며, 각 새로운 분류기는 연속적으로 더 큰 훈련 코퍼스에 대해 훈련을 받고, 전체 코퍼스가 소비될 때까지 또는 주어진 최대 반복 횟수에 도달할 때까지 반복됩니다.

다른 준지도 기법은 태그가 지정되지 않은 코퍼스를 대량으로 사용하여 태그가 지정된 코퍼스를 보완하는 동시 발생 정보를 제공합니다.이러한 기술은 지도 모델을 다른 영역에 적용하는 데 도움이 될 가능성이 있습니다.

또한, 한 언어의 모호한 단어는 단어의 감각에 따라 제 2 언어의 다른 단어로 번역되는 경우가 많습니다.단어 정렬 이중 언어 말뭉치는 언어 간 감각 차이를 추론하는 데 사용되어 왔습니다.[citation needed]

감독되지 않은 방법

감독되지 않은 학습은 WSD 연구자들에게 가장 큰 도전입니다.근본적인 가정은 유사한 맥락에서 유사한 감각이 발생하기 때문에, 단어 감각 유도 또는 구별이라고 하는 작업인 [27]맥락의 유사성 측정을 사용하여 단어 발생을 클러스터링함으로써 텍스트에서 감각을 유도할 수 있다는 것입니다.그런 다음 단어의 새로운 출현을 가장 가까운 유도된 군집/감으로 분류할 수 있습니다.위에서 설명한 다른 방법보다 성능이 낮지만, 유도된 감각은 알려진 단어 감각 사전에 매핑되어야 하므로 비교가 어렵습니다.사전 감각 집합에 매핑을 원하지 않는 경우 클러스터 기반 평가(엔트로피 및 순도 측정 포함)를 수행할 수 있습니다.또는, 단어 감각 유도 방법을 테스트하고 응용 프로그램 내에서 비교할 수 있습니다.예를 들어, 단어 센스 귀납법은 결과 클러스터의 품질을 높이고 결과 목록의 다양화 정도를 높임으로써 웹 검색 결과 클러스터링을 향상시키는 것으로 나타났습니다.[28][29]비지도 학습이 수작업에 의존하지 않기 때문에 지식 습득 병목 현상을 극복할 수 있기를 바랍니다.

고정 크기 밀도 벡터(단어 임베딩)를 통해 문맥을 고려하는 단어를 표현하는 것은 여러 NLP 시스템에서 가장 기본적인 블록 중 하나가 되었습니다.[30][31][32]대부분의 전통적인 단어 삽입 기술이 여러 의미를 가진 단어를 하나의 벡터 표현으로 통합하지만 WSD를 개선하는 데는 여전히 사용될 수 있습니다.[33]단어 감각을 표현하기 위해 미리 계산된 단어 임베딩을 사용하는 간단한 접근법은 감각 클러스터의 중심을 계산하는 것입니다.[34][35]단어 임베딩 기술 외에도 어휘 데이터베이스(: WordNet, ConceptNet, BabelNet)는 감독되지 않은 시스템이 단어와 그들의 감각을 사전으로 매핑하는 것을 도울 수 있습니다.어휘 데이터베이스와 단어 임베딩을 결합한 몇 가지 기술은 자동 확장[36][37] 및 가장 적합한 감각 주석(MSSA)에 제시되어 있습니다.[38]AutoExtend에서는 객체 입력 표현을 단어 및 단어 감각과 같은 속성으로 분리하는 방법을 제시합니다.[37]AutoExtend는 그래프 구조를 사용하여 워드(예: 텍스트) 및 비워드(예: WordNetsynset) 개체를 노드로 매핑하고 노드 간의 관계를 에지로 매핑합니다.AutoExtend의 관계(에지)는 노드 간의 추가 또는 유사성을 표현할 수 있습니다.전자는 오프셋 미적분학 뒤에 있는 직관을 포착하고 [30]후자는 두 노드 사이의 유사성을 정의합니다.MSSA에서 감독되지 않은 모호성 시스템은 [38]고정된 컨텍스트 창에서 단어 감각 간의 유사성을 사용하여 사전 훈련된 단어 임베딩 모델과 WordNet을 사용하여 가장 적합한 단어 감각을 선택합니다.MSSA는 각 컨텍스트 창에 대해 사전 교육된 단어 삽입 모델을 사용하여 워드넷의 글로스(즉, 짧은 정의 글로스 및 하나 이상의 사용 예)에서 단어의 단어 벡터를 평균화하여 각 단어 감지 정의의 중심을 계산합니다.이 중심 단어들은 나중에 대상 단어와 바로 인접한 이웃(즉, 이전 단어와 후속 단어)의 유사성이 가장 높은 단어 감지를 선택하는 데 사용됩니다.모든 단어가 주석이 달리고 모호해진 후, 모든 표준 단어 삽입 기술에서 훈련 코퍼스로 사용될 수 있습니다.개선된 버전에서 MSSA는 단어 의미 임베딩을 사용하여 모호성을 제거하는 과정을 반복적으로 반복할 수 있습니다.

기타접근방법

다른 접근법들은 그 방법이 다를 수 있습니다.

타국어

  • 힌디어 : 힌디어로 된 어휘 자원의 부족은 WSD의 지도 모델의 수행을 방해하는 반면, 지도되지 않은 모델은 광범위한 형태론으로 인해 어려움을 겪습니다.이 문제에 대한 가능한 해결책은 병렬 말뭉치를 이용한 WSD 모델의 설계입니다.[47][48]힌디어 워드넷의 생성은 명사를 명확하게 구분하는 데 더 높은 정확도를 산출하는 것으로 입증된 여러 감독 방법을 위한 길을 열었습니다.[49]

로컬 장애 및 요약

지식 습득 병목 현상은 WSD 문제를 해결하는 데 주요 장애물일 수 있습니다.감독되지 않은 방법은 단어 감각에 대한 지식에 의존하며, 사전과 어휘 데이터베이스에서만 드물게 공식화됩니다.감독 방법은 모든 단어 감각에 대해 수동으로 주석이 달린 예제의 존재에 결정적으로 의존하며, 이는 지금까지[when?] 감각 연습에서 수행되는 것처럼 테스트 목적의 소수의 단어에 대해서만 충족될 수 있는 요구 사항입니다.

WSD 연구에서 가장 유망한 경향 중 하나는 접근 가능한 최대 코퍼스월드 와이드 웹을 사용하여 어휘 정보를 자동으로 획득하는 것입니다.[50]WSD는 전통적으로 정보 검색(IR)과 같은 응용 프로그램을 개선할 수 있는 중간 언어 공학 기술로 이해되어 왔습니다.그러나 이 경우에는 반대로 웹 검색 엔진은 WSD에서 사용할 정보를 성공적으로 찾기 위해 웹을 채굴할 수 있는 간단하고 강력한 IR 기술을 구현합니다.역사적으로 훈련 데이터가 부족함에 따라 감지 태그가 지정된 말뭉치의 자동 획득에 설명된 것처럼 몇 가지 새로운 알고리즘과 기술이 등장했습니다.

외부지식소스

지식은 WSD의 기본 요소입니다.지식 원천은 감각과 단어를 연관시키는 데 필수적인 데이터를 제공합니다.이들은 레이블이 없거나 단어 감각으로 주석이 달린 텍스트 말뭉치부터 기계로 읽을 수 있는 사전, 용어집, 온톨로지 등에 이르기까지 다양할 수 있습니다.다음과 같이 분류할 수 있습니다[51][52].

구조화:

  1. MRD(Machine Readable Dictionary)
  2. 온톨로지스
  3. 테사우리

비정형:

  1. 코로케이션
  2. 기타 리소스(단어 빈도 목록, 중지 목록, 도메인 레이블 등)[53]
  3. 말뭉치: 생말뭉치 및 센스 주석 말뭉치

평가하기

채택된 테스트 세트, 감지 인벤토리 및 지식 리소스가 다르기 때문에 다양한 WSD 시스템을 비교하고 평가하는 것은 매우 어렵습니다.구체적인 평가 캠페인을 조직하기 전에는 대부분의 시스템을 소규모의 사내 데이터 세트를 대상으로 평가했습니다.알고리즘을 테스트하기 위해 개발자들은 모든 단어 발생에 주석을 달기 위해 시간을 써야 합니다.그리고 같은 말뭉치라도 다른 의미의 재고가 있다면 방법을 비교하는 것은 적합하지 않습니다.

공통 평가 데이터셋과 절차를 정의하기 위해 공개 평가 캠페인을 마련했습니다.Senseval (현재 SemEval로 개명)은 1998년부터 3년마다 개최되는 국제적인 단어 감각 모호성 대회입니다: Senseval-1 (1998년), Senseval-2 (2001년), Senseval-3 (2004년), 그리고 이의 후임자인 SemEval (2007년).대회의 목적은 다양한 강의를 조직하고, 시험 시스템을 위한 말뭉치를 준비하고, 손으로 주석을 달며, 여러 언어에 대한 올워드 및 어휘 샘플 WSD를 포함한 여러 종류의 과제에서 WSD 시스템의 비교 평가를 수행하는 것이며, 최근에는 의미 역할 라벨링, 글로스 WSD, 렉카 등의 새로운 과제를 수행하는 것입니다.대체이러한 대회에 평가를 위해 제출된 시스템은 보통 다양한 기술을 통합하고 감독 및 지식 기반 방식을 결합하는 경우가 많습니다(특히 훈련 사례가 부족한 상황에서 성능 저하를 방지하기 위해).

최근 WSD 평가 과제의 선택이 증가하고 WSD 평가 과제의 변화에 따라 WSD 평가 기준이 크게 변화하고 있습니다.아래에서는 다양한 WSD 작업을 열거합니다.

태스크 설계 선택사항

기술이 발전함에 따라 WSD(Word Sense Disambiguation) 작업은 다양한 연구 방향과 더 많은 언어에 대해 다양한 맛으로 성장합니다.

  • 전형적인 단일 언어 WSD 평가 작업은 WordNet을 감지 인벤토리로 사용하며, 주로 수동 감지 주석이 달린 말뭉치를 사용하여 감독/반감독 분류에 기초합니다.[54]
    • 클래식 영어 WSD는 Princeton WordNet을 사용하여 인벤토리를 감지하고 1차 분류 입력은 일반적으로 SemCor 말뭉치를 기반으로 합니다.
    • 다른 언어를 위한 고전적인 WSD는 각각의 워드넷을 각각의 언어로 태그된 감지 인벤토리와 감지 주석이 달린 말뭉치로 사용합니다.종종 연구자들은 SemCor 말뭉치를 두드리고 영어를 소스 언어로 사용하여 bitext를 정렬하기도 합니다.
  • 언어WSD 평가 작업도 동시에 2개 이상의 언어에 걸친 WSD에 초점을 맞추고 있습니다.다국어 WSD 작업과는 달리, 다의어 명사의 각 의미에 대해 수동으로 감각 주석이 달린 예를 제공하는 대신, 감각 인벤토리는 병렬 코퍼스, 예를 들어 Europarl 말뭉치를 기반으로 구축됩니다.[55]
  • 다국어 WSD 평가 작업은 2개 이상의 언어에 걸친 WSD에 동시에 초점을 맞추고, 각각의 WordNet을 감각 인벤토리로 사용하거나 BabelNet을 다국어 감각 인벤토리로 사용했습니다.[56]Senseval-2에서 진행된 Translation WSD 평가 작업에서 발전했습니다.인기 있는 접근법은 단일 언어 WSD를 수행한 다음 소스 언어 감각을 해당 대상 단어 번역에 매핑하는 것입니다.[57]
  • Word Sense Induction and Disambiguation 작업은 복합 작업 평가로, 먼저 다중 단어와 해당 단어가 발생한 문장으로 구성된 고정된 훈련 세트 데이터에서 감지 인벤토리를 유도한 다음, 다른 테스트 데이터 세트에서 WSD를 수행합니다.[58]

소프트웨어

  • 다국어 워드센스 구분과 개체 연계를 위한 통합 최첨단 시스템인 [59]Babelfy
  • 바벨넷 의미망을 이용한 지식기반 다국어 Word Sense Disambiguation을 위한 자바 API인 [60]바벨넷 API
  • WordNet::SenseRelate,[61] 단어 감각 모호성 및 어휘 샘플 감각 모호성을 위한 자유 오픈 소스 시스템을 포함하는 프로젝트
  • UKB: Graph Base WSD,[62] 기존의 어휘 지식 기반을[63] 이용하여 그래프 기반의 워드센스 구분 및 어휘 유사성/관련성을 수행하는 프로그램 모음
  • word sense disambiguation (WSD) 기술의 pyWSD,[64] 파이썬 구현

참고 항목

참고문헌

  1. ^ 직공 1949.
  2. ^ 바-힐렐 1964, 174-179쪽
  3. ^ a b c Navigli, Litkowski & Hargraves 2007, pp. 30–35.
  4. ^ a b Pradhan et al. 2007, pp. 87-92
  5. ^ 야로스키 1992, 페이지 454-460.
  6. ^ 2007년 미할세아.
  7. ^ A. 모로, A.라가나토; R.Navigli.엔티티 링크는 단어 감각의 모호성을 충족합니다: 통합 접근 방식.Wayback Machine에서 2014-08-08 보관.전산언어학협회(TACL)의 거래. 2. pp. 231-244. 2014.
  8. ^ Martinez, Angel R. (January 2012). "Part-of-speech tagging: Part-of-speech tagging". Wiley Interdisciplinary Reviews: Computational Statistics. 4 (1): 107–113. doi:10.1002/wics.195. S2CID 62672734. Archived from the original on 2023-07-15. Retrieved 2021-04-01.
  9. ^ 펠바움 1997.
  10. ^ Snyder & Palmer 2004, pp. 41-43
  11. ^ Navigli 2006, pp. 105–112.
  12. ^ Snow et al. 2007, pp. 1005-1014
  13. ^ Palmer, Babko-Malaya & Dang 2004, 페이지 49-56
  14. ^ Edmonds 2000.
  15. ^ Kilgarrif 1997, pp. 91-113. CITEREFKilgarrif (
  16. ^ McCarthy & Navigli 2009, 페이지 139-159.
  17. ^ 레나트 & 구하 1989.
  18. ^ 윌크스, 슬레이터 & 거스리 1996.
  19. ^ Lesk 1986, 페이지 24-26.
  20. ^ Diamantini, C.; Mircoli, A.; Potena, D.; Storti, E. (2015-06-01). "Semantic disambiguation in a social information discovery system". 2015 International Conference on Collaboration Technologies and Systems (CTS). pp. 326–333. doi:10.1109/CTS.2015.7210442. ISBN 978-1-4673-7647-1. S2CID 13260353.
  21. ^ Navigli & Velardi 2005, pp. 1063–1074.
  22. ^ Agirre, Lopez de Lacalle & Soroa 2009, pp. 1501–1506.
  23. ^ Navigli & Lapata 2010, 페이지 678–692.
  24. ^ Ponzetto & Navigli 2010, pp. 1522–1531.
  25. ^ Yarowsky 1995, pp. 189–196.
  26. ^ Mitkov, Ruslan (2004). "13.5.3 Two claims about senses". The Oxford Handbook of Computational Linguistics. OUP. p. 257. ISBN 978-0-19-927634-9. Archived from the original on 2022-02-22. Retrieved 2022-02-22.
  27. ^ 쉬체 1998, 페이지 97-123.
  28. ^ Navigli & Crisafulli 2010.
  29. ^ Di Marco & Navigli 2013.
  30. ^ a b Mikolov, Tomas; Chen, Kai; Corrado, Greg; Dean, Jeffrey (2013-01-16). "Efficient Estimation of Word Representations in Vector Space". arXiv:1301.3781 [cs.CL].
  31. ^ Pennington, Jeffrey; Socher, Richard; Manning, Christopher (2014). "Glove: Global Vectors for Word Representation". Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg, PA, USA: Association for Computational Linguistics. pp. 1532–1543. doi:10.3115/v1/d14-1162. S2CID 1957433.
  32. ^ Bojanowski, Piotr; Grave, Edouard; Joulin, Armand; Mikolov, Tomas (December 2017). "Enriching Word Vectors with Subword Information". Transactions of the Association for Computational Linguistics. 5: 135–146. doi:10.1162/tacl_a_00051. ISSN 2307-387X.
  33. ^ Iacobacci, Ignacio; Pilehvar, Mohammad Taher; Navigli, Roberto (2016). "Embeddings for Word Sense Disambiguation: An Evaluation Study". Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Berlin, Germany: Association for Computational Linguistics: 897–907. doi:10.18653/v1/P16-1085. Archived from the original on 2019-10-28. Retrieved 2019-10-28.
  34. ^ Bhingardive, Sudha; Singh, Dhirendra; V, Rudramurthy; Redkar, Hanumant; Bhattacharyya, Pushpak (2015). "Unsupervised Most Frequent Sense Detection using Word Embeddings". Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Denver, Colorado: Association for Computational Linguistics. pp. 1238–1243. doi:10.3115/v1/N15-1132. S2CID 10778029. Archived from the original on 2023-01-21. Retrieved 2023-01-21.
  35. ^ Butnaru, Andrei; Ionescu, Radu Tudor; Hristea, Florentina (2017). "ShotgunWSD: An unsupervised algorithm for global word sense disambiguation inspired by DNA sequencing". Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: 916–926. arXiv:1707.08084. Archived from the original on 2023-01-21. Retrieved 2023-01-21.
  36. ^ Rothe, Sascha; Schütze, Hinrich (2015). "AutoExtend: Extending Word Embeddings to Embeddings for Synsets and Lexemes". Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). pp. 1793–1803. arXiv:1507.01127. Bibcode:2015arXiv150701127R. doi:10.3115/v1/p15-1173. S2CID 15687295. {{cite book}}: journal=무시됨(도움말)
  37. ^ a b Rothe, Sascha; Schütze, Hinrich (September 2017). "AutoExtend: Combining Word Embeddings with Semantic Resources". Computational Linguistics. 43 (3): 593–617. doi:10.1162/coli_a_00294. ISSN 0891-2017.
  38. ^ a b Ruas, Terry; Grosky, William; Aizawa, Akiko (December 2019). "Multi-sense embeddings through a word sense disambiguation process". Expert Systems with Applications. 136: 288–303. arXiv:2101.08700. doi:10.1016/j.eswa.2019.06.026. hdl:2027.42/145475. S2CID 52225306.
  39. ^ Gliozzo, Magnini & Strapparava 2004, 380-387쪽
  40. ^ Buitelaar et al. 2006, pp. 275-298
  41. ^ McCarthy et al. 2007, pp. 553-590
  42. ^ 모하마드와 허스트 2006, 121-128쪽
  43. ^ Lapata & Keller 2007, 페이지 348-355
  44. ^ Ide, Erjavec & Tufis 2002, 페이지 54–60.
  45. ^ Chan & Ng 2005, pp. 1037–1042.
  46. ^ Stuart M. Shieber (1992). Constraint-based Grammar Formalisms: Parsing and Type Inference for Natural and Computer Languages. MIT Press. ISBN 978-0-262-19324-5. Archived from the original on 2023-07-15. Retrieved 2018-12-23.
  47. ^ 바타차리야, 인드라짓, 리세 게투르, 요슈아 벤지오.이중언어 확률론적 모델을 사용한 감독되지 않은 감각 모호성 해제 Wayback Machine 2016-01-09 보관.제42차 전산언어학 협회 연차총회 진행상황계산언어학협회, 2004.
  48. ^ 디아브, 모나, 그리고 필립 레스닉.Wayback Machine에서 병렬 말뭉치를 이용한 단어 센스 태깅 비지도 방법 2016-03-04 아카이브제40차 전산언어학 협회 연차총회 진행상황계산언어학협회, 2002.
  49. ^ 마니시 신하, 마헤시 쿠마르, 프라바카르 판데, 락스미 카샤립, 푸쉬팍 바타차리야.힌디어 단어 감각 모호성 웨이백 머신에서 2016-03-04 보관기계번역 국제심포지엄, 자연어 처리 및 번역 지원 시스템, 인도 델리, 2004
  50. ^ Kilgarrif & Grefenstette 2003, pp. 333–347. CITEREFKilgarrifGrefstette (
  51. ^ Litkowski 2005, pp. 753-761.
  52. ^ Agirre & Stevenson 2007, 217-251쪽
  53. ^ Magnini & Cavaglia 2000, 페이지 1413-1418
  54. ^ 루시아 스페시아, 마리아 다스 그라카스 볼페 누네스, 가브리엘라 카스텔로 브랑코 리베이로, 마크 스티븐슨.Wayback Machine에서 다국어단일 언어 WSD Archive 2012-04-10.EACL-2006 센스 만들기 워크숍: 심리언어학과 계산언어학을 하나로 모으다, 이탈리아 트렌토, 2006년 4월 33-40페이지
  55. ^ 엘스 레페버와 베로니크 호스테.SemEval-2010 작업 3: 언어단어 감각 모호성 해제 웨이백 머신에서 2010-06-16 보관.의미적 평가에 관한 워크숍 진행:최근 성과 및 향후 방향.2009년6월04일-04일 콜로라도 보울더
  56. ^ R. Navigli, D. A. Jurgens, D.바넬라.SemEval-2013 Task 12: Wayback Machine에서 다국어 단어 감각 모호성 보관 2014-08-08제7차 의미 평가 국제 워크숍 절차(SemEval), 어휘 및 계산 의미론에 관한 제2차 공동 회의(*SEM 2013), 미국 애틀랜타, 2013년 6월 14일-15일, 222-231페이지
  57. ^ 루시아 스페시아, 마리아 다스 그라카스 볼페 누네스, 가브리엘라 카스텔로 브랑코 리베이로, 마크 스티븐슨.Wayback Machine에서 다국어단일 언어 WSD Archive 2012-04-10.EACL-2006 의미 만들기 워크샵: 심리언어학과 계산언어학을 하나로 모으다, 이탈리아 트렌토, 2006년 4월 33-40페이지
  58. ^ 에네코 아기레와 아이토르 소로아.Semeval-2007 과제 02: 단어 감각 유도판별 시스템 평가 Wayback Machine에서 2013-02-28 아카이브제4차 의미평가 국제워크숍, 2007년 6월 23일-24일, 체코 프라하
  59. ^ "Babelfy". Babelfy. Archived from the original on 2014-08-08. Retrieved 2018-03-22.
  60. ^ "BabelNet API". Babelnet.org. Archived from the original on 2018-03-22. Retrieved 2018-03-22.
  61. ^ "WordNet::SenseRelate". Senserelate.sourceforge.net. Archived from the original on 2018-03-21. Retrieved 2018-03-22.
  62. ^ "UKB: Graph Base WSD". Ixa2.si.ehu.es. Archived from the original on 2018-03-12. Retrieved 2018-03-22.
  63. ^ "Lexical Knowledge Base (LKB)". Moin.delph-in.net. 2018-02-05. Archived from the original on 2018-03-09. Retrieved 2018-03-22.
  64. ^ alvations. "pyWSD". Github.com. Archived from the original on 2018-06-11. Retrieved 2018-03-22.

인용작품

추가열람

외부 링크