계산 어휘학

Computational lexicology

컴퓨터 어휘학컴퓨터 언어학의 한 분야로, 어휘 연구에 있어서 컴퓨터의 이용과 관련이 있다. 일부 학자들(Amsler, 1980년)은 기계 판독이 가능한 사전 연구에 컴퓨터를 사용하는 것으로 더 좁게 기술되어 왔다. 일부 연구자들은 컴퓨터 사전 편찬을 동의어로 사용해 왔지만, 사전 제작에 컴퓨터를 사용하는 것이 더 적절할 것으로 보이는 컴퓨터 사전 편찬과는 구별된다.

역사

컴퓨터 사전학은 시스템 디벨의 존 올니 외 연구원에 의해 1960년대 메리암-웹스터 제7대학사전메리암-웹스터포켓 사전의 기계 판독 가능 테이프 제작을 시작으로 기계 판독이 가능한 사전의 출현과 함께 컴퓨터 언어학 내의 별도 분야로 부상했다.oppment Corporation. 오늘날, 컴퓨터 사전학은 워드넷의 생성과 응용을 통해 가장 잘 알려져 있다. 시간이 지날수록 연구자들의 연산 처리가 증가함에 따라, 컴퓨터 사전론의 사용은 텍스트 분석에서 보편적으로 적용되어 왔다. 1987년, 다른 것들 중, Byrd, Calzolari, Chorodow는 텍스트 분석을 위한 계산 도구를 개발했다. 특히 모델은 다성어의 감각과 관련된 연관성을 조정하기 위해 설계되었다.[1]

어휘론 연구

컴퓨터 사전학은 컴퓨터 목적을 위한 인쇄 사전의 내용과 한계를 이해하는 데 기여했다(즉, 사전 사전 편찬의 이전 저작이 컴퓨터 언어학의 요구에 충분하지 않다는 것을 명확히 했다). 컴퓨터 사전학자들의 연구를 통해 인쇄 사전 항목의 거의 모든 부분이 다음과 같은 범위로 연구되었다.

  1. 머리말 구성 요소 - 철자 수정 목록을 생성하는 데 사용.
  2. 형태학을 경험적으로 이해하는 데 사용되는 머리말의 형태와 변형
  3. 머리말을 음절로 구분하는 방법
  4. 머리말 발음 방법 - 음성 생성 시스템에서 사용.
  5. 헤드 워드가 사용하는 음성 부분 - POS 태그거에 사용되는 부분
  6. 머리글에 지정된 특수 제목 또는 사용 코드 - 텍스트 문서 제목 식별에 사용.
  7. 머리말의 정의와 그 구문 - 문맥상 단어의 모호성을 해소하는 보조 수단으로 사용된다.
  8. 머리말의 어원 및 어휘의 원산지 언어별 특성화를 위한 사용 - 그 어원에 대한 텍스트 어휘의 특성화에 사용된다.
  9. 예문.
  10. 런온(헤드워드에서 형성되는 단어 및 다중 단어 표현) 및
  11. 동의어, 반의어 등 관련 단어

많은 컴퓨터 언어학자들은 컴퓨터 프로그램을 위한 충분한 통사적 의미적 정보가 부족하기 때문에 컴퓨터 언어학의 자원으로서 인쇄 사전에 환멸을 느꼈다. 컴퓨터 사전학에 대한 연구는 두 가지 추가적인 방향으로 빠르게 노력을 이끌었다.

컴퓨터 어휘론의 계승자

첫째로, 컴퓨터 언어학자와 사전 편찬자 사이의 협력 활동은 사전을 만드는 데 있어 commona가 수행한 역할에 대한 이해로 이어졌다. 대부분의 컴퓨터 사전학자들은 사전 편찬자들이 사전을 만드는 데 사용했던 기초 자료를 모으기 위해 큰 회사를 세우는 쪽으로 나아갔다. ACL/DCI(Data Collection Initiative)와 LDC(Linguistic Data Consortium)는 이 경로를 따라 내려갔다. 마크업 언어의 등장은 컴퓨터 언어 시스템을 만들기 위해 보다 쉽게 분석할 수 있는 태그가 붙은 회사를 만들게 되었다. POS 태거와 단어 의미론적 해소 기술을 테스트하고 개발하기 위해 음성 부분 태그가 붙은 corpora와 의미론적으로 태그가 붙은 corpora가 만들어졌다.

두 번째 방향은 어휘 지식 베이스(LKBs)의 창설을 향한 것이었다. 어휘적 지식 기반은 특히 계산적 어휘 의미 목적을 위한 사전으로 간주되었다. 그것은 인쇄 사전에서와 동일한 정보를 가지되 단어의 의미와 감각 사이의 적절한 연결에 대해 완전히 설명하기 위함이었다. 많은 사람들은 사전이 컴퓨터 분석에 사용하기 위해 만들어졌으면 하는 자원을 만들기 시작했다. 워드넷은 Fillmore의 FrameNet 작업과 같은 통사적 및 의미적 정보를 기술하는 새로운 노력과 마찬가지로 그러한 발전이라고 간주될 수 있다. 컴퓨터언어학 외에 인공지능의 온톨로지 작업은 AI 응용을 위한 어휘적 지식 기반을 구축하기 위한 진화적 노력으로 볼 수 있다.

표준화

계산 사전의 생산, 유지보수 및 확장을 최적화하는 것은 NLP에 영향을 미치는 중요한 측면 중 하나이다. 가장 큰 문제는 상호운용성이다: 다양한 어휘들은 종종 양립할 수 없다. 가장 빈번한 상황은 두 개의 사전, 즉 사전의 파편을 어떻게 병합할 것인가이다. 두 번째 문제는 사전이 대개 특정 NLP 프로그램에 특별히 맞춰져 있고 다른 NLP 프로그램이나 응용 프로그램 내에서 사용되는 데 어려움이 있다는 것이다.

이러한 관점에서, 컴퓨터 사전의 다양한 데이터 모델은 2008년 ISO 표준으로 이어지는 프로젝트 어휘 마크업 프레임워크 내에서 2003년부터 ISO/TC37에 의해 연구되고 있다.

참조

  1. ^ Byrd, Roy J, Nicoletta Calzolari, Martin S. 초도로, 주디스 클라반스, 메리 S. 네프, 그리고 옴니아 A. Rizk. "계산 사전론을 위한 도구와 방법."계산언어학 13호, 제3-4호(1987년) : 219-240호.

Amsler, Robert A. 박사학위 논문 "메리암 웹스터 포켓 사전의 구조" 오스틴에 있는 텍사스 대학교.

외부 링크