컴퓨터 언어학

Computational linguistics

컴퓨터 언어학은 자연 언어의 컴퓨터 모델링과 언어적 질문에 대한 적절한 컴퓨터 접근법의 연구와 관련된 학제간 분야이다.일반적으로 컴퓨터 언어학은 언어학, 컴퓨터 과학, 인공지능, 수학, 논리학, 철학, 인지과학, 인지심리학, 심리언어학, 인류학, 신경과학 등을 이용한다.

하위 필드 및 관련 영역

전통적으로 컴퓨터 언어학은 컴퓨터를 자연어 처리에 응용하는 것을 전문으로 하는 컴퓨터 과학자들에 의해 수행되는 인공지능의 한 분야로 떠올랐다.컴퓨터 언어학 협회(ACL)[1]의 설립과 독립된 컨퍼런스 시리즈의 설립으로 1970년대와 1980년대에 이 분야가 통합되었습니다.

컴퓨터 언어학 협회는 컴퓨터 언어학을 다음과 같이 정의합니다.

컴퓨터적 관점에서 언어를 과학적으로 연구하는 것.컴퓨터 언어학자들은 다양한 종류의 언어 [2]현상에 대한 컴퓨터 모델을 제공하는 데 관심이 있습니다.

"컴퓨터 언어학"이라는 용어는 현재(2020년) 자연 언어 처리(NLP)와 (인간) 언어 기술거의 동의어로 받아들여지고 있습니다.이 용어들은 2000년대 이후 이론적인 연구보다는 실용적인 응용에 더 중점을 두고 있다.실제로는 NLP/[3]ACL 커뮤니티에서 컴퓨터 언어학이라는 용어를 대체하고 있습니다.단, 응용 컴퓨터 언어학의 하위 분야만을 지칭하고 있습니다.

컴퓨터 언어학에는 이론적인 요소와 응용적인 요소가 모두 있습니다.이론 계산 언어학은 이론 언어학과 인지 [4]과학에 초점을 맞춘다.응용 컴퓨터 언어학은 인간 언어 [4]사용 모델링의 실제 결과에 초점을 맞춥니다.

이론 계산 언어학은 종종 형식 논리학기호적 접근법에 기반을 둔 문법(파싱)과 의미론의 공식적인 이론의 개발을 포함한다.이론 컴퓨터 언어학에서 연구되는 연구 분야는 다음과 같습니다.

응용 컴퓨터 언어학은 2010년대 중반 이후 신경 네트워크의해 전통적으로 통계적 방법을 사용하는 기계 학습에 의해 지배되었습니다.Socher et al. (2012)[5]는 ACL 2012의 초기 딥 러닝 튜토리얼이었고, 대부분의 참가자들의 관심과 (당시) 회의론을 모두 만났다.그때까지, 신경 학습은 통계적 해석성의 결여 때문에 기본적으로 거부되었다.2015년까지 딥 러닝은 NLP의 주요 프레임워크로 발전했다.응용 컴퓨터 언어학에서 다루는 태스크에 대해서는 자연어 처리 기사를 참조하십시오.여기에는 POS태거(Part-of-Speech 태그거), 자연어용 파서 설계, 또는 언어간 번역을 취급하는 컴퓨터 언어학(MT)의 하위 부문인 기계번역(Machine Translation) 의 고전적인 문제가 포함됩니다.컴퓨터 언어학의 가장 초기 응용 프로그램 중 하나로서 MT는 많은 하위 분야와 이론적인 측면과 응용적인 측면을 모두 활용합니다.전통적으로 자동 언어 번역은 컴퓨터 언어학의 [6]어려운 분야로 악명높았습니다.

이론과 응용 컴퓨터 언어학 사이의 이분법 외에도, 다른 기준에 따라 주요 분야로 분류되는 다음과 같은 연산 부문이 존재한다.

  • 음성 인식과 음성 합성은 어떻게 구어가 이해되거나 컴퓨터를 사용하여 생성될 수 있는가를 다룬다.
  • 수행 중인 작업(예: 언어 분석(인식) 또는 언어 합성(세대)):해석과 생성은 컴퓨터 언어학의 하위 부문으로, 언어를 분해하고 조합하는 것을 각각 취급합니다.

전통적으로 언어학의 다른 분야에서의 연구 문제에 대처하기 위한 컴퓨터의 응용은 컴퓨터 언어학 내의 태스크로 설명되어 왔습니다.다른 측면들 중, 여기에는 다음과 같은 것들이 포함됩니다.

오리진스

컴퓨터 언어학은 종종 인공지능 분야로 분류되지만 인공지능이 발달하기 전에 존재했다.컴퓨터 언어학은 1950년대 미국에서 외국어, 특히 러시아 과학 저널의 텍스트를 자동으로 [9]영어로 번역하기 위해 컴퓨터를 사용하려는 노력에서 비롯되었다.컴퓨터는 인간보다 훨씬 빠르고 정확하게 산술적 계산을 할 수 있기 때문에,[10] 언어를 처리하는 것도 단지 짧은 시간 문제라고 생각되었다.계산 및 정량적 방법은 현대 언어의 초기 형태를 재구성하고 현대 언어를 언어족으로 세분화하는 시도에도 역사적으로 사용되었다.사전통계학이나 글로또 연대학 같은 초기 방법들은 시기상조이며 부정확한 것으로 입증되었다.그러나 생물학적 연구, 특히 유전자 매핑으로부터 개념을 차용한 최근의 학제간 연구는 보다 정교한 분석 도구와 보다 신뢰할 수 있는 [11]결과를 만들어 내는 것으로 입증되었다.

기계번역(기계번역이라고도 함)이 곧바로 정확한 번역을 얻을 수 없었던 경우, 인간 언어의 자동 처리는 당초 예상했던 것보다 훨씬 복잡하다고 인식되었습니다.컴퓨터 언어학은 언어 데이터를 지능적으로 처리하기 위한 알고리즘과 소프트웨어를 개발하는 데 전념하는 새로운 연구 분야의 이름으로 탄생했습니다.컴퓨터 언어학이라는 용어 자체는 컴퓨터 언어학 협회(ACL)와 국제 컴퓨터 언어학 위원회(ICCL)[12]의 창립 멤버인 David Hays에 의해 처음 만들어졌습니다.

한 언어를 다른 언어로 번역하기 위해서는 형태론과 구문론 모두를 포함한 두 언어의 문법이해해야 한다는 것이 관찰되었다.구문을 이해하기 위해서는 의미론어휘(또는 '어휘') 그리고 심지어 언어 사용의 실용론도 이해해야 했다.따라서,[13] 언어 간 번역의 노력으로 시작된 것이 컴퓨터를 사용하여 자연 언어를 표현하고 처리하는 방법을 이해하는 데 전념하는 전체 분야로 발전했다.

오늘날 컴퓨터 언어학 분야에서의 연구는 컴퓨터 [14]언어학 부문,[15] 컴퓨터 언어학 연구소,[17][18] 컴퓨터 과학 [16]부문 및 언어학 부서에서 이루어집니다.컴퓨터 언어학 분야의 일부 연구는 작업 음성 또는 텍스트 처리 시스템을 만드는 것을 목표로 하는 반면, 다른 연구는 인간과 기계의 상호작용을 가능하게 하는 시스템을 만드는 것을 목표로 한다.인간-기계 통신을 위한 프로그램을 대화 [19]에이전트라고 합니다.

접근

컴퓨터 언어학이 다양한 분야의 전문가와 다양한 부서를 통해 수행될 수 있는 것처럼 연구 분야도 다양한 주제를 제기할 수 있습니다.다음 섹션에서는 개발 언어학, 구조 언어학, 언어 생산 및 언어 이해라는 네 가지 주요 담론 영역으로 나누어진 전체 분야에 걸쳐 이용 가능한 문헌에 대해 설명합니다.

개발적 접근법

언어는 개인의 삶을 통해 발달하는 인지 능력이다.이 개발 과정은 여러 기술을 사용하여 검토되었으며, 계산 접근법도 그 중 하나입니다.인간의 언어 발달은 그것을 이해하기 위해 계산 방법을 적용하는 것을 어렵게 만드는 몇 가지 제약을 제공한다.예를 들어, 언어를 습득하는 동안, 인간 아이들은 대부분 긍정적인 [20]증거에만 노출된다.이것은 개인의 언어 발달 동안 무엇이 올바른 형태인지에 대한 유일한 증거가 제공되고 무엇이 올바르지 않은지에 대한 증거는 제공되지 않는다는 것을 의미한다.이는 [21]언어만큼 복잡한 정보에 대한 단순한 가설 테스트 절차에는 불충분한 정보이며, 따라서 개인의 언어 개발 및 습득 모델링에 대한 계산 접근에 대한 특정 경계를 제공합니다.

아동의 언어 습득 발달 과정을 계산적 각도에서 모델링하려는 시도가 이루어졌고, 통계적 문법과 연결주의 [22]모델 둘 다로 이어졌다.역사를 통해 언어의 진화를 설명하는 방법으로도 이 분야의 연구가 제안되어 왔다.모델을 사용하여, 어린이가 더 나은 기억력과 더 긴 주의력 [23]지속 시간을 개발함에 따라 점진적으로 나타나는 간단한 입력의 조합으로 언어를 배울 수 있는 것으로 나타났다.이것은 동시에 인간 아이들의 [23]오랜 발달 기간의 원인으로 제시되었다.두 가지 결론 모두 프로젝트가 만들어낸 인공 신경망의 강도 때문에 도출되었다.

유아의 언어 발달 능력 또한 언어 이론을 테스트하기 위해 로봇을 사용하여[24] 모델화 되었다.아이들이 배울 수 있는 대로 배울 수 있도록, 행동, 인식 및 효과 사이의 매핑이 생성되고 구어와 연결되는 어포던스 모델을 기반으로 모델이 작성되었습니다.결정적으로, 이 로봇들은 문법적인 구조를 필요로 하지 않고 기능하는 단어 대 의미 매핑을 획득할 수 있었고, 학습 과정을 크게 단순화하고 언어 발달에 대한 현재의 이해를 증진시키는 정보를 밝혀냈다.이 정보는 계산 접근방식을 사용하여 경험적으로만 시험될 수 있다는 점에 유의해야 한다.

신경 네트워크와 로봇 시스템을 학습함으로써 개인의 언어 발달에 대한 이해가 지속적으로 향상되고 있기 때문에, 언어 자체가 시간이 지남에 따라 변화하고 발전한다는 것을 명심하는 것도 중요하다.이 현상을 이해하기 위한 계산적 접근은 매우 흥미로운 정보를 찾아냈다.Price 방정식Pollya urn dynamics를 사용하여 연구자들은 미래의 언어 진화를 예측할 뿐만 아니라 현대 [25]언어의 진화 역사에 대한 통찰력을 제공하는 시스템을 만들었습니다.이러한 모델링 작업은 컴퓨터 언어학을 통해 불가능했던 것을 실현했습니다.

컴퓨터 언어학의 진보로 인해 진화 기간 동안뿐만 아니라 인간의 언어 발달에 대한 이해도 환상적으로 향상되었음이 분명하다.시스템을 마음대로 모델링하고 수정할 수 있는 능력은 과학에 가설을 시험하는 윤리적 방법을 제공합니다. 그렇지 않으면 다루기 어려울 것입니다.

구조적인 접근법

언어의 더 나은 계산 모델을 만들기 위해서는 언어의 구조를 이해하는 것이 중요하다.이를 위해, 영어는 구조적인 차원에서 어떻게 작동하는지 더 잘 이해하기 위해 계산적인 접근법을 사용하여 꼼꼼히 연구되었다.언어 구조를 연구할 수 있는 가장 중요한 요소 중 하나는 큰 언어적 말뭉치 또는 샘플의 가용성입니다.이를 통해 컴퓨터 언어학자들은 모델을 실행하고 단일 언어에 포함된 방대한 양의 데이터에 존재하는 기본 구조를 더 잘 이해하는 데 필요한 원시 데이터를 확보할 수 있습니다.가장 많이 인용되는 영어 말뭉치 중 하나는 펜 [26]트리뱅크이다.IBM의 컴퓨터 매뉴얼 및 전화 통화와 같이 매우 다른 출처에서 파생된 이 말뭉치에는 450만 단어 이상의 미국 영어가 포함되어 있습니다.이 말뭉치는 주로 음성 부분 태깅과 구문 괄호를 사용하여 주석을 달았고 언어 [27]구조와 관련된 상당한 경험적 관찰을 산출했다.

언어의 구조에 대한 이론적 접근법도 개발되어 왔다.이러한 연구들은 컴퓨터 언어학이 무수한 방법으로 언어에 대한 이해를 증진시킬 가설을 도출하는 틀을 가질 수 있게 해준다.문법과 언어 구조의 내면화에 관한 최초의 이론 논문 중 하나는 두 가지 유형의 [21]모델을 제안했다.이러한 모델에서 학습한 규칙이나 패턴은 [21]조우 빈도에 따라 강도가 높아집니다.이 연구는 또한 컴퓨터 언어학자들이 대답할 수 있는 질문을 만들었다: 어떻게 유아가 지나치게 일반화된 버전을 배우지 않고 고정되지 [21]않고 특정하고 비정상적인 문법(촘스키한 정규형)을 배울 수 있을까?이러한 이론적 노력은 연구의 방향을 연구 분야의 생애 초기에 설정하고 그 분야의 성장에 매우 중요하다.

언어에 대한 구조 정보는 텍스트 발화 [28]쌍 간의 유사성 인식을 발견하고 구현할 수 있도록 한다.예를 들어, 인간 담화 패턴에 존재하는 구조 정보를 기반으로 개념 반복 그림을 사용하여 데이터의 추세를 모델링하고 시각화하고 자연 텍스트 [28]발화 간의 유사성에 대한 신뢰할 수 있는 척도를 만들 수 있다는 것이 최근 입증되었다.이 기술은 인간 담론의 구조를 더 자세히 조사하기 위한 강력한 도구이다.이 질문에 대한 계산적 접근법이 없었다면 담화 데이터에 존재하는 매우 복잡한 정보는 과학자가 접근할 수 없는 상태로 남아 있었을 것이다.

언어의 구조 데이터에 대한 정보는 영어뿐만 아니라 일본어 [29]다른 언어에서도 이용할 수 있습니다.연산 방법을 사용하여 일본어 문장 말뭉치를 분석하여 문장 [29]길이에 대한 로그 정규성 패턴을 찾아냈다.이 로그 정규성의 정확한 원인은 아직 알려지지 않았지만, 컴퓨터 언어학이 밝혀내기 위해 고안된 바로 이런 종류의 정보입니다.이러한 정보는, 일본어의 기초 구조에 관한 한층 더 중요한 발견으로 이어지며, 일본어를 언어로서 이해하는 데 있어서도 많은 영향을 미칠 수 있다.컴퓨터 언어학을 통해 과학적 지식 기반에 대한 매우 흥미로운 추가 작업을 신속하게 수행할 수 있으며 의심의 여지가 거의 없습니다.

언어 데이터 구조에 대한 계산적 접근법이 없다면, 현재 이용 가능한 정보의 대부분은 단일 언어 내의 방대한 데이터 아래에 여전히 숨겨져 있을 것입니다.컴퓨터 언어학을 통해 과학자들은 많은 양의 데이터를 신뢰성 있고 효율적으로 해석할 수 있으며, 대부분의 다른 접근 방식에서 볼 수 있는 것과 달리 발견 가능성을 창출할 수 있습니다.

생산 어프로치

언어의 생산은 그것이 제공하는 정보와 유창한 생산자가 갖춰야 할 필요한 기술에서 똑같이 복잡하다.즉, 이해력은 의사소통 문제의 절반에 불과하다는 것이다.나머지 절반은 시스템이 언어를 생성하는 방식입니다. 컴퓨터 언어학은 이 분야에서 흥미로운 발견을 했습니다.

앨런 튜링: 기계의 지능을 측정하는 방법으로서 튜링 테스트의 컴퓨터 과학자이자 같은 이름을 가진 개발자

1950년에 출판된 유명한 논문에서 앨런 튜링은 언젠가 기계가 "생각"할 수 있는 능력을 갖게 될 가능성을 제안했다.그는 기계에 대한 사고의 개념을 정의할 수 있는 사고 실험으로 인간 피사체가 동료 인간과의 대화와 인간처럼 반응하는 기계와의 대화 등 두 가지 텍스트만의 대화를 하는 '모사 테스트'를 제안했다.튜링은 피험자가 인간과 기계의 차이를 구별할 수 없다면 기계가 [30]생각할 수 있다고 결론지을 수 있다고 제안한다.오늘날 이 테스트는 튜링 테스트로 알려져 있으며 인공지능 분야에서 영향력 있는 아이디어로 남아있다.

Joseph Weizenbaum: 자연어 처리를 이용한 원시 컴퓨터 프로그램인 ELIZA를 개발한 전 MIT 교수이자 컴퓨터 과학자.

인간과 자연스럽게 대화하도록 설계된 컴퓨터 프로그램의 가장 초기이자 가장 잘 알려진 예 중 하나는 1966년 MIT의 조셉 와이젠바움개발한 ELIZA 프로그램입니다.이 프로그램은 사용자가 제출한 서면 진술과 질문에 응답할 때 Rogerian 심리치료사를 모방했다.말을 알아듣고 현명하게 반응할 수 있는 것처럼 보였지만, 실제로는 문장마다 몇 개의 키워드만 이해하는 패턴 매칭 루틴을 따랐을 뿐이다.그 반응은 문장의 알려지지 않은 부분을 적절하게 번역된 단어들 중심으로 재결합함으로써 생성되었다.예를 들어, "당신이 나를 싫어하는 것 같습니다"라는 문구에서 ELIZA는 "you [some words] me"라는 일반적인 패턴과 일치하는 "you"와 "me"를 "You"와 "You"를 "I"로 업데이트하고 "You"를 "You"와 "You"로 대답할 수 있습니다.이 예에서 ELIZA는 "혐오"라는 단어를 이해하지 못하지만, 이러한 유형의 심리 [31]치료의 맥락에서 논리적인 반응을 필요로 하지 않는다.

컴퓨터 언어학을 최초로 시작한 문제를 애초에 해결하기 위해 아직도 노력하고 있는 프로젝트도 있습니다.그러나 방법은 더욱 정교해졌고, 그 결과 컴퓨터 언어학자에 의해 도출된 결과는 더욱 계몽적이 되었다.컴퓨터 번역을 개선하기 위해 숨겨진 마르코프 모델, 스무딩 기법 및 동사 번역에 [32]적용하기 위한 구체적인 개선 사항을 포함한 여러 모델이 비교되었습니다.독일어와 프랑스어를 가장 자연스럽게 번역한 모델은 1차 의존성과 출산율 모델이었다.또한 제시된 모델에 대한 효율적인 훈련 알고리즘을 제공하여 다른 과학자들에게 결과를 더 개선할 수 있는 능력을 제공할 수 있습니다.이러한 종류의 작업은 컴퓨터 언어학에만 해당되며, 컴퓨터가 언어를 생성하고 이해하는 방법에 대한 이해를 크게 향상시킬 수 있는 응용 프로그램을 갖추고 있습니다.

또한 컴퓨터가 보다 자연스러운 방식으로 언어를 생산하도록 하는 작업도 이루어졌다.인간의 언어적 입력을 이용하여, 인간의 언어적 입력이나 공손함이나 성격의 [33]5가지 주요 차원 중 하나와 같은 보다 추상적인 요소에 기초하여 시스템의 생산 스타일을 수정할 수 있는 알고리즘이 구축되었다.이 작업은 매개 변수 추정 모델을 통해 계산적 접근 방식을 사용하여 개인 간에 볼 수 있는 광범위한 언어 스타일을 분류하고 컴퓨터가 동일한 방식으로 작동하도록 단순화함으로써 인간과 컴퓨터의 상호 작용을 훨씬 더 자연스럽게 만듭니다.

텍스트 기반의 인터랙티브 어프로치

예를 들어 ELIZA와 같은 인간-컴퓨터 상호작용의 초기 및 단순한 모델 대부분은 컴퓨터에서 응답을 생성하기 위해 사용자의 텍스트 기반 입력을 수반한다.이것에 의해, 유저가 입력한 단어는, 키워드 스팟이라고 불리는 프로세스를 개입시켜, 컴퓨터에 특정의 패턴을 인식시켜 응답하도록 트리거 한다.

음성 기반 대화형 접근법

최근의 기술들은 음성 기반 인터랙티브 시스템에 더 많은 중점을 두고 있다.iOS 운영 체제의 Siri와 같은 시스템은 텍스트 기반 시스템과 유사한 패턴 인식 기술로 작동하지만, 전자의 경우 음성 인식을 통해 사용자 입력을 수행합니다.언어학의 이 부문은 사용자의 음성을 음파로 처리하고 컴퓨터가 [34]입력을 인식하기 위한 음향 및 언어 패턴을 해석하는 것을 포함합니다.

이해의 접근법

현대 컴퓨터 언어학의 초점은 대부분 이해에 있다.인터넷의 보급과 쉽게 접근할 수 있는 문자 인간 언어의 풍부함에 따라, 인간의 언어를 이해할 수 있는 프로그램을 만들 수 있는 능력은 향상된 검색 엔진, 자동화된 고객 서비스, 온라인 교육 등 광범위하고 흥미로운 가능성을 많이 갖게 될 것입니다.

이해의 초기 연구는 베이지안 통계를 광학 문자 인식 작업에 적용하는 것을 포함했다. 1959년 Bledsoe와 Browing이 예문에서 "학습"함으로써 가능한 문자의 큰 사전을 생성하고, 학습된 예 중 하나가 새로운 입력과 일치할 확률은 combi였다.최종 [35]결정을 내릴 준비가 되어 있다.언어 분석에 베이지안 통계를 적용하려는 다른 시도로는 Mosteller와 Wallace(1963년)의 연구가 포함되었는데, 이 연구에서는 연방주의 논문에 사용된 단어의 분석이 그들의 저작권을 결정하기 위해 사용되었다(매디슨이 [36]논문의 대부분을 작성했을 가능성이 높다는 결론).

1971년 Terry Winograd는 간단한 규칙 관리 환경 내에서 자연스럽게 작성된 명령을 해석할 수 있는 초기 자연 언어 처리 엔진을 개발했습니다.이 프로젝트의 주요 언어 구문 분석 프로그램은 SHRDLU라고 불리며, 명령을 내리는 사용자와 다소 자연스러운 대화를 수행할 수 있지만, 이 작업을 위해 설계된 완구 환경의 범위 내에서만 가능합니다.이 환경은 다양한 형태와 색상의 블록으로 구성되어 있으며 SHRDLU는 사용자의 [37]입력에 따라 "당신이 들고 있는 블록보다 더 높은 블록을 찾아서 상자에 넣어라" 등의 명령을 해석하거나 "어느 피라미드를 말하는지 모르겠다" 등의 질문을 할 수 있었다.인상적이긴 하지만, 이러한 종류의 자연 언어 처리는 장난감 환경의 제한된 범위를 벗어나 훨씬 더 어렵다는 것이 입증되었습니다.이와 유사하게, NASA가 개발한 LUNA라 불리는 프로젝트는 아폴로 [38]임무에 의해 반환된 달 암석의 지질학적 분석에 관한 자연스럽게 쓰여진 질문에 대한 답을 제공하기 위해 고안되었다.이러한 문제를 질문 답변이라고 합니다.

구어를 이해하기 위한 초기 시도는 1960년대와 1970년대에 행해진 신호 모델링의 작업에 기초했다. 신호 모델링에서는 알려지지 않은 신호가 패턴을 찾고 그 역사를 바탕으로 예측을 하기 위해 분석되었다.이러한 종류의 신호 모델을 언어에 적용하기 위한 초기적이고 다소 성공적인 접근방식은 1989년 [39]라비너에 의해 상세하게 설명된 숨겨진 마르코프 모델을 사용하여 달성되었습니다.이 접근방식은 음성 생성에 사용될 수 있는 임의의 수의 모델에 대한 확률을 결정하고 이러한 각각의 가능한 모델에서 생성된 다양한 단어에 대한 확률을 모델링하려고 시도한다.유사한 접근법이 단어/부분-오브-스피치 쌍 [40]확률을 사용하여 70년대 후반 IBM에서 시작된 초기 음성 인식 시도에 적용되었습니다.

보다 최근에는 이러한 종류의 통계적 접근법이 텍스트 [41]문서에서 주제 확률을 추론하기 위해 베이지안 매개변수 추정을 사용한 주제 식별과 같은 더 어려운 작업에 적용되었다.

적용들

응용 컴퓨터 언어학은 대부분 자연 언어 처리와 동등합니다.최종 사용자를 위한 애플리케이션으로는 Apple의 Siri 기능과 같은 음성 인식 소프트웨어, 철자 검사 도구, 발음을 보여주거나 장애인을 돕기 위해 자주 사용되는 음성 합성 프로그램, Google [42]Translate와 같은 기계 번역 프로그램 및 웹사이트 등이 있습니다.

또한 컴퓨터 언어학은 소셜 미디어 및 인터넷관련된 상황에서도 유용합니다.예를 들어 채팅룸이나 웹사이트 [42]검색에서 콘텐츠 필터를 제공하고 소셜 미디어 마이닝,[43] 문서 검색 및 클러스터링을 통해 콘텐츠를 그룹화하고 정리하는 데 도움이 됩니다.예를 들어 빨간색 트럭의 사진을 찾기 위해 빨간색 대형 사륜차를 검색해도 검색엔진은 사륜차와 자동차와 [44]같은 단어를 조합해 원하는 정보를 찾을 수 있다.

계산 접근법은 언어 연구([7]: 말뭉치 언어학 또는 역사 언어학)를 지원하는 데도 중요하다.시간 경과에 따른 변화에 대한 연구에 있어서, 계산 방법은 소리와 [46]의미 변화의[45] 모델링뿐만 아니라 언어[8] 패밀리의 모델링과 식별에 기여할 수 있다(추가 양적 비교 언어학 또는 계통학 참조).

레거시

컴퓨터 언어학은 대중문화에 반복적으로 영향을 미치고 있습니다.

  • Star Trek 프랜차이즈는 매우 고전적인 NLP 애플리케이션, 특히 기계 번역(범용 번역기), 자연어 사용자 인터페이스 및 질의응답 [47]기능을 갖추고 있습니다.
  • 1983년작 워게임은 인공지능 슈퍼컴퓨터와 상호작용하는 젊은 컴퓨터 [48]해커가 등장한다.
  • 1997년 영화 Conceiving Ada는 컴퓨터 언어학의 [49]주제뿐만 아니라 최초의 컴퓨터 프로그래머 중 한 명으로 여겨지는 Ada Lovelace에 초점을 맞추고 있다.
  • 2013년 영화인 그녀는 "세계 최초의 인공 지능 운영 체제"[50]와 한 남성의 상호작용을 묘사한다.
  • 2014년 영화 모방 게임은 튜링 [51]테스트의 개발자인 컴퓨터 과학자인 앨런 튜링의 삶을 따라갑니다.
  • 2015년 영화 'Ex Machina'[52]는 인공지능과 인간의 상호작용을 중심으로 제작되었습니다.
  • 테드 치앙의 '당신의 인생'을 원작으로 한 2016년 영화 도착은 언어학의 완전히 새로운 접근을 통해 [53]헵타포드라고 불리는 선진 외계 종족과 소통한다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ "ACL Member Portal The Association for Computational Linguistics Member Portal". www.aclweb.org. Retrieved 2020-08-17.
  2. ^ "What is Computational Linguistics?". The Association for Computational Linguistics. February 2005.
  3. ^ 예를 들어 Ido Dagan이 스웨덴 웁살라에서 열린 ACL 2010 연찬회에서 지적한 바와 같이.
  4. ^ a b Uszkoreit, Hans. "What Is Computational Linguistics?". Department of Computational Linguistics and Phonetics of Saarland University.
  5. ^ Socher, Richard. "Deep Learning For NLP-ACL 2012 Tutorial". Socher. Retrieved 2020-08-17.
  6. ^ Oettinger, A. G.(1965).컴퓨터 언어학American Mathemical Monthly, Vol. 72, No. 2부: 컴퓨터와 컴퓨터, 147-150페이지.
  7. ^ a b McEnery, Thomas (1996). Corpus Linguistics: An Introduction. Edinburgh: Edinburgh University Press. p. 114. ISBN 978-0748611652.
  8. ^ a b 바우언, 클레어"컴퓨터 계통학"언어학 연차 리뷰 4(2018): 281-296.
  9. ^ John Hutchins: 컴퓨터 기반의 번역으로 회고와 전망.MT Summit VII, 1999, 페이지 30-44.
  10. ^ 아놀드 B.Barach: Translation Machine 1975: 그리고 다가올 변화들.
  11. ^ T. 크롤리, C. 바우언역사언어학 입문오클랜드, 뉴저지 주:옥스퍼드 UP, 1992년인쇄.
  12. ^ "Deceased members". ICCL members. Archived from the original on 17 May 2017. Retrieved 15 November 2017.
  13. ^ 자연어 처리: Liz Liddy, Eduard Hovy, Jimmy Lin, John Prager, Dragomir Radev, Lucy Vanderwende, Ralph Weischedel
  14. ^ 컴퓨터 언어학과 음성학.
  15. ^ "야츠코의 컴퓨터 언어 연구소"
  16. ^ "클립"
  17. ^ 컴퓨터 언어학 - 언어학부 - 조지타운 대학
  18. ^ "UPNN 언어학: 컴퓨터 언어학"
  19. ^ Jurafsky, D. & Martin, J. H. (2009)음성 및 언어 처리:자연어 처리, 컴퓨터 언어학, 음성 인식 소개.어퍼 새들 리버, 노스피어슨 프렌티스 홀.
  20. ^ 바우어맨, M.(1988)"부정적 증거 없음 아이들은 어떻게 지나치게 일반적인 문법을 만드는 것을 피할 수 있을까요? 언어 보편을 설명하다.
  21. ^ a b c d 브레인, M.D.S.(1971년)문법 내부화의 두 가지 모델에 대해서.D.I.에서.슬로빈(Ed.), 문법의 존재 형성:이론적 관점.뉴욕: 학술 출판사.
  22. ^ 파워스, D.M.W. & Turk, C.C.R. (1989)자연어 기계학습.스프링거-벨라그.ISBN 978-0-387-1957-5.
  23. ^ a b Elman, Jeffrey L. (1993). "Learning and development in neural networks: The importance of starting small". Cognition. 48 (1): 71–99. doi:10.1016/0010-0277(93)90058-4. PMID 8403835. S2CID 2105042.
  24. ^ Salvi, G.; Montesano, L.; Bernardino, A.; Santos-Victor, J. (2012). "Language bootstrapping: learning word meanings from the perception-action association". IEEE Transactions on Systems, Man, and Cybernetics. Part B. 42 (3): 660–71. arXiv:1711.09714. doi:10.1109/TSMCB.2011.2172420. PMID 22106152. S2CID 977486.
  25. ^ Gong, T.; Shuai, L.; Tamariz, M. & Jäger, G. (2012). E. Scalas (ed.). "Studying Language Change Using Price Equation and Pólya-urn Dynamics". PLOS ONE. 7 (3): e33171. Bibcode:2012PLoSO...733171G. doi:10.1371/journal.pone.0033171. PMC 3299756. PMID 22427981.
  26. ^ Marcus, M. & Marcinkiewicz, M. (1993). "Building a large annotated corpus of English: The Penn Treebank" (PDF). Computational Linguistics. 19 (2): 313–330.
  27. ^ Taylor, Ann (2003). "1". Treebanks. Spring Netherlands. pp. 5–22.
  28. ^ a b Angus, D.; Smith, A. & Wiles, J. (2012). "Conceptual recurrence plots: revealing patterns in human discourse" (PDF). IEEE Transactions on Visualization and Computer Graphics. 18 (6): 988–97. doi:10.1109/TVCG.2011.100. PMID 22499664. S2CID 359497.
  29. ^ a b Furuhashi, S. & Hayakawa, Y. (2012). "Lognormality of the Distribution of Japanese Sentence Lengths". Journal of the Physical Society of Japan. 81 (3): 034004. Bibcode:2012JPSJ...81c4004F. doi:10.1143/JPSJ.81.034004.
  30. ^ Turing, A. M. (1950). "Computing machinery and intelligence". Mind. 59 (236): 433–460. doi:10.1093/mind/lix.236.433. JSTOR 2251299.
  31. ^ Weizenbaum, J. (1966). "ELIZA—a computer program for the study of natural language communication between man and machine". Communications of the ACM. 9 (1): 36–45. doi:10.1145/365153.365168. S2CID 1896290.
  32. ^ Och, F. J.; Ney, H. (2003). "A Systematic Comparison of Various Statistical Alignment Models". Computational Linguistics. 29 (1): 19–51. doi:10.1162/089120103321337421.
  33. ^ Mairesse, F. (2011). "Controlling user perceptions of linguistic style: Trainable generation of personality traits". Computational Linguistics. 37 (3): 455–488. doi:10.1162/COLI_a_00063.
  34. ^ Language Files. The Ohio State University Department of Linguistics. 2011. pp. 624–634. ISBN 9780814251799.
  35. ^ Bledsoe, W. W. & Browning, I. (1959). Pattern recognition and reading by machine. Papers presented at the December 1–3, 1959, eastern joint IRE-AIEE-ACM computer conference on – IRE-AIEE-ACM ’59 (Eastern). New York, New York, USA: ACM Press. pp. 225–232. doi:10.1145/1460299.1460326.
  36. ^ Mosteller, F. (1963). "Inference in an authorship problem". Journal of the American Statistical Association. 58 (302): 275–309. doi:10.2307/2283270. JSTOR 2283270.
  37. ^ Winograd, T. (1971). "Procedures as a Representation for Data in a Computer Program for Understanding Natural Language" (Report). Archived from the original on 2016-11-01. Retrieved 2012-06-15. {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
  38. ^ Woods, W.; Kaplan, R. & Nash-Webber, B. (1972). "The lunar sciences natural language information system" (Report). {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
  39. ^ Rabiner, L. (1989). "A tutorial on hidden Markov models and selected applications in speech recognition". Proceedings of the IEEE. 77 (2): 257–286. CiteSeerX 10.1.1.381.3454. doi:10.1109/5.18626.
  40. ^ Bahl, L.; Baker, J.; Cohen, P.; Jelinek, F. (1978). "Recognition of continuously read natural corpus". ICASSP '78. IEEE International Conference on Acoustics, Speech, and Signal Processing. Vol. 3. pp. 422–424. doi:10.1109/ICASSP.1978.1170402.
  41. ^ Blei, D. & Ng, A. (2003). "Latent dirichlet allocation". The Journal of Machine Learning. 3: 993–1022.
  42. ^ a b "Careers in Computational Linguistics". California State University. Retrieved 19 September 2016.
  43. ^ , "트위터에서의 자동 키워드 추출." 언어 기술 연구소, 카네기 멜론 대학교, n.d. Web. 2016년 9월 19일.
  44. ^ "Computational Linguistics". Stanford Encyclopedia of Philosophy. Metaphysics Research Lab, Stanford University. Feb 26, 2014. Retrieved Apr 19, 2017.
  45. ^ 피골리, 다비드 등"음향 음성 데이터 분석: 구어 로맨스 언어의 차이 탐구." arXiv 프리프린트 arXiv:1507.07587 985(2015년); 그룹, 기능적 계통학."함수값 특성에 대한 계통학적 추론: 음성 소리 진화"생태·진화 경향 27.3(2012): 160~166..
  46. ^ 예: 해밀턴, 윌리엄 L., 주레 레스코벡, 댄 주라프스키."비만성 단어 임베딩은 의미 변화의 통계적 법칙을 드러낸다." arXiv 프리프린트 arXiv:1605.09096 (2016).
  47. ^ "'Star Trek' translators reach for the final frontier". www.cnn.com. Retrieved 2020-08-17.
  48. ^ Badham, John (1983-06-03), WarGames, retrieved 2016-02-22
  49. ^ Hershman-Leeson, Lynn (1999-02-19), Conceiving Ada, retrieved 2016-02-22
  50. ^ Jonze, Spike (2014-01-10), Her, retrieved 2016-02-18
  51. ^ Tyldum, Morten (2014-12-25), The Imitation Game, retrieved 2016-02-18
  52. ^ Garland, Alex (2015-04-24), Ex Machina, retrieved 2016-02-18
  53. ^ Villeneuve, Denis (2016-10-10). "Arrival". IMDb. Retrieved 18 December 2019.

추가 정보

외부 링크