분류 문법

Categorial grammar

범주형 문법자연어 구문에 있는 형식주의 계열로, 통사적 구성 요소가 함수주장으로 결합한다는 중심적 가정을 공유한다. 범주형 문법은 일반적으로 통사적 범주를 의미 유형에 해당하는 것으로 취급하기 때문에 구문과 의미 구성 사이에 밀접한 관계를 갖는다. 분류형 문법은 1930년대에 카지미에즈 아즈쿠키에비치, 예호슈아 바힐렐, 요아힘 람베크에 의해 개발되었다. 그것은 1970년대에 몬태규 문법이 비슷한 구문론을 가정한 리처드 몬태규의 작품에 이어 관심이 급증했다. 그것은 특히 형식적인 의미론 안에서 주요한 패러다임이 계속 된다.

기본 사항

범주형 문법은 두 부분으로 구성된다: 각 기본 기호에 유형 집합(일명 범주라고도 함)을 할당하는 어휘소와 구성 기호의 유형으로부터 기호 문자열의 유형이 어떻게 따르는지를 결정하는 일부 유형 추론 규칙이다. 형식추론규칙을 한 번, 모두를 위해 고칠 수 있다는 장점이 있어 특정 언어 문법의 명세서는 어휘에 의해 전적으로 결정된다.

분류 문법은 단순 타이핑된 람다 미적분학과 몇 가지 특징을 공유한다. 람다 미적분은 함수형 → B → 만 가지고 있는 반면 범주형 문법은 전형적으로 두 가지 함수형을 가지고 있는데, 하나는 왼쪽에, 하나는 오른쪽에 적용한다. For example, a simple categorial grammar might have two function types and . The first, , is the type of a phrase that results in a phrase of type when followed (on the right) by a phrase of 타입 A두 번째 타입 B A 타입의 구문 앞에 (왼쪽) 가) 있는 구문의 유형이다

그 표기법은 대수학에 기초하고 있다. 분수에 분모를 곱하면(즉, 분모와 결합) 분자가 나온다. 결합은 상호작용이 아니기 때문에 분모가 왼쪽에서 발생하는지 오른쪽에서 발생하는지 차이를 만든다. 결합이 취소되려면 분모와 같은 쪽에 있어야 한다.

최초의 간단한 분류 문법은 기본 분류 문법, 또는 때로는 AB 문법(Ajdukiewicz 이후와 Bar-Hillel)이라고 불린다. 원시 유형 {\Prim의 집합이 주어진 경우 ){\을 원시 유형으로 구성된 유형 집합으로 두십시오. In the basic case, this is the least set such that and if then . 이것들을 원시적 유형에서 자유롭게 생성된 순수한 형식적 표현이라고 생각해라; 어떤 의미론도 나중에 추가될 것이다. 일부 저자들은 모든 문법자들이 사용하는 원시 유형의 고정된 무한 집합을 가정하지만, 원시 유형을 문법의 일부로 만들면 전체 구조가 유한하게 유지된다.

A basic categorial grammar is a tuple where is a finite set of symbols, is a finite set of primitive types, and

The relation is the lexicon, which relates types to symbols . Since the lexicon is finite, it can be specified by listing a set of pairs like

Such a grammar for English might have three basic types , assigning count nouns the type , complete noun phrases the type , and sentences the type . Then an adjective could / 타입을 가지고 있다 명사가 뒤따르면 전체 구절이 명사이기 때문이다. 마찬가지로, 결정자는 명사가 뒤따를 때 완전한 명사구를 형성하기 에 N P/ 타입을 갖는다 Intransitive verbs have the type , and transitive verbs the type . Then a string of words is a sentence if it has overall type .

예를 들어, "나쁜 아이가 그렇게 엉망으로 만들었다"라는 줄을 들어보자. Now "the" and "that" are determiners, "boy" and "mess" are nouns, "bad" is an adjective, and "made" is a transitive verb, so the lexicon is {, , , , , }.

그리고 문자열의 종류 순서는

이제 함수와 적절한 인수를 찾아 두 가지 추론 규칙 / Y X X 화살표 X에 따라 줄인다






결과가 S이라는 것은 문자열은 문장이라는 것을 의미하지만, 줄인 순서는 (나쁜 소년) (만들었음) (만들었음)으로 구문 분석할 수 있다는 것을 보여준다.

이 형식의 범주형 문법(기능 적용 규칙만 있음)은 문맥 없는 문법과는 생성 역량이 동일하므로 자연어 구문 이론에 적합하지 않은 것으로 간주되는 경우가 많다. CFG와 달리 범주형 그래머는 어휘화된 것으로 (대부분 언어에 독립적인) 규칙만 채택되고, 다른 모든 통사적 현상은 특정 단어의 어휘적 입력에서 파생된다.

범주형 그래머의 또 다른 매력적 측면은 우선 모든 기본 범주에 해석 유형을 할당하고 그 다음에 파생된 모든 범주를 적절한 함수 유형과 연관시킴으로써 구성 의미론을 할당하는 것이 종종 쉽다는 것이다. 그러면 어떤 구성 요소의 해석은 단순히 논쟁에서 함수의 가치일 뿐이다. 인텐시티정량을 다루기 위한 약간의 수정으로, 이 접근법은 다양한 의미 현상을 다루는 데 사용될 수 있다.

람베크 미적분학

람베크 문법은 형식과 몇 가지 다른 추론 규칙을 통합 연산자를 가진 이 사상의 정교함이다. Mati Pentus는 이것들이 여전히 문맥 없는 그래머의 생성 능력을 가지고 있다는 것을 보여주었다.

For the Lambek calculus, there is a type concatenation operator , so that and if then ) Y.

람베크 미적분은 형식 포함 주장이 도출될 수 있는 방법을 지정하는 몇 가지 공제 규칙으로 구성된다. 다음 규칙에서 대문자 로마자는 형식을, 대문자 그리스어는 형식의 순서를 나타낸다. A sequent of the form can be read: a string is of type if it consists of the concatenation of strings of each of the types in . If a type is interpreted as a set of strings, then the may 즉 "subset으로 표시"로 해석된다. 수평선은 선 위의 포함이 선 아래의 것을 함축한다는 것을 의미한다.

그 과정은 선행자가 없고 어떤 유형이든 자기 자신을 포함한다고만 말하는 악시오름 규칙에 의해 시작된다.

컷 룰에 의하면 포함은 구성될 수 있다고 한다.

다른 규칙은 쌍으로 제공되며, 각 유형 구성 운영자는 쌍으로 구성되며, 각 쌍은 화살표의 운영자에 대해 하나의 규칙으로 구성된다. 규칙의 이름은 연산자와 화살표로 구성되며, 연산자는 결론에서 발생하는 화살표의 측면에 있다.

대상 출처

예를 들어 여기에 (/ A) 라고 하는 "타입 상승"의 파생어가 있다 규칙의 이름과 사용된 대체물은 오른쪽에 있다.

문맥 없는 문법과의 관계

문맥이 없는 문법은 4-투플 = , , : :: ,) S 경우 기억하십시오.

  1. (는) 비터미널 또는 변수의 유한 집합이다.
  2. (는) 유한한 단자 기호 집합이다.
  3. 유한 관계, 즉 관계 ) V ( × ×) {\ \Sigma 의 유한 집합이다
  4. S(가) 시작 변수다.

범주형 그래머의 관점에서 볼 때 문맥 없는 문법은 각 언어에 대해 일련의 특수 목적 공리를 가진 미적분학으로 볼 수 있지만, Cut 외에는 유형 건설 운영자가 없고 추론 규칙도 없다.

Specifically, given a context-free grammar as above, define a categorial grammar where , and . Let there be an axiom for every symbol , an axiom for every production rule , a lexicon entry 모든 터미널 기호 s 에 대해 t s 및 유일한 규칙에 대해 Cut. 이 분류 문법은 주어진 CFG와 동일한 언어를 생성한다.

물론 이것은 언어에 의존하는 특별한 공리, 즉 어휘화된 것이 아니기 때문에 기본적인 분류 문법은 아니다. 또한, 그것은 모든 비원리적인 유형에서는 쓸모가 없다.

어떤 문맥 없는 언어가 기본적인 분류 문법에 의해 생성될 수 있다는 것을 보여주기 위해, 어떤 문맥 없는 언어는 Greibach 정상 형태의 문맥 없는 문법에 의해 생성될 수 있다는 것을 기억하라.

문법은 모든 생산 규칙이 인 경우 Greibach 보통 형식이다 - 1 A:1}} s 0 N 0 생산의 오른쪽은 0 이상(비단자) 변수에 이은 단일 터미널 기호다.

Now given a CFG in Greibach normal form, define a basic categorial grammar with a primitive type for each non-terminal variable , and with an entry in the lexicon , for each production rule 이 기본적인 분류 문법은 원래 CFG와 동일한 언어를 생성한다는 것은 꽤 쉽게 알 수 있다. 이 문법의 사전은 일반적으로 각 기호에 여러 유형을 할당한다는 점에 유의하십시오.

람베크 그래머도 기본 범주형 그래머의 연장선이기 때문에 같은 공사가 가능하다. 추가 추론 규칙이 생성된 언어를 변경하지 않는지 검증할 필요가 있다. 이것은 할 수 있고 모든 문맥 없는 언어는 어떤 램벡 문법에 의해 생성된다는 것을 보여준다.

그 반전을 보여주자면, 람벡 문법에 의해 생성되는 모든 언어는 문맥이 없다는 것이 훨씬 더 어렵다. 그것은 1960년대 초반부터 펜투스에 의해 증명된 1991년 경까지 거의 30년 동안 열린 문제였다.

The basic idea is, given a Lambek grammar, construct a context-free grammar with the same set of terminal symbols, the same start symbol, with variables some (not all) types , and with a production rule for each entry in the lexicon, and production rules for certain sequents Lambek 미적분학에서 파생 가능한

물론 무한히 많은 유형과 무한히 많은 파생형 속편이 있기 때문에 유한한 문법을 만들기 위해서는 필요한 종류와 속편의 크기에 제한을 둘 필요가 있다. 펜투스의 증거의 핵심은 그런 유한한 구속이 있다는 것을 보여주는 것이다.

표기법

이 분야의 표기법은 표준화되어 있지 않다. 형식 언어 이론, 논리학, 범주 이론, 언어학에서 사용되는 명제는 서로 상충한다. 논리학에서 화살표는 보다 구체적인 것, 즉 가설에서 나온 결론에서 보다 일반적인 것을 가리킨다. 이 글에서는 이 관례를 따르게 되는데, 즉 화살의 대상은 보다 일반적(포용적) 유형이다.

논리학에서 화살표는 보통 왼쪽에서 오른쪽으로 향한다. 이 글에서 이 규약은 문맥 없는 문법 표기법과의 일관성을 위해 뒤집혔으며, 여기서 단일 비단어 기호는 항상 왼쪽에 있다. Backus-Naur 형식과 같이 생산 규칙에서 기호 을(를) 어떤 저자들은 화살을 사용하기도 하는데, 불행히도 문법이 언어를 생성하거나 인식한다고 생각하느냐에 따라 어느 쪽을 가리킬 수도 있다.

분류형 문법에 대한 일부 저자들은 대신 를 쓴다 여기서 사용되는 규약은 람벡과 대수학에 따른다.

역사 노트

분류 문법의 기본 개념은 카지미에츠 아즈쿠키에비치(1935년)와 예호슈아 바힐렐(1953년)의 작품에서 비롯된다. 1958년 요아힘 람베크는 함수의 조합을 위한 다양한 규칙과 함께 함수형 생성자를 공식화한 구문 미적분을 도입하였다. 이 미적분은 하위구조 논리라는 점에서 선형 논리의 전조다. Montague 문법은 분류 문법의 원리에 기초한 영어를 위한 임시 통사 체계를 사용한다. 몬태규의 작품은 때때로 구문론적으로 흥미가 없는 것으로 여겨지지만, 자연어 의미론의 매우 성공적인 공식 처리와 연관시킴으로써 분류 문법에 대한 관심을 강화하는 데 도움이 되었다. 분류 문법에 관한 보다 최근의 연구는 통사적 커버리지의 개선에 초점을 맞추고 있다. 최근 몇 년간 상당한 관심을 받아온 형식주의 중 하나는 스테드먼과 스자볼시스결합 분류 문법인데, 이 문법은 모세 쇤핀켈하스켈 커리에 의해 발명된 결합 논리에 기초한다.

언어학에는 유형 논리 문법, 추상 분류 문법 등 이와 관련된 공식적 표현들이 많이 있다.

일부 정의

파생
파생은 증거를 인코딩하는 이진수다.
파스 트리
파스 트리는 문장의 구문 구조를 보여주는 파생어를 보여준다.
펑터 및 인수
오른쪽(왼쪽) 함수 어플리케이션에서는 A\B(B/A) 타입의 노드를 펑터(functor)라고 하고, A 타입의 노드를 인수라고 한다.
펑터-인수 구조[clarification needed]

분류 문법의 개선

통사적 커버리지를 개선하기 위해 분류 문법에 대한 다양한 변화가 제안되었다. 가장 흔한 것 중 일부는 아래에 열거되어 있다.

피쳐 및 하위 카테고리

대부분의 분류 문법 체계는 범주를 세분화한다. 이렇게 하는 가장 일반적인 방법은 사람, 성별, 숫자, 시제와 같은 특징으로 그들을 태그하는 것이다. 때로는 원자 범주만 이런 식으로 태그가 붙기도 한다. 몬태규 문법에서는 다중 슬래시 규약을 사용하여 함수 범주를 세분화하는 것이 전통적이므로, A/BA//B는 동일한 주장을 취했지만 다른 함수를 논쟁으로 삼아서 구별할 수 있는, 좌응용 함수의 두 가지 뚜렷한 범주가 될 것이다.

함수구성

함수 구성의 규칙은 많은 범주형 그래머에 포함되어 있다. 그러한 규칙의 예로는 유형 B/C 중 하나와 유형 A/B의 구성요소를 결합하여 유형 A/C의 새로운 구성요소를 생성할 수 있는 것이 있다. 그러한 규칙의 의미론에는 단순히 관련된 기능의 구성이 포함될 것이다. 기능 구성은 연결과 추출의 범주형 계정에서 특히 오른쪽 노드 상승과 같은 현상과 관련되기 때문에 중요하다. 범주형 문법에 기능구성의 도입은 의미적 모호성에 대응하지 않는다는 의미에서 공허한 많은 종류의 파생적 모호성으로 이어진다.

접속사

많은 범주형 그래머는 X CONJ X X의 일반적인 접속사 규칙을 포함하며, 여기서 X는 범주형이다. 일반적으로 타입 상승 또는 함수 구성으로 인한 비표준 성분에는 접속사를 적용할 수 있다.

불연속성

문법은 불연속 관용구, 도핑, 추출과 같은 언어 현상을 다루도록 확장된다.

참고 항목

참조

  • Curry, Haskell B.; Feys, Richard (1958), Combinatory Logic, 1, North-Holland
  • Jacobson, Pauline (1999), "Towards a variable-free semantics.", Linguistics and Philosophy, 22 (2): 117–184, doi:10.1023/A:1005464228727, S2CID 60578091
  • Lambek, Joachim (1958), "The mathematics of sentence structure", Amer. Math. Monthly, 65 (3): 154–170, CiteSeerX 10.1.1.538.885, doi:10.1080/00029890.1958.11989160
  • Pentus, Mati (1997), Lambek Calculus and Formal Grammars (PDF), Amer. Math. Soc. Transl.
  • Steedman, Mark (1987), "Combinatory grammars and parasitic gaps", Natural Language and Linguistic Theory, 5 (3): 403–439, doi:10.1007/bf00134555, S2CID 170899264
  • Steedman, Mark (1996), Surface Structure and Interpretation, The MIT Press
  • Steedman, Mark (2000), The Syntactic Process, The MIT Press
  • Szabolcsi, Anna (1989). "Bound variables in syntax (are there any?)" (PDF). In Bartsch; van Benthem; van Emde Boas (eds.). Semantics and Contextual Expression. Foris. pp. 294–318.
  • Szabolcsi, Anna (1992). "Combinatory grammar and projection from the lexicon" (PDF). In Sag; Szabolcsi (eds.). Lexical Matters. CSLI Lecture Notes. 24. Stanford: CSLI Publications. pp. 241–269.
  • Szabolcsi, Anna (2003), "Binding on the fly: Cross-sentential anaphora in variable-free semantics", in Kruijff; Oehrle (eds.), Resource Sensitivity in Binding and Anaphora, Studies in Linguistics and Philosophy, 80, Kluwer, pp. 215–229, CiteSeerX 10.1.1.205.3142, doi:10.1007/978-94-010-0037-6_8, ISBN 978-1-4020-1692-9
  • Morril, Glyn (1995), "Discontinuity in categorial grammar", Linguistics and Philosophy, 18 (2): 175–219, doi:10.1007/bf00985216, S2CID 62533943

추가 읽기

  • Michael Moortgat, Categial Type Logics, J. van Benthem 및 A. ter Meulen(eds). 논리언어 핸드북. 엘스비에, 1997, ISBN 0-262-22053-9
  • Wojciech Buszkowski, 수학 언어학증명 이론, J. van Benthem and A. ter Meulen (eds) 12장. 논리언어 핸드북. 엘스비에, 1997, ISBN 0-262-22053-9
  • Gerhard Jäger (2005). Anaphora and Type Logical Grammar. Springer. ISBN 978-1-4020-3904-1.
  • Glyn Morrill (2010). Categorial Grammar: Logical Syntax, Semantics, and Processing. Oxford University Press. ISBN 978-0-19-958986-9.
  • Richard Moot; Christian Retore (2012). The Logic of Categorial Grammars: A Deductive Account of Natural Language Syntax and Semantics. Springer Verlag. ISBN 978-3-642-31554-1.

외부 링크