코로케이션

Collocation

말뭉치 언어학에서, 연관성은 우연히 예상된 것보다 더 자주 발생하는 일련의 단어 또는 용어이다.언어학에서, 코로케이션은 그것을 구성하는 단어들로부터 이해될 수 있다는 것을 의미하는 구성 구절의 한 종류이다.이것은 전체의 의미를 부분으로부터 추론할 수 없고 전혀 관련이 없을 수 있는 사자성어와 대비된다.

단어적 연관성의 한 예는 강한 [1]라는 표현이다.같은 뜻이 대략 동등한 강력한 차에 의해 전달될 수 있지만, 이 형용사는 영어 사용자들이 그 공존에 익숙해지고 그것을 관용적이거나 표시가 없는 것으로 간주할 정도로 차를 자주 수정하지 않는다.(반례적으로 컴퓨터자동차를 개조할 때는 강함보다 강함이 관용적으로 선호됩니다.)

연관에는 형용사 + 명사, 명사 + 명사, 동사 + 명사, 부사 + 형용사, 동사 + 전치사 구, 동사 + 부사 6가지 주요 유형이 있습니다.

코로케이션 추출데이터 마이닝과 유사한 다양한 계산 언어 요소를 사용하여 문서 또는 말뭉치에서 코로케이션을 찾는 계산 기술입니다.

확장된 정의

코로케이션은 컨텍스트 의존적인 사용을 반복함으로써 확립되는 부분 또는 완전히 고정된 표현입니다.명확성, 중간관리, 핵가족, 성형수술같은 용어들은 단어 조합의 예시이다.

코로케이션은 구문 관계(예: 동사-목적어: 결정결정), 어휘 관계(: 반의어)이거나 언어적으로 정의된 관계가 아닐 수 있습니다.코로케이션에 대한 지식은 언어를 능숙하게 사용하기 위해 필수적이다: 문법적으로 올바른 문장은 코로케이션 선호가 위반되면 어색한 것으로 두드러질 것이다.이것은 코로케이션을 언어 교육에서 흥미로운 영역으로 만든다.

말뭉치 언어학자는 문맥에 맞는 키워드(KWIC)를 지정하고 이를 둘러싼 단어를 바로 식별합니다.이것은 단어의 사용법에 대한 아이디어를 준다.

코로케이션 처리에는 다수의 파라미터가 포함되며, 그 중 가장 중요한 것은 연관성의 측정치이며, 이는 공존이 순전히 우연에 의한 것인지 통계적으로 유의한 것인지를 평가합니다.언어의 비랜덤 특성으로 인해 대부분의 코로케이션은 유의한 것으로 분류되며, 관련 점수는 단순히 결과의 순위를 매기기 위해 사용됩니다.일반적으로 사용되는 연관성 측도에는 상호 정보, t 점수로그 [2][3]우도가 포함됩니다.

오히려 단일 정의를 선택하 Gledhill[4]그 연어 최소한 세가지 다른 관점:노드와 그 collocates의 텍스트에 반복되는 외모로 연어를 본다 동시 발생., 통계적 관점; lexeme고 lexic 사이에 상관 중 하나로 연어를 본다[5][6][7]건설 해당되는 것을 제안한다.al-grammatical [8]패턴 또는 베이스와 그 코로케이션 [9]파트너 간의 관계로서 표현,[10][11] 형태에 관계없이 전통적인 표현 단위로서의 코로케이션의 실용적인 견해.이러한 다른 관점은 구문학 연구에서 공통적으로 연관성을 나타내는 방식과 대조된다.전통적으로 코로케이션은 세 가지 관점에서 동시에 연속적으로 설명됩니다.

자유 조합 ↔ 결합 결합 ↔ 동결 숙어

사전에서

1933년, Harold Palmer의 English Collocations에 대한 제2차 [12]중간 보고서는 외국어를 배우는 모든 사람에게 자연스런 소리를 내는 언어를 만드는 열쇠로서 코리케이션의 중요성을 강조하였다.따라서 1940년대부터 반복 단어 조합에 대한 정보는 단일 언어 학습자 사전의 표준 특징이 되었다.이 사전들이 "단어 중심은 적고 구 중심"[13]이 되면서, 연관성에 더 많은 관심이 집중되었다.이러한 경향은 21세기 초부터 대형 텍스트 코퍼스와 지능형 말뭉치 쿼리 소프트웨어의 이용에 의해 뒷받침되어 사전에서의 코퍼스에 대한 보다 체계적인 설명을 제공할 수 있게 되었다.이러한 도구를 사용하여, 맥밀런 영어 사전과 Longman 현대 영어 사전과 같은 사전에는 빈번한 [14]조합 목록이 있는 상자 또는 패널이 포함되었습니다.

언어에서의 [15]빈번한 코로케이션을 기술하기 위한 전문 사전도 다수 있습니다.여기에는 (스페인어) 재설계: Diccionario combinatorio del español conemporaneo (2004년), (프랑스어) Le Robert가 포함됩니다. Dictionsete des combiniasons de mots (2007년) 및 LTP Dictionary of Selected Collocations (1997년)와 Macmillan Collocations Dictionary (2010년)[16]있다.

통계적으로 유의한 코로케이션

학생의 t-검사는 말뭉치에서 코로케이션 발생이 통계적으로 [17]유의한지 여부를 결정하기 위해 사용될 수 있다. 의 경우 P1) #1}) ={#} {N(를 디스플레이 N인 코퍼스에 발생할 확률로 . P{# 말뭉치 w2 발생 확률이다. 1 2 t 점수는 다음과 같이 계산됩니다.

서 x # w ( \ { x } ={ # w { } _ { } } { } 은 w 의 샘플 평균입니다 # { \ # { { w _ { { { { } { } } } } } ({w2({2})가 으로 표시되고, ( x ) )≈ x¯ ¯ x ¯ { bar } { { } 확률입니다.x(는) 샘플 분산입니다.N(\ N의 경우 t 테스트는 z 테스트와 동일합니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Holiday, M.A.K., 언어학 저널 2 (1) 1966: 57 ~67
  2. ^ Dunning, Ted(1993) : "놀람과 우연의 통계를 위한 정확한 방법"컴퓨터 언어학 19, 1(1993년 3월), 61~74년.
  3. ^ Dunning, Ted (2008-03-21). "Surprise and Coincidence". blogspot.com. Retrieved 2012-04-09.
  4. ^ Gledhill C. (2000):튀빙겐 과학작문, 내러, 코로케이션
  5. ^ Firth J.R. (1957) :1934~1951년 언어학 논문.옥스퍼드:옥스퍼드 대학 출판부
  6. ^ Sinclair J. (1996) : "의미 단위의 탐구", Textus, IX, 75–106.
  7. ^ 스마자 FA & McKeown, K. R.(1990): "언어 생성을 위한 자동 추출 표현", ACL'90, 252–259, 펜실베이니아주 피츠버그.
  8. ^ Hunston S. & Francis G. (2000):패턴 문법 - 영어, 암스테르담, John Benjamins의 사전 문법에 대한 코퍼스 중심의 접근법
  9. ^ 하우스만 F. J. (1989) :사전지 디콜로케이션Hausmann F.J., Reichmann O., Wiegand H.E., Zusta L.(에즈), Börterbücher: ein handbuch zur Lexikographie.사전.사전지베를린/뉴욕: 드 그루이터.1010–1019.
  10. ^ Moon R.(1998):말뭉치 기반 접근법인 고정 표현과 관용어.옥스포드, 옥스포드 대학 출판부.
  11. ^ Frath P. & Gledhill C. (2005) : "프리 레인지 클러스터 또는 냉동 청크? 언어단위[dead link] 대한 정의기준으로서의 레퍼런스" (영어집 anglaises et Nord-americaines, vol.38:25~43)
  12. ^ Cowie, A.P., Oxford University Press 1999:54-56
  13. ^ 비조인트, H. 옥스포드 대학 출판부 2010: 318
  14. ^ "MED Second Edition – Key features – Macmillan". macmillandictionaries.com. Archived from the original on 2020-09-28. Retrieved 2011-08-24.
  15. ^ 허브스트, T.와 클로츠, M. 코위 시의 '신타그매틱과 어구 사전'(Ed)옥스포드 영어사전편찬사, 2009: 파트 2, 234~243
  16. ^ "Macmillan Collocation Dictionary – How it was written - Macmillan". macmillandictionaries.com. Archived from the original on 2018-12-21. Retrieved 2011-08-24.
  17. ^ Manning, Chris; Schütze, Hinrich (1999). Foundations of Statistical Natural Language Processing. Cambridge, MA: MIT Press. pp. 163–166. ISBN 0262133601.

외부 링크