코퍼스 오브 컨템포러리 아메리칸 잉글리시

Corpus of Contemporary American English

코퍼스 오브 컨템포러리 아메리칸 잉글리쉬(COCA)는 현대 미국 영어의 10억 단어 코퍼스[1]. 이것은 BYU(Brigham Young University)의 Corpus 언어학 교수인 마크 데이비스에 의해 만들어졌다.[2][3]

내용

코퍼스는[1][2][4] 2021년 11월 현재 10억 단어로 구성되어 있다. 말뭉치는 지속적으로 성장하고 있다. 2009년에 그것은 3억 8천 5백만 단어[5] 이상을 포함했다; 2010년에 말뭉치는 4억 단어로[6] 커졌다; 2019년[7] 3월에 말뭉치는 5억 6천만 단어로[8] 늘어났다; 그리고 2019년 12월에 말뭉치는 10억 단어에[2] 달했다.

2021년 11월 현재 코퍼스 오브 컨템포러리 아메리칸 잉글리쉬는 48만 5202개의 텍스트로[9] 구성되어 있다. 말뭉치 웹사이트에[4] 따르면 현재 말뭉치(2021년 11월)는 1990~2019년 매년 2400만~2500만 단어를 포함하는 텍스트로 구성돼 있다.

말뭉치에 포함된 각 연도(1990~2019년)에 대해 말뭉치는 6개의 등록부/제너, 즉 TV/영화, 구어, 소설, 잡지, 신문, 학술부(COCA 웹사이트의 텍스트 및 등록부 페이지 참조)로 고르게 나뉜다. 기존에 등재된 6개의 등록부 외에도, 코카(2021년 11월 기준)에는 블로그의 단어 125,496,215개, 웹사이트의 단어 129,899,426개가 수록되어 있어, 현대 영어(COCA의 텍스트와 등록 페이지 참조)[9]로 구성된 말뭉치가 되고 있다.


본문은 다양한 출처에서 온다.

  • 말하기: (8500만 단어) 거의 150개의 서로 다른 TV와 라디오 프로그램에서 온 비문자 대화 녹취록.
  • 소설: (8100만 단어) 단편 소설과 연극, 1990-현재 책의 첫 장, 영화 대본.
  • 인기 잡지: (8600만 단어) 뉴스, 건강, 가정 및 정원 가꾸기, 여성, 금융, 종교, 스포츠 등의 다양한 영역에서 거의 100개의 다른 잡지.
  • 신문:(8100만 단어) 미국 전역에서 온 10개 신문사들, 지역 뉴스, 의견, 스포츠, 금융 분야 등 신문의 다른 부분에서 온 문자.
  • 학술지: (8100만 단어) 거의 100개의 다른 동료 검토 저널. 이것들은 의회 도서관 분류 시스템의 전체 범위를 다루기 위해 선택되었다.

유용성

코퍼스 오브 컨템포러리 아메리칸 잉글리쉬는 웹 인터페이스를 이용하여 자유롭게 검색할 수 있으며, 사용자들은 하루에 제한된 수의 쿼리를 실행할 수 있는 무료 계정만 등록하면 된다.

쿼리

  • 인터페이스는 1억 단어의 BYU-BNC 인터페이스, 1억 단어 TIME Magazine Corpus 및 4억 단어의 *역사*미국 영어(COHA), 1810년대~2000년대(아래 링크 참조)와 같다.
  • 단어, 구문, 대체어, 하위 문자열, 언어의 일부, 보조정리어, 동의어(아래 참조), 사용자 정의 목록(아래 참조)별 쿼리
  • 말뭉치는 BNC와 TIME 말뭉치에 사용된 음성 태거와 동일한 부분LOCKE에 의해 태그된다.
  • 차트 목록(각 장르 또는 연도, 1990–현재 및 하위 장르에서 일치하는 모든 양식에 대한 합계) 및 표 목록(각 장르 또는 연도의 각 일치 양식에 대한 빈도)
  • 전체 콜로케이트 검색(노드 워드의 왼쪽과 오른쪽 최대 10개 단어)
  • 검색된 단어의 왼쪽과 오른쪽에 가장 일반적인 단어/줄 표시, 다시 정렬할 수 있는 용어
  • 장르 또는 기간 간의 비교(예: 소설이나 학술에서 '의자'의 콜록카테츠, 신문이나 학술에서 'N'을 깨는 명사, 주로 스포츠 잡지에서 발생하는 형용사, 또는 이전보다 더 일반적인 2005-2010년 동사)
  • 관련 단어의 콜라케이트를 1단계 비교, 단어의 의미론적 또는 문화적 차이 연구(예: '작은'의 콜라케이트 비교, '작은'의 의미론적 차이, '작은'의 차이, '작은'의 차이, '작은'의 차이, '작은'의 차이, '작은'의 차이, '작은'의 차이, '작은'의 차이, '작은' 또는 '민주'와 '여자'의 차이)
  • 사용자는 6만 개의 항목인 '아름다운'의 동의어의 빈도와 분포, 픽션에서 발생하지만 학문적인 것은 아닌 '강한'의 동의어, '청정' + 명사의 동의어('바닥 청소', '접시를 세척')의 일부로 직접 6만 개의 항목인 '사우루스'의 의미 정보를 포함할 수 있다.
  • 사용자들은 또한 그들 자신의 '맞춤형' 단어 목록을 만든 다음, 후속 질의의 일부로서 그것들을 다시 사용할 수 있다(예: 특정 의미 범주(의류, 음식, 감정) 또는 사용자 정의 언어의 일부에 관련된 목록).
  • 말뭉치는 저작권 제한으로 인해 웹 인터페이스를 통해서만 사용할 수 있다는 점에 유의하십시오.

관련

Global Web 기반 영어의 말뭉치(GloWbE; "글로브"로 발음)에는 20개국의 약 19억 단어의 텍스트가 포함되어 있다. 이것은 영어의 인터내셔널 코퍼스와 같은 다른 회사보다 100배 정도 더 커지게 하고, 그렇지 않으면 불가능할 많은 종류의 검색을 허용한다. 이 온라인 인터페이스 외에도 말뭉치에서 전체 텍스트 데이터를 다운로드할 수도 있다.

영어의 다른 품종들 간의 비교를 할 수 있게 하는 것은 독특하다. GloWbE는 영어의 다른 많은 기업들과 관련이 있다.[10]

참고 항목

참고 문헌 목록

  • Davies, Mark (2010). "The Corpus of Contemporary American English as the First Reliable Monitor Corpus of English". Literary and Linguistic Computing. 25 (4): 447–65. doi:10.1093/llc/fqq018.
  • Bennett, Gena R. (2010). Using Corpora in the Language Learning Classroom: Corpus Linguistics for Teachers. Ann Arbor, Michigan: University of Michigan. p. 144. ISBN 978-0-472-03385-0.
  • Davies, Mark (2010). "More than a peephole: Using large and diverse online corpora". International Journal of Corpus Linguistics. 15 (3): 405–11. doi:10.1075/ijcl.15.3.13dav.
  • Anderson, Wendy; Corbett, John (2009), Exploring English with Online Corpora, Palgrave Macmillan, p. 205, ISBN 978-0-230-55140-4
  • Davies, Mark (2009). "The 385+ Million Word Corpus of Contemporary American English (1990–present)". International Journal of Corpus Linguistics. John Benjamins Publishing Company. 14 (2): 159–190(32). doi:10.1075/ijcl.14.2.02dav.
  • Lindquist, Hans (2009). Corpus Linguistics and the Description of English. Edinburgh University Press. ISBN 978-0-7486-2615-1.
  • Davies, Mark (2005). "The advantage of using relational databases for large corpora: Speed, advanced queries, and unlimited annotation". International Journal of Corpus Linguistics. John Benjamins Publishing Company. 10 (3): 307–334(28). doi:10.1075/ijcl.10.3.02dav.

참조

  1. ^ a b Milana, Prior, (2021). "A Comparative Corpus Study on Intensifier Usage across Registers in American English". Cite 저널은 필요로 한다. journal= (도움말)CS1 maint: 추가 구두점(링크)
  2. ^ a b c "Mark Davies, Professor of (Corpus) Linguistics, Brigham Young University (BYU)". www.mark-davies.org. Retrieved 2021-11-09.
  3. ^ Kauhanen, Henri (2011-03-21). "The Corpus of Contemporary American English: Background and history". VARIENG. Retrieved 2011-10-13.
  4. ^ a b [1] 코카 공식 홈페이지
  5. ^ Davies, Mark (2009-01-01). "The 385+ million word Corpus of Contemporary American English (1990–2008+): Design, architecture, and linguistic insights". International Journal of Corpus Linguistics. 14 (2): 159–190. doi:10.1075/ijcl.14.2.02dav. ISSN 1384-6655.
  6. ^ Davies, Mark (2010-12-01). "The Corpus of Contemporary American English as the first reliable monitor corpus of English". Literary and Linguistic Computing. 25 (4): 447–464. doi:10.1093/llc/fqq018. ISSN 0268-1145.
  7. ^ Davies, Mark; Kim, Jong Bok (2019-03-01). "The advantages and challenges of "big data": Insights from the 14 billion word iWeb corpus". Linguistic Research. 36 (1): 1–34. doi:10.17250/khisli.36.1.201903.001. ISSN 1229-1374.
  8. ^ Davies, Mark; Kim, Jong-Bok (March 2019). "The advantages and challenges of "big data": Insights from the 14 billion word iWeb corpus". Linguistic Research. 36 (1): 1–34. doi:10.17250/khisli.36.1.201903.001 – via ProQuest.
  9. ^ a b "Corpus of Contemporary American English (COCA)". www.english-corpora.org. Retrieved 2021-11-08.
  10. ^ "Corpus of Web-Based Global English". www.english-corpora.org. Retrieved 2019-12-18.

외부 링크