국제 영어 코퍼스

International Corpus of English

인터내셔널 코퍼스 오브 잉글리쉬(ICE)는 세계 각국의 다양한 영어를 대표하는 기업이다. 영어가 제1외국어 또는 공식 제2외국어인 20개 이상의 국가 또는 그룹이 포함되어 있다.

역사

세계 영어의 구문을 비교하는 코퍼토를 편찬하겠다는 시드니 그린바움의 목표는 찰스 F 교수가 달성한 ICE 프로젝트가 됐다. Meyer. Sidney Greenbaum은 국제 연구팀이 작문된 영어와 구문된 영어의 국가별 변형을 수집할 것으로 기대했다.[1] 비교 가능한 변주곡은 영국 영어, 미국 영어, 그리고 인도 영어가 될 것이며 컴퓨터 회사를 통해 표현될 것이다.[2] 이 회사는 연구원들이 영어의 다양한 구문을 비교하기 위해 사용한다.[3] ICE companya의 완성은 출현한 영어의 다양성에 대한 종합적인 언어 분석을 할 수 있을 것이다.[4] ICE에 대한 지속적인 연구는 다양한 지역의 국제 팀들에 의해 시행되고 있다.[5] 이 프로젝트는 전세계 영어 비교 연구를 위한 자료 수집을 주된 목표로 1990년에 시작되었다. 전 세계 23개 연구팀이 자체 개발한 국가별 또는 지역별 영어의 전자상거래를 준비하고 있다. 각각의 ICE 말뭉치는 1989년 이후에 생산된 백만 단어의 구어체 영어와 문어체로 구성되어 있다.[6] 대부분의 참가국들에게 ICE 프로젝트는 국가별 다양성에 대한 첫 번째 체계적인 조사를 자극하고 있다. 컴포넌트 기업 간의 호환성을 보장하기 위해, 각 팀은 문법 주석을 위한 공통 계획뿐만 아니라 공통적인 말뭉치 설계를 따르고 있다.

설명

각 말뭉치는 브라운 말뭉치에 사용된 표본 추출 방법론에 따라 2000개의 단어 500개의 텍스트에 100만개의 단어를 포함하고 있다.[7] 그러나 브라운이나 랭커스터-오슬로-베르겐(LOB) 코퍼스(또는 실제로 영국 내셔널 코퍼스와 같은 초대형 기업)와는 달리 대부분의 텍스트는 구어 데이터에서 파생된다.

말뭉치당 100만 단어밖에 없는 ICE communa는 현대 표준으로는 매우 작은 것으로 여겨진다.[8] ICE communita는 정형화된 구어 영어의 60%(60만 단어)를 포함하고 있다. 프로젝트의 아버지인 시드니 그린바움은 랜돌프 퀴르크와 얀 스바르트비키가 런던-룬드 코퍼스(LLC) 원작을 협찬한 데 이어 구어체의 프라이머시(primacy)를 주장했다. 단어 전사에 대한 이러한 강조는 예를 들어 의회 또는 법률적 패러프레이즈를 포함한 많은 다른 회사의 ICE를 나타낸다.

그 회사는 전적으로 1990년 이상의 데이터로 구성되어 있다. 자료가 수집된 과목은 모두 영어로 교육을 받고 출생했거나 어릴 때 데이터가 귀속된 국가로 이주한 성인이다.[7] 많은 연령대의 남성과 여성으로부터 온 언어와 텍스트 샘플이 있지만, 말뭉치 웹사이트는 "그러나 비율이 전체 인구에서 차지하는 비율을 나타내지 않는다: 여성들은 정치와 법률과 같은 직업에서 동등하게 대표되지 않으며, 따라서 동일한 양의 디스크를 생산하지 않는다.이 들판에서 우르세."[7]

ICE의 영국 컴포넌트인 ICE-GB는 상세한 Quirk 등 [9]구문 구조 문법으로 충분히 구문 분석하며, 분석이 철저히 검증되고 완성되었다. 이 분석에는 전체 말뭉치의 말뭉치 태깅구문 분석이 포함된다. 트리 뱅크ICE Corpus 유틸리티 프로그램 또는 ICECUP 소프트웨어로 철저히 검색 및 탐색할 수 있다. 더 많은 정보는 안내서에 있다.[10]

ICE에서 개별 기업 간의 호환성을 보장하기 위해, 각 팀은 문법 주석을 위한 공통 계획뿐만 아니라 공통적인 말뭉치 설계를 따르고 있다.[11] 몇몇 회사들은 라이선스가 필요하지만, 현재 ICE 공식 홈페이지에서 많은 회사들을 다운받을 수 있다. 그러나 다른 것들은 출판할 준비가 되어 있지 않다.[12]

텍스트 및 문법 주석

연구자들과 언어학자들은 여기서 찾을 수 있는 말뭉치에 대한 데이터에 주석을 달 때 구체적인 지침을 따른다. 주석의 세 가지 레벨은 텍스트 마크업, 워드 클래스 태그 지정, 구문 분석이다.[13]

텍스트 마크업

문장과 단락 파싱과 같은 원래의 마크업과 레이아웃이 보존되어 있고, 그것을 원본으로 표시하는 특별한 마커가 있다. 구어 데이터는 정형화된 방식으로 변환되며, 주저, 잘못된 시작 및 일시 중지에 대한 표시기가 있다.[13]

워드 클래스 태그 지정

Word Classes라고도 불리는 Word Class는 문장에서 그 기능을 바탕으로 한 단어의 문법적 범주다.

영국 텍스트는 종합 영어 문법을 사용하는 유니버시티 칼리지 런던에서 개발된 ICE 태그거에 의해 자동으로 워드 클래스에 태그가 붙는다.

다른 모든 언어는 PEN Treebank와 ROCKE 태그셋을 사용하여 자동으로 태그가 지정된다. 태그는 수동으로 수정하지 않지만 정기적으로 품질을 점검한다.[13]

구문 분석

문장은 자동으로 구문 분석되며, 필요한 경우 말뭉치를 위해 특별히 만들어진 구문 트리 편집기인 ICECUP를 사용하여 수동으로 수정된다.

종속성 구문 분석은 종속성 구문 분석기 Pro3GreS를 사용하여 자동으로 수행된다. 결과는 수동으로 검증되지 않는다.[13]

실용파싱

아일랜드는 현재 그들의 데이터에 실용적인 주석을 포함하는 유일한 참가국이다.

코모카의 설계

아래는 ICE의 하위섹션으로, 각 카테고리별 compana의 수와 괄호 안의 하위 카테고리가 있다.[7]

구어(300)
대화 상자(180개) 개인(100) 대면 대화(90)

전화(10)

공용(80) 강의실 수업(20)

방송토론 (20) 방송인터뷰 (10) 의회토론 (10) 법률상 교차검증 (10) 기업거래 (10)

모놀로그(120) 비문자(70) 자발적 논평 (20)

코드화되지 않은 연설(30)

데모(10)

법률 프레젠테이션(10)

스크립트로 작성된(50) 브로드캐스트 뉴스(20)

방송 대담 (20) 비방송 대담 (10)

작성(200)
인쇄되지 않음(50) 학생 쓰기(20) 학생 에세이(10)

검사 스크립트(10)

문자(30) 소셜 레터(15)

비즈니스 레터(15)

인쇄(150) 학술적 글쓰기(40) 인문(10)

사회과학(10)

자연과학(10)

기술(10)

인기 있는 쓰기(40) 인문(10)

사회과학(10)

자연과학(10)

기술(10)

보고 (20) 언론 보도 (20)
지침 작성(20) 관리 쓰기(10)

스킬/호비(10)

설득력 있는 글쓰기(10) 언론사설(10)
크리에이티브 쓰기(20) 소설 & 단편 소설 (20)

출판물

국제 영어 코퍼스에 대해 출판된 책들뿐만 아니라, 부분적으로 코퍼토를 기반으로 한 책들도 있다.[14]

  • 캐리비안의 영어: Dagmar Deuber에 의한 자메이카트리니다드에서의 변화, 스타일표준
  • 현재 완벽한 세계: 발렌틴 베르너의 통합다양성 차트 작성(2014년)
  • 전 세계 통합 및 다양성 매핑: Marianne Hundt와 Ulrike Gut에 의한 Corpus 기반의 새로운 영어 연구(2012)
  • Claudia Lange의 인도어 구문 (2012)
  • 옥스퍼드 현대 영어 문법(2011년) bas Aarts
  • Hilde Haselghrd의 영어 부사(2010)
  • ICAME 저널 34번(2010)
  • 시드니 그린바움과 제럴드 넬슨의 영문법 입문(2009)
  • 새로운 영어의 단어 형식: 토마스 비어마이어의 말뭉치 기반 분석(2008)
  • 세계 영어권 23권 2호(2004) 특집호
  • 자연어 탐색: 제럴드 넬슨, 션 월리스, 바스 아츠에 의한 국제 영어 코퍼스(2002)의 영국 컴포넌트와 함께 작업
  • 전 세계 영어 비교: 시드니 그린바움 국제 영어 코퍼스(1996)
  • 시드니 그린바움(Sidney Greenbaum)의 옥스퍼드 영어 문법(1996)

참가자

현재 참가국 목록(*= 사용 가능):

  • 호주.
  • 카메룬
  • 캐나다*
  • 동아프리카(케냐, 말라위, 탄자니아)*
  • 피지
  • 가나
  • 그레이트브리튼* (빠진)
  • 홍콩*
  • 인도*
  • 아일랜드*
  • 자메이카*
  • 몰타
  • 말레이시아
  • 뉴질랜드*
  • 나이지리아* (태그 표시)
  • 파키스탄
  • 필리핀*
  • 시에라리온
  • 싱가포르*
  • 남아프리카 공화국
  • 스리랑카
  • 트리니다드 토바고
  • USA*

참고 항목

참조

  1. ^ "The ICE Project" (PDF).
  2. ^ "The ICE Project" (PDF).
  3. ^ Nelson, Gerald (May 2004). "Introduction". World Englishes. 23 (2): 225–226. doi:10.1111/j.0883-2919.2004.00347.x. ISSN 0883-2919.
  4. ^ "The ICE Project" (PDF).
  5. ^ "The ICE Project" (PDF).
  6. ^ "International Corpus of English (ICE) Homepage @ ICE-corpora.net".
  7. ^ a b c d "Corpus Design @ ICE-corpora.net". ice-corpora.net. Retrieved 2018-03-03.
  8. ^ Nelson, Gerald (2017). "The ICE project and world Englishes". World Englishes. 36 (3): 367–370. doi:10.1111/weng.12276.
  9. ^ Quirk, Randolph, Greenbaum, Sidney, Leech, Geoffrey, Svartbik, Jane (1985년) 영국 런던의 종합 문법: 롱맨
  10. ^ 넬슨, 제럴드, 월리스, 숀, 아르트스, 바스(2002년). 자연어 탐구. 잉글리시 암스테르담 국제 코퍼스의 영국 컴포넌트와 함께 작업: 존 벤자민
  11. ^ 국제 영어 웹사이트
  12. ^ "International Corpus of English (ICE) Homepage @ ICE-corpora.net". ice-corpora.net. Retrieved 2018-03-03.
  13. ^ a b c d "Annotation". www.ice-corpora.uzh.ch. Retrieved 2018-03-29.
  14. ^ "Publications @ ICE-corpora.net". ice-corpora.net. Retrieved 2018-04-22.

외부 링크