구어 잉글리시 코퍼스

Spoken English Corpus

스피치 잉글리시 코퍼스 (SEC)는 1984년에서 7년 사이에 편집된 영국 영어음성 녹음 모음집이다. 말뭉치 설명서는 ICAME에서 찾을 수 있다.[1]

역사

스피어 잉글리시 코퍼스(SEC) 프로젝트는 1984-5년 랭커스터 대학의 인문 연구 기금과 IBM(영국)이 공동으로 지원했으며, 그 후 IBM UK Ltd.가 공동으로 지원했다. 이 프로젝트는 랭커스터의 제프리 리치와 IBM의 제프리 케이의 지원을 받았다. 이 프로젝트는 랭커스터 대학의 UCREL(Unit for Computer Research on the English Language)과 윈체스터의 IBM Scientific Centre 사이의 IBM의 자금 지원을 받은 협업이었다.[2]

컴파일

SEC는 주로 BBC로부터 녹음된 53개의 구절로 구성되어 있으며, 보통 "수신된 발음" 또는 "RP"라고 불리는 억양으로 말해진다. 이 컬렉션은 해설, 뉴스 방송, 강연, 대화, 시, 선전과 같은 카테고리를 포함한다.[3] 말뭉치는 52,637개의 단어를 포함하고 있으며 총 339분이다. 말뭉치의 편찬은 리타 테일러가 1996년 쓴 "말뭉치 영어말뭉치 편찬"[4]에서 설명하고 있다.

전사

Knowles et al, (1996) A Corpus of Formal British English Speech, Routledge
A Corpus of Formal British English.jpg

녹음된 자료의 억양을 전사하기 위한 시스템이 고안되었다. 리타 테일러가 지지하는 게리 놀스와 브리오니 윌리엄스라는 두 명의 필사자가 말뭉치 전체를 분석했다. 전사체계는 윌리엄스에 의해 설명되며,[5] 두 전사자가 모두 필사한 1000 톤 유니트 가량의 코퍼스의 한 부분에서 두 전사자의 일치도를 평가하기 위한 실험이 실시되었다.[6] 좋은 합의점을 찾았다.

현대 말뭉치의 중요한 속성은 컴퓨터가 읽을 수 있다는 것이다: 말뭉치는 책꽂이보다 하드디스크에 상주하는 경향이 있다. 이 책 양식에 말뭉치를 제시하면서 저자들은 기성 말뭉치 언어학자들과 아직 코퍼레이션에 익숙하지 않은 사람들의 요구를 고려했다. 말뭉치를 디스크에 가지고 있는 사람은 누구나 대부분의 파일을 하드카피로 만들 수 있다; 그러나 프롭소딕 기호를 인쇄하기 위한 특별한 글꼴이 없다면, 프롭소딕 텍스트는 인쇄할 수 없거나 읽을 수 없을 것이다. 이러한 이유로 프로소딕 버전이 출판용으로 선택되었다.

인쇄된 모든 필사본은 피터 앨더슨에 의해 현재의 형태로 만들어졌고, 그는 후에 IBM에서 음성 연구 매니저로 취임했다. 이 책의 제목은 후에 "A Corpus of British English Speech: '랜캐스터/IBM Speak English Corpus'는 1996년 롱맨에 의해 처음 출판되었고, 이후 2013년 루트리지에 의해 출판되었다. 이 책은 현재 Routrege와 Book Resortory를 포함한 온라인 서점에서 구입할 수 있으며, 구글 플레이북스에서 전자 형식으로 구입할 수 있다.[7][8]

기타 분석

LOCE1 태그셋을 기반으로 한 각 단어의 문법 태깅은 자동 프로세스에 의해 SEC의 텍스트에 추가되었다.[9][10] 이 태깅이 기계 판독이 가능한 형태라는 사실은 문법적 정보와 본문의 운문학적 정보를 연관시킬 수 있게 했다. 후속 작업은 문법 태깅을 더욱 발전시키고 자동 파싱 기법을 생산하기 위해 확률론적 모델을 사용했다.[11]

앤 위크만은 SEC 억양에 관한 연구 "텍스트와 담론에서의 억양: 2000년 시작, 중간, 끝"[12]

MARSEC(Machine-Readable Speak English Corpus)

텍스트와 관련 태그가 기계 판독 가능한 형태로 존재했지만, 녹음 자체는 테이프 레코딩으로만 존재했다. 1992-4년 영국 랭커스터 대학과 리즈 대학의 언어학자들 사이의 경제사회연구위원회가 후원한 협회는 본문과 시간적으로 연결된 디지털 형태의 녹음 파일을 포함하는 말뭉치 버전을 생산하기 시작했다.[13] 주요 연구자는 게리 노울스와 타마스 바라디(랜캐스터), 피터 로치와 사이먼 아르필드(레즈)이다. 프로젝트의 개요는 Knowles에 명시되어 있으며,[14] 자동 시간 정렬은 Roach와 Arnfield가 설명한다.[15] 디지털화된 음반들은 CD-ROM에 녹음되었다. 이 시설은 더 이상 지원되지 않지만 리즈 대학교에서 연구 목적으로 다운로드가 가능해졌다.[16]

AIX-MARSEC

랭커스터와 리즈의 MARSEC에 대한 작업은 1995년경에 끝났지만, 말뭉치는 이후 다니엘 허스트의 지휘 아래 프랑스 에이ix-en-Provence 대학에서 상당한 추가 개발의 대상이 되었다.[17] 데이터베이스는 MARSEC의 디지털화된 기록과 주석의 두 가지 주요 구성요소로 구성된다. 주석들은 지금까지 음운, 음절, 단어, 스트레스 발, 리듬 단위와 마이너 및 메이저 턴 단위를 포함한 9개 수준에서 수행되었다. 두 가지 보조 수준, 즉 ROCLE의 문법 주석과 Aix-en-Provision에서 개발된 Property Grammer 시스템이 곧 통합될 것이다.[18] 이 치료의 가능한 단점은 말뭉치가 특수하게 쓰여진 대본을 통해서만 검색될 수 있다는 것이다.[19] 데이터베이스는 도구와 함께 AIX-MARSEC 프로젝트 현장에서 GNU GPL 라이센스에 따라 사용할 수 있다.[20]

참조

  1. ^ "MANUAL OF INFORMATION TO ACCOMPANY THE SEC CORPUS". korpus.uib.no. Retrieved 2020-10-15.
  2. ^ 리치, 제프리(1996년) "그 맥락에서 말하는 영어 코퍼스." 서문. Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Working with Speech. Longman. p. ix. ISBN 9780582045347.
  3. ^ Xiao, Richard; Tono, Yukio (2006). MacEnery, Tony (ed.). Corpus-Based Language Studies: An Advanced Resource Book. Taylor & Francis. p. 63. ISBN 9780415286220.
  4. ^ 테일러, 리타(1996년). "말하는 영어 코퍼스의 편찬"
  5. ^ 윌리엄스, 브리오니(1996년). "영국 영어의 억양 표기 체계 구축"
  6. ^ 피커링, 브라이언(1996년). "SEC의 전사자 차이 분석"
  7. ^ "A Corpus of Formal British English Speech: The Lancaster/IBM Spoken English Corpus (Paperback) - Routledge". Routledge.com. Retrieved 2018-07-22.
  8. ^ "A Corpus of Formal British English Speech : Gerald Knowles : 9781138457768". www.bookdepository.com. Retrieved 2019-01-30.
  9. ^ 테일러, 리타(1996년). "말하는 영어 코퍼스의 편찬"
  10. ^ "UCREL CLAWS1 (LOB) Tagset". ucrel.lancs.ac.uk. Retrieved 2020-10-15.
  11. ^ 샘슨, 제프리. (1987년) "확률론적 분석 모델" Garside, Roger; Sampson, Geoffrey; Leech, Geoffrey (1987). The Computational Analysis of English. Longman. ISBN 9780582291492.
  12. ^ "Intonation in Text and Discourse: Beginnings, Middles and Ends". Routledge & CRC Press. Retrieved 2020-10-15.
  13. ^ 로치, P, 노울스, G, 바라디, T.와 아르넬필드 (1994년)
  14. ^ Knowles, G. "관계형 데이터베이스로 말뭉치 변환: SEC가 MARSEC가 됨"
  15. ^ 로치, 피터, 앤필드, 사이먼 "프로소딕 전사를 시간 차원에 연결"
  16. ^ "MARSEC: The Machine Readable Spoken English Corpus". www.reading.ac.uk. Retrieved 2020-10-15.
  17. ^ Hirst, Daniel; De Looze, Céline; Auran, Cyril; Bouzon, Caroline (27 July 2010). "Aix-MARSEC database". Retrieved 15 April 2013.
  18. ^ Auron, Cyril; Bouzon, Caroline (2003). "Phonotactique prédictive et alignement automatique : application au corpus MARSEC et perspectives" [Predictive phonotactics and automatic alignment: application in the MARSEC corpus and prospects]. Travaux interdisciplinaires du laboratoire parole et langage d'Aix-en-Provence (in French). Publications de l'Université de Provence. 22: 33–63. Retrieved 15 April 2013.
  19. ^ 비히만, 앤 "스피치코모리카와 스피치코모나"
  20. ^ Hirst, Daniel. "Aix-MARSEC project". Retrieved 15 April 2013.