구어 잉글리시 코퍼스

스피치 잉글리시 코퍼스 (SEC)는 1984년에서 7년 사이에 편집된 영국 영어의 음성 녹음 모음집이다. 말뭉치 설명서는 ICAME에서 찾을 수 있다.^[1]

역사

스피어 잉글리시 코퍼스(SEC) 프로젝트는 1984-5년 랭커스터 대학의 인문 연구 기금과 IBM(영국)이 공동으로 지원했으며, 그 후 IBM UK Ltd.가 공동으로 지원했다. 이 프로젝트는 랭커스터의 제프리 리치와 IBM의 제프리 케이의 지원을 받았다. 이 프로젝트는 랭커스터 대학의 UCREL(Unit for Computer Research on the English Language)과 윈체스터의 IBM Scientific Centre 사이의 IBM의 자금 지원을 받은 협업이었다.^[2]

컴파일

SEC는 주로 BBC로부터 녹음된 53개의 구절로 구성되어 있으며, 보통 "수신된 발음" 또는 "RP"라고 불리는 억양으로 말해진다. 이 컬렉션은 해설, 뉴스 방송, 강연, 대화, 시, 선전과 같은 카테고리를 포함한다.^[3] 말뭉치는 52,637개의 단어를 포함하고 있으며 총 339분이다. 말뭉치의 편찬은 리타 테일러가 1996년 쓴 "말뭉치 영어말뭉치 편찬"^[4]에서 설명하고 있다.

전사

녹음된 자료의 억양을 전사하기 위한 시스템이 고안되었다. 리타 테일러가 지지하는 게리 놀스와 브리오니 윌리엄스라는 두 명의 필사자가 말뭉치 전체를 분석했다. 전사체계는 윌리엄스에 의해 설명되며,^[5] 두 전사자가 모두 필사한 1000 톤 유니트 가량의 코퍼스의 한 부분에서 두 전사자의 일치도를 평가하기 위한 실험이 실시되었다.^[6] 좋은 합의점을 찾았다.

현대 말뭉치의 중요한 속성은 컴퓨터가 읽을 수 있다는 것이다: 말뭉치는 책꽂이보다 하드디스크에 상주하는 경향이 있다. 이 책 양식에 말뭉치를 제시하면서 저자들은 기성 말뭉치 언어학자들과 아직 코퍼레이션에 익숙하지 않은 사람들의 요구를 고려했다. 말뭉치를 디스크에 가지고 있는 사람은 누구나 대부분의 파일을 하드카피로 만들 수 있다; 그러나 프롭소딕 기호를 인쇄하기 위한 특별한 글꼴이 없다면, 프롭소딕 텍스트는 인쇄할 수 없거나 읽을 수 없을 것이다. 이러한 이유로 프로소딕 버전이 출판용으로 선택되었다.

인쇄된 모든 필사본은 피터 앨더슨에 의해 현재의 형태로 만들어졌고, 그는 후에 IBM에서 음성 연구 매니저로 취임했다. 이 책의 제목은 후에 "A Corpus of British English Speech: '랜캐스터/IBM Speak English Corpus'는 1996년 롱맨에 의해 처음 출판되었고, 이후 2013년 루트리지에 의해 출판되었다. 이 책은 현재 Routrege와 Book Resortory를 포함한 온라인 서점에서 구입할 수 있으며, 구글 플레이북스에서 전자 형식으로 구입할 수 있다.^[7]^[8]

기타 분석

LOCE1 태그셋을 기반으로 한 각 단어의 문법 태깅은 자동 프로세스에 의해 SEC의 텍스트에 추가되었다.^[9]^[10] 이 태깅이 기계 판독이 가능한 형태라는 사실은 문법적 정보와 본문의 운문학적 정보를 연관시킬 수 있게 했다. 후속 작업은 문법 태깅을 더욱 발전시키고 자동 파싱 기법을 생산하기 위해 확률론적 모델을 사용했다.^[11]

앤 위크만은 SEC 억양에 관한 연구 "텍스트와 담론에서의 억양: 2000년 시작, 중간, 끝"^[12]

MARSEC(Machine-Readable Speak English Corpus)

텍스트와 관련 태그가 기계 판독 가능한 형태로 존재했지만, 녹음 자체는 테이프 레코딩으로만 존재했다. 1992-4년 영국 랭커스터 대학과 리즈 대학의 언어학자들 사이의 경제사회연구위원회가 후원한 협회는 본문과 시간적으로 연결된 디지털 형태의 녹음 파일을 포함하는 말뭉치 버전을 생산하기 시작했다.^[13] 주요 연구자는 게리 노울스와 타마스 바라디(랜캐스터), 피터 로치와 사이먼 아르필드(레즈)이다. 프로젝트의 개요는 Knowles에 명시되어 있으며,^[14] 자동 시간 정렬은 Roach와 Arnfield가 설명한다.^[15] 디지털화된 음반들은 CD-ROM에 녹음되었다. 이 시설은 더 이상 지원되지 않지만 리즈 대학교에서 연구 목적으로 다운로드가 가능해졌다.^[16]

AIX-MARSEC

랭커스터와 리즈의 MARSEC에 대한 작업은 1995년경에 끝났지만, 말뭉치는 이후 다니엘 허스트의 지휘 아래 프랑스 에이ix-en-Provence 대학에서 상당한 추가 개발의 대상이 되었다.^[17] 데이터베이스는 MARSEC의 디지털화된 기록과 주석의 두 가지 주요 구성요소로 구성된다. 주석들은 지금까지 음운, 음절, 단어, 스트레스 발, 리듬 단위와 마이너 및 메이저 턴 단위를 포함한 9개 수준에서 수행되었다. 두 가지 보조 수준, 즉 ROCLE의 문법 주석과 Aix-en-Provision에서 개발된 Property Grammer 시스템이 곧 통합될 것이다.^[18] 이 치료의 가능한 단점은 말뭉치가 특수하게 쓰여진 대본을 통해서만 검색될 수 있다는 것이다.^[19] 데이터베이스는 도구와 함께 AIX-MARSEC 프로젝트 현장에서 GNU GPL 라이센스에 따라 사용할 수 있다.^[20]

Aix-MARSEC 오디오 파일 다운로드(가입 필요)

참조

^ "MANUAL OF INFORMATION TO ACCOMPANY THE SEC CORPUS". korpus.uib.no. Retrieved 2020-10-15.
^ 리치, 제프리(1996년) "그 맥락에서 말하는 영어 코퍼스." 서문. Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Working with Speech. Longman. p. ix. ISBN 9780582045347.
^ Xiao, Richard; Tono, Yukio (2006). MacEnery, Tony (ed.). Corpus-Based Language Studies: An Advanced Resource Book. Taylor & Francis. p. 63. ISBN 9780415286220.
^ 테일러, 리타(1996년). "말하는 영어 코퍼스의 편찬"
^ 윌리엄스, 브리오니(1996년). "영국 영어의 억양 표기 체계 구축"
^ 피커링, 브라이언(1996년). "SEC의 전사자 차이 분석"
^ "A Corpus of Formal British English Speech: The Lancaster/IBM Spoken English Corpus (Paperback) - Routledge". Routledge.com. Retrieved 2018-07-22.
^ "A Corpus of Formal British English Speech : Gerald Knowles : 9781138457768". www.bookdepository.com. Retrieved 2019-01-30.
^ 테일러, 리타(1996년). "말하는 영어 코퍼스의 편찬"
^ "UCREL CLAWS1 (LOB) Tagset". ucrel.lancs.ac.uk. Retrieved 2020-10-15.
^ 샘슨, 제프리. (1987년) "확률론적 분석 모델" Garside, Roger; Sampson, Geoffrey; Leech, Geoffrey (1987). The Computational Analysis of English. Longman. ISBN 9780582291492.
^ "Intonation in Text and Discourse: Beginnings, Middles and Ends". Routledge & CRC Press. Retrieved 2020-10-15.
^ 로치, P, 노울스, G, 바라디, T.와 아르넬필드 (1994년)
^ Knowles, G. "관계형 데이터베이스로 말뭉치 변환: SEC가 MARSEC가 됨"
^ 로치, 피터, 앤필드, 사이먼 "프로소딕 전사를 시간 차원에 연결"
^ "MARSEC: The Machine Readable Spoken English Corpus". www.reading.ac.uk. Retrieved 2020-10-15.
^ Hirst, Daniel; De Looze, Céline; Auran, Cyril; Bouzon, Caroline (27 July 2010). "Aix-MARSEC database". Retrieved 15 April 2013.
^ Auron, Cyril; Bouzon, Caroline (2003). "Phonotactique prédictive et alignement automatique : application au corpus MARSEC et perspectives" [Predictive phonotactics and automatic alignment: application in the MARSEC corpus and prospects]. Travaux interdisciplinaires du laboratoire parole et langage d'Aix-en-Provence (in French). Publications de l'Université de Provence. 22: 33–63. Retrieved 15 April 2013.
^ 비히만, 앤 "스피치코모리카와 스피치코모나"
^ Hirst, Daniel. "Aix-MARSEC project". Retrieved 15 April 2013.

[1] "MANUAL OF INFORMATION TO ACCOMPANY THE SEC CORPUS". korpus.uib.no. Retrieved 2020-10-15.

[leech-2] 리치, 제프리(1996년) "그 맥락에서 말하는 영어 코퍼스." 서문. Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Working with Speech. Longman. p. ix. ISBN 9780582045347.

[Xiao1-3] Xiao, Richard; Tono, Yukio (2006). MacEnery, Tony (ed.). Corpus-Based Language Studies: An Advanced Resource Book. Taylor & Francis. p. 63. ISBN 9780415286220.

[taylor-4] 테일러, 리타(1996년). "말하는 영어 코퍼스의 편찬"

[williams-5] 윌리엄스, 브리오니(1996년). "영국 영어의 억양 표기 체계 구축"

[pickering-6] 피커링, 브라이언(1996년). "SEC의 전사자 차이 분석"

[7] "A Corpus of Formal British English Speech: The Lancaster/IBM Spoken English Corpus (Paperback) - Routledge". Routledge.com. Retrieved 2018-07-22.

[8] "A Corpus of Formal British English Speech : Gerald Knowles : 9781138457768". www.bookdepository.com. Retrieved 2019-01-30.

[taylor2-9] 테일러, 리타(1996년). "말하는 영어 코퍼스의 편찬"

[10] "UCREL CLAWS1 (LOB) Tagset". ucrel.lancs.ac.uk. Retrieved 2020-10-15.

[sampson-11] 샘슨, 제프리. (1987년) "확률론적 분석 모델" Garside, Roger; Sampson, Geoffrey; Leech, Geoffrey (1987). The Computational Analysis of English. Longman. ISBN 9780582291492.

[12] "Intonation in Text and Discourse: Beginnings, Middles and Ends". Routledge & CRC Press. Retrieved 2020-10-15.

[roachetal-13] 로치, P, 노울스, G, 바라디, T.와 아르넬필드 (1994년)

[knowles-14] Knowles, G. "관계형 데이터베이스로 말뭉치 변환: SEC가 MARSEC가 됨"

[roach-15] 로치, 피터, 앤필드, 사이먼 "프로소딕 전사를 시간 차원에 연결"

[16] "MARSEC: The Machine Readable Spoken English Corpus". www.reading.ac.uk. Retrieved 2020-10-15.

[hirst-17] Hirst, Daniel; De Looze, Céline; Auran, Cyril; Bouzon, Caroline (27 July 2010). "Aix-MARSEC database". Retrieved 15 April 2013.

[auron-18] Auron, Cyril; Bouzon, Caroline (2003). "Phonotactique prédictive et alignement automatique : application au corpus MARSEC et perspectives" [Predictive phonotactics and automatic alignment: application in the MARSEC corpus and prospects]. Travaux interdisciplinaires du laboratoire parole et langage d'Aix-en-Provence (in French). Publications de l'Université de Provence. 22: 33–63. Retrieved 15 April 2013.

[wichmann-19] 비히만, 앤 "스피치코모리카와 스피치코모나"

[hirst2-20] Hirst, Daniel. "Aix-MARSEC project". Retrieved 15 April 2013.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

v t 말뭉치 언어학
Text corpora, 영어	아메리칸 내셔널 코퍼스 영국은행 런던 10대 언어의 베르겐 코퍼스 브리티시 내셔널 코퍼스 브라운 코퍼스 부케예 코퍼스 케임브리지 잉글리시 코퍼스 코퍼스 오브 컨템포러리 아메리칸 잉글리시 엔론 코퍼스 엔텐텐 국제 영어 코퍼스 랭카스터오슬로베르겐 코퍼스 옥스퍼드 잉글리시 코퍼스 프로프뱅크 구어 잉글리시 코퍼스 티밋 버버넷 Wellington Corpus of Speak New Zealand English
Text corpora, 영어가 아닌	비잔칸 코퍼스 칠드런스 코르켄CC 컨템포러리 웨일스 국립 코르켄CC 크로아티아어 코퍼스 크로아티아 국립 코퍼스 체코 국립 코퍼스 유로팔 코퍼스 독일 참조 코퍼스 함샤리 코퍼스 폴란드 국립 코퍼스 네오아시리아 문자 코퍼스 프로젝트 페르시안 스피치 코퍼스 쿠란어 아랍어 코퍼스 러시아 국립 코퍼스 스코틀랜드 문자와 언어의 코퍼스 슬로베니아 국립 코퍼스 토크뱅크 타토에바 테헤란 모놀링구 코퍼스 테크스타로 데 에스페란토 텐텐 코퍼스 패밀리 사우루스 링귀게 그라케
단체들	BNC 컨소시엄 코빌드 스케치 엔진

Search

구어 잉글리시 코퍼스

네임스페이스

더

목차

역사

컴파일

전사

기타 분석

MARSEC(Machine-Readable Speak English Corpus)

AIX-MARSEC

참조