음성 말뭉치

Speech corpus

음성 말뭉치(또는 음성 말뭉치)는 음성 오디오 파일 및 텍스트 문자 변환 데이터베이스입니다.음성 기술에서, 음성 말뭉치는 무엇보다도 음향 모델을 만들기 위해 사용됩니다(음성 인식 또는 스피커 식별 [1]엔진과 함께 사용될 수 있습니다).언어학에서, 구어체는 음성학, 회화 분석, 방언학 및 다른 분야의 연구를 위해 사용된다.

말뭉치는 그러한 데이터베이스 중 하나이다.코퍼스는 말뭉치의 복수이다(즉, 그러한 데이터베이스가 많다).

Speech Corpa에는 다음 두 가지 유형이 있습니다.

  1. 스피치 읽기 – 다음 내용:
    • 발췌본
    • 뉴스를 방송하다
    • 단어 목록
    • 숫자의 순서
  2. 즉흥 연설 – 다음을 포함합니다.
    • 대화 – 둘 이상의 사람(회의 포함; 그러한 말뭉치 중 하나가 KEC);
    • 내러티브 – 이야기를 하는 사람(그런 말뭉치 중 하나가 Buckeye Corpus)
    • 지도 작업 – 한 사람이 다른 사람에게 지도 상의 경로를 설명합니다.
    • 약속 태스크– 2명이 개별 일정에 따라 공통 회의 시간을 찾으려고 합니다.

특별한 종류의 말뭉치는 외국 억양을 가진 말을 포함하는 비원어 언어 데이터베이스이다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Sarangi, Susanta; Sahidullah, Md; Saha, Goutam (September 2020). "Optimization of data-driven filterbank for automatic speaker verification". Digital Signal Processing. 104: 102795. arXiv:2007.10729. doi:10.1016/j.dsp.2020.102795. S2CID 220665533.
  • Edwards, Jane / Lampert, Martin (ed.) (1992) :통화 데이터 – 담화 연구의 전사 및 부호화.Hillsdale: Erlbaum.
  • 리치, 제프리 / 마이어스, 그렉 / 토마스, 제니 (ed.)(1995):컴퓨터에서의 영어 말하기:전사, 마크업 및 응용 프로그램.롱맨

외부 링크