Search

음성 말뭉치

Speech corpus

음성 말뭉치(또는 음성 말뭉치)는 음성 오디오 파일 및 텍스트 문자 변환 데이터베이스입니다.음성 기술에서, 음성 말뭉치는 무엇보다도 음향 모델을 만들기 위해 사용됩니다(음성 인식 또는 스피커 식별 ^[1]엔진과 함께 사용될 수 있습니다).언어학에서, 구어체는 음성학, 회화 분석, 방언학 및 다른 분야의 연구를 위해 사용된다.

말뭉치는 그러한 데이터베이스 중 하나이다.코퍼스는 말뭉치의 복수이다(즉, 그러한 데이터베이스가 많다).

Speech Corpa에는 다음 두 가지 유형이 있습니다.

스피치 읽기 – 다음 내용:
- 발췌본
- 뉴스를 방송하다
- 단어 목록
- 숫자의 순서
즉흥 연설 – 다음을 포함합니다.
- 대화 – 둘 이상의 사람(회의 포함; 그러한 말뭉치 중 하나가 KEC);
- 내러티브 – 이야기를 하는 사람(그런 말뭉치 중 하나가 Buckeye Corpus)
- 지도 작업 – 한 사람이 다른 사람에게 지도 상의 경로를 설명합니다.
- 약속 태스크– 2명이 개별 일정에 따라 공통 회의 시간을 찾으려고 합니다.

특별한 종류의 말뭉치는 외국 억양을 가진 말을 포함하는 비원어 언어 데이터베이스이다.

「」를 참조해 주세요.

레퍼런스

^ Sarangi, Susanta; Sahidullah, Md; Saha, Goutam (September 2020). "Optimization of data-driven filterbank for automatic speaker verification". Digital Signal Processing. 104: 102795. arXiv:2007.10729. doi:10.1016/j.dsp.2020.102795. S2CID 220665533.

Edwards, Jane / Lampert, Martin (ed.) (1992) :통화 데이터 – 담화 연구의 전사 및 부호화.Hillsdale: Erlbaum.
리치, 제프리 / 마이어스, 그렉 / 토마스, 제니 (ed.)(1995):컴퓨터에서의 영어 말하기:전사, 마크업 및 응용 프로그램.롱맨

외부 링크

샌타바바라 영어말뭉치
Buckeye 말뭉치 회화 말뭉치 Buckeye 말뭉치
KEC -- 대화에서 자발적으로 사용되는 남부 독일어의 Karl Eberhards 말뭉치 - 오디오 및 조음 녹음
다국어 연구센터 구어체 코퍼레이션
METU 앙카라의 터키어 말뭉치
ILTEC 리스본의 Corp-Oral Corp-Oral Corpus와 함께 말하는 말뭉치 Klient
Vox Forge – 오픈 소스 음성 코퍼레이션
OLAC: 오픈 언어 아카이브 커뮤니티
BAS 바이에른 음성 신호 아카이브
인도 영어 및 힌디어용 Simmortel 음성 인식 코퍼스
ELRA: 유럽 언어 자원 협회
PELCRA 폴란드어 회화 말뭉치
아랍어 말뭉치
정치연설집 : 홍콩침례대학도서관이 개발한 미·중 정치인의 정치연설집 무료접근

자연어 처리

일반 용어

텍스트 분석

텍스트 분할	복합항 처리 렘마타이즈 어휘 분석 텍스트 청킹 막힘 문장 분할 단어 분할

분포 의미론 모델

언어 자원,
데이터 세트와 말뭉치

유형 및 표준	말뭉치 언어학 어휘 자원 언어 링크 오픈 데이터 기계 판독 가능한 사전 병렬 텍스트 프롭뱅크 시멘틱 네트워크 단순 지식 조직 시스템 음성 말뭉치 텍스트 말뭉치 시소러스(정보 검색) 트리뱅크 유니버설 의존 관계
데이터.	바벨넷 뱅크 오브 잉글리시 DB페디아 프레임 네트워크 Google Ngram 뷰어 Think Treasure(생각의 보물) UBY 워드넷

자동식별
및 데이터 캡처

컴퓨터 지원
리뷰

자연어
사용자 인터페이스

기타 소프트웨어

디지털 라이브러리에 관한 이 기사는 요약본입니다.위키피디아를 확장함으로써 위키피디아를 도울 수 있습니다.

Speech_corpus / CC-BY-SA / 이용약관 (Terms)