음성 분석
Voice analysis이 글은 검증을 위해 인용구가 추가로 필요하다. – · · 책 · · (2011년 2월) (이 를 |
음성 분석은 음성 인식과 같이 언어적 내용 이외의 목적을 위한 음성 소리를 연구하는 것이다.그러한 연구에는 대부분 음성(소아과)의 의학적인 분석이 포함되지만 스피커 식별도 포함된다.[1]더욱 논란의 여지가 있는 것은 스피커의 진실성이나 감정 상태가 음성 스트레스 분석이나 레이어드 음성 분석을 통해 결정될 수 있다고 보는 시각도 있다.
분석 방법
음성 분석이 가장 많이 필요한 음성 문제는 성대주름이나 이를 제어하는 후두근육에서 비롯되는데, 후두근육은 각 진동주기와 충돌하는 힘에 노출되고 그 사이의 작은 틈새로 강제되는 공기로부터 건조되기 때문이며, 후두근육은 음성주름 동안 격렬하게 활동하기 때문이다.또는 노래를 부르고 피곤함을 겪는다.그러나 목소리의 주름과 움직임에 대한 역동적인 분석은 물리적으로 어렵다.성대 주름이 있는 위치는 움직임의 직접적이고 침습적인 측정을 효과적으로 금지한다.성대가 연골에 둘러싸여 있어 X선이나 초음파 등 덜 침습적인 영상 방법은 효과가 없어 화질이 왜곡된다.성대의 동작은 빠르고 기본 주파수는 보통 80~300Hz 사이여서 일반 비디오의 사용을 방해한다.스트로보시, 고속 영상 등이 옵션을 제공하지만 성대를 보려면 카메라로 이어지는 광섬유 프로브가 목구멍에 위치해야 해 말하기가 어렵다.또 인두 속에 물체를 배치하는 것은 보통 목소리를 멈추고 후두를 닫는 개그 반사작용을 유발한다.또한, 스트로보시 영상촬영은 성대 진동 패턴이 긴밀하게 주기적일 때만 유용하다.
가장 중요한[according to whom?] 간접적인 방법은 현재 마이크나 구강 기류 기록과 전기 글로토그래피(EGG)의 역 필터링이다.[citation needed]역 필터링에서는 음성 소리(마이크에서 얻은 복사 음향 압력 파형) 또는 원주 배기구(CV) 마스크의 구강 기류 파형을 입밖으로 녹음한 다음 수학적 방법으로 필터링하여 성대의 효과를 제거한다.이 방법은 음성의 효과를 반전시키기 위해 출력을 녹음하고 연산 모델을 사용하여 음성 생산의 글로탈 입력을 추정한다.또 다른 종류의 비침습적 간접적인 성 접힘 동작은 전기 글로그래피로, 성 접힘 수준의 피험자 목의 양쪽에 놓인 전극이 성 접힘의 일부가 서로 얼마나 크게 접촉하고 있는지에 따라 목의 전도도 변화를 기록한다.따라서 접촉 영역의 1차원 정보를 산출한다.역 필터링이나 EGG는 성악 폴드 동작의 복잡한 3차원 패턴을 완전히 설명하기에 충분하지 않지만, 그러한 움직임에 대한 유용한 간접 증거를 제공할 수 있다.
음성 분석을 수행하는 또 다른 방법은 음성 특성을 살펴보는 것이다.목소리의 특징으로는 음소, 음소, 음소, 음소, 음소 등이 있다.이러한 특징들은 사람의 목소리를 평가하는 데 사용될 수 있고 음성 분석 과정에 도움을 줄 수 있다.음운은 일반적으로 긴 모음을 가진 단어, 많은 음소를 가진 단어, 또는 단지 전형적인 언어와 같이 사람으로부터 수집된 다양한 유형의 데이터를 살펴봄으로써 시험된다.사람의 음치는 그 사람이 그 사이에 있는 소리뿐만 아니라 그들이 할 수 있는 가장 높은 소리와 가장 낮은 소리를 내는 것으로 평가될 수 있다.키보드는 이 과정을 돕는 데 사용될 수 있다.어떤 사람들에게는, 큰 소리가 그들이 특정한 소리를 내는 방식에 영향을 주기 때문에, 큰 소리는 살펴봐야 할 가치가 있다.어떤 사람들은 단지 그들이 그것들을 생산할 수 있도록 다른 사람들에 비해 특정한 음소에 대해 더 크게 말할 필요가 있다.[citation needed]이것은 음계를 부를 때 그 사람에게 같은 양의 큰 소리를 사용하라고 요구함으로써 테스트할 수 있다.비율 또한 중요한데, 그것은 사람이 얼마나 빨리 말하거나 느리게 말하는지를 보기 때문이다.
약에 사용하다
예를 들어, 목소리에 대한 의학 연구는 수술을 통해 성대에서 폴립이 제거된 환자의 목소리를 분석하는 것이 될 수 있다.컴퓨터화된 방법들은 그러한 문제들을 객관적으로 평가하기 위해 사용될 수 있다.[3]경험이 풍부한 음성 치료사는 음성을 상당히 신뢰성 있게 평가할 수 있지만, 이것은 광범위한 훈련을 필요로 하며 여전히 주관적이다.
의료 음성 분석에서 또 다른 활발한 연구 주제는 성가하 평가다.장시간 말하는 사람의 성대는 피로, 즉 말하는 과정이 성대에 부담을 주고 조직을 피로하게 한다.전문 음성 사용자들(예: 교사, 판매원) 중에서 이러한 피곤함은 음성 장애와 병가를 유발할 수 있다.음성 분석은 그러한 문제를 평가하기 위한 객관적인 수단으로 연구되어 왔다.[4]
음성 분석은 성대 마비를 연구하는 데 중요한 요소였다.그것은 말에서 호흡에 이르기까지 성대의 다른 기능에 영향을 미치고 음성 분석은 수술 후 성대에 대한 성대의 성대 개선 효과에 대해 연구하는데 사용된다.기존의 음성 녹음은 수술 전 수술에 사용되어 수술 후 사용과 비교할 대상 환자의 목소리를 녹음하는 데 사용되며, 전기 광학, 사진 촬영,[5] 영상 촬영 등을 이용한 보다 복잡한 녹음도 함께 사용된다.의료전문가들은 복잡한 녹음에서 나온 결과를 읽고 이해할 수 있는 능력이 있지만, 정확한 결과를 위해서는 이러한 실험 안에서 음성전문가의 지식이 필요하다.음성 전문가들은 성대의 신체 검사를 신경학적 검사와 결부시켜 훈련된 귀 때문에 수술의 성공을 보장하는 데 중요한 역할을 했다.음성에 대한 지각평가는 음성 품질에 크게 의존하고 있는데, 음성 전문가(음성 치료사)가 선호하게 평가하는 요인이다.전문 음성 분석기는 숙련된 귀를 가지고 있으며, 그 결과 기만적일 수 있는 과도한 변형을 차단할 수 있다.[6]
과학 수사에서 사용
음성 분석은 오디오 포렌식이라고 불리는 법의학 분야에서 사용된다.이러한 분석은 일반적으로 문제의 오디오의 진정성을 평가하기 위한 목적으로, 산만한 배경 소음 아래에 숨겨져 있을 수 있는 오디오의 특징을 향상시키고, 법의학 전문가의 관점에서 오디오를 해석하거나,[7] 경우에 따라 스피커 식별을 목적으로 수행된다.[8]
전문가는 그들의 분석에 다양한 기법을 사용할 것이다.최소 절차는 "임계 수신, 파형 분석 및 스펙트럼 분석"[9]이다.비판적 경청은 반복적인 경청을 통해 전경 소리와 배경 소리를 모두 철저히 분석하는 것을 포함한다.[9]파형 분석은 검사자가 발생할 수 있는 모든 불규칙성을 볼 수 있도록 오디오를 시각화한다.스펙트럼 분석은 검사자가 관심 있는 특징을 골라내는 오디오의 주파수를 시각화한다.[9]
오디오가 더 큰 역할을 한 사례는 트레이본 마틴 사건인데, 이 사건에서는 경찰에 걸려온 통화 녹음 내용을 분석해 배경 비명이 조지 짐머만에게서 온 것인지 마틴에게서 온 것인지를 알아냈다.
포렌식 보이스
법의학 음성 전문가들은 녹음 내용을 전송·저장된 음성을 검사해 이를 보강하고 범죄수사, 법원 재판, 연방기관 등을 위해 해독하는 방식으로 분석한다.
법정에서 오디오 녹음을 활용하려면 법의학자가 녹음 내용을 인증해 변조를 탐지하고 오디오를 강화하며 연설문을 해석해야 한다.그들의 첫 번째 일은 사용 중인 녹음에서 연설이 이해될 수 있도록 하는 것이다.종종 샘플은 바람이나 움직임과 같은 환경적 요인으로 인해 음질이 좋지 않다.다른 경우에 음의 저하는 녹음 장치 내의 기술적 문제 때문이다.스피커 식별에 대한 어떤 조사 작업도 녹음 품질이 적절할 때까지 수행될 수 없다.사용자가 소음을 필터링하고 제거할 수 있는 컴퓨터 프로그램을 사용하여 낮은 이해도를 위한 다양한 해결책이 수행된다.컴퓨터 소프트웨어는 또한 언어를 스펙트럼과 파형으로 변환할 수 있는데, 이것은 법의학 음성학자에게 유용하다.단, 녹화에 관한 모든 작업은 원본 녹화를 복사한 후에 수행해야 한다.
법의학 음성학자의 주요 업무는 스피커 식별이다.해석 과정에는 시간 표시 막대를 짜는 것, 대화 상자를 옮겨 쓰는 것, 오디오 녹음에서 알 수 없거나 알아들을 수 없는 소리를 식별하는 것이 포함될 수 있다.법정에서, 전문가는 궁극적으로 오디오 증거를 둘러싼 사실들을 설명하는 역할을 하며, 녹음으로 증명되는 것을 설명하기 위해 관련 음향 및 물리적 원리에 대한 설명을 제공한다.기록 중 이해할 수 없거나 들을 수 없는 부분이 있는 경우, (녹음에서) 어떤 일이 있었는지에 대한 설명, 녹음에서 빠진 내용에 대한 설명을 포함하도록 보고서를 작성한다.
스피커 식별
음성 분석은 스피커 식별에 역할을 한다.이것은 발언자의 신원이 알려지지 않은 경우로서, 범죄 수사나 법원 재판과 관련될 때 일련의 다른 목소리나 용의자들로부터 신원을 밝혀야 하는 경우다.특히 형사사건에 있어서 화자와 음성의 적절한 식별은 친숙함, 노출, 지연, 목소리 톤, 목소리 변장, 억양과 같은 요소들의 리스트에 의존한다.스피커에 익숙해지면 음성을 적절하게 식별하고 구별할 수 있는 가능성이 높아진다.목소리에 노출되는 양은 낯선 목소리일지라도 목소리를 정확하게 식별하는 데 도움이 된다.더 긴 말을 듣거나 목소리에 더 자주 노출된 착용자는 아마도 한 단어만 들을 수 있었던 사람보다 목소리를 더 잘 인식한다.목소리를 듣는 시간과 말하는 사람을 식별하는 시간 사이의 지연은 또한 올바른 말하는 사람을 식별하는 가능성을 감소시킨다.목소리 톤은 올바른 화자를 식별하는 능력에 영향을 미친다.비교 당시 화자의 어조가 일치하지 않으면 분석하기가 더 어려운 것으로 판명될 것이다.예를 들어, 말하는 사람이 속삭이고 있을 때 음성을 위장하는 것은 말하는 사람을 정확하게 일치시키고 식별하는 능력도 방해할 것이다.어떤 경우에는 음성이 분석되고 있는 화자와 동일한 언어를 사용하는 개인은 음성의 억양과 스트레스 때문에 그것들을 식별하는 데 더 쉬울 것이다.스피커 식별은 녹음의 기술적 방법과 감정 상태 또는 녹음과 음성의 불일치를 야기하는 대체 동기 등과 같은 스피커 기반 문제에서 왜곡되어 더 복잡하다.법의학에서 스피커 식별 방법에는 자신이 들은 목소리를 식별하는 데 사용되는 목격자의 사용, 개인의 언어의 초증분할에 관한 전문가에 의해 행해지는 청각적 지각적 접근법, 컴퓨터 기반 접근법 등이 있다.
참고 항목
참조
- ^ Sarangi, Susanta; Sahidullah, Md; Saha, Goutam (September 2020). "Optimization of data-driven filterbank for automatic speaker verification". Digital Signal Processing. 104. arXiv:2007.10729. doi:10.1016/j.dsp.2020.102795.
- ^ Hapner, Edie; Stemple, Joseph (2014). Voice Therapy: Clinical Case Studies. Plural Publishing.
- ^ Toran, SiKC; Lal, B. K. (2010). "Objective voice analysis for vocal polyps following microlaryngeal phonosurgery". Kathmandu University Medical Journal. 8 (2): 185–189. doi:10.3126/kumj.v8i2.3555. ISSN 1812-2078. PMID 21209532.
- ^ Stemple, Joseph C.; Stanley, Jennifer; Lee, Linda (1995). "Objective measures of voice production in normal subjects following prolonged voice use". Journal of Voice. 9 (2): 127–133. doi:10.1016/s0892-1997(05)80245-0. ISSN 0892-1997. PMID 7620534.
- ^ Gerratt, Bruce R.; Hanson, David G.; Berke, Gerald S.; Precoda, Kristin (1991-01-01). "Photoglottography: A clinical synopsis". Journal of Voice. pp. 98–105. doi:10.1016/S0892-1997(05)80173-0. Retrieved 2020-12-16.
- ^ Chowdhury, Kanishka; Saha, Somnath; Saha, Vedula Padmini; Pal, Sudipta; Chatterjee, Indranil (2013-03-23). "Pre and Post Operative Voice Analysis After Medialization Thyroplasty in Cases of Unilateral Vocal Fold Paralysis". Indian Journal of Otolaryngology and Head & Neck Surgery. 65 (4): 354–357. doi:10.1007/s12070-013-0649-3. ISSN 2231-3796. PMC 3851511. PMID 24427598.
- ^ 마허, 로버트 C. (2018).법의학 오디오 분석의 원리.현대적 음향 및 신호 처리.참: 스프링거 인터내셔널 출판. 페이지 1-2. doi:10.1007/978-3-319-99453-6.ISBN 978-3-319-99452-9
- ^ Solan, Lawrence M.; Tiersma, Peter M. (2004). Speaking of Crime. University of Chicago Press. doi:10.7208/chicago/9780226767871.001.0001. ISBN 978-0-226-76793-2.
- ^ a b c 마허, 로버트 C. (2018).법의학 오디오 분석의 원리.현대적 음향 및 신호 처리.참: 스프링거 인터내셔널 출판. 페이지 48–49. doi:10.1007/978-3-3-19-99453-6.ISBN 978-3-319-99452-9