지각 기반의 3D 사운드 현지화

Perceptual-based 3D sound localization

지각 기반 3D 소리 위치 파악은 3D 소리 위치 파악 기술을 개발하기 위해 인간의 청각 시스템에 대한 지식을 적용하는 것입니다.

모티베이션과 응용 프로그램

인간의 청취자는 두 귀의 정보를 결합하여 다른 위치에서 발생하는 음원을 양귀청각이라고 불리는 과정으로 국소화하고 분리한다.인간과 다른 동물들의 신경계와 뇌에서 발견되는 강력한 신호 처리 방법은 유연하고,[1] 환경에 적응하며,[2] 빠르고 노력 없이 이루어집니다.바이노럴 청력 메커니즘을 에뮬레이트하면 특히 노이즈가 [3]많은 환경에서 DSP 알고리즘의 인식 정확도와 신호 분리를 향상시킬 수 있습니다.게다가 음향 위치 파악의 생물학적 메커니즘을 이해하고 이용함으로써, 청취자가 청각 [4]이벤트의 위치를 정확하게 인식할 수 있도록 보다 지각적으로 관련된 방법으로 가상 음향 장면을 렌더링할 수 있다.지각 기반 소리 국부화를 얻는 한 가지 방법은 인체측정학적 특징의 희박한 근사치이다.지각 기반 음향 위치 파악을 사용하여 로봇 내비게이션 및 환경 인식 [1]기능을 향상 및 보완할 수 있습니다.또한 보청기에서 널리 사용되는 가상 청각 공간을 만드는 데도 사용됩니다.

문제 설명 및 기본 개념

반면 소리의 음장의 인간의 인식과 다양한 특성은 아직 잘 understood,[2]DSP알고리즘 사이에 음장 국산화의 관계는 두 귀의 시간 차(ITD, 사운드의 도착 시간의 두곳에 지점 사이의 차이점),에게 등 몇가지 방법 신경 시스템의를 이용할 수 있다.착륙청각 강도 차이(IID, 두 위치 간 소리의 강도 차이), 인공 핀내, 우선순위 효과 및 머리 관련 전달 함수(HRTF)입니다.3D 사운드를 공간 영역에 위치시킬 때 들어오는 사운드 신호가 어깨, 머리 및 핀내로 구성된 인간의 상체(上體)에 의해 반사, 회절 및 산란될 수 있다는 점을 고려할 수 있다.현지화도 [5]음원의 방향에 따라 달라집니다.

HATS: 머리와 몸통 시뮬레이터

머리 및 몸통 시뮬레이터의 이미지는 다음에서 수정되었습니다.

Brüel's & Kjér's Head And Torse Simulator(HATS)는 평균 성인 머리와 상체의 음향 특성을 사실적으로 재현하는 귀와 입 시뮬레이터가 내장된 마네킹 프로토타입이다.헤드셋, 음성회의 디바이스, 마이크, 헤드폰, 보청기 등의 전기음향 테스트에 사용할 수 있도록 설계되어 있습니다.기존의 다양한 접근법이 이 구조 [6]모델에 기초하고 있다.

기존 접근법

파티클 베이스 트래킹

공간 영역에서 다양한 소스의 거리와 강도를 분석할 수 있는 것이 필수적이다.마이크 어레이와 입자 필터링 트래커를 통해 얻은 데이터를 바탕으로 확률론적 시간적 통합을 사용하여 그러한 음원을 추적할 수 있다.이 접근방식을 사용하면 각 선원의 위치를 나타내는 확률밀도함수(PDF)는 서로 다른 가중치(확률)가 할당되는 입자 세트로 표현된다.Kalman 필터링에 대한 입자 필터링의 선택은 잘못된 검출과 여러 [7]소스에서 발생하는 비-가우스 확률에 의해 더욱 정당화된다.

ITD, ILD 및 IPD

듀플렉스 이론에 따르면, ITD는 저주파 소리([4]1kHz 미만)의 위치 파악에 더 큰 기여를 하는 반면, ILD는 고주파 소리 위치 파악에 사용된다.이러한 접근방식은 공간화된 신호의 선택적 재구성에 적용할 수 있으며, 여기서 원하는 음원에 의해 지배되는 것으로 여겨지는 스펙트럼 포자 성분이 단시간 푸리에 변환(STFT)을 통해 식별되고 격리된다.최신 시스템은 일반적으로 2개 이상의 마이크에서 수신되는 신호의 STFT를 계산하고 STFT의 위상을 비교하여 ITD 또는 각 스펙트럼 포털 구성요소를 추정한다.이 접근방식의 장점은 2개 이상의 마이크로 일반화할 수 있다는 것입니다.이것에 의해, 3 차원에서의 정밀도가 향상해, 2개의 이어 또는 [1]마이크만으로 발생하는 전면 배면의 현지화의 애매함을 해소할 수 있습니다.또 다른 장점은 ITD가 상대적으로 강하고 더미 헤드 및 인공 핀내와 같은 생체 모방 기구 없이 획득하기 쉽다는 것이다. 그러나 이러한 기구들은 진폭 [1]불균형을 강화하는 데 사용될 수 있다.HRTF 위상 응답은 대부분 선형이며, 파형의 결합된 저주파 부분의 청각 간 시간 지연(ITD)이 유지되는 한 청취자는 청각 간 위상 스펙트럼의 세부 사항에 민감하지 않습니다.

ILD(청각간 레벨 차이)는 두 귀에 도달하는 음압 레벨의 차이를 나타냅니다.그것들은 우주에서 고주파 소리의 위치를 파악할 수 있는 두드러진 단서를 제공하며 ILD에 민감한 뉴런의 집단은 뇌간에서 피질까지 거의 모든 시냅스 수준에서 발견됩니다.이들 세포는 주로 한쪽 귀의 자극에 의해 흥분되고 다른 쪽 귀의 자극에 의해 억제되므로 반응의 크기는 대부분 두 귀의 강도에 의해 결정된다.이로 인해 공명 [8]댐핑의 개념이 생겨났습니다.고주파 사운드는 헤드에 의해 크게 감쇠되지 않기 때문에 ILD(Inter aural level difference)는 고주파 사운드에 최적입니다.ILD(Interural Intensity Difference)는 음원의 중심이 잡히지 않고 청취자의 머리가 음원과 반대쪽의 귀를 부분적으로 그늘지게 하여 해당 귀의 소리의 강도를 감소시킬 때 발생합니다(특히 높은 주파수에서).핀네는 방향에 따라 소리를 필터링합니다.이는 소리가 위, 아래, 앞 또는 뒤에서 나는지 여부를 판단할 때 특히 유용합니다.

청각 간 시간 및 레벨 차이(ITD, ILD)는 방위각 지각에 영향을 미치지만 수직 위치 파악을 설명할 수는 없습니다.듀플렉스 이론에 따르면, ITD는 저주파 소리(1kHz 미만)의 위치 파악에 더 큰 기여를 하는 반면, ILD는 고주파 [8]소리 위치 파악에 사용된다.ILD는 음원에서 머리 한쪽으로 오는 소리가 음원에서 가장 가까운 귀에서 더 강렬하거나 더 크게 들린다는 사실에서 발생한다.따라서 두 개의 분리된 스피커나 헤드폰에 공급되는 소리의 상대적인 수준을 조절하는 것만으로 머리의 한쪽에서 나오는 음원의 착각을 일으킬 수 있다.이것은 일반적으로 사용되는 팬 제어의 기본이다.

IPD(청간 위상차)는 각 귀에 도달하는 파형의 위상차를 말하며, 음파의 주파수와 ITD([8]청간 시차)에 따라 달라집니다.

뇌가 IPD, ITD, ILD를 분석하면 음원의 위치를 비교적 정확하게 파악할 수 있다.

우선 순위 효과

우선 효과란 소리 현지화가 가장 먼저 도달하는 복잡한 소리의 구성요소에 의해 좌우될 수 있다는 관측이다.다른 방향으로부터의 지연반사성분의 영향을 억제하면서 직접장성분(음원으로부터 직접 도달하는 것)이 지배하도록 함으로써 우선도 효과는 잔향환경에서 인식되는 음위치의 정밀도를 향상시킬 수 있다.우선도 효과의 처리에는, 밴드 패스 필터링에 의해서, 신호의 사운드 엔벨로프의 선단을 주파수 대역으로 분할해 강화한다.이 접근방식은 쌍방향 레벨뿐만 아니라 모노럴 레벨에서도 실행할 수 있으며, 두 경우 모두 반향 환경의 정확도를 향상시킵니다.그러나 우선 순위 효과를 사용하는 이점은 무반향 환경에서 분해될 수 있습니다.

HRTF

사람의 청자의 몸은 들어오는 음파를 방해하여 머리, 귀, 몸의 간섭으로 인해 소리 신호의 선형 필터링을 일으킵니다.인간은 위치 파악을 강화하기 위해 동적 신호를 사용합니다.이것들은 듣는 사람의 활동적이고 때로는 무의식적인 움직임에서 발생하며, 이는 음원의 상대적인 위치를 변화시킨다.청취자가 현지화에 도움이 되도록 고개를 살짝 돌릴 수 있도록 하면 정적 듣기 테스트에서 흔히 볼 수 있는 앞/뒤의 혼란이 사라지는 것으로 보고되고 있다.단, 헤드폰으로 헤드모션을 보상하지 않고 음향 장면을 제시하면 사용자의 움직임에 따라 장면이 변화하지 않고 동적 단서가 [9]존재하지 않는다.

헤드 관련 전송 기능에는 단일 신호뿐만 아니라 ITD 및 IID와 같은 국소화 신호의 모든 기술자가 포함됩니다.모든 HRTF는 3D 공간의 특정 위치에서 청취자의 귀로 소리가 전달되는 것을 고유하게 나타냅니다.청각 시스템에 의해 수행되는 복호화 과정은 두 개의 마이크, 두 개의 인공 귀 및 HRTF [10]데이터베이스로 구성된 인공 설정을 사용하여 모방할 수 있다.3D 공간에서의 오디오 소스의 위치를 결정하기 위해 이어 입력 신호는 가능한 모든 HRTF 쌍의 역방향으로 컨볼루션되며, 여기서 올바른 역방향은 컨볼루션된 오른쪽 신호와 왼쪽 신호 간의 상호 상관 관계를 최대화합니다.복수의 동시 음원의 경우, 소스에서 귀로 음성을 전달하는 것은 다중 입력다중 출력으로 간주할 수 있습니다.여기서 마이크로 전송 중에 소스 신호가 필터링된 HRTF는 연속적인 블라인드소스 분리 등의 방법을 사용하여 찾을 수 있습니다.이 방법은 실시간시스템에서 효율적으로 구현할 수 있는 장점이 있습니다.전반적으로 HRTF를 사용하는 이러한 접근법은 여러 개의 움직이는 [10]음원을 현지화하기 위해 잘 최적화될 수 있습니다.평균적인 인간은 어려운 [citation needed]환경에서 방위각과 고도 모두에서 5개 이상의 정확도로 음원을 찾는 놀라운 능력을 가지고 있다.

레퍼런스

  1. ^ a b c d Huang; Ohnishi, Sugie (1997). "Building ears for robots: Sound localization and separation". Artificial Life and Robotics. 1 (4): 157–163. doi:10.1007/bf02471133. S2CID 7595305.
  2. ^ a b Karam; Kleijn, Maclean (September 2013). "Scanning the Issue: Perception-Based Media Processing". Proceedings of the IEEE. 101 (9): 1900–1904. doi:10.1109/jproc.2013.2270898.
  3. ^ Hermansky; Cohen, Stern (September 2013). "Perceptual Properties of Current Speech Recognition Technology". Proceedings of the IEEE. 101 (9): 1–18. doi:10.1109/JPROC.2013.2252316. S2CID 17049673.
  4. ^ a b Spors, Sascha; Wierstorf, Hagen; Raake, Alexander; Melchior, Frank; Frank, Matthias; Zotter, Franz (2013). "Spatial Sound With Loudspeakers and Its Perception: A Review of the Current State". Proceedings of the IEEE. 101 (9): 1920–1938. doi:10.1109/JPROC.2013.2264784. ISSN 0018-9219. S2CID 11042715.
  5. ^ Martin Rothbucher; David Kronmüller; Marko Durkovic; Tim Habigt; Klaus Diepold. "HRTF sound Localization, Institute for Data Processing, Technische Universität München, Germany". {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
  6. ^ a b Bilinski,Piotr; Ahrens, Jens; Thomas, Mark R.P; Tashev, Ivan; Platt,John C (2004). "HRTF magnitude synthesis via sparse representation of anthropometric features" (PDF) (Microsoft Research, One Microsoft Way, Redmond, WA 98052, USA). {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
  7. ^ Jean,Marc; Francois, Michuad; Jean,Rouat (2006). "Robust 3D localization and tracking of sound sources using Beamforming and Particle Filtering". 2006 IEEE International Conference on Acoustics Speed and Signal Processing Proceedings. Vol. 4. pp. IV-841–IV-844. arXiv:1604.01642. doi:10.1109/ICASSP.2006.1661100. ISBN 1-4244-0469-X. S2CID 557491.
  8. ^ a b c Bilinski,Piotr; Ahrens, Jens; Thomas, Mark R.P; Tashev, Ivan; Platt,John C (2004). "HRTF magnitude synthesis via sparse representation of anthropometric features" (PDF) (Microsoft Research, One Microsoft Way, Redmond, WA 98052, USA). {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
  9. ^ Zotkin, Dmitry N; Duraiswami, Ramani; Davis, Larry S (2002). "Creation of virtual auditory spaces". IEEE International Conference on Acoustics Speech and Signal Processing. pp. II-2113–II-2116. doi:10.1109/ICASSP.2002.5745052. ISBN 978-0-7803-7402-7. S2CID 1770583.
  10. ^ a b Keyrouz; Maier, Diepold (4–6 December 2006). "A Novel Humanoid Binaural 3D Sound Localization and Separation Algorithm". 2006 6th IEEE-RAS International Conference on Humanoid Robots. pp. 296–301. doi:10.1109/ICHR.2006.321400. ISBN 1-4244-0199-2. S2CID 41671705.