헤드 관련 전달 기능
Head-related transfer function해부학적 전달 함수(ATF)[citation needed]로도 알려진 머리 관련 전달 함수(HRTF)는 귀가 어떻게 우주의 한 지점에서 소리를 받는지를 특징짓는 반응이다.듣는 사람이 소리를 들을 때, 머리, 귀, 귀, 귀의 크기와 모양, 머리 밀도, 비강과 구강의 크기와 모양은 모두 소리를 변형시키고 어떻게 인지되는지에 영향을 미치며, 어떤 주파수는 올리고 다른 것들은 감쇠시킨다.일반적으로 HRTF는 2,700Hz에서 +17dB의 1차 공명으로 2~5kHz의 주파수를 증가시킵니다.그러나 반응 곡선은 단일 범프보다 복잡하고 광범위한 주파수 스펙트럼에 영향을 미치며 사람에 따라 크게 다르다.
두 귀를 위한 한 쌍의 HRTF는 우주의 특정 지점에서 나오는 것처럼 보이는 양귀 소리를 합성하는데 사용될 수 있다.전달 기능으로서, 특정 지점(일반적으로 청각관의 바깥쪽 끝)에서 소리가 귀로 어떻게 전달되는지를 설명합니다.스테레오(2스피커) 헤드폰에서 서라운드 사운드를 재생하도록 설계된 가정용 엔터테인먼트 제품 중에는 HRTF를 사용하는 것도 있습니다.또, 확성기에서 서라운드 사운드의 재생을 시뮬레이트 하는 HRTF 프로세싱의 일부 형태도 컴퓨터 소프트웨어에 포함되어 있습니다.
인간은 두 개의 귀만 가지고 있지만, 3차원으로 소리를 찾을 수 있습니다 – 범위(거리), 위아래 방향(고도), 앞과 뒤, 그리고 어느 한 쪽(방위)입니다.이것은 뇌, 내이, 그리고 외이가 함께 작동하여 위치에 대한 추론을 하기 때문에 가능합니다.음원을 현지화하는 이러한 능력은 인간과 조상에게 진화적 필요성으로 발달했을지도 모른다. 왜냐하면 눈은 보는 사람 주변의 세계의 일부만을 볼 수 있고, 어둠 속에서 시야가 방해되기 때문이다. 음원을 현지화하는 능력은 주변 빛에 관계없이 모든 방향으로 다양한 [1]정확도로 작용한다.
인간은 한쪽 귀에서 파생된 신호(모노럴 신호)를 취하고 양쪽 귀에서 수신된 신호(차이 신호 또는 바이노럴 신호)를 비교하여 선원의 위치를 추정한다.차이 신호 중에는 도착 시간 차이와 강도 차이도 있습니다.모노럴 단서는 음원과 인체 해부학 사이의 상호작용에서 비롯되며, 원래 음원의 소리는 청각 시스템에 의해 처리되기 위해 귓구멍으로 들어가기 전에 수정된다.이러한 변경은 소스 위치를 인코딩하며 소스 위치와 이어 위치를 관련짓는 임펄스 응답을 통해 캡처될 수 있습니다.이 임펄스 응답은 헤드 관련 임펄스 응답(HRIR)이라고 불립니다.임의의 소스 사운드를 HRIR로 변환하면, 그 사운드가 소스 로케이션에서 재생되고, 리스너의 귀가 리시버 로케이션에서 재생되었을 경우에 리스너가 들었을 것으로 변환됩니다.HRIR은 가상 서라운드 [2][3][example needed]사운드를 생성하기 위해 사용되어 왔습니다.
HRTF는 HRIR의 푸리에 변환입니다.
왼쪽 귀와 오른쪽 귀의 HRTF(위에서 HRIR로 표현)는 각각 왼쪽 귀와 오른쪽 귀에서 x(t) 및 xR(t)로 인식되기L 전에 음원(x(t)의 필터링을 나타냅니다.
HRTF는 또한 자유 공기 중의 방향에서 소리가 고막에 도달하는 방향으로 소리를 수정하는 것으로도 설명할 수 있습니다.이러한 변형은 듣는 사람의 외이의 형태, 듣는 사람의 머리와 몸의 형태, 소리가 나는 공간의 음향 특성 등을 포함한다.이 모든 특징들은 듣는 사람이 소리가 어느 방향에서 나는지 정확하게 말할 수 있는 방법에 영향을 미칠 것이다.
AES69-2015 [4]표준에서 오디오 엔지니어링 협회(AES)는 헤드 관련 전송 함수(HRTF)와 같은 공간 지향 음향 데이터를 저장하기 위한 SOFA 파일 형식을 정의했습니다.SOFA 소프트웨어 라이브러리와 파일은 Sofa Conventions [5]웹사이트에서 수집됩니다.
HRTF 구조
연관된 메커니즘은 그들의 머리와 귀 모양이 다르기 때문에 개인마다 다르다.
HRTF는 소리가 고막과 내이의 변환 기계에 도달하기 전에 주어진 음파 입력(주파수 및 선원 위치로 매개 변수화)이 머리, 핀나 및 몸통의 회절 및 반사 특성에 의해 필터링되는 방법을 설명한다(청각 시스템 참조).생물학적으로 이러한 외부 구조의 선원 위치 고유 프리필터링 효과는 선원 위치의 신경 결정, 특히 선원의 고도 결정에 도움이 된다(수직 소리 위치 위치 [6]측정 참조).
기술적 파생
선형 시스템 분석에서는 전송 함수를 출력 신호 스펙트럼과 주파수의 함수로서의 입력 신호 스펙트럼 사이의 복소비로 정의합니다.Blauert(1974년; Blauert, 1981년 인용)는 처음에 전달 함수를 자유장 전달 함수(FFTF)로 정의했다.다른 용어로는 자유장-고막 전달 기능 및 자유장에서 고막으로 압력 변환이 포함됩니다.구체적이지 않은 설명으로는 핀나 전달 기능, 외이 전달 기능, 핀나 응답 또는 방향 전달 기능(DTF) 등이 있습니다.
주파수 f에서 선형 시간 불변 시스템의 전송 함수 H(f)는 다음과 같습니다.
- H(f) = 출력(f) / 입력(f)
따라서 소정의 소스 위치에서 HRTF를 얻기 위해 사용되는 방법 중 하나는 소스에 배치된 임펄스 δ(t)에 대해 이어드럼에서 헤드 관련 임펄스 응답(HRIR) h(t)를 측정하는 것이다.HRTF H(f)는 HRIR h(t)의 푸리에 변환입니다.
이상적인 기하학의 "더미 헤드"에 대해 측정하더라도 HRTF는 주파수와 세 가지 공간 변수의 복잡한 함수입니다.단, 헤드로부터의 거리가 1m를 넘는 경우 HRTF는 범위와 반대로 감쇠한다고 할 수 있습니다.가장 자주 측정되는 것은 이 원거리 필드 HRTF, H(f, ", ")입니다.더 가까운 거리에서, 멀리 있는 필드에서 무시할 수 있는 수준 차이가 관측되는 저주파 영역에서도 귀 사이에 관측된 수준 차이는 상당히 커질 수 있다.
HRTF는 일반적으로 무반사 챔버에서 측정되며 초기 반사 및 잔향이 측정된 응답에 미치는 영향을 최소화합니다.HRTF는 수평면에서 15°, 30° 등 θ의 작은 증분으로 측정되며, 보간법을 사용하여 θ의 임의의 위치에 대한 HRTF를 합성한다.그러나 보간은 소폭 증가하더라도 전후방 혼동을 일으킬 수 있으며 보간 절차의 최적화는 활발한 연구 영역이다.
측정된 HRTF에서 Signal-to-Noise Ratio(SNR; 신호 대 잡음비)를 최대화하기 위해서는 생성되는 임펄스가 대용량이어야 합니다.그러나 실제로는 대량으로 임펄스를 발생시키는 것이 어려울 수 있으며 발생 시 인간의 귀에 손상을 줄 수 있으므로 HRTF는 주파수 스위프 사인파 또는 최대 길이 시퀀스를 사용하여 주파수 영역에서 직접 계산되는 것이 일반적입니다.그러나 사용자 피로는 여전히 문제가 되고 있으며, 이는 더 적은 측정값에 기초한 보간 기능의 필요성을 강조한다.
헤드 관련 전달 기능은 ITD와 ILD가 콘의 "0" 부분 주변의 많은 음원에 대해 동일한 일련의 지점인 콘 오브 혼동을 해결하는 데 관여합니다.소리가 귀로 전달되면 귀에서 귀로 곧장 들어가거나 귀의 핀네에서 반사되어 몇 초 후에 귀로 전달될 수 있습니다.소리에는 많은 주파수가 포함되어 있기 때문에, 이 신호의 많은 복사본은 주파수에 따라(반사, 회절, 고주파 및 저주파와의 상호작용 및 귀 구조의 크기에 따라) 모두 다른 시간에 귀 아래로 내려갑니다.이러한 복사본은 서로 겹칩니다. 이 과정에서 특정 신호가 강화되고(신호의 위상이 일치하는 경우), 다른 복사본은 취소됩니다(신호의 위상이 일치하지 않는 경우).본질적으로, 뇌는 [citation needed]소리의 특정한 방향과 일치하는 신호에서 주파수 노치를 찾습니다.
다른 사람의 귀를 대체하면, 그 사람의 청각 시스템이 사용하는 패턴과 강화 및 취소 패턴이 다르기 때문에, 그 사람은 즉시 소리를 국소화할 수 없을 것이다.그러나 몇 주 후 청각 시스템은 새로운 머리 관련 전달 [7]기능에 적응할 것이다.HRTF 스펙트럼의 피험자 간 변동성은 클러스터 [8]분석을 통해 연구되었다.
사람의 귀 사이의 변화를 통해 변화를 평가함으로써 우리는 머리의 자유도와 공간 영역과의 관계에 대한 관점을 제한할 수 있다.이를 통해 복잡성을 가중시키는 기울기 및 기타 좌표 매개변수를 제거합니다.보정을 위해 귀의 방향 수준에만 관심이 있으며, 특정 자유도를 고려합니다.HRTF를 보정하기 위한 식을 추론할 수 있는 방법은 다음과 같습니다.
가상 청각[9] 공간에서의 소리의 국부여
가상 청각 공간을 만들 때 기본적인 가정은 청자의 고막에 존재하는 음향 파형이 헤드폰 아래 자유 영역과 동일하다면 청자의 경험도 동일해야 한다는 것이다.
일반적으로 헤드폰에서 발생하는 소리는 머리 안에서 발생하는 것으로 인식된다.가상 청각 공간에서 헤드폰은 소리를 "외부"할 수 있어야 한다.HRTF를 사용하면 아래 기술을 사용하여 사운드를 공간적으로 배치할 수 있습니다.
x1(t)는 확성기를 구동하는 전기신호를 나타내고1 y(t)는 청취자의 고막 내부에 있는 마이크에 의해 수신되는 신호를 나타냅니다.마찬가지로 x(t)는 헤드폰을 구동하는 전기신호를 나타내고2 y(t)는 신호에 대한 마이크 응답을 나타냅니다2.가상 청각 공간의 목표는 y(t) = y1(t)가 되도록2 x(t)를 선택하는2 것이다.이러한 신호에 푸리에 변환을 적용하면 다음 두 가지 방정식을 얻을 수 있습니다.
- Y1 = XLFM1 및
- Y2 = XHM2,
여기서 L은 자유 필드에서 라우드스피커의 전송 함수, F는 HRTF, M은 마이크 전송 함수, H는 헤드폰과 고막 사이의 전송 함수입니다.Y1 = Y로2 설정하고 X 수율에 대해2 해결합니다.
- X2 = XLF1/H.
관찰 결과, 바람직한 전송 함수는 다음과 같습니다.
- T= LF/H.
따라서 이론적으로 x(t)가 이 필터를 통과하고 그2 결과 발생하는 x(t)가 헤드폰에서 재생되면1 고막에서 동일한 신호가 생성됩니다.필터는 한쪽 귀에만 적용되므로 다른 한쪽 귀에는 다른 한쪽 귀만 사용해야 합니다.이 프로세스는 가상 환경의 많은 장소에서 반복되며 샘플링 조건이 나이키스트 기준에 따라 설정되도록 하면서 재현되는 위치별로 헤드 관련 전송 함수 배열을 만듭니다.
HRTF 위상[10] 합성
주파수 대역의 매우 낮은 부분에서는 신뢰성이 낮은 위상 추정치가 존재하며, 상위 주파수에서는 위상 응답이 핀나의 특징에 영향을 받습니다.또한 이전 연구에서는 HRTF 위상 응답은 대부분 선형이며, 파형의 결합된 저주파 부분의 청각 간 시간 지연(ITD)이 유지되는 한 청취자는 청각 간 위상 스펙트럼의 세부 사항에 민감하지 않음을 보여줍니다.이것은 방향과 표고에 따라 시간 지연으로서의 대상 HRTF의 모델링된 위상 응답입니다.
스케일링 팩터는 인체측정학적 특징의 함수이다.예를 들어, N명의 피험자로 이루어진 트레이닝 세트에서는 각 HRTF 단계를 고려하여 단일 ITD 스케일링 계수를 그룹의 평균 지연으로 기술합니다.이 계산된 스케일 계수는 주어진 개인에 대한 방향 및 표고의 함수로 시간 지연을 추정할 수 있습니다.시간 지연을 왼쪽 및 오른쪽 가장자리에 대한 위상 응답으로 변환하는 것은 간단한 일입니다.
HRTF 단계는 ITD 스케일링 팩터로 설명할 수 있습니다.이는 다시 참조 소스로서 주어진 개인의 인체측정학 데이터에 의해 정량화된다.일반적인 경우 β를 희박한 벡터로 간주한다.
피험자의 인체측정학적 특징을 훈련 데이터(y' = βT X)에서 인체측정학적 특징의 선형 중첩으로 나타낸 다음 스케일링 벡터 H에 동일한 희박한 벡터를 직접 적용한다.이 작업은 음이 아닌 축소 파라미터에 대해 최소화 문제로 기술할 수 있습니다.: :
이를 통해 ITD 스케일링 팩터 값' H는 다음과 같이 추정됩니다.
여기서 데이터 집합의 모든 개인에 대한 ITD 스케일링 계수는 벡터 H rN R에 누적되므로 값n H는 n번째 인물의 스케일링 계수에 해당한다.
HRTF 규모[11] 합성
LASO(Limest Absolute Shollection and Selection Operator)를 사용하여 위의 최소화 문제를 해결합니다.HRTF는 인체측정학적 특징과 동일한 관계로 표현된다고 가정한다.따라서 인체측정학적 특징에서 희박한 벡터 β를 학습한 후, 다음을 통해 주어진 HRTF 텐서 데이터와 피험자의 HRTF 값 H에' 직접 적용한다.
여기서 각 과목의 HRTF는 D × K 크기의 텐서로 설명되며, 여기서 D는 HRTF 방향의 수, K는 주파수 빈의 수이다.트레이닝 세트의 모든 HRTF에 대응하는 모든n,d,k H를 새로운 텐서 HθR에N×D×K 적층하기 때문에 값 H는n,d,k n번째 사람의 d번째 HRTF 방향의 k번째 주파수 빈에 대응한다.또한'd,k H는 합성 HRTF의 d번째 HRTF 방향마다 k번째 주파수에 대응한다.
녹음 테크놀로지
컴퓨터 게임 환경 등 HRTF를 통해 처리된 녹음(A3D, EAX 및 Open 참조)AL)은 청취자의 HRTF에 가까운 것으로 스테레오 헤드폰이나 스피커를 통해 들을 수 있으며 머리 양쪽의 두 지점이 아닌 모든 방향에서 들리는 소리로 해석할 수 있다.결과의 인식 정확도는 HRTF 데이터 세트가 자신의 귀 특성과 얼마나 밀접하게 일치하느냐에 따라 달라집니다.
「 」를 참조해 주세요.
레퍼런스
- ^ Daniel Starch (1908). Perimetry of the localization of sound. State University of Iowa. p. 35 ff.
- ^ Begault, D.R.(1994) 가상현실 및 멀티미디어용 3D 사운드.AP Professional.
- ^ 그래서 R.H.Y., Leung, N.M., Brasch, J. 및 Leung, K.L. (2006) 머리 관련 전달 함수를 기반으로 한 저렴한 비개별 서라운드 사운드 시스템.인체 공학 연구 및 프로토타입 개발.응용 인체공학, 37, 페이지 695–707.
- ^ "AES Standard AES69-2015: AES standard for file exchange - Spatial acoustic data file format". www.aes.org. Retrieved 2016-12-30.
- ^ "Sofa Conventions Website". Acoustics Research Institute, a research institute of the Austrian Academy of Sciences.
- ^ Blauert, J. (1997) 공간청각: 인간의 소리 국부화의 정신물리학.MIT 프레스
- ^ Hofman, Paul M.; Van Riswick, JG; Van Opstal, AJ (September 1998). "Relearning sound localization with new ears" (PDF). Nature Neuroscience. 1 (5): 417–421. doi:10.1038/1633. PMID 10196533. S2CID 10088534.
- ^ 그래서 R.H.Y., Ngan, B., Horner, A., Leung, K.L., Brasch, J. 및 Blauert, J. (2010) 전방 및 후방 방향 소리의 직교 비개인화 머리 관련 전달 함수를 향해: 클러스터 분석 및 실험 연구.인체공학, 53(6), 페이지 767-781.
- ^ a b Carlile, S. (1996). Virtual Auditory Space and Applications. Austin, TX: Springer. ISBN 9783662225967.
- ^ a b Tashev, Ivan (2014). "HRTF phase synthesis via sparse representation of anthropometric features". Information Technology and Applications Workshop,San Diego, CA, USA, Conference Paper: 1–5. doi:10.1109/ITA.2014.6804239. ISBN 978-1-4799-3589-5. S2CID 13232557.
- ^ a b Bilinski,Piotr; Ahrens, Jens; Thomas, Mark RP; Tashev, Ivan; Platt,John C (2014). "HRTF magnitude synthesis via sparse representation of anthropometric features" (PDF). IEEE ICASSP, Florence, Italy: 4468–4472. doi:10.1109/ICASSP.2014.6854447. ISBN 978-1-4799-2893-4. S2CID 5619011.