스펙트로그램

Spectrogram
"19세기" 구어체 스펙트로그램.주파수는 수직축 위로 증가하고 시간은 수평축으로 증가합니다.오른쪽 범례는 색 강도가 농도에 따라 증가함을 나타냅니다.
3D 스펙트로그램:배터리 충전기의 RF 스펙트럼이 시간에 따라 표시됩니다.

스펙트로그램은 시간에 따라 변화하는 신호의 주파수 스펙트럼을 시각적으로 표현한 것입니다.오디오 신호에 적용할 때 스펙트럼 프로그램은 초음파, 보이스프린트 또는 보이스그램으로 불리기도 합니다.데이터가 3D 플롯으로 표시되는 경우 워터폴 디스플레이라고 할 수 있습니다.

스펙트로그램은 음악, 언어학, 음파탐지기, 레이더, 음성처리,[1] 지진학 등의 분야에서 광범위하게 사용된다.오디오 스펙트럼은 음성적으로 을 식별하고 동물의 다양한 울음소리를 분석하기 위해 사용될 수 있다.

스펙트로그램은 밴드 패스 필터 뱅크인 광학 스펙트로미터, 푸리에 변환 또는 웨이브릿 변환(이 경우 스케일그램 또는 [2]스칼라그램이라고도 함)에 의해 생성될 수 있습니다.

오디오 샘플에 대한 DWT 및 CWT의 축척도

스펙트로그램은 보통 열 지도, 즉 이나 밝기를 변화시켜 보여주는 강도의 이미지로 묘사된다.

포맷

일반적인 형식은 2개의 기하학적 치수를 가진 그래프입니다.한 축은 시간을 나타내고 다른 축은 주파수를 나타냅니다.특정 시간에 특정 주파수의 진폭을 나타내는 세 번째 치수는 이미지 내의 각 포인트의 강도 또는 색상으로 표시됩니다.

수직축과 수평축이 바뀌어 시간이 위아래로 흐르기도 하고, 진폭이 색상이나 강도가 아닌 3D 표면의 높이로 표시되는 폭포수 플롯도 있습니다.그래프 사용 목적에 따라 주파수 및 진폭 축은 선형 또는 로그일 수 있습니다.오디오는 보통 로그 진폭 축(아마 데시벨 또는 dB)으로 표시되며 주파수는 고조파 관계를 강조하기 위해 선형으로, 음악적 톤 관계를 강조하기 위해 로그로 표시됩니다.

인트라사운드 레코딩 30301의 음향 스펙트럼 분석

시대

빛의 스펙트럼은 시간이 지남에 따라 광학 분광계를 사용하여 직접 생성될 수 있습니다.

스펙트럼은 두 가지 방법 중 하나로 시간 영역 신호로부터 생성될 수 있습니다. 즉, 일련의 밴드 패스 필터(현대 디지털 신호 처리가 등장하기 전에는 이것이 유일한 방법이었다)로 근사되거나 푸리에 변환을 사용하여 시간 신호로부터 계산됩니다.이 두 가지 방법은 실제로는 두 가지 다른 시간-주파수 표현을 형성하지만 일부 조건에서는 동일합니다.

밴드패스 필터 방법은 일반적으로 아날로그 처리를 사용하여 입력 신호를 주파수 대역으로 나눕니다. 각 필터 출력의 크기는 스펙트로그램을 [3]종이에 이미지로 기록하는 변환기를 제어합니다.

FFT를 사용하여 스펙트럼 프로그램을 만드는 것은 디지털 프로세스입니다.시간 영역에서 디지털로 샘플링된 데이터는 대개 겹치는 청크로 분할되고 푸리에 변환되어 각 청크의 주파수 스펙트럼 크기를 계산합니다.그런 다음 각 청크는 영상의 수직선에 해당합니다. 즉, 특정 모멘트(청크의 중간점)에 대한 진폭 대 주파수 측정값입니다.그런 다음 이러한 스펙트럼 또는 시간 그림을 "병렬로 배치"하여 이미지 또는 3차원 [4]표면을 형성하거나 과 같은 다양한 방법으로 약간 겹친다.이 프로세스는 기본적으로 신호 s단시간푸리에 변환(STFT)의 제곱 크기를 계산하는 것입니다. 즉, 창 {\\ g ( ) T (display ) 。^{[5]

제한 및 재합성

위의 공식에서 볼 때 스펙트로그램에는 그것이 나타내는 신호의 정확한 위상, 심지어 대략적인 위상에 대한 정보가 포함되어 있지 않은 것으로 보입니다.이 때문에 정확한 초기 위상이 중요하지 않은 상황에서는 원래 신호의 유용한 근사치를 생성할 수 있지만 처리를 반전시켜 스펙트럼에서 원래 신호의 복사본을 생성할 수 없습니다.Analysis & Resynthes Sound[6] Spectrograph는 이를 시도하는 컴퓨터 프로그램의 한 예입니다.패턴 재생은 1940년대 후반 Haskins Laboratories에서 설계된 초기 음성 합성기로, 음성의 음향 패턴(스펙트로그램)의 사진을 다시 소리로 변환했다.

실제로 스펙트로그램에는 몇 가지 위상 정보가 있지만, 이는 [7]순간 주파수의 쌍대인 시간 지연(또는 그룹 지연)으로 다른 형태로 나타납니다.

분석 창의 크기와 모양은 다양할 수 있습니다.(짧은) 창이 작을수록 주파수 표현의 정밀도가 저하되어 타이밍에 더 정확한 결과가 나타납니다.(긴) 창이 클수록 더 정확한 주파수 표현이 제공되지만 타이밍 표현의 정밀도는 떨어집니다.이것은 두 켤레 변수에서의 정밀도의 곱이 상수보다 크거나 같다는 하이젠베르크 불확도 원리의 한 예이다(일반 [8]표기법에서는 B*T>=1).

적용들

  • 초기 아날로그 스펙트럼은 조류 울음소리 연구 등 광범위한 분야에 적용되었으며, 현재의 연구는 최신 디지털[9] 장비를 사용하여 계속되었으며 모든 동물 소리에 적용되었다.디지털 스펙트로그램의 현대적 사용은 동물 울음소리에서의 주파수 변조(FM) 연구에 특히 유용합니다.특히, FM 채프, 광대역 클릭, 사회적 화합의 구별되는 특성은 스펙트로그램으로 가장 쉽게 시각화된다.
  • 스펙트로그램은 언어결핍을 극복하고 심각한 청각장애인[10] 위한 언어훈련에 유용하다.
  • 음성학음성 합성 연구는 스펙트럼을 [11][12]사용하여 종종 촉진된다.
  • 딥 러닝 베이스의 음성 합성에서는, 우선 seq2seq 모델에 의해서 스펙트로그램(또는스케일의 스펙트로그램)이 예측되고, 그 후 합성된 원시 파형을 도출하기 위해서 뉴럴 보코더에 스펙트로그램이 공급된다.
  • 스펙트로그램 생성 처리를 반전시킴으로써 스펙트로그램이 임의의 화상인 신호를 생성할 수 있다.이 기술은 오디오 한 조각에 있는 그림을 숨기기 위해 사용할 수 있으며 여러 전자 음악 [13]아티스트에 의해 사용되어 왔습니다.스테가노그래피를 참조해 주세요.
  • 일부 현대 음악은 스펙트럼을 매개체로 하여 만들어지는데, 시간이 지남에 따라 다른 주파수의 강도를 바꾸거나 심지어 그것들을 그리고 역변환함으로써 새로운 주파수를 만들어 낸다.「오디오 타임 스케일」수정과 「Phase Vocoder」를 참조해 주세요.
  • 스펙트로그램은 [14]테스트 신호의 성능을 확인하기 위해 필터 등의 신호 프로세서를 통과하는 결과를 분석하기 위해 사용할 수 있습니다.
  • 고화질 스펙트럼 프로그램은 RF 및 마이크로파[15] 시스템 개발에 사용됩니다.
  • 이제 스펙트로그램은[16] 벡터 네트워크 분석기로 측정된 산란 파라미터를 표시하는 데 사용됩니다.
  • 미국 지질조사국IRIS 컨소시엄지진[17][18] 관측소를 감시하기 위해 거의 실시간 스펙트럼 디스플레이를 제공한다.
  • 스펙트럼은 음성 [19]인식을 위해 반복 신경망과 함께 사용될 수 있다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ JL Flanagan, 음성 분석, 합성 및 인식, 뉴욕, 스프링거-벨락, 1972년, 1972년
  2. ^ Sejdic, E.; Djurovic, I.; Stankovic, L. (August 2008). "Quantitative Performance Analysis of Scalogram as Instantaneous Frequency Estimator". IEEE Transactions on Signal Processing. 56 (8): 3837–3845. Bibcode:2008ITSP...56.3837S. doi:10.1109/TSP.2008.924856. ISSN 1053-587X. S2CID 16396084.
  3. ^ "Spectrograph". www.sfu.ca. Retrieved 7 April 2018.
  4. ^ "Spectrograms". ccrma.stanford.edu. Retrieved 7 April 2018.
  5. ^ "STFT Spectrograms VI – NI LabVIEW 8.6 Help". zone.ni.com. Retrieved 7 April 2018.
  6. ^ "The Analysis & Resynthesis Sound Spectrograph". arss.sourceforge.net. Retrieved 7 April 2018.
  7. ^ Boashash, B. (1992). "Estimating and interpreting the instantaneous frequency of a signal. I. Fundamentals". Proceedings of the IEEE. Institute of Electrical and Electronics Engineers (IEEE). 80 (4): 520–538. doi:10.1109/5.135376. ISSN 0018-9219.
  8. ^ http://fourier.eng.hmc.edu/e161/lectures/fourier/node2.html
  9. ^ "BIRD SONGS AND CALLS WITH SPECTROGRAMS ( SONOGRAMS ) OF SOUTHERN TUSCANY ( Toscana – Italy )". www.birdsongs.it. Retrieved 7 April 2018.
  10. ^ Saunders, Frank A.; Hill, William A.; Franklin, Barbara (1 December 1981). "A wearable tactile sensory aid for profoundly deaf children". Journal of Medical Systems. 5 (4): 265–270. doi:10.1007/BF02222144. PMID 7320662. S2CID 26620843.
  11. ^ "Spectrogram Reading". ogi.edu. Archived from the original on 27 April 1999. Retrieved 7 April 2018.
  12. ^ "Praat: doing Phonetics by Computer". www.fon.hum.uva.nl. Retrieved 7 April 2018.
  13. ^ "The Aphex Face – bastwood". www.bastwood.com. Retrieved 7 April 2018.
  14. ^ "SRC Comparisons". src.infinitewave.ca. Retrieved 7 April 2018.
  15. ^ "constantwave.com – constantwave Resources and Information". www.constantwave.com. Retrieved 7 April 2018.
  16. ^ "Spectrograms for vector network analyzers". Archived from the original on 2012-08-10.
  17. ^ "Real-time Spectrogram Displays". earthquake.usgs.gov. Retrieved 7 April 2018.
  18. ^ "IRIS: MUSTANG: Noise-Spectrogram: Docs: v. 1: Help".
  19. ^ Geitgey, Adam (2016-12-24). "Machine Learning is Fun Part 6: How to do Speech Recognition with Deep Learning". Medium. Retrieved 2018-03-21.

외부 링크