컴퓨터 오디션

Computer audition

컴퓨터 오디션(CA)[1][2]이나 기계청취는 기계에 의한 오디오 이해를 위한 알고리즘과 시스템의 일반적인 연구 분야다.기계가 "hear"하는 것이 무엇을 의미하는지에 대한 개념은 매우 광범위하고 다소 모호하기 때문에, 컴퓨터 오디션은 원래 특정한 문제를 다루었거나 구체적인 응용을 염두에 둔 여러 분야를 한데 모으려고 시도한다.테크놀로지 리뷰에서 인터뷰한 엔지니어 Paris Smaragdis는 "소리를 사용하여 방을 이동하는 사람들을 찾아내고, 곧 다가올 고장을 위해 기계를 모니터하거나, 교통 카메라를 작동시켜 사고를 기록하는 소프트웨어"[3]에 대해 이야기한다.

인간 오디션의 모델에서 영감을 받은 CA는 컴퓨터의 오디오와 음악 신호에 대한 지능적인 작업을 수행하기 위해 표현, 전달, 그룹화, 음악 지식의 사용, 일반적인 소리 의미론 등의 질문을 다룬다.기술적으로 이것은 신호 처리, 청각 모델링, 음악 인식 및 인식, 패턴 인식, 기계 학습 등의 분야에서 나온 방법들과 더불어 음악적 지식 표현을 위한 더 전통적인 인공지능 방법이 필요하다.[4][5]null

적용들

컴퓨터 비전 대 이미지 프로세싱처럼 컴퓨터 오디션 대 오디오 엔지니어링은 프로세싱보다 오디오에 대한 이해를 다룬다.또한 자연음향, 음악 녹음 등 일반적인 오디오 신호를 다루기 때문에 기계에 의한 음성 이해의 문제점과도 다르다.null

컴퓨터 오디션의 적용은 매우 다양하며, 사운드 검색, 장르 인식, 음향 모니터링, 음악 필사, 점수 추적, 오디오 텍스처, 음악 즉흥 연주, 오디오에서의 감정 등이 포함된다.null

관련 분야

컴퓨터 오디션은 다음과 같은 분야와 중복된다.

  • 음악 정보 검색: 음악 신호 간의 유사성을 검색하고 분석하는 방법.
  • 청각적 장면 분석: 오디오 소스 및 이벤트에 대한 이해 및 설명.
  • 기계 청취: 오디오 신호에서 청각적 의미 매개변수를 추출하는 방법.
  • 계산 음악학 및 수학적 음악 이론: 음악 데이터의 분석을 위해 음악적 지식을 채택하는 알고리즘의 사용.
  • 컴퓨터 음악: 창의적인 음악 어플리케이션에서 컴퓨터를 사용하는 것.
  • 머신 뮤지션: 오디션 중심의 인터랙티브 음악 시스템.

연구 영역

오디오 신호는 인간의 귀-뇌 시스템에 의해 해석되기 때문에, 그 복잡한 지각 메커니즘은 "기계 청취"를 위한 소프트웨어에서 어떻게든 시뮬레이션되어야 한다.즉 인간과 동등한 성능을 발휘하기 위해서는 컴퓨터가 인간이 하는 것처럼 오디오 콘텐츠를 많이 듣고 이해해야 한다는 것이다.오디오 분석 정확하게 여러 분야:전기 공학(스펙트럼 분석, 필터링, 그리고 음성 변환), 인공 지능(기계와 건전한 분류 학습)을 포함한다.;[6]음향 심리학, 인지 과학과(신경 과학과 인공 지능)(건전한 인식).;[7]음향학, 그리고 음악((소리 생산의 물리학).조화, 리듬, 음색).게다가, 피치 시프트, 시간 스트레칭, 사운드 오브젝트 필터링과 같은 오디오 변환은 지각적으로 그리고 음악적으로 의미가 있어야 한다.최상의 결과를 위해 이러한 변환은 스펙트럼 모델의 지각 이해, 고수준 특성 추출 및 음향 분석/합성성을 필요로 한다.마지막으로, 오디오 파일(사운드 및 메타데이터)의 콘텐츠를 구조화하고 코딩하는 것은 음향에서 들리지 않는 정보를 버리는 효율적인 압축 방식으로부터 이익을 얻을 수 있다.[8]음악, 소리 인식 및 인식의 컴퓨터 모델은 보다 의미 있는 표현, 보다 직관적인 디지털 조작 및 음악 인간-기계 인터페이스에서의 소리 및 음악의 발생으로 이어질 수 있다.null

CA에 대한 연구는 대략 다음과 같은 하위 문제로 나눌 수 있다.

  1. 표현: 신호 및 기호이 측면은 패턴 재생과 오디오 질감을 포함한 노트 및 스펙트럼 모델 측면에서 시간 빈도 표현을 다룬다.
  2. 특징 추출: 소리 설명자, 분할, 시작, 피치봉투 탐지, 크로마 및 청각 표현.
  3. 음악 지식 구조: , 리듬, 하모니의 분석.
  4. 소리 유사성: 소리, 소리 식별, 새로움 감지, 세분화 및 군집화 비교 방법.
  5. 시퀀스 모델링: 신호와 노트 시퀀스 간의 일치 및 정렬.
  6. 소스 분리: 다중 피치 검출 및 시간 주파수 클러스터링 방법 등 동시 소리를 그룹화하는 방법.
  7. 청각적 인식: 감정의 모델링, 기대와 친숙함, 청각적 놀라움, 음악적 구조의 분석.
  8. 다중 모드 분석: 텍스트, 시각 및 오디오 신호 간의 대응 찾기

표현 문제

컴퓨터 오디션은 디지털 오디오를 2개 이상의 채널로 직접 인코딩하는 것부터 상징적으로 표현되는 합성지시에 이르기까지 다양한 패션으로 표현할 수 있는 오디오 신호를 다룬다.오디오 신호는 일반적으로 아날로그 또는 디지털 녹음의 관점에서 표현된다.디지털 녹음은 음향 파형의 샘플 또는 오디오 압축 알고리즘의 파라미터다.음악 신호의 고유한 특성 중 하나는 MIDI 파일로 인코딩되는 성능 동작의 그래픽 점수 및 시퀀스 등 서로 다른 유형의 표현을 결합하는 경우가 많다는 것이다.null

오디오 신호는 보통 여러 음원을 구성하기 때문에 특정 모델(소스 필터 모델 등)의 관점에서 효율적으로 설명할 수 있는 음성 신호와는 달리 일반 오디오에 대한 파라메트릭 표현을 고안하는 것은 어렵다.파라메트릭 오디오 표현은 일반적으로 필터 뱅크 또는 사인파 모델을 사용하여 여러 소리 파라미터를 캡처하고, 때로는 신호의 내부 구조를 캡처하기 위해 표현 크기를 증가시킨다.컴퓨터 오디션과 관련 있는 추가 데이터 유형으로는 시청각 녹음의 경우 주석, 리뷰, 영상 정보 등 시청각 콘텐츠의 텍스트 설명이 있다.null

특징들

일반 오디오 신호의 내용을 설명하려면 일반적으로 오디오 신호의 특정 측면을 캡처하는 형상의 추출을 필요로 한다.일반적으로 말해서, 특징을 에너지와 같은 신호나 수학적인 설명자, 스펙트럼 형상의 설명자, 변화나 참신성 검출과 같은 통계적 특성화, 음악 신호의 성질이나 청각 시스템에 더 잘 적응된 특수 표현, 감성의 로그 성장과 같은 청각적 표현으로 나눌 수 있다.빈도 또는 옥타브 불변(iancea)의 Ivity (bandwidth)null

오디오의 파라메트릭 모델은 일반적으로 매우 많은 파라미터를 요구하기 때문에, 형상은 여러 파라미터의 속성을 보다 간결하거나 두드러지게 표현하기 위해 사용된다.null

음악적 지식

특정한 음악 구조를 찾는 것은 음악적 지식뿐만 아니라 감독되고 감독되지 않은 기계 학습 방법을 사용함으로써 가능하다.이러한 예로는 음계의 발생 패턴에 해당하는 주파수 분포에 따른 톤율 검출, 비트 구조 탐지를 위한 노트 시작 시간 분포, 음악적 화음을 감지하기 위한 다른 주파수에서의 에너지 분포 등이 있다.null

음향 유사성 및 시퀀스 모델링

소리의 비교는 시간의 유무와 유무에 따라 형상의 비교를 통해 할 수 있다.어떤 경우에 전체적인 유사성은 두 소리 사이의 특징 값에 의해 평가될 수 있다.시간적 구조가 중요한 다른 경우, 동적 시간 뒤틀림 방법을 음향 사건의 다른 시간적 척도에 대해 "수정"에 적용할 필요가 있다.소닉 이벤트의 반복과 유사한 하위 시퀀스를 찾는 것은 텍스처 합성과 기계 즉흥성과 같은 작업에 중요하다.null

원천분리

일반 오디오의 기본 특징 중 하나는 여러 악기, 사람 말하는 소리, 기계 소음 또는 동물 발성 등 여러 음향원을 동시에 구성하는 것이므로 개별 소스를 식별하고 분리하는 능력은 매우 바람직하다.불행하게도 이 문제를 튼튼하게 해결할 수 있는 방법은 없다.기존의 소스 분리 방법은 때때로 다중 채널 녹음에서 서로 다른 오디오 채널 간의 상관관계에 의존한다.스테레오 신호로부터 소스를 분리하는 능력은 다수의 센서를 사용할 수 있는 통신에 일반적으로 적용되는 기법과는 다른 기법을 필요로 한다.다른 소스 분리 방법은 다중 피치 검출에 대해 조화롭게 관련된 부분 추적과 같이 모노 레코딩에서 형상의 훈련이나 클러스터링에 의존한다.명시적 인식 이전에 일부 방법은 몇 가지 톤 패턴과 그 궤적에 의해 생성되는 오디오 장면을 기술하는 것과 같이 가장 복잡한 데이터 표현을 찾아내어 구조를 알지 못한 채(예: 의미 있는 라벨을 탓하지 않고 추상적인 그림으로 사물을 인식하는 것) 데이터 구조를 노출하는 것에 의존한다.(음향 음성) 및 톤(음향)에 의해 그려진 음향 등고선.[9]null

청각 인식

음악이나 일반 오디오를 듣는 것은 일반적으로 업무 지시 활동이 아니다.사람들은 이해되지 않는 여러 가지 이유로 음악을 즐긴다. 이는 일반적으로 기대의 창조와 그들의 깨달음이나 위반으로 인한 음악의 정서적 효과를 가리킨다.동물들은 소리에서 위험의 징후를 관찰하는데, 이것은 놀랍고 예상치 못한 변화에 대한 특정한 혹은 일반적인 관념일 수 있다.일반적으로 이것은 컴퓨터 오디션이 특정한 특징이나 음성의 검출에만 의존할 수 없는 상황을 만들고 변화하는 청각 환경에 적응하고 그 구조를 감시하는 일반적인 방법을 고안해야 한다.이것은 혁신을 감지하기 위한 오디오의 더 큰 반복과 자기 유사성 구조에 대한 분석뿐만 아니라 국소적 특징 역학을 예측하는 능력으로 구성된다.null

다중모드분석

음악을 기술하는 데 이용 가능한 데이터 중에는 라이너 노트, 리뷰, 비평 등 오디오 콘텐츠를 단어로 기술하는 텍스트 표현이 있다.다른 경우에, 감정적 판단이나 정신 생리학적 측정과 같은 인간의 반응은 오디오의 내용과 구조에 대한 통찰력을 제공할 수 있다.컴퓨터 오디션은 오디오 콘텐츠에 대한 추가적인 이해를 제공하기 위해 이러한 다른 표현들 사이의 관계를 찾으려고 노력한다.null

참고 항목

외부 링크

참조

  1. ^ "Machine Audition: Principles, Algorithms and Systems".
  2. ^ "Machine Audition: Principles, Algorithms and Systems" (PDF).
  3. ^ Paris Smaragdis는 컴퓨터들에게 좀 더 실물과 같은 음악을 연주하는 법을 가르쳤다.
  4. ^ Tanguiane (Tangian), Andranick (1993). Artificial Perception and Music Recognition. Lecture Notes in Artificial Intelligence. Vol. 746. Berlin-Heidelberg: Springer. ISBN 978-3-540-57394-4.
  5. ^ Tanguiane (Tanguiane), Andranick (1994). "A principle of correlativity of perception and its application to music recognition". Music Perception. 11 (4): 465–502. doi:10.2307/40285634.
  6. ^ Kelly, Daniel; Caulfield, Brian (Feb 2015). "Pervasive Sound Sensing: A Weakly Supervised Training Approach". IEEE Transactions on Cybernetics. 46 (1): 123–135. doi:10.1109/TCYB.2015.2396291. hdl:10197/6853. PMID 25675471.
  7. ^ 헨드릭 푸르윈스, 퍼펙토 에레라, 마아텐 그라히텐, 아마우리 하잔, 리카드 마르크스르, 자비에 세라.음악 인식 및 인식의 컴퓨터 모델 I: 지각 및 인지 처리 체인.생명물리학, 제5권 제3호, 페이지 151-168, 2008.[1]
  8. ^ MIT의 컴퓨터 듣기 과정 웹 페이지
  9. ^ Tanguiane (Tangian), Andranick (1995). "Towards axiomatization of music perception". Journal of New Music Research. 24 (3): 247–281. doi:10.1080/09298219508570685.