스피커 인식
Speaker recognition화자 인식은 [1]목소리의 특성으로 사람을 식별하는 것입니다.'누구세요?'라는 질문에 대답할 때 사용합니다.음성[2][3][4][5][6] 인식이라는 용어는 화자 인식 또는 음성 인식을 나타낼 수 있습니다.스피커 검증(스피커 인증이라고도 함)은 식별과 대조되며 스피커 인식은 스피커 식별(같은 스피커가 말하고 있을 때 인식)과는 다릅니다.
스피커를 인식하면 특정 음성에 대해 훈련을 받은 시스템에서 음성 번역 작업을 단순화할 수 있습니다.또, 보안 프로세스의 일부로서 스피커의 ID를 인증 또는 검증하기 위해서도 사용할 수 있습니다.화자 인식은 2019년 현재 약 40년 전으로 거슬러 올라가는 역사를 가지고 있으며, 사람마다 다른 것으로 밝혀진 음성의 특징을 사용한다.이러한 음향 패턴은 해부학적 패턴과 학습된 행동 패턴을 모두 반영합니다.
검증과 식별
스피커 인식 기술과 방법론에는 크게 두 가지 응용 분야가 있다.화자가 특정 아이덴티티임을 주장하고 음성이 이 주장을 검증하기 위해 사용되는 경우 이를 검증 또는 인증이라고 합니다.반면에, 신원 확인은 알려지지 않은 화자의 신원을 확인하는 작업이다.어떤 의미에서 스피커 검증은 1:1의 일치로, 1개의 스피커의 음성이 특정 템플릿과 일치하고 있는 반면 스피커 식별은 음성이 여러 템플릿과 비교되는 1:1의 일치입니다.
보안의 관점에서 식별은 검증과 다릅니다.스피커 검증은, 시큐어인 시스템에의 액세스를 제공하기 위해서, 통상은 「게이트키퍼」로서 채용됩니다.이러한 시스템은 사용자의 지식으로 작동하며 일반적으로 사용자의 협조가 필요합니다.화자식별시스템은사용자가모르게실현하여토론중의발화자를확인하거나발화자변경자동시스템에경고하거나사용자가이미시스템에등록되어있는지확인하거나하는등비밀적으로실현할수있습니다.
법의학 어플리케이션에서는 먼저 스피커 식별 프로세스를 실행하여 "최적의 일치" 목록을 작성한 후 일련의 검증 프로세스를 수행하여 최종 일치를 판별하는 것이 일반적입니다.스피커의 샘플과 베스트 매치 리스트를 대조하는 것은, 유사점이나 차이점의 양에 근거해 같은 사람인지 아닌지를 판별하는 데 도움이 됩니다.검찰과 피고측은 이를 증거로 삼아 피의자가 실제 [7]범인인지 여부를 판단하고 있다.
트레이닝
상용화 된 가장 이른 훈련 기술 중 하나는 Worlds of Wonder의 1987년 Julie 인형에 구현되었다.그 시점에서는 스피커의 독립성은 의도된 돌파구였으며, 시스템에는 훈련 기간이 필요했습니다.1987년 이 인형의 광고에는 "드디어, 당신을 이해하는 인형"이라는 태그라인이 붙어 있었다. 비록 그것이 "아이들이 그들의 목소리에 [8]반응하도록 훈련시킬 수 있는 제품"이라고 묘사되었음에도 불구하고 말이다.음성 인식이라는 용어는 심지어 10년 후에도 화자의 [9][clarification needed]독립성을 의미했습니다.
스피커 인식의 변종
각 스피커 인식 시스템은 등록과 검증의 두 단계로 구성됩니다.등록 중에는 화자의 음성이 녹음되어 일반적으로 많은 기능이 추출되어 음성 프린트, 템플릿 또는 모델을 형성합니다.검증 단계에서는, 음성 샘플 또는 「유틸리티」를, 미리 작성된 음성 인쇄와 비교한다.식별시스템에서는 최적의 일치를 결정하기 위해 발화를 복수의 음성프린트와 비교하고 검증시스템은 발화를 단일 음성프린트와 비교한다.관련된 프로세스로 인해 확인은 식별보다 빠릅니다.
스피커 인식 시스템은 텍스트 의존과 텍스트 [10]의존의 두 가지 범주로 나뉩니다.텍스트 의존 인식을 위해서는 등록과 [11]검증 모두에서 텍스트가 동일해야 합니다.텍스트 의존형 시스템에서는 프롬프트가 모든 스피커에서 공통(예를 들어 공통 패스 프레이즈)이거나 고유할 수 있습니다.또한 공유 비밀(패스워드나 PIN 등) 또는 지식 기반 정보를 사용하여 멀티팩터 인증 시나리오를 작성할 수 있습니다.반대로 텍스트에 의존하지 않는 시스템에서는 특정 텍스트를 사용할 필요가 없습니다.화자의 협조가 거의 필요하지 않기 때문에 화자의 식별에 가장 많이 사용됩니다.이 경우 등록 시 텍스트와 테스트 시 텍스트가 다릅니다.실제로 등록은 많은 법의학 어플리케이션의 경우와 마찬가지로 사용자 모르게 이루어질 수 있습니다.텍스트에 의존하지 않는 테크놀로지는, 등록과 검증시에 말한 것을 비교하지 않기 때문에, 검증 애플리케이션도,[citation needed] 유저가 인증시에 말하고 있는 것을 판단하기 위해서 음성 인식을 채용하는 경향이 있습니다.텍스트 독립 시스템에서는 음향 및 음성 분석 기법이 모두 사용됩니다.[12]
테크놀로지
스피커 인식은 패턴 인식의 문제입니다.음성 프린트를 처리하고 저장하는 데 사용되는 다양한 기술은 주파수 추정, 숨겨진 마르코프 모델, 가우스 혼합 모델, 패턴 매칭 알고리즘, 신경 네트워크, 매트릭스 표현, 벡터 양자화 및 결정 트리를 포함합니다.발화와 음성 프린트를 비교하기 위해, 코사인 유사성과 같은 보다 기본적인 방법이 전통적으로 그 단순성과 성능을 위해 사용됩니다.또한 일부 시스템은 코호트 모델 및 세계 모델과 같은 "반스피커" 기술을 사용한다.스펙트럼 특성은 주로 화자의 [13]특성을 나타내는 데 사용됩니다.LPC(Linear Predictive Coding)는 화자 인식 및 음성 [citation needed]검증에 사용되는 음성 부호화 방법입니다.
주변 소음 수준은 초기 음성 샘플과 후속 음성 샘플의 수집을 모두 방해할 수 있습니다.노이즈 저감 알고리즘을 사용하여 정확도를 향상시킬 수 있지만, 잘못 적용하면 역효과가 발생할 수 있습니다.퍼포먼스 저하는, 음성의 동작 속성의 변경이나, 1대의 전화기를 사용한 등록과 다른 전화기의 검증에 의해서 발생할 가능성이 있습니다.2 요소 인증 제품과의 통합이 증가할 것으로 예상됩니다.에이징에 따른 음성 변화는 시간이 지남에 따라 시스템 성능에 영향을 줄 수 있습니다.자동 적응에[citation needed] 의해 부과되는 전반적인 보안 영향에 대해서는 논란이 있지만, 검증이 성공할 때마다 스피커 모델을 채택하여 음성의 장기적인 변화를 포착합니다.
법적 영향
유럽연합의 일반 데이터 보호 규정 및 미국의 캘리포니아 소비자 개인 정보 보호법과 같은 법률의 도입으로 인해 직장에서 스피커 인식을 사용하는 것에 대한 많은 논의가 있었다.2019년 9월 아일랜드 음성 인식 개발자 Soapbox Labs는 관련될 [14]수 있는 법적 영향에 대해 경고했다.
적용들
최초의 국제 특허는 1983년 최종 고객에 대한 미래 통신 서비스 및 네트워크 전체의 소음 감소 기술을 개선하기 위한 기초로서 Michele Cavazza와 Alberto Ciaramella의 CSELT[15](이탈리아) 통신 연구에서 나왔다.
1996년과 1998년 사이 스코베이-코로나치 국경 교차로에서 화자 인식 기술을 사용하여 등록된 지역 주민들이 캐나다를 횡단할 수 있도록 했다.미국 국경은 검사소가 밤 동안 [16]폐쇄되었을 때였다.이 시스템은 [citation needed]미국 이민귀화국을 위해 미시간주 워렌의 음성전략에 의해 개발되었다.
2013년 5월, Barclays Wealth는 수동 스피커 인식을 사용하여 정상 대화 [17]후 30초 이내에 전화 고객의 신원을 확인할 것이라고 발표했습니다.사용된 시스템은 음성 인식 회사 Nuance가 개발했습니다(2011년에 CSELT 자체에서 음성 기술 부문으로 분사한 회사 Loquendo를 인수했습니다). 이 회사는 애플의 Siri 기술을 지원하는 회사입니다.검증된 음성 프린트를 사용하여 시스템에 대한 발신자를 식별해야 하며, 향후 시스템은 회사 전체에 전개될 예정입니다.
바클레이즈의 프라이빗 뱅킹 부문은 콜센터에 고객을 인증하기 위한 주요 수단으로 음성 바이오메트릭스를 도입한 최초의 금융 서비스 회사입니다.93%의 고객이 속도, 사용 편의성 및 [18]보안에 대해 10점 만점에 9점이라고 평가했습니다.
화자 인식은, 특히 James Foley와 Steven Sotloff의 [19]2014년 사형 집행과 같은 범죄 수사에도 사용될 수 있습니다.
2016년 2월 영국의 하이스트리트 은행 HSBC와 인터넷 기반의 소매 은행 First Direct는 지문이나 [20]음성을 사용하여 온라인 및 전화 계정에 액세스할 수 있는 바이오메트릭 뱅킹 소프트웨어를 1,500만 고객에게 제공한다고 발표했습니다.
「 」를 참조해 주세요.
- 리스트
메모들
- ^ Poddar, Arnab; Sahidullah, Md; Saha, Goutam (March 2018). "Speaker Verification with Short Utterances: A Review of Challenges, Trends and Opportunities". IET Biometrics. 7 (2): 91–101. doi:10.1049/iet-bmt.2017.0065.
- ^ Pollack, Pickett, Sumby (1974). Experimental phonetics. MSS Information Corporation. pp. 251–258. ISBN 978-0-8422-5149-5.
{{cite book}}
: CS1 maint: 여러 이름: 작성자 목록(링크) - ^ Van Lancker and Kreiman (July 3, 1984). "Familiar voice recognition: Patterns and parameters. Part I: Recognition of backward voices" (PDF). Journal of Phonetics. pp. 19–38. Retrieved February 21, 2012.
- ^ "British English definition of voice recognition". Macmillan Publishers Limited. Retrieved February 21, 2012.
- ^ "voice recognition, definition of". WebFinance, Inc. Retrieved February 21, 2012.
- ^ "Linux Gazette 114". Linux Gazette. Retrieved February 21, 2012.
- ^ Rose, Phil; Osanai, Takashi; Kinoshita, Yuko (December 2003). "Strength of forensic speaker identification evidence: multispeaker formant- and cepstrum-based segmental discrimination with a Bayesian likelihood ratio as threshold". International Journal of Speech, Language and the Law. 10 (2): 179–202. doi:10.1558/sll.2003.10.2.179. ISSN 1350-1771.
- ^ Melanie Pinola (November 2, 2011). "Speech Recognition Through the Decades: How We Ended Up With Siri". PC World.
- ^ "Voice Recognition To Ease Travel Bookings: Business Travel News". BusinessTravelNews.com. March 3, 1997.
The earliest applications of speech recognition software were dictation ... Four months ago, IBM introduced a "continual dictation product" designed to ... debuted at the National Business Travel Association trade show in 1994.
- ^ "Speaker Verification: Text-Dependent vs. Text-Independent". microsoft.com. August 20, 2006.
text-dependent and text-independent speaker .. both equal error rate and detection ..
- ^ M. Hebert (2008). "Text-Dependent Speaker Recognition". Springer Handbook of Speech Processing. Springer Handbooks. pp. 743–762. doi:10.1007/978-3-540-49127-9_37. ISBN 978-3-540-49125-5.
task .. verification or identification
- ^ Lisa Myers (April 19, 2004). "An Exploration of Voice Biometrics".
- ^ Sahidullah, Md.; Kinnunen, Tomi (March 2016). "Local spectral variability features for speaker verification". Digital Signal Processing. 50: 1–11. doi:10.1016/j.dsp.2015.10.011.
- ^ "Speech recognition expert raises concerns around voice technology in the workplace". Independent.ie. Retrieved September 30, 2019.
- ^ US4752958 A, Michele Cavazza, Alberto Ciaramella, "스피커 검증용 디바이스" http://www.google.com/patents/US4752958?hl=it&cl=en
- ^ Meyer, Barb (June 12, 1996). "Automated Border Crossing". Television news report. Meyer Television News.
- ^ International Banking (December 27, 2013). "Voice Biometric Technology in Banking Barclays". Wealth.barclays.com. Retrieved February 21, 2016.
- ^ Matt Warman (May 8, 2013). "Say goodbye to the pin: voice recognition takes over at Barclays Wealth". Retrieved June 5, 2013.
- ^ Ewen MacAskill. "Did 'Jihadi John' kill Steven Sotloff? Media". The Guardian. Retrieved February 21, 2016.
- ^ Julia Kollewe (February 19, 2016). "HSBC rolls out voice and touch ID security for bank customers Business". The Guardian. Retrieved February 21, 2016.
레퍼런스
- Homayoon Beigi (2011), "스피커 인식의 기초", 스프링거-벨라그, 2011, ISBN 978-0-387-77591-3.
- "영화에서 본 바이오메트릭스" – 미국 국립표준기술연구소
- 엘리자베스 제터홀름(2003), 목소리 흉내. 지각착시 및 음향성공의 음성학적 연구, 박사논문, Lund University.
- Md Sahidullah(2015), 블록 레벨, 서브밴드 에너지의 상대 및 시간 정보를 사용한 스피커 인식 성능 향상, 박사 논문, 인도 공과대학 Kararagpur.
외부 링크
- 음성 인증 회피 PLA 라디오 팟캐스트는 최근 기본적인 음성 인증 시스템을 속이는 간단한 방법을 특징으로 했습니다.
- 스피커 인식– Scholarpedia
- 음성 인식의 이점과 액세스 제어에 관한 과제