음성 컴퓨팅

Voice computing
음성 컴퓨터의 예인 아마존 에코

음성 컴퓨팅은 음성 입력을 처리하는 하드웨어나 소프트웨어를 개발하는 학문이다.[1]

그것은 인간과 컴퓨터의 상호작용, 대화 컴퓨팅, 언어학, 자연 언어 처리, 자동 음성 인식, 음성 합성, 오디오 엔지니어링, 디지털 신호 처리, 클라우드 컴퓨팅, 데이터 과학, 윤리, 법률, 정보 보안을 포함한 많은 다른 분야에 걸쳐 있다.

음성 컴퓨팅은 특히 아마존 에코나 구글 어시스턴트와 같은 스마트 스피커의 출현, 서버 없는 컴퓨팅으로의 전환, 음성 인식과 텍스트 음성 변환 모델의 정확성 향상과 함께 현대에 있어서 점점 더 중요해졌다.

역사

음성 컴퓨팅은 풍부한 역사를 가지고 있다.[2]먼저 볼프강 켐펠렌과 같은 과학자들은 가장 초기 합성 음성 소리를 생산하기 위해 음성 기계를 만들기 시작했다.이것은 토마스 에디슨이 받아쓰기 기계로 오디오를 녹음하고 그것을 기업 환경에서 재생하는 일을 더 많이 하게 했다.1950년대~1960년대에는 벨랩스, IBM 등의 자동 음성인식 시스템을 구축하려는 원시적인 시도가 있었다.그러나, 1980년대에 이르러서야 히든 마르코프 모델을 사용하여 최대 1,000개의 단어를 인식하게 되었고, 음성 인식 시스템은 관련성을 갖게 되었다.

날짜 이벤트
1784 볼프강켐펠렌은 음향 기계식 음성 기계를 만든다.
1879 토마스 에디슨은 최초의 받아쓰기 기계를 발명한다.
1952 벨랩스는 90% 정확도로 구어수를 인식할 수 있는 오드리를 방출한다.
1962 IBM Shoebox는 최대 16개의 단어를 인식할 수 있다.
1971 1,000개 이상의 단어를 이해할 수 있는 하피가 만들어진다.
1986 IBM Tangora는 Hidden Markov Models를 사용하여 음성에서 음소를 예측한다.
2006 국가안전보위부는 정상적인 대화 중에 핫워드 검출에 관한 연구를 시작한다.
2008 구글은 음성 응용 프로그램을 시작하고, 모바일 기기에 음성 인식을 가져다 준다.
2011 애플 아이폰에 시리 출시
2014 아마존아마존 에코를 출시해 음성 컴퓨팅을 대중에게 널리 보급한다.

2011년경, 시리는 애플 아이폰에서 소비자가 접근할 수 있는 최초의 음성 비서로 등장했다.이러한 혁신은 음성 우선 컴퓨팅 아키텍처를 구축하는 데 극적인 변화를 가져왔다.PS4는 북미 소니가 2013년 출시(7000만대 이상 기기), 아마존이 2014년 아마존 에코(3000만대 이상 기기), 마이크로소프트가 코르타나(2015~4억 윈도10 사용자), 구글 어시스턴트(2016~20억 안드로이드폰 월간 활성 사용자), 애플홈팟(2018~50만대 판매)을 출시했다.그리고 iOS/Siri로 활성 상태인 10억 개의 장치.이러한 변화는 클라우드 인프라(예: Amazon Web Services) 및 코덱의 발전과 함께 음성 컴퓨팅 분야를 공고히 하고 대중에게 광범위하게 관련되게 만들었다.

하드웨어

음성 컴퓨터는 음성 입력을 처리하기 위해 조립된 하드웨어와 소프트웨어다.

음성 컴퓨터는 전통적인 Amazon Echo와 같이 화면이 반드시 필요한 것은 아니다.다른 구현에서는 기존의 노트북 컴퓨터휴대폰을 음성 컴퓨터로 사용할 수 있다.게다가, 자동차나 텔레비전과 같은 IoT 지원 장치의 출현과 함께 음성 컴퓨터를 위한 인터페이스가 점점 더 많아지고 있다.

2018년 9월 현재 아마존 알렉사와 호환되는 기기는 2만종이 넘는다.[3]

소프트웨어

음성 컴퓨팅 소프트웨어는 음성 파일을 읽기/쓰기, 기록, 청소, 암호화/암호 해독, 재생, 트랜스코드, 변환, 압축, 출판, 위궤도화, 모델링 및 시각화할 수 있다.

다음은 음성 컴퓨팅과 관련된 인기 있는 소프트웨어 패키지:

패키지 이름 설명
FFmpeg 한 형식에서 다른 형식으로 오디오 파일을 변환하는 경우(예:WAV --> .MP3).[4]
대담성 오디오 녹음 및 필터링용.[5]
SoX 오디오 파일 조작 및 환경 노이즈 제거.[6]
내추럴 랭귀지 툴킷 언어의 일부분 같은 것으로 녹음된 내용을 교묘히 작성하기 위해서.[7]
리브로사 오디오 파일 분광 및 오디오 파일 기능 시각화.[8]
오픈SMile 멜-주파수 계수와 같은 것으로 오디오 파일을 위트있게 만드는 것.[9]
CMU 스핑크스 음성 파일을 텍스트로 변환하는 데 사용할 수식어 파일을 텍스트로 변환하기 위해.[10]
피츠x3 오디오 파일 재생([11]텍스트-투-터치)용
피크립토돔 오디오 파일 암호화 및 암호 해독용.[12]

적용들

음성 컴퓨팅 애플리케이션은 음성 비서, 헬스케어, e-Commerce, 금융, 공급망, 농업, 텍스트 음성 변환, 보안, 마케팅, 고객 지원, 모집, 클라우드 컴퓨팅, 마이크, 스피커 및 팟캐스팅을 포함한 많은 산업에 걸쳐 있다.음성 기술은 2025년까지 19~25%의 CAGR로 성장해 스타트업과 투자자에게 모두 매력적인 산업이 될 전망이다.[13]

법적 고려사항

미국에서, 주들은 다양한 전화 통화 기록 법을 가지고 있다.어떤 주에서는 오직 한 당사자의 동의로 대화를 녹음하는 것이 합법적이며, 다른 주에서는 모든 당사자의 동의가 필요하다.

게다가, COPA는 인터넷을 사용하는 미성년자들을 보호하기 위한 중요한 법률이다.음성 컴퓨팅 기기(예: 아마존 알렉사)와 상호작용하는 미성년자가 증가함에 따라, 2017년 10월 23일 연방 무역 위원회는 COPAA 규정을 완화하여 어린이들이 음성 검색과 명령을 내릴 수 있도록 하였다.[14][15]

마지막으로, GDPR잊혀질 권리와 EU 시민들을 위한 많은 다른 조항들을 지배하는 새로운 유럽의 법률이다.GDPR은 또한 기업들이 오디오 녹음이 만들어질 경우 동의를 얻기 위한 명확한 조치의 개요를 설명하고, 교육 목적과 범위를 규정할 필요가 있다는 것은 분명하다.GDPR에 따라 유효한 동의에 대한 기준이 제기되었다.동의는 자유자재로 주어지고, 구체적이고, 고지되고, 모호하지 않게 되어야 한다. 암묵적인 동의는 더 이상 충분하지 않다.[16]

연구회의

음성 컴퓨팅과 관련된 연구 회의가 많이 있다.이 중 일부는 다음과 같다.

개발자 커뮤니티

구글 어시스턴트는 2018년 1월 현재 약 2,000건의 조치를 취하고 있다.[21]

2018년 9월 현재 전세계적으로 5만 명 이상의 알렉사 기술이 있다.[22]

구글은 2017년 6월 유튜브 동영상에서 그린 10초짜리 인간 라벨 사운드 클립을 대규모로 모은 [23]'오디오셋'을 출시했다.여기에는 1,010,480개의 인간 음성 파일 동영상, 즉 총 2,793.5시간이 수록되어 있다.[24]IEEE ICASSP 2017 콘퍼런스의 일환으로 발매되었다.[25]

모질라 재단은 2017년 11월 대규모 오픈소스 머신러닝 커뮤니티에 기여하기 위해 음성 파일 모음인 '공통 음성 프로젝트'를 출시했다.[26][27]보이스뱅크는 현재 12GB 규모로 2017년 6월 사업 착수 이후 112개국에서 수집한 500시간 이상의 영어 음성 데이터가 저장돼 있다.[28]이 데이터 집합은 이미 오픈 소스 전사 모델인 DeepSpeech 모델과 같은 창조적인 프로젝트를 낳았다.[29]

참고 항목

참조

  1. ^ 슈워벨, J. (2018).Python의 음성 컴퓨팅 소개.보스턴; 시애틀, 애틀랜타:NeuroElex 연구소.https://neurolex.ai/voicebook
  2. ^ 음성 인식 시간 표시 막대.https://medium.com/swlh/the-past-present-and-future-of-speech-recognition-technology-cf13c179aaf
  3. ^ 보이스봇.AI. https://voicebot.ai/2018/09/02/amazon-alexa-now-has-50000-skills-worldwide-is-on-20000-devices-used-by-3500-brands/
  4. ^ FFmpeg. https://www.ffmpeg.org/
  5. ^ 대담성https://www.audacityteam.org/
  6. ^ SoX. http://sox.sourceforge.net/
  7. ^ NLTK. https://www.nltk.org/
  8. ^ LibROSA. https://librosa.github.io/librosa/
  9. ^ 오픈SMile. https://www.audeering.com/technology/opensmile/
  10. ^ "PocketSphinx is a lightweight speech recognition engine, specifically tuned for handheld and mobile devices, though it works equally well on the desktop: Cmusphinx/Pocketsphinx". GitHub. 29 March 2020.
  11. ^ 피츠x3https://github.com/nateshmbhat/pyttsx3
  12. ^ 피크립토돔https://pycryptodome.readthedocs.io/en/latest/
  13. ^ 비즈니스와이어.https://www.businesswire.com/news/home/20180417006122/en/Global-Speech-Voice-Recognition-Market-2018-Forecast
  14. ^ 테크크런치.https://techcrunch.com/2017/10/24/ftc-relaxes-coppa-rule-so-kids-can-issue-voice-searches-and-commands/
  15. ^ https://www.federalregister.gov/documents/2017/12/08/2017-26509/enforcement-policy-statement-regarding-the-applicability-of-the-coppa-rule-to-the-collection-and-use
  16. ^ IAPP. https://iapp.org/news/a/how-do-the-rules-on-audio-recording-change-under-the-gdpr/
  17. ^ 인터스피치 2018.http://interspeech2018.org/
  18. ^ AVEC 2018.http://avec2018.org/
  19. ^ 2018 FG. https://fg2018.cse.sc.edu/
  20. ^ ASCII 2019.http://acii-conf.org/2019/
  21. ^ Voicebot.ai.https://voicebot.ai/2018/01/24/google-assistant-app-total-reaches-nearly-2400-thats-not-real-number-really-1719/
  22. ^ Voicebot.ai.https://voicebot.ai/2018/09/02/amazon-alexa-now-has-50000-skills-worldwide-is-on-20000-devices-used-by-3500-brands/.
  23. ^ Google 오디오 세트.https://research.google.com/audioset/
  24. ^ 오디오 세트 데이터.https://research.google.com/audioset/dataset/speech.html
  25. ^ 젬메케, J. F., 엘리스, D. P, 프리드먼, D. 얀센, A, 로렌스, W. 무어, & 리터, M. (2017, 3월)오디오 세트:오디오 이벤트를 위한 온톨로지 및 인간 레이블 데이터 세트.음향, 음성 및 신호 처리(ICASSP), 2017 IEEE 국제 컨퍼런스 on (pp. 776-780)IEEE.
  26. ^ 일반 음성 프로젝트.https://voice.mozilla.org/
  27. ^ 일반 음성 프로젝트.https://blog.mozilla.org/blog/2017/11/29/announcing-the-initial-release-of-mozillas-open-source-speech-recognition-model-and-voice-dataset/
  28. ^ 모질라의 대규모 음성 데이터 저장소는 머신러닝의 미래를 형성할 것이다.https://opensource.com/article/18/4/common-voice
  29. ^ 딥스피치.https://github.com/mozilla/DeepSpeech