Whisper (음성인식 시스템)

Whisper (speech recognition system)
Whisper (음성인식 시스템)
원본 작성자오픈AI[1]
초기출시2022년9월21일
저장소https://github.com/openai/whisper
유형

위스퍼(Whisper)는 오픈(Open)에서 만든 음성 인식을 위한 약하게 지도되는 딥 러닝 음향 모델입니다.AI. 영어 등 여러 [2]언어로 번역이 가능합니다.이를 [1]위해 12만 5천 시간의 데이터를 학습한 결과, 영어 이외의 여러 언어를 영어로 번역할 수도 있습니다.[3]모델은 2022년 9월 오픈 소스 소프트웨어로 출시되었습니다.그것은 인코더-디코더 트랜스포머 [4]아키텍처를 사용합니다.OpenAI는 웹에서 제공되는 68만 시간의 다국어 및 멀티태스킹 데이터에 대해 Whisper를 교육했으며, 이 중 117,000 시간은 비영어 [1]언어를 포함합니다.AI는 이로 인해 억양, 배경 소음 [5]및 전문 용어의 인식이 개선되었다고 주장합니다.

배경

음성 인식은 연구에서 오랜 역사를 가지고 있는데, 최초의 접근법은 동적 시간 왜곡과 같은 통계적 방법을 사용했고, 나중에는 숨겨진 마르코프 모델을 사용했습니다.2010년대 즈음에는 음성 인식 모델에 대해 심층 신경망 접근법이 일반화되었으며, 이는 데이터와 향상된 계산 [6]성능으로 가능해졌습니다.음성 인식에서 딥 러닝에 대한 초기 접근 방식에는 순차적 데이터를 캡처할 수 없어 제한된 컨볼루션 신경망이 포함되었으며, 이는 나중에 장기 단기 [7]메모리를 사용하는 반복 신경망을 포함하는 Seq2seq 접근 방식의 개발로 이어졌습니다.

2017년 Google에 의해 도입된 트랜스포머는 머신 러닝의 많은 문제에 대한 이전의 많은 최첨단 접근 방식을 대체하고 언어 모델링컴퓨터 [8]비전과 같은 분야에서 핵심 신경 아키텍처가 되기 시작했습니다. 음향 모델을 훈련하기 위한 약하게 지도되는 접근 방식,2020년대 초에 딥 뉴럴 [9]네트워크를 사용하는 음성 인식 접근 방식에 유망한 것으로 인식되었습니다.

교육 및 역량

Whisper는 68만 시간의 다국어 및 멀티태스킹 데이터에 대한 준지도 학습을 사용하여 교육되었으며, 그 중 약 5분의 1(117,000시간)이 비영어 오디오 데이터였습니다.Whisper는 LibriSpeech 데이터 세트에 특화된 모델보다 성능이 뛰어나지는 않지만, 여러 데이터 세트에서 테스트했을 때 다른 [10]모델에 비해 강력하고 오류가 50% 적게 발생합니다.

Whisper는 다른 언어를 전사하는 것에 대해 상이한 오류율을 가지며, [11]높은 언어의 단어 오류율은 훈련 데이터에 잘 표현되지 않습니다.

건축학

Whisper 아키텍처는 인코더-디코더 변환기를 기반으로 합니다.입력 오디오는 Mel-frequency cepsstrum으로 변환된 30초 청크로 분할되며, 이는 인코더로 전달됩니다.디코더는 나중에 텍스트 캡션을 예측하도록 교육 받습니다.특별 토큰은 구문 수준 [10]타임스탬프와 같은 여러 작업을 수행하는 데 사용됩니다.

접수처

리뷰

  • 저널리스트 피터 스턴은 위스퍼를 "인간 전사자를 [12]제외하고는 제가 사용한 최고의 전사"라고 불렀습니다.
  • The Verge의 Mitchell Clark는 Whisper와 Otter.ai 에서 생성된 전사본을 테스트한 결과, Whisper가 다른 음성 인식 솔루션과 관련하여 갖는 비교적 높은 계산 자원의 단점을 지적했습니다.

사용하다

  • 위스퍼는 음성 인식 및 보다 일반적인 소리 [13]인식을 위한 통합 모델의 기반으로 사용되어 왔습니다.

참고 항목

참고문헌

  1. ^ a b c Radford, Alec; Kim, Jong Wook; Xu, Tao; Brockman, Greg; McLeavey, Christine; Sutskever, Ilya (2022-12-06). "Robust Speech Recognition via Large-Scale Weak Supervision". arXiv:2212.04356 [eess.AS].
  2. ^ Dickson, Ben (2022-10-03). "How will OpenAI's Whisper model impact AI applications?". VentureBeat. Archived from the original on 2023-03-15. Retrieved 2023-08-12.
  3. ^ Golla, Ramsri Goutham (2023-03-06). "Here Are Six Practical Use Cases for the New Whisper API". Slator. Archived from the original on 2023-03-25. Retrieved 2023-08-12.
  4. ^ Radford, Alec; Kim, Jong Wook; Xu, Tao; Brockman, Greg; McLeavey, Christine; Sutskever, Ilya (2022-12-06). "Robust Speech Recognition via Large-Scale Weak Supervision". p. 3. arXiv:2212.04356 [eess.AS].
  5. ^ Wiggers, Kyle (September 21, 2022). "OpenAI open-sources Whisper, a multilingual speech recognition system". TechCrunch. Archived from the original on February 12, 2023. Retrieved February 12, 2023.
  6. ^ Yu, Dong; Deng, Li (2014). Automatic speech recognition: a deep learning approach. Signals and communication technology (2015th ed.). London Heidelberg: Springer. p. 9. ISBN 978-1-4471-5778-6.
  7. ^ Siddique, Latif; Zaidi, Aun; Cuayahuitl, Heriberto; Shamshad, Fahad; Shoukat, Moazzam; Qadir, Junaid. "Transformers in Speech Processing: A Survey". arXiv:2303.11607v1.
  8. ^ Kamath, Uday; Graham, Kenneth L.; Emara, Wael (2022). Transformers for machine learning: a deep dive. Chapman & Hall/CRC machine learning & pattern recognition (First ed.). Boca Raton London New York: CRC Press, Taylor & Francis Group. pp. xix. ISBN 978-0-367-76734-1.
  9. ^ Paaß, Gerhard; Giesselbach, Sven (2023-02-16). "Foundation Models for Speech, Images, Videos, and Control". Foundation Models for Natural Language Processing. Artificial Intelligence: Foundations, Theory, and Algorithms. p. 307. arXiv:2302.08575. doi:10.1007/978-3-031-23190-2_7. ISBN 978-3-031-23189-6. S2CID 257019816.
  10. ^ a b "Introducing Whisper". openai.com. 2022-09-21. Archived from the original on 2023-08-20. Retrieved 2023-08-21.
  11. ^ Wiggers, Kyle (2023-03-01). "OpenAI debuts Whisper API for speech-to-text transcription and translation". TechCrunch. Archived from the original on 2023-07-18. Retrieved 2023-08-21.
  12. ^ a b Clark, Mitchell (2022-09-23). "I used OpenAI's new tech to transcribe audio right on my laptop". The Verge. Archived from the original on 2023-06-07. Retrieved 2023-08-21.
  13. ^ Yuan, Gong; Khurana, Sameer; Karlinsky, Leonid; Glass, James. "Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong General Audio Event Taggers". arXiv:2307.03183.