음성 사용자 인터페이스

Voice user interface

음성 사용자 인터페이스(VUI)는 음성 인식을 사용하여 컴퓨터와의 음성 인간 상호작용을 가능하게 하며, 음성 인식을 사용하여 구어 명령어를 이해하고 질문에 대답하며, 일반적으로 회신을 재생하기 위해 음성음성 텍스트 기능을 사용한다.음성 명령 장치(VCD)는 음성 사용자 인터페이스로 제어되는 장치다.

음성 사용자 인터페이스는 자동차, 가정용 자동화 시스템, 컴퓨터 운영 체제, 세탁기전자레인지 같은 가전 제품, 텔레비전 리모컨에 추가되었다.스마트폰이나 스마트 스피커에서 가상 비서와 상호작용하는 일차적인 방식이다.나이든 자동 수행원(전화 통화를 올바른 내선 번호로 라우팅하는 방식)과 대화형 음성 응답 시스템(전화로 더 복잡한 트랜잭션을 수행하는 방식)은 DTMF 톤을 통해 키패드 버튼 누름에 응답할 수 있지만, 음성 사용자 인터페이스가 완전한 사용자 인터페이스를 가진 사용자들은 호출자가 pr을 할 필요 없이 요청과 응답을 말할 수 있도록 허용한다.아무 단추나 꿰매다

신형 VCD는 스피커에 의존하지 않기 때문에 억양이나 변증법적인 영향과 상관없이 여러 목소리에 반응할 수 있다.또한 여러 명령에 한 번에 대응하여 성대 메시지를 구분하고 적절한 피드백을 제공하여 자연스러운 대화를 정확하게 모방할 수 있다.[1]

개요

VUI는 모든 음성 애플리케이션에 대한 인터페이스다.단지 말을 걸어 기계를 조종하는 것은 불과 얼마 전만 해도 공상과학소설이었다.최근까지 이 지역은 인공지능으로 여겨졌다.그러나, 일반적으로 텍스트 음성 변환, 음성 텍스트 처리, 자연 언어 처리 및 클라우드 서비스와 같은 기술의 발전은 이러한 유형의 인터페이스를 대량으로 채택하는 데 기여했다.VUI는 더 흔해졌고, 사람들은 이러한 핸즈프리, 눈 없는 인터페이스가 많은 상황에서 제공하는 가치를 이용하고 있다.

VUI는 입력에 신뢰성 있게 대응해야 하며 그렇지 않으면 사용자로부터 거부당하고 조롱을 당하는 경우가 많다.훌륭한 VUI를 설계하기 위해서는 컴퓨터 과학, 언어학, 인적 요인 심리학의 학제간 재능이 필요하다. 이 모든 것들은 비싸고 구하기 어려운 기술들이다.고급 개발 도구를 사용하더라도 효과적인 VUI를 구축하려면 최종 시스템을 사용할 대상 청중은 물론 수행할 작업 모두에 대한 심층적인 이해가 필요하다.VUI가 과제에 대한 사용자의 정신적 모델에 근접할수록 훈련이 거의 또는 전혀 없이 사용하기 쉬워져 효율성과 사용자 만족도가 모두 높아진다.

일반인을 위해 고안된 VUI는 이용 편의성을 강조해야 하며, 최초 발신자에게 많은 도움과 안내를 제공해야 한다.이와는 대조적으로, 소규모 파워 유저 그룹(현장 서비스 근로자 포함)을 위해 설계된 VUI는 생산성에 더 집중해야 하며 도움과 지침에는 덜 집중해야 한다.그러한 애플리케이션은 통화 흐름을 합리화하고, 프롬프트를 최소화하며, 불필요한 반복을 없애고, 통화자가 단일 발음과 어떤 순서나 조합으로 여러 가지 정보를 입력할 수 있는 정교한 "혼합 주도 대화 상자"를 허용해야 한다.요컨대, 음성 애플리케이션은 자동화되고 있는 특정 비즈니스 프로세스를 위해 세심하게 제작되어야 한다.

모든 비즈니스 프로세스가 음성 자동화를 위해 동등하게 잘 구현되는 것은 아니다.일반적으로 문의와 거래가 복잡할수록 자동화가 어려워지고 일반 대중과 함께 실패하기 쉽다.일부 시나리오에서는 자동화가 단순히 적용되지 않으므로 라이브 에이전트 지원만이 유일한 옵션이다.예를 들어 법률 자문 핫라인은 자동화하기가 매우 어려울 것이다.한편, 연설은 업무지시서의 상태를 변경하거나, 시간이나 비용 입력을 완료하거나, 계좌간 자금 이체 등 빠르고 일상적인 거래를 처리하는데 제격이다.

역사

초기 VUI 애플리케이션에는 직접 또는 (일반적으로 Bluetooth) 헤드셋 또는 차량 오디오 시스템을 통해 음성 작동식 전화 다이얼링이 포함되었다.

2007년 CNN 비즈니스 기사는 음성 명령어가 10억 달러가 넘는 산업이며 구글이나 애플 같은 회사들이 음성 인식 기능을 만들려고 노력하고 있다고 보도했다.[2]이 기사가 나온 지 몇 년이 지났고, 그 이후 세계는 다양한 음성 명령 장치를 목격했다.또 구글은 피코 TTS라는 음성인식 엔진을 만들었고 애플은 시리를 출시했다.음성 명령 장치는 점점 더 널리 보급되고 있으며, 인간의 음성을 사용하는 혁신적인 방법들이 항상 만들어지고 있다.예를 들어, Business Week는 미래의 리모컨이 인간의 목소리가 될 것이라고 제안한다.현재 Xbox Live는 그러한 기능을 허용하고 있고 잡스는 새로운 애플 TV에서 그러한 기능을 암시했다.[3]

컴퓨터 장치의 음성 명령 소프트웨어 제품

애플 윈도 PC 모두 최신 운영 체제에 내장된 음성 인식 기능을 제공한다.

마이크로소프트 윈도

두 개의 마이크로소프트 운영 체제인 윈도우 7과 윈도우 비스타는 음성 인식 기능을 제공한다.Microsoft는 운영 체제에 음성 명령을 통합하여 마우스와 키보드의 사용을 제한하고자 하지만 여전히 전체 생산성을 유지하거나 향상시키기를 원하는 사람들에게 메커니즘을 제공했다.[4]

윈도 비스타

Windows Vista 음성 제어를 통해 사용자는 메인스트림 응용프로그램의 문서 및 전자 메일을 지시하고, 응용프로그램을 시작 및 전환하며, 운영체제를 제어하고, 문서를 포맷하고, 문서를 저장하고, 파일을 편집하고, 효율적으로 오류를 수정하고, 웹 상의 양식을 작성할 수 있다.음성인식 소프트웨어는 사용자가 사용할 때마다 자동으로 학습하며 영어(미국), 영어(영국), 독일어(독일), 프랑스어(프랑스), 스페인어(스페인), 일본어, 중국어(번체), 중국어(간체) 등으로 음성인식이 가능하다.또한 소프트웨어에는 사용자와 음성 인식 엔진을 모두 훈련시키는 데 사용할 수 있는 대화형 튜토리얼이 함께 제공된다.[5]

윈도 7

Windows 7(윈도우 7)은 Windows Vista(윈도우 비스타)에서 제공하는 모든 기능 외에도 마이크 설정 마법사와 기능 사용 방법에 대한 튜토리얼을 제공한다.[6]

맥 OS X

모든 Mac OS X 컴퓨터에는 음성 인식 소프트웨어가 미리 설치되어 있다.소프트웨어는 사용자 독립적이며 사용자가 "메뉴 탐색 및 키보드 단축키 입력, 확인란 이름, 라디오 버튼 이름, 목록 항목 및 단추 이름 말하기, 응용프로그램 간 열기, 닫기, 제어 및 전환"[7]을 할 수 있다.하지만 애플 웹사이트는 사용자가 스트레이드라는 상업용 제품을 살 것을 추천한다.[7]

상용제품

사용자가 내장 음성인식 소프트웨어에 만족하지 못하거나 OS용 음성인식 소프트웨어가 없는 경우 사용자는 Braina Pro 또는 DragonNatury Speaking for Windows PCs [8]및 Mac OS용 동일한 소프트웨어의 이름인 Thrither와 같은 상용 제품을 실험할 수 있다.[9]

음성 명령 모바일 장치

Android OS, Microsoft Windows Phone, iOS 9 이상 또는 Blackberry OS를 실행하는 모든 모바일 기기는 음성 명령 기능을 제공한다.사용자는 각 휴대 전화의 운영 체제에 내장된 음성 인식 소프트웨어 외에도 Apple App Store, Google Play, Windows Phone Marketplace(초기 Windows Mobile) 또는 BlackBerry App World 등 각 운영 체제의 응용 프로그램 저장소에서 타사 음성 명령 응용 프로그램을 다운로드할 수 있다.

안드로이드 OS

구글은 사용자가 문자 메시지 보내기, 음악 듣기, 길찾기, 전화 사업, 전화 연락, 이메일 보내기, 지도 보기, 웹사이트 방문, 노트 쓰기, 구글 검색과 같은 음성 명령을 수행할 수 있는 안드로이드 오픈 소스 운영 체제를 개발했다.[10]음성인식 소프트웨어는 안드로이드 2.2 '프루요' 이후 모든 기기에서 사용할 수 있지만 설정을 영어로 설정해야 한다.[10]구글은 사용자가 언어를 변경할 수 있도록 허용하고, 사용자가 자신의 음성 데이터를 구글 계정에 첨부하기를 원하는 경우 음성 인식 기능을 처음 사용할 때 프롬프트된다.사용자가 이 서비스를 선택하게 되면 구글이 사용자의 음성으로 소프트웨어를 훈련시킬 수 있게 된다.[11]

구글은 안드로이드 7.0 '누갓'을 탑재한 구글 어시스턴트를 선보였다.그것은 이전 버전보다 훨씬 더 진보했다.

아마존닷컴은 아마존의 맞춤형 안드로이드 버전을 활용해 음성 인터페이스를 제공하는 에코를 보유하고 있다.

마이크로소프트 윈도

윈도폰마이크로소프트의 모바일 기기 운영체제다.Windows Phone 7.5에서 음성 앱은 사용자 독립적이며, 사용자의 연락처 목록에서 다른 사람에게 전화, 전화 번호 전화, 마지막 번호 재다이얼, 문자 메시지 보내기, 음성 메일 보내기, 애플리케이션 열기, 약속 읽기, 전화 상태 쿼리 및 웹 검색에 사용할 수 있다.[12][13]또 통화 중에는 발언도 가능하며, 통화 중에는 번호 누르기, 스피커폰 켜기, 통화 중 통화 중 현재 통화를 보류하는 다음과 같은 조치가 가능하다.[13]

윈도10은 기존에 윈도폰에서 사용하던 음성 컨트롤을 대체하는 음성 컨트롤 시스템인 코르타나를 선보인다.

iOS

애플은 아이폰 OS 3의 새로운 특징으로 iOS 기기 제품군음성 컨트롤을 추가했다.아이폰4S, 아이패드 3, 아이패드 미니 1G, 아이패드 에어, 아이패드 프로 1G, 아이팟 터치 5G 이상 모두 시리라는 보다 앞선 음성 비서와 함께 나온다.음성 컨트롤은 최신 장치의 설정 메뉴를 통해 계속 활성화할 수 있다.시리는 사용자가 음성 명령을 내릴 수 있는 사용자 독립형 내장형 음성인식 기능이다.사용자는 Siri의 도움을 받아 문자 메시지 보내기, 날씨 확인, 알림 설정, 정보 찾기, 회의 스케줄 설정, 이메일 보내기, 연락처 찾기, 경보 설정, 지시 찾기, 재고 추적, 타이머 설정, 샘플 음성 명령 쿼리 예시 등을 명령할 수 있다.[14]그 외에도 시리는 블루투스, 유선 헤드폰으로 작업한다.[15]

아마존 알렉사

2014년에 아마존은 알렉사 스마트기기를 도입했다.그것의 주요 목적은 소비자가 목소리로 기기를 제어할 수 있게 해주는 스마트 스피커였다.결국 음성으로 가전을 제어할 수 있는 능력을 갖춘 참신한 장치로 변신했다.이제 전구와 온도를 포함한 거의 모든 가전제품을 알렉사로 제어할 수 있게 되었다.알렉사는 음성제어가 가능해져 스마트홈 기술과 연결돼 집을 잠그고 온도를 조절하며 각종 기기를 작동시킬 수 있다.A의 이런 형태나는 누군가가 간단하게 질문을 할 수 있도록 허락하고, 알렉사는 그 대답을 찾고, 찾아내고, 당신에게 답안을 다시 읽어준다.[16]

자동차 내 음성 인식

자동차 기술이 발전함에 따라, 자동차에 더 많은 기능이 추가될 것이고 이러한 기능들은 운전자의 주의를 산만하게 할 것이다.CNET에 따르면 자동차 음성 명령은 운전자가 명령을 내릴 수 있도록 해야 하며 주의를 흐트러뜨리지 않아야 한다.CNET는 뉘앙스가 앞으로 시리(Siri)와 닮은 소프트웨어를 만들겠다고 제안했지만 자동차용이라고 밝혔다.[17]2011년 시판 중인 음성인식 소프트웨어는 대부분 음성 명령어가 50~60개 정도에 불과했지만 포드 동기에는 1만개가 있었다.[17]다만 CNET는 사용자가 운전 중 하고 싶은 작업의 복잡성과 다양성을 감안할 때 1만 개의 음성 명령어도 충분하지 않다고 제안했다.[17]자동차 음성 명령은 운전자가 이 기능을 사용하여 가까운 레스토랑을 찾고, 가스, 운전 방향, 도로 상태, 가장 가까운 호텔의 위치 등을 찾을 수 있기 때문에 휴대폰이나 컴퓨터의 음성 명령과는 다르다.[17]현재 기술은 운전자가 가민과 같은 휴대용 GPS와 자동차 제조사 내비게이션 시스템 모두에서 음성 명령을 내릴 수 있게 해준다.[18]

자동차 제조업체가 제공하는 음성 명령 시스템 목록:

비언어 입력

대부분의 음성 사용자 인터페이스는 구어 인간 언어를 통한 상호작용을 지원하도록 설계되어 있지만, 인터페이스 설계에 있어 최근의 탐색도 비언어적 인간 소리를 입력으로 채택하고 있다.이러한 시스템에서 사용자는 콧노래, 휘파람, 마이크에 부는 것과 같은 비음성 소리를 발산하여 인터페이스를 제어한다.[19]

이러한 비언어 음성 사용자 인터페이스의 예로는 켈리 돕슨이 만든 인터랙티브 아트 설치인 [20][21]블렌디가 있다.이 작품은 마이크 입력에 반응하도록 개조된 1950년대 고전적인 믹서기를 구성했다.믹서를 제어하기 위해 사용자는 믹서가 전형적으로 내는 윙윙거리는 기계음을 흉내 내야 한다: 믹서는 사용자의 저음의 으르렁거림에 반응하여 천천히 회전하며, 사용자가 고음의 음성을 낼수록 속도가 빨라진다.

운동능력이 부족한 개인에게 디지털 드로잉이 가능한 연구시스템인 [22]보이스 드로어도 그 예다.보이스드로우는 디지털 캔버스에 브러시 방향으로 매핑된 모음 소리를 변조해 스트로크를 '페인트'할 수 있도록 했다.다른 포물선적 특징(예: 음성의 큰 소리)을 변조하면 사용자가 브러시 스트로크의 두께와 같은 도면의 다른 특징을 제어할 수 있다.

다른 접근법에는 손가락 입력만으로는 불가능할 새로운 유형의 제스처를 지원하기 위해 터치 기반 인터페이스(예: 휴대폰)를 확장하기 위해 비언어 사운드를 채택하는 것이 포함된다.[19]

설계 당면 과제

음성 인터페이스는 가용성에 상당한 난제를 제기한다.그래픽 사용자 인터페이스(GUI)와 달리 음성 인터페이스 설계에 대한 모범 사례는 여전히 존재한다.[23]

발견 가능성

순수한 오디오 기반 상호작용에서 음성 사용자 인터페이스는 낮은 검색 가능성 때문에 어려움을 겪는 경향이 있다.[23] 즉, 사용자가 시스템 기능의 범위를 이해하는 것은 어렵다.시스템이 비주얼 디스플레이 없이 가능한 것을 전달하기 위해서는 사용 가능한 옵션을 열거해야 하는데, 이는 지루하거나 실현 불가능해질 수 있다.발견성이 낮을 경우 사용자는 종종 자신이 "허용된" 말에 대한 혼동을 보고하거나 시스템 이해의 폭에 대한 기대치가 일치하지 않게 된다.[24][25]

전사

음성인식 기술은 최근 상당히 개선된 반면 음성 사용자 인터페이스는 여전히 사용자의 음성이 제대로 해석되지 않는 구문 분석이나 전사 오류로 어려움을 겪고 있다.[26]이러한 오류는 특히 음성 콘텐츠가 기술적 어휘(예: 의학용어) 또는 음악가나 노래 이름과 같은 파격적인 철자를 사용할 때 만연하는 경향이 있다.[27]

이해

대화 이해를 극대화하기 위한 효과적인 시스템 설계는 연구의 열린 영역으로 남아 있다.대화 상태를 해석하고 관리하는 음성 사용자 인터페이스는 코어론 해결, 명명 인식, 정보 검색, 대화 상자 관리 등 복잡한 자연 언어 처리 작업을 통합해야 하는 내재적 어려움 때문에 설계에 어려움을 겪고 있다.[28]오늘날 대부분의 음성 도우미들은 단일 명령을 매우 잘 실행할 수 있지만 좁은 업무나 대화의 두어 바퀴를 넘어 대화를 관리하는 능력은 제한적이다.[29]

미래 용도

PDA휴대 전화와 같은 포켓 크기 기기는 현재 사용자 입력을 위해 작은 버튼에 의존하고 있다.이것들은 장치에 내장되거나 애플 아이팟 터치아이폰 시리 애플리케이션과 같은 터치 스크린 인터페이스의 일부분이다.이와 같이 작은 버튼이 있는 기기에서 광범위한 버튼을 누르는 것은 지루하고 부정확할 수 있으므로 사용하기 쉽고 정확하며 신뢰할 수 있는 VUI는 잠재적으로 사용이 용이하도록 하는 주요 돌파구가 될 수 있다.그럼에도 불구하고, 그러한 VUI는 또한 랩톱과 데스크탑 크기의 컴퓨터 사용자들에게도 이익이 될 것이다. 왜냐하면 그것은 손목 터널 증후군과 같은 반복적인 기형적 부상과 경험 없는 키보드 사용자들의 느린 타이핑 속도를 포함하여 키보드와 마우스 사용과 관련된 수많은 문제를 해결할 것이기 때문이다.또한 키보드 사용은 일반적으로 연결된 디스플레이 앞에 앉아 있거나 정지해 있는 상태를 수반한다. 반대로 VUI는 음성 입력이 키보드를 볼 필요성을 없애기 때문에 사용자가 훨씬 더 이동성을 확보할 수 있다.

그러한 발전은 말 그대로 현재의 기계의 얼굴을 바꿀 수 있고 사용자들이 기기와 상호작용하는 방법에 광범위한 영향을 미칠 수 있다.휴대용 장치는 키보드가 필요하지 않기 때문에 더 크고 보기 쉬운 화면으로 설계될 것이다.터치 스크린 장치는 더 이상 디스플레이를 화면 키보드와 컨텐츠 간에 분리할 필요가 없으므로 컨텐츠를 전체 화면으로 볼 수 있게 된다.노트북 컴퓨터는 키보드의 절반이 제거되고 디스플레이 뒤에 모든 내부 부품이 통합되어 사실상 단순한 태블릿 컴퓨터가 될 것이기 때문에 크기 면에서 본질적으로 절반으로 줄어들 수 있다.데스크톱 컴퓨터는 CPU와 스크린으로 구성되어 키보드에 의해 점유되는 데스크톱 공간을 절약하고 책상 표면 아래에 설치된 슬라이딩 키보드 받침대를 제거한다.전자레인지에서 복사기에 이르기까지 수십 개의 다른 장치의 텔레비전 리모컨과 키패드도 제거될 수 있다.

그러나 그러한 발전이 일어나려면 수많은 난제를 극복해야 할 것이다.첫째, VUI는 명령과 같은 입력과 배경 대화를 구별할 수 있을 정도로 정교해야 할 것이다. 그렇지 않으면 잘못된 입력이 등록되고 연결된 장치가 비정상적으로 동작할 것이다.공상과학 TV 쇼와 스타 트렉과 같은 영화에서 등장인물들이 부르는 유명한 "컴퓨터!"와 같은 표준 프롬프트는 VUI를 활성화하고 같은 화자의 추가 입력을 받을 수 있도록 준비할 수 있다.VUI는 인간과 유사한 표현도 포함할 수 있다. 예를 들어, 음성 또는 화면 상의 문자(예: "예, Vamshi?")가 응답하고 사용자와 앞뒤로 통신하여 수신된 입력을 명확히 하고 정확성을 보장한다.

둘째, VUI는 정보를 정확하게 처리하고 찾거나 검색하거나 특정 사용자의 선호에 따라 조치를 수행하기 위해 고도로 정교한 소프트웨어와 협력해야 할 것이다.예를 들어, 사만다가 특정 신문의 정보를 선호하고, 그 정보가 포인트 형태로 요약되기를 선호한다면, 그녀는 "컴퓨터, 어젯밤 중국 남부의 홍수에 대한 정보를 좀 찾아봐 줘"라고 말할지도 모른다; 이에 대해, 사만다의 선호에 익숙한 VUI는 "남부의"에서 "홍수"에 대한 사실들을 "찾아낼 수 있을 것이다."그 출처로부터 "중국"을 인용하여 그것을 포인트 형태로 변환하여 스크린이나/또는 음성 형태로 그녀에게 전달한다.따라서 VUI와 관련된 기계 부분에 어느 정도의 인공지능과 함께 정확한 음성인식 소프트웨어가 요구될 것이다.

프라이버시 영향

개인 정보 보호에 대한 우려는 음성 명령어가 암호화되지 않은 형태로 음성 사용자 인터페이스 제공자에게 제공되고, 따라서 제3자와 공유되어 승인되지 않았거나 예상치 못한 방식으로 처리될 수 있다는 사실에 의해 제기된다.[30][31]녹음된 언어의 내용에 덧붙여, 사용자의 표현 방식과 음성 특성은 자신의 생체 인식 정체성, 성격 특성, 체형, 신체적 및 정신적 건강 상태, 성별, 기분과 감정, 사회경제적 지위 및 지리적 기원에 대한 정보를 암묵적으로 포함할 수 있다.[32]

참고 항목

참조

  1. ^ "Washing Machine Voice Control". Appliance Magazine.
  2. ^ Borzo, Jeanette (8 February 2007). "Now You're Talking". CNN Money. Retrieved 25 April 2012.
  3. ^ "Voice Control, the End of the TV Remote?". Bloomberg.com. Business Week. 9 December 2011. Retrieved 1 May 2012.
  4. ^ "Windows Vista Built In Speech". Windows Vista. Retrieved 25 April 2012.
  5. ^ "Speech Operation On Vista". Microsoft.
  6. ^ "Speech Recognition Set Up". Microsoft.
  7. ^ a b "Physical and Motor Skills". Apple.
  8. ^ "DragonNaturallySpeaking PC". Nuance.
  9. ^ "DragonNaturallySpeaking Mac". Nuance.
  10. ^ a b "Voice Actions".
  11. ^ "Google Voice Search For Android Can Now Be "Trained" To Your Voice". Retrieved 24 April 2012.
  12. ^ "Using Voice Command". Microsoft. Retrieved 24 April 2012.
  13. ^ a b "Using Voice Commands". Microsoft. Retrieved 27 April 2012.
  14. ^ "Siri, The iPhone 3GS & 4, iPod 3 & 4, have voice control like an express Siri, it plays music, pauses music, suffle, Facetime, and calling Features". Apple. Retrieved 27 April 2012.
  15. ^ "Siri FAQ". Apple.
  16. ^ "How Amazon's Echo went from a smart speaker to the center of your home". Business Insider.
  17. ^ a b c d "Siri Like Voice". CNET.
  18. ^ "Portable GPS With Voice". CNET.
  19. ^ a b "Voice augmented manipulation Proceedings of the 15th international conference on Human-computer interaction with mobile devices and services". dlnext.acm.org. doi:10.1145/2493190.2493244. S2CID 6251400. Retrieved 2019-02-27.
  20. ^ "Blendie Proceedings of the 5th conference on Designing interactive systems: processes, practices, methods, and techniques". dlnext.acm.org. doi:10.1145/1013115.1013159. Retrieved 2019-02-27.
  21. ^ "Kelly Dobson: Blendie". web.media.mit.edu. Retrieved 2019-02-27.
  22. ^ "Voicedraw Proceedings of the 9th international ACM SIGACCESS conference on Computers and accessibility". dlnext.acm.org. doi:10.1145/1296843.1296850. S2CID 218338. Retrieved 2019-02-27.
  23. ^ a b "Design guidelines for hands-free speech interaction Proceedings of the 20th International Conference on Human-Computer Interaction with Mobile Devices and Services Adjunct". dlnext.acm.org. doi:10.1145/3236112.3236149. S2CID 52099112. Retrieved 2019-02-27.
  24. ^ "Designing SpeechActs Proceedings of the SIGCHI Conference on Human Factors in Computing Systems". dlnext.acm.org. doi:10.1145/223904.223952. S2CID 9313029. Retrieved 2019-02-27.
  25. ^ "What can I say? Proceedings of the 18th International Conference on Human-Computer Interaction with Mobile Devices and Services". doi:10.1145/2935334.2935386. S2CID 6246618. {{cite journal}}:Cite 저널은 필요로 한다. journal=(도움말)
  26. ^ "Patterns for How Users Overcome Obstacles in Voice User Interfaces Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems". dlnext.acm.org. doi:10.1145/3173574.3173580. S2CID 5041672. Retrieved 2019-02-27.
  27. ^ ""Play PRBLMS" Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems". dlnext.acm.org. doi:10.1145/3173574.3173870. S2CID 5050837. Retrieved 2019-02-27.
  28. ^ Galitsky, Boris (2019). Developing Enterprise Chatbots: Learning Linguistic Structures (1st ed.). Cham, Switzerland: Springer. pp. 13–24. doi:10.1007/978-3-030-04299-8. ISBN 978-3-030-04298-1. S2CID 102486666.
  29. ^ Pearl, Cathy (2016-12-06). Designing Voice User Interfaces: Principles of Conversational Experiences (1st ed.). Sebastopol, CA: O'Reilly Media. pp. 16–19. ISBN 978-1-491-95541-3.
  30. ^ "Apple, Google, and Amazon May Have Violated Your Privacy by Reviewing Digital Assistant Commands". Fortune. 2019-08-05. Retrieved 2020-05-13.
  31. ^ Hern, Alex (2019-04-11). "Amazon staff listen to customers' Alexa recordings, report says". the Guardian. Retrieved 2020-05-21.
  32. ^ Kröger, Jacob Leon; Lutz, Otto Hans-Martin; Raschke, Philip (2020). "Privacy Implications of Voice and Speech Analysis – Information Disclosure by Inference". Privacy and Identity Management. Data for Better Living: AI and Privacy. IFIP Advances in Information and Communication Technology. Vol. 576. pp. 242–258. doi:10.1007/978-3-030-42504-3_16. ISBN 978-3-030-42503-6. ISSN 1868-4238.

외부 링크