멀티모달 인터랙션
Multimodal interaction![]() |
멀티모달 상호작용은 사용자에게 시스템과 상호작용하는 여러 모드를 제공합니다.멀티모달 인터페이스는 데이터 입력 및 출력을 위한 몇 가지 다른 도구를 제공합니다.
서론
멀티모달 인간-컴퓨터 상호작용은 "자연적 통신 모드를 통한 가상 및 물리적 환경과의 상호작용"[1]을 말합니다. 이는 멀티모달 상호작용이 보다 자유롭고 자연스러운 통신을 가능하게 하며 입력과 [2]출력 모두에서 자동화된 시스템과 사용자 인터페이스를 제공합니다.특히, 멀티모달 시스템은 사용자가 음성, 필기, 손동작 및 시선 등의 입력 양식을 통해 상호작용할 수 있도록 유연하고 효율적이며 사용 가능한 환경을 제공할 수 있으며, 음성 합성, 스마트 그래픽 및 기타 양식과 같은 출력 양식을 통해 시스템에서 정보를 수신할 수 있도록 기회를 통해 결합할 수 있다.그러면 멀티모달 시스템은 해석을 허용하기 위해 시간적 및 상황적 제약에[3] 따라 그것들을 결합하는 다른 양식으로부터의 입력을 인식해야 한다.이 과정은 멀티모달 퓨전이라고 알려져 있으며, 90년대부터 [4][5][6][7][8][9][10][11]현재까지 여러 연구의 대상이다.퓨전된 입력은 시스템에 의해 해석됩니다.자연성과 유연성은 각 다른 양식(채널)과 동시 사용에 대해 둘 이상의 해석을 생성할 수 있으며, 결과적으로 부정확성, 소음 또는 기타 유사한 요인으로 인해 다중 모달 모호성을[12] 생성할 수 있다.애매한 부분을 해결하기 위해 몇 가지 방법이 [13][14][15][16][17][18]제안되었다.마지막으로 시스템은 일관된 피드백(수수료)[19]에 따라 배치된 다양한 모드 채널(분할)을 통해 사용자 출력으로 돌아간다.모바일 디바이스, 센서 및 웹 테크놀로지의 광범위한 사용은 멀티모달 상호작용에 따른 복잡성을 관리하기 위한 적절한 계산 자원을 제공할 수 있습니다."클라우드를 사용하여 멀티모달 상호작용의 복잡성을 관리할 때 공유 컴퓨팅 리소스를 사용하는 것은 좋은 기회입니다.실제로 클라우드 컴퓨팅을 사용하면 동적으로 자동으로 프로비저닝 및 릴리스할 수 있는 확장 가능하고 구성 가능한 공유 컴퓨팅 리소스를 제공할 수 있습니다."[20]
멀티모달 입력
2개의 주요 멀티모달인터페이스 그룹이 통합되었습니다.하나는 대체 입력 방식이고 다른 하나는 복합 입출력 방식입니다.첫 번째 인터페이스 그룹은 음성, 펜, 터치, 수동 제스처,[21] 시선, 머리와 몸의 [22]움직임 등 기존의 키보드와 마우스 입출력 이외의 다양한 사용자 입력 모드를 결합했습니다.가장 일반적인 인터페이스는 시각적 양식(예: 디스플레이, 키보드 및 마우스)과 음성 양식(입력, 음성 합성 및 출력용 녹음 오디오에 대한 음성 인식)을 결합합니다.그러나 펜 기반 입력 또는 촉각 입력/출력 등 다른 양식을 사용할 수 있습니다.멀티모달 사용자 인터페이스는 HCI(Human-Computer Interaction)의 연구 영역입니다.
여러 입력 모달리티의 장점은 사용성이 높아진다는 것입니다. 즉, 한 모달리티의 약점은 다른 모달리티의 강점으로 상쇄됩니다.작은 비주얼 인터페이스와 키패드를 갖춘 모바일 디바이스에서는 단어를 입력하기는 매우 어렵지만(예: Poughkeepsie) 매우 쉽게 말할 수 있습니다.이러한 동일한 장치에서 디지털 미디어 카탈로그에 액세스하고 검색하거나 상단 상자를 설정하는 방법을 고려하십시오.또, 실제의 예에서는, 수술실 환경의 환자 정보는, 방부 환경을 유지하기 위해서 외과 팀의 멤버에 의해서 구두로 액세스 되고, 이해를 최대화하기 위해서 거의 리얼타임에 가까운 청각적, 시각적으로 제시됩니다.
멀티모달 입력 사용자 인터페이스는 [23]접근성에 영향을 미칩니다.잘 설계된 멀티모달 애플리케이션은 다양한 장애를 가진 사람들이 사용할 수 있습니다.시각 장애가 있는 유저는, 키패드의 입력에 의한 음성 촬영에 의존합니다.청각 장애가 있는 사용자는 음성 입력과 함께 시각적인 양상에 의존합니다.다른 사용자는 "상황적 장애"(예: 매우 시끄러운 환경에서 장갑을 끼거나, 운전을 하거나, 공공 장소에서 신용 카드 번호를 입력해야 함)를 겪게 되며, 원하는 대로 적절한 수단을 사용할 수 있습니다.반면 사용자가 모든 양식을 조작할 수 있어야 하는 멀티모달 애플리케이션은 매우 부실하게 설계되어 있습니다.
시장에서 가장 일반적인 형태의 입력 멀티모달리티는 IBM, Motorola 및 Opera Software가 개발한 개방형 사양인 XHTML+Voice(X+V) 웹 마크업 언어를 사용합니다.X+V는 현재 W3C에 의해 검토되고 있으며 비주얼 마크업용 XHTML, 음성 마크업용 VoiceXML, XML 언어 통합용 표준 XML 이벤트 등의 W3C 권장사항을 조합하고 있습니다.X+V를 지원하는 멀티모달 브라우저에는 IBM WebSphere Everyplace Multimodal Environment, Opera for Embedded Linux and Windows, ACCESS Systems NetFront for Windows Mobile 등이 있습니다.소프트웨어 개발자는 X+V 디버거, 편집기 및 [citation needed]시뮬레이터가 포함된 오픈 소스 Eclipse 프레임워크를 기반으로 IBM WebSphere Multimodal Toolkit과 같은 소프트웨어 개발 키트를 사용할 수 있습니다.
멀티모달 감정 분석
멀티모달 감정 분석은 텍스트 분석을 넘어 오디오 및 비주얼 [24]데이터와 같은 다른 양식을 포함하는 전통적인 텍스트 기반 감정 분석의 새로운[peacock prose] 차원입니다.두 가지 모달의 서로 다른 조합을 포함하는 바이모달 또는 세 가지 [25]모달의 트리모달일 수 있습니다.으로 소셜 미디어 데이터의 광범위한 이용 비디오, 이미지와 같은 다른 형태로 사용 가능한 기존 텍스트 기반 정서 분석 복합 심리 analysis,[26]의 유투브의 영화 reviews,[28]분석의 가상 assistants,[27]분석의 개발에 적용될 수 있을 더 복잡한 모델로 발전해 왔다.관련 뉴스s,[29] 그리고 특히 [30]우울증 모니터링과 같은 감정 인식(감정 감지라고도 함)입니다.
전통적인 감정 분석과 유사하게, 다모달 감정 분석에서 가장 기본적인 작업 중 하나는 다른 감정을 긍정, 부정,[31] 중립 등의 범주로 분류하는 감정 분류이다.이러한 작업을 수행하려면 텍스트, 오디오 및 시각적 기능을 분석해야 하는 복잡성 때문에 기능 수준, 의사 결정 수준 및 하이브리드 [26]퓨전 등 다양한 퓨전 기술을 적용해야 합니다.이러한 융합 기법과 적용된 분류 알고리즘의 성능은 [32]분석에 사용된 텍스트, 오디오 및 시각적 특징의 유형에 따라 영향을 받습니다.멀티모달 출력
두 번째 다중 모드 시스템 그룹은 주로 시각 및 청각 단서의 형태로 사용자에게 멀티미디어 디스플레이와 다중 모드 출력을 제공한다.인터페이스 설계자는 터치나 후각과 같은 다른 방식도 사용하기 시작했습니다.멀티모달 출력 시스템의 제안된 이점에는 시너지 및 용장성이 포함됩니다.여러 가지 양식을 통해 제공되는 정보는 병합되며 동일한 프로세스의 다양한 측면을 참조합니다.여러 양상의 동일한 정보 처리에 대한 정보 전달 .[33][34][35]의 늘어난 대역 폭 현재 복합 출력은 주로 통신 매체와 컨텐츠, 그리고 어디서 사업자 상당한 얼굴 data-rich 환경에서 집중력 관리를 지원하기 위해 사이의 매핑을 향상 시키기 위해 사용된다를 제공한다.시각 att유혹의 [36]요구
멀티모달 인터페이스 설계의 중요한 단계는 모달리티와 정보 및 태스크 간의 자연스러운 매핑을 생성하는 것입니다.청각 채널은 몇 가지 측면에서 시각과 다르다.이것은 전방향으로 일시적인 것으로, 항상 [36]예약되어 있습니다.청각 정보의 한 형태인 음성 출력은 상당한 관심을 받았다.언어 사용을 위한 몇 가지 지침이 개발되었습니다.마이클리스와 위긴스(1982)는 음성 출력은 나중에 언급되지 않을 단순한 짧은 메시지에 사용되어야 한다고 제안했다.또한 스피치가 제때 생성되어야 하고 즉각적인 대응을 요구해야 한다고 권고했다.
촉각은 1950년대 [37]후반에 처음으로 의사소통의 매개체로 활용되었다.유망할 뿐만 아니라 독특한 커뮤니케이션 채널이기도 하다.HCI에 채용된 전통적인 두 가지 감각인 시각과 청각과는 달리 촉각은 신체와 접촉하는 물체를 감지하고, 지각과 환경 작용을 모두 지원한다는 점에서 양방향이다.
청각적 피드백의 예로는 사용자의 행동(예: 파일 삭제, 폴더 열기, 오류)을 나타내는 컴퓨터 운영 체제의 청각 아이콘, 차량 내 항법 지침을 제시하기 위한 음성 출력, 최신 비행기 조종석에 대한 경고 조종사를 위한 음성 출력이 있다.촉각 신호의 예로는 사각지대에 있는 자동차 운전자에게 경고하기 위한 방향 지시 레버의 진동, 운전자에게 경고하기 위한 자동차 시트의 진동, 그리고 조종사에게 [36]곧 정지할 것을 경고하는 최신 항공기의 스틱 셰이커 등이 있다.
센서 기술을 사용하여 보이지 않는 인터페이스 공간을 사용할 수 있게 되었습니다.적외선, 초음파, 카메라가 모두 현재 일반적으로 [38]사용되고 있다.의미 있는 매핑을 통해 직접적이고 직접적인 링크가 확립되면 콘텐츠와의 인터페이스의 투명성이 향상되므로 사용자는 입력에 대한 직접적이고 즉각적인 피드백을 얻을 수 있으며 콘텐츠 응답은 인터페이스 어포던스가 된다(Gibson 1979).
멀티모달 융합
다양한 입력 모달리티의 정보를 통합하여 완전한 명령어로 결합하는 프로세스를 멀티모달 [5]융합이라고 합니다.문헌에서 입력 신호의 융합이 수행될 수 있는 주요 아키텍처 수준(인식 및 결정)에 따라 융합 프로세스에 대한 세 가지 주요 접근법이 제안되었다. [9][10][39]인식 기반, 의사결정 [7][8][11][40][41][42][43]기반 및 하이브리드 다단계 [4][6][44][45][46][47][48][49]융합이다.
인식 기반 융합(얼리 퓨전이라고도 함)은 예를 들어 통계 통합 기술, 에이전트 이론, 숨겨진 마르코프 모델, 인공 신경망 등과 같은 통합 메커니즘을 사용하여 각 모달 인식기의 결과를 병합하는 것으로 구성된다.인식 기반 융합 전략의 예로는 액션 프레임,[39] 입력[9] 벡터 및 [10]슬롯이 있습니다.
의사결정 기반 핵융합(후기 핵융합이라고도 함)은 완전한 해석을 얻기 위해 특정 대화 주도 핵융합 절차를 사용하여 추출된 의미 정보를 병합합니다.의사결정 기반 융합 전략의 예로는 유형화된 특징 구조,[40][45] 용융로,[42][43] 시멘틱 [7][11]프레임 및 타임스탬프 [8]격자가 있습니다.
멀티모달 퓨전에는 학습 환경, 소비자 관계, 보안/감시, 컴퓨터 애니메이션 등이 포함될 수 있습니다.개별적으로는 모드를 쉽게 정의할 수 있지만, 테크놀로지가 이러한 모드를 복합 [50]퓨전이라고 간주하는 것은 곤란합니다.알고리즘이 차원성을 인수하는 것은 어렵습니다.현재 계산 능력 이외의 변수가 존재합니다.예를 들어 의미적 의미: 두 문장은 어휘적 의미는 같지만 감정적 정보는 [50]다를 수 있습니다.
하이브리드 다단계 융합에서는 입력 모달리티의 통합이 인식 수준과 의사결정 수준 사이에 분배된다.하이브리드 다단계 융합에는 유한 상태 변환기,[45] 다중 모드 문법[6][44][46][47][48][49][51] 및 대화 [52]움직임의 세 가지 방법론이 포함됩니다.
애매모호함
사용자의 액션 또는 명령어는 시스템에서 해석해야 하는 멀티모달 입력(멀티모달 메시지[3])을 생성합니다.멀티모달 메시지는 사용자와 멀티모달 시스템 간의 통신을 가능하게 하는 매체입니다.그것은 여러 [53]양식 사이의 서로 다른 협력 유형, 관련된 양식 간의 시간 관계[54] 및 [55]이러한 양식과 연결된 정보 청크 간의 관계를 고려함으로써 여러 양식을 통해 전달되는 정보를 병합함으로써 얻어진다.
여러 상호 작용 양식(시각 및 청각 채널과 촉각)에 의해 제공되는 다중 모드 입력과 정보 및 작업 사이의 자연스러운 매핑은 모호성과 같은 인간-인간 의사소통의 전형적인 문제를 관리하는 것을 암시한다.입력 해석이 여러 개 가능한 경우 모호성이 발생합니다.만약 하나의 양식에 의해 제공되는 요소,, 하나 이상의 해석(즉 모호함이 복합 수준에서 전파되는 방법)이 및/또는 만약 요소, 각 양상과 관련 한 뜻밖에 없이 해석되는 복합 ambiguity[12]지만 정보를 다른 양식 언급 syntactic 또는 s에서 일관성 없는 둘 다 발생한다emantic 수준(즉, 다른 의미 또는 다른 구문 구조를 가진 다중 모달 문장).
「모호한 관리」[14]에서는, 애매함을 해소해, 유저의 입력을 올바르게 해석하는 방법을, 예방, 사후 분해, 근사 분해 방법의 [13][15]3개의 큰 클래스로 정리하고 있습니다.
예방 방법은 사용자가 상호작용 프로세스의 서로 다른 허용 상태 간의 일련의 전환에 따라 사전 정의된 상호작용 행동을 따르도록 강제한다.예방 방법의 예로는 절차 방법,[56] 언어 [57]문법의 표현력 감소, 언어 [58]문법의 표현력 향상 등이 있다.
애매모호성의 사후 해결은 중재적 접근법을 [16]사용한다.매개 기술의 예로는 반복,[16] 예를 들어 양식별 반복, 수리 및 실행 [17]취소의 세분화[59], [18]선택 등이 있습니다.
근사 해결 방법은 모호성 제거 프로세스에 사용자가 관여할 필요가 없습니다.그것들은 모두 퍼지 논리, 마르코프 랜덤 필드, 베이지안 네트워크, 숨겨진 마르코프 [13][15]모델과 같은 몇 가지 이론의 사용을 요구할 수 있다.
「 」를 참조해 주세요.
- 디바이스의 독립성
- 멀티모달 바이오메트릭 시스템
- 멀티모달 검색
- 음성 인식
- W3C의 Multimodal Interaction Activity – W3C의 이니셔티브는 웹에서 Multimodal Interaction 시나리오를 지원하는 수단(대부분 XML)을 제공하는 것을 목적으로 합니다.
- 웹 접근성
- 와이어드 글러브
- XHTML+음성
레퍼런스
- ^ 부르제, M.L. (2003)"멀티모달 명령 설계 및 프로토타이핑"인간-컴퓨터 상호 작용 절차(INTERACT'03), 페이지 717-720.
- ^ Stivers, T., Sidnell, J. 소개:멀티모달 인터랙션Semiotica, 156(1/4), 페이지 1-20. 2005.
- ^ a b Caschera M. C., Ferri F., Grifoni P. (2007)"다중 모드 상호 작용 시스템: 정보와 시간 특징"IJWGS(International Journal of Web and Grid Services), 제3권 - 제1호, 페이지 82-99.
- ^ a b D'Ulizia, A., Ferri, and Grifoni, P. (2010)."멀티모달 대화 처리를 위한 멀티모달 문법 생성"시스템, 인간 및 사이버네틱스에 관한 IEEE 트랜잭션, 파트 A: 시스템과 인간, Vol 40, No. 6, 페이지 1130 – 1145.
- ^ a b D'Ulizia, A. (2009년)"멀티모달 입력 퓨전 전략 탐색"인: Grifoni P (ed) 인간 컴퓨터 상호 작용 및 퍼베이시브 서비스에 관한 연구 핸드북:접근성 향상을 위한 진화적 기법.IGI출판, 34-57페이지
- ^ a b c Sun, Y., Shi, Y., Chen, F. 및 Chung, V. (2007)시맨틱 컴퓨팅에 관한 국제회의, 페이지 389-396의 "멀티모달 입력 퓨전에서의 병렬 입력 스트링을 위한 효율적인 멀티모달 언어 프로세서"입니다.
- ^ a b c Russ, G., Sallans, B., Hareter, H. (2005)"멀티모달 인터페이스에서의 시맨틱 기반 정보 융합"인간과 컴퓨터의 상호작용에 관한 국제회의(HCI'05), 미국 네바다주 라스베이거스, 6월 20-23일, 페이지 94-100.
- ^ a b c Corradini, A., Mehta M., 베른센, N.O., 마틴, J.-C.(2003)"현재 진행 중인 NICE 프로젝트의 예에서 인간과 컴퓨터의 상호작용에 있어서의 멀티모달 입력 융합"상황 감시, 사고 검출, 경보 및 대응 관리를 위한 데이터 융합에 관한 NATO-ASI 회의의 속행(아르메니아, 예레반).
- ^ a b c 파블로빅, V.I., 베리, G.A., 황, T.S.(1997년)"인간과 컴퓨터의 인텔리전트한 상호작용에 사용하기 위한 오디오/비주얼 정보의 통합"1997년 국제 화상 처리 회의(ICIP '97), 제1권, 페이지 121-124.
- ^ a b c Andre, M., Popescu, V.G., Shaikh, A., Medl, A., Marsic, I., Kulikowski, C., Flanagan J.L.(1998)."다양한 인간-컴퓨터 상호작용을 위한 음성 및 제스처 통합"제2회 국제공동멀티모달커뮤니케이션회의.1월 28~30일 네덜란드 틸부르크.
- ^ a b c Vo, M.T., Wood, C. (1996년)"멀티 모드 학습 인터페이스에서의 음성 및 펜 입력 통합을 위한 애플리케이션 프레임워크 구축"음향, 음성, 신호 처리 절차(ICASSP'96) 5월 7-10일 IEEE 컴퓨터 학회, Volume 06, 페이지 3545-3548.
- ^ a b Caschera, M.C., Ferri, F., Grifoni, P. (2013년)"모달에서 멀티모달 모호성: 분류 접근법", 차세대 정보기술 저널(JNIT), 제4권, 제5호, 페이지 87-109.
- ^ a b c Caschera, M.C., Ferri, F., Grifoni, P. (2013년)InteSe: 복수 모달 문장의 애매함을 해소하는 통합 모델.시스템, 인간 및 사이버네틱스의 IEEE 트랜잭션:시스템, 볼륨: 43, 문제: 4, 페이지 911 - 931.18.Spilker, J., Clarner, M., Görz, G. (2000)"스피치 투 스피치 시스템에서 자가 수정 처리"COLING 2000. 페이지 1116-1120.
- ^ a b Caschera M.C., Ferri F., Grifoni P., (2007)'모호한 관리'인터랙티브 컴퓨팅용 비주얼 언어:정의 및 형식화.IGI출판, 페이지 129-140.
- ^ a b c J. 차이, P.Hong, 및 M. X. Zhou, (2004)Proc. 9차 국제표준회의의 "멀티모달 사용자 인터페이스의 참조 해상도에 대한 확률론적 접근법"콘피, 인텔User Interface, 포르투갈, 마데이라, 2004년 1월, 페이지 70-77.
- ^ a b c Dey, A. K. Mankoff, J. (2005)"컨텍스트 인식 애플리케이션을 위한 조정 설계"ACM 트랜스컴퓨터- 음. 상호작용. 12(1), 페이지 53-80.
- ^ a b Spilker, J., Clarner, M., Görz, G. (2000)"스피치 투 스피치 시스템에서 자가 수정 처리"COLING 2000. 페이지 1116-1120.
- ^ a b 맨코프, J., 허드슨, S.E., 아보드, G.D. (2000년)"인식 기반 인터페이스의 모호성에 대한 통합 툴킷 수준의 지원 제공"컴퓨터 시스템의 인적 요소에 관한 ACM CHI'00 회의의 진행. 페이지 368 – 375.
- ^ 그리포니 P(2009) 다모달 핵분열.입력: 멀티모달 휴먼 컴퓨터 상호작용 및 퍼베이시브 서비스.IGI Global, 페이지 103–120
- ^ Patrizia Grifoni, Fernando Ferri, Maria Chiara Caschera, Arianna D'Ulizia, Mauro Mazzei, "MIS: Multimodal Interaction Services in cloud perspecture", JNIT: Journal, 5권 1호
- ^ 케트베코프, 산자르, 라지예프 샤르마(2001년)."대형 디스플레이의 자연스러운 제스처/스피치 제어로 향합니다."절차EHCI '01 제8회 인간과 컴퓨터 상호작용을 위한 엔지니어링에 관한 국제회의의 진행 221-234페이지
- ^ 마리우스 바실리우, V. 순다레스워란, S.첸, R. 베링거, C.Tam, M. Chan, P. Bangayan 및 J. McGee(2000), Darrel G의 "인터랙티브 디스플레이 애플리케이션을 위한 통합 멀티모달 휴먼-컴퓨터 인터페이스 및 증강현실"호퍼(ed.) 조종석 디스플레이 VII: 방위 애플리케이션 디스플레이(Proc. SPIE.4022), 106-115. ISBN0-8194-3648-8
- ^ Vitense, H.S.; Jacko, J.A.; Emery, V.K. (2002). "Multimodal feedback: establishing a performance baseline for improved access by individuals with visual impairments" (PDF). ACM Conf. on Assistive Technologies.
- ^ Soleymani, Mohammad; Garcia, David; Jou, Brendan; Schuller, Björn; Chang, Shih-Fu; Pantic, Maja (September 2017). "A survey of multimodal sentiment analysis". Image and Vision Computing. 65: 3–14. doi:10.1016/j.imavis.2017.08.003.
- ^ Karray, Fakhreddine; Milad, Alemzadeh; Saleh, Jamil Abou; Mo Nours, Arab (2008). "Human-Computer Interaction: Overview on State of the Art" (PDF). International Journal on Smart Sensing and Intelligent Systems. 1: 137–159. doi:10.21307/ijssis-2017-283.
- ^ a b Poria, Soujanya; Cambria, Erik; Bajpai, Rajiv; Hussain, Amir (September 2017). "A review of affective computing: From unimodal analysis to multimodal fusion". Information Fusion. 37: 98–125. doi:10.1016/j.inffus.2017.02.003. hdl:1893/25490.
- ^ "Google AI to make phone calls for you". BBC News. 8 May 2018. Retrieved 12 June 2018.
- ^ Wollmer, Martin; Weninger, Felix; Knaup, Tobias; Schuller, Bjorn; Sun, Congkai; Sagae, Kenji; Morency, Louis-Philippe (May 2013). "YouTube Movie Reviews: Sentiment Analysis in an Audio-Visual Context" (PDF). IEEE Intelligent Systems. 28 (3): 46–53. doi:10.1109/MIS.2013.34. S2CID 12789201.
- ^ Pereira, Moisés H. R.; Pádua, Flávio L. C.; Pereira, Adriano C. M.; Benevenuto, Fabrício; Dalip, Daniel H. (9 April 2016). "Fusing Audio, Textual and Visual Features for Sentiment Analysis of News Videos". arXiv:1604.02612 [cs.CL].
- ^ Zucco, Chiara; Calabrese, Barbara; Cannataro, Mario (November 2017). Sentiment analysis and affective computing for depression monitoring. 2017 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). IEEE. pp. 1988–1995. doi:10.1109/bibm.2017.8217966. ISBN 978-1-5090-3050-7. S2CID 24408937.
- ^ Pang, Bo; Lee, Lillian (2008). Opinion mining and sentiment analysis. Hanover, MA: Now Publishers. ISBN 978-1601981509.
- ^ Sun, Shiliang; Luo, Chen; Chen, Junyu (July 2017). "A review of natural language processing techniques for opinion mining systems". Information Fusion. 36: 10–25. doi:10.1016/j.inffus.2016.10.004.
- ^ Oviatt, S. (2002), "Multimodal interfaces", in Jacko, J.; Sears, A (eds.), The Human-Computer Interaction Handbook (PDF), Lawrence Erlbaum
- ^ Bauckhage, C.; Fritsch, J.; Rohlfing, K.J.; Wachsmuth, S.; Sagerer, G. (2002). "Evaluating integrated speech-and image understanding". Int. Conf. on Multimodal Interfaces. doi:10.1109/ICMI.2002.1166961.
- ^ Ismail, N.A.; O'Brien, E.A. (2008). "Enabling Multimodal Interaction in Web-Based Personal Digital Photo Browsing" (PDF). Int. Conf. on Computer and Communication Engineering. Archived from the original (PDF) on 2011-07-18. Retrieved 2010-03-03.
- ^ a b c Sarter, N.B. (2006). "Multimodal information presentation: Design guidance and research challenges". International Journal of Industrial Ergonomics. 36 (5): 439–445. doi:10.1016/j.ergon.2006.01.007.
- ^ Geldar, F.A. (1957). "Adventures in tactile literacy". American Psychologist. 12 (3): 115–124. doi:10.1037/h0040416.
- ^ Brooks, A.; Petersson, E. (2007). "SoundScapes: non-formal learning potentials from interactive VEs". SIGGRAPH. doi:10.1145/1282040.1282059.
- ^ a b Vo, M.T. (1998년)"멀티모달 학습 인터페이스 구축을 위한 프레임워크 및 툴킷", 박사과정논문, 미국 피츠버그 카네기 멜론 대학교
- ^ a b 코헨, P.R., 존스턴, 맥기, D., 오비아트, S.L., 피트먼, J., 스미스, I.A.;첸, L.; 클로우, J. (1997년)"퀵셋:분산형 애플리케이션을 위한 멀티모달 상호작용", ACM 멀티미디어, 페이지 31-40. 31-40.
- ^ 존스턴, M. (1998년)"통합 기반 멀티모달 해석"제36회 컴퓨터 언어학 협회 연차총회 및 제17회 컴퓨터 언어학 국제회의(COLING-ACL '98), 8월 10-14일 몬트리올, 퀘벡, 몬트리올, 624-630페이지.
- ^ a b 니게이, L.; 쿠타즈, J. (1995년)「멀티 모달의 과제에 대응하기 위한 범용 플랫폼」ACM 프레스, 컴퓨터 시스템의 인적 요소에 관한 회의의 진행.
- ^ a b 부쉐, J., 니게이, 가닐, T. (2004)"멀티모달 인터페이스를 빠르게 개발하기 위한 Icare 소프트웨어 컴포넌트"ICMI '04: 제6회 멀티모달인터페이스 국제회의 진행(뉴욕, 뉴욕, 미국), ACM, 페이지 251-258.
- ^ a b D'Ulizia, A.; Ferri, F.; Grifoni P. (2007)"멀티모달 언어 사양에 대한 하이브리드 문법 기반 접근", OTM 2007 워크숍 진행, 2007년 11월 25~30일, 포르투갈 빌라모우라, Springer-Verlag, 컴퓨터 사이언스 4805, 페이지 367-376.
- ^ a b c 존스턴, 매사추세츠 주; 방갈로르 주(2000년)독일 자르브뤼켄의 컴퓨터 언어학 국제회의 의사록에서 "무한 상태 다중 모달 해석과 이해"
- ^ a b 쑨, 첸, 에프, 시, Y.D., 정, V. (2006)"다양한 인간 컴퓨터 상호작용에서 다감각 데이터 융합을 위한 새로운 방법"컴퓨터-인간 상호작용에 관한 호주의 컴퓨터-인간 상호작용 특별 이익 그룹(CHISIG) 제20차 회의의 진행: 디자인: 활동, 유물 및 환경, 호주 시드니, 페이지 401-404
- ^ a b 시마즈시, 다카시마시(1995년)"다중구절 문법", 일본의 시스템과 컴퓨터, 제26권, 제3호, 페이지 93-102.
- ^ a b 존스턴, 매사추세츠 주; 방갈로르 주 (2005년NAT은 "확실한 다중 모드 통합 및 이해"를 제공합니다.언어, 영어, 제11권, 제2호, 159-187페이지
- ^ a b Reitter, D.; 판타자, E.M.; Cummins, F. (2004)미국 매사추세츠주 보스턴의 HLT-NAACL-2004 Proc.에 있는 "UI on the fly: 멀티모달 사용자 인터페이스 생성"
- ^ a b Guan, Ling. "Methods and Techniques for MultiModal Information Fusion" (PDF). Circuits & Systems Society.
- ^ D'Ulizia, A.; Ferri, F.; Grifoni P. (2011년)"멀티모달 문법 추론을 위한 학습 알고리즘", 시스템, 인간, 사이버네틱스에 관한 IEEE 트랜잭션 - 파트 B: 사이버네틱스, Vol. 41(6), 페이지 1495 - 1510.
- ^ 페레스, 주; 아모레스, 주; 만촌, P. (2005)"다모드 융합을 위한 두 가지 전략"이탈리아 트렌토에 있는 '과학 데이터의 시각화와 탐색을 위한 다중 모달 상호작용 절차'에서 26-32.
- ^ 마틴, J.C. (1997년)「양식간의 인텔리전트한 제휴를 향해서: 지도와의 멀티 모드 상호작용을 가능하게 하는 시스템의 예」, 「인공지능에 관한 국제 공동 회의(IJCAI'97)의 진행」, 일본 나고야시 「인텔리전트 멀티 모드 시스템」의 워크숍.
- ^ 앨런, J.F.;퍼거슨, G. (1994)"간격 시간 논리에서의 작용과 사건", 논리 및 계산 저널, 제4권, 제5호, 페이지 531–579
- ^ 벨릭, Y. (2001)"성공적인 멀티모달 상호작용을 위한 기술요건", 정보 프레젠테이션과 자연 멀티모달 대화에 관한 국제 워크숍, 이탈리아 베로나, 12월 14~15일
- ^ 리, Y.C.; 친, F. (1995년)"GIS에서 위상 관계를 위한 상징적인 쿼리 언어"국제지리정보시스템저널 9(1) 페이지 25-46
- ^ 칼시넬리, D.; Mainguenaud, M. (1994)"Cigales, 지리 정보 시스템의 시각적 언어: 사용자 인터페이스"비주얼 랭귀지와 컴퓨팅 저널 5(2). 113-132페이지
- ^ Ferri, F.; Rafanelli, M. (2005)"GeoPQL: 쿼리 해석의 모호성을 해결하는 지리적 그림 쿼리 언어"J. 데이터 의미론 III. 페이지 50-80
- ^ Sum, B., Myers, B. 및 Waibel, A.(1999년)."다모드 인터랙티브 오류 보정의 모델 기반 및 경험적 평가"인프로그래프1999년 5월 CHI'99 중, 584-591페이지
외부 링크
- W3C 멀티모달 상호작용 액티비티
- XHTML+Voice Profile 1.0, W3C Note 2001년 12월 21일
- Hoste, Lode, Dumas, Bruno 및 Signer, 비트: Mudra: 통합 멀티모달 인터랙션 프레임워크, 제13회 멀티모달 인터랙션에 관한 국제회의 진행 중(ICMI 2011), 스페인 알리칸테, 2011년 11월
- 토셀리, 알레한드로 엑터, 비달, 엔리케, 카사쿠베타, 프란시스코:Multimodal Interactive Pattern Recognition and Applications, Springer, 2011.