다중모달감정분석

Multimodal sentiment analysis

다중모달 감성 분석은 텍스트 분석을 넘어서는 기존의 텍스트 기반 감성 분석의 새로운 차원으로[peacock term] 오디오, 영상 데이터 등 다른 양식이 포함된다.[1] 그것은 두 가지 양식의 다른 조합을 포함하는 양면적일 수도 있고, 세 가지 양식을 포함하는 트리모달일 수도 있다.[2] 으로 소셜 미디어 데이터의 광범위한 이용 비디오, 이미지와 같은 다른 형태로 사용 가능한 기존 텍스트 기반 정서 분석 복합 심리 analysis,[3]의 완벽한 유투브의 영화 reviews,[5]분석의 가상 assistants,[4]분석의 개발에 적용될 수 있을 더 복잡한 모델로 발전해 왔다.비디오 wss,[6] 그리고 우울증 감시와 같은 감정 인식 (때로는 감정 감지라고도 한다.)[7]

전통적인 감정 분석과 마찬가지로, 다중 감정 분석에서 가장 기본적인 과제 중 하나는 다른 감정을 긍정, 부정, 중립 등의 범주로 분류하는 감정 분류다.[8] 그러한 작업을 수행하기 위해 텍스트, 오디오 및 시각적 특징을 분석하는 복잡성은 피쳐 레벨, 의사결정 레벨, 하이브리드 융복합과 같은 서로 다른 융합 기법의 적용을 필요로 한다.[3] 이러한 융합 기법과 적용된 분류 알고리즘의 성능은 분석에 채택된 텍스트, 오디오 및 시각적 특징의 유형에 영향을 받는다.[9]

특징들

머신러닝 알고리즘에 탑재되는 형상의 선정이 수반되는 피쳐 엔지니어링은 감성 분류 성과에 핵심적인 역할을 한다.[9] 다중모드 감정 분석에서는 서로 다른 텍스트, 오디오 및 시각적 특징을 조합하여 사용한다.[3]

텍스트 기능

기존의 텍스트 기반 감성 분석과 유사하게, 다중모드 감성 분석에서 가장 많이 사용되는 텍스트 기능 중 일부는 단문n그램이며, 이는 기본적으로 주어진 텍스트 문서에 있는 단어들의 순서다.[10] 이러한 특징은 단어 또는 개념이 적절한 공간에서 벡터로 표현되는 '의 백' 또는 '개념 백' 특징 표현을 사용하여 적용된다.[11][12]

오디오 기능

감성적, 감정적 특성은 오디오 특징에 포함된 다른 음성적, 원음적 특성에서 두드러진다.[13] 다모달 감성 분석에 채택된 가장 중요한 오디오 특징으로는 멜 주파수 셉스트럼(MFCC), 스펙트럼 중심, 스펙트럼 플럭스, 비트 히스토그램, 비트 합, 최강 비트, 정지 지속시간, 음조 등이 있다.[3] OpenSMile과 Praat는 그러한 오디오 기능을 추출하기 위한 인기 있는 오픈 소스 툴킷이다.[15]

시각적 특징

텍스트만 놓고 영상을 분석하는 주요 장점 중 하나는 시각자료에 풍부한 감성 단서가 있다는 점이다.[16] 시각적 특징에는 사람의 현재 심리 상태를 형성하는 주요 통로인 만큼 감정과 감정을 포착하는 데 가장 중요한 얼굴 표정이 포함된다.[3] 특히 미소(smile)는 다모드 정서 분석에서 가장 예측 가능한 시각적 단서 중 하나로 꼽힌다.[11] OpenFace는 이러한 시각적 특징을 추출하고 이해할 수 있는 오픈 소스 얼굴 분석 툴킷이다.[17]

융접기법

다중모드 감정 분석은 기존의 텍스트 기반 감정 분석과 달리 서로 다른 양태(텍스트, 오디오, 비주얼)의 데이터가 융합·분석되는 융합 과정을 거친다.[3] 다모드 감성 분석 데이터 융합의 기존 접근방식은 피쳐 레벨, 의사결정 레벨, 하이브리드 융합의 3가지 주요 범주로 분류할 수 있으며, 어떤 유형의 융합 기술을 채용하느냐에 따라 감성 분류의 성과가 달라진다.[3]

피쳐 레벨 융접

형상 수준 융합(때로는 초기 융합이라고도 함)은 각 모달리티(텍스트, 오디오 또는 비주얼)의 모든 형상을 모아 하나의 형상 벡터로 결합하며, 결국 분류 알고리즘으로 공급된다.[18] 이 기법을 구현하는 데 있어 어려움 중 하나는 이질적인 특징의 통합이다.[3]

의사결정 수준의 융합

의사결정 수준 융합(때로는 후기 융합이라고도 함)은 각 촬영장비(텍스트, 오디오 또는 시각적)의 데이터를 자체 분류 알고리즘으로 독립적으로 공급하고, 각 결과를 단일 의사결정 벡터에 융합하여 최종 감정 분류 결과를 얻는다.[18] 이 융합기술의 장점 중 하나는 이질적인 데이터를 융합할 필요가 없어지고, 각 촬영장비가 가장 적절한 분류 알고리즘을 활용할 수 있다는 점이다.[3]

하이브리드 융복합

하이브리드 퓨전(hybrid fusion)은 형상 수준의 융합 기법과 의사결정 수준의 융합 기법의 조합으로, 분류 과정에서 두 방법 모두로부터 보완적인 정보를 활용한다.[5] 일반적으로 형상 수준 융접은 두 모달리티 사이에서 초기에 수행되며, 그 다음 두 번째 단계로 결정 수준 융접을 적용하여 형상 수준 융접의 초기 결과를 나머지 모달리티와 융합한다.[19][20]

적용들

텍스트 기반 정서 분석과 비슷하게 복합 심리 분석과 같은 영화 reviews[5]과 일반 제품 고객들의 정서를 예측하기 위해 reviews,[21]의 이용자 중심의 비디오의 분석, 그리고 제품이나 서비스 권고 사항을 만들기처럼 recommender 시스템의 다른 형태의 발달에 적용될 수 있다.[22] 다중모달 감성 분석은 자연어 처리(NLP)와 머신러닝 기법의 적용을 통한 가상 보조자의 고도화에도 중요한 역할을 한다.[4] 헬스케어 영역에서는 멀티모드 정서분석활용해 스트레스, 불안, 우울증 등 특정 질환을 감지할 수 있다.[7] 기자들이 표현하는 정서가 덜 뚜렷하거나 중립적인 경향이 있어 복잡하고 도전적인 영역으로 꼽히는 영상 뉴스 프로그램에 담긴 정서를 이해하는 데도 복합적인 정서분석을 적용할 수 있다.[23]

참조

  1. ^ Soleymani, Mohammad; Garcia, David; Jou, Brendan; Schuller, Björn; Chang, Shih-Fu; Pantic, Maja (September 2017). "A survey of multimodal sentiment analysis". Image and Vision Computing. 65: 3–14. doi:10.1016/j.imavis.2017.08.003.
  2. ^ Karray, Fakhreddine; Milad, Alemzadeh; Saleh, Jamil Abou; Mo Nours, Arab (2008). "Human-Computer Interaction: Overview on State of the Art" (PDF). International Journal on Smart Sensing and Intelligent Systems. 1: 137–159. doi:10.21307/ijssis-2017-283.
  3. ^ a b c d e f g h i Poria, Soujanya; Cambria, Erik; Bajpai, Rajiv; Hussain, Amir (September 2017). "A review of affective computing: From unimodal analysis to multimodal fusion". Information Fusion. 37: 98–125. doi:10.1016/j.inffus.2017.02.003. hdl:1893/25490.
  4. ^ a b "Google AI to make phone calls for you". BBC News. 8 May 2018. Retrieved 12 June 2018.
  5. ^ a b c Wollmer, Martin; Weninger, Felix; Knaup, Tobias; Schuller, Bjorn; Sun, Congkai; Sagae, Kenji; Morency, Louis-Philippe (May 2013). "YouTube Movie Reviews: Sentiment Analysis in an Audio-Visual Context" (PDF). IEEE Intelligent Systems. 28 (3): 46–53. doi:10.1109/MIS.2013.34. S2CID 12789201.
  6. ^ Pereira, Moisés H. R.; Pádua, Flávio L. C.; Pereira, Adriano C. M.; Benevenuto, Fabrício; Dalip, Daniel H. (9 April 2016). "Fusing Audio, Textual and Visual Features for Sentiment Analysis of News Videos". arXiv:1604.02612 [cs.CL].
  7. ^ a b Zucco, Chiara; Calabrese, Barbara; Cannataro, Mario (November 2017). Sentiment analysis and affective computing for depression monitoring. 2017 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). IEEE. pp. 1988–1995. doi:10.1109/bibm.2017.8217966. ISBN 978-1-5090-3050-7. S2CID 24408937.
  8. ^ Pang, Bo; Lee, Lillian (2008). Opinion mining and sentiment analysis. Hanover, MA: Now Publishers. ISBN 978-1601981509.
  9. ^ a b Sun, Shiliang; Luo, Chen; Chen, Junyu (July 2017). "A review of natural language processing techniques for opinion mining systems". Information Fusion. 36: 10–25. doi:10.1016/j.inffus.2016.10.004.
  10. ^ Yadollahi, Ali; Shahraki, Ameneh Gholipour; Zaiane, Osmar R. (25 May 2017). "Current State of Text Sentiment Analysis from Opinion to Emotion Mining". ACM Computing Surveys. 50 (2): 1–33. doi:10.1145/3057270. S2CID 5275807.
  11. ^ a b Perez Rosas, Veronica; Mihalcea, Rada; Morency, Louis-Philippe (May 2013). "Multimodal Sentiment Analysis of Spanish Online Videos". IEEE Intelligent Systems. 28 (3): 38–45. doi:10.1109/MIS.2013.9. S2CID 1132247.
  12. ^ Poria, Soujanya; Cambria, Erik; Hussain, Amir; Huang, Guang-Bin (March 2015). "Towards an intelligent framework for multimodal affective data analysis". Neural Networks. 63: 104–116. doi:10.1016/j.neunet.2014.10.005. hdl:1893/21310. PMID 25523041.
  13. ^ Chung-Hsien Wu; Wei-Bin Liang (January 2011). "Emotion Recognition of Affective Speech Based on Multiple Classifiers Using Acoustic-Prosodic Information and Semantic Labels". IEEE Transactions on Affective Computing. 2 (1): 10–21. doi:10.1109/T-AFFC.2010.16. S2CID 52853112.
  14. ^ Eyben, Florian; Wöllmer, Martin; Schuller, Björn (2009). "OpenEAR — Introducing the munich open-source emotion and affect recognition toolkit". OpenEAR — Introducing the munich open-source emotion and affect recognition toolkit - IEEE Conference Publication. p. 1. doi:10.1109/ACII.2009.5349350. ISBN 978-1-4244-4800-5. S2CID 2081569.
  15. ^ Morency, Louis-Philippe; Mihalcea, Rada; Doshi, Payal (14 November 2011). "Towards multimodal sentiment analysis". Towards multimodal sentiment analysis: harvesting opinions from the web. ACM. pp. 169–176. doi:10.1145/2070481.2070509. ISBN 9781450306416. S2CID 1257599.
  16. ^ Poria, Soujanya; Cambria, Erik; Hazarika, Devamanyu; Majumder, Navonil; Zadeh, Amir; Morency, Louis-Philippe (2017). "Context-Dependent Sentiment Analysis in User-Generated Videos". Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers): 873–883. doi:10.18653/v1/p17-1081.
  17. ^ "OpenFace: An open source facial behavior analysis toolkit - IEEE Conference Publication". doi:10.1109/WACV.2016.7477553. S2CID 1919851. {{cite journal}}: Cite 저널은 필요로 한다. journal= (도움말)
  18. ^ a b Poria, Soujanya; Cambria, Erik; Howard, Newton; Huang, Guang-Bin; Hussain, Amir (January 2016). "Fusing audio, visual and textual clues for sentiment analysis from multimodal content". Neurocomputing. 174: 50–59. doi:10.1016/j.neucom.2015.01.095.
  19. ^ Shahla, Shahla; Naghsh-Nilchi, Ahmad Reza (2017). "Exploiting evidential theory in the fusion of textual, audio, and visual modalities for affective music video retrieval - IEEE Conference Publication". doi:10.1109/PRIA.2017.7983051. S2CID 24466718. {{cite journal}}: Cite 저널은 필요로 한다. journal= (도움말)
  20. ^ Poria, Soujanya; Peng, Haiyun; Hussain, Amir; Howard, Newton; Cambria, Erik (October 2017). "Ensemble application of convolutional neural networks and multiple kernel learning for multimodal sentiment analysis". Neurocomputing. 261: 217–230. doi:10.1016/j.neucom.2016.09.117.
  21. ^ Pérez-Rosas, Verónica; Mihalcea, Rada; Morency, Louis Philippe (1 January 2013). "Utterance-level multimodal sentiment analysis". Long Papers. Association for Computational Linguistics (ACL).
  22. ^ Chui, Michael; Manyika, James; Miremadi, Mehdi; Henke, Nicolaus; Chung, Rita; Nel, Pieter; Malhotra, Sankalp. "Notes from the AI frontier. Insights from hundreds of use cases". McKinsey & Company. McKinsey & Company. Retrieved 13 June 2018.
  23. ^ Ellis, Joseph G.; Jou, Brendan; Chang, Shih-Fu (12 November 2014). "Why We Watch the News". Why We Watch the News: A Dataset for Exploring Sentiment in Broadcast Video News. ACM. pp. 104–111. doi:10.1145/2663204.2663237. ISBN 9781450328852. S2CID 14112246.