暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
多文化场景下的多模态情感识别-陈师哲 , 王帅 , 金琴.pdf
381
11页
0次
2022-05-19
免费下载
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
Journal of Software,2018,29(4):10601070 [doi: 10.13328/j.cnki.jos.005412] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
多文化场景下的多模态情感识别
陈师哲
,
,
(中国人民大学 信息学院,北京 100872)
通讯作者: 金琴, E-mail: qjin@ruc.edu.cn
: 自动情感识别是一个非常具有挑战性的课题,并且有着广泛的应用价值.探讨了在多文化场景下的多模
态情感识别问题.从语音声学和面部表情等模态分别提取了不同的情感特征,包括传统的手工定制特征和基于深度
学习的特征,并通过多模态融合方法结合不同的模态,比较不同单模态特征和多模态特征融合的情感识别性能.
CHEAVD 中文多模态情感数据集和 AFEW 英文多模态情感数据集进行实验,通过跨文化情感识别研究,验证了文化
因素对于情感识别的重要影响,并提出 3 种训练策略提高在多文化场景下情感识别的性能,包括:分文化选择模型、
多文化联合训练以及基于共同情感空间的多文化联合训练,其中,基于共同情感空间的多文化联合训练通过将文化
影响与情感特征分离,在语音和多模态情感识别中均取得最好的识别效果.
关键词: 情感识别;多文化场景;语音情感特征;面部表情特征;多模态融合;深度卷积神经网络
中图法分类号: TP391
中文引用格式: 陈师哲,王帅,金琴.多文化场景下的多模态情感识别.软件学报,2018,29(4):10601070. http://www.jos.org.cn/
1000-9825/5412.htm
英文引用格式: Chen SZ, Wang S, Jin Q. Multimodal emotion recognition in multi-cultural conditions. Ruan Jian Xue Bao/
Journal of Software, 2018,29(4):10601070 (in Chinese). http://www.jos.org.cn/1000-9825/5412.htm
Multimodal Emotion Recogni tion in Multi-Cultur al Conditions
CHEN Shi-Zhe, WANG Shuai, JIN Qin
(School of Information, Renmin University of China, Beijing 100872, China)
Abstra ct : Automatic emotion recognition is a challenging task with a wide range of applications. This paper addresses the problem of
emotion recognition in multi-cultural conditions. Different multi-modal features are extracted from audio and visual modalities, and the
emotion recognition performance is compared between hand-crafted features and automatically learned features from deep neural
networks. Multimodal feature fusion is also explored to combine different modalities. The CHEAVD Chinese multimodal emotion dataset
and AFEW English multimodal emotion dataset are utilized to evaluate the proposed methods. The importance of the culture factor for
emotion recognition through cross-culture emotion recognition is demonstrated, and then three different strategies, including selecting
corresponding emotion model for different cultures, jointly training with multi-cultural datasets, and embedding features from
multi-cultural datasets into the same emotion space, are developed to improve the emotion recognition performance in the multi-cultural
environment. The embedding strategy separates the culture influence from original features and can generate more discriminative emotion
features, resulting in best performance for acoustic and multimodal emotion recognition.
Key words: emotion recognition; multi-cultural condition; acoustic emotion feature; facial expression feature; multimodal fusion;
deepconvolutional neural networks
基金项目: 国家重点研发计划(2016YFB1001200)
Foundation items: National Key Research and Development Program of China (2016YFB1001200)
本文由多媒体大数据处理与分析专题特约编辑赵耀教授、李波教授、华先胜研究员、文继荣教授、蒋刚毅教授、常冬霞副
教授推荐.
收稿时间: 2017-04-30; 修改时间: 2017-06-26; 采用时间: 2017-10-13; jos 在线出版时间: 2017-12-01
CNKI 网络优先出版: 2017-12-04 06:49:15, http://kns.cnki.net/kcms/detail/11.2560.TP.20171204.0649.012.html
陈师哲 :多文化场景下的多模态情感识别
1061
情感在人们的日常生活和交流中扮演着非常重要的角色,通过情感的表达,人们可以更方便地相互沟通和
了解.自动情感识别能够赋予机器理解人类情感的能力,这一任务有着极其重要的应用场景
[1]
.例如,在人机交互
,情感识别使得机器人能够根据用户的情感状态做出相对应的反馈,从而提高人机交互的质量;在医疗行业
,通过对心理疾病患者日常生活的情感识别,医生能够更有效地对病情进行诊断和治疗;在网络舆论分析中,
对用户的多媒体视频进行情感检测,可以更加准确、全面地了解网民对网络事件、产品等的态度倾向.
随着全球化的发展,网络多媒体数据和产品服务对象也逐渐向多样化的文化群体扩展.心理学研究
[2]
表明,
文化因素对于情感的表达和理解具有重要影响,尽管基本情感状态具有一定程度的表现相似性
[3]
,但不同文化
背景的人往往存在情感行为的差异性
[4]
.例如,东方文化对于情感尤其是愤怒等负面情感的表达更加隐忍和内
,而西方文化则更能释放情感而表现激烈.这种因文化不同导致的情绪表达差异较为一致地体现在文化群体
整体中,因此在一种文化背景下得到的自动情感识别标准很有可能高度依赖于该文化背景下的特殊行为,而不
适应于其他文化情感的识别.然而,现有的对于自动情感识别的研究较少地考虑到在不同文化背景下对情感识
别的影响,大部分工作都是基于同一文化背景下的数据集进行情感识别.因此,在本文中,我们将探索文化因素
对自动情感识别的影响,以及提高在多文化场景下自动情感识别的性能.
常用的情感识别模型是将情感状态分为离散的标签
[1]
,例如六大基本情感:高兴、生气、难过、厌恶、恐惧
和惊讶.本文采取此类情感建模方法进行离散的情感识别.人们的情感是通过多种行为信息进行表现和传递的,
例如语音信号、语言内容、面部表情、肢体手势等等.其中,面部表情和语音信号被认为是最常见的情感行为
信号.现有工作
[5]
对语音和面部表情提出了多种手工定制特征,例如统计声学特征、语音词袋特征、面部表情
Dense SIFT 特征、动态的 LBP-TOP 特征等,但是目前对于不同模态下最优的情感特征并没有给出定论.在本文
,我们将进一步探索语音信号和面部表情的不同特征表示,包括传统的手工定制特征和基于深度网络模型自
动学习的特征,以及不同模态特征之间的融合,并在单文化和多文化场景中分别讨论其识别和泛化性能.
本文的主要贡献包括:
(1) 探索了不同模态和模态融合的情感特征的情感识别性能.基于语音声学和面部表情两个模态进行情感
识别的研究,分别比较了传统语音统计声学特征、面部表情 LBP-TOP 特征与基于深度学习的语音特征
Soundnet、深度面部表情特征 FaceCNN 的情感识别性能,并通过多模态特征融合进一步提高了自动情感识别
的效果,证明了不同模态特征之间的互补性.
(2) 探索了文化因素对情感识别的影响,并提出 3 种训练策略提高多文化条件下的情感识别性能.通过在单
文化和跨文化场景下的情感识别性能分析证明了文化因素对于情感识别的重要影响,提出了分文化模型选择、
多文化联合训练和基于共同情感空间多文化联合训练策略这 3 种训练策略,其中,最后一种训练策略大大减弱
了文化因素对于情感识别的影响,提高了情感特征的区分性.
(3) 在两个不同文化的多模态情感数据集上进行实验,验证方法的有效性. CHEAVD 中文多模态情感数
据集和 AFEW 英文多模态数据集进行实验,这两个数据集均采自于电影电视节目片段,较为贴近现实生活中的
情感表达.因此,实验结果更能真实地反映我们所提方法的有效性.
本文第 1 节介绍情感识别的相关研究工作. 2 节介绍语音声学和面部表情模态的不同情感特征. 3
介绍多文化场景下的自动情感识别策略. 4 节进行情感识别实验和结果分析.最后第 5 节总结全文,并对未来
的研究方向进行初步的探讨.
1 相关工作
1.1 基于语音模态的情感识别
语音情感特征的提取主要包括低层次声学特征提取和高层次声学特征转换两个步骤.低层次特征一般在
语音信号较为稳定的短时间帧片段上进行提取,例如 25ms 的帧窗长.通常提取的低层次声学特征有 3 大类:韵律
特征、声音质量特征和谱相关特征
[6]
.韵律描述了说话声音的语调、音高、音长、快慢和轻重等方面的变化.
of 11
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜