基于注意力的短视频多模态情感分析被引量：9

Multimodal sentiment analysis of short videos based on attention

下载PDF

导出

摘要针对现有的情感分析方法缺乏对短视频中信息的充分考虑,从而导致不恰当的情感分析结果。基于音视频的多模态情感分析(AV-MSA)模型便由此产生,模型通过利用视频帧图像中的视觉特征和音频信息来完成短视频的情感分析。模型分为视觉与音频2分支,音频分支采用卷积神经网络(CNN)架构来提取音频图谱中的情感特征,实现情感分析的目的;视觉分支则采用3D卷积操作来增加视觉特征的时间相关性。并在Resnet的基础上,突出情感相关特征,添加了注意力机制,以提高模型对信息特征的敏感性。最后,设计了一种交叉投票机制用于融合视觉分支和音频分支的结果,产生情感分析的最终结果。AV-MSA模型在IEMOCAP和微博视听(WB-AV)数据集上进行了评估,实验结果表明,与现有算法相比,AV-MSA在分类精确度上有了较大的提升。 The existing sentiment analysis methods lack sufficient consideration of information in short videos,leading to inappropriate sentiment analysis results.Based on this,we proposed the audio-visual multimodal sentiment analysis(AV-MSA)model that can complete the sentiment analysis of short videos using visual features in frame images and audio information in videos.The model was divided into two branches,namely the visual branch and the audio branch.In the audio branch,the convolutional neural networks(CNN)architecture was employed to extract the emotional features in the audio atlas to achieve the purpose of sentiment analysis;in the visual branch,we utilized the 3D convolution operation to increase the temporal correlation of visual features.In addition,on the basis of ResNet,in order to highlight the emotion-related features,we added an attention mechanism to enhance the sensitivity of the model to information features.Finally,a cross-voting mechanism was designed to fuse the results of the visual and audio branches to produce the final result of sentiment analysis.The proposed AV-MSA was evaluated on IEMOCAP and Weibo audio-visual(Weibo audio-visual,WB-AV)datasets.Experimental results show that compared with the current short video sentiment analysis methods,the proposed AV-MSA has improved the classification accuracy greatly.

作者黄欢孙力娟曹莹郭剑任恒毅 HUANG Huan;SUN Li-juan;CAO Ying;GUO Jian;REN Heng-yi(College of Computer,Nanjing University of Posts and Telecommunications,Nanjing Jiangsu 210003,China;Jiangsu High Technology Research Key Laboratory for Wireless Sensor Networks,Nanjing University of Posts and Telecommunications,Nanjing Jiangsu 210003,China;College of Computer and Information Engineering,Henan University,Kaifeng Henan 475001,China)

机构地区南京邮电大学计算机学院南京邮电大学江苏省无线传感网高技术重点实验室河南大学计算机与信息工程学院

出处《图学学报》 CSCD 北大核心 2021年第1期8-14,共7页 Journal of Graphics

基金国家自然科学基金项目(61873131,61702284) 安徽省科技厅面上项目(1908085MF207) 江苏省博士后研究基金项目(2018K009B)。

关键词多模态情感分析残差网络 3D卷积神经网络注意力决策融合 multimodal sentiment analysis ResNet 3D convolutional neural networks attention decision fusion

分类号 TP751.1 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献3

1马江河,孙颖,张雪英.融合语音信号和脑电信号的多模态情感识别[J].西安电子科技大学学报,2019,46(1):143-150. 被引量：7
2吴良庆,刘启元,张栋,王建成,李寿山,周国栋.基于情感信息辅助的多模态情绪识别[J].北京大学学报（自然科学版）,2020,56(1):75-81. 被引量：5
3程俊华,曾国辉,鲁敦科,黄勃.基于Dropout的改进卷积神经网络模型平均方法[J].计算机应用,2019,39(6):1601-1606. 被引量：25

二级参考文献7

1黄程韦,金赟,王青云,赵力,邹采荣.基于语音信号与心电信号的多模态情感识别[J].东南大学学报（自然科学版）,2010,40(5):895-900. 被引量：14
2宋静,张雪英,孙颖,畅江.基于模糊综合评价法的情感语音数据库的建立[J].现代电子技术,2016,39(13):51-54. 被引量：9
3姚慧,孙颖,张雪英.情感语音的非线性动力学特征[J].西安电子科技大学学报,2016,43(5):167-172. 被引量：14
4畅江,张雪英,张奇萍,陈宏涛,孙颖,胡凤云.不同语种及非言语情感声音的ERP研究[J].清华大学学报（自然科学版）,2016,56(10):1131-1136. 被引量：3
5周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251. 被引量：1701
6孙颖,宋春晓.相空间重构的情感语音特征提取及优化[J].西安电子科技大学学报,2017,44(6):162-168. 被引量：9
7赵慧珍,刘付显,李龙跃,罗畅.基于混合maxout单元的卷积神经网络性能优化[J].通信学报,2017,38(7):105-114. 被引量：6

共引文献33

1张云,李岚,王浩东.一种机器学习中防止过拟合的Dropout优化算法[J].兰州文理学院学报（自然科学版）,2019,33(6):84-87. 被引量：11
2吴咏昆,李进,曾泽荣,和贺敏.楼宇新能源控制系统算法研究[J].建筑电气,2020,39(1):58-64.
3高帆,张雪英,黄丽霞,李宝芸.基于DBM-LSTM的多特征语音情感识别[J].计算机工程与设计,2020,41(2):465-470. 被引量：9
4沈微微,李颖,杨志豪,王祥力,叶轩.防止过拟合的属性约简[J].计算机应用研究,2020,37(9):2665-2668. 被引量：5
5刘志勇,张丽秀,钟婷婷,王幸福,胡声洲.基于改进leNet-5的番茄病虫害识别的研究[J].赣南师范大学学报,2020,41(6):70-74. 被引量：6
6喻航,李红莲,吕学强.区级人大报告中的地名自动标注研究[J].北京信息科技大学学报（自然科学版）,2020,35(6):31-36. 被引量：1
7雷剑.基于Adam优化神经网络的电梯群控算法[J].智能计算机与应用,2020,10(11):101-105. 被引量：6
8CHENG Zhi-gang,LIAO Wen-jie,CHEN Xing-yu,LU Xin-zheng.A VIBRATION RECOGNITION METHOD BASED ON DEEP LEARNING AND SIGNAL PROCESSING[J].工程力学,2021,38(4):230-246. 被引量：5
9汤佳杰,曹永忠,朱俊武,顾浩.基于混合神经网络的开源社区软件开发者人力资源价值预测[J].计算机应用与软件,2021,38(8):64-71. 被引量：3
10景恩彪,田裕,纪占林.基于ResNet的心电图识别研究[J].现代计算机,2021,27(20):65-69. 被引量：1

同被引文献109

1孟建,胡学峰.数字人文研究:超学科方法论的一种认知与阐释[J].现代传播（中国传媒大学学报）,2020,42(2):13-17. 被引量：12
2陆晓蕾,倪斌.基于预训练语言模型的BERT-CNN多层级专利分类研究[J].中文信息学报,2021,35(11):70-79. 被引量：19
3余伶俐,蔡自兴,陈明义.语音信号的情感特征分析与识别研究综述[J].电路与系统学报,2007,12(4):76-84. 被引量：27
4李斌.环境行为学的环境行为理论及其拓展[J].建筑学报,2008(2):30-33. 被引量：183
5崔雷,刘伟,闫雷,张晗,侯跃芳,黄莹娜,张浩.文献数据库中书目信息共现挖掘系统的开发[J].现代图书情报技术,2008(8):70-75. 被引量：543
6廖胜姣,肖仙桃.科学知识图谱应用研究概述[J].情报理论与实践,2009,32(1):122-125. 被引量：73
7杨欢,刘滨谊,帕特里克．A．米勒.传统中医理论在康健花园设计中的应用[J].中国园林,2009,25(7):13-18. 被引量：72
8王琰,李志民,赵红斌.基于使用者行为需求的建筑设计模式研究[J].西安建筑科技大学学报（自然科学版）,2009,41(4):544-548. 被引量：13
9帕特里克.弗朗西斯.穆尼,陈进勇.康复景观的世界发展[J].中国园林,2009,25(8):24-27. 被引量：94
10许珺,裴韬,姚永慧.地学知识图谱的定义、内涵和表达方式的探讨[J].地球信息科学学报,2010,12(4):496-502. 被引量：27

引证文献9

1陈诗汉,马洪江,王婷,何松泽.基于多模态融合的视频情感分析技术[J].成都信息工程大学学报,2022,37(6):656-661. 被引量：1
2蒋雨肖,丁晟春,吴鹏.基于BiLSTM-VGG16的多模态信息特征分类研究[J].情报理论与实践,2021,44(11):180-186. 被引量：13
3赵之文.多模态情感分析技术的应用研究[J].现代信息科技,2022,6(10):78-81.
4吴亦奇,韩放,张德军,何发智,陈壹林.基于特征通道和空间位置注意力的三维点云特征学习网络[J].计算机工程与科学,2022,44(7):1239-1246. 被引量：1
5谭晖.从行为需求出发的情景式康复景观模式研究——以重庆市精神卫生中心为例[J].包装工程,2022,43(18):382-396. 被引量：2
6孟建,张剑锋.数字人文:中国短视频研究的学术地图与脉络[J].现代传播（中国传媒大学学报）,2022,44(8):127-137. 被引量：2
7谢庆恒.基于多源信息融合的学位论文自动分类标引[J].情报工程,2023,9(3):70-80. 被引量：1
8王南.基于云计算的短视频媒体资源个性化推送方法[J].兵工自动化,2024,43(2):16-22. 被引量：2
9刘立,丰洪才.基于视频内容检索技术及其教学应用初探[J].中国新通信,2024,26(2):65-68.

二级引证文献22

1沙尔旦尔·帕尔哈提,阿布都热合曼·卡的尔,阿力木江·亚森.多字体印刷体维-哈-柯文关键词图像识别[J].计算机科学,2022,49(S02):615-620. 被引量：1
2周泽聿,王昊,张小琴,范涛,任秋彤.基于Xception-TD的中华传统刺绣分类模型构建[J].数据分析与知识发现,2022,6(2):338-347. 被引量：8
3李玥琪,王晰巍,王小天,邱程程.突发事件情境下的社交媒体风险管理[J].图书馆论坛,2022,42(8):119-128. 被引量：6
4魏文萍.基于卷积神经网络的英语点餐机器人智能交互研究[J].自动化与仪器仪表,2022(7):252-256. 被引量：1
5孟佳娜,王晓培,李婷,刘爽,赵迪.基于对抗神经网络的跨模态谣言检测[J].数据分析与知识发现,2022,6(12):32-42. 被引量：4
6李晓峰,马静,周琰.基于增强语义模型的货品名分类算法[J].计算机与现代化,2023(3):71-78.
7曹颖.基于跨模态Transformer的多模态细粒度情感分析方法[J].信息与电脑,2023,35(6):4-6.
8秦秋红.怀柔区2012—2021年社区精神疾病应急处置调查与分析[J].医药前沿,2023,13(14):136-138.
9谢庆恒.基于多源信息融合的学位论文自动分类标引[J].情报工程,2023,9(3):70-80. 被引量：1
10韩普,叶东宇,陈文祺,顾亮.面向多模态医疗健康数据的知识组织模式研究[J].现代情报,2023,43(10):27-34. 被引量：1

1仝钰,庞新宇,魏子涵.基于GADF-CNN的滚动轴承故障诊断方法[J].振动与冲击,2021,40(5):247-253. 被引量：33
2李天真,宋齐顺,贾岚絮,何刚强.图像识别的静态手势识别与动态跟踪系统设计[J].单片机与嵌入式系统应用,2021,21(4):34-37.
3甘江英.乡村振兴下的--含江西地理标志特色水产品开发策略[J].渔业致富指南,2021(6):12-16. 被引量：1
4马斌.一种多链MCMC电力系统光伏出力预测模型及其算例分析[J].计算机与数字工程,2021,49(3):462-465. 被引量：1
5陈媛娟,黄保科,光有明.试析祁漫塔格地区矽卡岩型铁矿地质特征与找矿标志[J].智能城市,2020(23):58-59.
6张雷,时璐,张丽丽.基于改进ViBe算法的运动目标检测[J].电脑与信息技术,2021,29(2):12-15. 被引量：1
7姚宏亮,董伟伟,王浩,杨静.意愿计算的股市突变点预测方法[J].计算机应用研究,2021,38(4):1108-1112.
8徐宝娟.非遗视觉转译活化研究[J].艺术与设计（理论版）,2021(3):29-31. 被引量：3
9LIU Ling,CHAI Guo-hua,QU Zhong.Moving target detection based on improved ghost suppression and adaptive visual background extraction[J].Journal of Central South University,2021,28(3):747-759. 被引量：7
10贾乾罡,陈思捷,李亦言,严正,徐澄科.有限信息环境下基于学习自动机的发电商竞价策略[J].电力系统自动化,2021,45(6):133-139. 被引量：9

图学学报

2021年第1期

浏览历史

内容加载中请稍等...

基于注意力的短视频多模态情感分析被引量：9

参考文献3

二级参考文献7

共引文献33

同被引文献109

引证文献9

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于注意力的短视频多模态情感分析 被引量：9

参考文献3

二级参考文献7

共引文献33

同被引文献109

引证文献9

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于注意力的短视频多模态情感分析被引量：9