基于主辅网络特征融合的语音情感识别被引量：8

Feature Fusion Based on Main-Auxiliary Network for Speech Emotion Recognition

下载PDF

导出

摘要为了有效特征提取与融合提高语音情感识别率,提出了一种使用主辅网络进行深度特征融合的语音情感识别算法。首先将段特征输入BLSTM-Attention网络作为主网络,其中注意力机制能够关注语音信号中的情感信息;然后,把Mel语谱图输入CNN-GAP网络作为辅助网络,GAP可以减轻全连接层带来的过拟合;最后,将两个网络提取的深度特征以主辅网络方式进行特征融合,解决不同类型特征直接融合带来的识别结果不理想的问题。在IEMOCAP数据集上对比4种模型的实验结果表明,使用主辅网络深度特征融合的WA和UA均有不同程度的提高。 Speech emotion recognition is an important research direction of human-computer interaction.Effective feature extraction and fusion are among the key factors to improve the rate of speech emotion recognition.In this paper,a speech emotion recognition algorithm using Main-auxiliary networks for deep feature fusion was proposed.First,segment features are input into BLSTM-attention network as the main network.The attention mechanism can pay attention to the emotion information in speech signals.Then,the Mel spectrum features are input into Convolutional Neural Networks-Global Average Pooling(GAP)as auxiliary network.GAP can reduce the overfitting brought by the fully connected layer.Finally,the two are combined in the form of Main-auxiliary networks to solve the problem of unsatisfactory recognition results caused by direct fusion of different types of features.The experimental results of comparing four models on IEMOCAP dataset show that WA and UA using the depth feature fusion of the Main-Auxiliary network are improved to different degrees.

作者胡德生张雪英张静李宝芸 HU Desheng;ZHANG Xueying;ZHANG Jing;LI Baoyun(College of Information and Computer, Taiyuan University of Technology, Taiyuan 030024, China)

机构地区太原理工大学信息与计算机学院

出处《太原理工大学学报》 CAS 北大核心 2021年第5期769-774,共6页 Journal of Taiyuan University of Technology

基金国家自然科学基金资助项目(61371193) 山西省回国留学人员科研资助项目(HGKY2019025) 山西省研究生教育创新计划项目(2020BY130)。

关键词语音情感识别主辅网络长短时记忆单元卷积神经网络 speech emotion recognition main-auxiliary network long-short term memory convolutional neural network

分类号 TP181 [自动化与计算机技术—控制理论与控制工程] TP399 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1张雪英,孙颖,张卫,畅江.语音情感识别的关键技术[J].太原理工大学学报,2015,46(6):629-636 643. 被引量：18

二级参考文献26

1高维深.基于HMM/ANN混合模型的非特定人语音识别研究[D].电子科技大学2013
2尤鸣宇.语音情感识别的关键技术研究[D].浙江大学2007
3郅菲菲.字词认知N170成分发展的人工语言训练研究[D].浙江师范大学2013
4王魁.汉字视知觉左侧化N170-反映字形加工还是语音编码[D].西南大学2012
5聂聃.基于脑电的情感识别[D].上海交通大学2012
6赵仑,著.ERPs实验教程[M]. 东南大学出版社, 2010
7Nia Cason,Corine Astésano,Daniele Sch?n.Bridging music and speech rhythm: Rhythmic priming and audio-motor training affect speech perception[J]. Acta Psychologica . 2014
8Lauri Nummenmaa,Heini Saarim?ki,Enrico Glerean,Athanasios Gotsopoulos,Iiro P. J??skel?inen,Riitta Hari,Mikko Sams.Emotional speech synchronizes brains across listeners and engages large-scale dynamic brain networks[J]. NeuroImage . 2014
9K. Sreenivasa Rao,Shashidhar G. Koolagudi,Ramu Reddy Vempada.Emotion recognition from speech using global and local prosodic features[J]. International Journal of Speech Technology . 2013 (2)
10Ferenc Honbolygó,Valéria Csépe.Saliency or template? ERP evidence for long-term representation of word stress[J]. International Journal of Psychophysiology . 2012

共引文献17

1张雪英,张婷,孙颖,张卫,畅江.情感语音数据库优化及PAD情感模型量化标注[J].太原理工大学学报,2017,48(3):469-474. 被引量：14
2崔婧,刘永翔.智能电视的交互设计研究[J].设计,2018,31(2):140-141. 被引量：2
3任国凤,张雪英,李东,闫建政.普通话双模态情感语音数据库的设计与评价[J].现代电子技术,2018,41(14):182-186. 被引量：1
4金升菊.基于层次集成稀疏表示在语音感情计算中的应用[J].福建电脑,2018,34(9):55-56.
5张雪英,张婷,孙颖,张卫.基于PAD模型的级联分类情感语音识别[J].太原理工大学学报,2018,49(5):731-735. 被引量：8
6陈逸灵,程艳芬,陈先桥,王红霞,李超.PAD三维情感空间中的语音情感识别[J].哈尔滨工业大学学报,2018,50(11):160-166. 被引量：6
7任杰,郭卉,姜囡.不同情感的语音声学特征分析[J].光电技术应用,2019,34(5):31-36. 被引量：2
8李晓宇,徐勇,张心蕊,汪倩,武雅利.语音情感识别研究进展分析[J].现代计算机,2020,26(20):44-47.
9张会云,黄鹤鸣,李伟,黄志东.基于AA-LSTM网络的语音情感识别研究[J].计算机仿真,2021,38(3):211-216. 被引量：2
10张会云,黄鹤鸣,李伟,康杰,无.语音情感识别研究综述[J].计算机仿真,2021,38(8):7-17. 被引量：19

同被引文献67

1Yong Bie,Yan Yang.A Multitask Multiview Neural Network for End-to-End Aspect-Based Sentiment Analysis[J].Big Data Mining and Analytics,2021,4(3):195-207. 被引量：5
2王胜.基于隐马尔可夫模型的语音情感识别[J].黑龙江科技信息,2010(28):2-2. 被引量：2
3张石清,李乐民,赵知劲.基于一种改进的监督流形学习算法的语音情感识别[J].电子与信息学报,2010,32(11):2724-2729. 被引量：21
4黄永明,章国宝,李雄,达飞鹏.全局特征及弱尺度融合策略的小样本语音情感识别[J].声学学报,2012,37(3):330-338. 被引量：9
5冯正权,何庆华,朱新建,闫庆广,高丹丹,吴宝明.基于情景姿态的帕金森病患的肢体失衡与震颤检测系统研究[J].中国医学物理学杂志,2012,29(3):3434-3437. 被引量：2
6储雯,李银国,徐洋,孟祥涛.基于段级特征主成分分析的说话人识别算法[J].计算机应用,2013,33(7):1935-1937. 被引量：4
7韩文静,李海峰,阮华斌,马琳.语音情感识别研究进展综述[J].软件学报,2014,25(1):37-50. 被引量：171
8周悦,曾上游,杨远飞,冯燕燕,潘兵.基于分组模块的卷积神经网络设计[J].微电子学与计算机,2019,36(2):68-72. 被引量：4
9杨晓杰,王闳毅,陈金河,和文杰,黄继业.快速傅里叶变换算法在音频功放中的应用[J].电子技术（上海）,2015,42(7):33-35. 被引量：4
10金琴,陈师哲,李锡荣,杨刚,许洁萍.基于声学特征的语言情感识别[J].计算机科学,2015,42(9):24-28. 被引量：9

引证文献8

1李瑞航,吴红兰,孙有朝,吴华聪.基于深度残差收缩网络多特征融合语音情感识别[J].数据采集与处理,2022,37(3):542-554. 被引量：5
2孙东辉,张珣.语义情感分析沉浸式智能客厅模型研究[J].软件导刊,2022,21(6):49-56.
3梁科晋,张海军,刘雅情,张昱,王月阳.混合多尺度卷积结合双层LSTM语音情感识别[J].计算机与现代化,2023(1):63-68. 被引量：3
4侯晓丽,赵雅,严慧深,程宏.基于深度LSTM残差网络的帕金森症诊断方法[J].中国医学物理学杂志,2023,40(5):609-615.
5李宝芸,张雪英,李娟,黄丽霞,陈桂军,孙颖.基于多任务深度特征提取及MKPCA特征融合的语音情感识别[J].太原理工大学学报,2023,54(5):782-788. 被引量：3
6杨正理,吴馥云,陈海霞.深度残差收缩网络的多特征锅炉炉管声波信号故障识别[J].智能系统学报,2023,18(5):1108-1116.
7张家豪,章昭辉,严琦,王鹏伟.基于语音节奏差异的情感识别方法[J].计算机科学,2024,51(4):262-269. 被引量：2
8梁科晋,张海军.基于改进注意力机制的多路卷积课堂语音情感识别模型[J].计算机与数字工程,2024,52(9):2645-2650.

二级引证文献12

1杨正理,吴馥云,陈海霞.深度残差收缩网络的多特征锅炉炉管声波信号故障识别[J].智能系统学报,2023,18(5):1108-1116.
2杜金丽,王志成,史武超.基于时频上下文信息提取的心理诊断机器人情感识别研究[J].自动化与仪器仪表,2024(1):146-149. 被引量：1
3相增辉,张国梁,庞渊源,陈鑫,王鑫.基于深度卷积神经网络的智能机器人语音自动识别方法[J].自动化技术与应用,2024,43(4):43-46. 被引量：3
4董胡,彭高丰,陈伟.基于DPCNN-SLSTM的中文儿童语音情感识别[J].通信技术,2024,57(7):666-671.
5董胡,彭高丰,李垣陵.中文儿童语音情感识别研究综述[J].特立研究,2024(2):16-21.
6韦灵,卢光云,唐爱龙.基于混合神经网络的个性化自然语言情感识别系统[J].自动化与仪表,2024,39(9):26-28.
7董胡,彭高丰,夏明霞.儿童语音情感识别对其社会情绪能力发展的影响研究[J].计算机应用文摘,2024,40(19):160-162.
8周传华,郝敏,曾辉,王勇.基于MHA-ResNet的语音情绪识别算法[J].微电子学与计算机,2024,41(9):41-46.
9朱洋,曾庆宁,赵学军.双通道解码的端到端连续语音识别[J].桂林电子科技大学学报,2024,44(2):167-173.
10李珊珊,边巴旺堆.基于双向长短时记忆网络的藏语语音情感识别[J].信息技术与信息化,2024(10):12-15.

1薛栋,武加霞.职业教育教师数字教学能力:参考框架、发展脉络与提升策略——基于2010-2019年全国职业院校教师信息化教学能力比赛(1)的分析[J].职业技术教育,2021,42(12):41-48. 被引量：34
2杨政,郑晟.一种基于Hopfield算法的螺丝拧装机路径优化方法[J].现代电子技术,2021,44(19):158-162. 被引量：2
3王景发,毛德华,杜会石,王宗明.集成Sentinel 1/2卫星影像的哈尼湿地森林沼泽制图研究[J].湿地科学与管理,2021,17(3):2-7. 被引量：3
4张海燕,刘海成,肖武,张超,赖书敏.特高含水期油藏流场调整必要性定量评价方法[J].当代石油石化,2021,29(7):33-38. 被引量：2

太原理工大学学报

2021年第5期

浏览历史

内容加载中请稍等...

基于主辅网络特征融合的语音情感识别被引量：8

参考文献1

二级参考文献26

共引文献17

同被引文献67

引证文献8

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于主辅网络特征融合的语音情感识别 被引量：8

参考文献1

二级参考文献26

共引文献17

同被引文献67

引证文献8

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于主辅网络特征融合的语音情感识别被引量：8