基于参数迁移和卷积循环神经网络的语音情感识别被引量：29

Speech Emotion Recognition Model Based on Parameter Transfer and Convolutional Recurrent Neural Network

下载PDF

导出

摘要在语音情感识别研究中,已有基于深度学习的方法大多没有针对语音时频两域的特征进行建模,且存在网络模型训练时间长、识别准确性不高等问题。语谱图是语音信号转换后具有时频两域的特殊图像,为了充分提取语谱图时频两域的情感特征,提出了一种基于参数迁移和卷积循环神经网络的语音情感识别模型。该模型把语谱图作为网络的输入,引入AlexNet网络模型并迁移其预训练的卷积层权重参数,将卷积神经网络输出的特征图重构后输入LSTM(Long Short-Term Memory)网络进行训练。实验结果表明,所提方法加快了网络训练的速度,并提高了情感识别的准确率。 In the study of speech emotion recognition, most methods based on deep learning don’t model the time-frequency characteristics of speech. Moreover, the network model has long training time and the recognition accuracy is not high.The spectrogram is a special image with both time and frequency domains after the conversion of speech signals. In order to fully extract the emotional features of time-frequency domain of the spectrogram, this paper proposes a speech emotion recognition model based on parameter transfer and convolutional recurrent neural network. The proposed model uses the spectrogram as the input of network, introduces the AlexNet network model, and transfers its weighting parameters of pretrained convolutional layer. The output feature maps of convolutional neural network is put into long short-term memory neural networks for training after being reconstructed. The experimental results show that the proposed method has faster speed of network training and higher accuracy of emotion recognition.

作者缪裕青邹巍刘同来周明蔡国永 MIAO Yuqing;ZOU Wei;LIU Tonglai;ZHOU Ming;CAI Guoyong(School of Computer Science and Information Security, Guilin University of Electronic Technology, Guilin, Guangxi541004, China;Guilin Hivision Technology Co. Ltd., Guilin, Guangxi 541004, China)

机构地区桂林电子科技大学计算机与信息安全学院桂林海威科技股份有限公司

出处《计算机工程与应用》 CSCD 北大核心 2019年第10期135-140,198,共7页 Computer Engineering and Applications

基金国家自然科学基金(No.61763007) 广西自然科学基金(No.2014GXNSFAA118395) 广西高校图像图形智能处理重点实验室研究项目(No.GIIP201706) 广西自然科学基金重点项目(No.2017GXNSFDA198028) 桂林电子科技大学研究生教育创新计划资助项目(No.2016YJCX72 No.2017YJCX50)

关键词语谱图深度学习参数迁移卷积循环神经网络语音情感识别 spectrogram deep learning parameter transfer convolutional recurrent neural network speech emotion recognition

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1韩文静,李海峰,阮华斌,马琳.语音情感识别研究进展综述[J].软件学报,2014,25(1):37-50. 被引量：163
2陶华伟,张昕然,梁瑞宇,查诚,赵力,王青云.面向语音情感识别的改进可辨别完全局部二值模式[J].声学学报,2016,41(6):905-912. 被引量：8

二级参考文献87

1van Bezooijen R,Otto SA,Heenan TA. Recognition of vocal expressions of emotion:A three-nation study to identify universal characteristics[J].{H}JOURNAL OF CROSS-CULTURAL PSYCHOLOGY,1983,(04):387-406.
2Tolkmitt FJ,Scherer KR. Effect of experimentally induced stress on vocal parameters[J].Journal of Experimental Psychology Human Perception Performance,1986,(03):302-313.
3Cahn JE. The generation of affect in synthesized speech[J].Journal of the American Voice Input/Output Society,1990.1-19.
4Moriyama T,Ozawa S. Emotion recognition and synthesis system on speech[A].Florence:IEEE Computer Society,1999.840-844.
5Cowie R,Douglas-Cowie E,Savvidou S,McMahon E,Sawey M,Schro. Feeltrace:An instrument for recording perceived emotion in real time[A].Belfast:ISCA,2000.19-24.
6Grimm M,Kroschel K. Evaluation of natural emotions using self assessment manikins[A].Cancun,2005.381-385.
7Grimm M,Kroschel K,Narayanan S. Support vector regression for automatic recognition of spontaneous emotions in speech[A].IEEE Computer Society,2007.1085-1088.
8Eyben F,Wollmer M,Graves A,Schuller B Douglas-Cowie E Cowie R. On-Line emotion recognition in a 3-D activation-valencetime continuum using acoustic and linguistic cues[J].Journal on Multimodal User Interfaces,2010,(1-2):7-19.
9Giannakopoulos T,Pikrakis A,Theodoridis S. A dimensional approach to emotion recognition of speech from movies[A].Taibe:IEEE Computer Society,2009.65-68.
10Wu DR,Parsons TD,Mower E,Narayanan S. Speech emotion estimation in 3d space[A].Singapore:IEEE Computer Society,2010.737-742.

共引文献168

1郑成杰,郑之.基于最大分类器差异域适应方法的3维点云分类[J].信息与控制,2023,52(5):588-597.
2张石清,刘瑞欣,赵小明.跨库语音情感识别研究进展[J].计算机系统应用,2022,31(11):31-48.
3张会云.语音情感识别研究综述[J].信息通信,2019,0(11):58-60. 被引量：2
4李霞,卢官明,闫静杰,张正言.多模态维度情感预测综述[J].自动化学报,2018,44(12):2142-2159. 被引量：24
5李高玲,帖云,齐林.基于随机森林分类优化的多特征语音情感识别[J].微电子学与计算机,2019,36(1):70-73. 被引量：12
6张福泉.情感建模及情感识别技术研究[J].廊坊师范学院学报（自然科学版）,2014,14(5):23-26. 被引量：3
7孙凌云,何博伟,刘征,杨智渊.基于语义细胞的语音情感识别[J].浙江大学学报（工学版）,2015,49(6):1001-1008. 被引量：2
8余春艳,翁子林.音频情感感知与视频精彩片段提取[J].计算机辅助设计与图形学学报,2015,27(10):1890-1899. 被引量：3
9孙颖,姚慧,张雪英,张奇萍.基于混沌特性的情感语音特征提取[J].天津大学学报（自然科学与工程技术版）,2015,48(8):681-685. 被引量：12
10陶华伟,査诚,梁瑞宇,张昕然,赵力,王青云.面向语音情感识别的语谱图特征提取算法[J].东南大学学报（自然科学版）,2015,45(5):817-821. 被引量：17

同被引文献213

1张明亮,陈雨.基于全卷积神经网络的语音增强算法[J].计算机应用研究,2020,37(S01):135-137. 被引量：7
2徐印赟,江明,李云飞,吴云飞,卢桂馥.基于改进YOLO及NMS的水果目标检测[J].电子测量与仪器学报,2022,36(4):114-123. 被引量：22
3万磊,佟鑫,盛明伟,秦洪德,唐松奇.Softmax分类器深度学习图像分类方法应用综述[J].导航与控制,2019,0(6):1-9. 被引量：55
4陈继华,李岚,钱坤喜.基于多生理信号的情绪初步识别[J].生物医学工程研究,2006,25(3):141-146. 被引量：20
5赵杰文,刘少鹏,邹小波,石吉勇,殷小平.基于支持向量机的缺陷红枣机器视觉识别[J].农业机械学报,2008,39(3):113-115. 被引量：44
6汤井田,胡丹,龚智敏.基于SVM的SAR图像分类研究[J].遥感技术与应用,2008,23(3):341-345. 被引量：13
7马学武,何建国.基于机器视觉红枣无损自动分级设备的研制[J].宁夏工程技术,2008,7(3):213-215. 被引量：18
8张石清,赵知劲,雷必成,杨广映.结合音质特征和韵律特征的语音情感识别[J].电路与系统学报,2009,14(4):120-123. 被引量：9
9许雪琼,余小清,李昌莲,万旺根.改进波形相似叠加算法的音频时长调整[J].应用科学学报,2009,27(5):514-519. 被引量：2
10王胜.基于隐马尔可夫模型的语音情感识别[J].黑龙江科技信息,2010(28):2-2. 被引量：1

引证文献29

1廖小琴,徐杨.面向BSP-CNN的短文本情感倾向性分类研究[J].计算机工程与应用,2019,55(23):120-124. 被引量：5
2孙中皋,薛全德,王新军,黄晓理.基于脑电信号的情感识别方法综述[J].北京生物医学工程,2020,39(2):186-195. 被引量：11
3郭敏钢,宫鹤.AlexNet改进及优化方法的研究[J].计算机工程与应用,2020,56(20):124-131. 被引量：21
4王静,刘洪岩,刘芳芳,王青青.基于随机森林和卷积特征学习的人机交互语音情感识别[J].系统仿真学报,2020,32(12):2388-2400. 被引量：3
5王玺,闫超,武曲,郭坤.基于PCA-RF分类的语音情感识别研究[J].科学技术创新,2021(29):91-93. 被引量：2
6马本学,李聪,李玉洁,喻国威,李小占,张原嘉.基于残差网络和图像处理的干制哈密大枣外部品质检测[J].农业机械学报,2021,52(11):358-366. 被引量：6
7钱佳琪,黄鹤鸣,张会云.基于ARCNN-GAP网络的语音情感识别[J].计算机与现代化,2021(12):91-95.
8刘鹏,谢春华,安文韬,李良伟.改进AlexNet的高分三号全极化海岛地物分类[J].遥感信息,2021,36(5):142-147. 被引量：3
9柴合丹,林新然,邓慧敏,张中军.深度学习在碱基识别中的应用研究[J].周口师范学院学报,2021,38(5):55-61.
10李聪,喻国威,张原嘉,马本学.基于ResNeXt与迁移学习的干制哈密大枣果梗/花萼及缺陷识别[J].食品与机械,2022,38(1):135-140. 被引量：3

二级引证文献93

1孙俊东,刘喜,佘长超,刘思哲,王兆飞,于洋.基于IFA-CNN的新能源矿卡锂离子电池健康状态估算[J].煤炭工程,2023,55(S01):162-168.
2唐魏,郑源,潘虹,徐晶珺.引入动态调节学习率的SAE轴承故障诊断研究[J].计算机工程与应用,2020,56(20):264-269. 被引量：10
3龚雅云,唐小煜,刘思睿,郑小冰.基于面部情绪识别的物理实验教学过程评价[J].物理实验,2020,40(9):20-25. 被引量：3
4樊红卫,马宁阁,张旭辉,高烁琪,曹现刚,马宏伟.基于堆栈降噪自编码网络的机械设备磨损状态识别[J].工矿自动化,2020,46(11):6-11. 被引量：4
5张瑞青,李张威,郝建军,孙磊,李浩,韩鹏.基于迁移学习的卷积神经网络花生荚果等级图像识别[J].农业工程学报,2020,36(23):171-180. 被引量：25
6卢官明,丛文康,魏金生,闫静杰.基于CNN和LSTM的脑电信号情感识别[J].南京邮电大学学报（自然科学版）,2021,41(1):58-64. 被引量：10
7谢黎,尹玲.基于眼动信号追踪技术的产品情感设计系统应用实践[J].中国新技术新产品,2021(4):35-38.
8申艳光,贾耀清.基于词共现与图卷积的文本分类方法[J].计算机工程与应用,2021,57(11):173-178. 被引量：6
9邓丽娜,王晓亮.基于生理信号的情绪识别研究综述[J].物联网技术,2021,11(7):33-41. 被引量：4
10杨泉.基于随机森林的N1+N2结构语法关系判定方法研究[J].重庆理工大学学报（自然科学）,2021,35(7):125-130. 被引量：5

1杨明极,张家彬.基于深度神经网络的语音情感识别方法[J].科学技术与工程,2019,19(8):127-131. 被引量：11
2罗相林,秦雪佩,贾年.基于MFCC及其一阶差分特征的语音情感识别研究[J].现代计算机,2019,25(11):20-24. 被引量：6
3王静一,靳乔乔,赵豪越,陈思琪.基于数据挖掘技术的语音情感识别[J].数码世界,2019,0(2):42-42.
4闫河,董莺艳,王鹏,罗成,李焕.基于CNN-LSTM网络的声纹识别研究[J].计算机应用与软件,2019,36(4):166-170. 被引量：19
5闫峰,张兴磊,唐贝,肖程之.熵权法在地下水环境质量评价中的局限性[J].南昌大学学报（工科版）,2019,41(1):11-14. 被引量：3
6孙鑫,陈海松,王清.基于深度置信网络的移动电站发电机故障诊断[J].装备制造技术,2019(3):168-170. 被引量：1
7焦莉莉.小波变换在图像去噪中的应用[J].科学大众（科技创新）,2018,0(12):46-46.
8侯春华.基于长短期记忆神经网络的油田新井产油量预测方法[J].油气地质与采收率,2019,26(3):105-110. 被引量：25
9金占勇,田亚鹏,白莽.基于长短时记忆网络的突发灾害事件网络舆情情感识别研究[J].情报科学,2019,37(5):142-147. 被引量：23
10邱洪涛,孙裴,侯金波,辜丽川,乔焰,焦俊.基于Caffe的猪肉新鲜度分级的设计与实现[J].江苏农业学报,2019,35(2):461-468. 被引量：8

计算机工程与应用

2019年第10期

浏览历史

内容加载中请稍等...

基于参数迁移和卷积循环神经网络的语音情感识别被引量：29

参考文献2

二级参考文献87

共引文献168

同被引文献213

引证文献29

二级引证文献93

相关作者

相关机构

相关主题

浏览历史

基于参数迁移和卷积循环神经网络的语音情感识别 被引量：29

参考文献2

二级参考文献87

共引文献168

同被引文献213

引证文献29

二级引证文献93

相关作者

相关机构

相关主题

浏览历史

基于参数迁移和卷积循环神经网络的语音情感识别被引量：29