基于卷积神经网络学习的语音情感特征降维方法研究被引量：4

Research on a dimension reduction method of speech emotional feature based on convolution neural network

下载PDF

导出

摘要针对语音信号认知中需要对语音情感快速精准的解析问题,提出了一种基于卷积神经网络(CNN)学习的特征降维方法。在原始语音情感数据提取大量特征的基础上,通过对不同维度特征进行归正获得其相应的特征矩阵。应用CNN对特征矩阵进行学习,对收敛后的CNN网络全连接层的权值进行分析,根据网络学习特性定义基于CNN的特征筛选准则(FR-CNN),即通过对比每类特征激活权值的不同,计算选择出最有利于分类的特征,得到降维高效的语音情感认知特征集F。在中国科学院自动化研究所提供的多模态情感数据库CHEAVD上,提取全部8类情感数据进行了实验测试,使用全体特征集构建的CNN分类器的类平均识别错误率相比基线减少了2.1%,而本文方法得到的降维后特征集F通过相同的CNN分类器的类平均错误率相比基线减少了9.4%。在对大量特征进行降维筛选的基础上,仅使用原特征集15%的特征,不仅有效增加了分类器的收敛速度,还使得识别错误率有所减小,同时在构筑实际语音情感识别系统时能够减少系统的复杂程度。本研究综合了数据的不同类型的特征信息,采用CNN网络学习特性进行特征二次优选与降维,为语音情感的特征提取问题提供了一个新的思路。 A feature reduction method based on convolution neural network（ CNN） is proposed to solve the problem of speech emotion recognition. On the basis of extracting a large number of features of the original speech emotion data,the corresponding feature matrix is obtained by normalizing the different dimension features. The CNN is used to study the feature matrix,and the weights of the CNN network are analyzed. According to the characteristics of the network learning feature,that is,by comparing the activation weights of each class,the features that are most favorable for classification are selected by calculation,so the feature selection criterion FR-CNN is obtained. The multi-modal emotional database CHEAVD provided by the Institute of Automation of Chinese Academy of Sciences is used to test all the eight kinds of emotional data,showing that the average recognition error rate of the CNN classifier constructed with all the feature sets is reduced by 2. 1% compared to the baseline results,while the average recognition error rate of the same CNN classifier constructed with dimension reduction F feature set is reduced by9. 4%. In addition,using only 15% of original feature set＇s features on the basis of dimensional reduction of a large number of features,can not only effectively increase the convergence speed of the classifier,but also make the recognition error rate reduced,at the same time in the actual speech emotion recognition system,the complexity of system can also be reduced. The study provides a new idea for the feature extraction of speech emotion.

作者薄洪健马琳孔祥浩李海峰

机构地区哈尔滨工业大学计算机科学与技术学院

出处《高技术通讯》北大核心 2017年第11期889-898,共10页 Chinese High Technology Letters

基金国家自然科学基金(61671187) 深圳市基础研究(JCYJ20150929143955341 JCYJ20150625142543470) 语言语音教育部-微软重点实验室开放基金(HIT.KLOF.2015OXX HIT.KLOF.2016OXX)资助项目

关键词模式识别语音情感卷积神经网络(CNN) 特征优选准则特征降维 pattern recognition, speech emotion, eonvolutional neural network （CNN） , feature selection cri-terion, feature reduction

分类号 TN912.3 [电子电信—通信与信息系统] TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1蒋丹宁,蔡莲红.基于语音声学特征的情感信息识别[J].清华大学学报（自然科学版）,2006,46(1):86-89. 被引量：38
2韩文静,李海峰,韩纪庆.基于长短时特征融合的语音情感识别方法[J].清华大学学报（自然科学版）,2008,48(S1):708-714. 被引量：20
3王海鹤,陆捷荣,詹永照,毛启容.基于增量流形学习的语音情感特征降维方法[J].计算机工程,2011,37(12):144-146. 被引量：5
4齐晓倩,陈鸿昶,黄海.双向二维加权LPP语音特征降维算法[J].小型微型计算机系统,2012,33(7):1588-1591. 被引量：1

二级参考文献29

1蒋丹宁,蔡莲红.基于语音声学特征的情感信息识别[J].清华大学学报（自然科学版）,2006,46(1):86-89. 被引量：38
2王治平,赵力,邹采荣.基于基音参数规整及统计分布模型距离的语音情感识别[J].声学学报,2006,31(1):28-34. 被引量：26
3Tenenbaum J B, de Silva V, Langford J C. A Global Geometric Framework for Nonlinear Dimensionality Reduction[J]. Science, 2000, 290(22): 2319-2323.
4You Mingyu, Chen Chun, Bu Jiajun. Emotional Speech Analysis on Nonlinear Manifold[C] //Proc. of the 18th International Conference on Pattern Recognition. Hong Kong, China:[s. n.] , 2006: 91-94.
5Xie Bo, Wei Xuan, Chen Gencai, et al. Emotional Speech Database and Its Statistical Analysis of Prosodic Features[C] //Proc. of the 1st Affective Computing and Intelligent Interaction Conference. Beijing, China:[s. n.] , 2003: 221-225.
6Wang Xiaojia, Mao Qirong, Zhan Yongzhao. Speech Emotion Feature Selection Method Based on Contribution Analysis Algorithm of Neural Network[C] //Proc. of International Electronic Conference on Computer Science. Athens, Greece:[s. n.] , 2007: 26-28.
7Cowie R,Cowie E D,Tsapatsoulis N,et al.Emotion recognition in human-computer interaction[J].IEEE Signal Processing Magazine,2001,18(1):32-80.
8Paeschke A,Sendlmeier W F.Prosodic characteristics of emotional speech:measurements of fundamental frequency movements[A].Proc of ISCA Workshop on Speech and Emotion[C].Northern Ireland:Textflow,2000.75-80.
9Schuller B,Rigoll G,Lang M.Hidden markov model-based speech emotion recognition[A].Proc of ICASSP'03[C].New York:IEEE Press,2003.II,1-4.
10Cheveign A D,Kawahara H.YIN:A fundamental frequency estimator for speech and music[J].J Acoust Soc Am,2002,111(4):1917-1930.

共引文献57

1韩文静,李海峰,韩纪庆.基于长短时特征融合的语音情感识别方法[J].清华大学学报（自然科学版）,2008,48(S1):708-714. 被引量：20
2张立华,杨莹春.情感语音变化规律的特征分析[J].清华大学学报（自然科学版）,2008,48(S1):652-657. 被引量：14
3付丽琴,毛峡,陈立江.基于改进的排序式选举算法的语音情感融合识别[J].计算机应用,2009,29(2):381-385. 被引量：1
4赵腊生,张强,魏小鹏.语音情感识别研究进展[J].计算机应用研究,2009,26(2):428-432. 被引量：21
5韩文静,李海峰.基于韵律语段的语音情感识别方法研究[J].清华大学学报（自然科学版）,2009(S1):1363-1368. 被引量：8
6徐露,徐明星,杨大利.面向情感变化检测的汉语情感语音数据库[J].清华大学学报（自然科学版）,2009(S1):1413-1418. 被引量：6
7张少龙,吴佳鑫.语音信息的内容分析技术研究综述[J].现代图书情报技术,2007(4):28-31. 被引量：2
8余伶俐,蔡自兴,陈明义.语音信号的情感特征分析与识别研究综述[J].电路与系统学报,2007,12(4):76-84. 被引量：27
9邵艳秋,穗志方,韩纪庆,王志伟.小规模情感数据和大规模中性数据相结合的情感韵律建模研究[J].计算机研究与发展,2007,44(9):1624-1631.
10韩一,王国胤,杨勇.基于MFCC的语音情感识别[J].重庆邮电大学学报（自然科学版）,2008,20(5):597-602. 被引量：23

同被引文献45

1李爱军,邵鹏飞,党建武.情感表达的跨文化多模态感知研究[J].清华大学学报（自然科学版）,2009(S1):1393-1401. 被引量：6
2孙红进.基于GMM的语音情感信息识别[J].信息技术,2008,32(12):138-140. 被引量：1
3胡洁,曾祥金.一种快速且全局收敛的BP神经网络学习算法[J].系统科学与数学,2010,30(5):604-610. 被引量：9
4王甫龙,薄华.基于Gabor小波的人脸表情特征提取研究[J].电子设计工程,2012,20(3):63-66. 被引量：4
5李伟,何鹏举,杨恒,陈明.基于粗糙集和改进遗传算法优化BP神经网络的算法研究[J].西北工业大学学报,2012,30(4):601-606. 被引量：28
6王改革,郭立红,段红,刘逻,王鹤淇.基于萤火虫算法优化BP神经网络的目标威胁估计[J].吉林大学学报（工学版）,2013,43(4):1064-1069. 被引量：48
7李高玲,帖云,齐林.基于随机森林分类优化的多特征语音情感识别[J].微电子学与计算机,2019,36(1):70-73. 被引量：12
8张剑,屈丹,李真.基于词向量特征的循环神经网络语言模型[J].模式识别与人工智能,2015,28(4):299-305. 被引量：40
9赵会敏,雒江涛,杨军超,徐正,雷晓,罗林.集成BP神经网络预测模型的研究与应用[J].电信科学,2016,32(2):60-67. 被引量：19
10梁瑞宇,赵力,陶华伟,王青云,邹采荣.仿选择性注意机制的语音情感识别算法[J].声学学报,2016,41(4):537-544. 被引量：7

引证文献4

1钟琪,冯亚琴,王蔚.跨语言语料库的语音情感识别对比研究[J].南京大学学报（自然科学版）,2019,55(5):765-773. 被引量：4
2钟昕孜,廖闻剑.基于自编码器的语音情感识别方法研究[J].电子设计工程,2020,28(6):69-73. 被引量：5
3林哲,全海燕.利用单形进化优化的BP神经网络学习算法[J].计算机仿真,2020,37(3):270-274. 被引量：3
4王静,刘洪岩,刘芳芳,王青青.基于随机森林和卷积特征学习的人机交互语音情感识别[J].系统仿真学报,2020,32(12):2388-2400. 被引量：3

二级引证文献15

1张玲芝,马小晴.教育在慢性肾小球肾炎治疗矛盾中的作用[J].医学与哲学,2000,21(5):26-26.
2孔阳.基于ANFIS模型的用户心理情感动态判断系统设计[J].电子设计工程,2021,29(5):43-46.
3杨泉.基于随机森林的N1+N2结构语法关系判定方法研究[J].重庆理工大学学报（自然科学）,2021,35(7):125-130. 被引量：5
4胡正伟,赵然,陈维寅,谢志远.基于改进去噪自编码器的电力线信道传输特性识别实现[J].电力信息与通信技术,2021,19(9):86-92. 被引量：4
5任永泰,武方宸.机械加工零件表面磨损区域图像检测方法[J].制造业自动化,2022,44(5):196-200. 被引量：2
6朱亚辉.基于Bi-LSTM-Attention的英文文本情感分类方法[J].电子设计工程,2022,30(16):27-30. 被引量：4
7李娅,马琳.基于语音识别的日语机器翻译系统设计[J].自动化与仪器仪表,2022(7):229-232. 被引量：1
8郭一格.通信ARM语音编码丢帧差错检测方法研究[J].信息与电脑,2022,34(13):4-6. 被引量：1
9张卫,贾宇,张雪英.自编码器和LSTM在混合语音情感的应用[J].计算机仿真,2022,39(11):258-262.
10刘俊君.基于大数据分析的英语线上线下混合式教学效果评价[J].长春大学学报,2023,33(2):27-32. 被引量：4

1孔祥浩,马琳,薄洪健,李海峰.CNN与CSP相结合的脑电特征提取与识别方法研究[J].信号处理,2018,34(2):164-173. 被引量：16
2张翠玲.丙型肝炎的筛选准则及评价[J].微生物学免疫学进展,1992,20(3):38-40.
3梅磊磊,屈婧,李会玲.第二语言学习的认知神经机制[J].华南师范大学学报（社会科学版）,2017(6):63-73. 被引量：5
4沈林,陈建辉.基于下近似分布的变精度邻域粗糙集属性约简算法[J].贵州大学学报（自然科学版）,2017,34(4):53-58. 被引量：3
5谌凤山.为什么要让学生怕[J].班主任之友（小学版）（下半月）,2012,0(11):39-40.
6孔倩,王杜娟,王延章,JIN Yaochu,江彬.基于多目标神经网络的前列腺癌诊断方法[J].系统工程理论与实践,2018,38(2):532-544. 被引量：7
7范燕燕.凌云壮志勇攀高峰——记中国科学院自动化研究所副研究员汪凌峰[J].科学中国人,2017(9X):52-53.
8孟凡江,石秀强,窦一康,张翟,许锋,胡正林.压水堆堆内构件老化评估方法及其应用[J].核科学与工程,2017,37(5):697-703. 被引量：1
9王娅琦,陶书生,李世欣,尹宝娟,赵力,张泽宇.M310及改进型机组运行阶段共性问题研究[J].核科学与工程,2017,37(6):902-907. 被引量：1
10汤仕普.“改邪归正”的源流与变体[J].励耘语言学刊,2017(2):256-266.

高技术通讯

2017年第11期

浏览历史

内容加载中请稍等...

基于卷积神经网络学习的语音情感特征降维方法研究被引量：4

参考文献4

二级参考文献29

共引文献57

同被引文献45

引证文献4

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于卷积神经网络学习的语音情感特征降维方法研究 被引量：4

参考文献4

二级参考文献29

共引文献57

同被引文献45

引证文献4

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于卷积神经网络学习的语音情感特征降维方法研究被引量：4