面向中文语音情感识别的改进栈式自编码结构被引量：6

Improved stacked autoencoder for Chinese speech emotion recognition

下载PDF

导出

摘要为进一步提高汉语语音情感识别率,基于深度学习中的自编码、降噪自编码及稀疏自编码的网络结构,提出了一种改进的栈式自编码结构.该结构第1层使用降噪自编码学习一个比输入特征维数更大的隐藏特征,第2层采用稀疏自编码学习稀疏性特征,最后使用softmax分类器进行分类识别.训练过程首先采用逐层预训练的方法,达到网络参数全面初始化的目的,然后对整个网络进行微调.在中文语音库上的情感识别实验显示,相较于单独使用栈式降噪或稀疏自编码,所提结构具有更好的识别效果.此外,基于CASIA库的对比实验显示,该结构比K近邻算法、稀疏表示方法、传统支持向量机和人工神经网络识别率分别提高了53.7%,29.8%,14.3%和1.9%.在自行录制的语音库中,该结构的识别率比人工神经网络提高了1.64%. An improved stacked autoencoder based on autoencoder,denoising autoencoder and sparse autoencoder is proposed to improve the Chinese speech emotion recognition. The first layer of the structure uses a denoising autoencoder to learn a hidden feature with a larger dimension than the dimension of the input features,and the second layer employs a sparse autoencoder to learn sparse features. Finally,a softmax classifer is applied to classify the features. In the training process,the layer-wise pre-training is used to achieve the purpose of initializing all parameters of the network,and then the whole network is fine-tuned. The experiments on Chinese databases show that the improved stacked autoencoders achieve a better recognition rate than the stacked denoising autoencoders or stacked sparse autoencoders. In addition,the comparative experiments based on CASIA database show that the recognition rate of the structure is improved by 53. 7%,29. 8%,14. 3% and 1. 9%,respectively,compared with the K-nearest neighbor algorithm,the sparse representation method,the traditional support vector machine and the artificial neural network. The recognition rate of this structure is 1. 64% higher than the artificial neural network on the self-recording database.

作者朱芳枚赵力梁瑞宇王青云邹采荣

机构地区东南大学水声信号处理教育部重点实验室南京工程学院通信工程学院

出处《东南大学学报（自然科学版）》 EI CAS CSCD 北大核心 2017年第4期631-636,共6页 Journal of Southeast University：Natural Science Edition

基金国家自然科学基金资助项目(61375028 61571106 61673108) 江苏省青蓝工程资助项目江苏省博士后科研资助计划资助项目(1601011B) 江苏省"六大人才高峰"资助项目(2016-DZXX-023) 中国博士后科学基金资助项目(2016M601695)

关键词语音情感识别改进的栈式自编码降噪自编码稀疏自编码 speech emotion recognition enhanced stacked autoencoder denoising autoencoder sparse autoencoder

分类号 TP391.42 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1张昕然,查诚,徐新洲,宋鹏,赵力.基于LDA+kernel-KNNFLC的语音情感识别方法[J].东南大学学报（自然科学版）,2015,45(1):5-11. 被引量：8
2蒋丹宁,蔡莲红.基于语音声学特征的情感信息识别[J].清华大学学报（自然科学版）,2006,46(1):86-89. 被引量：38
3韩文静,李海峰.情感语音数据库综述[J].智能计算机与应用,2013,3(1):5-7. 被引量：15

二级参考文献37

1Cowie R,Cowie E D,Tsapatsoulis N,et al.Emotion recognition in human-computer interaction[J].IEEE Signal Processing Magazine,2001,18(1):32-80.
2Paeschke A,Sendlmeier W F.Prosodic characteristics of emotional speech:measurements of fundamental frequency movements[A].Proc of ISCA Workshop on Speech and Emotion[C].Northern Ireland:Textflow,2000.75-80.
3Schuller B,Rigoll G,Lang M.Hidden markov model-based speech emotion recognition[A].Proc of ICASSP'03[C].New York:IEEE Press,2003.II,1-4.
4Cheveign A D,Kawahara H.YIN:A fundamental frequency estimator for speech and music[J].J Acoust Soc Am,2002,111(4):1917-1930.
5Tzanetakis G,Cook P.Musical genre classification of audio signals[J].IEEE Transactions on Speech and Audio Processing,2002,10(5):293-302.
6Lu L,Zhang H J,Jiang H.Content analysis of audio classification and segmentation[J].IEEE Transactions on Speech and Audio Processing,2002,10(7):504-516.
7Kittler J,Hatef M,Duin R P,et al.On combining classifiers[J].IEEE Transactions on Pattern Analysis and Machine Learning,1998,20(3):226-239.
8Scherer K R. Vocal communication of emotion: a review of research paradigms[J]. Speech Communication,2003,40(1/2):227-256.
9Scherer K R, Mortillaro M, Mehu M. Understanding the mechanisms underlying the production of facial expression of emotion: a componential perspective[J]. Emotion Review,2013,5(1):47-53.
10Lin J C, Wu C H, Wei W L. Error weighted semi-coupled hidden Markov model for audio-visual emotion recognition[J]. IEEE Transactions on Multimedia,2012,14(1):142-156.

共引文献57

1韩文静,李海峰,韩纪庆.基于长短时特征融合的语音情感识别方法[J].清华大学学报（自然科学版）,2008,48(S1):708-714. 被引量：20
2张立华,杨莹春.情感语音变化规律的特征分析[J].清华大学学报（自然科学版）,2008,48(S1):652-657. 被引量：14
3付丽琴,毛峡,陈立江.基于改进的排序式选举算法的语音情感融合识别[J].计算机应用,2009,29(2):381-385. 被引量：1
4赵腊生,张强,魏小鹏.语音情感识别研究进展[J].计算机应用研究,2009,26(2):428-432. 被引量：21
5徐露,徐明星,杨大利.面向情感变化检测的汉语情感语音数据库[J].清华大学学报（自然科学版）,2009(S1):1413-1418. 被引量：6
6张少龙,吴佳鑫.语音信息的内容分析技术研究综述[J].现代图书情报技术,2007(4):28-31. 被引量：2
7余伶俐,蔡自兴,陈明义.语音信号的情感特征分析与识别研究综述[J].电路与系统学报,2007,12(4):76-84. 被引量：27
8邵艳秋,穗志方,韩纪庆,王志伟.小规模情感数据和大规模中性数据相结合的情感韵律建模研究[J].计算机研究与发展,2007,44(9):1624-1631.
9韩一,王国胤,杨勇.基于MFCC的语音情感识别[J].重庆邮电大学学报（自然科学版）,2008,20(5):597-602. 被引量：23
10刘箴,潘志庚.虚拟人动机驱动的自主情绪模型研究[J].中国图象图形学报,2009,14(5):773-781. 被引量：17

同被引文献74

1印兴耀,孔国英,张广智.基于核主成分分析的地震属性优化方法及应用[J].石油地球物理勘探,2008,43(2):179-183. 被引量：40
2王寅,储泽祥.“我的妈呀/我的天哪”的选择倾向及制约因素[J].汉语学报,2011(1):7-15. 被引量：7
3印兴耀,周静毅.地震属性优化方法综述[J].石油地球物理勘探,2005,40(4):482-489. 被引量：129
4倪艳.Isomap算法在地震属性参数降维中的应用[J].西南民族大学学报（自然科学版）,2008,34(2):397-400. 被引量：5
5王晓阳,桂志先,高刚,张伟.K-L变换地震属性优化及其在储层预测中的应用[J].石油天然气学报,2008,30(3):96-98. 被引量：9
6袁野,刘洋.地震属性优化与预测新进展[J].勘探地球物理进展,2010,33(4):229-238. 被引量：25
7刘杏芳,郑晓东,徐光成,王玲,杨昊.Locally linear embedding-based seismic attribute extraction and applications[J].Applied Geophysics,2010,7(4):365-375. 被引量：5
8赵宪章.语图互仿的顺势与逆势——文学与图像关系新论[J].中国社会科学,2011(3):170-184. 被引量：133
9屠岸.我的惊讶与震撼[J].博览群书,2012(1):10-12. 被引量：1
10罗永国.基于改进的遗传算法的学生成绩预测模型[J].科技通报,2012,28(10):223-225. 被引量：7

引证文献6

1崔广新,李殿奎.基于自编码算法的深度学习综述[J].计算机系统应用,2018,27(9):47-51. 被引量：19
2万光荣.惊讶程度的多模态研究[J].湖南师范大学社会科学学报,2019,48(2):110-116. 被引量：2
3李松江,苏瑀,王鹏,黄春雨.一种自编码组合优化的成绩预测模型[J].企业科技与发展,2019,0(10):49-51.
4王浩滢.深度学习及其发展趋势研究综述[J].电子制作,2021,29(10):92-95. 被引量：7
5贾婧雯,蔡英,尔古打机.基于残差网络改进的中文语音情感识别[J].计算机工程与设计,2023,44(3):922-928. 被引量：4
6周单,钟晗.基于SSAE的地震属性融合技术[J].地球物理学进展,2024,39(2):647-660.

二级引证文献32

1万银,刘丁,任俊超,刘聪聪.基于栈式自编码网络的直拉硅单晶生长过程V/G软测量建模[J].仪器仪表学报,2020(10):277-286. 被引量：2
2张传部.影响啤酒中高级醇含量的主要因素及控制[J].酿酒科技,2000(3):58-59. 被引量：12
3韩立钦,张耀南,秦其明.深度学习自编码结合混合蛙跳算法提取农田高光谱影像端元[J].农业工程学报,2019,35(6):167-173. 被引量：7
4陈亮,刘晓东.基于深度ELM网络的电力变压器故障诊断[J].科学大众（科技创新）,2018,0(9):33-34.
5苗开超,韩婷婷,王传辉,章军,姚叶青,周建平.基于LSTM网络的大雾临近预报模型及应用[J].计算机系统应用,2019,28(5):215-219. 被引量：10
6刘颖,刘红燕,范九伦,公衍超,李莹华,王富平,卢津.基于深度学习的小目标检测研究与应用综述[J].电子学报,2020,48(3):590-601. 被引量：87
7燕婷,王于超,金中一.基于CNN与GRU降噪自编码的心电信号分类方法[J].软件导刊,2020,19(4):75-78. 被引量：2
8韩竹,高连如,张兵,孙旭,李庆亭.高分五号高光谱图像自编码网络非线性解混[J].遥感学报,2020,24(4):388-400. 被引量：9
9陈海宇,贺珂珂,王惠中.深度学习在电机故障诊断中的研究现状综述[J].电气自动化,2020,42(3):1-3. 被引量：2
10郭华平,刁小宇,刘宏兵.一种基于降噪自编码的组合分类算法[J].信阳师范学院学报（自然科学版）,2020,33(4):657-662. 被引量：2

1胡力文.Flash动画制作技能训练的方法研究[J].电脑知识与技术（过刊）,2016,22(8X):93-94.
2机器人[J].信息技术与信息化,2017,0(6):15-15.
3张青,颜学峰.融合概率分布和单调性的支持向量回归算法[J].控制理论与应用,2017,34(5):671-676. 被引量：1

东南大学学报（自然科学版）

2017年第4期

浏览历史

内容加载中请稍等...

面向中文语音情感识别的改进栈式自编码结构被引量：6

参考文献3

二级参考文献37

共引文献57

同被引文献74

引证文献6

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

面向中文语音情感识别的改进栈式自编码结构 被引量：6

参考文献3

二级参考文献37

共引文献57

同被引文献74

引证文献6

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

面向中文语音情感识别的改进栈式自编码结构被引量：6