基于语谱图提取瓶颈特征的情感识别算法研究被引量：7

Research on Emotion Recognition Algorithm Based on Spectrogram Feature Extraction of Bottleneck Feature

下载PDF

导出

摘要传统的谱特征(诸如MFCC)来源于对语谱图特征的再加工提取,但存在着因分帧处理引起相邻帧谱特征之间相关性被忽略的问题和所提取的谱特征与目标标签不相关的问题。这导致了从语谱图中提取的特征丢失了很多有用信息。为此,提出了获取深度谱特征(Deep Spectral Feature,DSF)的算法。DSF的特征是把直接从语谱图中提取的谱特征用于深度置信网络(DBN)训练,进而从隐层节点数较少的瓶颈层提取到瓶颈特征。为了解决传统谱特征的第一种缺陷,采用相邻多帧语音信号中提取的特征参数构成DSF特征。而深度置信网络所具有的强大自学习能力以及与目标标签密切相关的性能,使得经过微调的DSF特征能够解决传统谱特征的第二个缺陷。大量的仿真实验结果表明,相对于传统MFCC特征,经过微调的DSF特征在语音情感识别领域的识别率比传统MFCC高3.97%。 Traditional spectral features （ such as MFCC） can be extracted from spectrogram features. However, the relation between spec- tral features of adjacent frames has been ignored owing to frames division. What＇ s worse,the extracted spectral features are uncorrelated with the labels of corresponding targets ,which lead to useful feature information lost. Therefore,a new Deep Spectral Feature （DSF） al- gorithm has been proposed,in which DSF features have been gained by applying spectral feature directly extracted from spectrogram for Deep Belief Network （DBN） and a kind of bottleneck （BN） feature from the bottleneck layer has been obtained with least hidden layer nodes number. To deal with the first drawback, a method is proposed to extract characteristic parameters from adjacent frames that consist of DSF features. What is more, owing to strong self-learning ability and substantial relationship with target labels in deep belief network, the proposed DSF feature can supply a better solution to the second drawback of conventional spectral features. Experimental results show that the accuracy of DSF feature with proper fine-tuning outperforms traditional MFCC about 3.97% in speech emotion recognition.

作者李姗徐珑婷

机构地区南京邮电大学通信与信息工程学院

出处《计算机技术与发展》 2017年第5期82-86,共5页 Computer Technology and Development

基金国家自然科学基金资助项目(61271335) 国家"863"高技术发展计划项目(2006AA010102)

关键词瓶颈特征深度置信网络谱特征语谱图情感识别 bottleneck feature deep belief network spectral feature spectrogram emotion recognition

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献5

1王一,杨俊安,刘辉,柳林.基于层次稀疏DBN的瓶颈特征提取方法[J].模式识别与人工智能,2015,28(2):173-180. 被引量：10
2李晋徽,杨俊安,王一.一种新的基于瓶颈深度信念网络的特征提取方法及其在语种识别中的应用[J].计算机科学,2014,41(3):263-266. 被引量：10
3陈雷,杨俊安,王一,王龙.LVCSR系统中一种基于区分性和自适应瓶颈深度置信网络的特征提取方法[J].信号处理,2015,31(3):290-298. 被引量：9
4张春霞,姬楠楠,王冠伟.受限波尔兹曼机[J].工程数学学报,2015,32(2):159-173. 被引量：102
5陶华伟,査诚,梁瑞宇,张昕然,赵力,王青云.面向语音情感识别的语谱图特征提取算法[J].东南大学学报（自然科学版）,2015,45(5):817-821. 被引量：17

二级参考文献97

1李思一,戴蓓蒨,王海祥.基于子带GMM-UBM的广播语音多语种识别[J].数据采集与处理,2007,22(1):14-18. 被引量：2
2叶世伟,史忠植.神经网络原理[M].北京:机械工业出版社,2006.
3Rabiner L R,Sambur M R.An algorithm for determining the endpoints of isolated utterances[J].The Bell System Technical Journal,1975,54(2):297-315.
4Reynolds D A,Quatieri T F,Dunn R B.Speaker verification using adapted Gaussian mixture models[C] //Digital Signal Processing.2000:19-41.
5Campbell W M,Sturim D E,Reynolds D A.Support vector machines using GMM supervectors for speaker verification[J].IEEE Signal Processing Letters,2006,13:308-11.
6Bilmes JA.Maximum mutual information based reduction strategies for cross-correlation based joint distribution modeling[C] //IEEE Int.Conf.Acoust.,Speech,Signal Processing (ICASSP).Seattle,USA,May 1998.
7Yang H H,Sharna S,van Vuuren S,et al.Relevance of timefrequency features for phonetic and speaker-channel classification[J].Speech Communication,2000,31 (1):35-50.
8Fousek P,Lamel L,Gauvain J-L.Transcribing Broadcast Data using MLP Features[C] //Proceedings of Interspeech.2008.
9Park J,Diehl F,Gales M,et al.Training and Adapting MLPFeatures for Arabic Speech Recognition[C] //Proc,of IEEE Conf.Acoust.Speech Signal Process(ICASSP).2009.
10Picheny M,Nahamoo D,Goel V,et al.Trends and Advances in Speech Recognition[J].IBM Journal of Research and Development,2011,55(5):2.

共引文献136

1朱梦帆,汪志成,戴诗柏.基于语谱图与稠密卷积神经网络的性别与年龄识别研究[J].仪表技术,2022(1):66-70. 被引量：3
2刘冬兰,孔德秋,常英贤,刘新,马雷,王睿.基于受限玻尔兹曼机的电力信息系统多源日志综合特征提取[J].计算机系统应用,2020,29(11):210-217. 被引量：1
3张传部.影响啤酒中高级醇含量的主要因素及控制[J].酿酒科技,2000(3):58-59. 被引量：12
4孙国强,钱嫱,陈亮,卫志农,臧海祥,王晗雯,黄强.基于深度信念网络伪量测建模的配电网状态估计[J].电力自动化设备,2018,38(12):94-99. 被引量：18
5吴海佳,张雄伟,孙蒙,杨吉斌.深度学习中对比散度算法的有偏性分析[J].解放军理工大学学报（自然科学版）,2015,16(3):224-230. 被引量：1
6高强,李倩.基于多尺度主线方向特征的DBN分类方法[J].电视技术,2015,39(15):120-124. 被引量：1
7陆真,裴东兴.基于连续小波阈值函数的语音增强技术[J].山西电子技术,2016(1):40-42. 被引量：1
8寇茜茜,何希平.基于RBM的神经网络时间序列预测[J].数学的实践与认识,2016,46(9):171-178. 被引量：3
9谈建慧,景新幸,杨海燕.深度信念网络的Bottleneck特征提取方法[J].桂林电子科技大学学报,2016,36(2):118-122. 被引量：3
10宋青松,田正鑫,孙文磊,吴小杰,安毅生.用于孤立数字语音识别的一种组合降维方法[J].西安交通大学学报,2016,50(6):42-46. 被引量：9

同被引文献49

1庞程,李晓飞,刘宏.基于MFCC与基频特征贡献度识别说话人性别[J].华中科技大学学报（自然科学版）,2013,41(S1):108-111. 被引量：8
2马义德,袁敏,齐春亮,刘悦,刘映杰.基于PCNN的语谱图特征提取在说话人识别中的应用[J].计算机工程与应用,2005,41(20):81-84. 被引量：23
3李富强,万红,黄俊杰.基于MATLAB的语谱图显示与分析[J].微计算机信息,2005,21(10X):172-174. 被引量：27
4詹新明,黄南山,杨灿.语音识别技术研究进展[J].现代计算机,2008,14(9):43-45. 被引量：44
5韩一,王国胤,杨勇.基于MFCC的语音情感识别[J].重庆邮电大学学报（自然科学版）,2008,20(5):597-602. 被引量：22
6肖汉光,何为.基于MFCC和SVM的说话人性别识别[J].重庆大学学报（自然科学版）,2009,32(7):770-774. 被引量：4
7曹洁,李伟.基于多特征融合的目标跟踪算法[J].兰州理工大学学报,2011,37(2):80-84. 被引量：15
8肖纯智,孙大飞,高勇.一种基于语谱图分析的语音增强算法[J].电声技术,2012,36(9):44-48. 被引量：6
9韩文静,李海峰.情感语音数据库综述[J].智能计算机与应用,2013,3(1):5-7. 被引量：15
10王薇,杨丽萍,魏丽,刘艳.语音情感特征的提取与分析[J].实验室研究与探索,2013,32(7):91-94. 被引量：11

引证文献7

1张勇,张溯,王旭东,路阳,王臣.基于时频域特征的场景音频研究[J].吉林大学学报（信息科学版）,2018,36(3):300-305. 被引量：3
2张雄,刘蓉,刘明.基于卷积特征提取与融合的语音情感识别研究[J].电子测量技术,2018,41(16):138-142. 被引量：3
3陈逸灵,程艳芬,陈先桥,王红霞,李超.PAD三维情感空间中的语音情感识别[J].哈尔滨工业大学学报,2018,50(11):160-166. 被引量：6
4卓嘎,次仁尼玛.基于Matlab的藏语语音频谱仿真和分析[J].电子设计工程,2019,27(19):170-173. 被引量：2
5郑纯军,王春立,贾宁.语音任务下声学特征提取综述[J].计算机科学,2020,47(5):110-119. 被引量：12
6邱晨,孙成楠,张琪,葛煦.基于语音特征的说话人性别智能识别方法研究[J].自动化与仪器仪表,2021(8):235-238. 被引量：1
7郭明琦.语音识别特征提取中对特征方法的对比[J].计算机应用文摘,2024,40(2):96-99.

二级引证文献27

1刘臣园,张东波,林杰,郭天娇,李治民.车载语音控制系统自动化验证方案设计与实现[J].汽车文摘,2019,0(12):27-30.
2王志锋,湛健,曾春艳,叶俊民,田元,闵秋莎,左明章.数字音频来源被动取证研究综述[J].计算机工程与应用,2020,56(5):1-12. 被引量：2
3高庆吉,赵志华,徐达,邢志伟.语音情感识别研究综述[J].智能系统学报,2020,15(1):1-13. 被引量：15
4李海峰,陈婧,马琳,薄洪健,徐聪,李洪伟.维度语音情感识别研究综述[J].软件学报,2020,31(8):2465-2491. 被引量：15
5黄成龙.2019年藏语研究前沿[J].西藏民族大学学报（哲学社会科学版）,2020,41(5):47-52.
6宓林晖,袁骏毅,潘常青,沈晓冬.基于智能语音识别技术的医技报告交互系统的设计与应用[J].中国医疗设备,2021,36(2):92-95. 被引量：16
7夏伦腾,张莉,吴飞.基于物联网技术的宠物防丢可穿戴设备系统[J].电子技术应用,2021,47(2):28-32. 被引量：3
8李怡菲,应娜,杨鹏.基于MD-CGAN的情感语音去噪算法[J].杭州电子科技大学学报（自然科学版）,2021,41(5):26-31. 被引量：1
9邬友朋,赵金龙,贾中营.一种基于KNN/CNN的供热客服音频分类方法[J].电力大数据,2021,24(7):56-66. 被引量：1
10刘晓璇,季怡,刘纯平.基于LSTM神经网络的声纹识别[J].计算机科学,2021,48(S02):270-274. 被引量：11

1项定祥,王跃钢,韩心中.基于ANSYS与Pro/E间连接方法的应用研究[J].机电产品开发与创新,2006,19(6):81-83. 被引量：2
2杨萍,贺小明.ANSYS与Pro/E间无缝连接的应用研究[J].机械设计与制造,2006(1):58-60. 被引量：36
3周文军,徐彭,韩亮亮,曹淑斌,苗春静.基于ICA的多人脚步声信号分离和识别[J].中国科技博览,2012(33):403-403.
4廖列法,黎晨,孟祥茂.基于欧氏空间相似度的云模型协同过滤算法[J].计算机工程与科学,2015,37(10):1977-1982. 被引量：9
5谭真臻,陈果,孙丽萍.基于Hilbert谱图特征的转子故障智能诊断[J].机械科学与技术,2010,29(9):1177-1181. 被引量：6
6王辉,赵悦,刘晓凤,徐晓娜,周楠,许彦敏.基于深度特征学习的藏语语音识别[J].东北师大学报（自然科学版）,2015,47(4):69-73. 被引量：8
7严鹏,李云.基于图谱的多标记特征选择算法[J].计算机科学与探索,2016,10(4):543-553. 被引量：5
8马宁,于洪志,武光利,何向真.基于SVM的藏语说话人性别识别[J].西北民族大学学报（自然科学版）,2011,32(4):35-39. 被引量：2
9韩一,王国胤,杨勇.基于MFCC的语音情感识别[J].重庆邮电大学学报（自然科学版）,2008,20(5):597-602. 被引量：22
10陈姝颖.基于颜色特征的图像检索技术研究[J].电脑学习,2009(6):127-128. 被引量：1

计算机技术与发展

2017年第5期

浏览历史

内容加载中请稍等...

基于语谱图提取瓶颈特征的情感识别算法研究被引量：7

参考文献5

二级参考文献97

共引文献136

同被引文献49

引证文献7

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

基于语谱图提取瓶颈特征的情感识别算法研究 被引量：7

参考文献5

二级参考文献97

共引文献136

同被引文献49

引证文献7

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

基于语谱图提取瓶颈特征的情感识别算法研究被引量：7