嵌入马尔可夫网络的多尺度判决融合耳语音情感识别被引量：4

Whispered Speech Emotion Recognition Embedded with Markov Networks and Multi-Scale Decision Fusion

下载PDF

导出

摘要本文中我们提出了一种将高斯混合模型同马尔可夫网络结合的时域多尺度语音情感识别框架,并将其应用在耳语音情感识别中。针对连续语音信号的特点,分别在耳语音信号的短句尺度上和长句尺度上进行了基于高斯混合模型的情感识别。根据情绪的维度空间论,耳语音信号中的情感信息具有时间上的连续性,因此利用三阶的马尔可夫网络对多尺度的耳语音情感分析进行了上下文的情感依赖关系的建模。采用了一种弹簧模型来定义二维情感维度空间中的高阶形变,并且利用模糊熵评价将高斯混合模型的似然度转化为马尔可夫网络中的一阶能量。实验结果显示,本文提出的情感识别算法在连续耳语音数据上获得了较好的识别结果,对愤怒的识别率达到了64.3%。实验结果进一步显示,与正常音的研究结论不同,耳语音中的喜悦情感的识别相对困难,而愤怒与悲伤之间的区分度较高,与Cirillo等人进行的人耳听辨研究结果一致。 In this paper we proposed a multi-scale framework in the time domain to combine the Gaussian Mixture Model and the Markov Network, and apply which to the whispered speech emotion recognition. Based on Gaussian Mixture Model, speech emotion recognition on the long and short utterances are carried out in continuous speech signals. According to the emotion dimensional model, whispered speech emotion should be continuous in the time domain. Therefore we model the context dependency in whispered speech using Markov Network. A spring model is adopted to model the high-order variance in the emotion dimensional space and fuzzy entropy is used for calculating the unary energy in the Markov Network. Experimental results show that the recognition rate of anger emotion reaches 64.3%. Compared with the normal speech the recognition of happiness is more difficult in whispered speech, while anger and sadness is relatively easy to classify. This conclusion is supported by the listening experiment carried out by Cirillo and Todt.

作者黄程韦金赟包永强余华赵力

机构地区东南大学水声信号处理教育部重点实验室江苏师范大学物理与电子工程学院南京工程学院通信工程学院

出处《信号处理》 CSCD 北大核心 2013年第1期98-106,共9页 Journal of Signal Processing

基金国家自然科学基金(No:61231002 No:61273266 No:51075068) 教育部博士点基金(No.20110092130004) 江苏省高校自然科学研究基金(No.10KJB510005)

关键词语音情感识别多尺度分析马尔可夫网络判决融合 speech emotion recognition multi-scale analysis Markov networks decision fusion

分类号 TP391.42 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献25

1R. W. Morris. Enhancement and recognition of whispered speech[ D]. Georgia Institute of Technology, USA, 2002.
2金赟,赵艳,黄程韦,赵力.耳语音情感数据库的设计与建立[J].声学技术,2010,29(1):63-68. 被引量：8
3杨莉莉,李燕,徐柏龄.汉语耳语音库的建立与听觉实验研究[J].南京大学学报（自然科学版）,2005,41(3):311-317. 被引量：13
4Chenghui Gong, Heming Zhao, Zhi Tao, Zongyue Yan and Xiaojiang Gu. Feature analysis on emotional Chinese whispered speech [C]. International Conference on Information, Networking and Automation, 2010. v2-137-v2-141.
5Chenghui Gong, Heming Zhao, Yanlei Wang, Min Wang and Zongyue Yan. Development of Chinese whispered database for speaker verification [ C ]. Asia Pacific Conference on Postgraduate Research in Microelectronics & Electronics, 2009 : 197-200.
6R.L.特拉斯克.《语音学和音系学字典》[M].北京:语文出版社,2000.26.
7H. Huhsch, D. Todt and K. Ziiblke, Einsatz und soziale Interpretation gefliisterter Signale, Umweh und Verhahen [M]. Toronto: K. Pawlik and K. H. Stapf. 1992: 391- 406.
8V. C. Tartter and D. Braun, Hearing smiles and frowns in normal and whisper registers [ J ]. Journal of Acoustic Society of America, 1994, 96(4) :2101-2107.
9Jasmin Cirillo and Dietmar Todt. Decoding whispered vocalizations: Relationships between social and emotional variables [ C ]. Proceedings of the 9th International Conference on Neural Information Processing, 2002: 1559-1563.
10F. Burkhardt, A. Paeschke, M. Rolfes, et al. , A Database of German Emotional Speech [C]. Proceedings of the 9th European Conference on Speech Communication and Technology, 2005 : 1517-1520.

二级参考文献49

1韩文静,李海峰,韩纪庆.基于长短时特征融合的语音情感识别方法[J].清华大学学报（自然科学版）,2008,48(S1):708-714. 被引量：20
2董燕,施承孙,周晓梅,侯桂芝.飞行人员情绪表达特征对认知绩效的影响[J].第四军医大学学报,2005,26(4):374-377. 被引量：5
3栗学丽,丁慧,徐柏龄.基于熵函数的耳语音声韵分割法[J].声学学报,2005,30(1):69-75. 被引量：34
4杨莉莉,李燕,徐柏龄.汉语耳语音库的建立与听觉实验研究[J].南京大学学报（自然科学版）,2005,41(3):311-317. 被引量：13
5周洁,赵力,邹采荣.情感语音合成的研究[J].电声技术,2005,29(10):57-59. 被引量：10
6林玮,杨莉莉,徐柏龄.基于修正MFCC参数汉语耳语音的话者识别[J].南京大学学报（自然科学版）,2006,42(1):54-62. 被引量：23
7樊星,卢晶,徐柏龄.汉语耳语音转换为正常音的研究[J].电声技术,2005,29(12):44-47. 被引量：11
8王治平,赵力,邹采荣.基于基音参数规整及统计分布模型距离的语音情感识别[J].声学学报,2006,31(1):28-34. 被引量：26
9韩纪庆,邵艳秋.基于语音信号的情感处理研究进展[J].电声技术,2006,30(5):58-62. 被引量：11
10Yu H,The whisper is not helpful for treating hoarseness and recovering voiee[J].Journal of the Central University for Nationalities, 1996,5(2):163-166.

共引文献60

1茹婷婷,谢湘.耳语音数据库的设计与采集[J].清华大学学报（自然科学版）,2008,48(S1):725-729. 被引量：2
2林玮,杨莉莉,徐柏龄.基于修正MFCC参数汉语耳语音的话者识别[J].南京大学学报（自然科学版）,2006,42(1):54-62. 被引量：23
3荣薇,陶智,顾济华,赵鹤鸣.基于改进LPCC和MFCC的汉语耳语音识别[J].计算机工程与应用,2007,43(30):213-216. 被引量：17
4潘欣裕,赵鹤鸣,陈雪勤,徐敏.基于EMD拟合特征的耳语音端点检测[J].电子与信息学报,2008,30(2):362-366. 被引量：6
5荣薇,陶智,顾济华,赵鹤鸣.基于概率神经网络的汉语耳语音识别系统[J].计算机工程与应用,2008,44(17):148-150. 被引量：3
6赵艳,赵力,邹采荣.耳语音的语音处理研究综述[J].声学技术,2008,27(4):562-569. 被引量：4
7金赟,赵艳,黄程韦,赵力.耳语音情感数据库的设计与建立[J].声学技术,2010,29(1):63-68. 被引量：8
8严文娟,林凌,赵静,李刚.概率神经网络用于舌诊的近红外光谱分类[J].激光与红外,2010,40(11):1201-1204. 被引量：11
9余华,黄程韦,张潇丹,金赟,赵力.混合蛙跳算法神经网络及其在语音情感识别中的应用[J].南京理工大学学报,2011,35(5):659-663. 被引量：11
10郑微,李正周,田蕾.基于DSP的智能语音控制系统设计[J].传感器与微系统,2012,31(2):134-136. 被引量：8

同被引文献18

1程辉,沈大江,于秋则,田金文,柳健.多尺度SVR的SAR图像复原[J].信号处理,2007,23(3):356-360. 被引量：2
2L Daubechies. Ten lectures on Wavelets[ M]. PA: SIAM, Philadelphia, 1992.
3K C Chou, A S Willsky, A Benveniste, M Basseville. Recursive and iterative estimation algorithms for muhires- oh,tion stochastic processes[ C]. Proceedings of the 28th IEEE Conference on Decision and Control, Fampa, Flori- da, 1989, 2: 1184-1189.
4A Benveniste, R Nikoukhah, A S Willsky, Muhi-scale system theory[ C]. Proceeding of the 29th IEEE Confer- ence on Decision and Control, Honolulu, Hawaii, 1990, 4 : 2484-2487.
5H Lang. Distributed fihering using set models[ J]. IEEE Transaction on Aerospace and Electronic Systems, 1992, 27(4) : 715-724.
6L Hong. Muhiresolutional filtering using wavelet trans- form[J].IEEE Transactions on Aerospace and Electronic Systems, 1993, 29(4): 1244-1251.
7支瑞聪,阮秋琦.基于多尺度分析矩特征的人脸表情识别[J].信号处理,2009,25(5):692-696. 被引量：2
8金赟,赵艳,黄程韦,赵力.耳语音情感数据库的设计与建立[J].声学技术,2010,29(1):63-68. 被引量：8
9黄程韦,金赟,王青云,赵艳,赵力.基于特征空间分解与融合的语音情感识别[J].信号处理,2010,26(6):835-842. 被引量：10
10余华,黄程韦,金赟,赵力.基于改进的蛙跳算法的神经网络在语音情感识别中的研究[J].信号处理,2010,26(9):1294-1299. 被引量：10

引证文献4

1章涛,吴仁彪,李月敏.单传感器多尺度状态融合估计算法[J].信号处理,2013,29(8):971-976. 被引量：4
2吴晨健,黄程韦,陈虹.Dimensional emotion recognition in whispered speech signal based on cognitive performance evaluation[J].Journal of Southeast University(English Edition),2015,31(3):311-319.
3陶华伟,柳晶晶,梁瑞宇,查诚,张昕然,赵力.面向语音情感识别的Gabor分块局部二值模式特征[J].信号处理,2016,32(5):505-511. 被引量：5
4刘韫赫,吕凝,徐昊.自然语言处理技术简述及在矿冶领域的应用展望[J].金属世界,2018(5):6-10. 被引量：1

二级引证文献10

1刘明堂,秦泽宁,齐慧勤,陈健,刘佳琪,江恩惠,刘雪梅.悬移质含沙量检测的Kalman-GORBF多源数据最优融合模型研究[J].应用基础与工程科学学报,2020(3):680-690. 被引量：2
2章涛,来燃,吴仁彪,陈敏.观测最优分配的GM-PHD多目标跟踪算法[J].信号处理,2014,30(12):1419-1426. 被引量：7
3张前进,王华东.基于核典型相关分析和支持向量机的语音情感识别模型[J].南京理工大学学报,2017,41(2):191-197. 被引量：4
4刘颖,贺聪,张清芳.基于核相关分析算法的情感识别模型[J].吉林大学学报（理学版）,2017,55(6):1539-1544. 被引量：3
5曹春香.语音特征和情感特征的翻译系统与实现[J].现代电子技术,2018,41(13):123-127. 被引量：1
6付立彬,刘明堂,王丽,秦泽宁,杨阳蕊.含沙量监测的wavelet-Kalman多尺度融合研究[J].人民黄河,2018,40(9):23-27. 被引量：2
7王泽宇.自然语言处理概述及应用[J].通讯世界,2019,26(4):309-310. 被引量：5
8齐永锋,李陇强.基于局部模式的癫痫脑电信号自动分类方法[J].计算机工程,2020,46(2):298-303. 被引量：2
9刘振焘,向春妮,刘陈陵,钟宝亮,黄海,彭志昆,吕筑,丁钟.基于语音的抑郁检测研究综述[J].信号处理,2023,39(4):616-631. 被引量：1
10刘明堂,王丽,秦泽宁,司孝平,刘雪梅.基于SBKF-PNN融合的高填方渠道渗漏监测模型研究[J].应用基础与工程科学学报,2019,37(2):284-294. 被引量：4

1王相海,陈明莹,方玲玲.概率图模型及其图像与视频应用研究[J].中国图象图形学报,2009,14(9):1712-1720. 被引量：1
2黄程韦,金赟,王青云,赵艳,赵力.基于特征空间分解与融合的语音情感识别[J].信号处理,2010,26(6):835-842. 被引量：10
3徐东,张晓雯.基于机器学习SAR图像噪声抑制技术研究[J].软件导刊,2013,12(10):163-165. 被引量：1
4黄东军,侯松林.一种基于学习的非线性人脸图像超分辨率算法[J].计算机应用,2009,29(5):1339-1341. 被引量：1
5熊异,黄东军.基于马尔可夫网络人脸图像超分辨率非线性算法[J].计算机应用研究,2009,26(8):3163-3165.
6黄东军,考特斯.维安尼.奥古斯汀.人脸图像超分辨率非线性学习算法[J].计算机工程,2010,36(3):203-205. 被引量：4
7文辉,王明文,吴水秀,万剑怡.基于Markov网络及laplacian映射的快速相似性检索方法[J].计算机应用与软件,2012,29(8):37-40. 被引量：1
8张剑飞,王辉,王双成.基于贝叶斯网络理论的道德图学习[J].计算机应用研究,2009,26(11):4042-4044.
9黄东军,蓝岚.人脸图像超分辨率非线性算法[J].计算机工程与应用,2010,46(13):175-177.
10孙静,陶智,顾济华,赵鹤鸣.基于AD神经网络的耳语音增强的研究[J].计算机工程与应用,2007,43(29):242-244. 被引量：2

信号处理

2013年第1期

浏览历史

内容加载中请稍等...

嵌入马尔可夫网络的多尺度判决融合耳语音情感识别被引量：4

参考文献25

二级参考文献49

共引文献60

同被引文献18

引证文献4

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

嵌入马尔可夫网络的多尺度判决融合耳语音情感识别 被引量：4

参考文献25

二级参考文献49

共引文献60

同被引文献18

引证文献4

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

嵌入马尔可夫网络的多尺度判决融合耳语音情感识别被引量：4