基于多特征融合的藏语语音情感识别被引量：1

Tibetan speech emotion recognition based on multi⁃feature fusion

下载PDF

导出

摘要藏语语音情感识别是语音情感识别在少数民族语音处理上的应用,语音情感识别是人机交互的重要研究方向,提取最能表征语音情感的特征并构建具有较强鲁棒性和泛化性的声学模型是语音情感识别的重要研究内容。基于此,为了构建具有高效性和针对性的藏语语音情感识别模型,文中构建了一种藏语语音情感数据集(TBSEC001),并提出一种适合于藏语的手工语音情感特征集(TPEFS),该特征集是在藏语与其他语言的共性和特性的基础上手工提取得到的,TPEFS特征集在支持向量机(SVM)、多层感知机(MLP)、卷积神经网络(CNN)、长短时记忆网络(LSTM)这些经典网络中都取得了不错的效果。所提出的方法在藏语语音数据集(TBSEC001)上取得了88.4%的识别结果,以及在EMODB、RAVDESS、CASIA数据库上分别取得了84.1%、74.3%以及82.5%的识别结果。实验结果表明,该特征集在保证识别率的情况下,对藏语语音情感识别具有一定针对性。 Tibetan speech emotion recognition(SER)is the application of SER in minority speech processing.SER is an important research direction of human⁃computer interaction.It is an important research content of SER to extract the features that can characterize speech emotion best and build an acoustic model with strong robustness and generalization.Therefore,a Tibetan speech emotion dataset TBSEC001 is constructed and a manual speech emotion feature set TPEFS suitable for Tibetan is proposed to construct an efficient and targeted Tibetan SER model.The feature set is manually extracted on the basis of the commonalities and characteristics between Tibetan and other languages.The feature set TPEFS has achieved good results in classical networks,such as support vector machine(SVM),multilayer perceptron(MLP),convolutional neural network(CNN)and long short⁃term memory network(LSTM).The proposed method achieves 88.4%recognition results on Tibetan speech dataset TBSEC001,and 84.1%,74.3%and 82.5%recognition rate on databases EMODB,RAVDESS and CASIA,respectively.The experimental results show that the feature set has certain pertinence for Tibetan SER under the condition of ensuring recognition rate.

作者谷泽月边巴旺堆祁晋东 GU Zeyue;BIANBA Wangdui;QI Jindong(School of Information Science and Technology,Tibet University,Lhasa 850000,China;National Experimental Teaching Demonstration Center of Information Technology,Lhasa 850000,China)

机构地区西藏大学信息科学技术学院信息技术国家级实验教学示范中心

出处《现代电子技术》 2023年第21期129-133,共5页 Modern Electronics Technique

基金西藏自治区高原通信科研创新团队项目(XZZZQ2018003) 西藏大学研究生高水平人才培养计划项目(2021⁃GSP⁃S121)。

关键词语音情感识别特征提取深度学习深度特征声音质量多模态情感识别 SER feature extraction deep learning deep feature sound quality multi⁃modal emotion recognition

分类号 TN919.5-34 [电子电信—通信与信息系统] TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1张雪英,孙颖,张卫,畅江.语音情感识别的关键技术[J].太原理工大学学报,2015,46(6):629-636 643. 被引量：17
2孙晓虎,李洪均.语音情感识别综述[J].计算机工程与应用,2020,56(11):1-9. 被引量：15
3韩文静,李海峰,阮华斌,马琳.语音情感识别研究进展综述[J].软件学报,2014,25(1):37-50. 被引量：167
4李赵,家红,尹辉,扎西卓玛.藏、汉、英三种语言的特点与对比分析[J].今日中国论坛,2013(5S):138-139. 被引量：2

二级参考文献131

1韩文静,李海峰.基于韵律语段的语音情感识别方法研究[J].清华大学学报（自然科学版）,2009(S1):1363-1368. 被引量：8
2蔡艳玲.英语语音语调特点及其功能[J].郑州轻工业学院学报（社会科学版）,2004,5(3):64-66. 被引量：8
3李永兰.中西方语法学比较论考[J].商丘职业技术学院学报,2005,4(3):35-36. 被引量：1
4van Bezooijen R,Otto SA,Heenan TA. Recognition of vocal expressions of emotion:A three-nation study to identify universal characteristics[J].{H}JOURNAL OF CROSS-CULTURAL PSYCHOLOGY,1983,(04):387-406.
5Tolkmitt FJ,Scherer KR. Effect of experimentally induced stress on vocal parameters[J].Journal of Experimental Psychology Human Perception Performance,1986,(03):302-313.
6Cahn JE. The generation of affect in synthesized speech[J].Journal of the American Voice Input/Output Society,1990.1-19.
7Moriyama T,Ozawa S. Emotion recognition and synthesis system on speech[A].Florence:IEEE Computer Society,1999.840-844.
8Cowie R,Douglas-Cowie E,Savvidou S,McMahon E,Sawey M,Schro. Feeltrace:An instrument for recording perceived emotion in real time[A].Belfast:ISCA,2000.19-24.
9Grimm M,Kroschel K. Evaluation of natural emotions using self assessment manikins[A].Cancun,2005.381-385.
10Grimm M,Kroschel K,Narayanan S. Support vector regression for automatic recognition of spontaneous emotions in speech[A].IEEE Computer Society,2007.1085-1088.

共引文献185

1郑成杰,郑之.基于最大分类器差异域适应方法的3维点云分类[J].信息与控制,2023,52(5):588-597.
2张会云.语音情感识别研究综述[J].信息通信,2019,0(11):58-60. 被引量：2
3李霞,卢官明,闫静杰,张正言.多模态维度情感预测综述[J].自动化学报,2018,44(12):2142-2159. 被引量：25
4李高玲,帖云,齐林.基于随机森林分类优化的多特征语音情感识别[J].微电子学与计算机,2019,36(1):70-73. 被引量：12
5张福泉.情感建模及情感识别技术研究[J].廊坊师范学院学报（自然科学版）,2014,14(5):23-26. 被引量：4
6孙凌云,何博伟,刘征,杨智渊.基于语义细胞的语音情感识别[J].浙江大学学报（工学版）,2015,49(6):1001-1008. 被引量：2
7余春艳,翁子林.音频情感感知与视频精彩片段提取[J].计算机辅助设计与图形学学报,2015,27(10):1890-1899. 被引量：4
8孙颖,姚慧,张雪英,张奇萍.基于混沌特性的情感语音特征提取[J].天津大学学报（自然科学与工程技术版）,2015,48(8):681-685. 被引量：12
9陶华伟,査诚,梁瑞宇,张昕然,赵力,王青云.面向语音情感识别的语谱图特征提取算法[J].东南大学学报（自然科学版）,2015,45(5):817-821. 被引量：17
10蒋海华,胡斌.基于PCA和SVM的普通话语音情感识别[J].计算机科学,2015,42(11):270-273. 被引量：10

同被引文献6

1李翔,李昕,胡晨,卢夏衍.面向智能机器人的Teager语音情感交互系统设计与实现[J].仪器仪表学报,2013,34(8):1826-1833. 被引量：10
2张雄,刘蓉,刘明.基于卷积特征提取与融合的语音情感识别研究[J].电子测量技术,2018,41(16):138-142. 被引量：3
3许良凤,刘泳海,胡敏,王晓华,任福继.语谱图改进完全局部二值模式的语音情感识别[J].电子测量与仪器学报,2018,32(5):25-32. 被引量：10
4乔栋,陈章进,邓良,屠程力.基于改进语音处理的卷积神经网络中文语音情感识别方法[J].计算机工程,2022,48(2):281-290. 被引量：14
5孙韩玉,黄丽霞,张雪英,李娟.基于双通道卷积门控循环网络的语音情感识别[J].计算机工程与应用,2023,59(2):170-177. 被引量：4
6周佳鑫,焦亚萌,王彦斌,郑燕茹.融合注意力和辅助分类器的膨胀残差网络语音情感识别研究[J].国外电子测量技术,2023,42(8):19-25. 被引量：2

引证文献1

1喻永振,刘大明.基于幅值滤波与分层特征融合策略的语音情感识别[J].国外电子测量技术,2024,43(3):35-42.

1周佳鑫,焦亚萌,王彦斌,郑燕茹.融合注意力和辅助分类器的膨胀残差网络语音情感识别研究[J].国外电子测量技术,2023,42(8):19-25. 被引量：2
2史爱武,蔡润.结合多种注意力机制的多模态情感识别方法[J].软件导刊,2023,22(10):105-109.
3阮子行,黄勇,王梦,史强,张金玲.基于改进卷积神经网络的番茄品质分级方法[J].江苏农业学报,2023,39(4):1005-1014. 被引量：3
4彭毛扎西,才智杰,才让卓玛.藏语情感语音数据库构建[J].北京大学学报（自然科学版）,2023,59(5):773-781. 被引量：1
5辛拓,谢欢欢,张宏钊,陈龙,何维,黄炜昭.基于DCNN的SF6气体在线监测系统设计[J].自动化与仪器仪表,2023(7):273-277.
6无.中华医学会杂志社关于论文二次发表的声明[J].中华肾脏病杂志,2023,39(9):696-696.
7无.中华医学会杂志社关于论文二次发表的声明[J].中华神经医学杂志,2023,22(9):874-874.
8中华医学会杂志社关于论文二次发表的声明[J].中华创伤杂志,2023,39(9):822-822.
9张会云,黄鹤鸣.面向网络舆情分析的多任务学习策略时间卷积网络[J].计算机工程,2023,49(10):89-96.
10廖进福,唐裕海,李江杏,吴振健,王璐.多层陶瓷电容器及电感器精确等效电路建模方法研究[J].电子元件与材料,2023,42(8):948-954.

现代电子技术

2023年第21期

浏览历史

内容加载中请稍等...

基于多特征融合的藏语语音情感识别被引量：1

参考文献4

二级参考文献131

共引文献185

同被引文献6

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于多特征融合的藏语语音情感识别 被引量：1

参考文献4

二级参考文献131

共引文献185

同被引文献6

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于多特征融合的藏语语音情感识别被引量：1