基于深度学习的语声抑郁识别

Speech depression recognition based on deep learning

下载PDF

导出

摘要世界各地抑郁症患者数量不断增多,抑郁症的诊断和治疗面临着医生短缺问题,针对这一问题,提出了卷积神经网络和结合注意力机制的双向长短时记忆特征融合模型。从特征选择和网络构架两方面进行了研究,对比了几种经典语声特征,得出梅尔倒谱系数对抑郁分类效果最好,再将梅尔倒谱系数分别送进卷积神经网络和结合注意力机制的双向长短时记忆网络实现抑郁分类。在DAIC-WOZ数据集上进行实验,所提出的方法对语声抑郁的分类精确度达到78.06%,F1分数达到74.68%。 The number of depression patients is increasing around the world.There is a shortage of doctors to diagnose and treat depression.In response to this problem,convolutional neural network(CNN)and bidirectional long short-term memory(BLSTM)feature fusion model combined with attention mechanism are proposed.Research has been carried out from the aspects of feature selection and network architecture.By comparing several classical speech features,it is concluded that the Mel-frequency cepstrum coefficient(MFCC)has the best effect on depression classification,and then the Meier cepstrum coefficient is sent into CNN and BLSTM network combined with attention mechanism respectively to achieve depression classification.Experiments on the DAIC-WOZ data set show that the proposed method has a classification accuracy of 78.06%and a F1 score of 74.68%.

作者吴情胡维平陈丹丹肖婷 WU Qing;HU Weiping;CHEN Dandan;XIAO Ting(College of Electronic Engineering,Guangxi Normal University,Guilin 541000,China)

机构地区广西师范大学电子工程学院

出处《应用声学》 CSCD 北大核心 2022年第5期837-842,共6页 Journal of Applied Acoustics

基金国家自然科学基金项目(NSFC 61861005)。

关键词抑郁识别语声分析分类 Depression recognition Speech analysis Classification

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献7

1褚钰,李田港,叶硕,叶光明.语音情感识别中的特征选择方法[J].应用声学,2020,39(2):216-222. 被引量：4
2张少康,田德艳.水下声目标的梅尔倒谱系数智能分类方法[J].应用声学,2019,38(2):267-272. 被引量：11
3陶华伟,査诚,梁瑞宇,张昕然,赵力,王青云.面向语音情感识别的语谱图特征提取算法[J].东南大学学报（自然科学版）,2015,45(5):817-821. 被引量：17
4杨丹,姜占才,余蓥良,李振起.语音信号共振峰提取方法的研究分析[J].科技信息,2012(4):161-162. 被引量：3
5方匡南,吴见彬,朱建平,谢邦昌.随机森林方法研究综述[J].统计与信息论坛,2011,26(3):32-38. 被引量：669
6朱张莉,饶元,吴渊,祁江楠,张钰.注意力机制在深度学习中的研究进展[J].中文信息学报,2019,33(6):1-11. 被引量：127
7翟社平,杨媛媛,邱程,李婧,毋志云.基于注意力机制Bi-LSTM算法的双语文本情感分析[J].计算机应用与软件,2019,36(12):251-255. 被引量：19

二级参考文献76

1刘微,罗林开,王华珍.基于随机森林的基金重仓股预测[J].福州大学学报（自然科学版）,2008,36(S1):134-139. 被引量：8
2于萍,韩冰,黄冬雁,杨伟炎,韩东一.嗓音声学分析和电声门图的比较研究[J].听力学及言语疾病杂志,2005,13(3):160-163. 被引量：19
3高慧,苏广川,陈善广.不同情绪状态下汉语语音的声学特征分析[J].航天医学与医学工程,2005,18(5):350-354. 被引量：23
4黄海,陈祥献.基于Hilbert-Huang变换的语音信号共振峰频率估计[J].浙江大学学报（工学版）,2006,40(11):1926-1930. 被引量：12
5林成德,彭国兰.随机森林在企业信用评估指标体系确定中的应用[J].厦门大学学报（自然科学版）,2007,46(2):199-203. 被引量：37
6War anabe A. Formant estimat ion method using inverse-filter control [J]. IEEE Transactions on Speech and Audio Processing,2001,9(4) : 317-326.
7L.R. Rabiner, B.H. Juang. Fundamentals of Speech Recognition. Prentice Hall, Englewood Cliffs,1993.清华大学出版社(影印),2002年.
8韩继庆,张磊,郑铁然.语音信号处理.清华大学出版社,2004年.
9Breiman L. Bagging Preditors [J].Machine Learning, 1996,24(2).
10Dietterich T. An Experimental Comparison of Three Methods for Constructing Ensembles of Decision Trees: Bagging, Boosting and Randomization [J].Machine Learning, 2000,40(2).

共引文献842

1郑伟,戴伊宁,孙楠楠,尹乔乔,吴青青,惠田辰,吴文昊,黄海军,童永喜,黄益澄,汪明珊,陈美娟,张家杰,严蓉,高海女,潘红英.应用随机森林模型和Logistic回归模型分析COVID-19的影响因素[J].预防医学,2021,33(7):722-725. 被引量：1
2袁鸷慧,聂胜,张合兵,王成,王宏涛,习晓环.GEDI地面高程和森林冠层高度的精度评价与影响分析[J].遥感技术与应用,2022,37(5):1056-1070. 被引量：1
3朱梦帆,汪志成,戴诗柏.基于语谱图与稠密卷积神经网络的性别与年龄识别研究[J].仪表技术,2022(1):66-70. 被引量：3
4谢春,许伟.基于随机森林回归算法的锅炉沾污因数预测方法[J].上海电气技术,2022,15(1):29-32. 被引量：1
5王仁超,朱品光.基于随机森林回归方法的爆破块度预测模型研究[J].水力发电学报,2020,39(1):89-101. 被引量：22
6杨龙,王闻娟,覃哲,古悦璇.中国大学生气候认知与低碳行为及其影响因素研究——基于随机森林模型分析[J].文化与传播,2022,11(2):6-15. 被引量：1
7饶贵川,王雅楠,华伟平,林维晟,潘俊忠,廖佩莹.环境因子对人工森林蓄积量影响的机器学习分析[J].林业科技通讯,2023(12):58-63.
8王治忠,闫文明,王松伟.基于鸽子视顶盖神经元响应对不同颜色背景字符图像的重建研究[J].计算机应用研究,2020,37(1):308-312.
9宋华丽,陈欣影,王鹏,初军玲,丛源.基于随机森林的江淮各省会城市夏季降水量预报对比分析[J].湖北农业科学,2019,58(S02):190-197.
10李一民,谭振宇,杨辰,何峰,孟迪,罗菊花,段洪涛.基于多源卫星的滇池藻华提取机器学习算法研究[J].地球科学进展,2022,37(11):1141-1156. 被引量：6

1张志浩,王坤侠.基于STA-CRNN模型的语声情感识别[J].应用声学,2022,41(5):843-850.
2徐冬冬.基于Transformer的普通话语声识别模型位置编码选择[J].应用声学,2021,40(2):194-199. 被引量：2
3梁小林,沈湘菲,梁曌,邱海琳.基于CTC-GRU模型的长沙方言识别[J].吉首大学学报（自然科学版）,2022,43(2):45-52.
4杜海云,王宏霞.基于改进胶囊网络的音调篡改检测算法[J].通信技术,2022,55(8):984-989.
5李明,袁逸萍,贾依达尔,赵琴.考虑PCA-LSTM的风电机组输出功率预测研究[J].机械设计与制造,2022(9):145-148. 被引量：3
6王采莲,陈蕊.基于文化记忆理论的工业遗产活化设计策略研究[J].设计,2022,35(15):89-91. 被引量：5
7梁超,高勇.一种利用SE-Res2Net的合成语音检测系统[J].无线电工程,2022,52(9):1560-1565. 被引量：3

应用声学

2022年第5期

浏览历史

内容加载中请稍等...

基于深度学习的语声抑郁识别

参考文献7

二级参考文献76

共引文献842

相关作者

相关机构

相关主题

浏览历史