基于动静态特征双输入神经网络的咳嗽声诊断COVID-19算法被引量：2

A Dynamic-Static Dual Input Deep Neural Network Algorithm for Diagnosing COVID-19 by Cough

下载PDF

导出

摘要新型冠状病毒肺炎(COVID-19)已经在世界范围内造成了严重影响,在防控疫情方面学者们进行了大量研究.利用咳嗽声判断病变部位来诊断新冠肺炎具有非接触、成本低、易获取等优点,但是此类研究在国内较为匮乏.梅尔倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)特征仅能够表示声音的静态特征,而一阶差分MFCC特征还能反应声音的动态特征.为了更好地防治新冠肺炎,本文提出了基于动静态特征双输入神经网络的咳嗽声诊断新冠肺炎算法,通过咳嗽声诊断新冠肺炎.在Coswara数据集基础上,对咳嗽声的音频进行裁剪,提取MFCC和一阶差分MFCC特征训练了一个动静态特征双输入神经网络模型.本文模型采用统计池化层,可以输入不同长度的MFCC特征.实验结果表明,与现有模型相比较,本文算法明显提升了识别准确率、召回率、特异性和F1值. The COVID-19(corona virus disease 2019) has caused serious impacts worldwide. Many scholars have done a lot of research on the prevention and control of the epidemic. The diagnosis of COVID-19 by cough is non-contact,low-cost, and easy-access, however, such research is still relatively scarce in China. Mel frequency cepstral coefficients(MFCC) feature can only represent the static sound feature, while the first-order differential MFCC feature can also reflect the dynamic feature of sound. In order to better prevent and treat COVID-19, the paper proposes a dynamic-static dual input deep neural network algorithm for diagnosing COVID-19 by cough. Based on Coswara dataset, cough audio is clipped, MFCC and first-order differential MFCC features are extracted, and a dynamic and static feature dual-input neural network model is trained. The model adopts a statistic pooling layer so that different length of MFCC features can be input. The experiment results show the proposed algorithm can significantly improve the recognition accuracy, recall rate, specificity,and F1-score compared with the existing models.

作者张永梅孙捷 ZHANG Yong-mei;SUN Jie(School of Information Science and Technology,North China University of Technology,Beijing 100144,China)

机构地区北方工业大学信息学院

出处《电子学报》 EI CAS CSCD 北大核心 2023年第1期202-212,共11页 Acta Electronica Sinica

基金国家重点研发计划(No.2020YFC0811004)。

关键词深度学习咳嗽声新冠肺炎梅尔倒谱系数音频技术卷积神经网络 deep learning cough COVID-19 Mel frequency cepstral coefficients audio technology CNN

分类号 TN912 [电子电信—通信与信息系统] TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1张小恒,张馨月,李勇明,王品,刘玉川.面向帕金森病语音诊断的非监督两步式卷积稀疏迁移学习算法[J].电子学报,2022,50(1):177-184. 被引量：4
2黎煊,赵建,高云,雷明刚,刘望宏,龚永杰.基于深度信念网络的猪咳嗽声识别[J].农业机械学报,2018,49(3):179-186. 被引量：25
3李伟红,王伟冰,龚卫国.低信噪比下公共场所异常声音声学特征提取[J].声学学报,2019,44(5):934-944. 被引量：4
4顾玲玲,张晓俊,黄程韦,吴迪,周孝进,陶智.息肉与麻痹喉声源分类中非线性动力学发声系统模型研究[J].声学学报,2015,40(6):878-885. 被引量：4

二级参考文献41

1林玮,杨莉莉,徐柏龄.基于修正MFCC参数汉语耳语音的话者识别[J].南京大学学报（自然科学版）,2006,42(1):54-62. 被引量：22
2吴红卫,吴镇扬,赵力.基于多窗谱的心理声学语音增强[J].声学学报,2007,32(3):275-281. 被引量：12
3Ishizaka K.Isshiki N.Computer simulation of pathological vocal-cord vibration.J.Acoust.Soc.Am,1976;60(5):1193-1198.
4Gavidia-Ceballos L,Hansen J H L,Kaiser J F.Vocal fold pathology assessment using AM autocorrelation analysis of the teager energy operator.ICSLP,1996;2:757-760.
5Akbari A,Arjmandi M K.An efficient voice pathology classification scheme based on applying multi-layer linear discriminant analysis to wavelet packet-based features.Biomedical Signal Processing and Control,2014;10:209-223.
6Jiang J J,Zhang Y,McGilligan C.Chaos in voice,from modeling to measurement.Journal of Voice,2006;20(1):2-17.
7Pinheiro A P,Kerschen G.Vibrational dynamics of vocal folds using nonlinear normal modes.Medical Engineering&Physics,2013;35(8):1079-1088.
8Alipour F,Berry D A,Titze I R.A finite-element model of vocal-fold vibration.The Journal of the Acoustical Society of America,2000;108(6):3003-3012.
9Fraile R,Kob M,Godino-Llorente J I et al.Physical simulation of laryngeal disorders using a multiple-mass vocal fold model.Biomedical Signal Processing and Control,2012;7(1):65-78.
10Jiang J J,Zhang Y,Stern J.Modeling of chaotic vibrations in symmetric vocal folds.The Journal of the Acoustical Society of America,2001;110(4):2120-2128.

共引文献33

1沈明霞,陈金鑫,丁奇安,陈佳,刘龙申,孙玉文.生猪自动化养殖装备与技术研究进展与展望[J].农业机械学报,2022,53(12):1-19. 被引量：12
2孙袖山,李剑,贺斌,庞润嘉,马翊翔,郭锦铭.基于ZYNQ的枪声识别系统设计[J].电子测量技术,2023,46(2):1-6. 被引量：1
3陈赵江,张淑仪.试样激励下轻敲模式原子力声显微镜的非线性动力学特性[J].声学学报,2016,41(5):555-567.
4林宏浩,谢朝峰,陈锐坤.显微支撑喉镜下声带息肉与声带小结摘除术临床观察[J].深圳中西医结合杂志,2017,27(19):86-87. 被引量：6
5曾晓亮,张晓俊,吴迪,邵雅婷,陶智.利用声带动力学模型参数反演方法进行病变嗓音分类[J].声学学报,2018,43(1):91-100.
6邓向武,齐龙,马旭,蒋郁,陈学深,刘海云,陈伟烽.基于多特征融合和深度置信网络的稻田苗期杂草识别[J].农业工程学报,2018,34(14):165-172. 被引量：49
7杨飞云,曾雅琼,冯泽猛,刘作华,李保明.畜禽养殖环境调控与智能养殖装备技术研究进展[J].中国科学院院刊,2019,34(2):163-173. 被引量：52
8黎煊,赵建,高云,刘望宏,雷明刚,谭鹤群.基于连续语音识别技术的猪连续咳嗽声识别[J].农业工程学报,2019,35(6):174-180. 被引量：20
9段凌凤,潘井旭,郭子龙,刘海北,覃建祥,柯希鹏.基于深度信念网络的多品种水稻生物量无损检测[J].农业机械学报,2019,50(11):136-143. 被引量：3
10秦伏亮,沈明霞,刘龙申,孙玉文,郑荷花,陆鹏宇.基于音频技术的白羽肉鸡咳嗽识别算法研究[J].南京农业大学学报,2020,43(2):372-378. 被引量：14

同被引文献7

1陆倩杰,柏正尧,樊圣澜,周雪,许祝.COVID-19肺部CT图像多尺度编解码分割[J].中国图象图形学报,2022,27(3):827-837. 被引量：4
2聂纪伟,谭灵妍.以抑郁相为首发的双相情感障碍早期诊断模型研究[J].中外医学研究,2022,20(18):65-69. 被引量：2
3鲁小勇,石代敏,刘阳,原静仪,董强利,马秀云.注意力残差模型的语音抑郁倾向识别方法[J].小型微型计算机系统,2022,43(8):1602-1608. 被引量：1
4宋羽凯,谢江.基于多任务学习的轻量级语音情感识别模型[J].计算机工程,2023,49(5):122-128. 被引量：2
5郑文宾,何蔚.面向多场景的环境异常声音识别[J].科学技术与工程,2023,23(17):7444-7449. 被引量：2
6闫爱国,刘鑫子,尹冬青,朱虹,贾竑晓,李自艳.双相情感障碍复发相关的社会心理特征因素研究[J].首都医科大学学报,2023,44(4):602-608. 被引量：11
7王淑贤,张鹏浩,刘小俊,王保华,范丽娜,张瑞岭,李猛.双相情感障碍患者甲状腺激素水平的性别差异[J].临床心身疾病杂志,2023,29(5):1-6. 被引量：2

引证文献2

1刘金平,吴娟娟,张荣,徐鹏飞.基于结构重参数化与多尺度深度监督的COVID-19胸部CT图像自动分割[J].电子学报,2023,51(5):1163-1171.
2李志营,纪俊,周书喆,李嘉琪,李欣慧,冯超南,管丽丽,马灶晖,马燕桃.基于深度学习语音分析的双相障碍患者情绪时相检测[J].中华精神科杂志,2024,57(4):207-212.

1陈勇.探究广电工程中数字音频技术的应用[J].中文科技期刊数据库（全文版）工程技术,2022(9):157-159.
2包忆杭.基于Cycling 74 MAX环境下的电子音乐中声音空间交互设计初探[J].音乐生活,2022(11):68-72.
3马新娜,刘心茹,牛天云,赵尚军,栾浩楠.基于协整理论的滚动轴承一致性退化特征提取[J].软件导刊,2023,22(2):87-94.
4赵平飞,汤斌,杨易,谭瑛,陶卓雅.可再生能源消费、经济增长、人口规模与碳排放——基于“一带一路”国家的实证[J].时代经贸,2023,20(2):16-20. 被引量：4
5Geofrey Owino,Anthony Waititu,Anthony Wanjoya,John Okwiri.Autonomous Surveillance of Infants’ Needs Using CNN Model for Audio Cry Classification[J].Journal of Data Analysis and Information Processing,2022,10(4):198-219.
6张洁.中国网络音乐作品著作权保护研究[J].中文科技期刊数据库（全文版）社会科学,2022(4):101-103.
7张世功,肖志俊,刘广群.通过声卡采集光电门数据研究大幅度阻尼单摆的振动[J].大学物理实验,2022,35(6):75-78. 被引量：1
8李尚卿,王晓原,张杨,李浩,项徽.基于改进MFCC融合特征及FA-PNN的驾驶员路怒情绪识别[J].计算机工程与应用,2023,59(2):306-313. 被引量：4
9张晶晶.空间隐喻:电影声音空间技术的语言修辞[J].文化学刊,2022(10):59-62. 被引量：3
10侯学元.基于车载数字音频功放系统电路设计[J].汽车实用技术,2023,48(4):65-69.

电子学报

2023年第1期

浏览历史

内容加载中请稍等...

基于动静态特征双输入神经网络的咳嗽声诊断COVID-19算法被引量：2

参考文献4

二级参考文献41

共引文献33

同被引文献7

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于动静态特征双输入神经网络的咳嗽声诊断COVID-19算法 被引量：2

参考文献4

二级参考文献41

共引文献33

同被引文献7

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于动静态特征双输入神经网络的咳嗽声诊断COVID-19算法被引量：2