结合听觉模型的腭裂语音高鼻音等级自动识别

Automatic Detection of Hypernasality Degrees in Cleft Palate Speech Based on Human Auditory Model

下载PDF

导出

摘要腭裂语音高鼻音等级的自动识别能为临床腭咽功能评估提供有效、客观、无创的辅助依据。对腭裂语音高鼻音等级自动分类系统进行了研究,利用听觉模型提取语音信号的听觉内部表达,并结合同步检测器提取软限制比(Soft Limited Ratio,SLR)谱特征作为特征参数,利用一对一支持向量机(1-v-1 Support Vector Machine,1-v-1SVM)实现腭裂语音高鼻音四类等级(正常、轻度、中度和重度)的自动划分。实验采用56名儿童的共3 086个语音样本,并对比了使用不同基底膜滤波器种类和个数,使用同步检测器和侧抑制网络对识别效果的影响。实验结果表明,使用基于等效矩阵带宽(Equivalent Rectangular Bandwidth,ERB)尺度的Gammatone滤波器的识别效果优于基于Bark尺度的小波包滤波器;54个通道的滤波器能有效权衡算法时间成本和识别正确率;使用同步检测器提取SLR谱特征的识别效果优于侧抑制网络提取的LIN(Lateral Inhibition Network)谱特征。腭裂语音高鼻音四类等级自动识别系统最高分类正确率达91.50%。 The automatic detection of hypernasality degrees in cleft palate speech can provide effective, objective and non-invasive basis for the assessment of velopharyngeal function in clinical. In this work, an automatic detection system of hypernasality degrees in cleft palate has been researched. The human auditory model is applied to extract the inner presentation of speech signal as the front-end processing, and the SLR(Soft-Limited Ratio)spectral features extracted from the synchronous detector is used as the acoustic characteristic parameters. The 1-v-1 SVM(1-v-1 Support Vector Machine)is utilized to automatically detect the hypernasality degrees(normal, mild, moderate and severe hypernasality). Experimental data include total 3 086 speeches from 56 kids, the comparisons of filter bank’s kind and number, synchronous detector and lateral inhibitory network are discussed. And the results show that the Gammatone filter based on ERB(Equivalent Rectangular Bandwidth)scale performs better than the wavelet-packet filter based on Bark scale, and the filter bank with 54 channels can effectively weigh the time cost and recognition accuracy of our algorithm, and SLR spectral features extracted from the synchronous detector has better recognition than LIN spectral features extracted from the lateral inhibition network. The highest accuracy of the automatic detection of four-hypernasality degree is 91.50%.

作者付方玲何飞付佳尹恒黄华何凌 FU Fangling;HE Fei;FU Jia;YIN Heng;HUANG Hua;HE Ling(College of Electrical Engineering and Information Technology, Sichuan University, Chengdu 610065, China;West China Hospital of Stomatology, Sichuan University, Chengdu 610041, China)

机构地区四川大学电气信息学院四川大学华西口腔医院

出处《计算机工程与应用》 CSCD 北大核心 2019年第10期127-134,共8页 Computer Engineering and Applications

基金国家自然科学基金青年科学基金项目(No.61503264)

关键词腭裂语音高鼻音听觉模型同步检测器 cleft palate speech hypernasality auditory model synchronous detector

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1王光和,马莲.唇腭裂的序列治疗[J].医学研究通讯,2001,30(6):22-23. 被引量：6
2周莹,王爱红.腭裂语音的研究进展[J].医学信息（医学与计算机应用）,2014,0(14):629-630. 被引量：1
3张焱,张杰,黄志同.基于一种听觉模型的特征提取及语音识别[J].南京理工大学学报,1998,22(2):113-116. 被引量：7
4董荣胜,赵岭忠,蔡国永,古天龙.基于对象的分布式实时系统调度模型研究[J].计算机研究与发展,2002,39(11):1464-1470. 被引量：5
5高印寒,陈王锋,程鹏,李振雷,池俊成,李强.旋风分离器两相三维流场仿真[J].吉林大学学报（工学版）,2008,38(S1):177-181. 被引量：5
6张伟豪,许枫.基于ERB尺度的心理声学模型及其数值计算[J].声学技术,2011,30(2):161-166. 被引量：6
7胡峰松,曹孝玉.基于Gammatone滤波器组的听觉特征提取[J].计算机工程,2012,38(21):168-170. 被引量：29
8王晓华,屈雷,张超,蒋细伟.基于Fisher比的Bark小波包变换的语音特征提取算法[J].西安工程大学学报,2016,30(4):452-457. 被引量：6
9赵红,李双田.Gammatone滤波器修正的多级线性预测去混响[J].信号处理,2014,30(9):1019-1024. 被引量：2
10戴明扬,徐柏龄.基于听觉模型的话者特征参数提取及其在噪声背景下的话者辨识[J].应用声学,2001,20(6):6-12. 被引量：2

二级参考文献117

1夏田.唇腭裂语音异常的诊断及处理原则[J].华西口腔医学杂志,1994,12(4):266-268. 被引量：18
2吴小林,时铭显.旋风分离器内颗粒运动规律的数值模拟[J].化工机械,1994,21(6):333-337. 被引量：11
3林宝成,黄志同.基于听觉模型的子波变换语音处理[J].数据采集与处理,1995,10(4):269-274. 被引量：3
4李济吾,蔡伟建.旋风静电除尘器单相三维流场数值模拟[J].化工学报,2005,56(8):1433-1438. 被引量：5
5李朝晖,迟惠生.听觉外周计算模型研究进展[J].声学学报,2006,31(5):449-465. 被引量：22
6孙颖,张雪英.基于高斯小波滤波器的语音识别特征提取方法[J].太原理工大学学报,2007,38(2):146-149. 被引量：2
7[1]Bekesy G V. Experiments in Hearing. McGraw-Hill,New York, 1960.
8[2]Ghitza. IEEE. ICASSP 1988, 91-94.
9[3]Hudspeth A J, Corey D P. Proc. Natl. Acad. Sci.USA. 1997, 74: 2407-2411.
10[4]Rose J E, Hind J E, Anderson D J, et al. J. Neurophysiol., 1967, 30:769-793.

共引文献64

1孙向军,李千目,刘凤玉.基于EFT遗传算法的分布式图像绘制[J].计算机工程,2004,30(12):32-33.
2戴维萍,熊建文.听觉系统的定性分析及应用[J].海南师范学院学报（自然科学版）,2005,18(1):27-31. 被引量：3
3王娜,陈克安.基于特性响度的心理声学特征在车辆目标识别中的应用[J].电声技术,2006,30(6):34-36. 被引量：4
4王娜,陈克安.听觉感知特征在目标识别中的应用[J].系统仿真学报,2009,21(10):3128-3132. 被引量：15
5刘强,马群.唇腭裂序列治疗概要[J].中国美容整形外科杂志,2010,21(7):385-390. 被引量：6
6王蕾,孟慧杰.噪声环境下话者识别系统的特征提取[J].科技信息,2010(33):48-49.
7范敏容,朱才义,林小影.妊娠早期超声筛查胎儿颅面部畸形的研究进展[J].临床超声医学杂志,2011,13(5):331-334. 被引量：1
8刘明,陈利琴,郑佳丽.儿童疼痛行为量表在唇腭裂患儿术后疼痛评估中的应用及其信效度[J].解放军护理杂志,2012,29(13):20-22. 被引量：58
9李鸣华.一种基于听觉模型的语音特征提取方法[J].计算机与现代化,2000(3):9-13. 被引量：4
10但果,陈作鹏.电声门图仪检测技术的研究进展[J].听力学及言语疾病杂志,2013,21(2):196-199. 被引量：7

1王宗磊,孙文春,张勇,盛宏玉.提升系统与井塔结构耦合振动分析的动态子结构法[J].合肥工业大学学报（自然科学版）,2017,40(11):1533-1538. 被引量：1
2吴广宁,袁海满,宋臻杰,杨飞豹,高波,李帅兵.基于粗糙集与多类支持向量机的电力变压器故障诊断[J].高电压技术,2017,43(11):3668-3674. 被引量：38
3樊晓鹤,赵鹤鸣,陈雪勤,周燕.倒谱参数稀疏分解下的汉语音谎言检测[J].声学学报,2018,43(1):121-128. 被引量：4
4程院兵,吴临江,郑昱,顾红.基于多维范德蒙德结构的双基地MIMO雷达收发角及多普勒频率联合估计[J].电子与信息学报,2018,40(9):2258-2264. 被引量：3
5赵丽涛.大学生自尊对愤怒与愤怒表达的影响[J].校园心理,2019,17(1):47-50. 被引量：1
6易俗,刘亮,赵旭东.家庭动力在大学生愤怒气质与心理健康关联中的调节作用[J].心理学进展,2018,8(11):1595-1604.
7薛傲,韩成顺,张俊豪.基于动态足底压力的步态识别[J].中国刑警学院学报,2018(3):105-108.
8朱德刚.一个稳健判别方法及应用[J].数学的实践与认识,2019,49(6):160-165. 被引量：1
9黄鸿铿,李应.用Bark频谱投影识别低信噪比动物声音[J].智能系统学报,2018,13(4):610-618. 被引量：3
10周琴,钱燕宁.老年患者术前认知功能评估的研究进展[J].临床麻醉学杂志,2019,35(4):404-406. 被引量：2

计算机工程与应用

2019年第10期

浏览历史

内容加载中请稍等...

结合听觉模型的腭裂语音高鼻音等级自动识别

参考文献12

二级参考文献117

共引文献64

相关作者

相关机构

相关主题

浏览历史