基于声道频谱参数的语种识别被引量：11

Language Identification Based on Vocal Tract Spectrum Parameters

导出

摘要针对低信噪比下语种识别正确率低的问题,提出了一种声道冲激响应频谱参数和Teager能量算子倒谱参数融合的识别方法.根据语音中不同特征信息量分布特性,首先在特征提取前端引入低通滤波器滤除信号高频部分,并采用重采样方法降低采样率,再基于信号频谱提取声道冲激响应频谱参数,然后融合Teager能量算子倒谱参数,最后通过高斯混合通用背景模型进行语种识别验证.不同信噪比条件下性能测试表明,所提方法相对于基于单一的梅尔频率倒谱系数特征、单一的伽玛通频率倒谱系数特征和基于对数梅尔尺度滤波器组能量特征,在低信噪比下提升约15 dB,显著提高了识别正确率. Aiming at the problem of low accuracy of language identification under low signal to noise ratio,a fusion identification method is proposed,using spectral parameters of channel impulse response and Teager energy operators cepstral coefficients.Considering the distribution of different feature information in speech,a low-pass filter is introduced to filter out the high-frequency part of the signal in the front-end of feature extraction.The resampling method is used to reduce the rate.And then,the spectral parameters of channel impulse response of vocal tract are extracted,and fused with the Teager energy operators cepstral coefficients.Finally,a Gaussian mixture model-universal background model is used to perform the language identification.Experiments under different signal to noise ratio conditions show that the proposed methold significantly improves the language identification accuracy with 15 dB gain at low signal to noise ratio compared with the single Mel frequency cepstrum coefficient feature,single Gammatone frequency cepstrum coefficient feature and log Mel-scale filter bank energies feature.

作者邵玉斌刘晶龙华杜庆治李一民 SHAO Yu-bin;LIU Jing;LONG Hua;DU Qing-zhi;LI Yi-min(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,China)

机构地区昆明理工大学信息工程与自动化学院

出处《北京邮电大学学报》 EI CAS CSCD 北大核心 2021年第3期112-119,共8页 Journal of Beijing University of Posts and Telecommunications

基金国家自然科学基金项目(61761025)。

关键词语种识别声道冲激响应频谱参数低通滤波重采样 Teager能量算子倒谱参数 language identification spectral parameters of channel impulse response low-pass filtering resampling Teager energy operators cepstral coefficients

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献5

1金马,宋彦,戴礼荣.基于卷积神经网络的语种识别系统[J].数据采集与处理,2019,34(2):322-330. 被引量：7
2苗晓晓,徐及,王剑.基于降噪自动编码器的语种特征补偿方法[J].计算机研究与发展,2019,56(5):1082-1091. 被引量：3
3张卫强,刘加.基于听感知特征的语种识别[J].清华大学学报（自然科学版）,2009(1):78-81. 被引量：21
4史燕燕,白静.融合CFCC和Teager能量算子倒谱参数的语音识别[J].计算机科学,2019,46(5):286-289. 被引量：8
5吴敏,马延周.语种识别技术概论[J].现代计算机,2019,25(19):36-40. 被引量：5

二级参考文献27

1岳倩倩,周萍,景新幸.基于非线性幂函数的听觉特征提取算法研究[J].微电子学与计算机,2015,32(6):163-166. 被引量：5
2姜洪臣,郑榕,张树武,徐波.基于SDC特征和GMM-UBM模型的自动语种识别[J].中文信息学报,2007,21(1):49-53. 被引量：14
3Zissman M A. Comparison of four approaches to automatic language identification of telephone speech [J]. IEEE Transactions on Speech and Audio Processing, 1996, 4(1): 31 - 44.
4Li H, Ma B, Lee C H. A vector space modeling approach to spoken language identification [J]. IEEE Transactions on Audio, Speech and Language Processing, 2007, 15(1): 271 - 284.
5Huang X D, Acero A, Hon H W. Spoken Language Processing [M]. Upper Saddle River, NJ: Prentice Hall PTR, 2000.
6Abdulla W H. Auditory based feature vectors for speech recognition systems [J]. Advances in Communications and Software Technologies, 2002: 231- 236.
7Li Q, Soong F, Siohan O. A high-performance auditory feature for robust speeeh recognition [C]//Proe 6th Int Conf on Spoken Language Processing. Beijing: China Military Friendship Publish, 2000, Ⅲ: 51- 54.
8Colombi J M, Anderson T R, Rogers S K. Auditory model representation for speaker recognition [C]//Proc ICASSP. Piscataway, NJ: IEEE Press, 2006, Ⅱ:700-703.
9Glasberg B R, Moore B C. Derivation of auditory filter shapes from notched-noise data [J]. Hearing Research, 1990, 47(1-2): 103-108.
10Slaney M. An efficient implementation of the Patterson-Holdsworth auditory filter bank [R]. Apple Computer Inc, 1993.

共引文献36

1卢小春,尹俊勋,王修信.基于听觉模型特征的与文本无关说话人识别系统[J].广西师范大学学报（自然科学版）,2010,28(2):22-26. 被引量：2
2黄山奇,张连海,屈丹.一种基于人耳听觉感知和子带补偿滤波的鲁棒语言辨识特征参数提取算法[J].模式识别与人工智能,2012,25(1):166-171. 被引量：2
3翟慧强,张金萍,王丹,赵艳春.听觉模型综述[J].机械工程师,2014(3):19-22. 被引量：4
4蒋毅,刘润生,冯振明.基于听感知特性的双麦克风近讲语音增强算法[J].清华大学学报（自然科学版）,2014,54(9):1179-1183. 被引量：1
5张卫强,郭璁,张乔,康健,何亮,刘加,Johnson Michael T.一种基于计算听觉场景分析的语音增强算法[J].天津大学学报（自然科学与工程技术版）,2015,48(8):663-669. 被引量：2
6刘双君,金小峰,崔荣一.基于基频的朝鲜语方言辨识方法的研究[J].中文信息学报,2017,31(2):55-60. 被引量：5
7吴锦晶.网络多媒体分析系统的分析与设计[J].电脑知识与技术,2019,15(5Z):189-190. 被引量：1
8陈泽斌,罗文婷,李林.基于改进U-net模型的路面裂缝智能识别[J].数据采集与处理,2020,35(2):260-269. 被引量：16
9刘影,韩康康,钱志鸿.基于声音空间梯度的高稳健性击键识别方法[J].通信学报,2020,41(5):96-103. 被引量：4
10刘红梅.基于音频指纹技术的乐曲节拍识别系统[J].微型电脑应用,2021,37(7):137-139. 被引量：1

同被引文献55

1朱梦帆,汪志成,戴诗柏.基于语谱图与稠密卷积神经网络的性别与年龄识别研究[J].仪表技术,2022(1):66-70. 被引量：3
2姜洪臣,郑榕,张树武,徐波.基于SDC特征和GMM-UBM模型的自动语种识别[J].中文信息学报,2007,21(1):49-53. 被引量：14
3张卫强,刘加.基于听感知特征的语种识别[J].清华大学学报（自然科学版）,2009(1):78-81. 被引量：21
4魏艳,张雪英.噪声条件下的语音特征PLP参数的提取[J].太原理工大学学报,2009,40(3):222-224. 被引量：6
5马元锋,陈克安,马苗,张成.一种新的可应用于声目标识别的倒谱系数[J].兵工学报,2009,30(11):1477-1483. 被引量：12
6徐欣,李枚亭.基于频谱包络算法的语音转换研究[J].数字技术与应用,2011,29(9):123-125. 被引量：1
7邓妍,张卫强,刘加.基于音素解码的语种识别系统联合自适应算法研究[J].自动化学报,2012,38(4):652-658. 被引量：3
8蔡尚,金鑫,高圣翔,潘接林,颜永红.用于噪声鲁棒性语音识别的子带能量规整感知线性预测系数[J].声学学报,2012,37(6):667-672. 被引量：14
9胡峰松,曹孝玉.基于Gammatone滤波器组的听觉特征提取[J].计算机工程,2012,38(21):168-170. 被引量：28
10王宪亮,吴志刚,杨金超,周若华,颜永红.基于SVM一对一分类的语种识别方法[J].清华大学学报（自然科学版）,2013,53(6):808-812. 被引量：10

引证文献11

1王瑶,龙华,邵玉斌,杜庆治.可变时长的短时广播语音多语种识别[J].云南大学学报（自然科学版）,2022,44(3):490-496. 被引量：1
2邵玉斌,陈亮,龙华,杜庆治.基于改进GFCC特征参数的广播音频语种识别[J].吉林大学学报（理学版）,2022,60(2):417-424. 被引量：1
3刘云鹏,王博闻,韩帅,高飞,王康,张兴辉.基于混合倒谱系数与CNN的OLTC动作声信号快速分辨方法[J].振动与冲击,2022,41(21):45-52. 被引量：1
4段云,邵玉斌,刘晶,龙华,杜庆治.一种基音频率归一化的语种识别方法[J].微电子学与计算机,2023,40(5):20-28.
5王延凯,龙华,邵玉斌,杜庆治,王瑶.基于融合特征MGCC的语种识别方法[J].北京邮电大学学报,2023,46(2):116-121. 被引量：1
6华英杰,刘晶,邵玉斌,朵琳.面向战场环境下的语种识别[J].兵工学报,2023,44(7):2197-2206.
7华英杰,朵琳,刘晶,邵玉斌.基于听觉特性和发声特性的语种识别[J].云南大学学报（自然科学版）,2023,45(4):807-814.
8周大春,邵玉斌,张昊阁,龙华,彭艺.应用于噪声环境下语种识别的GFCC改进算法[J].云南大学学报（自然科学版）,2024,46(2):246-254.
9段云,邵玉斌,龙华,杜庆治.基于非线性语谱图联合判决的语种识别[J].微电子学与计算机,2024,41(5):99-108.
10周大春,邵玉斌,张昊阁,杜庆治.面向语种识别的声学特征提取改进研究[J].四川大学学报（自然科学版）,2024,61(3):195-205.

二级引证文献4

1汪玉秀,苏战波.基于轻量化神经网络的多语音识别方法研究[J].自动化与仪器仪表,2023(10):167-169. 被引量：1
2姜囡,庞永恒,高爽.基于注意力机制语谱图特征提取的语音识别[J].吉林大学学报（理学版）,2024,62(2):320-330.
3段云,邵玉斌,龙华,杜庆治.基于非线性语谱图联合判决的语种识别[J].微电子学与计算机,2024,41(5):99-108.
4王寅杰,邓艾东,范永胜,占可,高原.基于改进PNCC-SVM的滚动轴承故障声纹识别方法[J].噪声与振动控制,2024,44(3):146-151.

1黄林然,罗海泉,赵佳敏,王齐胜,龚岩峰.基于电弧声MFCC特征的焊接线能量检测与识别[J].南昌航空大学学报（自然科学版）,2020,34(4):58-65. 被引量：3
2吴为俊.伽玛Ⅲ型髓内钉和PFNA在治疗老年股骨粗隆间骨折中的疗效对比[J].世界最新医学信息文摘,2020(103):58-59.
3黄语默.深空爱乐心[J].中学生百科,2021(16):50-50.
4张志,刘振宇,冯婷婷,朱涛.基于多层GRU模型的城市声音识别[J].电子设计工程,2021,29(15):6-11. 被引量：2
5李银树.基于视觉识别的机器人音频多模态情感识别系统设计[J].自动化与仪器仪表,2021(5):212-215.
6罗思洋,龙华,邵玉斌,杜庆治.噪声环境下多特征融合的语音端点检测方法[J].云南大学学报（自然科学版）,2021,43(4):671-680. 被引量：11
7赖国燕,马少伟,王学全,顾立虎.迷你车载数字功放的电路原理、设计及实际应用[J].电声技术,2021,45(6):55-59.
8王国良,任允帅.一种基于MRF与区域合并的图像分割改进算法[J].辽宁石油化工大学学报,2021,41(4):78-84. 被引量：1
9姜骋.一票难求的“五一”小长假火车票[J].语数外学习（初中版）,2021(4):39-39.
10白永健,熊小辉,铁永波.川藏铁路雅砻江深切峡谷区滑坡早期识别研究[J].灾害学,2021,36(3):109-114. 被引量：4

北京邮电大学学报

2021年第3期

浏览历史

内容加载中请稍等...

基于声道频谱参数的语种识别被引量：11

参考文献5

二级参考文献27

共引文献36

同被引文献55

引证文献11

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于声道频谱参数的语种识别 被引量：11

参考文献5

二级参考文献27

共引文献36

同被引文献55

引证文献11

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于声道频谱参数的语种识别被引量：11