基于改进GFCC特征参数的广播音频语种识别被引量：1

Broadcast Audio Language Identification Based on Improved GFCC Feature Parameters

下载PDF

导出

摘要针对广播音频语种识别中与语种识别无关的特征对识别结果产生影响的问题,提出一种基于伽马频率倒谱系数的改进特征参数的语种识别方法.通过提取每帧信号的能量谱包络,去除部分与说话人相关的特征,采用Gammatone滤波器组滤波,经离散余弦变换后再进行倒谱提升,得到改进的伽马频率倒谱系数特征参数.将广播音频信号提取特征参数输入隐Markov模型中进行训练测试,得到的语种识别结果表明,该方法有效提升了广播音频语种识别的准确率,优于目前使用的伽马频率倒谱系数特征及其衍生方法. To address the problem that features unrelated to language identification in broadcast audio have an impact on the language identification results,an improved language identification method based on gamma frequency cepstrum coefficients with improved feature parameters is proposed.By extracting the energy spectral envelope of each frame,the speaker-related features are removed,filtered by a Gammatone filter banks,and then by the discrete cosine transform and cepstrum lifting to obtain the improved gamma frequency cepstrum feature parameters.The feature parameters extracted from broadcast audio signal were input into hidden Markov model for training and testing,and the language identification results were obtained.The results show that the proposed method can effectively improve the language identification accuracy for broadcast audio,which is better than the currently used gamma frequency cepstrum coefficient features and their derivatives.

作者邵玉斌陈亮龙华杜庆治 SHAO Yubin;CHEN Liang;LONG Hua;DU Qingzhi(School of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,China)

机构地区昆明理工大学信息工程与自动化学院

出处《吉林大学学报（理学版）》 CAS 北大核心 2022年第2期417-424,共8页 Journal of Jilin University:Science Edition

基金国家自然科学基金(批准号:61761025).

关键词广播音频语种识别能量谱包络倒谱提升改进伽马频率倒谱系数 broadcast audio language identificaition energy spectrum envelope cepstrum lifting improved gamma frequency cepstrum coefficient

分类号 TP391 [自动化与计算机技术—计算机应用技术] TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献7

1余琳,姜囡.基于Gammatone滤波器的混合特征语音情感识别[J].光电技术应用,2020,35(3):50-54. 被引量：7
2张卫强,刘加.基于听感知特征的语种识别[J].清华大学学报（自然科学版）,2009(1):78-81. 被引量：21
3胡峰松,曹孝玉.基于Gammatone滤波器组的听觉特征提取[J].计算机工程,2012,38(21):168-170. 被引量：29
4周萍,沈昊,郑凯鹏.基于MFCC与GFCC混合特征参数的说话人识别[J].应用科学学报,2019,37(1):24-32. 被引量：44
5邵玉斌,刘晶,龙华,杜庆治,李一民.基于声道频谱参数的语种识别[J].北京邮电大学学报,2021,44(3):112-119. 被引量：11
6张健,徐杰,包秀国,周若华,颜永红.应用于语种识别的加权音素对数似然比特征[J].清华大学学报（自然科学版）,2017,57(10):1038-1041. 被引量：4
7李宏,李定文,朱海琦,田雷,李富.一种优化的VMD算法及其在语音信号去噪中的应用[J].吉林大学学报（理学版）,2021,59(5):1219-1227. 被引量：20

二级参考文献56

1王伟,邓辉文.基于MFCC参数和VQ的说话人识别系统[J].仪器仪表学报,2006,27(z3):2253-2255. 被引量：30
2赵腊生,张强,魏小鹏.语音情感识别研究进展[J].计算机应用研究,2009,26(2):428-432. 被引量：21
3李朝晖,迟惠生.听觉外周计算模型研究进展[J].声学学报,2006,31(5):449-465. 被引量：22
4Zissman M A. Comparison of four approaches to automatic language identification of telephone speech [J]. IEEE Transactions on Speech and Audio Processing, 1996, 4(1): 31 - 44.
5Li H, Ma B, Lee C H. A vector space modeling approach to spoken language identification [J]. IEEE Transactions on Audio, Speech and Language Processing, 2007, 15(1): 271 - 284.
6Huang X D, Acero A, Hon H W. Spoken Language Processing [M]. Upper Saddle River, NJ: Prentice Hall PTR, 2000.
7Abdulla W H. Auditory based feature vectors for speech recognition systems [J]. Advances in Communications and Software Technologies, 2002: 231- 236.
8Li Q, Soong F, Siohan O. A high-performance auditory feature for robust speeeh recognition [C]//Proe 6th Int Conf on Spoken Language Processing. Beijing: China Military Friendship Publish, 2000, Ⅲ: 51- 54.
9Colombi J M, Anderson T R, Rogers S K. Auditory model representation for speaker recognition [C]//Proc ICASSP. Piscataway, NJ: IEEE Press, 2006, Ⅱ:700-703.
10Glasberg B R, Moore B C. Derivation of auditory filter shapes from notched-noise data [J]. Hearing Research, 1990, 47(1-2): 103-108.

共引文献117

1艾佳琪,左毅,刘君霞,贺培超,李铁山,陈俊龙.基于余弦相似度的动态语音特征提取算法[J].计算机应用研究,2020,37(S02):147-149. 被引量：10
2崔琳,王芷悦.基于LFBank与FBank混合特征的声纹识别研究[J].计算机科学,2022,49(S02):621-625. 被引量：3
3卢小春,尹俊勋,王修信.基于听觉模型特征的与文本无关说话人识别系统[J].广西师范大学学报（自然科学版）,2010,28(2):22-26. 被引量：2
4黄山奇,张连海,屈丹.一种基于人耳听觉感知和子带补偿滤波的鲁棒语言辨识特征参数提取算法[J].模式识别与人工智能,2012,25(1):166-171. 被引量：2
5翟慧强,张金萍,王丹,赵艳春.听觉模型综述[J].机械工程师,2014(3):19-22. 被引量：5
6蒋毅,刘润生,冯振明.基于听感知特性的双麦克风近讲语音增强算法[J].清华大学学报（自然科学版）,2014,54(9):1179-1183. 被引量：1
7茅正冲,王正创,王丹.基于Gammatone滤波器组的说话人识别算法研究[J].计算机工程与应用,2015,51(1):200-203. 被引量：9
8张卫强,郭璁,张乔,康健,何亮,刘加,Johnson Michael T.一种基于计算听觉场景分析的语音增强算法[J].天津大学学报（自然科学与工程技术版）,2015,48(8):663-669. 被引量：2
9茅正冲,龚熙.基于EMD与RLS的说话人识别抗噪算法[J].计算机应用与软件,2016,33(5):231-234.
10熊冰峰,曾以成,谢小娟.一种改进的听觉特征参数应用于说话人识别[J].计算机应用,2016,36(A01):82-85. 被引量：5

同被引文献8

1韩立华,王博,段淑凤.语音端点检测技术研究进展[J].计算机应用研究,2010,27(4):1220-1226. 被引量：39
2王建荣,张句,路文焕,魏建国,党建武.机器人自身噪声环境下的自动语音识别[J].清华大学学报（自然科学版）,2017,57(2):153-157. 被引量：4
3苟鹏程,宗群.车载语音识别及控制系统的设计与实现[J].计算机应用与软件,2017,34(5):129-134. 被引量：8
4陈爱月,徐波,申子健.基于高斯混合模型及TIMIT语音库的说话人身份识别[J].信息通信,2017,30(7):51-52. 被引量：3
5金超,龚铖,李辉.语音识别中神经网络声学模型的说话人自适应研究[J].计算机应用与软件,2018,35(2):200-205. 被引量：12
6张宇,张鹏远,颜永红.基于注意力LSTM和多任务学习的远场语音识别[J].清华大学学报（自然科学版）,2018,58(3):249-253. 被引量：29
7龙星延,屈丹,张文林.结合瓶颈特征的注意力声学模型[J].计算机科学,2019,46(1):260-264. 被引量：3
8姚庆安,张鑫,刘力鸣,冯云丛,金镇君.融合注意力机制和多尺度特征的图像语义分割[J].吉林大学学报（理学版）,2022,60(6):1383-1390. 被引量：11

引证文献1

1姜囡,庞永恒,高爽.基于注意力机制语谱图特征提取的语音识别[J].吉林大学学报（理学版）,2024,62(2):320-330. 被引量：1

二级引证文献1

1郑瑶.基于深度学习的ChatGPT中文语音自动识别方法[J].无线互联科技,2024,21(17):91-93.

1谢道平,于帅珍,武岳.基于GFCC特征提取机器人仿生声呐SLAM算法研究[J].阜阳师范大学学报（自然科学版）,2021,38(3):67-72.
2朱文博,王谋,张晓雷,Susanto Rahardja.基于语音分离的人工设计特征、参数化特征和可学习特征的比较[J].中国传媒大学学报（自然科学版）,2021,28(3):52-57.
3祝伟霞,张守杰,郁露,师子豪,杨娜.气相色谱分析氨基酸研究进展[J].河南水产,2022(1):23-25. 被引量：1
4屈晓渊,崔青.基于梅尔频率倒谱系数的音频分类研究[J].电子设计工程,2022,30(9):82-87. 被引量：7
5楚宪腾,杨海涛,闫道申,许铭洋,王华朋.基于全局注意力机制的CNN-LSTM说话人识别研究[J].电声技术,2022,46(2):38-45. 被引量：1
6陈亮,邵玉斌,龙华,杜庆治,彭艺,唐维康.基于时域Gammatone滤波特征的广播语种识别[J].信号处理,2022,38(3):599-608. 被引量：4
7李晓芬,张海芬,杨志,熊华斌,高云涛.基于新型微腔体微波反应器的微波辅助衍生-气相色谱质谱法快速测定水果中的有机酸[J].食品与发酵工业,2022,48(10):264-271. 被引量：3
8孙玉伟,罗林根,陈敬德,王辉,盛戈皞,江秀臣.含噪背景下基于盲源分离与NSVDD的断路器机械故障诊断方法[J].高电压技术,2022,48(3):1104-1112. 被引量：13

吉林大学学报（理学版）

2022年第2期

浏览历史

内容加载中请稍等...

基于改进GFCC特征参数的广播音频语种识别被引量：1

参考文献7

二级参考文献56

共引文献117

同被引文献8

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于改进GFCC特征参数的广播音频语种识别 被引量：1

参考文献7

二级参考文献56

共引文献117

同被引文献8

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于改进GFCC特征参数的广播音频语种识别被引量：1