A non-linear frequency transform and its application to speaker recognition 被引量：1

A non-linear frequency transform and its application to speaker recognition

导出

摘要 Based on analyzing contribution of short-time spectrum in different frequency subbands to speaker recognition and using of polynomial curve matching techniques, a non-linear frequency transform and feature detection algorithm are proposed to highlight the speaker＇s individuality in short-time spectrum of speech. The experimental results show that the performance of speaker recognition system is improved effectively, the average error rate of recognition relatively falls about 70.5%, 60.8% and 70.5% in comparison with classical frequency transform of Mel, Bark and ERB （Equivalent Rectangular Bandwidth） respectively. Based on analyzing contribution of short-time spectrum in different frequency subbands to speaker recognition and using of polynomial curve matching techniques, a non-linear frequency transform and feature detection algorithm are proposed to highlight the speaker＇s individuality in short-time spectrum of speech. The experimental results show that the performance of speaker recognition system is improved effectively, the average error rate of recognition relatively falls about 70.5%, 60.8% and 70.5% in comparison with classical frequency transform of Mel, Bark and ERB （Equivalent Rectangular Bandwidth） respectively.

作者 YU Yibiao YUAN Dongmei XUE Feng

机构地区 School of Electronic and Information Engineering

出处《Chinese Journal of Acoustics》 2009年第3期280-288,共9页 声学学报（英文版）

分类号 TP391.72 [自动化与计算机技术—计算机应用技术] TN753.91 [电子电信—电路与系统]

引文网络
相关文献

参考文献6

1芮贤义,俞一彪.基于小波变换的鲁棒型特征提取及说话人识别[J].电路与系统学报,2005,10(5):129-132. 被引量：7
2包永强,赵力,邹采荣.采用归一化补偿变换的与文本无关的说话人识别[J].声学学报,2006,31(1):55-60. 被引量：13
3邵央,刘丙哲,李宗葛.基于MFCC和加权矢量量化的说话人识别系统[J].计算机工程与应用,2002,38(5):127-128. 被引量：34
4张玲华,郑宝玉,杨震.基于语音谐波结构的鲁棒特征参数及其在说话人识别中的应用[J].电子与信息学报,2006,28(10):1786-1789. 被引量：3
5俞一彪,王朔中.文本无关说话人识别的全特征矢量集模型及互信息评估方法[J].声学学报,2005,30(6):536-541. 被引量：7
6芮贤义,俞一彪.噪声环境下说话人识别的组合特征提取方法[J].信号处理,2006,22(5):673-677. 被引量：12

二级参考文献50

1俞一彪,王朔中.基于互信息匹配模型的说话人识别[J].声学学报,2004,29(5):462-466. 被引量：8
2Pandey P C, Bhandorkar S M. Enhancement of alaryngeal speech using spectral subtraction. Digital Signal Processing, 2002; 12(2): 591-594
3Zhong Lin, Rafik Goubran. Musical noise reduction in speech using two-dimensional spectrogram enhancement.Proceedings of HAVE, 2003; 20(5): 61-64
4Tadj C, Gabrea M. Towards robustness in speaker verification: Enhancement and adaptation. Midwest Symposium on Circuits and Systems, 2002; 3(3): 320-323
5Soon I Y, Koh S N. Speech enhancement using 2-D Fourier transform. IEEE Transactions on Speech and Audio Processing, 2003; 11(6): 717-724
6Douglas Reynolds A. Speaker identification and verification using Gaussian mixture speaker models. Speech Communication, 1995; 17(1): 91-108
7Matsui T, Furui S. Concatenated phoneme models for text variable speaker recognition. ICASSP. 1993; 2(2): 391-394
8Markov K, Nakagawa S.Text-independent speaker recognition system using frame level likelihood processing. Technical Report of IEICE, 1996; 96(17): 37-44
9Ke Chen. Towards better making a decision in speaker verification. Pattern Recognition, 2003; 36(2) : 329-346
10Reynolds D A, Rose R C. Robust text-independent speaker identification using Gaussian mixture speaker models.IEEE Trans. On Speech and Audio Processing, 1995; 3(1):72-83

共引文献63

1蒋磊,马六章,杨克虎,许政.基于MFCC和FD-CNN卷积神经网络的综放工作面煤矸智能识别[J].煤炭学报,2020,45(S02):1109-1117. 被引量：6
2王伟,邓辉文.基于MFCC参数和VQ的说话人识别系统[J].仪器仪表学报,2006,27(z3):2253-2255. 被引量：30
3李波,王成友,杨聪,蔡宣平,张尔扬.基于语音频谱包络抽取的MFCC算法[J].国防科技大学学报,2004,26(4):42-45. 被引量：4
4董志峰,汪增福.基于动态MFCC的说话人识别算法[J].模式识别与人工智能,2005,18(5):596-601. 被引量：7
5王永琦,邓琛,杨洋.语音增强用于抗噪声的汉语说话人识别[J].微电子学与计算机,2006,23(2):166-168. 被引量：4
6李战明,王贞.矢量量化与神经网络相结合的说话人识别系统[J].计算机工程与应用,2006,42(15):204-206. 被引量：2
7林琳,王树勋,王秀丽.基于DSP开集说话人识别系统的实时实现[J].吉林大学学报（信息科学版）,2006,24(3):252-258. 被引量：2
8陈若珠,李战明,王贞.基于组合神经网络的与文本无关的说话人识别[J].兰州理工大学学报,2006,32(3):78-81. 被引量：2
9邱政权,尹俊勋,杨俊.用于说话人辨认的新的语音去噪方法[J].声学与电子工程,2006(3):31-33.
10陈明义,余伶俐,朱晗,周昆湘.基于特征参数融合的语音情感识别方法[J].微电子学与计算机,2006,23(12):168-171. 被引量：10

同被引文献6

1YUYibiao,WANGShuozhong.Speaker identification based on complete feature corpus and evaluation of mutual information[J].Chinese Journal of Acoustics,2005,24(3):280-288. 被引量：1
2俞一彪,王朔中.文本无关说话人识别的全特征矢量集模型及互信息评估方法[J].声学学报,2005,30(6):536-541. 被引量：7
3陈存宝,赵力,邹采荣.基于极大似然线性回归的模型合成和特征映射进行说话人确认[J].声学学报,2011,36(1):81-87. 被引量：2
4梁春燕,张翔,杨琳,张建平,颜永红.最小方差无失真响应感知倒谱系数在说话人识别中的应用[J].声学学报,2012,37(6):673-678. 被引量：4
5栗志意,张卫强,何亮,刘加.基于总体变化子空间自适应的i-vector说话人识别系统研究[J].自动化学报,2014,40(8):1836-1840. 被引量：17
6梁春燕,杨琳,周若华,颜永红.韵律特征在概率线性判别分析说话人确认中的应用[J].声学学报,2015,40(1):28-33. 被引量：6

引证文献1

1仲伟峰,方祥,范存航,温正棋,陶建华.深浅层特征及模型融合的说话人识别[J].声学学报,2018,43(2):263-272. 被引量：11

二级引证文献11

1曹毅,黄子龙,张威,刘晨,李巍.N-DenseNet的城市声音事件分类模型[J].西安电子科技大学学报,2019,46(6):9-16. 被引量：6
2曾春艳,马超峰,王志锋,朱栋梁,赵楠,王娟,刘聪.深度学习框架下说话人识别研究综述[J].计算机工程与应用,2020,56(7):8-16. 被引量：9
3盛永健,黄子龙,刘晨,曹毅,张洪.基于改进卷积神经网络的燃气调压器故障识别研究[J].现代制造工程,2021(4):132-138. 被引量：2
4张兴明,杨凯.深度学习说话人识别中语音特征参数提取研究[J].现代计算机,2021,27(8):3-7. 被引量：2
5罗春梅,张风雷.基于均值特征和改进深度神经网络的说话人识别算法[J].声学技术,2021,40(4):503-507. 被引量：2
6陈志高,赵庆卫,王丽,王文超.融合分布对齐和对抗学习的无监督跨域声纹识别[J].声学学报,2021,46(5):767-774.
7柴庆凤,史霖炎,梅珊,熊海涛,贺惠新.基于人工特征和机器特征融合的科技文献知识元抽取[J].数据分析与知识发现,2021,5(8):132-143. 被引量：11
8罗春梅.基于改进MFCC与RCNN的说话人识别算法[J].数学的实践与认识,2021,51(17):102-110. 被引量：6
9赵宏,岳鲁鹏,常兆斌,王伟杰.基于多特征I-Vector的说话人识别算法[J].兰州理工大学学报,2021,47(5):93-98. 被引量：1
10刘臣,倪仁倢,周立欣,侯昌佑.多声学特征融合的语音自动剪辑深度学习模型[J].小型微型计算机系统,2023,44(8):1713-1719.

1王道才.提高注册表搜索效率[J].网友世界,2008(9):29-29.
2扫描仪故障巧排除[J].计算机与网络,2001,0(6):19-19.
3段军,戴居丰.基于多支持度的挖掘加权关联规则算法[J].天津大学学报,2006,39(1):114-118. 被引量：14
4张剑.解析学校计算机实验室管理和维护[J].计算机光盘软件与应用,2013,16(2):90-90.
5罗昕炜,方世良.基于DSP的快速谱特征提取方法[J].声学与电子工程,2006(3):24-25.
6高频显卡易死机吗[J].电脑爱好者（普及版）,2010(A02):233-233.
7刁文静,张志勤.短波LFM信号宽带识别算法[J].无线电工程,2011,41(10):55-57. 被引量：3
8郑无敌,彭惠民.毛细管放电X光激光中的预脉冲研究[J].强激光与粒子束,2004,16(12):1545-1548.
9吴正娴,王良刚,李晓蓉.复介电常数的快速无损测量[J].武汉大学学报（自然科学版）,1994,40(3):35-42.
10李文洪,梅启庸,赵雪薇,陈玉亭,淳于书泰.从3ω_0／2、2ω_0谐波观察X光激光等离子体状态[J].核聚变与等离子体物理,1995,15(2):59-64.

Chinese Journal of Acoustics

2009年第3期

浏览历史

内容加载中请稍等...