期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于GFCC和能量算子倒谱的语种识别 被引量:3
1
作者 刘晶 邵玉斌 +1 位作者 龙华 李一民 《云南大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第2期254-261,共8页
为了提高低信噪比下语种识别的准确率,引入一种新的特征提取融合方法.在前端加入有声段检测,并基于人耳听觉感知模型提取伽玛通频率倒谱系数(Gammatone Frequency Cepstrum Coefficient,GFCC)特征,通过主成分分析对特征进行压缩、降噪,... 为了提高低信噪比下语种识别的准确率,引入一种新的特征提取融合方法.在前端加入有声段检测,并基于人耳听觉感知模型提取伽玛通频率倒谱系数(Gammatone Frequency Cepstrum Coefficient,GFCC)特征,通过主成分分析对特征进行压缩、降噪,融合每个有声段的Teager能量算子倒谱参数,通过高斯混合通用背景模型进行语种识别验证.实验结果表明,在信噪比为-5~0 dB时,相对于基于对数梅尔尺度滤波器组能量特征方法,融合特征集方法对5种语言的识别率,分别提升了23.7%~34.0%,其他信噪比等级下识别率也有明显的提升. 展开更多
关键词 语种识别 伽玛通频率倒谱系数 有声无声段检测 Teager能量算子倒谱参数 主成分分析
下载PDF
基于Gammatone频率倒谱系数的舰船辐射噪声分析 被引量:2
2
作者 吴晏辰 王英民 《水下无人系统学报》 2021年第1期60-64,共5页
舰船辐射噪声的声学特征提取对目标训练和识别有着重要影响。文中提出一种基于Gammatone频率倒谱系数(GFCC)的特征分析方法:以目标特征提取方法——Mel频率倒谱系数(MFCC)算法作为比照组,针对小型低速船只、小型高速船只及大型船只三大... 舰船辐射噪声的声学特征提取对目标训练和识别有着重要影响。文中提出一种基于Gammatone频率倒谱系数(GFCC)的特征分析方法:以目标特征提取方法——Mel频率倒谱系数(MFCC)算法作为比照组,针对小型低速船只、小型高速船只及大型船只三大类目标,在2种不同水声环境中提取的5122个样本进行了分类识别比对试验。试验结果表明,2种算法的目标识别率均大于80%,且GFCC在海洋复杂声环境中的识别率显著高于MFCC,并对高频目标更敏感。说明GFCC算法与标准的MFCC算法相比,在海洋等强干扰环境下具有更好的抗噪性和更高的快速目标识别率。 展开更多
关键词 水下目标识别 舰船辐射噪声 特征提取 gammatone频率倒谱系数 MEL频率倒谱系数
下载PDF
基于GFCC与RLS的说话人识别抗噪系统研究 被引量:5
3
作者 茅正冲 王正创 黄芳 《计算机工程与应用》 CSCD 北大核心 2015年第10期215-218,231,共5页
为了提高说话人识别抗噪系统的性能,提出了将RLS自适应滤波器作为语音信号去噪的预处理器,进一步提高语音信号的信噪比,再通过Gammatone滤波器组,对去噪后的说话人语音信号进行处理,提取说话人语音信号的特征参数GFCC,进而将特征参数GFC... 为了提高说话人识别抗噪系统的性能,提出了将RLS自适应滤波器作为语音信号去噪的预处理器,进一步提高语音信号的信噪比,再通过Gammatone滤波器组,对去噪后的说话人语音信号进行处理,提取说话人语音信号的特征参数GFCC,进而将特征参数GFCC用于说话人识别系统中。仿真实验在高斯混合模型识别系统中进行。实验结果表明,采用这种方法应用于说话人识别抗噪系统,系统的识别率及鲁棒性都有明显的提高。 展开更多
关键词 抗噪系统 递归式最小均方(RLS) Grammatone频率倒谱系数(gfcc) 识别率
下载PDF
基于Gammatone滤波器的混合特征语音情感识别 被引量:7
4
作者 余琳 姜囡 《光电技术应用》 2020年第3期50-54,58,共6页
研究基于混合特征的语音情感识别问题。为了避免梅尔频率倒谱系数(MFCC)滤波器组的高频信号存在泄漏的局限性,提出一种基于Gammatone滤波器的倒谱系数(GFCC)特征与韵律特征、音质特征混合的情感识别方法。Gammatone滤波器谱峰比MFCC的... 研究基于混合特征的语音情感识别问题。为了避免梅尔频率倒谱系数(MFCC)滤波器组的高频信号存在泄漏的局限性,提出一种基于Gammatone滤波器的倒谱系数(GFCC)特征与韵律特征、音质特征混合的情感识别方法。Gammatone滤波器谱峰比MFCC的三角滤波器平缓,能够解决三角滤波器能量泄露的问题,因此GFCC在复杂环境中更能表现出良好的抗噪能力。该方法将GFCC与共振峰、基音频率、短时能量、浊音帧差分基音特征进行融合,针对EMO-DB语音情感数据库的200条和自制语料库的1120条语句,采用K最近邻分类器(KNN)模型作为识别机识别语音情感信息。通过传统混合特征和改进混合特征的对比分析,实验结果表明,在噪声环境中新的混合特征参数具有更高的识别率。 展开更多
关键词 gfcc 情感识别 融合特征 K邻近分类算法
下载PDF
基于MFCC和GFCC混合特征的语音情感识别研究 被引量:10
5
作者 郭卉 姜囡 任杰 《光电技术应用》 2019年第6期34-39,共6页
针对MFCC滤波器存在语音高频信号泄露的问题,为避免基于MFCC特征对语音进行情感识别时存在有效情感特征丢失的局限性,结合MFCC的高准确性和GFCC的强鲁棒性,提出了基于MFCC与GFCC混合特征训练CNN对语音进行情感识别的方法,有效提高了语... 针对MFCC滤波器存在语音高频信号泄露的问题,为避免基于MFCC特征对语音进行情感识别时存在有效情感特征丢失的局限性,结合MFCC的高准确性和GFCC的强鲁棒性,提出了基于MFCC与GFCC混合特征训练CNN对语音进行情感识别的方法,有效提高了语音情感识别的准确率,改善了CNN模型的识别性能。实验结果表明,所设计的混合特征识别方法较传统识别方法识别率明显升高并达到了83%,实现了语言情感识别准确率的有效提升。 展开更多
关键词 MFCC gfcc 语音情感识别 CNN 混合特征
下载PDF
一种舰载低信噪比环境下的音频端点检测算法 被引量:2
6
作者 王中正 王鉴 +1 位作者 韩焱 韩星程 《兵器装备工程学报》 CAS CSCD 北大核心 2023年第3期197-203,共7页
针对舰载环境下音频端点检测准确率及鲁棒性较低的问题,提出了一种谱减法和朴素贝叶斯分类器相结合的音频端点检测算法。首先提取纯净音频信号MFCC0与GFCC0构建融合特征,与能熵比特征一同作为朴素贝叶斯分类器的输入进行训练及建模,再... 针对舰载环境下音频端点检测准确率及鲁棒性较低的问题,提出了一种谱减法和朴素贝叶斯分类器相结合的音频端点检测算法。首先提取纯净音频信号MFCC0与GFCC0构建融合特征,与能熵比特征一同作为朴素贝叶斯分类器的输入进行训练及建模,再利用多窗谱谱减法提升待测含噪信号信噪比,提取信号相关特征,朴素贝叶斯分类器根据待测信号特征判断该信号的类别。仿真实验结果表明,该算法针对舰载低信噪比含噪音频信号与传统方法相比有效降低了虚检和漏检,具有更好的准确性及鲁棒性。 展开更多
关键词 音频端点检测 多窗谱谱减法 Mel频率倒谱系数(MFCC) gammatone频率倒谱系数(gfcc) 朴素贝叶斯
下载PDF
基于深度自编码网络语音识别噪声鲁棒性研究 被引量:9
7
作者 黄丽霞 王亚楠 +1 位作者 张雪英 王洪翠 《计算机工程与应用》 CSCD 北大核心 2017年第13期49-54,共6页
为了解决传统径向基(Radial basis function,RBF)神经网络在语音识别任务中基函数中心值和半径随机初始化的问题,从人脑对语音感知的分层处理机理出发,提出利用大量无标签数据初始化网络参数的无监督预训练方式代替传统随机初始化方法,... 为了解决传统径向基(Radial basis function,RBF)神经网络在语音识别任务中基函数中心值和半径随机初始化的问题,从人脑对语音感知的分层处理机理出发,提出利用大量无标签数据初始化网络参数的无监督预训练方式代替传统随机初始化方法,使用深度自编码网络作为语音识别的声学模型,分析梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)和基于Gammatone听觉滤波器频率倒谱系数(Gammatone Frequency Cepstrum Coefficient,GFCC)下非特定人小词汇量孤立词的抗噪性能。实验结果表明,深度自编码网络在MFCC特征下较径向基神经网络表现出更优越的抗噪性能;而与经典的MFCC特征相比,GFCC特征在深度自编码网络下平均识别率相对提升1.87%。 展开更多
关键词 语音识别 鲁棒性 深度自编码网络 gfcc特征 MFCC特征
下载PDF
法庭语音比对中话者自身变化性建模方法研究 被引量:2
8
作者 王华朋 姜囡 +1 位作者 刘恩 晁亚东 《计算机工程与应用》 CSCD 北大核心 2019年第8期110-115,214,共7页
针对法庭说话人识别中待鉴定人员语音样本不足的问题,提出了一种新的对说话人自身变化性建模的替代性方法以及相应的方差控制算法。使用同条件下的参考数据库构建识别系统的多个相同说话人得分模型,代替检验需要的多个非同期的带检验人... 针对法庭说话人识别中待鉴定人员语音样本不足的问题,提出了一种新的对说话人自身变化性建模的替代性方法以及相应的方差控制算法。使用同条件下的参考数据库构建识别系统的多个相同说话人得分模型,代替检验需要的多个非同期的带检验人员语音样本比较时的得分模型,以获得能反映说话人自身变化性的统计模型。基于目前最新的法庭证据评估的似然比证据强度评估体系,使用MFCC(Mel Frequency Cepstral Coefficients)和GFCC(Gammatone Frequency Cepstral Coefficients)特征对该方法的有效性进行了验证,并对上述特征进行了特征级和决策级融合。实验结果表明:该方法在纯净语音环境和噪声环境下都具有很高的识别率和稳定性,并且特征级融合能进一步提高识别系统的性能。 展开更多
关键词 似然比 证据强度 建模 梅尔频率倒谱系数(MFCC) 伽马通频率倒谱系数(gfcc)
下载PDF
多类型语音特征进化选择算法
9
作者 张小恒 谢文宾 李勇明 《计算机工程与应用》 CSCD 北大核心 2016年第14期150-155,219,共7页
基于特征选择的语音特征获取用于说话人识别是目前较为有效的方式。但是,最优语音特征随着具体应用环境的变化而不同。因此,提出了基于四类型语音特征封装式遗传特征选择算法(FSF-Wr GAF),该算法提取了四种类型的语音特征参数,通过链式... 基于特征选择的语音特征获取用于说话人识别是目前较为有效的方式。但是,最优语音特征随着具体应用环境的变化而不同。因此,提出了基于四类型语音特征封装式遗传特征选择算法(FSF-Wr GAF),该算法提取了四种类型的语音特征参数,通过链式智能体遗传算法和GMM-UBM进行封装式动态特征选择,获取高精度的识别准确率。采用了多种指标完成该算法的性能测试。实验结果表明,该算法具体实现过程简便,改进效果明显,较同类算法在多项指标(识别率,EER,DET曲线)上都有显著提高。 展开更多
关键词 说话人识别 多类型语音特征 链式智能体遗传算法 伽马通滤波器倒谱系数(gfcc) 梅尔频率倒谱系数(MFCC) 线性预测倒谱系数(LPCC)
下载PDF
噪声环境下多特征融合的语音端点检测方法 被引量:11
10
作者 罗思洋 龙华 +1 位作者 邵玉斌 杜庆治 《云南大学学报(自然科学版)》 CAS CSCD 北大核心 2021年第4期671-680,共10页
针对传统语音端点检测方法在噪声环境下鲁棒性较差以及对语音段检测效果不佳的问题,提出一种多特征融合的语音端点检测方法.首先,提取带噪语音信号的子带谱熵特征和基于Mel频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)的投... 针对传统语音端点检测方法在噪声环境下鲁棒性较差以及对语音段检测效果不佳的问题,提出一种多特征融合的语音端点检测方法.首先,提取带噪语音信号的子带谱熵特征和基于Mel频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)的投影特征,并将Gammatone频率倒谱系数的第一维系数GFCC0特征应用到语音端点检测任务中;然后,对3类特征进行自适应加权融合,得到适用于端点检测的融合特征;最后,采用模糊C均值聚类自适应估计门限阈值,再通过双门限法得到端点检测的结果.所提方法和已有传统方法相比,在7种噪声环境下均取得了更好的端点检测结果,提升了语音端点检测的准确率,特别是在volvo噪声环境下的端点检测准确率可以达到94.5%以上. 展开更多
关键词 语音端点检测 子带谱熵 Mel频率倒谱系数(MFCC) gammatone频率倒谱系数(gfcc) 多特征融合
下载PDF
一种基于感知特征动态失真度量的语音质量评估算法 被引量:3
11
作者 张来洪 邱波 刘红玉 《自动化技术与应用》 2017年第4期1-4,11,共5页
实现一种基于语音感知特征参数动态规整失真度量的客观侵入式语音质量评估算法,该算法分为特征提取、失真度量、MOS映射三个步骤。算法的创新在于:特征提取过程中选取更能表征语音实质的GFCC参数取代传统的LPC、LPCC、MFCC、IMFCC等参数... 实现一种基于语音感知特征参数动态规整失真度量的客观侵入式语音质量评估算法,该算法分为特征提取、失真度量、MOS映射三个步骤。算法的创新在于:特征提取过程中选取更能表征语音实质的GFCC参数取代传统的LPC、LPCC、MFCC、IMFCC等参数,在失真度量过程中选用动态规整距离取代传统的平均欧式距离,MOS映射时对映射函数进行修正以防止出现坏值而影响算法性能。文章详细介绍了算法的原理,在实现算法的基础上从相关度和偏离误差等指标对算法性能进行衡量,结果证明算法性能良好。 展开更多
关键词 语音质量评估 gfcc 动态规整 MOS映射
下载PDF
基于CASA的噪声环境下的话者辨认
12
作者 李冬冬 唐建 +1 位作者 李然军 李辉 《小型微型计算机系统》 CSCD 北大核心 2016年第5期1107-1111,共5页
传统的说话人识别系统在噪声环境下的识别率较低.基于计算听觉场景分析得到的二值掩码可以对噪声占主导部分进行重建,从而将与说话人相关的被破坏的信息重建起来.但是重建的效果受到该帧中可靠帧的比例的影响.因此,根据提取的二值掩码... 传统的说话人识别系统在噪声环境下的识别率较低.基于计算听觉场景分析得到的二值掩码可以对噪声占主导部分进行重建,从而将与说话人相关的被破坏的信息重建起来.但是重建的效果受到该帧中可靠帧的比例的影响.因此,根据提取的二值掩码来设定阈值,从而对测试特征的帧进行选取,将测试特征的帧划分为三类,分别用于重建、保留和丢弃.最终使用重建后的帧和保留的帧进行后续处理,并用于识别过程.实验结果表明,相较于原来的重建系统,该算法的识别率有了一定的提高. 展开更多
关键词 计算听觉场景分析 gammatone频率倒谱系数(gfcc) 理想二值掩码(IBM) 阈值
下载PDF
基于混合特征的说话人语音分割聚类研究 被引量:3
13
作者 刘景天 姜囡 《光电技术应用》 2019年第5期37-41,共5页
研究众多说话人语音中提取目标说话人语音的问题。为提高多说话人语音分割聚类的准确性,结合MFCC特征高准确性和GFCC特征强鲁棒性的特点,提出一种基于MFCC与GFCC混合特征的语音分割聚类算法,有效避免了含噪语音分割聚类鲁棒性较差等问... 研究众多说话人语音中提取目标说话人语音的问题。为提高多说话人语音分割聚类的准确性,结合MFCC特征高准确性和GFCC特征强鲁棒性的特点,提出一种基于MFCC与GFCC混合特征的语音分割聚类算法,有效避免了含噪语音分割聚类鲁棒性较差等问题。针对叠加粉红噪声和工厂噪声的实验语音,分别基于常规算法和改进的分割聚类算法进行对比分析,结果表明,所提出的基于混合特征的语音分割聚类算法提取目标人语音的准确性更具优势。 展开更多
关键词 语音分割聚类 梅尔频率倒谱系数 伽马通滤波器倒谱系数 鲁棒性
下载PDF
基于深度学习的低空声目标识别
14
作者 王显云 王志峰 黄山 《电声技术》 2022年第3期67-70,74,共5页
本文提出采用人耳听觉特征和深度神经网络(Deep Neural Network,DNN)相结合的方式对低空飞行目标进行分类。首先,以不同目标的梅尔频率谱(Mel-Frequency Cepstrum Coefficients,MFCC)和伽玛通功率谱(Gammatone Filterbank spectra,GF)... 本文提出采用人耳听觉特征和深度神经网络(Deep Neural Network,DNN)相结合的方式对低空飞行目标进行分类。首先,以不同目标的梅尔频率谱(Mel-Frequency Cepstrum Coefficients,MFCC)和伽玛通功率谱(Gammatone Filterbank spectra,GF)为静态特征,并以它们的差分谱作为动态特征;其次,利用谐波处理技术获得具有谐波保护的上述静态特征和动态特征;最后,将上述特征进行组合,作为深度神经网络的输入参数进行网络训练,来进行不同低空声目标的鉴别。试验结果表明,基于深度学习的方法在低空飞行目标识别方面可以取得较好的识别效果。 展开更多
关键词 低空声目标识别 深度神经网络(DNN) 梅尔频率倒谱系数(MFCC) 伽玛通功率谱(GF)
下载PDF
Research on Voiceprint Recognition of Camouflage Voice Based on Deep Belief Network 被引量:4
15
作者 Nan Jiang Ting Liu 《International Journal of Automation and computing》 EI CSCD 2021年第6期947-962,共16页
The problem of disguised voice recognition based on deep belief networks is studied. A hybrid feature extraction algorithm based on formants, Gammatone frequency cepstrum coefficients(GFCC) and their different coeffic... The problem of disguised voice recognition based on deep belief networks is studied. A hybrid feature extraction algorithm based on formants, Gammatone frequency cepstrum coefficients(GFCC) and their different coefficients is proposed to extract more discriminative speaker features from the original voice data. Using mixed features as the input of the model, a masquerade voice library is constructed. A masquerade voice recognition model based on a depth belief network is proposed. A dropout strategy is introduced to prevent overfitting, which effectively solves the problems of traditional Gaussian mixture models, such as insufficient modeling ability and low discrimination. Experimental results show that the proposed disguised voice recognition method can better fit the feature distribution, and significantly improve the classification effect and recognition rate. 展开更多
关键词 Disguised voice recognition deep belief network feature extraction gammatone frequency cepstrum coefficients(gfcc) DROPOUT
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部