期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于LFBank与FBank混合特征的声纹识别研究 被引量:5
1
作者 崔琳 王芷悦 《计算机科学》 CSCD 北大核心 2022年第S02期621-625,共5页
语音特征提取是声纹识别过程中的重要步骤,对于声音频率的分布男性与女性差距较大,但现有的特征提取算法并没有针对不同性别声音频率特性做出相应改进。针对上述问题,提出了为女性声纹识别所设计的语音特征提取算法LFBank,将线性滤波器... 语音特征提取是声纹识别过程中的重要步骤,对于声音频率的分布男性与女性差距较大,但现有的特征提取算法并没有针对不同性别声音频率特性做出相应改进。针对上述问题,提出了为女性声纹识别所设计的语音特征提取算法LFBank,将线性滤波器组用于特征提取过程,利用其线性分布的特点弥补传统梅尔滤波器组提取高频区域信息时的不足。另一方面,为了突破单一性别局限,拓宽应用场景,综合线性滤波器组与梅尔滤波器组的优势,将LFBank与FBank特征结合得到混合特征向量进行声纹识别。将LFBank和常用特征FBank与MFCC进行实验对比,实验结果表明,基于线性滤波器组的特征向量在识别女性声音时更有优势。对于混合特征而言,在与单一特征的对比实验中,混合特征能够达到比单一特征更好的识别效果,具有更广泛的应用场景。 展开更多
关键词 声纹识别 特征提取 声音频率 线性滤波器组 梅尔滤波器组 混合特征
下载PDF
基于非线性堆叠双向网络的端到端声纹识别 被引量:1
2
作者 王芷悦 崔琳 《计算机与现代化》 2022年第3期13-17,共5页
传统声纹识别方法过程繁琐且识别率低,现有的深度学习方法所使用的神经网络对语音信号没有针对性从而导致识别精度不够。针对上述问题,本文提出一种基于非线性堆叠双向LSTM的端到端声纹识别方法。首先,对原始语音文件提取出Fbank特征用... 传统声纹识别方法过程繁琐且识别率低,现有的深度学习方法所使用的神经网络对语音信号没有针对性从而导致识别精度不够。针对上述问题,本文提出一种基于非线性堆叠双向LSTM的端到端声纹识别方法。首先,对原始语音文件提取出Fbank特征用于网络模型的输入。然后,针对语音信号连续且前后关联性强的特点,构建双向长短时记忆网络处理语音数据提取深度特征,为进一步增强网络的非线性表达能力,利用堆叠多层双向LSTM层和多层非线性层实现对语音信号更深层次抽象特征的提取。最后,使用SGD优化器优化训练方式。实验结果表明提出的方法能够充分利用语音序列信号特征,具有较强的时序全面性和非线性表达能力,所构造模型整体性强,比GRU和LSTM等模型具有更好的识别效果。 展开更多
关键词 声纹识别 端到端 时序特征 长短时记忆 堆叠网络 非线性
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部