期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
低信噪比下基于融合网络的音素识别方法
1
作者 黄辉波 邵玉斌 +1 位作者 龙华 杜庆治 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2024年第4期786-796,共11页
针对低信噪比下音素识别准确率低的问题,提出一种新的识别方法。提取语音的Fbank特征,输入到由多头注意力机制、ResNet、BLSTM、CTC构建的A-R-B-CTC模型中进行音素识别,利用Wave-U-Net对语音特征Fbank、MFCC、GFCC、对数频谱进行图像去... 针对低信噪比下音素识别准确率低的问题,提出一种新的识别方法。提取语音的Fbank特征,输入到由多头注意力机制、ResNet、BLSTM、CTC构建的A-R-B-CTC模型中进行音素识别,利用Wave-U-Net对语音特征Fbank、MFCC、GFCC、对数频谱进行图像去噪,发现Fbank特征去噪后,可以取得更低的音素错误率。在0 dB白噪声环境下采用THCHS30数据集进行实验验证。结果表明,Fbank去噪前,所提A-R-B-CTC模型相比于BLSTM-CTC、ResNet-BLSTM-CTC、Transformer模型,平均音素错误率分别降低了4.38%、2.5%、1.96%;Fbank去噪后,4种模型的音素错误率明显下降,其中所提A-R-B-CTC模型相比于其他3种模型性能依旧出色。此外,在其他信噪比下也达到了不错的效果。 展开更多
关键词 音素识别 Wave-U-Net 端到端 多头自注意力机制 Transformer模型
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部