-
题名基于渐进比率掩蔽目标的自适应噪声估计方法
- 1
-
-
作者
高建清
屠彦辉
马峰
付中华
-
机构
科大讯飞股份有限公司
西安讯飞超脑信息技术有限公司
-
出处
《计算机应用》
CSCD
北大核心
2023年第4期1303-1308,共6页
-
基金
科技创新2030-“新一代人工智能”重大项目(2018AAA0102200)。
-
文摘
基于深度学习的语音增强算法的性能通常优于传统的基于噪声抑制的语音增强算法。然而当训练数据和测试数据之间存在不匹配时,基于深度学习的语音增强算法通常无法正常工作。针对上述问题,提出一种新的基于渐进比率掩蔽(PRM)的自适应噪声估计(PRM-ANE)方法,并把它作为语音识别系统的预处理方法。所提方法综合利用了具有帧级别的噪声跟踪能力的改进最小统计量控制递归平均(IMCRA)算法和具有学习噪声和语音之间复杂非线性映射关系的渐进学习算法这两种算法。首先,使用二维卷积神经网络(2D-CNN)学习随信噪比(SNR)增加的PRM;其次,通过传统的帧级语音增强算法组合句子级估计的PRM,进行语音增强;最后,将基于多级别信息融合的增强语音直接作为语音识别系统的输入,从而提高识别系统性能。在CHiME-4真实测试集上的实验结果表明,所提方法可以实现7.42%的相对字识别错误率(WER),与IMCRA语音增强方法相比下降了51.41%,可见所提方法能够有效提升下游识别任务的性能。
-
关键词
语音增强
深度学习
渐进比率掩蔽
语音识别
CHiME-4比赛
-
Keywords
speech enhancement
deep learning
progressive ratio mask(prm)
speech recognition
CHiME-4 challenge
-
分类号
TN912.35
[电子电信—通信与信息系统]
-