期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
融合动态场景感知和注意力机制的声学回声消除算法
1
作者 许春冬 黄乔月 +1 位作者 王磊 徐锦武 《信号处理》 CSCD 北大核心 2024年第2期396-405,共10页
在实时语音频通话系统中,如何去除声学回声得到清晰语音是目前最受关注的难题之一。声学回声消除(Acoustic echo cancellation,AEC)技术旨在消除语音频通话系统中的声学回声,提高通话过程中的语音质量,给予用户良好的通话体验,但是传统... 在实时语音频通话系统中,如何去除声学回声得到清晰语音是目前最受关注的难题之一。声学回声消除(Acoustic echo cancellation,AEC)技术旨在消除语音频通话系统中的声学回声,提高通话过程中的语音质量,给予用户良好的通话体验,但是传统回声消除系统存在去回声效果不明显、存在非线性回声残留以及无法实时处理回声等问题。因此,为解决上述存在问题,提出了一种动态场景感知模块(Dynamic scene perception module,DSPM)和全局注意力机制(Global attention mechanism,GAM)相结合的声学回声消除算法。该算法以卷积循环网络(Convolutional recurrent network,CRN)作为基线模型,提取语音信号的序列特征;首先,在其编码器中引入DSPM模块替换原因果卷积,根据场景动态分配卷积内核数量,加强模型的自适应性;其次,在编码器最后两层中分别引入GAM模块,放大空间通道间关系以及统筹全局交互,提升对语音信号特征的提取能力以及消除回声的性能;最后,通过将MSE损失函数和HuberLoss损失函数线性相加生成一种新的损失函数——MSE-HuberLoss,进一步提高模型的鲁棒性。实验结果表明,提出的GAM-DSPM-CRN模型的回声消除性能优秀,且获得较基线模型更加清晰的重构语音信号;在双端通话环境下,提出的GAM-DSPM-CRN模型声学回声消除算法较其他对比算法性能有较大提升;在Microsoft AEC Challenges数据集上,MOS、ERLE和STOI的得分分别达到了4.09、57.43和0.78。 展开更多
关键词 声学回声消除 动态场景感知模块 全局注意力机制 卷积循环网络 联合损失函数
下载PDF
融合注意力机制的CS-BiLSTM深度回声消除算法 被引量:2
2
作者 许春冬 王茹霞 +2 位作者 徐锦武 凌贤鹏 黄乔月 《现代电子技术》 2023年第5期55-59,共5页
在全双工通信系统中,声学回声会降低用户的体验,针对在双向通话场景下自适应滤波算法消除声学回声效果不理想以及非线性声学回声难以消除的问题,提出一种注意力机制与BiLSTM网络相结合的CS-BiLSTM深度声学回声消除算法。首先通过构建BiL... 在全双工通信系统中,声学回声会降低用户的体验,针对在双向通话场景下自适应滤波算法消除声学回声效果不理想以及非线性声学回声难以消除的问题,提出一种注意力机制与BiLSTM网络相结合的CS-BiLSTM深度声学回声消除算法。首先通过构建BiLSTM网络提取语音的时序特征,之后引入通道和空间注意力机制提取回声信号的空间特征信息,并融合均方根误差与平均绝对误差提出一种新的损失函数,提高模型的鲁棒性。改进后的CS-BiLSTM网络模型能够获得清晰的语音信号,具有更好的回声消除性能。仿真结果表明,在非线性回声和双向通话环境下,与其他几种参考算法相比,所提出的CS-BiLSTM算法在感知语音质量评价方面明显优于其他算法,更有效地实现了回声消除,此外,该算法结构简单且模型参数量更少。 展开更多
关键词 回声消除 双工通信 注意力机制 特征提取 语音信号获得 损失函数优化 回声系统模型 对比实验
下载PDF
结合LSTM与ResNet的声学回声消除 被引量:1
3
作者 许春冬 徐锦武 +3 位作者 王茹霞 凌贤鹏 黄乔月 郭桥生 《传感器与微系统》 CSCD 北大核心 2023年第5期29-32,共4页
针对传统的声学回声消除(AEC)方法在双端讲话场景下较难实现快速收敛和动态自适应的问题,提出了一种结合长短时记忆(LSTM)与残差神经网络(ResNet)的AEC方法。通过使用LSTM和ResNet相结合的特征提取方法,同时提取到声学回声的时序特征和... 针对传统的声学回声消除(AEC)方法在双端讲话场景下较难实现快速收敛和动态自适应的问题,提出了一种结合长短时记忆(LSTM)与残差神经网络(ResNet)的AEC方法。通过使用LSTM和ResNet相结合的特征提取方法,同时提取到声学回声的时序特征和不同级别的抽象特征,且充分利用近端语音、近端麦克风语音和声学回声之间的幅度谱相似性的特点,引入它们之间的谱归一化互相关系数,构造了一种改进的理想二值掩蔽(iIBM)作为训练目标,此外引入深度可分离卷积使模型参数量减少了3.42 MB。实验结果表明:双端通话环境下所提出的方法相比参考算法取得了更高的客观评价得分。 展开更多
关键词 声学回声消除 双端讲话场景 长短时记忆网络 残差神经网络 理想二值掩蔽 深度可分离卷积
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部