基于信息提炼与残差特征聚合网络的单通道语音增强

Single-channel Speech Enhancement Method Based on Hierarchical Refinement and Residual Feature Aggregation Network

下载PDF

导出

摘要针对语音增强的深层神经网络中对丰富的全局语音相关信息提取困难、未充分利用中间层次特征的问题,本文以尽可能小的参数为前提,基于注意力U型网络,设计了一种基于信息提炼和残差特征聚合的新型卷积编解码网络来进行语音增强。本文在编解码部分提出一种2维的层次细化残差(HRR,Hierarchical Refinement Residual)模块,该模块能显著降低训练参数并扩大感受野,对多尺度上下文信息进行不同层次的提取;传输层提出一种轻量级的1维通道自适应注意力(1D-CAA,One-Dimensional Channel Dimension Adaptive Attention)模块,结合门控机制和范数归一化,选择性地传递特征并提高网络表达能力,并联合门控残差线性单元搭建了一种门控残差特征聚合(GRFA,Gating Residual Feature Aggregation)网络,增强了层间信息流动并充分利用中间层次特征细节,获取更多时序相关信息。实验部分,本文在21种噪声环境下训练和测试,最终以1.23×106的参数相比于其他方法取得更优的客观与主观指标,具备较强的增强效果与泛化能力,并在模型复杂度与精度上取得良好平衡。 To address the problem of difficult extraction of rich global speech-related information and underutilization of intermedi⁃ate level features in deep neural networks for speech enhancement,this paper designed a novel convolutional codec network based on information refinement and aggregation of residual features for speech enhancement based on attention U-Net with the smallest possible parameters.The mentioned network proposed a Two-Dimensional Hierarchical Refined Residual(HRR)module in the codec part,which could significantly reduce the training parameters and expanded the perceptual field to extract multi-scale contex⁃tual information at different levels;A lightweight One-Dimensional Channel Dimension Adaptive Attention(1D-CAA)module was proposed in the transmission layer,combining gating mechanism and parametric normalization to selectively deliver features and improve network expression capability,and a Gating Residual Feature Aggregation(GRFA)network was built jointly with gating residual linear units to enhance inter-layer information flow and make full use of intermediate level feature details.Residual feature aggregation network,which enhanced the information flow between layers and made full use of the intermediate level feature details to obtain more time-series relevant information.In the experimental part,this paper was trained and tested in 21 noisy environ⁃ments,and finally achieved better objective and subjective indexes with 1.23×106 parameters compared with other methods,with strong enhancement effect and generalization ability,and a good balance of model complexity and accuracy.

作者张天骐罗庆予方蓉张慧芝 ZHANG Tianqi;LUO Qingyu;FANG Rong;ZHANG Huizhi(School of Communication and Information Engineering,Chongqing University of Posts and Telecommunications(CQUPT),Chongqing 400065,China)

机构地区重庆邮电大学通信与信息工程学院

出处《信号处理》 CSCD 北大核心 2023年第7期1285-1298,共14页 Journal of Signal Processing

基金国家自然科学基金项目(61671095,61702065,61701067,61771085) 信号与信息处理重庆市市级重点实验室建设项目(CSTC2009CA2003) 重庆市自然基金项目(cstc2021jcyj-msxmX0836) 重庆市教育委员会科研项目(KJ1600427,KJ1600429)。

关键词语音增强多尺度上下文自适应注意力机制残差特征聚合 speech enhancement multi-scale context adaptive attention mechanism residual feature aggregation

分类号 TN911.7 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献1

1张天骐,柏浩钧,叶绍鹏,刘鉴兴.基于门控残差卷积编解码网络的单通道语音增强方法[J].信号处理,2021,37(10):1986-1995. 被引量：5

二级参考文献1

1时文华,倪永婧,张雄伟,邹霞,孙蒙,闵刚.联合稀疏非负矩阵分解和神经网络的语音增强[J].计算机研究与发展,2018,55(11):2430-2438. 被引量：9

共引文献4

1范君怡,杨吉斌,张雄伟,郑昌艳.基于Transformer的单通道语音增强模型综述[J].计算机工程与应用,2022,58(12):25-36. 被引量：5
2张天骐,熊天,吴超,闻斌.基于压缩激励残差分组扩张卷积和密集线性门控Unet歌声分离方法[J].应用科学学报,2023,41(5):815-830.
3金玉堂,王以松,王丽会,赵鹏利.基于多尺度阶梯时频Conformer GAN的语音增强算法[J].计算机应用,2023,43(11):3607-3615. 被引量：2
4张天骐,罗庆予,张慧芝,方蓉.复谱映射下融合高效Transformer的语音增强方法[J].信号处理,2024,40(2):406-416.

1张玉华,孙慧贤,李爱华,郭宝锋.以能力生成为导向的军队院校专业课程混合式教学模式探索与实践[J].中国现代教育装备,2023(11):76-79.
2韩俊,袁小平,王准,陈烨.基于YOLOv5s的无人机密集小目标检测算法[J].浙江大学学报（工学版）,2023,57(6):1224-1233. 被引量：6
3马胜蕾,李敬华,孔德慧,王立春,王少帆,尹宝才.基于双分支多尺度注意力的手三维姿态估计[J].计算机学报,2023,46(7):1383-1395.
4万俊彦,邓煜宇,曹贵华,马涛,何祥彪.878例泌尿系结石患者的结石成分分析[J].中文科技期刊数据库（全文版）医药卫生,2023(7):27-30.
5邓含浩.浅议融媒体时代突发事件现场报道的方法与创新[J].西部广播电视,2023,44(8):28-30. 被引量：2
6何乐,李忠伟,罗偲,任鹏,隋昊.基于空洞卷积与双注意力机制的红外与可见光图像融合[J].红外技术,2023,45(7):732-738. 被引量：1
7张潇潇.浅论初中语文阅读教学的策略研究[J].中国科技经济新闻数据库教育,2023(8):75-78.
8张征稳.面向建筑物边缘特征保持的遥感影像变化检测研究[J].测绘与空间地理信息,2023,46(S01):203-207. 被引量：1
9彭昆,张桂梅,王杰,储珺.基于可变形卷积和多尺度特征聚焦的X线图像非刚性配准[J].生物医学工程学杂志,2023,40(3):492-498. 被引量：1
10黄钰雯,刘黎明,夏哲一,王怡.农业景观美学价值的内涵及在“美丽乡村”建设中的提升策略[J].小城镇建设,2023,41(7):28-34. 被引量：1

信号处理

2023年第7期

浏览历史

内容加载中请稍等...

基于信息提炼与残差特征聚合网络的单通道语音增强

参考文献1

二级参考文献1

共引文献4

相关作者

相关机构

相关主题

浏览历史