-
题名基于傅里叶卷积的多通道语音增强
被引量:1
- 1
-
-
作者
孙思雨
张海剑
陈佳佳
-
机构
武汉大学电子信息学院
-
出处
《无线电工程》
2024年第3期580-588,共9页
-
基金
湖北省自然科学基金(2022CFB084)。
-
文摘
神经波束形成器(Neural Beamformer)的构建是处理多通道语音增强任务的主要方法之一,其通过求解波束权值对多通道信号进行滤波从而获得纯净语音。与传统波束求解空间协方差矩阵的原理类似,频谱信息和空间线索在神经波束形成器的波束权值估计中也起着至关重要的作用。由于缺乏对频谱和空间信息的充分学习,现有许多工作无法对波束权值进行最优估计。为应对这一挑战,构建了一种基于傅里叶卷积的上下文特征提取器,在频率轴上具有全局感受野,并加入时频卷积模块对时间上下文信息建模,增强对输入频谱图上下文信息的学习;采用了一种新的卷积循环网络(Convolutional Recurrent Network, CRN)结构,其编解码模块中嵌入了所提的上下文特征提取器,并在跳连接中嵌入卷积注意力模块(Convolutional Block Attention Module, CBAM)。所提出的CRN结构能充分从输入特征频谱图中捕获时频上下文信息以及跨通道的空间信息。实验结果表明,该方法参数量仅1.14 M,与目前先进的基线系统对比达到最优性能。
-
关键词
多通道
语音增强
神经波束形成器
傅里叶卷积
深度学习
-
Keywords
multi-channel
speech enhancement
neural beamformer
Fourier convolution
deep learning
-
分类号
TN911.7
[电子电信—通信与信息系统]
-