双路注意力循环网络的轻量化语音分离

Light-weight speech separation based on dual-path attention and recurrent neural network

下载PDF

导出

摘要提出了双路注意力循环网络的轻量化语音分离方法。首先,该方法使用基于“双路注意力机制”和“双路循环网络”的可选择分支结构对语音信号进行建模,从而提取深层特征信息并降低模型的参数量。其次,引入子带处理技术,从而降低模型的计算量。在LibriCSS数据集上的实验结果表明,该方法取得的平均词错误率为8.6%,且参数量和计算量分别仅为0.15 MiB和15.2 G/6s,与当前主流方法相比,分别减小了3.3~391.3倍和1.1~3.2倍。这表明,所提方法在取得高语音分离性能的同时,能有效地降低模型的参数量和计算量。 A light-weight speech separation algorithm based on dual-path attention and recurrent neural network is proposed.First,optional branch structures based on dual-path attention mechanism and dual-path recurrent network are utilized to model the speech signals,which facilitate the extraction of deep feature information and the reduction of training parameters.Second,sub-band processing approach is introduced to alleviate the computation burden.As shown by the experimental results on the LibriCSS dataset,the average word error rate obtained by the proposed algorithm is 8.6%with only 0.15 MiB training parameters and 15.2 G/6s computation cost,which is 3.3−391.3 and 1.1−3.2 times smaller than other mainstream approaches.This proves the proposed algorithm can effectively reduce the training parameters and computation cost while achieving high speech separation performance.

作者杨弋胡琦张鹏远 YANG Yi;HU Qi;ZHANG Pengyuan(Key Laboratory of Speech Acoustics and Content Understanding,Institute of Acoustics,Chinese Academy of Sciences,Beijing 100190;University of Chinese Academy of Sciences,Beijing 100049)

机构地区中国科学院语言声学与内容理解重点实验室(声学研究所) 中国科学院大学

出处《声学学报》 EI CAS CSCD 北大核心 2023年第5期1060-1069,共10页 Acta Acustica

关键词语音分离轻量化模型深度神经网络双路网络自注意力网络 Speech separation Light-weight model Deep neural network Dual-path network Self-attention network

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献7

1王泽林,陈锴,卢晶.车载场景结合盲源分离与多说话人状态判决的语音抽取[J].声学学报,2020,45(5):696-706. 被引量：6
2曾庆宁,王师琦.扩散噪声下协方差矩阵重构的语音分离与降噪[J].声学学报,2021,46(5):775-784. 被引量：3
3刘文举,聂帅,梁山,张学良.基于深度学习语音分离技术的研究现状与进展[J].自动化学报,2016,42(6):819-833. 被引量：69
4郑成诗,胡笑浒,周翊,李晓东.基于噪声谱结构特性的谱减法[J].声学学报,2010,35(2):215-222. 被引量：19
5郭心伟,刁明芳,郑成诗,李晓东.复高斯混合模型分布式语音分离方法研究[J].信号处理,2021,37(4):475-484. 被引量：2
6武瑞沁,陈雪勤,俞杰,王丽荣,赵鹤鸣.结合注意力机制的改进U-Net网络在端到端语音增强中的应用[J].声学学报,2022,47(2):266-275. 被引量：8
7蓝天,惠国强,李萌,吕忆蓝,刘峤.采用上下文相关的注意力机制及循环神经网络的语音增强方法[J].声学学报,2020,45(6):897-905. 被引量：4

二级参考文献93

1陶智,赵鹤鸣,龚呈卉.基于听觉掩蔽效应和Bark子波变换的语音增强[J].声学学报,2005,30(4):367-372. 被引量：39
2Benesty J, Makino S, Chen J. Speech enhancement. New York: Springer, 2005.
3Brandstein M, Ward D. (Eds.). Microphone arrays signal processing techniques and applications. New York: Springer, 2001.
4Deller J R, Proakis J G, Hansen J H L. Discrete-time processing of speech signals. New York: Macmillan Publishing Company, 1993.
5Ephraim Y, Malah D. Speech enhancement using a minimum mean-square error log-spectral amplitude estimator. IEEE Trans. on ASSP, 1985; 33(2): 443-445.
6Cappe O. Elimination of the musical noise phenomenon with the Ephraim and Malah noise suppressor. IEEE Trans. on SAP, 1994; 2(2): 345-349.
7Boll S F. Suppression of acoustic noise in speech using spectral subtraction. IEEE Trans. on ASSP, 1979; 27(2): 113-120.
8Gustafsson H, Nordholm S E, Claesson I. Spectral Subtraction Using Reduced Delay Convolution and Adaptive Averaging. IEEE Trans. on SAP, 2001; 9(8): 799-807.
9Hu Y, Loizou P C. Speech enhancement based on wavelet thresholding the multitaper spectrum. IEEE Trans. on ASLP, 2004; 12(1): 59-67.
10Gulzow T, Ludwig T, Heute U. Spectral-subtraction speech enhancement in multirate systems with and without non- uniform and adaptive bandwidths. Signal Processing, 2003; 83(8): 1613-1631.

共引文献103

1李艳生,刘园,张毅,杨美美.混响环境下移动机器人语音控制方法及系统实现[J].仪器仪表学报,2019,40(11):165-171. 被引量：14
2杨海龙,曾祥福,钟维良.多尺度时域单通道语音分离网络设计[J].电声技术,2021,45(10):96-99.
3王杰,严周颖,周智恒,张春良,杨广权.噪声谱驱动后滤波算法[J].系统工程与电子技术,2013,35(3):656-661. 被引量：1
4曹智栋,李双田,未建英.功率谱孤立因子构建的音乐噪声抑制算法[J].信号处理,2013,29(4):474-479. 被引量：1
5姜占才,杨林.两种新的语音自适应增强算法研究[J].计算机工程与科学,2013,35(5):173-179.
6胡笑浒,王世伟,郑成诗,李晓东.基于倒谱预处理技术的语音增强算法研究[J].科学技术与工程,2013,21(21):6111-6117. 被引量：1
7黄张翼,周翊,舒晓峰,刘宏清.联合贝叶斯估计与深度神经网络的语音增强方法[J].小型微型计算机系统,2019,40(1):40-44. 被引量：5
8彭任华,郑成诗,丁茫,李晓东.高压变电站噪声分离算法及其应用[J].高电压技术,2015,41(5):1680-1686. 被引量：25
9王洋,冯瑶,丁喜波,陈德运.基于时频结合的带噪语音端点检测算法[J].黑龙江大学自然科学学报,2016,33(3):410-415. 被引量：2
10易子馗,谭建平,刘思思.基于改进谱减法和MFCC的电机异常噪声识别方法[J].微特电机,2017,45(2):31-38. 被引量：8

声学学报

2023年第5期

浏览历史

内容加载中请稍等...

双路注意力循环网络的轻量化语音分离

参考文献7

二级参考文献93

共引文献103

相关作者

相关机构

相关主题

浏览历史