多尺度卷积的时频域语音分离方法研究被引量：2

Speech separation in time-and-frequency domain based on multi-scale convolution

下载PDF

导出

摘要在进行混合语音分离时,信号时域特征的深度学习语音分离性能优于频域特征。但目前时域特征的语音分离方法在真实噪声环境下的鲁棒性较差,且单一时域特征对分离模型的性能存在局限性。因此,提出一种基于Conv-TasNet网络的多特征语音分离方法,融合频域特征与时域特征,提高数据的多维信息。为了进一步提高分离网络性能,引入多尺度卷积块,提高网络对特征的提取能力。在包含真实噪声的实验环境下,所提方法与Conv-TasNet模型和最新的时频域融合语音分离基线模型相比,性能分别提高了0.91和0.52 dB,有效提升了语音分离的性能及鲁棒性。 In mixed speech separation, the performance of signal time-domain features is better than that of frequency-domain features. However, the current speech separation methods based on time domain feature have poor robustness in real noise environment, and single time domain feature has limitations on the performance of the separation model. Therefore, a multi-feature speech separation method based on Conv-TasNet network is proposed, which integrates frequency domain features and time domain features to improve multidimensional information of data. In order to further improve the performance of separation network, multi-scale convolution block is introduced to improve the feature extraction ability of network. Compared with the Conv-TasNet model and the latest time-frequency fusion speech separation baseline model, the performance and robustness of the proposed method are improved by 0.91 and 0.52 dB respectively in the experimental environment containing real noise.

作者贾林锋吴黎明温腾腾廖禹韬高梓皓 Jia Linfeng;Wu Liming;Wen Tengteng;Liao Yutao;Gao Zihao(School of Electromechanical Engineering,Guangdong University of Technology,Guangzhou 510006,China)

机构地区广东工业大学机电工程学院

出处《电子测量与仪器学报》 CSCD 北大核心 2022年第11期134-140,共7页 Journal of Electronic Measurement and Instrumentation

基金国家自然科学基金(61705045) 佛山广工大研究院创新创业人才团队计划项目(20191108)资助。

关键词语音分离特征融合多尺度卷积时频域特征 speech separation feature fusion multiscale convolution time-frequency domain characteristics

分类号 TP391.4 [自动化与计算机技术—计算机应用技术] TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献6

1张盛,杨剑鸣.一种面向自组织麦克风网络的多通道语音分离方法[J].信号处理,2021,37(5):757-762. 被引量：3
2吴礼福,申浩.掩蔽法减少谱减法去混响中的音乐噪声[J].电子测量与仪器学报,2017,31(11):1855-1859. 被引量：4
3徐亮,王晶,杨文镜,罗逸雨.基于Conv-TasNet的多特征融合音视频联合语音分离算法[J].信号处理,2021,37(10):1799-1805. 被引量：3
4黄雅婷,石晶,许家铭,徐波.鸡尾酒会问题与相关听觉模型的研究现状与展望[J].自动化学报,2019,45(2):234-251. 被引量：20
5刘琛,王江涛,王明阳.引入视觉机制的SSD网络在摩托车头盔佩戴检测中的应用[J].电子测量与仪器学报,2021,35(3):144-151. 被引量：21
6何晓云,许江淳,陈文绪.基于改进U-Net网络的眼底血管图像分割研究[J].电子测量与仪器学报,2021,35(10):202-208. 被引量：17

二级参考文献27

1张仁志,崔慧娟.谱相减法语音增强技术中“音乐噪声”的抑制[J].电声技术,2005,29(5):35-38. 被引量：9
2李富强,万红,黄俊杰.基于MATLAB的语谱图显示与分析[J].微计算机信息,2005,21(10X):172-174. 被引量：27
3徐耀华,郭英,范海宁.语音增强：使用burg谱先验信噪比估计消除“音乐噪声”[J].信号处理,2009,25(1):141-146. 被引量：11
4郑成诗,胡笑浒,周翊,李晓东.基于噪声谱结构特性的谱减法[J].声学学报,2010,35(2):215-222. 被引量：19
5张贺,沈天飞,滕秋霞.小词汇量孤立词语音识别系统多种特征组合参数的选择方法研究[J].电子测量技术,2015,38(3):48-53. 被引量：7
6酆勇,熊庆宇,石为人,曹俊华.一种基于受限玻尔兹曼机的说话人特征提取算法[J].仪器仪表学报,2016,37(2):256-262. 被引量：19
7刘文举,聂帅,梁山,张学良.基于深度学习语音分离技术的研究现状与进展[J].自动化学报,2016,42(6):819-833. 被引量：67
8郭小青,李东新,田正宏,金薛冬.基于噪声信号的振捣棒工作状态判定方法[J].国外电子测量技术,2016,35(8):15-18. 被引量：7
9王卫东,程丹.监控场景下的实时车辆检测方法[J].电子测量与仪器学报,2018,32(7):83-88. 被引量：5
10潘峰,孙红霞.基于蝗虫算法的图像多阈值分割方法[J].电子测量与仪器学报,2019,31(1):149-155. 被引量：26

共引文献62

1李吉祥,倪旭昇,颜上取,邹孝,钱盛友.基于A-DResUnet的语音增强方法[J].电子测量与仪器学报,2022,36(10):131-137. 被引量：2
2刘行谋,田浩,杨永明,王燕,赵小翔.复杂环境背景下绝缘子缺陷图像检测方法研究[J].电子测量与仪器学报,2022,36(2):57-67. 被引量：17
3刘琨,王向辉,崔振宇,杨昆.基于改进残差网络的泌尿系结石类型术前预测[J].电子测量技术,2023,46(18):147-154.
4杨昆,孙宇锋,汪世伟,路宇飞,薛林雁.YOLOF-CBAM:一种新的结直肠息肉实时分类与检测方法[J].电子测量技术,2023,46(16):138-147.
5崔文成,杨丹,邵虹.基于双路特征的宫颈细胞核分割[J].电子测量技术,2023,46(6):129-136. 被引量：1
6肖易明,张海剑,孙洪,丁昊.引入注意力机制的视频声源定位[J].信号处理,2019,35(12):1969-1978. 被引量：3
7常新旭,张杨,杨林,寇金桥,王昕,徐冬冬.利用门控循环编解码网络的语音增强方法[J].计算机工程与设计,2020,41(6):1762-1767. 被引量：1
8孙刚平.多噪声背景电子音乐类型分类建模与分析研究[J].现代电子技术,2020,43(21):110-113. 被引量：1
9肖鑫鑫.复杂噪声环境下的普通话测试系统设计[J].信息技术,2020,44(11):78-82. 被引量：1
10陈小鼎,盛常冲,匡纲要,刘丽.唇读研究进展与展望[J].自动化学报,2020,46(11):2275-2301. 被引量：4

同被引文献9

1李艳生,刘园,张毅,杨美美.混响环境下移动机器人语音控制方法及系统实现[J].仪器仪表学报,2019,40(11):165-171. 被引量：13
2王冬霞,张伟,于玲,刘孟美.基于BLSTM神经网络的回声和噪声抑制算法[J].信号处理,2020,36(6):991-1000. 被引量：5
3徐浩森,姜囡,齐志坤.基于注意力机制的卷积循环网络语音降噪[J].科学技术与工程,2022,22(5):1950-1957. 被引量：8
4焦亚萌,周成智,李文萍,崔琳,董免.融合多头注意力的VGGNet语音情感识别研究[J].国外电子测量技术,2022,41(1):63-69. 被引量：9
5任健,李鸿燕,张昱,邢璐.基于UNet自适应特征融合的语音增强[J].电子测量技术,2022,45(9):76-81. 被引量：5
6刘达山,刘潞琦,张光驰,薛川奇.基于深度学习的Attention机制文献综述[J].信息技术与信息化,2023(1):189-194. 被引量：5
7许春冬,王茹霞,徐锦武,凌贤鹏,黄乔月.融合注意力机制的CS-BiLSTM深度回声消除算法[J].现代电子技术,2023,46(5):55-59. 被引量：2
8皇甫晓瑛,钱惠敏,黄敏.结合注意力机制的深度神经网络综述[J].计算机与现代化,2023(2):40-49. 被引量：11
9许春冬,徐锦武,王茹霞,凌贤鹏,黄乔月,郭桥生.结合LSTM与ResNet的声学回声消除[J].传感器与微系统,2023,42(5):29-32. 被引量：1

引证文献2

1许春冬,汪雄,闵源.融合注意力机制的SimNet声音事件定位与检测算法[J].国外电子测量技术,2023,42(8):33-39.
2许春冬,黄乔月,王磊,徐锦武.融合动态场景感知和注意力机制的声学回声消除算法[J].信号处理,2024,40(2):396-405.

1鲍珩.光伏系统直流串联电弧故障特征研究[J].中文科技期刊数据库（引文版）工程技术,2021(6):137-139.
2方伟杰,张志航,王恒畅,梁艳,潘家辉.融合语音、脑电和人脸表情的多模态情绪识别[J].计算机系统应用,2023,32(1):337-347. 被引量：2
3陈俎宇.电影剪辑技术对短视频新闻的借鉴价值——以“天眼新闻”客户端短视频为例[J].电影评介,2022(14):77-79. 被引量：2
4张晓宇,张华熊,高强.基于深度学习的多模式权重网络语音情感识别[J].大连理工大学学报,2022,62(5):526-534. 被引量：3
5杨锦辉,李鸿,杜芸彦,毛耀,刘琼.基于改进YOLOv5s的轻量化目标检测算法[J].电光与控制,2023,30(2):24-30. 被引量：18
6李海鹏,余强.基于YOLOv5的目标识别追踪模型轻量化[J].汽车实用技术,2023,48(5):30-33. 被引量：2
7李琦,洪翌.地铁牵引逆变器IGBT故障诊断研究[J].中文科技期刊数据库（文摘版）工程技术,2021(8):188-188.
8李延民,李明.基于小波包变换的柱塞泵脉动压力信号BP故障诊断[J].液压气动与密封,2023,43(3):123-126. 被引量：1
9郝怿.钢铁行业基于IP的语音融合通信系统及数字无线对讲系统[J].通信电源技术,2022,39(24):130-133.
10刘雪鹏,张文林,陈紫龙.基于VQ-VAE与Do-Conv层的无监督语音表示学习[J].信息工程大学学报,2022,23(5):513-519.

电子测量与仪器学报

2022年第11期

浏览历史

内容加载中请稍等...

多尺度卷积的时频域语音分离方法研究被引量：2

参考文献6

二级参考文献27

共引文献62

同被引文献9

引证文献2

相关作者

相关机构

相关主题

浏览历史

多尺度卷积的时频域语音分离方法研究 被引量：2

参考文献6

二级参考文献27

共引文献62

同被引文献9

引证文献2

相关作者

相关机构

相关主题

浏览历史

多尺度卷积的时频域语音分离方法研究被引量：2