结合光流算法与注意力机制的U-Net网络跨模态视听语音分离被引量：1

Cross-modal Audiovisual Separation Based on U-Net Network Combining Optical Flow Algorithm and Attention Mechanism

下载PDF

导出

摘要目前多数的视听分离模型,大多是基于视频特征和音频特征简单拼接,没有充分考虑各个模态的相互关系,导致视觉信息未被充分利用,该文针对此问题提出了新的模型。该文充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合稠密光流(Farneback)算法和U-Net网络,提出跨模态融合的光流-视听语音分离(Flow-AVSS)模型。该模型通过Farneback算法和轻量级网络ShuffleNet v2分别提取运动特征和唇部特征,然后将运动特征与唇部特征进行仿射变换,经过时间卷积模块(TCN)得到视觉特征。为充分利用到视觉信息,在进行特征融合时采用多头注意力机制,将视觉特征与音频特征进行跨模态融合,得到融合视听特征,最后融合视听特征经过U-Net分离网络得到分离语音。利用客观语音质量评估(PESQ)、短时客观可懂度(STOI)及源失真比(SDR)评价指标,在AVspeech数据集进行实验测试。研究表明,该文所提方法与纯语音分离网络和仅采用特征拼接的视听分离网络相比,性能上分别提高了2.23 dB和1.68 dB。由此表明,采用跨模态注意力进行特征融合,能更加充分利用各个模态相关性,增加的唇部运动特征,能有效提高视频特征的鲁棒性,提高分离效果。 Most of the current audiovisual separation models are mostly based on simple splicing of video features and audio features,without fully considering the interrelationship of each modality,resulting in the underutilization of visual information,a new model is proposed to address this issue.Hence,in this paper,the interrelationship of each modality is taken into consideration.In addition,a multi-headed attention mechanism is used to combine the Farneback algorithm and the U-Net network to propose a cross-modal fusion optical Flow-Audio Visual Speech Separation(Flow-AVSS)model.The motion features and lip features are respectively extracted by the Farneback algorithm and the lightweight network ShuffleNet v2.Furthermore,the motion features are affine transformed with the lip features,and the visual features are obtained by the Temporal CoNvolution module(TCN).In order to utilize sufficiently the visual information,the multi-headed attention mechanism is used in the feature fusion to fuse the visual features with the audio features across modalities.Finally,the fused audio-visual features are passed through the U-Net separation network to obtain the separated speech.Using Perceptual Evaluation of Speech Quality(PESQ),Short-Time Objective Intelligibility(STOI),and Source-to-Distortion Ratio(SDR)evaluation metrics,experimental tests are conducted on the AVspeech dataset.It is shown that the performance of the proposed method is improved by 2.23 dB and 1.68 dB compared with the pure speech separation network or the audio-visual separation network based on feature splicing.Thus,it is indicated that the feature fusion based on the cross-modal attention can make fuller use of the individual modal correlations.Besides,the increased lip motion features can effectively improve the robustness of video features and improve the separation effect.

作者兰朝凤蒋朋威陈欢韩闯郭小霞 LAN Chaofeng;JIANG Pengwei;CHEN Huan;HAN Chuang;GUO Xiaoxia(School of Measurement and Control Technology and Communication Engineering,Harbin University of Science and Technology,Harbin 150080,China;China Ship Design and Research Center,Wuhan 430064,China)

机构地区哈尔滨理工大学测控技术与通信工程学院中国舰船研究设计中心

出处《电子与信息学报》 EI CSCD 北大核心 2023年第10期3538-3546,共9页 Journal of Electronics & Information Technology

基金国家自然科学基金(11804068) 黑龙江省自然科学基金(LH2020F033)。

关键词视听语音分离视听融合跨模态注意力光流算法 Audio-Visual Speech Separation(AVSS) Audio-visual integration Cross-modal attention Optical flow algorithm

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献2

1杨子龙,朱付平,田金文,田甜.基于显著性与稠密光流的红外船只烟幕检测方法研究[J].红外与激光工程,2021,50(7):109-116. 被引量：3
2欧阳玉梅.基于稠密光流算法的运动目标检测的Python实现[J].现代电子技术,2021,44(1):78-82. 被引量：11

二级参考文献12

1罗胜,Jiang Yuzheng.视频检测烟雾的研究现状[J].中国图象图形学报,2013,18(10):1225-1236. 被引量：26
2张仲瑜,焦淑红.多特征融合的红外舰船目标检测方法[J].红外与激光工程,2015,43(B12):29-34. 被引量：17
3赵晓健,曾晓勤.基于稠密光流轨迹和稀疏编码算法的行为识别方法[J].计算机应用,2016,36(1):181-187. 被引量：17
4贾阳,林高华,王进军,方俊,张永明.基于显著性检测和高斯混合模型的早期视频烟雾分割算法[J].计算机工程,2016,42(2):206-209. 被引量：12
5林成忠,张为,王鑫,刘艳艳.基于稠密光流和边缘特征的烟雾检测算法[J].计算机工程与科学,2018,40(7):1213-1220. 被引量：6
6王聪,刘明光,齐飞.智能视频监控系统动态目标检测与识别算法综述[J].电气技术,2018,19(9):6-11. 被引量：22
7喻津,周浩杰,柴志雷.一种基于众核架构的稠密光流并行计算方法[J].计算机工程与应用,2016,52(16):186-191. 被引量：1
8薛鹏,董文锋,罗威.烟幕对光电制导目标识别能力干扰效果研究[J].激光与红外,2018,48(3):374-378. 被引量：8
9李国友,张春阳,张凤岭,夏永彬.视频监控运动目标图像优化检测仿真[J].现代电子技术,2019,42(14):68-73. 被引量：8
10董超,冯俊健,田联房,郑兵.梯度纹理直方图与多层感知器船舶快速检测[J].红外与激光工程,2019,48(10):281-290. 被引量：4

共引文献12

1李吉焱,朱照琪,李宁,张建强.互动剧本式教学在化工技术经济课程中的应用探索[J].化工高等教育,2021,38(6):127-130. 被引量：1
2王艳梅,张艳珠,刘义杰.基于改进ViBe算法的运动目标检测方法研究[J].沈阳理工大学学报,2020,39(6):34-38.
3王慧颖,吴琦鸣,王兆强.动态场景下基于图像掩模技术的双目SLAM算法[J].传感技术学报,2021,34(12):1656-1662. 被引量：2
4余善恩,李真,邓文渝.基于四旋翼飞行器的电力巡检机器人视觉系统设计[J].实验室研究与探索,2022,41(1):74-79. 被引量：4
5文奴,郭仁忠,贺彪,万远.YOLO v4框架下Multi⁃Patch多帧增量式交通视频目标检测[J].测绘通报,2022(5):38-44.
6黄柏,杨帆,邓剑平,毕凡.基于累积帧间差分法和掩膜的SF6红外检漏视频定位算法研究[J].电气技术,2022,23(7):104-108. 被引量：2
7朱代先,刁弘伟,刘树林.一种基于改进FAST角点检测的LK光流算法[J].现代电子技术,2022,45(15):45-50. 被引量：1
8葛从兵,陈剑,严吉皞.大坝缺陷识别系统设计与实现[J].软件导刊,2023,22(5):84-90.
9朱明超,胡灿伟,黄永腾,李鹏生,张小凤.基于轻量型卷积神经网络的视频移动目标检测研究[J].自动化应用,2023,64(16):173-175. 被引量：1
10陈支鹏,张霞,白鹏,李超.基于PYNQ的运动目标检测系统[J].电子设计工程,2023,31(24):172-176.

同被引文献2

1孙伟,常鹏帅,戴亮,张小瑞,陈旋,代广昭.基于注意力引导数据增强的车型识别[J].计算机工程,2022,48(7):300-306. 被引量：3
2熊中敏,曾旗,卢鹏,王振华,郑宗生.基于残差注意力多尺度关系网络的逻辑推理[J].计算机工程,2023,49(6):227-233. 被引量：1

引证文献1

1杨硕,王一丁.基于改进薄板样条运动模型的人脸动画算法[J].计算机工程,2024,50(6):255-265.

1石琦.基于注意力模块的轻量化垃圾分类算法[J].信息技术与信息化,2023(9):29-32.
2李晓辉.VoLTE业务MOS影响因素研究探讨[J].电脑乐园,2023(2):145-147.
3曹雪梅,何宏图,魏冰阳,许浩.螺旋锥齿轮数字孪生体模态参数的提取与分析[J].机械工程学报,2023,59(13):260-267.
4黄友锐,方明帅,韩涛,董卉圆,刘玉文,刘权增.融合轻量级网络的农业病害检测[J].光电子．激光,2023,34(9):950-959. 被引量：1
5郭志楷,杨明堃,蒋国峰,陶祁,刘欢欢,马红强.基于嵌入式注意机制的目标语音提取算法[J].计算机测量与控制,2023,31(10):174-181.
6李先旺,秦学敬,贺德强,吴金鑫,杨锦飞.基于时间卷积长短时记忆网络的多域特征融合刀具磨损预测[J].机床与液压,2023,51(20):210-218. 被引量：1
7周庆辉,刘浩世.优化Swin Transformer的塔式起重机销轴安全状态识别算法[J].中国安全科学学报,2023,33(9):63-68.
8王圆春,段素馨,王先义.通信语音干扰效果评估方法[J].太赫兹科学与电子信息学报,2023,21(10):1217-1223. 被引量：1
9刘善峰,李哲,陈锦鹏,卢明,向玲.基于误差修正的极端天气下风速预测[J].南京信息工程大学学报（自然科学版）,2023,15(5):574-584. 被引量：2
10尹丽华,康亮,刘士建.基于顶点轮廓的鲁棒性抗前景干扰稳像算法[J].计算机仿真,2023,40(9):184-190.

电子与信息学报

2023年第10期

浏览历史

内容加载中请稍等...

结合光流算法与注意力机制的U-Net网络跨模态视听语音分离被引量：1

参考文献2

二级参考文献12

共引文献12

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

结合光流算法与注意力机制的U-Net网络跨模态视听语音分离 被引量：1

参考文献2

二级参考文献12

共引文献12

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

结合光流算法与注意力机制的U-Net网络跨模态视听语音分离被引量：1