基于多注意力机制的纹理感知视频修复方法

Texture-aware video inpainting algorithm based on the multi-attention mechanism

下载PDF

导出

摘要针对现有视频修复方法无法有效利用远处空间内容信息而导致修复结果中存在结构和纹理不合理的问题,提出了一种基于多注意力机制的纹理感知视频修复方法。该方法设计了由多头时空注意力和单图局部注意力构成的多注意力机制以保证全局结构并增强局部纹理,其中多头时空注意力关注整体时空信息,单图局部注意力通过局部窗口的自注意力机制精炼提取局部信息。另外,采用可即插即用的快速傅里叶卷积层残差块代替前馈网络中的普通卷积,将感受野扩展为整个图像,进一步增强了模型对图像纹理和结构的全局信息的获取能力。快速傅里叶卷积层残差块和单图局部注意力相辅相成,共同提升局部纹理的修复质量。在YouTube-VOS和DAVIS数据集上的实验结果表明,虽然提出的方法修复结果的客观质量评价仅次于最优方法Fuseformer,但其参数量和运行时间分别下降了54.8%和21.5%,而且能够生成视觉上更逼真、语义上更合理的修复内容。 Existing video inpainting methods cannot effectively utilize distant spatial contents,which results in unreasonable structures and textures.To solve this problem,a texture-aware video inpainting algorithm based on the multi-attention mechanism is proposed in this paper.The algorithm designs a multi-attention mechanism composed of multi-head spatiotemporal attention and single-image local attention,guaranteeing global structures and enriching local textures.Multi-head spatial-temporal attention focuses on the overall spatial-temporal information,and single-image local attention distills local information through local windows of the self-attention mechanism.A plug-and-play fast Fourier convolution layer residual block is used to replace vanilla convolution in feedforward networks,expanding the receptive field into the entire image so that the global structure and texture of a single frame image can be enriched.The fast Fourier convolutional layer residual block and the single-image local attention complement each other and jointly promote the quality of local textures.Experimental results on YouTube-VOS and DAVIS datasets show that although the proposed method ranks second only to the optimal method Fuseformer on objective metrics,the number of parameters and running time are reduced by 54.8%and 21.5%respectively.And the proposed method can generate more visually realistic and semantically reasonable contents.

作者夏译蓝王秀美程培涛 XIA Yilan;WANG Xiumei;CHENG Peitao(School of Electronic Engineering,Xidian University,Xi’an 710071,China;School of Mechano-Elctronic Engineering,Xidian University,Xi’an 710071,China)

机构地区西安电子科技大学电子工程学院西安电子科技大学机电工程学院

出处《西安电子科技大学学报》 EI CAS CSCD 北大核心 2024年第3期136-146,共11页 Journal of Xidian University

基金国家自然科学基金(62372355,61972305,61871308) 陕西省自然科学基础研究计划(2023-JC-ZD-39) 陕西省重点研发计划(2021ZDLGY02-03)。

关键词视频修复 TRANSFORMER 快速傅里叶卷积多注意力机制纹理感知 video inpainting Transformer fast Fourier convolution multi-attention mechanism texture-aware

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1杨静雅,齐彦丽,周一青,赵登攀,王尚权,石晶林.CNN-Transformer轻量级智能调制识别算法[J].西安电子科技大学学报,2023,50(3):40-49. 被引量：2
2韦哲,李从利,沈延安,刘永峰,周浦城.基于两阶段模型的无人机图像厚云区域内容生成[J].计算机学报,2021,44(11):2233-2247. 被引量：4

二级参考文献7

1李从利,张思雨,韦哲,薛松.基于深度卷积生成对抗网络的航拍图像去厚云方法[J].兵工学报,2019,40(7):1434-1442. 被引量：7
2高成英,徐仙儿,罗燕媚,王栋.基于稀疏表示的物体图像修复[J].计算机学报,2019,42(9):1953-1965. 被引量：14
3黄思嘉,杜庆治,龙华,邵玉斌.幅度与相位分步识别的QAM调制模式识别算法[J].通信技术,2020,53(2):261-267. 被引量：3
4Yiqing Zhou,Ling Liu,Lu Wang,Ning Hui,Xinyu Cui,Jie Wu,Yan Peng,Yanli Qi,Chengwen Xing.Service-aware 6G:An intelligent and open network based on the convergence of communication,computing and caching[J].Digital Communications and Networks,2020,6(3):253-260. 被引量：67
5于浩洋,尹良,李书芳,吕顺.生成对抗网络小样本雷达调制信号识别算法[J].西安电子科技大学学报,2021,48(6):96-104. 被引量：7
6刘文婷,卢新明.基于计算机视觉的Transformer研究进展[J].计算机工程与应用,2022,58(6):1-16. 被引量：57
7李振星,赵晓蕾,刘伟承,王杰.基于Transformer的通信信号调制识别方法[J].太赫兹科学与电子信息学报,2022,20(12):1311-1317. 被引量：5

共引文献4

1乐飞,宋亚林,李小艳.基于改进部分卷积的瑕疵布匹图像生成算法[J].计算机系统应用,2022,31(12):187-194. 被引量：2
2徐超,李从利,韦哲,薛松,章卫华.航拍图像去云方法研究综述[J].兵器装备工程学报,2023,44(7):61-71.
3赵泽华,王亚超,赵江平,张洪基.基于改进YOLOv7-x的多场景火灾识别算法[J].中国安全生产科学技术,2023,19(12):115-120.
4衡红军,喻龙威.基于多尺度特征信息融合的时间序列异常检测[J].西安电子科技大学学报,2024,51(3):203-214.

1张红,索霆锋,宋婉莹.基于结构纹理分解的矿井图像增强方法[J].工矿自动化,2024,50(3):56-64.
2熊义毛,丁湘陵,谷庆,杨高波,赵险峰.深度视频修复篡改的被动取证研究[J].信息安全学报,2024,9(4):125-138.
3王铭敏,佃松宜,钟羽中.一种在线更新的单目视觉里程计[J].计算机应用研究,2024,41(7):2209-2214.
4熊川羽,廖晓红,何诗英,陈然,王巍,臧楠,王瀛,肖梦涵.使用快速傅里叶变换优化周期参数的EMD-FFT-SARIMA光伏发电预测模型[J].强激光与粒子束,2024,36(8):117-123.
5刘萍,宋春燕,牛中华.2024年1月23日乌什M_(S)7.1地震序列频谱偏移特征分析[J].内陆地震,2024,38(2):135-142.
6王海超,王丽丽,郑爱宇,郝静.基于改进犹豫模糊C-均值的图像分割[J].计算机系统应用,2024,33(6):37-47.

西安电子科技大学学报

2024年第3期

浏览历史

内容加载中请稍等...

基于多注意力机制的纹理感知视频修复方法

参考文献2

二级参考文献7

共引文献4

相关作者

相关机构

相关主题

浏览历史