预训练驱动的多模态边界感知视觉Transformer 被引量：1

Pre-training-driven Multimodal Boundary-aware Vision Transformer

下载PDF

导出

摘要卷积神经网络(convolutional neural network,CNN)在图像篡改检测任务中不断取得性能突破,但在面向真实场景下篡改手段未知的情况时,现有方法仍然无法有效地捕获输入图像的长远依赖关系以缓解识别偏差问题,从而影响检测精度.此外,由于标注困难,图像篡改检测任务通常缺乏精准的像素级图像标注信息.针对以上问题,提出一种预训练驱动的多模态边界感知视觉Transformer.首先,为捕获在RGB域中不可见的细微伪造痕迹,引入图像的频域模态并将其与RGB空间域结合作为多模态嵌入形式.其次利用ImageNet对主干网络的编码器进行训练以缓解当前训练样本不足的问题.然后,Transformer模块被整合到该编码器的尾部,以达到同时捕获低级空间细节信息和全局上下文的目的,从而提升模型的整体表征能力.最后,为有效地缓解因伪造区域边界模糊导致的定位难问题,构建边界感知模块,其可以通过Scharr卷积层获得的噪声分布以更多地关注噪声信息而不是语义内容,并利用边界残差块锐化边界信息,从而提升模型的边界分割性能.大量实验结果表明,所提方法在识别精度上优于现有的图像篡改检测方法,并对不同的篡改手段具有较好的泛化性和鲁棒性. Convolutional neural networks(CNN)have continuously achieved performance breakthroughs in image forgery detection,but when faced with realistic scenarios where the means of tampering is unknown,the existing methods are still unable to effectively capture the long-term dependencies of the input image to alleviate the recognition bias problem,which affects the detection accuracy.In addition,due to the difficulty in labeling,image forgery detection usually lacks accurate pixel-level image labeling information.Considering the above problems,this study proposes a pre-training-driven multimodal boundary-aware vision transformer.To capture the subtle forgery traces invisible in the RGB domain,the method first introduces the frequency-domain modality of the image and combines it with the RGB spatial domain as a form of multimodal embedding.Secondly,the encoder of the backbone network is trained with ImageNet to alleviate the current problem of insufficient training samples.Then,the transformer module is integrated into the tail of this encoder to capture both low-level spatial details and global contexts,which improves the overall representation ability of the model.Finally,to effectively alleviate the problem of difficult localization caused by the blurred boundary of the forged regions,this study establishes a boundary-aware module,which can use the noise distribution obtained by the Scharr convolutional layer to pay more attention to the noise information rather than the semantic content and utilize the boundary residual block to sharpen the boundary information.In this way,the boundary segmentation performance of the model can be enhanced.The results of extensive experiments show that the proposed method outperforms existing image forgery detection methods in terms of recognition accuracy and has better generalization and robustness to different forgery methods.

作者石泽男陈海鹏张冬申铉京 SHI Ze-Nan;CHEN Hai-Peng;ZHANG Dong;SHEN Xuan-Jing(College of Computer Science and Technology,Jilin University,Changchun 130012,China;Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education(Jilin University),Changchun 130012,China;Department of Computer Science and Engineering,The Hong Kong University of Science and Technology,Hong Kong 999077,China)

机构地区吉林大学计算机科学与技术学院符号计算与知识工程教育部重点实验室(吉林大学) 香港科技大学计算机科学与工程系

出处《软件学报》 EI CSCD 北大核心 2023年第5期2051-2067,共17页 Journal of Software

基金国家重点研发计划(2018YFB0804202,2018YFB0804203) 国家自然科学基金(U19A2057,61876070) 吉林大学2021年度“学科交叉融合创新”青年学者自由探索类项目(JLUXKJC2021QZ01)。

关键词模型预训练多模态视觉Transformer 边界感知图像篡改检测 model pre-training multimodal vision Transformer boundary awareness image forgery detection

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1李旭嵘,纪守领,吴春明,刘振广,邓水光,程鹏,杨珉,孔祥维.深度伪造与检测技术综述[J].软件学报,2021,32(2):496-518. 被引量：28
2李晓龙,俞能海,张新鹏,张卫明,李斌,卢伟,王伟,刘晓龙.数字媒体取证技术综述[J].中国图象图形学报,2021,26(6):1216-1226. 被引量：13
3李耀仟,李才子,刘瑞强,司伟鑫,金玥明,王平安.面向手术器械语义分割的半监督时空Transformer网络[J].软件学报,2022,33(4):1501-1515. 被引量：3

二级参考文献9

1谭民,王硕.机器人技术研究进展[J].自动化学报,2013,39(7):963-972. 被引量：359
2林晶,黄添强,赖玥聪,卢贺楠.采用量化离散余弦变换系数检测视频单帧连续多次复制-粘贴篡改[J].计算机应用,2016,36(5):1356-1361. 被引量：5
3高铁杠,杨亮,宣妍,佟静.基于超像素和游程直方图的对比度修改检测算法[J].电子与信息学报,2016,38(11):2787-2794. 被引量：1
4杨晓花.基于相关性检测的数字图像盲取证算法仿真[J].微电子学与计算机,2018,35(4):114-118. 被引量：6
5苏文煊,方针.基于CFA插值特性不一致的图像真伪鉴别[J].应用科学学报,2019,37(1):33-40. 被引量：8
6吴韵清,吴鹏,陈北京,鞠兴旺,高野.基于残差全卷积网络的图像拼接定位算法[J].应用科学学报,2019,37(5):651-662. 被引量：4
7李旭嵘,于鲲.一种基于双流网络的Deepfakes检测技术[J].信息安全学报,2020,5(2):84-91. 被引量：9
8陈加,陈亚松,李伟浩,田元,刘智,何英.深度学习在视频对象分割中的应用与展望[J].计算机学报,2021,44(3):609-631. 被引量：10
9宋杰,肖亮,练智超,蔡子贇,蒋国平.基于深度学习的数字病理图像分割综述与展望[J].软件学报,2021,32(5):1427-1460. 被引量：25

共引文献40

1刘宇擎,张玉槐,段沛奇,施柏鑫,余肇飞,黄铁军,高文.针对强人工智能安全风险的技术应对策略[J].中国工程科学,2021,23(3):75-81. 被引量：9
2朱晓瑜,赵静岚.人脸识别技术滥用问题及治理对策[J].中国安全防范技术与应用,2021(4):32-37. 被引量：3
3倪雪莉,王群,梁广俊.微信证据的鉴真方法研究[J].信息网络安全,2021(12):60-69. 被引量：1
4纪守领,杜天宇,邓水光,程鹏,时杰,杨珉,李博.深度学习模型鲁棒性研究综述[J].计算机学报,2022,45(1):190-206. 被引量：31
5马喆,周华兵.采用低层特征的深度伪造图像检测方法[J].软件导刊,2022,21(1):238-242.
6董琳,黄丽清,叶锋,黄添强,翁彬,徐超.人脸伪造检测泛化性方法综述[J].计算机科学,2022,49(2):12-30. 被引量：4
7王任颖,储贝林,杨震,周琳娜.视觉深度伪造检测技术综述[J].中国图象图形学报,2022,27(1):43-62. 被引量：7
8刘正,田秀霞,白万荣.面向电力场景的双通道图像拼接窜改检测模型[J].计算机应用研究,2022,39(4):1218-1223. 被引量：2
9范玉吉,于雅洁.网络传播中“深度伪造”技术及其产物的刑法规制[J].犯罪研究,2022(1):51-60. 被引量：2
10罗正军,张丽丽.基于卷积痕迹挖掘的GAN生成假脸图片检测[J].计算机技术与发展,2022,32(7):52-57.

同被引文献12

1王超.传送带超声无损检测系统设计及其研究[J].机械管理开发,2018,33(1):98-100. 被引量：2
2成凌飞,李俊,史亚军,李飞腾,杨蒙.带有传送带的矩形巷道中电磁波传播特性研究[J].测控技术,2021,40(6):90-94. 被引量：3
3张梦超,周满山,张媛,于岩,李虎.基于深度学习的矿用输送带损伤检测方法[J].工矿自动化,2021,47(6):51-56. 被引量：9
4石永恒,杨超宇.基于深度学习的矿井下作业人员安全帽佩戴检测[J].绥化学院学报,2021,41(9):148-152. 被引量：8
5苗长云,邵琦.基于声音的带式输送机输送带纵向撕裂检测方法[J].天津工业大学学报,2021,40(6):71-76. 被引量：9
6钟维良,曾祥福,陈海钦,郑阳超.基于短时傅里叶能量分段的扬声器故障检测[J].工业控制计算机,2022,35(9):78-79. 被引量：1
7刘丁源,冯锋.矿井下人员安全检测技术分析[J].信息与电脑,2022,34(15):41-43. 被引量：1
8杨晨露,万旺根,张振,孙学涛,王旭智.基于多模态特征融合的图像描述算法研究[J].工业控制计算机,2023,36(1):87-88. 被引量：3
9胡宗承,段晓威,周亚同,何昊.基于多模态融合的动态手势识别研究[J].计算机工程与科学,2023,45(4):665-673. 被引量：5
10生鹏飞,郝晓丽,吕进来.改进区域卷积神经网络的传送带撕裂检测[J].计算机工程与设计,2023,44(3):908-915. 被引量：2

引证文献1

1王学立,赵辰燃,李青,何显能,甘梅.基于多模态的输送带撕裂大模型算法设计[J].煤矿安全,2023,54(9):202-207.

1徐俊.STEAM视域下初中生物学探究实践活动的扩展研究——“人体对周围世界的感知”视觉教与学[J].中文科技期刊数据库（全文版）教育科学,2022(12):0244-0247.
2张玉林,王宏霞,张瑞,张婧媛.语义一致性引导的多任务拼接篡改检测[J].中国图象图形学报,2023,28(3):775-788. 被引量：1
3王鹏飞,吴艺凡,贾佳林,邵柏淘,徐晓燕,梁明.变形方式对Cu-Nb复合线材的结构和性能影响研究[J].低温物理学报,2022,44(4):296-303. 被引量：1
4陈实,王颖.数字化时代红色文化传播新载体--以“剧本杀”为例[J].学习与探索,2023(3):174-181. 被引量：7
5赵洪林,赵永乐,董淼.旋转水密封性能优化设计分析[J].智能建筑与工程机械,2023,5(1):39-41.
6王彭,李培,张珊珊,杨亦鸣.汉语空缺动词语义加工的ERPs证据——兼谈汉语动词空缺句[J].复印报刊资料（语言文字学）,2022(6):37-47.
7梁礼明,余洁,周珑颂,陈鑫,吴健.多尺度密集注意力网络用于视网膜血管分割[J].激光与光电子学进展,2023,60(6):112-121. 被引量：1
8傅励瑶,尹梦晓,杨锋.基于Transformer的U型医学图像分割网络综述[J].计算机应用,2023,43(5):1584-1595. 被引量：4
9曹高峻,吴立青.五轴钻掘双喷搅拌钻机设计[J].科学技术创新,2023(12):170-173.
10应慧珺,袁茹月,刘聪.融入场所的校园建筑——记山东大学中心校区新一代半导体研发中心建成[J].中国建筑金属结构,2023(1):2-3.

软件学报

2023年第5期

浏览历史

内容加载中请稍等...