基于自监督注意和图像特征融合的文本生成图像方法

Text-to-image generation method based on self-supervised attention and image features fusion

下载PDF

导出

摘要现有的层级式文本生成图像的方法在初始图像生成阶段仅使用上采样进行特征提取,上采样过程本质是卷积运算,卷积运算的局限性会造成全局信息被忽略并且远程语义无法交互。虽然已经有方法在模型中加入自注意力机制,但依然存在图像细节缺失、图像结构性错误等问题。针对上述存在的问题,提出一种基于自监督注意和图像特征融合的生成对抗网络模型SAF-GAN。将基于ContNet的自监督模块加入到初始特征生成阶段,利用注意机制进行图像特征之间的自主映射学习,通过特征的上下文关系引导动态注意矩阵,实现上下文挖掘和自注意学习的高度结合,提高低分辨率图像特征的生成效果,后续通过不同阶段网络的交替训练实现高分辨率图像的细化生成。同时加入了特征融合增强模块,通过将模型上一阶段的低分辨率特征与当前阶段的特征进行融合,生成网络可以充分利用低层特征的高语义信息和高层特征的高分辨率信息,更加保证了不同分辨率特征图的语义一致性,从而实现高分辨率的逼真的图像生成。实验结果表明,相较于基准模型(AttnGAN),SAF-GAN模型在IS和FID指标上均有改善,在CUB数据集上的IS分数提升了0.31,FID指标降低了3.45;在COCO数据集上的IS分数提升了2.68,FID指标降低了5.18。SAF-GAN模型能够有效生成更加真实的图像,证明了该方法的有效性。 Current hierarchical text-to-image generation methods only use up-sampling for feature extraction during the initial image generation stage,but up-sampling process is essentially convolutional operations,and the limitations of convolutional operations can cause global information to be ignored and remote semantics to be unable to interact.Although there have been methods to add self-attention mechanisms to models,there are still problems such as lack of image details,image structural errors,and so on.In response to the above existing problems,a generation countermeasure network model SAF-GAN based on self-supervised attention and image feature fusion is proposed.A self-supervised module based on ContNet is added to the initial feature generation stage,and attention mechanism is used for autonomous mapping learning between image features.The dynamic attention matrix is guided by the context relationship of features,achieving a high combination of context mining and self-attention learning,which improves the feature generation effect of low resolution images,and subsequently refines and generates high-resolution images through alternating training of networks at different stages.At the same time,the feature fusion enhancement module is added.By fusing low resolution features of previous stage of the model with features of the current stage,the generation network can make full use of the high semantic information of low level features and high resolution information of the high level features.The semantic consistency of feature maps with different resolutions is further guaranteed,so as to achieve the high-resolution realistic image generation.Experimental results show that in comparison with benchmark model(AttnGAN),the IS score of the SAF-GAN model is increased by 0.31 and the FID index is decreased by 3.45 on the CUB dataset,while the IS score of the SAFGAN model is increased by 2.68 and the FID index is decreased by 5.18 on the COCO dataset.It is concluded that the proposed model can effectively generate more realistic images,which proves the effectiveness of the proposed method.

作者廖涌卉张海涛金海波 LIAO Yonghui;ZHANG Haitao;JIN Haibo(School of Software,Liaoning Technical University,Huludao 125105,China;Computer Department,Shantou Polytrchnic,Shantou 515071,China)

机构地区辽宁工程技术大学软件学院汕头职业技术学院计算机系

出处《液晶与显示》 CAS CSCD 北大核心 2024年第2期180-191,共12页 Chinese Journal of Liquid Crystals and Displays

基金国家自然科学基金(No.62173171) 辽宁省科技厅面上项目(No.2022-MS-397)。

关键词计算机视觉生成对抗网络文本生成图像 CotNet 图像特征融合 computer vision generative adversarial networks text-to-image cotnet image feature fusion

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1刘郭琦,刘进锋,朱东辉.基于生成对抗网络的图像超分辨率重建算法[J].液晶与显示,2021,36(12):1720-1727. 被引量：7
2刘恋秋.基于深度卷积生成对抗网络的图像识别算法[J].液晶与显示,2020,35(4):383-388. 被引量：6
3鞠思博,徐晶,李岩芳.基于自注意力机制的文本生成单目标图像方法[J].计算机工程与应用,2022,58(3):249-258. 被引量：6

二级参考文献11

1赵秀影,苏耘,董艳芹,王敬梅,翟林培.一种基于小波与双三次插值的CCD图像超分辨方法[J].计算机应用研究,2009,26(6):2365-2367. 被引量：9
2张永红,段东海.基于邻近均值图像插值的数字图像隐藏技术[J].微计算机应用,2009,30(6):39-42. 被引量：2
3丁鹏,张叶,刘让,贾平.结合形态学和Canny算法的红外弱小目标检测[J].液晶与显示,2016,31(8):793-800. 被引量：17
4吕永标,赵建伟,曹飞龙.基于复合卷积神经网络的图像去噪算法[J].模式识别与人工智能,2017,30(2):97-105. 被引量：37
5Xian Wu,Kun Xu,Peter Hall.A Survey of Image Synthesis and Editing with Generative Adversarial Networks[J].Tsinghua Science and Technology,2017,22(6):660-674. 被引量：19
6王秀席,王茂宁,张建伟,程鹏.基于改进的卷积神经网络LeNet-5的车型识别方法[J].计算机应用研究,2018,35(7):2215-2218. 被引量：25
7张坤华,谭志恒,李斌.结合粒子群优化和综合评价的脉冲耦合神经网络图像自动分割[J].光学精密工程,2018,26(4):962-970. 被引量：14
8潘仙张,张石清,郭文平.多模深度卷积神经网络应用于视频表情识别[J].光学精密工程,2019,27(4):963-970. 被引量：19
9许赟杰,徐菲菲.基于ArcReLU函数的神经网络激活函数优化研究[J].数据采集与处理,2019,34(3):517-529. 被引量：18
10金志刚,李静昆.基于对象性和多层线性模型的协同显著性检测[J].光学精密工程,2019,27(8):1845-1853. 被引量：6

共引文献16

1吴海滨,魏喜盈,王爱丽,岩堀祐之.八度卷积和双向门控循环单元结合的X光安检图像分类[J].中国光学,2020,13(5):1138-1146. 被引量：3
2周宇.生成对抗网络X光图像多模态融合[J].激光杂志,2021,42(9):139-143. 被引量：1
3陈鹏,秦伦明,余长生.改进RFBNet的电力设备红外图像识别[J].信息技术与信息化,2022(2):108-111. 被引量：1
4滕碧红,陈柯宇,孙海信.无线传感网络模糊图像复合光栅滤波识别算法[J].激光杂志,2022,43(4):88-92. 被引量：1
5翟辰飞,董文瀚,张晓敏,李大东,陈晓军.自注意力机制改进U-Net网络的强积冰云层预测[J].计算机工程与应用,2022,58(22):297-304. 被引量：2
6郭保收.基于GAN的广播通讯过程多链路信息融合方法[J].信息技术,2023,47(3):70-74.
7缪志辉,张永爱,林志贤,林坚普.基于深层特征嵌入的高分辨率人脸图像重建[J].光电子技术,2023,43(1):17-25.
8吴春燕,潘龙越,杨有.基于特征增强生成对抗网络的文本生成图像方法[J].微电子学与计算机,2023,40(6):51-61. 被引量：2
9陈积泽,姜晓燕,高永彬.基于门机制注意力模型的文本生成图像方法[J].计算机工程与应用,2023,59(12):208-216. 被引量：1
10莫太平,黄巧人,陈德鸿,伍锡如,张向文.改进可逆缩放网络的图像超分辨率重建[J].电子科技大学学报,2023,52(5):739-746.

1林立新.双筒永磁调速器在磨煤机本质安全化方面的应用[J].冶金设备管理与维修,2023,41(6):21-24.
2郑怡晨,刘洪.基于深度学习的MEMS加速度计随机漂移补偿方法[J].仪表技术与传感器,2023(12):84-87.
3赵泽纬,车进,吕文涵.融合XLnet与DMGAN的文本生成图像方法[J].液晶与显示,2024,39(2):168-179.
4宋尔壮,雷庆春,范玮.光流法测速在点火过程研究中的应用[J].燃烧科学与技术,2024,30(1):25-31.
5谢聪,尹胡海,杨年,暨朝林,杨金伟,吴铁军.中和汤对脓毒症急性胃肠功能障碍患者的临床疗效[J].中成药,2024,46(1):116-120. 被引量：1
6刘亚楠,汪涛.基于审美心理结构的地理审美化教学模式构建[J].中学地理教学参考,2023(31):51-54.
7邓锂峰,邓少雄,陈群霞,肖默,刘福志.慢性心力衰竭合并糖调节受损对心率减速力、连续心率减速力及预后的影响[J].包头医学院学报,2024,40(2):39-42.
8张生军,赵阿静,李守博,郝祥宏,刘敏丽.高糖通过HGF/c-met通路促进结直肠癌侵袭和迁移的实验研究[J].中华普外科手术学杂志（电子版）,2024,18(1):21-24.
9张林英,梅群超,张炜琦,王志刚,刘菊.维生素D3联合低强度抗阻运动治疗老年肌少症的疗效及对患者血清炎症水平的影响[J].中国老年学杂志,2024,44(4):855-857. 被引量：1

液晶与显示

2024年第2期

浏览历史

内容加载中请稍等...

基于自监督注意和图像特征融合的文本生成图像方法

参考文献3

二级参考文献11

共引文献16

相关作者

相关机构

相关主题

浏览历史