基于注意力和动态记忆模块的文本图像生成方法

Text-to-Image Generation Method Based on Attention and Dynamic Memory Module

下载PDF

导出

摘要针对文本生成图像任务中多阶段生成模型存在的问题,如缺乏图像纹理信息特征和文本描述与生成图像之间一致性差异,提出了一种新颖的生成对抗网络(ADM-GAN)模型。该模型使用注意力和动态记忆模块进行优化。通过文本编码器将文本描述转化为嵌入向量,并利用生成器结合随机噪声生成低分辨率图像。引入了空间注意力和通道注意力模块,旨在融合低分辨率图像隐藏特征与重要的单词级语义特征,从而确保文本描述与图像特征的一致性。使用动态记忆模块捕获文本与图像间的语义对应关系,并根据生成过程动态调整记忆内容,细化图像纹理,提升文本到图像的合成效果。通过在公开的CUB和COCO数据集上的对比实验,同以往方法相比,Fréchet inception distance与inception score有了显著的提升,证明了该模型在一定程度上能够解决图像细节缺失以及语义信息丢失等问题,有效提高了图像与文本的一致性,取得了更加优异的效果。 Aiming at the problems existing in multi-stage generative models in the text generation image task,such as the lack of image texture information features and the poor consistency between text descriptions and generated images,this paper proposes a novel generative adversarial network(ADM-GAN)model.The model is optimized using attention and dynamic memory modules.In the initial stage,the text description is converted into embedding vectors through a text encoder,and a generator is used to combine random noise to generate low-resolution images.Then,the paper introduces spatial attention and channel attention modules,aiming to fuse low-resolution image hidden features with important word level semantic features,thereby ensuring the consistency of text description and image features.Finally,the dynamic memory module is used to capture the semantic correspondence between text and images,and dynamically adjust the memory content according to the generation process,refine the image texture,and improve the text-to-image synthesis effect.Through comparative experiments on the public CUB and COCO data sets,compared with previous methods,the Fréchet inception distance and inception score of this paper have been significantly improved,proving that this model can solve the problem of lack of image details and semantic information to a certain extent.It effectively improves the consis-tency between images and text,and achieves better results.

作者张鹤雷浩鹏王明文张尚昆 ZHANG He;LEI Haopeng;WANG Mingwen;ZHANG Shangkun(School of Computer and Information Engineering,Jiangxi Normal University,Nanchang 330022,China)

机构地区江西师范大学计算机信息工程学院

出处《计算机工程与应用》 CSCD 北大核心 2024年第17期224-232,共9页 Computer Engineering and Applications

基金江西省自然科学基金面上项目(20224BAB202018) 国家自然科学基金(62266023)。

关键词文本生成图像生成对抗网络注意力机制动态记忆 text-to-image generative adversarial network attention mechanism network dynamic memory

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1王宇昊,何彧,王铸.基于深度学习的文本到图像生成方法综述[J].计算机工程与应用,2022,58(10):50-67. 被引量：9
2吴福祥,程俊.基于自编码器生成对抗网络的可配置文本图像编辑[J].软件学报,2022,33(9):3139-3151. 被引量：5
3黄晓琪,王莉,李钢.融合胶囊网络的文本-图像生成对抗模型[J].计算机工程与应用,2021,57(14):176-180. 被引量：2
4陈积泽,姜晓燕,高永彬.基于门机制注意力模型的文本生成图像方法[J].计算机工程与应用,2023,59(12):208-216. 被引量：1
5鞠思博,徐晶,李岩芳.基于自注意力机制的文本生成单目标图像方法[J].计算机工程与应用,2022,58(3):249-258. 被引量：6
6谈馨悦,何小海,王正勇,罗晓东,卿粼波.基于Transformer交叉注意力的文本生成图像技术[J].计算机科学,2022,49(2):107-115. 被引量：5
7徐泽,帅仁俊,刘开凯,马力,吴梦麟.基于特征融合的文本到图像的生成[J].计算机科学,2021,48(6):125-130. 被引量：5

二级参考文献18

1常亮,邓小明,周明全,武仲科,袁野,杨硕,王宏安.图像理解中的卷积神经网络[J].自动化学报,2016,42(9):1300-1312. 被引量：424
2Xian Wu,Kun Xu,Peter Hall.A Survey of Image Synthesis and Editing with Generative Adversarial Networks[J].Tsinghua Science and Technology,2017,22(6):660-674. 被引量：19
3何新宇,张晓龙.基于深度神经网络的肺炎图像识别模型[J].计算机应用,2019,39(6):1680-1684. 被引量：20
4莫建文,徐凯亮,林乐平,欧阳宁.结合互信息最大化的文本到图像生成方法[J].西安电子科技大学学报,2019,46(5):180-188. 被引量：6
5孙钰,李林燕,叶子寒,胡伏原,奚雪峰.多层次结构生成对抗网络的文本生成图像方法[J].计算机应用,2019,39(11):3204-3209. 被引量：14
6陈明举,林国军,韩强,董林鹭.一种非对称非局部变分图像复原模型[J].重庆理工大学学报（自然科学）,2020,34(2):127-132. 被引量：1
7刘一敏,蒋建国,齐美彬,刘皓,周华捷.融合生成对抗网络和姿态估计的视频行人再识别方法[J].自动化学报,2020,46(3):576-584. 被引量：11
8黄宏宇,谷子丰.一种基于自注意力机制的文本图像生成对抗网络[J].重庆大学学报（自然科学版）,2020,43(3):55-61. 被引量：10
9杨婉香,严严,陈思,张小康,王菡子.基于多尺度生成对抗网络的遮挡行人重识别方法[J].软件学报,2020,31(7):1943-1958. 被引量：18
10徐峰,马小萍,刘立波.基于生成对抗网络的甲状腺超声图像文本跨模态检索方法[J].生物医学工程学杂志,2020,37(4):641-651. 被引量：4

共引文献25

1乐飞,宋亚林,李小艳.基于改进部分卷积的瑕疵布匹图像生成算法[J].计算机系统应用,2022,31(12):187-194. 被引量：2
2何儒汉,贺凯凯,陈常念,张自力,陈佳.融合BERT与AttnGAN的文本生成图像方法[J].中国科技论文,2022,17(3):260-268.
3臧堃,李朝霞,赵一霖,吕晓举.基于CapsNet和动态路由的电能质量扰动分类[J].电工技术,2022(4):100-103.
4赵乐,杨观赐,徐杰,王猛,何玲,陆丰.认知计算与智能设计研究综述[J].包装工程,2022,43(8):9-17. 被引量：2
5王宇昊,何彧,王铸.基于深度学习的文本到图像生成方法综述[J].计算机工程与应用,2022,58(10):50-67. 被引量：9
6王威,李玉洁,郭富林,刘岩,何俊霖.生成对抗网络及其文本图像合成综述[J].计算机工程与应用,2022,58(19):14-36. 被引量：7
7翟辰飞,董文瀚,张晓敏,李大东,陈晓军.自注意力机制改进U-Net网络的强积冰云层预测[J].计算机工程与应用,2022,58(22):297-304. 被引量：2
8孙志伟,马韬,赵婷婷,闫潇宁,许能华.最大化中心模式和微小模式生成对抗网络[J].计算机应用研究,2022,39(12):3815-3819.
9陈其.改进GAN结合SDAE的传动系统主轴承故障诊断[J].微特电机,2023,51(2):20-25. 被引量：2
10杨百冰,陈泯融,叶勇森.结合生成对抗网络及多角度注意力的图像翻译模型[J].计算机系统应用,2023,32(4):283-292.

1梅阳生.自拟通腑降糖方治疗2型糖尿病胃肠自主神经病变的疗效分析[J].糖尿病新世界,2023,26(9):99-102.
2孙克雷,潘宇,童波.基于生成对抗网络的人脸妆容迁移方法研究[J].宿州学院学报,2024,39(6):1-7.
3Xiaosong LIU,Taishun LIU.A REFINEMENT OF THE SCHWARZ-PICK ESTIMATES AND THE CARATHéODORY METRIC IN SEVERAL COMPLEX VARIABLES[J].Acta Mathematica Scientia,2024,44(4):1337-1346.
4孙娜娜,马玉丽,胡建波,董红妹.不同单体配比的Fe_(3)O_(4)@CPAM对稠油微波破乳的促进效应[J].石油学报,2024,45(8):1257-1269.

计算机工程与应用

2024年第17期

浏览历史

内容加载中请稍等...

基于注意力和动态记忆模块的文本图像生成方法

参考文献7

二级参考文献18

共引文献25

相关作者

相关机构

相关主题

浏览历史