基于多层次分辨率递进生成对抗网络的文本生成图像方法被引量：5

Text-to-image synthesis method based on multi-level progressive resolution generative adversarial networks

下载PDF

导出

摘要针对文本生成图像任务存在生成图像有目标结构不合理、图像纹理不清晰等问题,在注意力生成对抗网络(AttnGAN)的基础上提出了多层次分辨率递进生成对抗网络(MPRGAN)模型。首先,在低分辨率层采用语义分离-融合生成模块,将文本特征在自注意力机制引导下分离为3个特征向量,并用这些特征向量分别生成特征图谱;然后,将特征图谱融合为低分辨率图谱,并采用mask图像作为语义约束以提高低分辨率生成器的稳定性;最后,在高分辨率层采用分辨率递进残差结构,同时结合词注意力机制和像素混洗来进一步改善生成图像的质量。实验结果表明,在数据集CUB-200-2011和Oxford-102上,所提模型的IS分别达到了4.70和3.53,与AttnGAN相比分别提高了7.80%和3.82%。MPRGAN模型能够在一定程度上解决结构生成不稳定的问题,同时其生成的图像也更接近真实图像。 To address the problem that the results of text-to-image synthesis tasks have wrong target structures and unclear image textures,a Multi-level Progressive Resolution Generative Adversarial Network(MPRGAN)model was proposed based on Attentional Generative Adversarial Network(AttnGAN).Firstly,a semantic separation-fusion generation module was used in low-resolution layer,and the text feature was separated into three feature vectors by the guidance of selfattention mechanism and the feature vectors were used to generate feature maps respectively.Then,the feature maps were fused into low-resolution map,and the mask images were used as semantic constraints to improve the stability of the lowresolution generator.Finally,the progressive resolution residual structure was adopted in high-resolution layers.At the same time,the word attention mechanism and pixel shuffle were combined to further improve the quality of the generated images.Experimental results showed that,the Inception Score(IS)of the proposed model reaches 4.70 and 3.53 respectively on datasets of Caltech-UCSD Birds-200-2011(CUB-200-2011)and 102 category flower dataset(Oxford-102),which are7.80%and 3.82%higher than those of AttnGAN,respectively.The MPRGAN model can solve the instability problem of structure generation to a certain extent,and the images generated by the proposed model is closer to the real images.

作者许一宁何小海张津卿粼波 XU Yining;HE Xiaohai;ZHANG Jin;QING Linbo(College of Electronics and Information Engineering,Sichuan University,Chengdu Sichuan 610065,China)

机构地区四川大学电子信息学院

出处《计算机应用》 CSCD 北大核心 2020年第12期3612-3617,共6页 journal of Computer Applications

基金国家自然科学基金资助项目(61871278) 四川省科技计划项目(2018HH0143) 四川省教育厅项目(18ZB0355) 成都市产业集群协同创新项目(2016-XT00-00015-GX)。

关键词文本生成图像生成对抗网络自注意力机制残差结构像素混洗 text-to-image synthesis Generative Adversarial Network(GAN) self-attention mechanism residual structure pixel shuffle

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1莫建文,徐凯亮,林乐平,欧阳宁.结合互信息最大化的文本到图像生成方法[J].西安电子科技大学学报,2019,46(5):180-188. 被引量：6
2孙钰,李林燕,叶子寒,胡伏原,奚雪峰.多层次结构生成对抗网络的文本生成图像方法[J].计算机应用,2019,39(11):3204-3209. 被引量：14
3黄宏宇,谷子丰.一种基于自注意力机制的文本图像生成对抗网络[J].重庆大学学报（自然科学版）,2020,43(3):55-61. 被引量：10

二级参考文献4

1赵树阳,李建武.基于生成对抗网络的低秩图像生成方法[J].自动化学报,2018,44(5):829-839. 被引量：23
2郭雨潇,陈雷霆,董悦.单帧图像下的环境光遮蔽估计[J].计算机研究与发展,2019,56(2):385-393. 被引量：2
3何新宇,张晓龙.基于深度神经网络的肺炎图像识别模型[J].计算机应用,2019,39(6):1680-1684. 被引量：20
4陈晓范,申海杰,边倩,王振铎,田新志.结合注意力机制的人脸超分辨率重建[J].西安电子科技大学学报,2019,46(3):148-153. 被引量：10

共引文献24

1庄兴旺,丁岳伟.多维度注意力和语义再生的文本生成图像模型[J].计算机技术与发展,2020,30(12):27-33. 被引量：1
2甘岚,沈鸿飞,王瑶,张跃进.基于改进DCGAN的数据增强方法[J].计算机应用,2021,41(5):1305-1313. 被引量：21
3程换新,张志浩,刘文翰,郭占广.基于生成对抗网络的图像识别[J].计算机技术与发展,2021,31(6):175-180. 被引量：1
4杨静波,赵启军,吕泽均.维度情感模型下的表情图像生成及应用[J].西安电子科技大学学报,2021,48(5):30-37. 被引量：2
5李小瑞,谢诚,李宾,柳青,胡健龙.基于知识元模型的跨模态聊天卡通表情图像合成[J].图学学报,2021,42(6):908-916. 被引量：1
6谈馨悦,何小海,王正勇,罗晓东,卿粼波.基于Transformer交叉注意力的文本生成图像技术[J].计算机科学,2022,49(2):107-115. 被引量：5
7张静,农昌瑞,杨智勇,刘镇毓,曾庆松.改进DCGAN的飞机蒙皮图像生成方法[J].兵器装备工程学报,2022,43(3):286-292. 被引量：3
8兰红,陈子怡,刘秦邑.基于Transformer实现文本导向的图像编辑[J].计算机应用研究,2022,39(5):1563-1568. 被引量：1
9谭红臣,黄世华,肖贺文,于冰冰,刘秀平.判别增强的生成对抗模型在文本至图像生成中的研究与应用[J].计算机工程与科学,2022,44(5):855-861.
10王霞,徐慧英,朱信忠.一种基于谱归一化的两阶段堆叠结构生成对抗网络的文本生成图像模型[J].计算机工程与科学,2022,44(6):1083-1089.

同被引文献20

1魏忠钰,范智昊,王瑞泽,承怡菁,赵王榕,黄萱菁.从视觉到文本:图像描述生成的研究进展综述[J].中文信息学报,2020(7):19-29. 被引量：14
2焦云清,王世新,周艺,扶卿华.基于神经网络的遥感影像超高分辨率目标识别[J].系统仿真学报,2007,19(14):3223-3225. 被引量：1
3欧阳宁,梁婷,林乐平.基于自注意力网络的图像超分辨率重建[J].计算机应用,2019,39(8):2391-2395. 被引量：6
4柴梦婷,朱远平.生成式对抗网络研究与应用进展[J].计算机工程,2019,45(9):222-234. 被引量：14
5莫建文,徐凯亮,林乐平,欧阳宁.结合互信息最大化的文本到图像生成方法[J].西安电子科技大学学报,2019,46(5):180-188. 被引量：6
6孙钰,李林燕,叶子寒,胡伏原,奚雪峰.多层次结构生成对抗网络的文本生成图像方法[J].计算机应用,2019,39(11):3204-3209. 被引量：14
7丁明航,邓然然,邵恒.基于注意力生成对抗网络的图像超分辨率重建方法[J].计算机系统应用,2020,29(2):205-211. 被引量：2
8陈明举,林国军,韩强,董林鹭.一种非对称非局部变分图像复原模型[J].重庆理工大学学报（自然科学）,2020,34(2):127-132. 被引量：1
9黄宏宇,谷子丰.一种基于自注意力机制的文本图像生成对抗网络[J].重庆大学学报（自然科学版）,2020,43(3):55-61. 被引量：10
10杨婉香,严严,陈思,张小康,王菡子.基于多尺度生成对抗网络的遮挡行人重识别方法[J].软件学报,2020,31(7):1943-1958. 被引量：18

引证文献5

1谈馨悦,何小海,王正勇,罗晓东,卿粼波.基于Transformer交叉注意力的文本生成图像技术[J].计算机科学,2022,49(2):107-115. 被引量：5
2张云帆,易尧华,汤梓伟,王新宇.基于通道注意力机制的文本生成图像方法[J].计算机工程,2022,48(4):206-212. 被引量：1
3侯丽君,倪建成,张素素.改进条件生成对抗网络的文本生成图像方法[J].曲阜师范大学学报（自然科学版）,2022,48(2):63-70.
4耿艳兵,廉永健.基于多粒度特征生成对抗网络的跨分辨率行人重识别[J].计算机应用,2022,42(11):3573-3579. 被引量：1
5陈积泽,姜晓燕,高永彬.基于门机制注意力模型的文本生成图像方法[J].计算机工程与应用,2023,59(12):208-216. 被引量：1

二级引证文献7

1乐飞,宋亚林,李小艳.基于改进部分卷积的瑕疵布匹图像生成算法[J].计算机系统应用,2022,31(12):187-194. 被引量：2
2孙泽龙,杨国兴,温静远,费楠益,卢志武,文继荣.基于多域VQGAN的文本生成国画方法研究[J].软件学报,2023,34(5):2116-2133. 被引量：2
3吴春燕,潘龙越,杨有.基于特征增强生成对抗网络的文本生成图像方法[J].微电子学与计算机,2023,40(6):51-61. 被引量：2
4赵宏,李文改.基于扩散生成对抗网络的文本生成图像模型研究[J].电子与信息学报,2023,45(12):4371-4381.
5吕千平,刘敏娜.人工智能翻译背景下融合多粒度形态特征的神经机器翻译系统研究[J].自动化与仪器仪表,2024(5):186-190.
6张鹤,雷浩鹏,王明文,张尚昆.基于注意力和动态记忆模块的文本图像生成方法[J].计算机工程与应用,2024,60(17):224-232.
7周红,周莉,汤世隆,黄文.基于跨模态技术的地铁施工风险对策生成方法研究[J].工程管理学报,2024,38(4):95-100.

1朱长和.沟通联系,整体建构,促进系统生成[J].教育界（教师培训）,2017,0(12):93-94.
2庄兴旺,丁岳伟.多维度注意力和语义再生的文本生成图像模型[J].计算机技术与发展,2020,30(12):27-33. 被引量：1
3万文军,窦全胜,崔盼盼,张斌,唐焕玲.结合关系分类与修正的SQL语法结构构建[J].计算机科学,2020,47(S02):562-569.
4桑岚,马林,黄子露,汪琦.卡尔曼滤波器在飞机传感器故障检测中的应用[J].教练机,2020(4):30-35. 被引量：1
5金思伟.未诉先办从源头上为居民“解疙瘩”[J].社区,2020(33):38-39.
6马雅丽,牛金月,梁晨.基于桁架结构优化的复杂零件构型设计方法[J].机械设计与制造工程,2020,49(11):21-25. 被引量：1
7墨宝.劳有所护--为劳动者和企业撑起保护伞[J].中国人力资源社会保障,2020(12):1-1.
8仇增辉,赫明杰,林正奎.基于深度学习的网购评论命名实体识别方法[J].计算机工程与科学,2020,42(12):2287-2294. 被引量：6
9陈发河,周彦强,吴光斌.黄秋葵发酵酒渣果胶多糖的流变学性质[J].食品科学,2020,41(22):64-73. 被引量：10
10刘鹏,魏卉子,鹿晓龙,刘明明.基于新型卷积神经网络构建矿山灾害事件检测模型[J].中文信息学报,2020,34(10):59-68. 被引量：3

计算机应用

2020年第12期

浏览历史

内容加载中请稍等...

基于多层次分辨率递进生成对抗网络的文本生成图像方法被引量：5

参考文献3

二级参考文献4

共引文献24

同被引文献20

引证文献5

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于多层次分辨率递进生成对抗网络的文本生成图像方法 被引量：5

参考文献3

二级参考文献4

共引文献24

同被引文献20

引证文献5

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于多层次分辨率递进生成对抗网络的文本生成图像方法被引量：5