一种基于谱归一化的两阶段堆叠结构生成对抗网络的文本生成图像模型被引量：1

A text-to-image model based on thetwo-phase stacked generative confrontationnetwork with spectral normalization

下载PDF

导出

摘要文本生成图像是机器学习领域非常具有挑战性的任务,虽然目前已经有了很大突破,但仍然存在模型训练不稳定以及梯度消失等问题。针对这些不足,在堆叠生成对抗网络(StackGAN)基础上,提出一种结合谱归一化与感知损失函数的文本生成图像模型。首先,该模型将谱归一化运用到判别器网络中,将每层网络梯度限制在固定范围内,相对减缓判别器网络的收敛速度,从而提高网络训练的稳定性;其次,将感知损失函数添加到生成器网络中,增强文本语义与图像内容的一致性。使用Inception score评估所提模型生成图像的质量。实验结果表明,该模型与原始StackGAN相比,具有更好的稳定性且生成图像更加逼真。 Generating images from text is a challenge task in machine learning community.Although significant success has been achieved so far,problems such as unstable network training and disappear-ing gradients still exist.In response to the above shortcomings,based on the stacked generative confrontation network model(StackGAN),this paper proposes a text-to-image generation method that combines spectral normalization and perceptual loss function.Firstly,the network model applies spectral normalization to the discriminator,restricts the gradient of each layer of the network to a fixed range,slows down the convergence speed of the discriminator,and hence improves the stability of network training.Secondly,the perceptual loss function is added to the generator network to enhance the consistency between the text content and the generated image.The network model uses Inception scores to evaluate the quality of the generated images.The experimental results show that,compared with the original StackGAN,the network model has better stability and generates clearer images.

作者王霞徐慧英朱信忠 WANG Xia;XU Hui-ying;ZHU Xin-zhong(College of Mathematics and Computer Science,Zhejiang Normal University,Jinhua 321004,China)

机构地区浙江师范大学数学与计算机科学学院

出处《计算机工程与科学》 CSCD 北大核心 2022年第6期1083-1089,共7页 Computer Engineering & Science

基金国家自然科学基金(61976196) 浙江省万人计划“杰出人才”项目(2018R51001) 浙江省自然科学基金(LZ22F030003)。

关键词深度学习生成对抗网络文本生成图像谱归一化感知损失函数 deep learning generative adversarial network text-to-image generation spectral normalization perceptual loss function

分类号 TP183 [自动化与计算机技术—控制理论与控制工程] TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1黄宏宇,谷子丰.一种基于自注意力机制的文本图像生成对抗网络[J].重庆大学学报（自然科学版）,2020,43(3):55-61. 被引量：10

共引文献9

1许一宁,何小海,张津,卿粼波.基于多层次分辨率递进生成对抗网络的文本生成图像方法[J].计算机应用,2020,40(12):3612-3617. 被引量：5
2谈馨悦,何小海,王正勇,罗晓东,卿粼波.基于Transformer交叉注意力的文本生成图像技术[J].计算机科学,2022,49(2):107-115. 被引量：5
3兰红,陈子怡,刘秦邑.基于Transformer实现文本导向的图像编辑[J].计算机应用研究,2022,39(5):1563-1568. 被引量：1
4魏文萍.基于卷积神经网络的英语点餐机器人智能交互研究[J].自动化与仪器仪表,2022(7):252-256. 被引量：1
5安心,王涛.网络教学课程信息窃取风险实时监测方法研究[J].自动化与仪器仪表,2023(1):20-25.
6姜海涛,石珂,齐苏敏.基于注意力和最小可觉差的GAN生成图像质量评价[J].曲阜师范大学学报（自然科学版）,2023,49(3):46-53.
7刘欢,孙海明,朱焕馨.基于改进StyleGAN路面缺陷数据增强算法[J].湖北汽车工业学院学报,2023,37(4):48-53.
8肖钰.图模数据解析下的配网单线图一键成图支持算法[J].电工技术,2023(23):192-196.
9张子豪,赵德春,王子琼,韦莉.基于样本增强的帕金森病识别算法研究[J].生物医学工程学杂志,2024,41(1):17-25.

同被引文献7

1邹承明,胡佑璞.引入生成对抗网络的室外场景单目深度估计[J].计算机工程与应用,2021,57(6):176-183. 被引量：3
2郭茂祖,杨倩楠,赵玲玲.基于条件Wassertein生成对抗网络的图像生成[J].计算机应用,2021,41(5):1432-1437. 被引量：6
3朱晓慧,钱丽萍,傅伟.基于生成对抗网络增强恶意代码的方法[J].计算机工程与设计,2021,42(11):3034-3042. 被引量：4
4张卫星,吴爽,林楠,张文宁,杨聪.生成对抗网络的三维生成及其应用研究综述[J].小型微型计算机系统,2021,42(12):2577-2586. 被引量：2
5时永刚,张岳,周治国,李祎,夏卓岩.基于梯度指导的生成对抗网络内镜图像去模糊重建[J].电子与信息学报,2022,44(1):70-77. 被引量：4
6曹一珉,蔡磊,高敬阳.基于生成对抗网络的基因数据生成方法[J].计算机应用,2022,42(3):783-790. 被引量：6
7李凯伟,马力.基于生成对抗网络的情感对话回复生成[J].计算机工程与应用,2022,58(18):130-136. 被引量：6

引证文献1

1马伟良.大数据挖掘在移动通信网络故障诊断中的应用研究[J].产业与科技论坛,2024,23(17):38-41.

1金妤茜.在结构生成中丰盈数据分析观念[J].小学数学教育,2022(2):121-122.
2崔树银,汪昕杰.基于最大信息系数和多目标Stacking集成学习的综合能源系统多元负荷预测[J].电力自动化设备,2022,42(5):32-39. 被引量：27
3曾捷,童晓阳,范嘉乐.计及需求响应不确定性的电-气耦合配网系统动态分布鲁棒优化[J].电网技术,2022,46(5):1877-1886. 被引量：27
4王辉,刘杰.基于Bi IndRNN和PSO的航班延误预测[J].航空计算技术,2022,52(3):15-19. 被引量：2
5邱革非,何超,骆钊,梁俊宇,冯泽华,杨昊天,杨浩宇.考虑源、荷不确定性的工业园区电-气互联综合能源系统模糊优化调度[J].电力自动化设备,2022,42(5):8-14. 被引量：21
6王鑫,吴开军.基于八度卷积设计的实时语义分割网络[J].激光与光电子学进展,2022,59(8):179-187. 被引量：1
7田馨如,贺佐分,岑丽君,郭文闻,童丹蕾,黄金梅,葛星月,杨雅量,李文武,唐乾利.MEBT/MEBO对慢性难愈合创面NF-κB p65、IκBα、IKK及其磷酸化蛋白表达水平的影响[J].中国烧伤创疡杂志,2022,34(3):153-161. 被引量：6

计算机工程与科学

2022年第6期

浏览历史

内容加载中请稍等...

一种基于谱归一化的两阶段堆叠结构生成对抗网络的文本生成图像模型被引量：1

参考文献1

共引文献9

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于谱归一化的两阶段堆叠结构生成对抗网络的文本生成图像模型 被引量：1

参考文献1

共引文献9

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于谱归一化的两阶段堆叠结构生成对抗网络的文本生成图像模型被引量：1