行列式点过程采样的文本生成图像方法

Determinant Point Process Sampling Method for Text-to-Image Generation

导出

摘要近年来,虽然基于生成对抗网络(generative adversarial networks,GAN)的文本生成图像问题取得了很大的突破,它可以根据文本的语义信息生成相应的图像,但是生成的图像结果通常缺乏具体的纹理细节,并且经常出现模式崩塌、缺乏多样性等问题。针对以上问题,提出一种针对生成对抗网络的行列式点过程(determinant point process for generative adversarial networks,GAN-DPP)方法来提高模型生成样本的质量,并使用StackGAN++、ControlGAN两种基线模型对GAN-DPP进行实现。在训练过程中,该方法使用行列式点过程核矩阵对真实数据和合成数据的多样性进行建模,并通过引入无监督惩罚损失来鼓励生成器生成与真实数据相似的多样性数据,从而提高生成样本的清晰度及多样性,减轻模型崩塌等问题,并且无需增加额外的训练过程。在CUB和Oxford-102数据集上,通过Inception Score、Fréchet Inception Distance分数、Human Rank这3种指标的定量评估,证明了GAN-DPP对生成图像多样性与质量提升的有效性。同时通过定性的可视化比较,证明使用GAN-DPP的模型生成的图像纹理细节更加丰富,多样性显著提高。 Objectives:In recent years,a great breakthrough has been made in the text generation image problem based on generative adversarial networks(GAN).It can generate corresponding images based on the semantic information of the text,and has great application value.However,the current generated image results usually lack specific texture details,and often have problems such as collapsed modes and lack of diversity.Methods:This paper proposes a determinant point process for generative adversarial networks(GAN-DPP)to improve the quality of the generated samples,and uses two baseline models,Stack-GAN++and ControlGAN,to implement GAN-DPP.During the training,it uses determinantal point process kernel to model the diversity of real data and synthetic data and encourages the generator to generate diversity data similar to the real data through penalty loss.It improves the clarity and diversity of generated samples,and reduces problems such as mode collapse.No extra calculations were added during training.Results:This paper compares the generated results through indicators.For the inception score,a high value indicates that the image clarity and diversity have improved.On the Oxford-102 dataset,the score of GAN-DPP-S is increased by 3.1%compared with StackGAN++,and the score of GAN-DPPC is 3.4%higher than that of ControlGAN.For the CUB dataset,the score of GAN-DPP-S increased by 8.2%,and the score of GAN-DPP-C increased by 1.9%.For the Fréchet Inception Distance score,the lower the value,the better the quality of image generation.On the Oxford-102 dataset,the score of GANDPP-S is reduced by 11.1%,and the score of GAN-DPP-C is reduced by 11.2%.For the CUB dataset,the score of GAN-DPP-S is reduced by 6.4%,and the score of GAN-DPP-C is reduced by 3.1%.Con⁃clusions:The qualitative and quantitative comparative experiments prove that the proposed GAN-DPP method improves the performance of the generative confrontation network model.The image texture details generated by the model are more abundant,and the diversity is significantly improved.

作者李晓霖李刚张恩琪顾广华 LI Xiaolin;LI Gang;ZHANG Enqi;GU Guanghua(Department of Information Science and Engineering,Yanshan University,Qinhuangdao 066004,China;Hebei Key Laboratory of Information Transmission and Signal Processing,Qinhuangdao 066004,China)

机构地区燕山大学信息科学与工程学院河北省信息传输与信号处理重点实验室

出处《武汉大学学报（信息科学版）》 EI CAS CSCD 北大核心 2024年第2期246-255,共10页 Geomatics and Information Science of Wuhan University

基金国家自然科学基金(62072394) 河北省自然科学基金(F2021203019)。

关键词生成对抗网络文本生成图像行列式点过程模型崩塌多样性 generative adversarial networks text-to-image synthesis determinantal point process mode collapse diversity

分类号 P237 [天文地球—摄影测量与遥感]

引文网络
相关文献

参考文献3

1陆川伟,孙群,赵云鹏,孙士杰,马京振,程绵绵,李元復.一种基于条件生成式对抗网络的道路提取方法[J].武汉大学学报（信息科学版）,2021,46(6):807-815. 被引量：5
2黄若冰,贾永红.利用卷积神经网络和小面元进行人脸图像替换[J].武汉大学学报（信息科学版）,2021,46(3):335-340. 被引量：3
3王米琪,艾廷华,晏雄锋,肖屹.图卷积网络模型识别道路正交网格模式[J].武汉大学学报（信息科学版）,2020,45(12):1960-1969. 被引量：20

二级参考文献12

1杨必胜,栾学晨.城市道路网几何结构模式的自动识别方法[J].中国图象图形学报,2009,14(7):1251-1255. 被引量：12
2田晶,艾廷华,丁绍军.基于C4.5算法的道路网网格模式识别[J].测绘学报,2012,41(1):121-126. 被引量：19
3蒋益娟,李响,李小杰,孙靖.利用车辆轨迹数据提取道路网络的几何特征与精度分析[J].地球信息科学学报,2012,14(2):165-170. 被引量：35
4林源,桂良琰,王生进,丁晓青.基于真实感三维头重建的人脸替换[J].清华大学学报（自然科学版）,2012,52(5):602-606. 被引量：4
5孔庆杰,史文欢,刘允才.基于GPS轨迹的矢量路网地图自动生成方法[J].中国科学技术大学学报,2012,42(8):623-627. 被引量：11
6田晶,何遒,周梦杰.运用主成分分析识别道路网中的网格模式[J].武汉大学学报（信息科学版）,2013,38(5):604-607. 被引量：9
7谈国新,孙传明.一种真实感三维人脸交互式生成方法[J].武汉大学学报（信息科学版）,2014,39(8):992-997. 被引量：3
8杨伟,艾廷华.基于众源轨迹数据的道路中心线提取[J].地理与地理信息科学,2016,32(3):1-7. 被引量：31
9杨学习,石岩,邓敏,唐建波.一种基于多层次专题属性约束的空间异常探测方法[J].武汉大学学报（信息科学版）,2016,41(6):810-817. 被引量：6
10唐炉亮,杨雪,靳晨,刘章,李清泉.基于约束高斯混合模型的车道信息获取[J].武汉大学学报（信息科学版）,2017,42(3):341-347. 被引量：13

共引文献25

1袁远,孟妮娜.L型建筑物排列模式的深度学习识别方法[J].甘肃科学学报,2021,33(3):7-11.
2艾廷华.深度学习赋能地图制图的若干思考[J].测绘学报,2021,50(9):1170-1182. 被引量：36
3令振飞,刘涛,杜萍,张耀蓉,杨国林,锁旭宏.样本数量不平衡下的建筑群模式识别方法研究[J].地球信息科学学报,2022,24(1):63-73. 被引量：3
4武芳,杜佳威,钱海忠,翟仁健.地图综合智能化研究的发展与思考[J].武汉大学学报（信息科学版）,2022,47(10):1675-1687. 被引量：15
5朱余德,杨敏,晏雄锋.利用图卷积神经网络的道路网选取方法[J].北京测绘,2022,36(11):1455-1459.
6王迪,钱海忠,赵钰哲.综述与展望:地理空间数据的管理、多尺度变换与表达[J].地球信息科学学报,2022,24(12):2265-2281. 被引量：4
7嵇亮亮,王伟,王传明.一种地理栅格数据自适应压缩传输方法[J].电子质量,2023(2):59-62.
8魏玮,张鑫,朱叶.基于双重注意力和光流估计的人脸替换方法[J].计算机工程与应用,2023,59(7):143-151.
9李俊,吴长枝,齐晓飞,赵耀.深度学习在地图多尺度表达中的应用分析[J].科技创新与应用,2023,13(12):185-188.
10郑元丰,张威,江昊,华光.一种基于弱监督学习的图像镜面高光去除算法[J].信号处理,2023,39(6):1016-1024. 被引量：1

1丁志刚,黄依青,徐薇洁,高峰.贸易金融生态系统价值共创演化博弈研究[J].会计之友,2023(10):55-62.
2曹寅,秦俊平,马千里,孙昊,闫凯,王磊,任家琪.文本生成图像研究综述[J].浙江大学学报（工学版）,2024,58(2):219-238. 被引量：2
3张政,何慧.一种改进的DETR输电线通道山火烟雾检测方法[J].小型微型计算机系统,2024,45(3):670-675. 被引量：1
4汤伟,杨阳.例谈如何解答沉淀溶解平衡图像问题[J].广东教育（高中版）,2024(2):70-72.
5周子意,蒋毅,胡平,李金菊.赋范线性空间中动态目标集的最大时间函数的Fréchet次微分[J].数学进展,2023,52(5):896-904.
6何成刚,张坤雄,俞茹昕,王欣纪,徐逸勋,刘吉华.机器视觉在钢轨表面病害检测应用研究综述[J].高速铁路新材料,2024,3(1):7-13.
7龚颖,许文韬,赵策,王斌君.生成对抗网络在图像修复中的应用综述[J].计算机科学与探索,2024,18(3):553-573. 被引量：1
8秦安.职业教育产教融合联盟信任机制的研究[J].中国科技期刊数据库科研,2023(11):92-94.
9李怡啸,欧小杨,李昊冉,程哲,李晓溪,郑曦.基于全域连通性识别气候变化风险下的生物多样性保护优先区--以京津冀为例[J].生态学报,2024,44(3):1152-1163.
10黄巧玲,郑伯川,丁梓成,吴泽东.融合监督注意力模块和跨阶段特征融合的图像修复改进网络[J].计算机应用,2024,44(2):572-579.

武汉大学学报（信息科学版）

2024年第2期

浏览历史

内容加载中请稍等...

行列式点过程采样的文本生成图像方法

参考文献3

二级参考文献12

共引文献25

相关作者

相关机构

相关主题

浏览历史