文本到图像生成方法的研究进展

Advances of Text-to-Image generation method

下载PDF

导出

摘要跨模态学习是人工智能领域中长期研究的课题之一,依据文本描述生成图像成为近几年的热门研究领域,主要任务是根据文本描述生成和文本高度相关性的图像。文中总结了文本到图像生成领域中的研究现状和最新进展,从生成框架上将生成模型分为生成对抗网络框架方法和非生成对抗网络方法,又根据训练策略将生成对抗网络框架方法细分为单阶段、多阶段和额外监督等类别,同时介绍了经典的一些非生成对抗网络方法。最后给出文本生成图像任务采用的数据集和评估标准,提出了当前方法的不足和尚未解决的问题,指出了未来的研究方法。 Cross-modal learning is one of the medium and long-term research topics in the field of artificial intelligence.Image generation based on text descriptions has become a hot research field in recent years.The main task is to generate images that are highly correlated with text based on text descriptions.This paper summarizes the research status and latest progress in the field of text-to-image generation.From the generation framework,the generation model is divided into generative adversarial network framework method and non-generative adversarial network method.According to the training strategy,the generative adversarial network framework method is subdivided into single-stage,multi-stage,and additional supervision categories,while introducing some classic non-generative adversarial network methods.Finally,the data set and evaluation standard used in the text generation image task are given,the shortcomings and unsolved problems of the current method are proposed,and the future research methods are pointed out.

作者王鹏 WANG Peng(School of Artificial Intelligence(School of Future Technology),Nanjing University of Information Science and Technology,Nanjing 210044,China)

机构地区南京信息工程大学人工智能学院(未来技术学院)

出处《信息技术》 2024年第7期148-159,共12页 Information Technology

关键词文本到图像生成生成对抗网络扩散模型单阶段生成多阶段生成 text to image generation generative adversarial networks diffusion models single-stage generation multi-stage generation

分类号 TP391.41 [自动化与计算机技术—计算机应用技术] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1陈佛计,朱枫,吴清潇,郝颖明,王恩德,崔芸阁.生成对抗网络及其在图像生成中的应用研究综述[J].计算机学报,2021,44(2):347-369. 被引量：80

二级参考文献1

1林懿伦,戴星原,李力,王晓,王飞跃.人工智能研究的新前线：生成式对抗网络[J].自动化学报,2018,44(5):775-792. 被引量：83

共引文献79

1杜文风,王英奇,王辉,赵艳男,高博青,董石麟.基于边界平衡生成对抗网络的十字板式节点新构形智能生成方法[J].建筑结构学报,2022,43(S01):315-324. 被引量：3
2李健,庞留记,吴浩,王心宇.融合注意力机制的改进Mask-RCNN遥感影像建筑物提取[J].测绘科学,2024,49(1):79-89.
3殷柯欣,廖冰冰,胡文楠,包芳.遮挡人脸表情图像预处理研究进展[J].长春工业大学学报,2021,42(2):153-159. 被引量：3
4李健宁,路阳,陶贤鹏,林立媛,孙桐.基于WGAN-GP的水稻病害图像生成方法研究[J].信息记录材料,2021,22(8):235-238. 被引量：1
5陈大卫,付安民,周纯毅,陈珍珠.基于生成式对抗网络的联邦学习后门攻击方案[J].计算机研究与发展,2021,58(11):2364-2373. 被引量：12
6曾明昭,高会议,万莉.基于生成对抗网络的葡萄叶片图像数据增强方法[J].仪表技术,2021(5):41-44. 被引量：3
7谌贵辉,刘会康,李忠兵,彭娇,汪少天,林瑾瑜.基于仲裁机制的生成对抗网络改进算法[J].计算机应用,2021,41(11):3185-3191. 被引量：1
8王凯旋,任福继,倪红军,吕帅帅,汪兴兴.基于循环互相关系数的CGAN温度值图像扩增[J].智能系统学报,2022,17(1):32-40. 被引量：2
9王传平,杨晓丽,王晓磊,乌嵘,熊永平.基于GAN和CNN-ELM的监控图像智能修复及检测方法[J].半导体光电,2021,42(6):923-930. 被引量：1
10王家亮,刘晓强,李柏岩,冯珍妮.一种基于CGAN的可见水印去除方案[J].计算机技术与发展,2022,32(2):119-124. 被引量：1

1王超,孔祥辉.大型预训练语言模型在网络健康信息鉴别中的应用探讨[J].农业图书情报学报,2023,35(6):51-59. 被引量：8
2张金锋.《全宋文》重出《筠州学记》考论[J].中国典籍与文化,2023(3):26-26.
3范向前,韩浩田,陆俊.透水混凝土力学性能影响因素的研究进展与分析[J].混凝土与水泥制品,2024(7):42-47.
4周歆,郑钧元,周永庆.人β防御素与口腔疾病关系的研究进展[J].河北医药,2024,46(15):2353-2357.
5龚荣芳,黄麟雅,朱旗,李胜荣.基于图学习的缺失脑网络生成及多模态融合诊断方法[J].数据采集与处理,2024,39(4):843-862.
6李航,王杰,齐顾波.赋权与嵌入:制度复杂性下乡村职业经理人自主性生成机制[J].中国农村观察,2024(4):105-123.
7张举鹏,石利斌,彭东岳,罗洋,管翠诗.萘系双环芳烃缩聚方法研究进展[J].应用化工,2024,53(6):1394-1397.
8买尔哈巴·乌斯曼.事业单位财会监督对政府会计改革的影响研究[J].中文科技期刊数据库（全文版）经济管理,2024(8):0068-0071.
9孙健,刘洋.智能城市测绘中地理信息系统技术的应用探析[J].中国科技期刊数据库工业A,2024(8):0133-0136.

信息技术

2024年第7期

浏览历史

内容加载中请稍等...

文本到图像生成方法的研究进展

参考文献1

二级参考文献1

共引文献79

相关作者

相关机构

相关主题

浏览历史