基于生成对抗网络的文本生成图像研究综述被引量：2

A Survey of Text-to-Image Synthesis Based on Generative Adversarial Network

下载PDF

导出

摘要文本生成图像是指将语句形式的文本描述翻译成与文本具有相似语义的图像。在早期研究中,图像生成任务主要基于关键字或语句的检索来实现与文本匹配的视觉内容的对齐。随着生成对抗网络的出现,文本生成图像的方法在视觉真实感、多样性和语义相似性方面取得了重大进展。生成对抗网络通过生成器和鉴别器之间的对抗来生成合理且真实的图像,并在图像修复和超分辨率生成等领域显示出良好的能力。在回顾并总结文本生成图像领域最新研究成果的基础上,文中提出了一种新的分类方法,即注意力增强、多阶段增强、场景布局增强和普适性增强,并讨论了文本生成图像面临的挑战和未来的发展方向。 The text-to-image synthesis refers to translating the text description in sentence form into an image with similar semantics to the text.In the early research,the task of image generation is mainly based on keyword or sentence retrieval to align the visual content matched with the text.With the generative adversarial network,the method of text-to-image synthesis has made great progress in visual realism,diversity and semantic similarity.The generative adversarial network generates reasonable and real images through the confrontation between generator and discriminator,and shows strong ability in the fields of image restoration and super-resolution generation.Based on the review and summary of the latest research results in the field of text-to-image synthesis,a new classification method is proposed:Attention enhancement,multi-stage enhancement,scene layout enhancement and universality enhancement.The challenges and future development direction of text-to-image synthesis are also discussed in this study.

作者李乐阳佟国香赵迎志罗琦 LI Yueyang;TONG Guoxiang;ZHAO Yingzhi;LUO Qi(School of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Technology,Shanghai 200093,China)

机构地区上海理工大学光电信息与计算机工程学院

出处《电子科技》 2023年第10期39-55,共17页 Electronic Science and Technology

基金国家重点研发计划项目(2018YFB1700902)。

关键词图像生成视觉内容对齐文本匹配生成器鉴别器语义相似性生成对抗网络场景布局 image generation aligning the visual content text matching generator discriminator semantic similarity generative adversarial network scene layout

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1Xian Wu,Kun Xu,Peter Hall.A Survey of Image Synthesis and Editing with Generative Adversarial Networks[J].Tsinghua Science and Technology,2017,22(6):660-674. 被引量：20
2伞红军,王汪林,陈久朋,谢飞亚,徐洋洋,陈佳.面向室内动态场景的VSLAM[J].电子科技,2022,35(4):14-19. 被引量：1
3林潮威,李菲菲,陈虬.基于深度卷积特征的场景全局与局部表示方法[J].电子科技,2022,35(4):20-27. 被引量：2

二级参考文献7

1Zhe Zhu,Ralph R.Martin,Shi-Min Hu.Panorama completion for street views[J].Computational Visual Media,2015,1(1):49-57. 被引量：8
2Xujie Li,Hanli Zhao,Guizhi Nie,Hui Huang.Image recoloring using geodesic distance based color harmonization[J].Computational Visual Media,2015,1(2):143-155. 被引量：4
3Shao-Ping Lu,Guillaume Dauphin,Gauthier Lafruit,Adrian Munteanu.Color retargeting:Interactive time-varying color image composition from time-lapse sequences[J].Computational Visual Media,2015,1(4):321-330. 被引量：7
4张慧丽,彭晓东,谢文明,陈璐.一种动态光照下视觉VSLAM中的场景特征匹配方法[J].电子设计工程,2018,26(24):1-5. 被引量：4
5谢林,李菲菲,陈虬.基于稀疏自动编码机的场景识别算法[J].电子科技,2019,32(1):38-41. 被引量：8
6缪冉,李菲菲,陈虬.基于卷积神经网络与多尺度空间编码的场景识别方法[J].电子科技,2020,33(12):54-58. 被引量：21
7叶飞,刘子龙.基于改进YOLOv3算法的行人检测研究[J].电子科技,2021,34(1):5-9. 被引量：7

共引文献20

1田文博,陈禾.国际学术出版推广新工具使用初探——以Kudos、TrendMD为例[J].科技与出版,2018,0(6):110-115. 被引量：15
2Liang He,Zhixiang Li,Chao Shen.Performance Evaluation of an Anomaly-Detection Algorithm for Keystroke-Typing Based Insider Detection[J].Tsinghua Science and Technology,2018,23(5):513-525. 被引量：2
3朱秀昌,唐贵进.生成对抗网络图像处理综述[J].南京邮电大学学报（自然科学版）,2019,39(3):1-12. 被引量：17
4万程,周鹏,吴陆辉,吴一全,沈建新,叶辉.基于生成对抗网络的糖尿病视网膜病变眼底图像生成[J].中华实验眼科杂志,2019,37(8):613-618. 被引量：4
5袁培森,吴茂盛,翟肇裕,杨承林,徐焕良.基于GAN网络的菌菇表型数据生成研究[J].农业机械学报,2019,50(12):231-239. 被引量：13
6黄菲,高飞,朱静洁,戴玲娜,俞俊.基于生成对抗网络的异质人脸图像合成:进展与挑战[J].南京信息工程大学学报（自然科学版）,2019,11(6):660-681. 被引量：5
7魏富强,古兰拜尔·吐尔洪,买日旦·吾守尔.生成对抗网络及其应用研究综述[J].计算机工程与应用,2021,57(19):18-31. 被引量：22
8Ali Syed Saqlain,Fang Fang,Tanvir Ahmad,Liyun Wang,Zain-ul Abidin.Evolution and Effectiveness of Loss Functions in Generative Adversarial Networks[J].China Communications,2021,18(10):45-76.
9鞠思博,徐晶,李岩芳.基于自注意力机制的文本生成单目标图像方法[J].计算机工程与应用,2022,58(3):249-258. 被引量：7
10Hongxia Deng,Yuefang Zhang,Ran Li,Chunxiang Hu,Zijian Feng,Haifang Li.Combining Residual Attention Mechanisms and Generative Adversarial Networks for Hippocampus Segmentation[J].Tsinghua Science and Technology,2022,27(1):68-78. 被引量：2

同被引文献10

1翟正利,梁振明,周炜,孙霞.变分自编码器模型综述[J].计算机工程与应用,2019,55(3):1-9. 被引量：67
2周博.改革开放以来的视觉传达设计:媒介转型与社会变迁[J].美术大观,2022(6):85-93. 被引量：8
3杨光锴.基于扩散模型的指纹图像生成方法[J].河北省科学院学报,2023,40(1):13-18. 被引量：8
4赵瑞雪,黄永文,马玮璐,董文佳,鲜国建,孙坦.ChatGPT对图书馆智能知识服务的启示与思考[J].农业图书情报学报,2023,35(1):29-38. 被引量：80
5李颖婷.生成式人工智能给图书馆带来的机遇、挑战及应对策略[J].图书与情报,2023(2):42-48. 被引量：34
6吴进,冯劭华,昝栋.ChatGPT与高校图书馆参考咨询服务[J].大学图书情报学刊,2023,41(5):25-29. 被引量：13
7符荣鑫,杨小华.AIGC语言模型分析及其高校图书馆应用场景研究[J].农业图书情报学报,2023,35(7):27-38. 被引量：13
8赖丽娜,米瑜,周龙龙,饶季勇,徐天阳,宋晓宁.生成对抗网络与文本图像生成方法综述[J].计算机工程与应用,2023,59(19):21-39. 被引量：9
9王洁.ChatGPT 对知识服务的五大变革[J].图书馆,2023(9):10-16. 被引量：12
10张强,高颖,赵逸淳,张雪峰.ChatGPT在智慧图书馆建设中的机遇与挑战[J].图书馆理论与实践,2023(6):116-122. 被引量：29

引证文献2

1汪睿.文本图像生成技术在视觉传达设计中的应用[J].科技创新与应用,2024,14(25):17-20.
2董殿永.生成式AI在智慧图书馆中的应用探讨[J].江苏科技信息,2024,41(16):100-104.

1欧建国.教育信息化背景下的小学语文教学[J].中文科技期刊数据库（引文版）教育科学,2021(3):29-29.
2吴俊.清代孙温绘《全本红楼梦》中的场景布局[J].收藏与投资,2023,14(9):157-159.
3王玥,赵健,朱燕.知识图谱军事运用的前景展望[J].信息系统工程,2023(9):24-27. 被引量：1
4董逸凡,文传博,王正.基于多传感器的不平衡数据轴承故障诊断[J].轴承,2023(10):77-83. 被引量：1
5袁毓林.形容词的极性程度意义及其完句限制条件[J].复印报刊资料（语言文字学）,2022(7):3-16.
6刘渊,罗朝英.基于教材插图培养学生看的技能初探——视觉语法理论视角[J].教学月刊（中学版）（外语教学）,2023(9):50-54.
7蒋叙,吴智慧.实时渲染技术在室内家居设计中的发展现状[J].家具,2023,44(3):1-6. 被引量：1
8张鑫和,岳书敬,赖晓冰.数字技术发展对企业异地投资的促进效应与内在机制[J].中南大学学报（社会科学版）,2023,29(5):123-137. 被引量：2
9李征.回归伦理学——翻译伦理研究的未来之路[J].浙江工商大学学报,2023(1):24-32. 被引量：1
10张凤全,曹铎,马晓寒,陈柏君,张江霄.一种面向戏曲妆容细节生成的风格迁移网络[J].系统仿真学报,2023,35(9):2064-2076. 被引量：1

电子科技

2023年第10期

浏览历史

内容加载中请稍等...

基于生成对抗网络的文本生成图像研究综述被引量：2

参考文献3

二级参考文献7

共引文献20

同被引文献10

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于生成对抗网络的文本生成图像研究综述 被引量：2

参考文献3

二级参考文献7

共引文献20

同被引文献10

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于生成对抗网络的文本生成图像研究综述被引量：2