视觉语言预训练综述被引量：9

Survey on Vision-language Pre-training

下载PDF

导出

摘要近年来深度学习在计算机视觉(CV)和自然语言处理(NLP)等单模态领域都取得了十分优异的性能.随着技术的发展,多模态学习的重要性和必要性已经慢慢展现.视觉语言学习作为多模态学习的重要部分,得到国内外研究人员的广泛关注.得益于Transformer框架的发展,越来越多的预训练模型被运用到视觉语言多模态学习上,相关任务在性能上得到了质的飞跃.系统地梳理了当前视觉语言预训练模型相关的工作,首先介绍了预训练模型的相关知识,其次从两种不同的角度分析比较预训练模型结构,讨论了常用的视觉语言预训练技术,详细介绍了5类下游预训练任务,最后介绍了常用的图像和视频预训练任务的数据集,并比较和分析了常用预训练模型在不同任务下不同数据集上的性能. In recent years,deep learning has achieved excellent performance in unimodal areas such as computer vision(CV)and natural language processing(NLP).With the development of technology,the importance and necessity of multimodal learning begin to unfold.Essential to multimodal learning,vision-language learning has received extensive attention from researchers in and outside China.Thanks to the development of the Transformer framework,more and more pre-trained models are applied to vision-language multimodal learning,and the performance of related tasks is improved qualitatively.This study systematically reviews the current work on vision-language pretrained models.Firstly,the knowledge about pre-trained models is introduced.Secondly,the structure of pre-trained models is analyzed and compared from two perspectives.The commonly used vision-language pre-training techniques are discussed,and five downstream pretraining tasks are elaborated.Finally,the common datasets used in image and video pre-training tasks are expounded,and the performance of commonly used pre-trained models on different datasets under different tasks is compared and analyzed.

作者殷炯张哲东高宇涵杨智文李亮肖芒孙垚棋颜成钢 YIN Jiong;ZHANG Zhe-Dong;GAO Yu-Han;YANG Zhi-Wen;LI Liang;XIAO Mang;SUN Yao-Qi;YAN Cheng-Gang(College of Computer Science and Technology,Hangzhou Dianzi University,Hangzhou 310018,China;Lishui Institute of Hangzhou Dianzi University,Lishui 323000,China;School of Automation,Hangzhou Dianzi University,Hangzhou 210016,China;Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190,China;Sir Run Run Shaw Hospital,College of Medicine,Zhejiang University,Hangzhou 310016,China)

机构地区杭州电子科技大学计算机学院杭州电子科技大学丽水研究院杭州电子科技大学自动化学院中国科学院计算技术研究所浙江大学医学院附属邵逸夫医院

出处《软件学报》 EI CSCD 北大核心 2023年第5期2000-2023,共24页 Journal of Software

基金国家重点研发计划(2020YFB1406604) 国家自然科学基金(61931008,62071415,U21B2024)。

关键词多模态学习预训练模型 TRANSFORMER 视觉语言学习 multimodal learning pre-trained model Transformer vision-language learning

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1杜鹏飞,李小勇,高雅丽.多模态视觉语言表征学习研究综述[J].软件学报,2021,32(2):327-348. 被引量：28
2包希港,周春来,肖克晶,覃飙.视觉问答研究综述[J].软件学报,2021,32(8):2522-2544. 被引量：12

二级参考文献2

1鲜光靖,黄永忠.基于神经网络的视觉问答技术研究综述[J].网络安全技术与应用,2018(1):42-47. 被引量：6
2俞俊,汪亮,余宙.视觉问答技术研究[J].计算机研究与发展,2018,55(9):1946-1958. 被引量：22

共引文献36

1朱鹏飞,张琬迎,王煜,胡清华.考虑多粒度类相关性的对比式开放集识别方法[J].软件学报,2022,33(4):1156-1169. 被引量：4
2曾志贤,曹建军,翁年凤,蒋国权,范强.结合关键帧提取的视频-文本跨模态实体分辨双重编码方法[J].兵工学报,2022,43(5):1107-1116. 被引量：3
3王锦荟,金露,李泽超,唐金辉.基于知识蒸馏的跨模态哈希[J].中国科学：技术科学,2022,52(5):713-726. 被引量：4
4李良福,陈卫东,高强,许开銮,刘轩,何曦,钱钧.基于深度学习的光电系统智能目标识别[J].兵工学报,2022,43(S01):162-168. 被引量：6
5刘青茹,李刚,赵创,顾广华,赵耀.基于多重注意结构的图像密集描述生成方法研究[J].自动化学报,2022,48(10):2537-2548. 被引量：1
6丁国辉,张琦,房士超,李青,孙小宇,张路霞,孔桂兰.多模态检索在医学领域的研究综述[J].计算机工程与应用,2023,59(1):26-36.
7张飞飞,张建庆,屈思佳,周琬婷.跨模态视觉问答与推理研究进展[J].数据采集与处理,2023,38(1):1-20.
8乔有田,张海军,路明.基于多路语义图网络的图像自动问答[J].计算机应用研究,2023,40(2):383-387.
9孙顺远,陈浩.基于旋转目标检测的指针式仪表示数识别方法[J].仪表技术与传感器,2023(3):18-23. 被引量：7
10李宗霖,张盛平,刘杨,张兆心,张维刚,黄庆明.基于多级残差映射器的文本驱动人脸图像生成和编辑[J].软件学报,2023,34(5):2101-2115. 被引量：4

同被引文献24

1李佳欣,苏曙光.基于BERT的图像和文本多模态融合分类模型[J].计算机应用,2023,43(S01):39-44. 被引量：3
2周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251. 被引量：1790
3杨婉香,严严,陈思,张小康,王菡子.基于多尺度生成对抗网络的遮挡行人重识别方法[J].软件学报,2020,31(7):1943-1958. 被引量：19
4杜鹏飞,李小勇,高雅丽.多模态视觉语言表征学习研究综述[J].软件学报,2021,32(2):327-348. 被引量：28
5刘颖,雷研博,范九伦,王富平,公衍超,田奇.基于小样本学习的图像分类技术综述[J].自动化学报,2021,47(2):297-315. 被引量：92
6李晶晶,孟利超,张可,鲁珂,申恒涛.领域自适应研究综述[J].计算机工程,2021,47(6):1-13. 被引量：21
7刘继明,张培翔,刘颖,张伟东,房杰.多模态的情感分析技术综述[J].计算机科学与探索,2021,15(7):1165-1182. 被引量：37
8Hongbo GAO,Hang SU,Yingfeng CAI,Renfei WU,Zhengyuan HAO,Yongneng XU,Wei WU,Jianqing WANG,Zhijun LI,Zhen KAN.Trajectory prediction of cyclist based on dynamic Bayesian network and long short-term memory model at unsignalized intersections[J].Science China(Information Sciences),2021,64(7):100-112. 被引量：8
9琚生根,李天宁,孙界平.基于关联记忆网络的中文细粒度命名实体识别[J].软件学报,2021,32(8):2545-2556. 被引量：13
10岳增营,叶霞,刘睿珩.基于语言模型的预训练技术研究综述[J].中文信息学报,2021,35(9):15-29. 被引量：48

引证文献9

1张重毅,牛欣悦,孙君艳,祁丽娟,方梅.ChatGPT探析:AI大型语言模型下学术出版的机遇与挑战[J].中国科技期刊研究,2023,34(4):446-453. 被引量：34
2张天明,张杉,刘曦,曹斌,范菁.融合多模态数据的小样本命名实体识别方法[J].软件学报,2024,35(3):1107-1124. 被引量：4
3卢得民,钟诚,杨锋.用于肺水肿量化的掩码图像-语言蒸馏模型[J].基因组学与应用生物学,2024,43(2):274-283.
4姚涵涛,余璐,徐常胜.视觉语言模型引导的文本知识嵌入的小样本增量学习[J].软件学报,2024,35(5):2101-2119.
5廖宁,曹敏,严骏驰.视觉提示学习综述[J].计算机学报,2024,47(4):790-820. 被引量：1
6孙杰,车文刚,高盛祥.面向多模态情感分析的低秩跨模态Transformer[J].计算机工程与科学,2024,46(10):1888-1900.
7李鑫尧,李晶晶,朱磊,申恒涛.资源受限的大模型高效迁移学习算法研究综述[J].计算机学报,2024,47(11):2491-2521.
8王帅炜,雷杰,冯尊磊,梁荣华.视觉表征学习综述[J].计算机科学,2024,51(11):112-132.
9严忻恺,霍宇驰,鲍虎军.神经渲染及其硬件加速综述[J].计算机研究与发展,2024,61(11):3846-3869.

二级引证文献39

1张莹,吕平香.虚拟专题提升农业科技期刊出版服务能力的前景探析[J].学报编辑论丛,2024(1):709-714.
2薛春璐,王元杰,刘继芳,诸叶平,齐秀丽.基于智能新技术的科技期刊智慧出版与传播模式优化[J].编辑学报,2023,35(S01):117-120. 被引量：3
3蒋雪颖,刘欣,许静.基于ChatGPT在学术期刊出版中的应用分析[J].出版广角,2023(11):37-41. 被引量：8
4罗云梅,刘雪梅.ChatGPT对学术出版伦理的影响[J].医学与哲学,2023,44(12):25-28. 被引量：8
5沈锡宾,王立磊.人工智能生成学术期刊文本的检测研究[J].科技与出版,2023(8):56-62. 被引量：16
6丁文婧.国外科技学术期刊简明语言摘要的发展概况及启示[J].中国科技期刊研究,2023,34(10):1264-1269. 被引量：1
7董文杰,李苑.人工智能在科技期刊中的应用及启示[J].中国科技期刊研究,2023,34(11):1399-1408. 被引量：17
8李真.ChatGPT在图书编校中的应用测试与分析[J].出版与印刷,2023(6):60-64. 被引量：3
9杨亚红,孙岩,余党会.学术出版行业生成式人工智能作品相关责任与风险分析研究综述[J].中国科技期刊研究,2023,34(12):1601-1607. 被引量：8
10宋欢,陈金辉,吴瑞林.类ChatGPT模型介入国家科技计划项目评审的应用探讨[J].科技和产业,2024,24(5):177-186. 被引量：2

1胡瑞,杨文韵.船舶工程生产过程中面临的挑战与对策[J].中国科技期刊数据库工业A,2022(2):257-259.
2王霜奉.ChatGPT的“火”能否持续炙热?[J].上海信息化,2023(3):48-49.
3罗旭斌,刘波.结合集成学习与迁移学习的标签比例学习方法[J].计算机应用研究,2023,40(5):1422-1427. 被引量：1
4李成林,毛正雄,何映军,梅东晖,时燕.面向非结构化数据知识图谱的信息抽取与融合研究[J].电力系统装备,2023(4):48-50.
5关志广,程乔.基于NLP的文本挖掘技术在提升电信客户满意度中的应用[J].无线互联科技,2023,20(5):117-119. 被引量：1
6袁清.浅谈心理学知识在班级管理中的运用[J].中国科技经济新闻数据库教育,2022(3):139-141.
7翟钰钰,方海燕.基于文献计量学的EPIC模型应用综述[J].水土保持通报,2023,43(1):263-271.
8尚海明.美国移民拘留中心的强迫劳动:表现、后果及中国应对[J].统一战线学研究,2023,7(3):181-192. 被引量：1
9张艺颖,范文涛,王倩.基于中西医临床病证特点的抑郁症动物模型评价分析[J].中药新药与临床药理,2023,34(4):528-533.

软件学报

2023年第5期

浏览历史

内容加载中请稍等...

视觉语言预训练综述被引量：9

参考文献2

二级参考文献2

共引文献36

同被引文献24

引证文献9

二级引证文献39

相关作者

相关机构

相关主题

浏览历史

视觉语言预训练综述 被引量：9

参考文献2

二级参考文献2

共引文献36

同被引文献24

引证文献9

二级引证文献39

相关作者

相关机构

相关主题

浏览历史

视觉语言预训练综述被引量：9