视觉语言多模态预训练综述被引量：7

Comprehensive review of visual-language-oriented multimodal pre-training methods

导出

摘要在多模态机器学习领域,为特定任务而制作的人工标注数据昂贵,且不同任务难以进行迁移,从而需要大量重新训练,导致训练多个任务时效率低下、资源浪费。预训练模型通过以自监督为代表的方式进行大规模数据训练,对数据集中不同模态的信息进行提取和融合,以学习其中蕴涵的通用知识表征,从而服务于广泛的相关下游视觉语言多模态任务,这一方法逐渐成为人工智能各领域的主流方法。依靠互联网所获取的大规模图文对与视频数据,以及以自监督学习为代表的预训练方法的进步,视觉语言多模态预训练模型在很大程度上打破了不同视觉语言任务之间的壁垒,提升了多个任务训练的效率并促进了具体任务的性能表现。本文总结视觉语言多模态预训练领域的进展,首先对常见的预训练数据集和预训练方法进行汇总,然后对目前最新方法以及经典方法进行系统概述,按输入来源分为图像—文本预训练模型和视频—文本多模态模型两大类,阐述了各方法之间的共性和差异,并将各模型在具体下游任务上的实验情况进行汇总。最后,总结了视觉语言预训练面临的挑战和未来发展趋势。 Multimodal machine learning has been challenging for labor-intensive and labeled cost and data migration constraints,which requires amount of retraining process,resulting in low efficiency and imbalanced resources allocation for multiple training tasks.To learn the internal knowledge representation and meet the requirement of the related downstream visual language multimodal tasks,pre-training model is carried out for large-scale data training task through self-supervision,the multiple modes information extraction and integration of the data set context,etc.The exploration of pre-trained models is focused on cheaper labeled data due to the expensive human labels.First,the model is pre-trained based on cheap labeled data,and the model is fine-tuned using less expensive human annotations.Large-scale data and long time span training are often required to pre-train the model because of the less information and noise derived from cheap labeled data.The large-scale unlabeled-data-based pre-trained model not only transfer the more general knowledge to the target task through the learned unlabeled data,but also get a better parameter initial point through the pre-training learning.The future multimodal contexts have their potentials like learning demonstration,sentiment analysis and task-oriented large-scale human-computer interactions.Multimodal pre-training models can be as a pathway derived of weak artificial intelligence from local to global.It is possible to transfer multi-tasks learning results to non-supervision multi-domains data automatically and quickly.The plain text pre-training model can cover less online data only,and richer data have not been fully utilized and learned.Multimodal-contexts are benefited from information gathering,context perception,knowledge learning,and demonstration.To generate commonly-used artificial intelligence model,the pre-training model has been developing from single-modal to multi-modal.The intensive growth of pre-training models has extended to the field of visual and textual interaction since 2019.Thanks to the large-scale image-text pairs and video data online and the growth of pre-training technique like self-supervised learning,the visual-language multimodal pre-training model has been promoted and bridged the gap between different visual-language tasks,which optimizes multi-task training and improves the performance of specific tasks.Current multimodal researches are challenged to an intelligent system organizing,multimodal information perceiving and the semantic gap bridging.We review existing pre-training datasets and pre-training methods,and propose a systematic overview of the latest and traditional methods.The universals and differences between the methods are critical analyzed,and the experimental conditions of each model are summarized on specific downstream tasks.Finally,the challenges and future research direction of visual language pre-training are predicted.

作者张浩宇王天保李孟择赵洲浦世亮吴飞 Zhang Haoyu;Wang Tianbao;Li Mengze;Zhao Zhou;Pu Shiliang;Wu Fei(College of Computer Science and Technology,Zhejiang University,Hangzhou 310013,China;Hangzhou Hikvision Digital Technology Co.,Ltd.,Hangzhou 310051,China)

机构地区浙江大学计算机与科学技术学院杭州海康威视数字技术股份有限公司

出处《中国图象图形学报》 CSCD 北大核心 2022年第9期2652-2682,共31页 Journal of Image and Graphics

基金国家重点研发计划资助(2020YFC0832500) 浙江省科技计划项目(2022C01044)。

关键词多模态机器学习视觉语言多模态预训练自监督学习图像文本预训练视频文本预训练 multimodal machine learning visual language multimodality pre-training self-supervised learning image-text pre-training video-text pre-training

分类号 TP37 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献3

1琚生根,黄方怡,孙界平.融合预训练语言模型的成语完形填空算法[J].软件学报,2022,33(10):3793-3805. 被引量：2
2陈德光,马金林,马自萍,周洁.自然语言处理预训练技术综述[J].计算机科学与探索,2021,15(8):1359-1389. 被引量：29
3强继朋,钱镇宇,李云,袁运浩,朱毅.基于预训练表示模型的英语词语简化方法[J].自动化学报,2022,48(8):2075-2087. 被引量：4

二级参考文献7

1李舟军,范宇,吴贤杰.面向自然语言处理的预训练技术研究综述[J].计算机科学,2020,47(3):162-173. 被引量：99
2张芮,杨煦晨,琚生根,刘宁宁,谢正文,王婧妍.基于多层次动态门控推理网络的文本蕴含识别[J].四川大学学报（自然科学版）,2020,57(2):277-283. 被引量：2
3苏立新,郭嘉丰,范意兴,兰艳艳,徐君,程学旗.面向多片段答案的抽取式阅读理解模型[J].计算机学报,2020,43(5):856-867. 被引量：5
4顾迎捷,桂小林,李德福,沈毅,廖东.基于神经网络的机器阅读理解综述[J].软件学报,2020,31(7):2095-2126. 被引量：33
5QIU XiPeng,SUN TianXiang,XU YiGe,SHAO YunFan,DAI Ning,HUANG XuanJing.Pre-trained models for natural language processing: A survey[J].Science China(Technological Sciences),2020,63(10):1872-1897. 被引量：136
6余同瑞,金冉,韩晓臻,李家辉,郁婷.自然语言处理预训练模型的研究综述[J].计算机工程与应用,2020,56(23):12-22. 被引量：42
7梁杰,陈嘉豪,张雪芹,周悦,林家骏.基于独热编码和卷积神经网络的异常检测[J].清华大学学报（自然科学版）,2019,59(7):523-529. 被引量：112

共引文献32

1曹艳琴.基于深度学习的英语自然语言处理系统[J].系统仿真技术,2021,17(4):285-288. 被引量：1
2吴德平,时翔,王晓东.基于BERT模型的安全生产事故多标签文本分类[J].武汉工程大学学报,2021,43(5):586-590. 被引量：6
3蔡宇翔,王佳斌,郑天华.Spark 平台下基于加权词向量的文本分类方法[J].现代计算机,2022,28(3):25-30.
4李小伟,舒辉,光焱,翟懿,杨资集.自然语言处理在简历分析中的应用研究综述[J].计算机科学,2022,49(S01):66-73. 被引量：5
5胥建杰,董莉霞,邓晓垒.深度预训练模型的农业问句分类技术研究[J].软件导刊,2022,21(6):62-66.
6赵良,张赵玥,廖子逸,王玲.用BERT和改进PCNN模型抽取食品安全领域关系[J].农业工程学报,2022,38(8):263-270. 被引量：6
7王瑞平,吴士泓,张美航,王小平.视觉问答语言处理方法综述[J].计算机工程与应用,2022,58(17):50-60. 被引量：3
8刘秋鸽,闵亮.基于智能语音交互的文言文翻译机器人关键技术[J].自动化与仪器仪表,2022(8):165-169. 被引量：4
9李天皓,张倩,陆炜.基于电子健康记录的智能算法研究综述[J].电子科技大学学报（社科版）,2022,24(5):30-43.
10付念.基于LSTM的自然语言处理校园新闻数据分析[J].电子技术与软件工程,2022(16):204-207.

同被引文献27

1赵晓驰,任媛媛,丁勇.国家手语词汇语料库的建设与使用[J].中国特殊教育,2017(1):43-47. 被引量：7
2武永亮,赵书良,李长镜,魏娜娣,王子晏.基于TF-IDF和余弦相似度的文本分类方法[J].中文信息学报,2017,31(5):138-145. 被引量：89
3吴江,侯绍新,靳萌萌,胡忠义.基于LDA模型特征选择的在线医疗社区文本分类及用户聚类研究[J].情报学报,2017,36(11):1183-1191. 被引量：42
4张吉生,伍艳红.上海手语的底层手型与特征赋值[J].当代语言学,2018,20(4):572-586. 被引量：3
5王忠民,王星,李刚,张福涛.视觉场景理解综述[J].西安邮电大学学报,2019,24(1):1-15. 被引量：3
6吴骋,秦婴逸,李冬冬,王志勇.迁移学习技术及其在医疗领域中的应用[J].中国医疗设备,2020,35(9):161-164. 被引量：4
7吴小雪,张庆辉.预训练语言模型在中文电子病历命名实体识别上的应用[J].电子质量,2020(9):61-65. 被引量：3
8杜琳,曹东,林树元,瞿溢谦,叶辉.基于BERT与Bi-LSTM融合注意力机制的中医病历文本的提取与自动分类[J].计算机科学,2020,47(S02):416-420. 被引量：24
9赵秀兰,刘印文.基于U型全卷积神经网络的腹部动脉CT图像分割算法研究[J].中国医疗设备,2021,36(2):85-88. 被引量：4
10杜鹏飞,李小勇,高雅丽.多模态视觉语言表征学习研究综述[J].软件学报,2021,32(2):327-348. 被引量：24

引证文献7

1杜长德,周琼怡,刘澈,何晖光.fMRI的视觉神经信息编解码方法综述[J].中国图象图形学报,2023,28(2):372-384.
2王丽安,缪佩翰,苏伟,李玺,吉娜烨,姜燕冰.图像-文本多模态指代表达理解研究综述[J].中国图象图形学报,2023,28(5):1308-1325. 被引量：2
3李一晨,黄艳群,张志强,王牧雨,郜斌宇,陈卉.中英文对照的影像学报告在预测模型中的一致性评价[J].中国医疗设备,2023,38(10):1-6.
4倪玉航,张杰.基于预训练模型的注意力叠加方法及其在图像字幕生成中的应用[J].江苏理工学院学报,2023,29(6):12-22.
5张艳琼,朱兆松,赵晓驰.面向手语语言学的中国手语词汇多模态语料库构建研究[J].数据分析与知识发现,2023,7(10):144-155.
6姜丽梅,李秉龙.面向图像文本的多模态处理方法综述[J].计算机应用研究,2024,41(5):1281-1290.
7姚涵涛,余璐,徐常胜.视觉语言模型引导的文本知识嵌入的小样本增量学习[J].软件学报,2024,35(5):2101-2119.

二级引证文献2

1袁琨鹏,米金鹏,陈智谦.基于模态预融合的三维指称表达理解[J].计算机应用研究,2023,40(12):3666-3671.
2姜丽梅,李秉龙.面向图像文本的多模态处理方法综述[J].计算机应用研究,2024,41(5):1281-1290.

1余宙,俞俊,朱俊杰,匡振中.融合知识表征的多模态Transformer场景文本视觉问答[J].中国图象图形学报,2022,27(9):2761-2774. 被引量：1
2吴豪杰,王妍洁,蔡文炳,王飞,刘洋,蒲鹏,林绍辉.基于隐层相关联算子的知识蒸馏方法[J].华东师范大学学报（自然科学版）,2022(5):115-125.
3林洁丽,霍敏贤,潘坤贵.确定乙酸乙酯和氢氧化钠等浓度下的皂化反应速率常数的多种方法[J].创新教育研究,2022,10(9):2166-2172.
4王洪雨.如何有效提升高中生的英语听力水平——以元认知策略的应用为例[J].英语教师,2022,22(16):36-39.
5葛晓扬.基于知识表征理论的虚拟博物馆动态空间构成关系设计[J].工业工程设计,2022,4(5):23-28. 被引量：1
6廖黄炜,马燕,黄慧.基于多特征融合卷积神经网络的年龄预测[J].计算机技术与发展,2022,32(10):58-64.
7沐燕舟,王赞,陈翔,陈俊洁,赵静珂,王建敏.采用多目标优化的深度学习测试优化方法[J].软件学报,2022,33(7):2499-2524. 被引量：5
8牟轩庭,张宏军,廖湘琳,章乐贵.规则引导的智能体决策框架[J].计算机技术与发展,2022,32(10):156-163.
9陈广泽,袁嘉诚.基于环绕语义视觉的无人车运动规划[J].电脑乐园,2022,7(10):280-282.
10孙钦美,钟璇,田雨.语言迁移视角下西班牙语词汇教学研究--基于英语对西语迁移作用的实证研究[J].临沂大学学报,2022,44(5):123-135.

中国图象图形学报

2022年第9期

浏览历史

内容加载中请稍等...

视觉语言多模态预训练综述被引量：7

参考文献3

二级参考文献7

共引文献32

同被引文献27

引证文献7

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

视觉语言多模态预训练综述 被引量：7

参考文献3

二级参考文献7

共引文献32

同被引文献27

引证文献7

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

视觉语言多模态预训练综述被引量：7