视觉—语言—行为:视觉语言融合研究综述被引量：2

Vision-language-action:survey of integration of vision and language

下载PDF

导出

摘要通过语言给予智能体指示使其完成通用性的任务是人工智能领域的愿景之一。近年来有越多越多的学者试图通过融合计算机视觉与自然语言处理领域的相关技术以期实现此目标。为了及时跟进相关领域的研究,把握视觉与语言融合方向前沿,对于视觉—语言—行为最新进展进行综述。首先简单介绍了融合视觉与语言的弱耦合尝试,之后重点综述了视觉—语言—行为这一最新方向相关的视觉语言导航、具身问答及其相似研究,最后总结了制约此领域发展的关键问题及可能的解决方案。 The idea that might be able to give general and verbal instructions to a agent and have at least a reasonable probability that it will carry out the required task is one of the long-held visions of robotics and artificial intelligence(AI).It has noticed that more and more scholars in recent years have tried to this target using the latest advances in the field of computer vision and natural language progressing.In order to follow up the research in related fields and grasp the frontier of the fusion of vision and language,this paper reviewed the latest progress of visual-language-behavior.It first introduced the weak coupling experiment of fusion between vision and language,then focused on the vision-and-language navigation,the embodied question answering and their similar research,and finally looked forward to the future development trends in this field.

作者李睿郑顺义王西旗 Li Rui;Zheng Shunyi;Wang Xiqi(School of Remote Sensing&Information Engineering,Wuhan University,Wuhan 430079,China)

机构地区武汉大学遥感信息工程学院

出处《计算机应用研究》 CSCD 北大核心 2020年第11期3206-3212,共7页 Application Research of Computers

基金国家自然科学基金资助项目(41671452)。

关键词计算机视觉自然语言处理深度学习视觉语言导航具身问答 computer vision natural language progressing deep learning vision and language navigation embodied question answering

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1邓柳,汪子杰.基于深度卷积神经网络的车型识别研究[J].计算机应用研究,2016,33(3):930-932. 被引量：53
2李阳辉,谢明,易阳.基于深度学习的社交网络平台细粒度情感分析[J].计算机应用研究,2017,34(3):743-747. 被引量：31
3宋焕生,张向清,郑宝峰,严腾.基于深度学习方法的复杂场景下车辆目标检测[J].计算机应用研究,2018,35(4):1270-1273. 被引量：64

二级参考文献24

1LeCun Y, Boser B, Denker J S, et al. Backpropagation applied to handwritten zip code recognition[J] . Neural Computation, 1989, 1(4):541-551.
2Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C] //Proc of NIPS. 2012.
3Taigman Y, Yang Ming, Ranzato M A, et al. Deepface:closing the gap to human-level performance in face verification[C] //Proc of IEEE Conference on Computer Vision and Pattern Recognition. [S. l.] :IEEE Press, 2014:1701-1708.
4Fan Haoqiang, Cao Zhimin, Jiang Yuning, et al. Learning deep face representation[J] . arXiv preprint arXiv:1403. 2802, 2014.
5Ma Xiaoxu, Grimson W E L. Edge-based rich representation for vehicle classification[C] //Proc of the 10th IEEE International Confe-rence on Computer Vision. [S. l.] :IEEE Press, 2005:1185-1192.
6Ke Yan, Sukthankar R. PCA-SIFT:a more distinctive representation for local image descriptors[C] //Proc of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S. l.] :IEEE Press, 2004:II-506-II-513.
7Ge Fengxiang, Shi Yishu, Sun Bo, et al. Sparse representation based classification by using PCA-SIFT descriptors[C] //Proc of the 4th IEEE International Conference on Information Science and Technology. [S. l.] :IEEE Press, 2014:429-432.
8Oliveira L, Nunes U. On integration of features and classifiers for robust vehicle detection[C] //Proc of the 11th International IEEE Conference on Intelligent Transportation Systems. [S. l.] :IEEE Press, 2008:414-419.
9Kazemi F M, Samadi S, Poorreza H R, et al. Vehicle recognition using Curvelet transform and SVM[C] //Proc of the 4th International Conference on Information Technology. [S. l.] :IEEE Press, 2007:516-521.
10Rahati S, Moravejian R, Mohamad E, et al. Vehicle recognition using contourlet transform and SVM[C] //Proc of the 5th Internatio-nal Conference on Information Technology:New Generations. [S. l.] :IEEE Press, 2008:894-898.

共引文献145

1薛福亮,刘丽芳.一种基于CRF与ATAE-LSTM的细粒度情感分析方法[J].数据分析与知识发现,2020,4(2):207-213. 被引量：10
2何海洋,路玉,乔保军.一种改进Octave神经网络的图像识别模型[J].河南大学学报（自然科学版）,2020(6):700-706.
3郑玉珩,黄德启.改进MobileViT与YOLOv4的轻量化车辆检测网络[J].电子测量技术,2023,46(2):175-183. 被引量：13
4唐涛,杨明哲,郑智辉,张海荣,尚宇鸣.基于视频分析的南水北调跨渠桥危化车预警系统[J].人民长江,2018,49(23):118-123. 被引量：4
5周轶枫,杨滨峰.利用卷积神经网络的体育视频运动员检测[J].湘潭大学自然科学学报,2017,39(1):95-98. 被引量：9
6顾亚风,叶学义,夏经文,夏胡云.基于卷积神经网络的古玩图片分类方法[J].软件导刊,2017,16(5):174-178. 被引量：3
7封晶.基于区域卷积神经网络的车辆检测方法[J].科技广场,2017(3):10-14. 被引量：1
8凌永国,陆伟艳.复杂背景下的车型识别系统[J].科技通报,2017,33(6):188-191. 被引量：2
9谢晓竹,何成.复杂环境背景下车辆目标识别研究综述[J].兵器装备工程学报,2017,38(6):90-94. 被引量：7
10于达岭,黄洪琼.一种基于卷积神经网络的人脸识别方法[J].微型机与应用,2017,36(14):49-51. 被引量：3

同被引文献17

1刘金桥,吴金强.机器视觉系统发展及其应用[J].机械工程与自动化,2010(1):215-216. 被引量：75
2王耀南,陈铁健,贺振东,吴成中.智能制造装备视觉检测控制方法综述[J].控制理论与应用,2015,32(3):273-286. 被引量：137
3卢宏涛,张秦川.深度卷积神经网络在计算机视觉中的应用研究综述[J].数据采集与处理,2016,31(1):1-17. 被引量：564
4钱晓亮,张鹤庆,陈永信,曾黎,刁智华,刘玉翠,杨存祥.基于机器视觉的太阳能电池片表面缺陷检测研究现状及展望[J].北京工业大学学报,2017,43(1):76-85. 被引量：22
5陈广锋,管观洋,魏鑫.基于机器视觉的冲压件表面缺陷在线检测研究[J].激光与光电子学进展,2018,55(1):335-341. 被引量：32
6马洪源,肖子玉,卜忠贵,赵远.5G边缘计算技术及应用展望[J].电信科学,2019,35(6):114-123. 被引量：47
7邹凌云,伍世虔,方红萍,黄志开.基于计算机视觉的材料感知技术综述[J].计算机应用研究,2019,36(10):2894-2899. 被引量：7
8周凡.人工智能在计算机视觉及网络领域中的应用[J].信息与电脑,2019,31(22):105-106. 被引量：5
9李国和,乔英汉,吴卫江,郑艺峰,洪云峰,周晓明.深度学习及其在计算机视觉领域中的应用[J].计算机应用研究,2019,36(12):3521-3529. 被引量：19
10李章维,胡安顺,王晓飞.基于视觉的目标检测方法综述[J].计算机工程与应用,2020,56(8):1-9. 被引量：57

引证文献2

1多功昊,王紫聪,张航.图像分割在鱼苗自动计数系统中的应用[J].农业技术与装备,2020(7):22-24. 被引量：2
2孙贺,冷于浩,刘默嘉,刘胜波.基于机器视觉的表面质量检测系统研究与应用[J].无线互联科技,2022,19(18):106-109. 被引量：2

二级引证文献4

1杨昱皞,王书献,孙永文,张胜茂,戴阳,隋江华.基于视频分析技术的鱼苗计数装置设计与试验[J].农业技术与装备,2021(7):21-24. 被引量：2
2崔永超,武栓虎,牟春晓,郑强,于虎.基于深度学习的贝类目标定位与统计测量方法[J].烟台大学学报（自然科学与工程版）,2023,36(2):204-210.
3王悦,马超,金宁.家用电器产品质量检测技术[J].中国质量监管,2024(1):110-111.
4李哲,高娇娇,苗丹,王承林,张荣.基于深度学习的“云、边、端”部署实践教学研究[J].中国信息技术教育,2024(22):104-108.

1张海.德国促进移民融入的国家通用语教育考察[J].当代教育与文化,2020,12(4):31-38. 被引量：2
2潘齐敏,张哲璇,林少菁,张哲妮.2~8岁孤独症儿童与学前听障儿童进行语言融合教育的研究[J].科教文汇,2020(21):168-170.
3常俊跃,赵永青.内容语言融合教育理念(CLI)的提出、内涵及意义——从内容依托教学到内容语言融合教育[J].外语教学,2020,41(5):49-54. 被引量：114
4唐丽玲.新时代背景下“英语+法律”复合型外语人才培养模式可行性分析——以甘肃政法大学为例[J].辽宁师范大学学报（社会科学版）,2020,43(5):7-15. 被引量：6
5韩瑞.高职院校国际学生课程思政体系构建研究初探[J].传播力研究,2020,4(19):174-175.
6马敏.传统财务转型之业财融合探索[J].会计师,2020(15):27-28. 被引量：8
7陈勇.明晰方向找准定位在知行合一中推进审计融合发展[J].审计月刊,2020(9):23-25.

计算机应用研究

2020年第11期

浏览历史

内容加载中请稍等...

视觉—语言—行为:视觉语言融合研究综述被引量：2

参考文献3

二级参考文献24

共引文献145

同被引文献17

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

视觉—语言—行为:视觉语言融合研究综述 被引量：2

参考文献3

二级参考文献24

共引文献145

同被引文献17

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

视觉—语言—行为:视觉语言融合研究综述被引量：2