视觉语言导航研究进展被引量：2

Recent Advances in Vision-and-language Navigation

下载PDF

导出

摘要视觉语言导航,即在一个未知环境中,智能体从一个起始位置出发,结合指令和周围视觉环境进行分析,并动态响应生成一系列动作,最终导航到目标位置.视觉语言导航有着广泛的应用前景,该任务近年来在多模态研究领域受到了广泛关注.不同于视觉问答和图像描述生成等传统多模态任务,视觉语言导航在多模态融合和推理方面,更具有挑战性.然而由于传统模仿学习的缺陷和数据稀缺的现象,模型面临着泛化能力不足的问题.系统地回顾了视觉语言导航的研究进展,首先对于视觉语言导航的数据集和基础模型进行简要介绍;然后全面地介绍视觉语言导航任务中的代表性模型方法,包括数据增强、搜索策略、训练方法和动作空间四个方面;最后根据不同数据集下的实验,分析比较模型的优势和不足,并对未来可能的研究方向进行了展望. Vision-and-language navigation means that an agent in an unknown environment,starting from a starting location,dynamically generates a series of actions by making analysis with language instructions and the visual environment,and finally navigates to the goal location.And due to the widespread application prospect,in recent years,it has received increasing attention from researchers especially in multi-modal research.It is different from traditional multi-modal tasks such as vision question answer and image captioning,vision-and-language navigation is more challenging in terms of dynamic reasoning and multi-modal fusion.However,with the limitations of imitation learning and the phenomenon of data scarcity,the model is faced with the problem of insufficient generalization.In this paper,we review the current advances in the research of vision-and-language navigation.Firstly,we briefly introduce data sets in visual-and-language navigation.Then,we comprehensively introduce the representative models in vision-and-language navigation,including data augmentation,search strategies,training methods and action spaces.Finally,from the experiments under different data sets,we analyze the advantages and disadvantages of the existing models,and prospect some future and possible research directions.

作者司马双霖黄岩何科技安东袁辉王亮 SIMA Shuang-Lin;HUANG Yan;HE Ke-Ji;AN Dong;YUAN Hui;WANG Liang(Center of Research on Intelligent Perception and Computing,Institute of Automation,Chinese Academy of Sciences,Beijing 100190;School of Artificial Intelligence,University of Chinese Academy of Sciences,Beijing 100049;National Laboratory of Pattern Recognition,Institute of Automation,Chinese Academy of Sciences,Beijing 100190;Center for Excellence in Brain Science and Intelligence Technology,Institute of Automation,Chinese Academy of Sciences,Shanghai 200031;Artificial Intelligence Research,Chinese Academy of Sciences,Jiaozhou 266300)

机构地区中国科学院自动化研究所智能感知与计算研究中心中国科学院大学人工智能学院中国科学院自动化研究所模式识别国家重点实验室中国科学院自动化研究所脑科学与智能技术卓越创新中心中科人工智能创新技术研究院

出处《自动化学报》 EI CAS CSCD 北大核心 2023年第1期1-14,共14页 Acta Automatica Sinica

关键词视觉语言导航视觉语言理解跨模态匹配具身智能 Vision-and-language navigation vision-and-language comprehension cross-modal matching embodied artificial intelligence

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献21

1张德龙,李威凌,吴怀宇,陈洋.基于学习机制的移动机器人动态场景自适应导航方法[J].信息与控制,2016,45(5):521-529. 被引量：7
2徐风尧,王恒升.移动机器人导航中的楼道场景语义分割[J].计算机应用研究,2018,35(6):1863-1866. 被引量：10
3张钹,朱军,苏航.迈向第三代人工智能[J].中国科学：信息科学,2020,50(9):1281-1302. 被引量：170
4路达,刘金国,高海波.星球表面着陆巡视一体化探测机器人研究进展[J].航空学报,2021,42(1):93-109. 被引量：13
5张天栋,王睿,程龙,王宇,王硕.鱼集群游动的节能机理研究综述[J].自动化学报,2021,47(3):475-488. 被引量：6
6胡成纬,江爱文,王明文.基于场景图知识融入与元学习的视觉语言导航[J].山西大学学报（自然科学版）,2021,44(3):420-427. 被引量：1
7袁浩,刘紫燕,梁静,梁水波,孙昊堃.融合LSTM的深度强化学习视觉导航[J].无线电工程,2022,52(1):161-167. 被引量：7
8Qiang Fang,Xin Xu,Xitong Wang,Yujun Zeng.Target-driven visual navigation in indoor scenes using reinforcement learning and imitation learning[J].CAAI Transactions on Intelligence Technology,2022,7(2):167-176. 被引量：7
9田永林,王雨桐,王建功,王晓,王飞跃.视觉Transformer研究的关键问题:现状及展望[J].自动化学报,2022,48(4):957-979. 被引量：62
10张夏禹,陈小平.基于目标的域随机化方法在机器人操作方面的研究[J].计算机应用研究,2022,39(10):3084-3088. 被引量：3

引证文献2

1刘华平,郭迪,孙富春,张新钰.基于形态的具身智能研究:历史回顾与前沿进展[J].自动化学报,2023,49(6):1131-1154. 被引量：12
2何丽,姚佳程,廖雨鑫,张文智,卢赵清,袁亮,肖文东.深度强化学习求解移动机器人端到端导航问题的研究综述[J].计算机工程与应用,2024,60(14):1-13.

二级引证文献12

1喻国明,苏芳,金丽萍.缺席的对话:大语言模型的认知想象与差异弥合[J].现代出版,2024(1):20-35. 被引量：3
2兰沣卜,赵文博,朱凯,张涛.基于具身智能的移动操作机器人系统发展研究[J].中国工程科学,2024,26(1):139-148. 被引量：3
3刘传凯,谢剑锋,王科,张楚,王艺,周鹏,王晓雪.暗弱低重力环境下机器人智能控制与智慧作业管理[J].前瞻科技,2024,3(1):62-73.
4刘源.前沿科技领域产学研共同体的构建逻辑——麻省理工学院智能科技中心案例[J].高等工程教育研究,2024(2):110-116.
5郑文栋,刘华平,孙富春.面向ERT大面积触觉传感的自适应优化成像方法[J].测控技术,2024,43(4):21-28.
6沈甜雨,李志伟,范丽丽,张庭祯,唐丹丹,周美华,刘华平,王坤峰.具身智能驾驶:概念、方法、现状与展望[J].智能科学与技术学报,2024,6(1):17-32.
7赵佳伟,陈雪峰,冯亮,候亚庆,朱泽轩,Ong Yew-Soon.优化场景视角下的进化多任务优化综述[J].计算机应用,2024,44(5):1325-1337.
8宁园.论人形机器人使用者的注意义务[J].东方法学,2024(3):38-48.
9柯星星,柴治平,雍昊臣,丁汉,吴志刚.结构约束型可编程柔性跃变结构蒙皮设计[J].中国科学：物理学、力学、天文学,2024,54(6):81-89.
10邓三鹏,张香玲,王凯,曹宇聪,马传庆.具身智能机器人关键技术及发展趋势研究[J].装备制造技术,2024(6):2-10.

1季魏雯.浅议彩色酸性平面的视觉语言[J].流行色,2022(12):130-132.
2欧阳德彬.南翔小说的视觉叙事与文人趣味——从短篇小说集《伯爵猫》谈起[J].南方文坛,2023(1):170-173.
3车心悦.探析线元素在海报设计中的应用[J].鞋类工艺与设计,2022,2(23):24-26.
4姜来.视觉传达设计中视觉思维模式创新[J].包装世界,2022(9):46-48.
5徐丛姗.现成品艺术语境下当代首饰视觉语言探析[J].流行色,2022(12):26-28.
6马苗,陈小秋,田卓钰.基于多模态特征的视频密集描述生成方法[J].中文信息学报,2022,36(11):156-168. 被引量：1
7王晓丽.实验水墨的视觉语言探索[J].湖北师范大学学报（哲学社会科学版）,2023,43(1):82-87.
8何欣宇,倪锦诚,谭婧,陆凤权.信息提取策略对二语阅读能力的影响[J].英语广场（学术研究）,2022(31):27-31.
9薛好瑞.怀旧感色彩在郭润文油画作品中的表达[J].流行色,2022(12):144-146.
10朱林,赵东杰,徐茂.基于势能与好奇心机制的室内环境导航研究[J].传感器与微系统,2023,42(1):38-42.

自动化学报

2023年第1期

浏览历史

内容加载中请稍等...

视觉语言导航研究进展被引量：2

同被引文献21

引证文献2

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

视觉语言导航研究进展 被引量：2

同被引文献21

引证文献2

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

视觉语言导航研究进展被引量：2