大模型驱动的具身智能:发展与挑战

Embodied-AI with large models:research and challenges

导出

摘要大模型驱动的具身智能是涵盖人工智能、机器人学和认知科学的交叉领域,重点研究如何将大模型的感知、推理和逻辑思维能力与具身智能相结合,提升现有模仿学习、强化学习、模型预测控制等具身智能框架的数据效率和泛化能力.近年来,随着大模型能力的不断提升,以及具身智能中示教数据、仿真平台、任务集合的不断完善,大模型和具身智能的结合将成为人工智能的下一个浪潮,有望成为人工智能迈向实体机器人的重要突破口.本文围绕大模型驱动的具身智能这一研究领域,从3个方面进行了系统的调研、分析和展望.首先,回顾了大模型和具身智能的相关技术背景,以及具身智能现有的学习框架.其次,按照大模型赋能具身智能的方式,将现有研究分为大模型驱动的环境感知、大模型驱动的任务规划、大模型驱动的基础策略、大模型驱动的奖励函数、大模型驱动的数据生成等5类范式.最后,总结了大模型驱动的具身智能中存在的挑战,对可行的技术路线进行展望,为相关研究人员提供参考,进一步推动国家人工智能发展战略. Embodied artificial intelligence(AI)driven by large-scale models is a cross-disciplinary field covering AI,robotics,and cognitive science,focusing on how to combine the perception,reasoning,and logical thinking abilities of large-scale models with embodied AI to improve the data efficiency and generalization ability of existing embodied AI frameworks such as imitation learning,reinforcement learning,and model predictive control.In recent years,with the continuous improvement of the capabilities of large-scale models and the continuous improvement of expert datasets,simulation platforms,and task sets in embodied robots,the combination of large-scale models and embodied AI will become the next wave of AI and is expected to become an important breakthrough for AI to move towards physical robots.This article focuses on the research field of embodied AI driven by large-scale foundation models(LFM),conducting systematic research,analysis,and prospects.Firstly,we review the relevant technical backgrounds of large models and embodied intelligence,as well as the existing learning frameworks of embodied intelligence.Secondly,according to how large models empower embodied intelligence,we divide the existing research into five paradigms:LFM-driven environmental perception,LFMdriven task planning,LFM-driven basic strategy,LFM-driven reward function,and LFM-driven data generation.Finally,we summarize the challenges in existing research,look forward to feasible technical routes,provide references for researchers,and further promote the national AI development strategy.

作者白辰甲许华哲李学龙 Chenjia BAI;Huazhe XU;Xuelong LI(Institute of Arti cial Intelligence(TeleAI),China Telecom Corp.Ltd.,Shanghai 200232,China;Institute of Arti cial Intelligence(TeleAI),China Telecom Corp.Ltd.,Beijing 100033,China;Institute for Interdisciplinary Information Sciences,Tsinghua University,Beijing 100084,China)

机构地区中国电信人工智能研究院(TeleAI) 中国电信人工智能研究院(TeleAI) 清华大学交叉信息学院

出处《中国科学：信息科学》 CSCD 北大核心 2024年第9期2035-2082,共48页 Scientia Sinica(Informationis)

基金国家自然科学基金(批准号:61871470,62306242)资助项目。

关键词具身智能大模型环境感知任务规划基础策略 embodied AI large-scale models environment perception task planning foundation policy

分类号 TP18 [自动化与计算机技术—控制理论与控制工程] F49 [经济管理—产业经济] F426.67 [经济管理—产业经济]

引文网络
相关文献

参考文献3

1郝建业,邵坤,李凯,李栋,毛航宇,胡舒悦,王震.博弈智能的研究与应用[J].中国科学：信息科学,2023,53(10):1892-1923. 被引量：4
2高漪澜,张睿,李学龙.人工智能伦理计算[J].中国科学：信息科学,2024,54(7):1646-1676. 被引量：1
3李学龙.多模态认知计算[J].中国科学：信息科学,2023,53(1):1-32. 被引量：15

二级参考文献8

1段海滨,张岱峰,范彦铭,邓亦敏.从狼群智能到无人机集群协同决策[J].中国科学：信息科学,2019,49(1):112-118. 被引量：51
2席磊,陈建峰,黄悦华,薛田良,张涛,张赟宁.基于具有动作自寻优能力的深度强化学习的智能发电控制[J].中国科学：信息科学,2018,48(10):1430-1449. 被引量：12
3孙佳琛,王金龙,陈瑾,丁国如.群体智能协同通信:愿景、模型和关键技术[J].中国科学：信息科学,2020,50(3):307-317. 被引量：24
4黄凯奇,兴军亮,张俊格,倪晚成,徐博.人机对抗智能技术[J].中国科学：信息科学,2020,50(4):540-550. 被引量：28
5李学龙,赵致远.像素级语义理解:从分类到回归[J].中国科学：信息科学,2021,51(4):521-564. 被引量：3
6李学龙,赵斌.视频萃取[J].中国科学：信息科学,2021,51(5):695-734. 被引量：7
7王涵,俞扬,姜远.基于通信的多智能体强化学习进展综述[J].中国科学：信息科学,2022,52(5):742-764. 被引量：8
8李学龙.多模态认知计算[J].中国科学：信息科学,2023,53(1):1-32. 被引量：15

共引文献17

1李开阳,宋保林.社会化人工智能的适应性[J].科技管理研究,2023,43(8):237-242. 被引量：1
2骆剑承,吴田军,胡晓东,李曼嘉,赵馨,陆炫之,吴小波.面向数字经济的地理时空智能计算理论与应用模式[J].四川师范大学学报（自然科学版）,2023,46(6):711-718. 被引量：2
3陈茵,张立泽,帅国华,陈黎丽,王震.面向化工园区有害气体泄漏的博弈巡逻策略[J].智能科学与技术学报,2023,5(3):366-377.
4朱佳雨,李志义,王振芳.多模态信息搜索行为实验研究[J].情报工程,2023,9(4):54-67.
5张景浩,谷晓燕.基于特征融合的多任务视频情感识别模型[J].北京信息科技大学学报（自然科学版）,2023,38(6):88-94.
6刘希亮,赵俊杰,张羽民,林绍福,李建强,梅强.基于时空认知膨胀卷积网络与多源影响因素的PM_(2.5)细粒度预测模型[J].北京工业大学学报,2024,50(3):333-347.
7李学龙.涉水光学[J].中国科学：信息科学,2024,54(2):227-280. 被引量：1
8兰猛,张乐飞,杜博,张良培.基于时空层级查询的指代视频目标分割[J].中国科学：信息科学,2024,54(3):674-691.
9黄学坚,马廷淮,王根生.基于样本内外协同表示和自适应融合的多模态学习方法[J].计算机研究与发展,2024,61(5):1310-1324.
10李学龙.涉水视觉[J].电子学报,2024,52(4):1041-1082.

1陈景翠.物联网时代下电工电子技术的发展与挑战[J].石河子科技,2024(5):16-18.
2孙长银,穆朝絮,柳文章,王晓.自主无人系统的具身认知智能框架[J].科技导报,2024,42(12):157-166.
3国际资讯[J].在线学习,2024(7):7-7.
4王虎啸.当代文艺编导的职业发展与挑战[J].读天下,2024(21):0147-0149.
5谢德亮,肖亚丹.论中国中原地区城市更新中的问题及治理[J].工程设计与施工,2024,6(7):19-21.
6王妍.校企合作背景下的职业教育发展与挑战[J].新浪潮,2024(26):0026-0027.
7方忠祥,王世军.艺术不负有志人——观武汉楚剧院青年演员邓雅倩专场演出有感[J].武汉广播影视,2024(7):0063-0064.
8叶亚亲.制造业企业成本管理的发展与挑战[J].理财（市场版）,2024(10):54-56.
9曲荣海,李大伟,赵钰.磁场调制电机的由来、发展与挑战[J].中国电机工程学报,2024,44(18):7361-7380.
10王敏.隧道渗漏水监测技术的发展与挑战[J].中国科技期刊数据库工业A,2024(10):0107-0110.

中国科学：信息科学

2024年第9期

浏览历史

内容加载中请稍等...

大模型驱动的具身智能:发展与挑战

参考文献3

二级参考文献8

共引文献17

相关作者

相关机构

相关主题

浏览历史