基于多模态深度强化学习的端到端无人车运动规划

End-to-end Motion Planning of Unmanned Vehicles Based on Multimodal Deep Reinforcement Learning

下载PDF

导出

摘要将强化学习应用到机器人的运动规划领域时,智能体无法感知周围环境且不能有效避开障碍物,从而无法推广到复杂、具有挑战性的地形。针对这些问题,提出使用基于多模态深度强化学习来解决无人车的运动规划任务,该方法学习如何结合本体感知状态和高维深度传感器输入。具体来说,本体感知状态提供用于即时反应的接触测量,并且无人车可以通过配备的视觉传感器学习并预测环境变化,提前多个时间步骤主动机动地应对障碍和不平坦地形的环境。提出了一种全新的端到端多模态Transformer融合模型,称为TransProAct(transformer-based proactive action),通过该模型的自我注意力机制融合本体感知状态和视觉信息,利用深度强化学习PPO算法训练无人车自我学习运动规划,引入多模态延迟随机化解决模拟和现实世界之间的差异。分别在不同障碍和不平坦地形的具有挑战性的仿真环境中进行评估,结果表明基于多模态深度强化学习的方法不仅显著改进了基线,在泛化性上也有很大的提高。 Since the agent cannot sense the surrounding environment and cannot successfully avoid obstacles,reinforcement learning fails to be generalized to robot motion planning in difficult terrain.Therefore,a solution based on multimodal deep reinforcement learning,which learns to blend proprioceptive states with high-dimensional depth sensor inputs,is proposed for the motion planning of unmanned vehicles.To be specific,proprioceptive states offer contact measurement for immediate reaction,and the unmanned vehicle can learn and forecast environmental changes with its attached visual sensors,proactively navigating around obstacles and uneven terrains numerous time steps ahead.TransProAct(transformer-based proactive action),a unique end-to-end multimodal Transformer fusion model,is proposed.Proprioceptive states and visual data are fused through its self-attention mechanism,and then the deep reinforcement algorithm PPO is used to train the self-learning of motion planning by 11月TransProAct(transformer-based proactive action),a unique end-to-end multimodal Transformer fusion model,is proposed.Proprioceptive states and visual data are fused through its self-attention mechanism,and then the deep reinforcement algorithm PPO is used to train the self-learning of motion planning by the unmanned vehicle.In addition,multimodal delay randomization is introduced to resolve the differences between simulation and reality.After being tested in difficult simulation environments with a variety of barriers and uneven ground,the proposed approach shows notable gains over the baseline and a remarkable improvement in generalization ability.

作者丁开源艾斯卡尔·艾木都拉朱斌伊克萨尼·普尔凯提马正堂 Ding Kaiyuan;Askar Hamdulla;Zhu Bin;Eksan Firkat;Ma Zhengtang(School of Computer Science and Technology,Xinjiang University,Urumqi 830017,China;Xinjiang Key Laboratory of SignalDetection and Processing,Urumqi 830017,China;Department of Automation,Tsinghua University,Beijing 100084,China)

机构地区新疆大学计算机科学与技术学院新疆信号检测与处理重点实验室清华大学自动化系

出处《系统仿真学报》 CAS CSCD 北大核心 2024年第11期2631-2643,共13页 Journal of System Simulation

关键词多模态感知强化学习无人车运动规划神经网络 multimodal perception reinforcement learning unmanned vehicle motion planning neural network

分类号 TP242.6 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献2

1赵烈海,李大鹏.高密度场景下基于改进A^(*)算法的无人机路径规划[J].无线电通信技术,2024,50(4):713-719. 被引量：1
2张福海,李宁,袁儒鹏,付宜利.基于强化学习的机器人路径规划算法[J].华中科技大学学报（自然科学版）,2018,46(12):65-70. 被引量：49

二级参考文献13

1张建英,赵志萍,刘暾.基于人工势场法的机器人路径规划[J].哈尔滨工业大学学报,2006,38(8):1306-1309. 被引量：84
2朱磊,樊继壮,赵杰,吴晓光,刘罡.基于栅格法的矿难搜索机器人全局路径规划与局部避障[J].中南大学学报（自然科学版）,2011,42(11):3421-3428. 被引量：36
3霍凤财,迟金,黄梓健,任璐,孙勤江,陈建玲.移动机器人路径规划算法综述[J].吉林大学学报（信息科学版）,2018,36(6):639-647. 被引量：154
4王春颖,刘平,秦洪政.移动机器人的智能路径规划算法综述[J].传感器与微系统,2018,37(8):5-8. 被引量：74
5罗隆福,李冬,钟杭.基于改进RRT的无人机电力杆塔巡检路径规划[J].湖南大学学报（自然科学版）,2018,45(10):80-86. 被引量：25
6宋晓茹,任怡悦.面向移动机器人快速全局路径规划的改进跳点搜索算法[J].科学技术与工程,2020,20(29):11992-11999. 被引量：10
7张庆,刘旭,彭力,朱凤增.融合JPS和改进A^(*)算法的移动机器人路径规划[J].计算机科学与探索,2021,15(11):2233-2240. 被引量：28
8王文明,杜佳璐.基于正六边形栅格JPS算法的智能体路径规划[J].系统工程与电子技术,2021,43(12):3635-3642. 被引量：8
9田茹,曹茂永,马凤英,纪鹏.基于改进A*算法的农用无人机路径规划[J].现代电子技术,2022,45(4):182-186. 被引量：4
10赵卫东,唐顾杰,宋江一.基于改进JPS与三次B样条插值的路径规划算法[J].安徽工业大学学报（自然科学版）,2022,39(2):189-195. 被引量：9

共引文献48

1金翔,王天霖,于鹏垚,赵勇.基于值迭代网络的路径规划算法[J].华中科技大学学报（自然科学版）,2020,48(2):91-96. 被引量：1
2高双,柳春平,张瞳,陈坤.可行状态包络下欠驱动水面船全时可跟踪轨迹规划方法[J].船舶工程,2022,44(S01):459-466. 被引量：1
3李凤玲,陈珊,范兴江,刘源.基于萤火虫算法动态未知环境的路径规划[J].自动化与仪表,2019,34(6):53-58. 被引量：9
4朱泽凡,曾碧.基于多线激光雷达的无人车路径规划算法[J].机电工程技术,2019,48(5):11-14. 被引量：4
5季野彪,牛龙辉.基于模拟退火策略的强化学习路径规划算法[J].现代计算机,2019,0(32):12-16. 被引量：5
6封佳祥,江坤颐,周彬,袁志豪.多任务约束条件下基于强化学习的水面无人艇路径规划算法[J].舰船科学技术,2019,41(23):140-146. 被引量：7
7邝先验,欧阳鹏,周亚龙,罗会超.基于多层VSA-Morphin算法的局部路径规划[J].电子测量与仪器学报,2020,32(2):123-129. 被引量：1
8张栩源,李军.自动驾驶汽车路径规划技术[J].汽车工程师,2020(5):35-39. 被引量：3
9陈双,李龙,罗海南.基于神经网络的强化学习在服务机器人导航中的研究[J].现代计算机,2020,26(12):62-67.
10吴昭欣,李辉,王壮,陶伟,吴昊霖,侯贤乐.基于深度强化学习的智能仿真平台设计[J].战术导弹技术,2020(4):193-200. 被引量：6

1陈沐垚.人际边界感[J].当代电力文化,2024(9):106-106.
2李徽昭.书讯[J].文艺理论研究,2024(4):39-39.
3王元伟.新课改下小学语文“教、学、评一体化”高效课堂教学范式研究[J].教育界,2024(29):74-76.
4武成慧.基于新质生产力发展需求的大学生劳动素养培养体系构建[J].教育进展,2024,14(10):759-765.
5于慧铎.八路军在游击战中的历后勤工作[J].文史春秋,2024(9):45-49.
6高寒.认知与现实:雷舍尔方法论转向的实用主义思想分析[J].理论界,2024(10):44-50.
7左希迎.美国联盟体系重组的战略形态[J].战略决策研究,2024,15(6):3-14. 被引量：1
8Hira Akhtar Butt,Khoula Said Al Harthy,Mumtaz Ali Shah,Mudassar Hussain,Rashid Amin,Mujeeb Ur Rehman.Enhanced DDoS Detection Using Advanced Machine Learning and Ensemble Techniques in Software Defined Networking[J].Computers, Materials & Continua,2024,81(11):3003-3031.

系统仿真学报

2024年第11期

浏览历史

内容加载中请稍等...

基于多模态深度强化学习的端到端无人车运动规划

参考文献2

二级参考文献13

共引文献48

相关作者

相关机构

相关主题

浏览历史