基于改进深度强化学习的全局路径规划策略被引量：1

Global path planning strategy based on an improved deep reinforcement learning

下载PDF

导出

摘要为了解决模型过度依赖与过度估计的问题,提出一种基于传统深度强化学习(DRL)的抑制过度估计深度Q网络(SQDQN)算法,来建立全局路径规划策略。该SQDQN算法,结合深度Q网络(DQN)算法与信息熵,来抑制过度估计;借助信息熵,实时评估更新过程,来抑制DQN策略算法过度地估计损害性能;借助SQDQN算法与环境模型的交互作用,建立了获取全局路径规划策略的环境模型。结果表明:与DQN算法相比,SQDQN算法在20次实验中3次选择为更优策略;与Dijkstra传统路径规划方法相比,SQDQN算法所规划路程通行时间减少11.32%;本文的全局路径规划策略,减少了由于DQN对动作预期过高所导致的输出错误动作。 A Suppresses Q Deep Q Network(SQDQN)algorithm was proposed based on traditional deep reinforcement learning(DRL),with being established a global path planning strategy,to solve the problem of model over-dependence and overestimation.The SQDQN algorithm combined the Deep Q Network(DQN)algorithm with information entropy to suppress overestimation;Evaluated the update process in real time,with the help of information entropy,to suppress the over-estimation of the damage performances of the DQN strategy.An environmental model to obtain the global path planning strategy was established with the help of the interaction between the SQDQN algorithm and the environment model.The results show that the SQDQN algorithm selects three better strategies from 20 experiments compared with the DQN strategy.And reduces the route planning travel time by 11.32%than that by the Dijkstra's traditional route planning method.The global path planning strategy of this paper reduces the output error caused by DQN's over expectation of actions.

作者韩玲张晖方若愚刘国鹏朱长盛迟瑞丰 HAN Ling;ZHANG Hui;FANG Ruoyu;LIU Guopeng;ZHU Changsheng;CHI Ruifeng(College of Mechanical and Electrical Engineering,Changchun University of Technology,Changchun 130012,China)

机构地区长春工业大学机电工程学院

出处《汽车安全与节能学报》 CAS CSCD 北大核心 2023年第2期202-211,共10页 Journal of Automotive Safety and Energy

基金国无吉林省自然科学基金(20220101236JC) 吉林省科技计划项目(2023042064GH) 汽车安全与节能国家重点实验室开放基金(清华大学)(KFY2213)。

关键词智能交通路径规划深度强化学习(DRL) 信息熵抑制过度估计 intelligent transportation path planning deep reinforcement learning(DRL) information entropy suppress overestimation

分类号 U463.6 [机械工程—车辆工程]

引文网络
相关文献

参考文献6

1黄琰,张锦.基于深度强化学习的车辆路径问题求解方法[J].交通运输工程与信息学报,2022,20(3):114-127. 被引量：3
2李文礼,张友松,韩迪,钱洪,石晓辉.基于深度强化学习的车辆自主避撞决策控制模型[J].汽车安全与节能学报,2021,12(2):201-209. 被引量：6
3杨立炜,付丽霞,王倩,杜凌浩,李萍.多层优化蚁群算法的移动机器人路径规划研究[J].电子测量与仪器学报,2021,35(9):10-18. 被引量：38
4肖金壮,余雪乐,周刚,孙可可,周振.一种面向室内AGV路径规划的改进蚁群算法[J].仪器仪表学报,2022,43(3):277-285. 被引量：33
5张瑞鑫,王伟,田泽,张伟.基于模型约束A^(*)算法的无人机三维航迹规划[J].国外电子测量技术,2022,41(9):163-169. 被引量：6
6杜茂,杨林,金悦,涂家毓.基于交通时空特征的车辆全局路径规划算法[J].汽车安全与节能学报,2021,12(1):52-61. 被引量：5

二级参考文献48

1迟旭,李花,费继友.基于改进A^(*)算法与动态窗口法融合的机器人随机避障方法研究[J].仪器仪表学报,2021,42(3):132-140. 被引量：65
2翟泳,刘杰华,张伟,樊铭渠.空车配货VRP问题的路径匹配算法[J].交通运输工程与信息学报,2008,6(3):91-95. 被引量：1
3王维平,刘娟.无人飞行器航迹规划方法综述[J].飞行力学,2010,28(2):6-10. 被引量：55
4谭宝成,王培.A~＊路径规划算法的改进及实现[J].西安工业大学学报,2012,32(4):325-329. 被引量：22
5席庆彪,苏鹏,刘慧霞.基于A^＊算法的无人机航路规划算法[J].火力与指挥控制,2013,38(11):5-9. 被引量：20
6史恩秀,陈敏敏,李俊,黄玉美.基于蚁群算法的移动机器人全局路径规划方法研究[J].农业机械学报,2014,45(6):53-57. 被引量：124
7霍凤财,迟金,黄梓健,任璐,孙勤江,陈建玲.移动机器人路径规划算法综述[J].吉林大学学报（信息科学版）,2018,36(6):639-647. 被引量：140
8宁涛,陈荣,郭晨,冯瑞芳.一种基于云计算环境的动态车辆路径问题解决策略[J].交通运输工程与信息学报,2015,13(3):1-6. 被引量：2
9高申勇,许方镇,郭鸿杰.基于弹簧模型的移动机器人路径规划研究[J].仪器仪表学报,2016,37(4):796-803. 被引量：32
10伍永健,陈跃东,陈孟元.改进QPSO和Morphin算法下移动机器人混合路径规划[J].电子测量与仪器学报,2017,31(2):295-301. 被引量：16

共引文献80

1陈丽,陈洋,杨艳华.面向三维结构视觉检测的无人机覆盖路径规划[J].电子测量与仪器学报,2023,37(2):1-10. 被引量：7
2许松,轩亮,孙剑韬,周怀东.融合行人运动信息的室内移动机器人动态避障方法[J].电子测量与仪器学报,2022,36(12):144-152.
3冉宁,杨宏飞,张家明,郝晋渊.基于改进蚁群算法的无人机三维航迹规划[J].电子测量技术,2023,46(20):41-49.
4何世鹏,金世俊.结合蚁群算法和萤火虫算法的无人船路径规划[J].电子测量技术,2023,46(19):82-86.
5刘礼,刘勇,孙云权,郭涛.基于自适应蚁群算法的AGV路径规划优化[J].电子测量技术,2023,46(18):100-107.
6黄郑,高超,赵轩,王红星,李懂理.5G信号约束下多无人机协同电力巡检路径规划技术[J].电子测量技术,2023,46(15):81-88. 被引量：1
7王瑞,孙晓伟,毛忠阳,张钊源.基于遗传禁忌搜索的时隙分配算法[J].电子测量技术,2022,45(10):82-86. 被引量：2
8徐大也,胡立坤,王小勇,刘恒佳.基于概率路线图法的窄道采样与轨迹优化[J].国外电子测量技术,2023,42(2):1-8. 被引量：5
9智超群,鲁旭涛,张丽娜.水质监测机器人集群编队路径规划策略[J].国外电子测量技术,2022,41(5):15-20. 被引量：4
10贺娇,谭代伦.基于视野范围和遗传算法的三维地形路径规划[J].计算机工程与应用,2021,57(15):279-285. 被引量：4

同被引文献9

1何亚辉.基于改进蚁群算法的物流配送路径规划算法[J].计算机与数字工程,2021,49(5):920-924. 被引量：8
2王芸博.基于改进正余双弦算法的电商物流配送路径规划[J].太原学院学报（自然科学版）,2021,39(2):68-74. 被引量：1
3杨婕妤,崔秀娟,颜洁.生鲜农产品冷链物流配送问题及路径规划--以S公司为例[J].物流科技,2022,45(17):147-152. 被引量：1
4王寅,王永华,尹泽中,万频.基于深度强化学习与旋量法的机械臂路径规划[J].控制理论与应用,2023,40(3):516-524. 被引量：1
5罗国攀,张国良,李德胜.基于深度强化学习的移动机器人路径规划优化[J].组合机床与自动化加工技术,2023(4):36-39. 被引量：2
6熊春源,熊俊涛,杨振刚,胡文馨.基于深度强化学习的柑橘采摘机械臂路径规划方法[J].华南农业大学学报,2023,44(3):473-483. 被引量：3
7杨友波,张目,唐俊,雷印杰.基于深度确定性策略梯度强化学习算法的航迹规划研究[J].现代计算机,2023,29(5):1-7. 被引量：1
8程瑞嘉,吴玉秀,张捍东.基于深度强化学习的机器人未知环境路径规划[J].皖西学院学报,2023,39(2):55-61. 被引量：1
9程力.基于深度强化学习的无人播种机自动路径规划研究[J].农机化研究,2023,45(12):30-34. 被引量：1

引证文献1

1解晓乐.基于深度强化学习的智慧物流园区长途配送路径规划方法[J].广州航海学院学报,2024,32(1):30-34.

1蔡士智,李罡,张志强,姜星.轨道交通流行病学调查研究与应用[J].山东交通科技,2023(1):126-129.
2喜报|《科技创新与应用》以G3:科学学科第九名的佳绩入选Shuang Yi Liu^(■)|双一流·中文核心期刊[J].科技创新与应用,2023,13(10).
3马娇.浅谈足球脚弓传球能力的提高[J].当代体育,2023(12):171-173.
4杨静文,杨宗瀚,李健,刘云松.人工智能人脸识别技术在实时评估医学生课堂专注度中的应用研究[J].中华医学教育杂志,2023,43(1):31-34.
5刘鹏,赵建新,张宏映,高腾飞,闫涛.基于改进型MADDPG的多智能体对抗策略算法[J].火力与指挥控制,2023,48(3):132-138. 被引量：2
6谢兰凤.刘晓静:顺应时代变化,推动艺术教育高质量发展[J].艺术教育,2023(4):11-12.
7翁晓倩,方开云,王斌,何祥,马熠,付俊杰,孙立.加速康复外科管理路径对初次全髋关节置换术患者预后的影响[J].贵州医科大学学报,2023,48(4):441-447. 被引量：2
8宋怀波,段援朝,李嵘,焦义涛,王政.基于激光SLAM的牛场智能推翻草机器人自主导航系统[J].农业机械学报,2023,54(2):293-301. 被引量：3
9陈会娟.自来水厂生产能力与负荷评估系统研究与应用[J].北京水务,2023(2):58-63. 被引量：1
10王楠,吴云.MySQL缓冲区自适应管理仿真研究[J].计算机应用研究,2023,40(4):1154-1159.

汽车安全与节能学报

2023年第2期

浏览历史

内容加载中请稍等...

基于改进深度强化学习的全局路径规划策略被引量：1

参考文献6

二级参考文献48

共引文献80

同被引文献9

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于改进深度强化学习的全局路径规划策略 被引量：1

参考文献6

二级参考文献48

共引文献80

同被引文献9

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于改进深度强化学习的全局路径规划策略被引量：1