基于深度Q网络的海上环境智能路径规划

Intelligent maritime path planning based on deep Q-Networks

下载PDF

导出

摘要深入研究了融合航海优先级(NP)和优先级经验回放(PER)策略的深度Q网络(DQN)算法在海上环境智能路径规划问题上的应用。不同于传统路径规划算法,本优化算法能够自主探索并学习海上环境的规律,无需依赖人工构建的海洋环境全局信息。本研究开发了基于Gym框架的海上仿真环境,用以模拟和验证改进的DQN模型。该模型融合了航海优先级和优先级经验回放机制,通过调整学习过程中经验样本的利用频率,提升了算法对重要决策的学习效率。此外,引入新的奖赏函数,进一步增强了模型对路径规划问题的适应能力和稳定性。仿真实验结果证明,该模型在避免障碍物及寻找最佳路径方面相较于基准方法有显著提升,展现了一定的泛化性和优秀的稳定性。 This study delves into the application of a deep Q-Network(DQN)algorithm,which integrates strategies of Navigational Priority(NP)and Prioritized Experience Replay(PER),for intelligent path planning in maritime environments.Unlike conventional path planning algorithms,our optimized model autonomously explores and learns the patterns of the maritime environment without relying on manually constructed global maritime information.We have developed a maritime simulation environment based on the Gym framework to simulate and validate our improved DQN model.This model incorporates the mechanisms of Navigational Priority and Prioritized Experience Replay,enhancing the algorithm′s learning efficiency for critical decisions by adjusting the frequency of experience sample utilization during the learning process.Additionally,the introduction of a novel reward function has further strengthened the model′s adaptability and stability in addressing path planning issues.Simulation experiments demonstrate that our model significantly outperforms baseline methods in avoiding obstacles and finding optimal routes,showcasing notable generalizability and exceptional stability.

作者李鹏程周远国杨国卿 Li Pengcheng;Zhou Yuanguo;Yang Guoqing(College of Communication and Information Engineering,Xi′an University of Science and Technology,Xi′an 710054,China;College of Electronics and Information,Hangzhou Dianzi University,Hangzhou 310018,China)

机构地区西安科技大学通信与信息工程学院杭州电子科技大学电子信息学院

出处《电子测量技术》北大核心 2024年第5期77-84,共8页 Electronic Measurement Technology

基金国家自然科学基金(61801009) 陕西省自然科学基金面上项目(2024JC-YBMS-556)资助。

关键词改进深度Q网络海上模拟仿真环境航海优先级奖赏函数 improved deep Q-Network maritime simulation environment navigational priority reward function

分类号 TP242.6 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献13

1张丹红,陈文文,张华军,苏义鑫.A^*算法与蚁群算法相结合的无人艇巡逻路径规划[J].华中科技大学学报（自然科学版）,2020,48(6):13-18. 被引量：40
2王奇,黎海涛.基于机器学习与惯性导航的室内定位技术研究[J].电子测量技术,2016,39(8):138-143. 被引量：7
3邓修朋,崔建明,李敏,张小军,宋戈.深度强化学习在机器人路径规划中的应用[J].电子测量技术,2023,46(6):1-8. 被引量：2
4Xiaolin Tang,Yuyou Yang,Teng Liu,Xianke Lin,Kai Yang,Shen Li.Path Planning and Tracking Control for Parking via Soft Actor-Critic Under Non-Ideal Scenarios[J].IEEE/CAA Journal of Automatica Sinica,2024,11(1):181-195. 被引量：1
5王军,杨云霄,李莉.基于改进深度强化学习的移动机器人路径规划[J].电子测量技术,2021,44(22):19-24. 被引量：18
6刘俊利.基于TensorFlow的Q-Learning算法研究与实现[J].现代计算机,2019,0(29):26-28. 被引量：1
7周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：5
8卫玉梁,靳伍银.基于神经网络Q-learning算法的智能车路径规划[J].火力与指挥控制,2019,44(2):46-49. 被引量：17
9李腾,曹世杰,尹思薇,魏大卫,马鑫迪,马建峰.应用Q学习决策的最优攻击路径生成方法[J].西安电子科技大学学报,2021,48(1):160-167. 被引量：13
10王志伟,邹艳丽,刘唐慧美,侯凤萍,余自淳.基于改进Q-learning算法和DWA的路径规划[J].传感器与微系统,2023,42(9):148-152. 被引量：2

二级参考文献88

1林依凡,陈彦杰,何炳蔚,黄益斌,王耀南.无碰撞检测RRT^*的移动机器人运动规划方法[J].仪器仪表学报,2020(10):257-267. 被引量：39
2毕盛,朱金辉,闵华清,钟汉如.基于模糊逻辑的机器人路径规划[J].机电产品开发与创新,2006,19(1):21-22. 被引量：7
3孙一品,钟求喜,苏金树.基于隐马尔可夫模型的攻击意图识别技术研究[J].计算机工程与科学,2007,29(8):19-22. 被引量：6
4JAMESP, CHRIS H, TERRY M. A particle filter approach to indoor navigation using a foot mounted inertial navigation system and heuristic heading information[C]. International Conference on Indoor Positioning and Indoor Navigation ( IPIN ). 2012: 1-10.
5MING L, HAIJUN W, QINGYE G. et al. Research on particle filter based geomagnetic aided inertial navigation [C]. Systems and Control in Aeronautics and Astronautics (ISSCAA), 2010:1023-1026.
6B()ZKURT S, EIJIBOL G, GUNAI. S. A comparative study on machine learning algorithms for indoor positioning [ C ]. Innovations in Intelligent SysTems and Applications (INISTA), 2015 : 1-8.
7ESRAFIL J, ZHENG W, RASHID R, et al. Wi-Fi based indoor location positioning employing random forest classifier [C]. International Conference on Indoor Positioning and Indoor Navigation (IPIN), 2015 : 1-5.
8王帅.煤矿井下基于Q-learning算法的移动机器人路径规划[J].现代电子技术,2008,31(24):106-108. 被引量：3
9王娟娟,曹凯.基于栅格法的机器人路径规划[J].农业装备与车辆工程,2009,47(4):14-17. 被引量：30
10陈学松,杨宜民.基于递推最小二乘法的多步时序差分学习算法[J].计算机工程与应用,2010,46(8):52-55. 被引量：5

共引文献101

1谢高杨,房立清,苏续军,李亚男.无人靶车在不同车速下的路径规划方法[J].电子测量与仪器学报,2023,37(2):39-47. 被引量：1
2张博,黄山,张浛芮,李应昆,涂海燕.基于强化学习的艾灸机器人温度控制策略研究[J].电子测量技术,2022,45(24):60-66. 被引量：1
3李鹏.基于改进PSO-BP算法的机器人目标位姿识别方法[J].国外电子测量技术,2023,42(1):7-12. 被引量：5
4孙中森,王曲,罗海勇,唐怀玉.基于在线地磁指纹的航迹校准算法[J].电子测量技术,2017,40(3):147-152. 被引量：3
5李海涛,刘奎芹.基于最小二乘椭圆拟合改进算法的磁力计校正[J].电子测量技术,2018,41(15):145-148. 被引量：7
6詹威鹏,代毅,罗智奕,吴彦志,陈腾彪,胡力广,陈显,成健.基于惯性导航技术的电力管网测绘机器人的研究[J].机器人技术与应用,2018(4):43-45.
7张琳,曾成,王羿帆.一种多时间尺度融合的视觉辅助惯性定姿算法[J].现代电子技术,2020,43(12):14-17. 被引量：2
8杨洋,张建敏,刘艺林,宋馨.基于改进蚁群算法的无人仓的多AGV避碰路径优化策略[J].数学的实践与认识,2020,50(16):1-9. 被引量：8
9随博文,黄志坚,姜宝祥,郑欢,温家一.基于深度Q网络的水面无人艇路径规划算法[J].上海海事大学学报,2020,41(3):1-5. 被引量：5
10胡玉晶,黄颖.基于BDS/GIS协同的动态路由算法在物流配送系统中的应用[J].物流技术,2020,39(9):89-95. 被引量：2

1林沿铮,邓苏鸣,罗新号,樊其锋,高峰.基于混合专家网络的回南天预测方法与智能控湿策略[J].家电科技,2024(2):64-67.
2安燕霞,郑晓霞.基于分层强化学习的机器人自主避障算法仿真[J].计算机仿真,2024,41(4):397-401.
3杜泳韬,赵岭忠,翟仲毅.基于注意力机制的信息预处理多智能体强化学习算法[J].国外电子测量技术,2024,43(3):91-97.
4熊秋华.轨道交通环境智能节能控制技术[J].中文科技期刊数据库（文摘版）工程技术,2016(10):181-181.
5徐劲,孙健,李科岐.基于模糊PID控制的家居照明环境智能调节方法[J].传感器技术与应用,2024,12(3):298-309.
6母凌燕,蒋奕宸,李博阳,罗俊.基于多传感器数据融合的近岸海域生态环境智能监测[J].科学技术创新,2024(11):72-75.
7王蕊,李金洺,史玉龙,孙辉.基于视觉的机场无人驱鸟车路径规划算法[J].北京航空航天大学学报,2024,50(5):1446-1453.
8董健.融媒时代传统文化脱域重构与电视节目生产[J].学习与探索,2024(5):169-175.
9李红华.解放思想做好干部工作[J].当代广西,2024(8):10-10.
10李妍,胡斯乐,白晓雄,刘朝斌,张敏,王迎,余旋.核桃根际耐旱促生菌的分离筛选及其促生作用研究[J].西北林学院学报,2024,39(3):84-92.

电子测量技术

2024年第5期

浏览历史

内容加载中请稍等...

基于深度Q网络的海上环境智能路径规划

参考文献13

二级参考文献88

共引文献101

相关作者

相关机构

相关主题

浏览历史