深度Q网络在月球着陆任务中的性能评估与改进

Performance evaluation and improvement of deep Q network for lunar landing task

下载PDF

导出

摘要基于深度Q网络(DQN)技术的强化学习方法得到越来越广泛的应用,但该类算法的性能深受多因素影响。文中以月球登陆器为例,探讨不同超参数对DQN性能的影响,在此基础上训练得到性能较优的模型。目前已知DQN模型在100个测试回合下平均奖励为280+,文中模型奖励值可达到290+,并且通过在原始问题中引入额外的不确定性测试验证了文中模型的鲁棒性。另外,引入模仿学习的思想,基于启发式函数的模型指导方法获取演示数据,加快训练速度并提升性能,仿真结果证明了该方法的有效性。 Reinforcement learning is now being applied more and more in a variety of scenarios,the majority of which are based on the deep Q network(DQN)technology.However,the algorithm is heavily influenced by multiple factors.In this paper,we take the lunar lander as a case to study how various hyper-parameters affect the performance of the DQN algorithm,based on which we tune to get a model with better performance.At present,it is known that the DQN model has an average reward of 280+on 100 test episodes,and the reward value of the model in this article can reach 290+.Meanwhile,its robustness is tested and verified by introducing additional uncertainty tests into the original problem.In addition,to speed up the training process,imitation learning is incorporated in our model,using heuristic function model guidance method to obtain demonstration data,which accelerates training speed and improves performance.Simulation results have proven the effectiveness of this method.

作者岳颀石伊凡褚晶黄勇 YUE Qi;SHI Yifan;CHU Jing;HUANG Yong(School of Automation,Xi'an University of Posts&Telecommunications,Xi'an 710121,China;School of Astronautics,Northwestern Polytechnical University,Xi'an 710072,China)

机构地区西安邮电大学自动化学院西北工业大学航天学院

出处《西北工业大学学报》 EI CAS CSCD 北大核心 2024年第3期396-405,共10页 Journal of Northwestern Polytechnical University

基金国家自然科学基金(61703336) 陕西省自然科学基金(2023⁃JC⁃QN⁃0727)资助。

关键词深度强化学习深度Q网络模仿学习 deep reinforcement learning DQN imitation learning

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1付一豪,鲍泓,梁天骄,付东普,潘峰.基于视觉DQN的无人车换道决策算法研究[J].传感器与微系统,2023,42(10):52-55. 被引量：4
2林歆悠,叶卓明,周斌豪.基于DQN强化学习的自动驾驶转向控制策略[J].机械工程学报,2023,59(16):315-324. 被引量：3
3况立群,李思远,冯利,韩燮,徐清宇.深度强化学习算法在智能军事决策中的应用[J].计算机工程与应用,2021,57(20):271-278. 被引量：6
4Jia Wu,Xiu-Yun Chen,Hao Zhang,Li-Dong Xiong,Hang Lei,Si-Hao Deng.Hyperparameter Optimization for Machine Learning Models Based on Bayesian Optimization[J].Journal of Electronic Science and Technology,2019,17(1):26-40. 被引量：31

二级参考文献19

1段建民,杨晨,石慧.基于Pure Pursuit算法的智能车路径跟踪[J].北京工业大学学报,2016,42(9):1301-1306. 被引量：35
2陈希亮,张永亮.基于深度强化学习的陆军分队战术决策问题研究[J].军事运筹与系统工程,2017,31(3):20-27. 被引量：23
3吴运雄,曾碧.基于深度强化学习的移动机器人轨迹跟踪和动态避障[J].广东工业大学学报,2019,36(1):42-50. 被引量：16
4王艺,蔡英凤,陈龙,王海,何友国,李健.基于模型预测控制的智能网联汽车路径跟踪控制器设计[J].机械工程学报,2019,55(8):136-144. 被引量：60
5李铭浩,张华,刘满禄,李新茂,周祺杰.基于深度强化学习的机械臂容错控制方法[J].传感器与微系统,2020,39(1):53-55. 被引量：9
6蔡英凤,李健,孙晓强,陈龙,江浩斌,何友国,陈小波.智能汽车路径跟踪混合控制策略研究[J].中国机械工程,2020,31(3):289-298. 被引量：26
7姚桐,王越,董岩,戚锦,耿修堂.深度强化学习在作战任务规划中的应用[J].飞航导弹,2020(4):16-21. 被引量：8
8吴球业.基于Actor-Critic结构的受扰倒立摆平衡控制研究[J].信息系统工程,2020(3):146-147. 被引量：1
9熊璐,杨兴,卓桂荣,冷搏,章仁夑.无人驾驶车辆的运动控制发展现状综述[J].机械工程学报,2020,56(10):127-143. 被引量：142
10LI Yue,QIU Xiaohui,LIU Xiaodong,XIA Qunli.Deep reinforcement learning and its application in autonomous fitting optimization for attack areas of UCAVs[J].Journal of Systems Engineering and Electronics,2020,31(4):734-742. 被引量：12

共引文献39

1李振强,王树才,赵世达,王玉泉.基于机器视觉和机器学习的羊骨架自动分割方法[J].食品与机械,2020,36(6):125-132. 被引量：8
2Si-wei Wu,Jian Yang,Guang-ming Cao.Prediction of the Charpy V-notch impact energy of low carbon steel using a shallow neural network and deep learning[J].International Journal of Minerals,Metallurgy and Materials,2021,28(8):1309-1320. 被引量：7
3刘会鹏,周治平.基于超参数自动寻优的工控网络入侵检测[J].信息与控制,2021,50(4):427-434. 被引量：9
4杨明羽,叶春明.结合Bi-2DPCA与CNN的美式手语识别[J].计算机工程,2021,47(12):278-284. 被引量：1
5郭洪宇,初阳,刘志,周玉芳.基于深度强化学习潜艇攻防对抗训练指挥决策研究[J].指挥控制与仿真,2022,44(1):103-111. 被引量：2
6陶倩昀,袁三男,张艳秋.5G EN-DC场景下LTE基站下行速率预测方法研究[J].南京邮电大学学报（自然科学版）,2022,42(2):72-78. 被引量：1
7马金林,裘硕,马自萍,陈勇.新型冠状病毒肺炎的深度学习诊断方法综述[J].计算机工程与应用,2022,58(12):51-65. 被引量：2
8Tina Babu,Deepa Gupta,Tripty Singh,Shahin Hameed,Mohammed Zakariah,Yousef Ajami Alotaibi.Robust Magnification Independent Colon Biopsy Grading System over Multiple Data Sources[J].Computers, Materials & Continua,2021(10):99-128. 被引量：1
9Talha Saeed,Chu Kiong Loo,Muhammad Shahreeza Safiruz Kassim.Ensembles of Deep Learning Framework for Stomach Abnormalities Classification[J].Computers, Materials & Continua,2022(3):4357-4372. 被引量：2
10夏玉兰,谢济铭,王雅婧,卢梦媛,王锦锐,秦雅琴.抗癌候选药物ERα抑制剂活性预测[J].深圳大学学报（理工版）,2022,39(5):529-537. 被引量：3

1日本首部商业月球登陆器发射成功同行的还有一辆阿联酋月球车[J].海外星云,2023(1):9-13.
2贺凡伦.高等教育管理中的创新实践与变革[J].中文科技期刊数据库（文摘版）教育,2024(7):0158-0161.
3申海龙.地铁机电方向运行效能评估与改进[J].中文科技期刊数据库（文摘版）工程技术,2024(7):0038-0041.
4朱丛敏,杨煜清,杨秋英,刘红蕾,陈卉.基于任务驱动法的医用计算机基础课程教学策略的研究[J].中文科技期刊数据库（引文版）教育科学,2024(5):0045-0048.
5孙晓婧,任筱强,王铭实,王洪雨,张朋硕.美国首次“商业月球有效载荷服务”任务失败分析[J].中国航天,2024(4):25-29.
6焦帅涛,朱文兵,刘闯,张帅,张敬坤,张宇,张晨阳.不同助航灯光情境下飞行员认知负荷识别研究[J].国际航空航天科学,2024,12(2):88-95.
7马腾跃.矿井深部采煤工程中支护体系的安全性评估与改进[J].中文科技期刊数据库（文摘版）工程技术,2024(7):0070-0073.
8谭亮,孙国玺.基于改进A^(*)算法的石化巡检机器人路径规划[J].广东石油化工学院学报,2024,34(3):68-73.
9雷兴山.构建高质量教育教学质量保障体系全面推进有温度的大学建设[J].北京联合大学学报,2024,38(4):1-5.
10宋思琪,张金刚,杨强,易法军,孟松鹤.火星探测热防护系统传感测量技术进展与启示[J].空气动力学学报,2024,42(5):1-37.

西北工业大学学报

2024年第3期

浏览历史

内容加载中请稍等...

深度Q网络在月球着陆任务中的性能评估与改进

参考文献4

二级参考文献19

共引文献39

相关作者

相关机构

相关主题

浏览历史