深度确定性策略梯度学习的火星无人机控制

Mars Unmanned Aerial Vehicles Control with Deep Deterministic Policy Gradient

下载PDF

导出

摘要为了降低控制器设计对火星无人机动力学模型的依赖,提高火星无人机控制系统的智能化水平,结合强化学习(reinforcement learning,RL)算法,提出了一种具有自主学习能力的火星无人机位置姿态控制器。该控制器由神经网络构成,利用深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法进行学习,不断优化控制策略,最终获得满足控制要求的策略。仿真结果表明,在没有推导被控对象模型的前提下,基于DDPG算法的控制器通过学习,自主将火星无人机稳定控制到目标位置,且控制精度、调节时间等性能优于比例-积分-微分(proportion integration differentiation,PID)控制器的效果,验证了基于DDPG算法的控制器的有效性;此外,在被控对象模型改变或存在外部扰动的情况下,基于DDPG算法的控制器仍然能够稳定完成任务,控制效果优于PID控制器,表明基于DDPG算法的控制器具有良好的鲁棒性。 In order to reduce the dependence of controller design on Mars unmanned aerial vehicle(UAV)dynamic models and improve the intelligence level of Mars UAV control system,a reinforcement learning-based controller for Mars UAV is proposed.The controller consists of neural networks and is trained by deep deterministic policy gradient(DDPG)algorithm.Finally,it obtains a control strategy to meet the control requirements according to current states and targets.The simulation results demonstrate that the controller based on DDPG is able to control the Mars UAV to a specified position autonomously without the derivation of UAV dynamic model.Mean-while,the performance such as control precision and adjustment time reaches the effect of proportion integration differentiation(PID)controller,which verifies the effectiveness of DDPG-based controller.In addition,when the controlled object model changes or there is external disturbance,the controller based on DDPG still completes the task stably,and the control effect is better than PID controller,indicating that the controller based on DDPG has good robustness.

作者孙丹郑建华高东韩鹏 SUN Dan;ZHENG Jianhua;GAO Dong;HAN Peng(National Space Science Center,Chinese Academy of Sciences,Beijing 100190,China;University of Chinese Academy of Sciences,Beijing 100049,China)

机构地区中国科学院国家空间科学中心中国科学院大学

出处《计算机工程与应用》 CSCD 北大核心 2023年第8期288-296,共9页 Computer Engineering and Applications

基金北京市科技计划(Z191100004319004)。

关键词火星无人机强化学习自主控制深度确定性策略梯度策略优化 Mars unmanned aerial vehicle(UAV) reinforcement learning autonomous control deep deterministic policy gradient strategy optimization

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1赵鹏越,全齐全,邓宗全,陈水添,杨婷婷.旋翼式火星无人机技术发展综述[J].宇航学报,2018,29(2):121-130. 被引量：12
2石征锦,宫政伟,赵方昕,马晓爽.共轴双旋翼飞行器建模及纵向姿态控制优化[J].航天控制,2017,35(3):24-29. 被引量：4

二级参考文献12

1叶培建,彭兢.深空探测与我国深空探测展望[J].中国工程科学,2006,8(10):13-18. 被引量：147
2史建魁,张仲谋,刘振兴,王英鉴.火星环境探测结果分析[J].地球物理学进展,1997,12(4):98-108. 被引量：12
3程晓丽,李俊红,王强.空间飞行器在火星再入环境下的气动力特性[J].宇航学报,2010,31(4):967-972. 被引量：16
4欧阳自远,肖福根.火星探测的主要科学问题[J].航天器环境工程,2011,28(3):205-217. 被引量：48
5姚克明,王小兰,刘燕斌,陆宇平,肖地波.火星探测无人机任务规划与建模分析[J].空间科学学报,2012,32(1):8-13. 被引量：5
6欧阳自远,肖福根.火星及其环境[J].航天器环境工程,2012,29(6):591-601. 被引量：50
7张义捷,钟友武,许得军.基于模糊控制技术的飞行器姿态控制系统设计[J].航天控制,2013,31(2):28-32. 被引量：5
8李臣亮,刘燕斌,彭福军,陆宇平,汪登辉.保护映射理论在火星无人机鲁棒自适应控制的应用[J].宇航学报,2014,35(11):1262-1269. 被引量：6
9吴伟仁,于登云.深空探测发展与未来关键技术[J].深空探测学报,2014,1(1):5-17. 被引量：117
10黄飞,吕俊明,程晓丽,耿云飞.火星稀薄大气参数对进入器气动特性的影响[J].宇航学报,2015,36(10):1093-1100. 被引量：12

共引文献14

1薛龙,党兆龙,陈百超,李建桥,邹猛.地面力学在火星壤力学参数估计研究中的进展与展望[J].宇航学报,2020,41(2):136-146. 被引量：11
2陈汉,李科伟,邓宏彬,危怡然,赵瑾.一种共轴双旋翼飞行器悬停控制联合仿真[J].兵工学报,2019,40(2):303-313. 被引量：10
3戴娟,苏中,刘洪,朱翠.行星着陆大气进入段自适应滑模抗扰控制方法[J].宇航学报,2019,40(12):1438-1443. 被引量：2
4齐浩,王泽河,杨骁,朱纪洪.横列式直升机纵向鲁棒控制系统设计及半实物仿真[J].航天控制,2020,38(3):54-60.
5王涛.火星探测陆空协同无人系统的研究发展分析[J].无人系统技术,2020,3(5):1-8. 被引量：4
6辛鹏飞,李德伦,刘鑫,张沛,陈磊,刘宾.小型星表探测机器人发展现状与趋势[J].航空学报,2021,42(1):110-125. 被引量：5
7王永滨,李雨航,顾谢平,梁浩,蒋万松,陈金宝,黄之峰.面向小行星微重力环境探测的自恢复直立弹跳机器人设计[J].宇航学报,2021,42(6):722-730.
8朱凯杰,唐徳威,沈文清,吕艺轩,赵鹏越,邓慧超,全齐全,孟林智,王彤,邓宗全.一种共轴双旋翼式火星飞行器设计及其试验验证[J].宇航学报,2021,42(10):1207-1216. 被引量：2
9徐杰,徐雄,左堃罡,夏善涛,许可.一种适应火星主要地形的航天器仿生足设计[J].航天器工程,2023,32(5):69-77.
10吴明雨,陈志华,邱志明,吴威涛.条件生成对抗网络的翼型反设计方法[J].宇航学报,2023,44(10):1512-1521.

1罗国攀,张国良,李德胜.基于深度强化学习的移动机器人路径规划优化[J].组合机床与自动化加工技术,2023(4):36-39. 被引量：2
2彭坤彦,尹翔,刘笑竹,李恒宇.基于粒子群优化和深度强化学习的策略搜索方法[J].计算机工程与科学,2023,45(4):718-725. 被引量：2
3牛梦佳,张永军,李智,杨刚,崔忠伟,刘竣文.基于自适应多尺度与轮廓梯度的遥感图像分割网络[J].激光与光电子学进展,2023,60(2):392-402. 被引量：1
4马冲冲,王一铮,王坤,冯昌森.考虑源荷不确定性下微电网能量调度的深度强化学习策略[J].高技术通讯,2023,33(1):79-87. 被引量：1
5张骏,王红成.双裁切近端策略优化算法[J].计算机系统应用,2023,32(4):177-186.
6刘想德,宋泽,张毅,郑凯.一种无先验地图的移动机器人导航方法[J].重庆邮电大学学报（自然科学版）,2023,35(2):360-367. 被引量：1
7宋传明,杜钦君,冯晗,庞浩,李存贺.考虑误差和时间最优的柔性关节驱动电机抗饱和控制[J].电机与控制学报,2023,27(1):148-158. 被引量：2
8王冬青.住宅小区园林景观施工与苗木的合理配置[J].住宅产业,2023(2):94-96.
9张慎文,许崇海,胡天乐,陶霜霜,李鲁群.高QoE的低时延智能网络数据传输调度算法[J].哈尔滨工业大学学报,2023,55(5):132-138.
10易令,李泽平.基于元学习的自适应视频流算法[J].计算机工程与设计,2023,44(3):641-647.

计算机工程与应用

2023年第8期

浏览历史

内容加载中请稍等...

深度确定性策略梯度学习的火星无人机控制

参考文献2

二级参考文献12

共引文献14

相关作者

相关机构

相关主题

浏览历史