基于安全自适应强化学习的自主避障控制方法被引量：8

Autonomous obstacle avoidance control method based on safe adaptive reinforcement learning

导出

摘要障碍规避是无人机等自主无人系统运动规划的重要环节,其核心是设计有效的避障控制方法.为了进一步提高决策优化性和控制效果,本文在最优控制的设定下,提出一种基于强化学习的自主避障控制方法,以自适应方式在线生成安全运行轨迹.首先,利用障碍函数法在代价函数中设计了一个光滑的奖惩函数,从而将避障问题转换为一个无约束的最优控制问题.然后,利用行为–评价神经网络和策略迭代法实现了自适应强化学习,其中评价网络利用状态跟随核函数逼近代价函数,行为网络给出近似最优的控制策略;同时,通过状态外推法获得模拟经验,使得评价网络能利用经验回放实现可靠的局部探索.最后,在简化的无人机系统和非线性数值系统上进行了仿真实验与方法对比,结果表明,提出的避障控制方法能实时生成较优的安全运行轨迹. Obstacle avoidance is an important issue in the motion planning of autonomous unmanned systems.Therefore,designing an effective avoidance control method is crucial.For further improving the decision-making process,this paper presents a novel autonomous obstacle avoidance control method based on reinforcement learning that generates a safe motion trajectory in an adaptive manner.First,the barrier function is utilized to design a smooth penalty function in the cost function,thereby transforming the avoidance problem into an unconstrained optimal control problem.Then,adaptive reinforcement learning is implemented by using an actor-critic neural network architecture and policy iteration,in which the critic network uses the state-following kernel function to approximate the cost function while the actor network provides an approximate optimal control policy.During this learning process,the simulated experience is obtained through state extrapolation such that the critic network can use experience replay for reliable local exploration.Finally,simulation experiments on simplified drone systems and a nonlinear numerical system are provided.The proposed method can generate a safe motion trajectory in real time with comparable performance.

作者王珂穆朝絮蔡光斌汪韧孙长银 Ke WANG;Chaoxu MU;Guangbin CAI;Ren WANG;Changyin SUN(School of Electrical and Information Engineering,Tianjin University,Tianjin 300072,China;College of Missile Engineering,Rocket Force University of Engineering,Xi’an 710025,China;R&D Center,China Academy of Launch Vehicle Technology,Beijing 100076,China;School of Automation,Southeast University,Nanjing 210096,China)

机构地区天津大学电气自动化与信息工程学院火箭军工程大学导弹工程学院中国运载火箭技术研究院研究发展部东南大学自动化学院

出处《中国科学：信息科学》 CSCD 北大核心 2022年第9期1672-1686,共15页 Scientia Sinica(Informationis)

基金国家重点研究发展计划(批准号:2021YFB1714700) 国家自然科学基金(批准号:62022061)资助项目。

关键词自主无人系统避障控制强化学习神经网络经验回放 autonomous unmanned systems obstacle avoidance control reinforcement learning neural networks experience replay

分类号 TP18 [自动化与计算机技术—控制理论与控制工程] TP273 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献3

1吕洋,康童娜,潘泉,赵春晖,胡劲文.无人机感知与规避:概念、技术与系统[J].中国科学：信息科学,2019,49(5):520-537. 被引量：27
2高力,陆丽萍,褚端峰,张勇,吴超仲.基于图与势场法的多车道编队控制[J].自动化学报,2020,46(1):117-126. 被引量：8
3吴健发,王宏伦,王延祥,刘一恒.无人机反应式扰动流体路径规划[J].自动化学报,2023,49(2):272-287. 被引量：11

二级参考文献16

1梁冰,洪炳镕,曙光.自主机器人视觉与行为模型及避障研究[J].电子学报,2003,31(z1):2197-2200. 被引量：5
2Hai-bin Duan,Xiang-yin Zhang,Jiang Wu,Guan-jun MaSchool of Automation Science and Electrical Engineering,Beihang University,Beijing 100191,P.R.China.Max-Min Adaptive Ant Colony Optimization Approach to Multi-UAVs Coordinated Trajectory Replanning in Dynamic and Uncertain Environments[J].Journal of Bionic Engineering,2009,6(2):161-173. 被引量：33
3李伟.在未知环境中基于模糊逻辑的移动机器人行为控制[J].控制理论与应用,1996,13(2):153-162. 被引量：16
4马云红,周德云.一种无人机路径规划的混沌遗传算法[J].西北工业大学学报,2006,24(4):468-471. 被引量：15
5田菁,沈林成.多基地多无人机协同侦察问题研究[J].航空学报,2007,28(4):913-921. 被引量：35
6李季,孙秀霞.基于改进A-Star算法的无人机航迹规划算法研究[J].兵工学报,2008,29(7):788-792. 被引量：85
7朱毅,张涛,宋靖雁.非完整移动机器人的人工势场法路径规划[J].控制理论与应用,2010,27(2):152-158. 被引量：53
8胡正平,田弼臣.信息化条件下无人机的战场应用及发展趋势[J].飞航导弹,2011(10):63-65. 被引量：8
9茹常剑,魏瑞轩,戴静,沈东,张立鹏.基于纳什议价的无人机编队自主重构控制方法[J].自动化学报,2013,39(8):1349-1359. 被引量：22
10王怿,祝小平,周洲,张慧.3维动态环境下的无人机路径跟踪算法[J].机器人,2014,36(1):83-91. 被引量：24

共引文献43

1董西增.知识经济时代中国石化工业面临的经营课题[J].金山企业管理,2000(1):34-40.
2雷旭,李立,李光泽,汪贵平.多车道交通流理论与应用研究综述[J].长安大学学报（自然科学版）,2020,40(4):78-90. 被引量：5
3许元云,何明,刘锦涛,周波,杨铖.碰撞锥检测改进的多智能体避障算法[J].计算机工程与应用,2020,56(18):63-68. 被引量：3
4张智敏,石飞飞,万月亮,徐阳,张帆,宁焕生.人工智能在军事对抗中的应用进展[J].工程科学学报,2020,42(9):1106-1118. 被引量：10
5李惟,黄鹤.无人搜救系统态势感知能力分解及重要度分析[J].现代电子技术,2020,43(24):82-87. 被引量：2
6李波,杨志鹏,贾卓然,马浩.一种无监督学习型神经网络的无人机全区域侦察路径规划[J].西北工业大学学报,2021,39(1):77-84. 被引量：10
7时浩,田聪玲,任意,贾芳.基于稀疏A^(*)算法的微小型固定翼无人机航迹规划[J].兵工自动化,2021,40(3):14-18. 被引量：5
8李相如,曹晨,罗琪楠.预警机巡逻航线规划问题建模与仿真分析[J].中国电子科学研究院学报,2021,16(2):153-156. 被引量：9
9闫东,陈谋,吴庆宪,袁梦顺.基于变权威胁评估的无人机安全飞行区域确定方法[J].中国科学：信息科学,2021,51(4):663-677. 被引量：3
10陈锦涌,周锐,张宇航,熊伟.一种考虑飞行轨迹不确定性的碰撞风险评估方法[J].中国科学：技术科学,2021,51(4):469-479. 被引量：1

同被引文献49

1陈璐璐,刘成瑞,张庆振,任章.分布式故障诊断专家系统在运载火箭发射决策中的应用研究[J].航天控制,2009,27(1):89-93. 被引量：4
2Mezghani Ben Romdhane Neila,Damak Tarak.Adaptive Terminal Sliding Mode Control for Rigid Robotic Manipulators[J].International Journal of Automation and computing,2011,8(2):215-220. 被引量：18
3宋勇,李贻斌,李彩虹.移动机器人路径规划强化学习的初始化[J].控制理论与应用,2012,29(12):1623-1628. 被引量：26
4王祥科,李迅,郑志强.多智能体系统编队控制相关问题研究综述[J].控制与决策,2013,28(11):1601-1613. 被引量：94
5李娅,张建勋,肖朝晖.基于智能决策的火箭安控系统[J].电子技术应用,2014,40(12):143-146. 被引量：2
6罗德林,张海洋,谢荣增,吴顺祥.基于多agent系统的大规模无人机集群对抗[J].控制理论与应用,2015,32(11):1498-1504. 被引量：47
7Su Wenshan,Yao Dangnai,Li Kebo,Chen Lei.A novel biased proportional navigation guidance law for close approach phase[J].Chinese Journal of Aeronautics,2016,29(1):228-237. 被引量：7
8Yunhe Pan.Heading toward Artificial Intelligence 2.0[J].Engineering,2016,2(4):409-413. 被引量：128
9宗群,王丹丹,邵士凯,张博渊,韩宇.多无人机协同编队飞行控制研究现状及发展[J].哈尔滨工业大学学报,2017,49(3):1-14. 被引量：143
10杨甲森,孟新,陈托,智佳,李虎.基于遥测数据相关性的航天器异常检测[J].仪器仪表学报,2018,39(8):24-33. 被引量：15

引证文献8

1卢国强.基于增量Q学习的在线优化控制算法[J].汽车实用技术,2023,48(15):165-171.
2魏语轩,李昕闻,陈兴国.基于效用函数的期望最大搜索算法[J].软件导刊,2023,22(8):86-92.
3李祥.基于强化学习的自适应AGC最优控制方法研究[J].电工技术,2023(15):47-49.
4褚晶,邓旭辉,岳颀.基于Q-learning的搜救机器人自主路径规划[J].南京航空航天大学学报,2024,56(2):364-374.
5李佳音,张会.具有未知参数的拉格朗日系统的安全跟踪控制[J].烟台大学学报（自然科学与工程版）,2024,37(3):262-272.
6李欣,蔡光斌,吴彤,杨芊.一种基于应力矩阵的无人机集群队形变换控制方法[J].控制与决策,2024,39(7):2195-2204. 被引量：1
7孙浩,黎海青,梁彦,马超雄,吴翰.基于知识辅助深度强化学习的巡飞弹组动态突防决策[J].兵工学报,2024,45(9):3161-3176.
8孙贵新,聂凯.面向智能辅助决策的飞行器安控系统构建研究[J].舰船电子工程,2024,44(7):117-122.

二级引证文献1

1任鸿儒,刘庆海,周琪,鲁仁全.无人自主系统分布式协同控制研究综述[J].广东工业大学学报,2024,41(4):1-13.

1牛旭,杨蕾,李旭.基于多种传感器的双轮平衡车遥控系统设计[J].现代信息科技,2022,6(17):155-157. 被引量：1
2王祝,张振鹏,张原宁,焦嵩鸣.障碍环境下队形可变编队的路径规划方法研究[J].无人系统技术,2022,5(4):88-95. 被引量：1
3高虎.液压支架关键部件的动态特性仿真与分析[J].机电工程技术,2022,51(9):188-190. 被引量：2
4王敏,黄龙旺,杨辰光.基于事件触发的离散MIMO系统自适应评判容错控制[J].自动化学报,2022,48(5):1234-1245. 被引量：6
5张军,孔杉杉,李新旺,冯立超,李鹏.在线健康社区用户知识分享行为研究[J].系统科学与数学,2022,42(6):1389-1401. 被引量：2

中国科学：信息科学

2022年第9期

浏览历史

内容加载中请稍等...

基于安全自适应强化学习的自主避障控制方法被引量：8

参考文献3

二级参考文献16

共引文献43

同被引文献49

引证文献8

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于安全自适应强化学习的自主避障控制方法 被引量：8

参考文献3

二级参考文献16

共引文献43

同被引文献49

引证文献8

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于安全自适应强化学习的自主避障控制方法被引量：8