期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
无人机自主引导跟踪与避障的近端策略优化 被引量:4
1
作者 胡多修 董文瀚 解武杰 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2023年第1期195-205,共11页
针对无人机地面动态目标跟踪问题,建立了远距离自主引导与近距离伴飞避障2个阶段的马尔可夫决策过程模型。在此基础上,提出了一种改进的近端策略优化(PPO)算法。考虑到无人机接收到的数据具有时序性且环境状态存在上下文关联,所提算法... 针对无人机地面动态目标跟踪问题,建立了远距离自主引导与近距离伴飞避障2个阶段的马尔可夫决策过程模型。在此基础上,提出了一种改进的近端策略优化(PPO)算法。考虑到无人机接收到的数据具有时序性且环境状态存在上下文关联,所提算法采用长短期记忆(LSTM)网络,通过无人机与目标的实时位置关系等状态信息来计算奖励值,更新网络参数,并进行自适应优化迭代。通过基于ROS系统的仿真测试平台进行试验,结果表明:所提算法安全有效地实现了侦察任务全过程的自主机动,与传统的PPO算法相比,LSTM的引入缩短了模型训练时间,跟踪与避障的效率明显提高,进一步加强了算法的鲁棒性、准确性和实时性。 展开更多
关键词 多旋翼无人机 自主引导 马尔可夫决策过程 近端策略优化 长短期记忆
下载PDF
基于解耦型MADDPG的无人机集群自主跟踪与避障
2
作者 文超 董文瀚 +2 位作者 解武杰 蔡鸣 胡多修 《飞行力学》 CSCD 北大核心 2022年第6期24-31,共8页
考虑单无人机在复杂空域环境下对地面动目标执行跟踪任务的局限性,采用多智能体深度强化学习(MADRL)方法对无人机集群目标自主跟踪问题进行了研究。首先,基于随机博弈过程设计联合状态空间、动作空间和奖惩机制,并由此建立了无人机集群... 考虑单无人机在复杂空域环境下对地面动目标执行跟踪任务的局限性,采用多智能体深度强化学习(MADRL)方法对无人机集群目标自主跟踪问题进行了研究。首先,基于随机博弈过程设计联合状态空间、动作空间和奖惩机制,并由此建立了无人机集群三维自主机动模型。其次,考虑MADRL的稀疏回报问题,设计了引导型奖励函数,增强了算法收敛性能。接着,为提高集群学习效率,设计了相应的解耦型奖励函数和神经网络结构,并采用解耦型多智能体深度确定性策略梯度(MADDPG)算法对模型进行自适应训练,以生成无人机集群自主跟踪与避障最优机动策略。最后,开展了仿真验证。结果表明:基于MADRL方法的无人机集群能更好地满足复杂空域环境下目标跟踪任务的需求;相比于MADDPG,解耦型MADDPG算法具有更强的准确性和实时性。 展开更多
关键词 无人机集群 多智能体深度强化学习 自主跟踪 避障 随机博弈过程
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部