期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
DP-Q(λ):大规模Web3D场景中Multi-agent实时路径规划算法 被引量:4
1
作者 闫丰亭 贾金原 《系统仿真学报》 CAS CSCD 北大核心 2019年第1期16-26,共11页
大规模场景中Multi-agent可视化路径规划算法,需要在Web3D上实现实时、稳定的碰撞避让。提出了动态概率单链收敛回溯DP-Q(λ)算法,采用方向启发约束,使用高奖赏或重惩罚训练方法,在单智能体上采用概率p(0-1随机数)调节奖罚值,决定下一... 大规模场景中Multi-agent可视化路径规划算法,需要在Web3D上实现实时、稳定的碰撞避让。提出了动态概率单链收敛回溯DP-Q(λ)算法,采用方向启发约束,使用高奖赏或重惩罚训练方法,在单智能体上采用概率p(0-1随机数)调节奖罚值,决定下一步的寻路策略,同时感知下一位置是否空闲,完成行走过程的避碰行为,将单智能体的路径规划方案扩展到多智能体路径规划方案中,并进一步在Web3D上实现了这一方案。实验结果表明:该算法实现的多智能体实时路径规划具备了在Web3D上自主学习的高效性和稳定性的要求。 展开更多
关键词 WEB3D 大规模未知环境 多智能体 强化学习 动态奖赏p 路径规划
下载PDF
融合动态奖励策略的无人机编队路径规划方法
2
作者 唐恒 孙伟 +4 位作者 吕磊 贺若飞 吴建军 孙昌浩 孙田野 《系统工程与电子技术》 EI CSCD 北大核心 2024年第10期3506-3518,共13页
针对未知动态环境下无人机(unmanned aerial vehicle,UAV)编队路径规划问题,提出融合动态编队奖励函数的多智能体双延迟深度确定性策略梯度(multi-agent twin delayed deep deterministic strategy gradient algorithm incorporating dy... 针对未知动态环境下无人机(unmanned aerial vehicle,UAV)编队路径规划问题,提出融合动态编队奖励函数的多智能体双延迟深度确定性策略梯度(multi-agent twin delayed deep deterministic strategy gradient algorithm incorporating dynamic formation reward function,MATD3-IDFRF)算法的UAV编队智能决策方案。首先,针对无障碍物环境,拓展稀疏性奖励函数。然后,深入分析UAV编队路径规划中重点关注的动态编队问题,即UAV编队以稳定的结构飞行并根据周围环境微调队形,其本质为每两架UAV间距保持相对稳定,同时也依据外界环境而微调。为此,设计基于每两台UAV之间最佳间距和当前间距的奖励函数,在此基础上提出动态编队奖励函数,并结合多智能体双延迟深度确定性(multi-agent twin delayed deep deterministic,MATD3)算法提出MATD3-IDFRF算法。最后,设计对比实验,在复合障碍物环境中,所提动态编队奖励函数能将算法成功率提升6.8%,将收敛后的奖励平均值提升2.3%,将编队变形率降低97%。 展开更多
关键词 强化学习 奖励函数 无人机 动态编队 路径规划
下载PDF
基于梯度奖励的深度强化学习移动机器人路径规划
3
作者 喻凯旋 林富生 +1 位作者 宋志峰 余联庆 《机床与液压》 北大核心 2023年第17期32-38,共7页
针对目前深度强化学习移动机器人路径规划中稀疏奖励导致的效率低、收敛慢等问题,提出一种梯度奖励政策。使用区域分割将环境分割为缓冲区、探索区、临近区以及目标区,奖励的动态变化可以逐步缩小机器人的探索范围,同时在安全区域内也... 针对目前深度强化学习移动机器人路径规划中稀疏奖励导致的效率低、收敛慢等问题,提出一种梯度奖励政策。使用区域分割将环境分割为缓冲区、探索区、临近区以及目标区,奖励的动态变化可以逐步缩小机器人的探索范围,同时在安全区域内也能获得正向奖励。首先输入机器人当前的位置坐标,经过神经网络后估计4个动作的Q值,随后通过去首动态贪婪策略达到最大化探索,最后采用基于均方误差的优先经验回放抽取样本进行梯度下降更新网络。实验结果表明:在小范围环境内探索效率可提升近40%,在大范围环境下成功率高于80%,而且在提高探索效率的同时增强了鲁棒性。 展开更多
关键词 深度强化学习 路径规划 梯度奖励 区域分割 去首动态贪婪策略
下载PDF
基于改进SARSA算法的直升机CGF路径规划 被引量:3
4
作者 姚江毅 张阳 +1 位作者 李雄伟 王艳超 《兵器装备工程学报》 CSCD 北大核心 2022年第5期220-225,共6页
结合人工势场算法原理,引入奖赏生成机构对传统SARSA学习算法的奖赏生成机制进行改进,改进后的SARSA学习算法通过判断执行动作的有效性进一步结合环境信息实时生成动态奖赏,继承了人工势场算法良好的控制性能,能够根据连续预估的代价场... 结合人工势场算法原理,引入奖赏生成机构对传统SARSA学习算法的奖赏生成机制进行改进,改进后的SARSA学习算法通过判断执行动作的有效性进一步结合环境信息实时生成动态奖赏,继承了人工势场算法良好的控制性能,能够根据连续预估的代价场信息进行优化搜索,使奖赏累积过程更为平滑。基于直升机CGF突袭雷达阵地模型进行仿真实验,分别对比算法收敛所需迭代次数和完成任务成功率,改进SARSA学习算法收敛时所需迭代次数是传统SARSA学习算法的一半,经过1000次迭代,改进SARSA学习算法完成任务成功率平均比传统SARSA学习算法提升12%。仿真实验表明:改进SARSA算法相对传统SARSA算法有着更优异的性能,算法收敛速度以及完成任务成功率都有明显提升,改进SARSA算法能够为直升机CGF规划安全路径。 展开更多
关键词 路径规划 计算机生成兵力 强化学习 人工势场 动态奖赏
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部