期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
DP-Q(λ):大规模Web3D场景中Multi-agent实时路径规划算法
被引量:
4
1
作者
闫丰亭
贾金原
《系统仿真学报》
CAS
CSCD
北大核心
2019年第1期16-26,共11页
大规模场景中Multi-agent可视化路径规划算法,需要在Web3D上实现实时、稳定的碰撞避让。提出了动态概率单链收敛回溯DP-Q(λ)算法,采用方向启发约束,使用高奖赏或重惩罚训练方法,在单智能体上采用概率p(0-1随机数)调节奖罚值,决定下一...
大规模场景中Multi-agent可视化路径规划算法,需要在Web3D上实现实时、稳定的碰撞避让。提出了动态概率单链收敛回溯DP-Q(λ)算法,采用方向启发约束,使用高奖赏或重惩罚训练方法,在单智能体上采用概率p(0-1随机数)调节奖罚值,决定下一步的寻路策略,同时感知下一位置是否空闲,完成行走过程的避碰行为,将单智能体的路径规划方案扩展到多智能体路径规划方案中,并进一步在Web3D上实现了这一方案。实验结果表明:该算法实现的多智能体实时路径规划具备了在Web3D上自主学习的高效性和稳定性的要求。
展开更多
关键词
WEB3D
大规模未知环境
多智能体
强化学习
动态奖赏
p
路径规划
下载PDF
职称材料
融合动态奖励策略的无人机编队路径规划方法
2
作者
唐恒
孙伟
+4 位作者
吕磊
贺若飞
吴建军
孙昌浩
孙田野
《系统工程与电子技术》
EI
CSCD
北大核心
2024年第10期3506-3518,共13页
针对未知动态环境下无人机(unmanned aerial vehicle,UAV)编队路径规划问题,提出融合动态编队奖励函数的多智能体双延迟深度确定性策略梯度(multi-agent twin delayed deep deterministic strategy gradient algorithm incorporating dy...
针对未知动态环境下无人机(unmanned aerial vehicle,UAV)编队路径规划问题,提出融合动态编队奖励函数的多智能体双延迟深度确定性策略梯度(multi-agent twin delayed deep deterministic strategy gradient algorithm incorporating dynamic formation reward function,MATD3-IDFRF)算法的UAV编队智能决策方案。首先,针对无障碍物环境,拓展稀疏性奖励函数。然后,深入分析UAV编队路径规划中重点关注的动态编队问题,即UAV编队以稳定的结构飞行并根据周围环境微调队形,其本质为每两架UAV间距保持相对稳定,同时也依据外界环境而微调。为此,设计基于每两台UAV之间最佳间距和当前间距的奖励函数,在此基础上提出动态编队奖励函数,并结合多智能体双延迟深度确定性(multi-agent twin delayed deep deterministic,MATD3)算法提出MATD3-IDFRF算法。最后,设计对比实验,在复合障碍物环境中,所提动态编队奖励函数能将算法成功率提升6.8%,将收敛后的奖励平均值提升2.3%,将编队变形率降低97%。
展开更多
关键词
强化学习
奖励函数
无人机
动态编队
路径规划
下载PDF
职称材料
基于梯度奖励的深度强化学习移动机器人路径规划
3
作者
喻凯旋
林富生
+1 位作者
宋志峰
余联庆
《机床与液压》
北大核心
2023年第17期32-38,共7页
针对目前深度强化学习移动机器人路径规划中稀疏奖励导致的效率低、收敛慢等问题,提出一种梯度奖励政策。使用区域分割将环境分割为缓冲区、探索区、临近区以及目标区,奖励的动态变化可以逐步缩小机器人的探索范围,同时在安全区域内也...
针对目前深度强化学习移动机器人路径规划中稀疏奖励导致的效率低、收敛慢等问题,提出一种梯度奖励政策。使用区域分割将环境分割为缓冲区、探索区、临近区以及目标区,奖励的动态变化可以逐步缩小机器人的探索范围,同时在安全区域内也能获得正向奖励。首先输入机器人当前的位置坐标,经过神经网络后估计4个动作的Q值,随后通过去首动态贪婪策略达到最大化探索,最后采用基于均方误差的优先经验回放抽取样本进行梯度下降更新网络。实验结果表明:在小范围环境内探索效率可提升近40%,在大范围环境下成功率高于80%,而且在提高探索效率的同时增强了鲁棒性。
展开更多
关键词
深度强化学习
路径规划
梯度奖励
区域分割
去首动态贪婪策略
下载PDF
职称材料
基于改进SARSA算法的直升机CGF路径规划
被引量:
3
4
作者
姚江毅
张阳
+1 位作者
李雄伟
王艳超
《兵器装备工程学报》
CSCD
北大核心
2022年第5期220-225,共6页
结合人工势场算法原理,引入奖赏生成机构对传统SARSA学习算法的奖赏生成机制进行改进,改进后的SARSA学习算法通过判断执行动作的有效性进一步结合环境信息实时生成动态奖赏,继承了人工势场算法良好的控制性能,能够根据连续预估的代价场...
结合人工势场算法原理,引入奖赏生成机构对传统SARSA学习算法的奖赏生成机制进行改进,改进后的SARSA学习算法通过判断执行动作的有效性进一步结合环境信息实时生成动态奖赏,继承了人工势场算法良好的控制性能,能够根据连续预估的代价场信息进行优化搜索,使奖赏累积过程更为平滑。基于直升机CGF突袭雷达阵地模型进行仿真实验,分别对比算法收敛所需迭代次数和完成任务成功率,改进SARSA学习算法收敛时所需迭代次数是传统SARSA学习算法的一半,经过1000次迭代,改进SARSA学习算法完成任务成功率平均比传统SARSA学习算法提升12%。仿真实验表明:改进SARSA算法相对传统SARSA算法有着更优异的性能,算法收敛速度以及完成任务成功率都有明显提升,改进SARSA算法能够为直升机CGF规划安全路径。
展开更多
关键词
路径规划
计算机生成兵力
强化学习
人工势场
动态奖赏
下载PDF
职称材料
题名
DP-Q(λ):大规模Web3D场景中Multi-agent实时路径规划算法
被引量:
4
1
作者
闫丰亭
贾金原
机构
同济大学
出处
《系统仿真学报》
CAS
CSCD
北大核心
2019年第1期16-26,共11页
基金
国家自然科学基金面上项目(61272270)
文摘
大规模场景中Multi-agent可视化路径规划算法,需要在Web3D上实现实时、稳定的碰撞避让。提出了动态概率单链收敛回溯DP-Q(λ)算法,采用方向启发约束,使用高奖赏或重惩罚训练方法,在单智能体上采用概率p(0-1随机数)调节奖罚值,决定下一步的寻路策略,同时感知下一位置是否空闲,完成行走过程的避碰行为,将单智能体的路径规划方案扩展到多智能体路径规划方案中,并进一步在Web3D上实现了这一方案。实验结果表明:该算法实现的多智能体实时路径规划具备了在Web3D上自主学习的高效性和稳定性的要求。
关键词
WEB3D
大规模未知环境
多智能体
强化学习
动态奖赏
p
路径规划
Keywords
Web3D
large-scale unknown environment
multi-agent
reinforcement learning
dynamic rewards p
,
path planning
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
融合动态奖励策略的无人机编队路径规划方法
2
作者
唐恒
孙伟
吕磊
贺若飞
吴建军
孙昌浩
孙田野
机构
西安电子科技大学空间科学与技术学院
西北工业大学第
西安爱生无人机技术有限公司
中国空间技术研究院钱学森空间技术实验室
出处
《系统工程与电子技术》
EI
CSCD
北大核心
2024年第10期3506-3518,共13页
基金
中国高校产学研创新基金(2021ZYA08004)
西安市科技计划(2022JH-RGZN-0039)
+1 种基金
陕西省重点研发计划重点产业创新链项目(2022ZDLGY03-01)
国家自然科学基金(62173330)资助课题。
文摘
针对未知动态环境下无人机(unmanned aerial vehicle,UAV)编队路径规划问题,提出融合动态编队奖励函数的多智能体双延迟深度确定性策略梯度(multi-agent twin delayed deep deterministic strategy gradient algorithm incorporating dynamic formation reward function,MATD3-IDFRF)算法的UAV编队智能决策方案。首先,针对无障碍物环境,拓展稀疏性奖励函数。然后,深入分析UAV编队路径规划中重点关注的动态编队问题,即UAV编队以稳定的结构飞行并根据周围环境微调队形,其本质为每两架UAV间距保持相对稳定,同时也依据外界环境而微调。为此,设计基于每两台UAV之间最佳间距和当前间距的奖励函数,在此基础上提出动态编队奖励函数,并结合多智能体双延迟深度确定性(multi-agent twin delayed deep deterministic,MATD3)算法提出MATD3-IDFRF算法。最后,设计对比实验,在复合障碍物环境中,所提动态编队奖励函数能将算法成功率提升6.8%,将收敛后的奖励平均值提升2.3%,将编队变形率降低97%。
关键词
强化学习
奖励函数
无人机
动态编队
路径规划
Keywords
reinforcement learning(RL)
reward function
unmanned aerial vehicle(UAV)
dynamic
formation
path planning
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于梯度奖励的深度强化学习移动机器人路径规划
3
作者
喻凯旋
林富生
宋志峰
余联庆
机构
武汉纺织大学机械工程与自动化学院
三维纺织湖北省工程研究中心
湖北省数字化纺织装备重点实验室
出处
《机床与液压》
北大核心
2023年第17期32-38,共7页
文摘
针对目前深度强化学习移动机器人路径规划中稀疏奖励导致的效率低、收敛慢等问题,提出一种梯度奖励政策。使用区域分割将环境分割为缓冲区、探索区、临近区以及目标区,奖励的动态变化可以逐步缩小机器人的探索范围,同时在安全区域内也能获得正向奖励。首先输入机器人当前的位置坐标,经过神经网络后估计4个动作的Q值,随后通过去首动态贪婪策略达到最大化探索,最后采用基于均方误差的优先经验回放抽取样本进行梯度下降更新网络。实验结果表明:在小范围环境内探索效率可提升近40%,在大范围环境下成功率高于80%,而且在提高探索效率的同时增强了鲁棒性。
关键词
深度强化学习
路径规划
梯度奖励
区域分割
去首动态贪婪策略
Keywords
Dee
p
reinforcement learning
path planning
Gradient reward
Region segmentation
Deca
p
itation
dynamic
greedy strategy
分类号
TP242 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
基于改进SARSA算法的直升机CGF路径规划
被引量:
3
4
作者
姚江毅
张阳
李雄伟
王艳超
机构
陆军工程大学石家庄校区装备模拟训练中心
出处
《兵器装备工程学报》
CSCD
北大核心
2022年第5期220-225,共6页
基金
国家自然科学基金项目(61602505)。
文摘
结合人工势场算法原理,引入奖赏生成机构对传统SARSA学习算法的奖赏生成机制进行改进,改进后的SARSA学习算法通过判断执行动作的有效性进一步结合环境信息实时生成动态奖赏,继承了人工势场算法良好的控制性能,能够根据连续预估的代价场信息进行优化搜索,使奖赏累积过程更为平滑。基于直升机CGF突袭雷达阵地模型进行仿真实验,分别对比算法收敛所需迭代次数和完成任务成功率,改进SARSA学习算法收敛时所需迭代次数是传统SARSA学习算法的一半,经过1000次迭代,改进SARSA学习算法完成任务成功率平均比传统SARSA学习算法提升12%。仿真实验表明:改进SARSA算法相对传统SARSA算法有着更优异的性能,算法收敛速度以及完成任务成功率都有明显提升,改进SARSA算法能够为直升机CGF规划安全路径。
关键词
路径规划
计算机生成兵力
强化学习
人工势场
动态奖赏
Keywords
path planning
com
p
uter generated force
reinforcement learning
artificial
p
otential field
dynamic
reward
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
DP-Q(λ):大规模Web3D场景中Multi-agent实时路径规划算法
闫丰亭
贾金原
《系统仿真学报》
CAS
CSCD
北大核心
2019
4
下载PDF
职称材料
2
融合动态奖励策略的无人机编队路径规划方法
唐恒
孙伟
吕磊
贺若飞
吴建军
孙昌浩
孙田野
《系统工程与电子技术》
EI
CSCD
北大核心
2024
0
下载PDF
职称材料
3
基于梯度奖励的深度强化学习移动机器人路径规划
喻凯旋
林富生
宋志峰
余联庆
《机床与液压》
北大核心
2023
0
下载PDF
职称材料
4
基于改进SARSA算法的直升机CGF路径规划
姚江毅
张阳
李雄伟
王艳超
《兵器装备工程学报》
CSCD
北大核心
2022
3
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部