检索结果-维普期刊中文期刊服务平台

期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

共找到4篇文章

< 1 >

每页显示 20 50 100

已选择0条

导出题录引用分析

统计分析

显示方式：

文摘详细列表

相关度排序被引量排序时效性排序

DP-Q(λ):大规模Web3D场景中Multi-agent实时路径规划算法被引量：4: 1; 作者闫丰亭贾金原《系统仿真学报》 CAS CSCD 北大核心 2019年第1期16-26,共11页; 大规模场景中Multi-agent可视化路径规划算法,需要在Web3D上实现实时、稳定的碰撞避让。提出了动态概率单链收敛回溯DP-Q(λ)算法,采用方向启发约束,使用高奖赏或重惩罚训练方法,在单智能体上采用概率p(0-1随机数)调节奖罚值,决定下一... 展开更多; 关键词 WEB3D 大规模未知环境多智能体强化学习动态奖赏p 路径规划; 下载PDF 职称材料

融合动态奖励策略的无人机编队路径规划方法: 2; 作者唐恒孙伟 +4 位作者吕磊贺若飞吴建军孙昌浩孙田野《系统工程与电子技术》 EI CSCD 北大核心 2024年第10期3506-3518,共13页; 针对未知动态环境下无人机(unmanned aerial vehicle,UAV)编队路径规划问题,提出融合动态编队奖励函数的多智能体双延迟深度确定性策略梯度(multi-agent twin delayed deep deterministic strategy gradient algorithm incorporating dy... 展开更多; 关键词强化学习奖励函数无人机动态编队路径规划; 下载PDF 职称材料

基于梯度奖励的深度强化学习移动机器人路径规划: 3; 作者喻凯旋林富生 +1 位作者宋志峰余联庆《机床与液压》北大核心 2023年第17期32-38,共7页; 针对目前深度强化学习移动机器人路径规划中稀疏奖励导致的效率低、收敛慢等问题,提出一种梯度奖励政策。使用区域分割将环境分割为缓冲区、探索区、临近区以及目标区,奖励的动态变化可以逐步缩小机器人的探索范围,同时在安全区域内也... 展开更多; 关键词深度强化学习路径规划梯度奖励区域分割去首动态贪婪策略; 下载PDF 职称材料

基于改进SARSA算法的直升机CGF路径规划被引量：3: 4; 作者姚江毅张阳 +1 位作者李雄伟王艳超《兵器装备工程学报》 CSCD 北大核心 2022年第5期220-225,共6页; 结合人工势场算法原理,引入奖赏生成机构对传统SARSA学习算法的奖赏生成机制进行改进,改进后的SARSA学习算法通过判断执行动作的有效性进一步结合环境信息实时生成动态奖赏,继承了人工势场算法良好的控制性能,能够根据连续预估的代价场... 展开更多; 关键词路径规划计算机生成兵力强化学习人工势场动态奖赏; 下载PDF 职称材料

已选择0条

导出题录引用分析

统计分析

上一页 1 下一页到第页

使用帮助返回顶部