期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于多步信息辅助的Q-learning路径规划算法
1
作者 王越龙 王松艳 晁涛 《系统仿真学报》 CAS CSCD 北大核心 2024年第9期2137-2148,共12页
为提升静态环境下移动机器人路径规划能力,解决传统Q-learning算法在路径规划中收敛速度慢的问题,提出一种基于多步信息辅助机制的Q-learning改进算法。利用ε-greedy策略中贪婪动作的多步信息与历史最优路径长度更新资格迹,使有效的资... 为提升静态环境下移动机器人路径规划能力,解决传统Q-learning算法在路径规划中收敛速度慢的问题,提出一种基于多步信息辅助机制的Q-learning改进算法。利用ε-greedy策略中贪婪动作的多步信息与历史最优路径长度更新资格迹,使有效的资格迹在算法迭代中持续发挥作用,用保存的多步信息解决可能落入的循环陷阱;使用局部多花朵的花授粉算法初始化Q值表,提升机器人前期搜索效率;基于机器人不同探索阶段的目的,结合迭代路径长度的标准差与机器人成功到达目标点的次数设计动作选择策略,以增强算法对环境信息探索与利用的平衡能力。实验结果表明:该算法具有较快的收敛速度,验证了算法的可行性与有效性。 展开更多
关键词 路径规划 Q-LEARNING 收敛速度 动作选择策略 栅格地图
下载PDF
连通约束下的经验增强多智能体路径规划算法
2
作者 张李 《福建电脑》 2023年第3期1-8,共8页
避障与通信连通约束下的多智能体路径规划问题是多智能体领域的一个热点问题。本文研究了智能体从起始区域出发,在仅指定目标区域而不指定每个智能体具体目标点的场景,多智能体需要在保持避障约束与通信连通约束下找到最优的路径和各自... 避障与通信连通约束下的多智能体路径规划问题是多智能体领域的一个热点问题。本文研究了智能体从起始区域出发,在仅指定目标区域而不指定每个智能体具体目标点的场景,多智能体需要在保持避障约束与通信连通约束下找到最优的路径和各自的目标点。针对传统深度Q网络和Double-DQN算法存在收敛效率低、因探索导致安全性低的问题,提出一个基于经验增强的强化学习的多智能体路径规划算法。首先,设计一种奖励函数构造方法,综合考虑了多智能体路径规划任务中避障约束与通信连通约束的影响;其次,智能体在行动过程中记录历史经验,对各自的历史经验进行评估;然后,在动作选择策略中加入历史经验的指导,使用经验增强的动作选择策略的智能体有更高概率前往高价值状态;最后,进行实验验证。结果显示,该方法相比于传统深度Q网络与Double-DQN算法可以更快找到一个最优解,收敛效率提升了41%和11%,避障指标提升了10%和3%,连通指标提升了3%与2%。 展开更多
关键词 强化学习 多智能体系统 路径规划 动作选择策略 经验增强
下载PDF
基于启发式强化学习的AGV路径规划 被引量:8
3
作者 唐恒亮 唐滋芳 +2 位作者 董晨刚 尹棋正 海秋茹 《北京工业大学学报》 CAS CSCD 北大核心 2021年第8期895-903,共9页
针对传统算法、智能算法与强化学习算法在自动引导小车(automated guided vehicle,AGV)路径规划中收敛速度慢、学习效率低的问题,提出一种启发式强化学习算法,并针对传统Q(λ)算法,设计启发式奖励函数和启发式动作选择策略,以此强化智... 针对传统算法、智能算法与强化学习算法在自动引导小车(automated guided vehicle,AGV)路径规划中收敛速度慢、学习效率低的问题,提出一种启发式强化学习算法,并针对传统Q(λ)算法,设计启发式奖励函数和启发式动作选择策略,以此强化智能体对优质行为的探索,提高算法学习效率.通过仿真对比实验,验证了基于改进Q(λ)启发式强化学习算法在探索次数、规划时间、路径长度与路径转角上都具有一定的优势. 展开更多
关键词 自动引导小车(automated guided vehicle AGV) 强化学习 Q(λ)算法 启发式奖励函数 启发式动作选择策略 路径规划
下载PDF
基于深度强化学习的网络攻击路径规划方法 被引量:2
4
作者 高文龙 周天阳 +1 位作者 赵子恒 朱俊虎 《信息安全学报》 CSCD 2022年第5期65-78,共14页
攻击路径规划对实现自动化渗透测试具有重要意义,在现实环境中攻击者很难获取全面准确的网络及配置信息,面向未知渗透测试环境下的攻击路径规划,提出了基于深度强化学习的攻击路径规划方法。首先,对渗透测试问题的状态空间和动作空间进... 攻击路径规划对实现自动化渗透测试具有重要意义,在现实环境中攻击者很难获取全面准确的网络及配置信息,面向未知渗透测试环境下的攻击路径规划,提出了基于深度强化学习的攻击路径规划方法。首先,对渗透测试问题的状态空间和动作空间进行形式化描述,引入信息收集动作增强对环境的感知能力。然后,智能体通过与环境的自主交互进行学习,寻找最大化长期收益的最优策略,从而指导攻击者进行路径规划。当前深度强化学习算法应用于攻击路径规划存在适应性不强和收敛困难等问题,限制了其处理复杂渗透测试环境的能力。智能体在训练初期通过盲目探索得到的动作序列在维度迅速增长时质量会急剧下降,有时很难完成目标,而且低质量的动作序列大量积累会导致算法不收敛甚至神经元死亡。针对此问题,本文提出的深度强化学习算法在DDQN算法的基础上增加了路径启发信息和深度优先渗透的动作选择策略。路径启发信息充分利用历史经验,在训练初期对智能体的学习过程加以引导,深度优先渗透的动作选择策略在一定程度上对动作空间进行了剪枝,加速智能体的学习过程。最后,通过与其他深度强化学习算法在相同实验条件下的对比,验证了本文算法收敛速度更快,运行时间缩短30%以上。 展开更多
关键词 深度强化学习 路径启发信息 深度优先渗透的动作选择策略 攻击路径规划
下载PDF
存在危险区域的路径规划问题研究 被引量:1
5
作者 张震 臧兆祥 +1 位作者 郭鸿村 田佩 《长江信息通信》 2022年第4期14-19,共6页
为解决标准强化学习算法无法直接应用于存在危险区域的兵棋推演路径规划这一问题,文章提出了一种特殊的奖励机制,用来引导强化学习算法解决该问题。在此基础上,设计了一种探索率递减变化的方法,并在不同难度的实验环境中对Q学习算法的ε... 为解决标准强化学习算法无法直接应用于存在危险区域的兵棋推演路径规划这一问题,文章提出了一种特殊的奖励机制,用来引导强化学习算法解决该问题。在此基础上,设计了一种探索率递减变化的方法,并在不同难度的实验环境中对Q学习算法的ε-greedy、轮盘赌、玻尔兹曼探索三种动作选择策略进行了测试。实验结果表明,按照本文设计的探索率递减变化方法设置探索率时,算法的性能优于其他三种动作选择策略,收敛时间至少缩短了38.4%,实时性和准确性基本满足兵棋推演的要求,可用于解决兵棋推演路径规划问题。 展开更多
关键词 陆战兵棋推演 强化学习 路径规划 Q学习 动作选择策略
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部