期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
5
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于多步信息辅助的Q-learning路径规划算法
1
作者
王越龙
王松艳
晁涛
《系统仿真学报》
CAS
CSCD
北大核心
2024年第9期2137-2148,共12页
为提升静态环境下移动机器人路径规划能力,解决传统Q-learning算法在路径规划中收敛速度慢的问题,提出一种基于多步信息辅助机制的Q-learning改进算法。利用ε-greedy策略中贪婪动作的多步信息与历史最优路径长度更新资格迹,使有效的资...
为提升静态环境下移动机器人路径规划能力,解决传统Q-learning算法在路径规划中收敛速度慢的问题,提出一种基于多步信息辅助机制的Q-learning改进算法。利用ε-greedy策略中贪婪动作的多步信息与历史最优路径长度更新资格迹,使有效的资格迹在算法迭代中持续发挥作用,用保存的多步信息解决可能落入的循环陷阱;使用局部多花朵的花授粉算法初始化Q值表,提升机器人前期搜索效率;基于机器人不同探索阶段的目的,结合迭代路径长度的标准差与机器人成功到达目标点的次数设计动作选择策略,以增强算法对环境信息探索与利用的平衡能力。实验结果表明:该算法具有较快的收敛速度,验证了算法的可行性与有效性。
展开更多
关键词
路径规划
Q-LEARNING
收敛速度
动作选择策略
栅格地图
下载PDF
职称材料
连通约束下的经验增强多智能体路径规划算法
2
作者
张李
《福建电脑》
2023年第3期1-8,共8页
避障与通信连通约束下的多智能体路径规划问题是多智能体领域的一个热点问题。本文研究了智能体从起始区域出发,在仅指定目标区域而不指定每个智能体具体目标点的场景,多智能体需要在保持避障约束与通信连通约束下找到最优的路径和各自...
避障与通信连通约束下的多智能体路径规划问题是多智能体领域的一个热点问题。本文研究了智能体从起始区域出发,在仅指定目标区域而不指定每个智能体具体目标点的场景,多智能体需要在保持避障约束与通信连通约束下找到最优的路径和各自的目标点。针对传统深度Q网络和Double-DQN算法存在收敛效率低、因探索导致安全性低的问题,提出一个基于经验增强的强化学习的多智能体路径规划算法。首先,设计一种奖励函数构造方法,综合考虑了多智能体路径规划任务中避障约束与通信连通约束的影响;其次,智能体在行动过程中记录历史经验,对各自的历史经验进行评估;然后,在动作选择策略中加入历史经验的指导,使用经验增强的动作选择策略的智能体有更高概率前往高价值状态;最后,进行实验验证。结果显示,该方法相比于传统深度Q网络与Double-DQN算法可以更快找到一个最优解,收敛效率提升了41%和11%,避障指标提升了10%和3%,连通指标提升了3%与2%。
展开更多
关键词
强化学习
多智能体系统
路径规划
动作选择策略
经验增强
下载PDF
职称材料
基于启发式强化学习的AGV路径规划
被引量:
9
3
作者
唐恒亮
唐滋芳
+2 位作者
董晨刚
尹棋正
海秋茹
《北京工业大学学报》
CAS
CSCD
北大核心
2021年第8期895-903,共9页
针对传统算法、智能算法与强化学习算法在自动引导小车(automated guided vehicle,AGV)路径规划中收敛速度慢、学习效率低的问题,提出一种启发式强化学习算法,并针对传统Q(λ)算法,设计启发式奖励函数和启发式动作选择策略,以此强化智...
针对传统算法、智能算法与强化学习算法在自动引导小车(automated guided vehicle,AGV)路径规划中收敛速度慢、学习效率低的问题,提出一种启发式强化学习算法,并针对传统Q(λ)算法,设计启发式奖励函数和启发式动作选择策略,以此强化智能体对优质行为的探索,提高算法学习效率.通过仿真对比实验,验证了基于改进Q(λ)启发式强化学习算法在探索次数、规划时间、路径长度与路径转角上都具有一定的优势.
展开更多
关键词
自动引导小车(automated
guided
vehicle
AGV)
强化学习
Q(λ)算法
启发式奖励函数
启发式
动作选择策略
路径规划
下载PDF
职称材料
基于深度强化学习的网络攻击路径规划方法
被引量:
2
4
作者
高文龙
周天阳
+1 位作者
赵子恒
朱俊虎
《信息安全学报》
CSCD
2022年第5期65-78,共14页
攻击路径规划对实现自动化渗透测试具有重要意义,在现实环境中攻击者很难获取全面准确的网络及配置信息,面向未知渗透测试环境下的攻击路径规划,提出了基于深度强化学习的攻击路径规划方法。首先,对渗透测试问题的状态空间和动作空间进...
攻击路径规划对实现自动化渗透测试具有重要意义,在现实环境中攻击者很难获取全面准确的网络及配置信息,面向未知渗透测试环境下的攻击路径规划,提出了基于深度强化学习的攻击路径规划方法。首先,对渗透测试问题的状态空间和动作空间进行形式化描述,引入信息收集动作增强对环境的感知能力。然后,智能体通过与环境的自主交互进行学习,寻找最大化长期收益的最优策略,从而指导攻击者进行路径规划。当前深度强化学习算法应用于攻击路径规划存在适应性不强和收敛困难等问题,限制了其处理复杂渗透测试环境的能力。智能体在训练初期通过盲目探索得到的动作序列在维度迅速增长时质量会急剧下降,有时很难完成目标,而且低质量的动作序列大量积累会导致算法不收敛甚至神经元死亡。针对此问题,本文提出的深度强化学习算法在DDQN算法的基础上增加了路径启发信息和深度优先渗透的动作选择策略。路径启发信息充分利用历史经验,在训练初期对智能体的学习过程加以引导,深度优先渗透的动作选择策略在一定程度上对动作空间进行了剪枝,加速智能体的学习过程。最后,通过与其他深度强化学习算法在相同实验条件下的对比,验证了本文算法收敛速度更快,运行时间缩短30%以上。
展开更多
关键词
深度强化学习
路径启发信息
深度优先渗透的
动作选择策略
攻击路径规划
下载PDF
职称材料
存在危险区域的路径规划问题研究
被引量:
1
5
作者
张震
臧兆祥
+1 位作者
郭鸿村
田佩
《长江信息通信》
2022年第4期14-19,共6页
为解决标准强化学习算法无法直接应用于存在危险区域的兵棋推演路径规划这一问题,文章提出了一种特殊的奖励机制,用来引导强化学习算法解决该问题。在此基础上,设计了一种探索率递减变化的方法,并在不同难度的实验环境中对Q学习算法的ε...
为解决标准强化学习算法无法直接应用于存在危险区域的兵棋推演路径规划这一问题,文章提出了一种特殊的奖励机制,用来引导强化学习算法解决该问题。在此基础上,设计了一种探索率递减变化的方法,并在不同难度的实验环境中对Q学习算法的ε-greedy、轮盘赌、玻尔兹曼探索三种动作选择策略进行了测试。实验结果表明,按照本文设计的探索率递减变化方法设置探索率时,算法的性能优于其他三种动作选择策略,收敛时间至少缩短了38.4%,实时性和准确性基本满足兵棋推演的要求,可用于解决兵棋推演路径规划问题。
展开更多
关键词
陆战兵棋推演
强化学习
路径规划
Q学习
动作选择策略
下载PDF
职称材料
题名
基于多步信息辅助的Q-learning路径规划算法
1
作者
王越龙
王松艳
晁涛
机构
哈尔滨工业大学控制与仿真中心
出处
《系统仿真学报》
CAS
CSCD
北大核心
2024年第9期2137-2148,共12页
基金
国家自然科学基金(62273119)。
文摘
为提升静态环境下移动机器人路径规划能力,解决传统Q-learning算法在路径规划中收敛速度慢的问题,提出一种基于多步信息辅助机制的Q-learning改进算法。利用ε-greedy策略中贪婪动作的多步信息与历史最优路径长度更新资格迹,使有效的资格迹在算法迭代中持续发挥作用,用保存的多步信息解决可能落入的循环陷阱;使用局部多花朵的花授粉算法初始化Q值表,提升机器人前期搜索效率;基于机器人不同探索阶段的目的,结合迭代路径长度的标准差与机器人成功到达目标点的次数设计动作选择策略,以增强算法对环境信息探索与利用的平衡能力。实验结果表明:该算法具有较快的收敛速度,验证了算法的可行性与有效性。
关键词
路径规划
Q-LEARNING
收敛速度
动作选择策略
栅格地图
Keywords
path planning
Q-learning
convergence speed
action selection strategy
grid map
分类号
TP391.9 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
连通约束下的经验增强多智能体路径规划算法
2
作者
张李
机构
福建师范大学计算机与网络空间安全学院
出处
《福建电脑》
2023年第3期1-8,共8页
基金
国家自然科学基金(No.61873033)
福建省自然科学基金重点项目(No.2020H0012)资助。
文摘
避障与通信连通约束下的多智能体路径规划问题是多智能体领域的一个热点问题。本文研究了智能体从起始区域出发,在仅指定目标区域而不指定每个智能体具体目标点的场景,多智能体需要在保持避障约束与通信连通约束下找到最优的路径和各自的目标点。针对传统深度Q网络和Double-DQN算法存在收敛效率低、因探索导致安全性低的问题,提出一个基于经验增强的强化学习的多智能体路径规划算法。首先,设计一种奖励函数构造方法,综合考虑了多智能体路径规划任务中避障约束与通信连通约束的影响;其次,智能体在行动过程中记录历史经验,对各自的历史经验进行评估;然后,在动作选择策略中加入历史经验的指导,使用经验增强的动作选择策略的智能体有更高概率前往高价值状态;最后,进行实验验证。结果显示,该方法相比于传统深度Q网络与Double-DQN算法可以更快找到一个最优解,收敛效率提升了41%和11%,避障指标提升了10%和3%,连通指标提升了3%与2%。
关键词
强化学习
多智能体系统
路径规划
动作选择策略
经验增强
Keywords
Reinforcement Learning
Multi-agent System
Path Planning
Action Selection Strategy
Experience Enhance
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于启发式强化学习的AGV路径规划
被引量:
9
3
作者
唐恒亮
唐滋芳
董晨刚
尹棋正
海秋茹
机构
北京物资学院信息学院
出处
《北京工业大学学报》
CAS
CSCD
北大核心
2021年第8期895-903,共9页
基金
教育部人文社科基金资助项目(20YJCZH200)
北京市教育委员会科技计划资助项目(KM202110037002)
+1 种基金
北京市“高创计划”青年拔尖人才资助项目(2017000026833ZK25)
北京市通州区运河计划领军人才资助项目(YHLB2017038)
文摘
针对传统算法、智能算法与强化学习算法在自动引导小车(automated guided vehicle,AGV)路径规划中收敛速度慢、学习效率低的问题,提出一种启发式强化学习算法,并针对传统Q(λ)算法,设计启发式奖励函数和启发式动作选择策略,以此强化智能体对优质行为的探索,提高算法学习效率.通过仿真对比实验,验证了基于改进Q(λ)启发式强化学习算法在探索次数、规划时间、路径长度与路径转角上都具有一定的优势.
关键词
自动引导小车(automated
guided
vehicle
AGV)
强化学习
Q(λ)算法
启发式奖励函数
启发式
动作选择策略
路径规划
Keywords
automated guided vehicle(AGV)
reinforcement learning
Q(λ)algorithm
heuristic reward function
heuristic action selection strategy
path planning
分类号
U461 [机械工程—车辆工程]
TP308 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于深度强化学习的网络攻击路径规划方法
被引量:
2
4
作者
高文龙
周天阳
赵子恒
朱俊虎
机构
信息工程大学
出处
《信息安全学报》
CSCD
2022年第5期65-78,共14页
文摘
攻击路径规划对实现自动化渗透测试具有重要意义,在现实环境中攻击者很难获取全面准确的网络及配置信息,面向未知渗透测试环境下的攻击路径规划,提出了基于深度强化学习的攻击路径规划方法。首先,对渗透测试问题的状态空间和动作空间进行形式化描述,引入信息收集动作增强对环境的感知能力。然后,智能体通过与环境的自主交互进行学习,寻找最大化长期收益的最优策略,从而指导攻击者进行路径规划。当前深度强化学习算法应用于攻击路径规划存在适应性不强和收敛困难等问题,限制了其处理复杂渗透测试环境的能力。智能体在训练初期通过盲目探索得到的动作序列在维度迅速增长时质量会急剧下降,有时很难完成目标,而且低质量的动作序列大量积累会导致算法不收敛甚至神经元死亡。针对此问题,本文提出的深度强化学习算法在DDQN算法的基础上增加了路径启发信息和深度优先渗透的动作选择策略。路径启发信息充分利用历史经验,在训练初期对智能体的学习过程加以引导,深度优先渗透的动作选择策略在一定程度上对动作空间进行了剪枝,加速智能体的学习过程。最后,通过与其他深度强化学习算法在相同实验条件下的对比,验证了本文算法收敛速度更快,运行时间缩短30%以上。
关键词
深度强化学习
路径启发信息
深度优先渗透的
动作选择策略
攻击路径规划
Keywords
deep reinforcement learning
path-heuristic information
the action selection strategy of depth-first penetra-tion
attack path planning
分类号
TP393.0 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
存在危险区域的路径规划问题研究
被引量:
1
5
作者
张震
臧兆祥
郭鸿村
田佩
机构
三峡大学水电工程智能视觉监测湖北省重点实验室
三峡大学计算机与信息学院
出处
《长江信息通信》
2022年第4期14-19,共6页
基金
国家自然科学基金(No.61502274)
三峡大学水电工程智能视觉监测湖北省重点实验室开放基金(No.2015KLA08)资助项目。
文摘
为解决标准强化学习算法无法直接应用于存在危险区域的兵棋推演路径规划这一问题,文章提出了一种特殊的奖励机制,用来引导强化学习算法解决该问题。在此基础上,设计了一种探索率递减变化的方法,并在不同难度的实验环境中对Q学习算法的ε-greedy、轮盘赌、玻尔兹曼探索三种动作选择策略进行了测试。实验结果表明,按照本文设计的探索率递减变化方法设置探索率时,算法的性能优于其他三种动作选择策略,收敛时间至少缩短了38.4%,实时性和准确性基本满足兵棋推演的要求,可用于解决兵棋推演路径规划问题。
关键词
陆战兵棋推演
强化学习
路径规划
Q学习
动作选择策略
Keywords
wargaming
reinforcement learning
path planning
Q-learning
action selection strategy
分类号
TP3 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于多步信息辅助的Q-learning路径规划算法
王越龙
王松艳
晁涛
《系统仿真学报》
CAS
CSCD
北大核心
2024
0
下载PDF
职称材料
2
连通约束下的经验增强多智能体路径规划算法
张李
《福建电脑》
2023
0
下载PDF
职称材料
3
基于启发式强化学习的AGV路径规划
唐恒亮
唐滋芳
董晨刚
尹棋正
海秋茹
《北京工业大学学报》
CAS
CSCD
北大核心
2021
9
下载PDF
职称材料
4
基于深度强化学习的网络攻击路径规划方法
高文龙
周天阳
赵子恒
朱俊虎
《信息安全学报》
CSCD
2022
2
下载PDF
职称材料
5
存在危险区域的路径规划问题研究
张震
臧兆祥
郭鸿村
田佩
《长江信息通信》
2022
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部