期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
5
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于优先级扫描Dyna结构的贝叶斯Q学习方法
被引量:
6
1
作者
于俊
刘全
+2 位作者
傅启明
孙洪坤
陈桂兴
《通信学报》
EI
CSCD
北大核心
2013年第11期129-139,共11页
贝叶斯Q学习方法使用概率分布来描述Q值的不确定性,并结合Q值分布来选择动作,以达到探索与利用的平衡。然而贝叶斯Q学习存在着收敛速度慢且收敛精度低的问题。针对上述问题,提出一种基于优先级扫描Dyna结构的贝叶斯Q学习方法—Dyna-PS-B...
贝叶斯Q学习方法使用概率分布来描述Q值的不确定性,并结合Q值分布来选择动作,以达到探索与利用的平衡。然而贝叶斯Q学习存在着收敛速度慢且收敛精度低的问题。针对上述问题,提出一种基于优先级扫描Dyna结构的贝叶斯Q学习方法—Dyna-PS-BayesQL。该方法主要分为2部分:在学习部分,对环境的状态迁移函数及奖赏函数建模,并使用贝叶斯Q学习更新动作值函数的参数;在规划部分,基于建立的模型,使用优先级扫描方法和动态规划方法对动作值函数进行规划更新,以提高对历史经验信息的利用,从而提升方法收敛速度及收敛精度。将Dyna-PS-BayesQL应用于链问题和迷宫导航问题,实验结果表明,该方法能较好地平衡探索与利用,且具有较优的收敛速度及收敛精度。
展开更多
关键词
强化学习
马尔科夫决策过程
优先级扫描
Dyna结构
贝叶斯Q学习
下载PDF
职称材料
基于强化学习算法的多机器人系统的冲突消解策略
被引量:
7
2
作者
任燚
陈宗海
《控制与决策》
EI
CSCD
北大核心
2006年第4期430-434,439,共6页
多机器人系统中,随着机器人数目的增加,系统中的冲突呈指数级增加,甚至出现死锁.本文提出了基于过程奖赏和优先扫除的强化学习算法作为多机器人系统的冲突消解策略.针对典型的多机器人可识别群体觅食任务,以计算机仿真为手段,以收集的...
多机器人系统中,随着机器人数目的增加,系统中的冲突呈指数级增加,甚至出现死锁.本文提出了基于过程奖赏和优先扫除的强化学习算法作为多机器人系统的冲突消解策略.针对典型的多机器人可识别群体觅食任务,以计算机仿真为手段,以收集的目标物数量为系统性能指标,以算法收敛时学习次数为学习速度指标,进行仿真研究,并与基于全局奖赏和Q学习算法等其他9种算法进行比较.结果表明所提出的基于过程奖赏和优先扫除的强化学习算法能显著减少冲突,避免死锁,提高系统整体性能.
展开更多
关键词
多机器人
过程奖赏
优先扫除
强化学习
下载PDF
职称材料
自主移动机器人中基于强化学习的噪声消解策略(英文)
3
作者
任燚
陈宗海
《系统仿真学报》
EI
CAS
CSCD
北大核心
2005年第7期1699-1703,共5页
基于行为的自主移动机器人在获取外界信息时不可避免地会引入噪声,给其系统性能造成一定的影响。提出了一种基于过程奖赏和优先扫除(PS-process)的强化学习算法作为噪声消解策略。针对典型的觅食任务,以计算机仿真为手段。并与其它四种...
基于行为的自主移动机器人在获取外界信息时不可避免地会引入噪声,给其系统性能造成一定的影响。提出了一种基于过程奖赏和优先扫除(PS-process)的强化学习算法作为噪声消解策略。针对典型的觅食任务,以计算机仿真为手段。并与其它四种算法——基于结果奖赏和优先扫除(PS-result)、基于过程奖赏和Q学习(Q-process)、基于结果奖赏和Q学习(Q-result)和基于手工编程策略(Hand)进行比较。研究结果表明比起其它四种算法,本文所提出的基于过程奖赏和优先扫除的强化学习算法能有效降低噪声的影响,提高了系统整体性能。
展开更多
关键词
移动机器人
噪声
过程奖赏
优先扫除
强化学习
下载PDF
职称材料
自主机器人的噪声影响及其消解策略的研究
4
作者
任燚
陈宗海
《计算机仿真》
CSCD
2005年第10期183-185,194,共4页
该文针对典型的觅食任务,以计算机仿真为手段,直观地揭示噪声对机器人系统性能的影响。在此基础上,提出了以过程奖赏(process reward)代替传统的结果奖赏(resu lt reward),并与优先扫除(prioritized sweep ing)的强化学习算法结合作为...
该文针对典型的觅食任务,以计算机仿真为手段,直观地揭示噪声对机器人系统性能的影响。在此基础上,提出了以过程奖赏(process reward)代替传统的结果奖赏(resu lt reward),并与优先扫除(prioritized sweep ing)的强化学习算法结合作为噪声消解策略。然后与基于结果奖赏的Q学习算法(Q-learn ing)等其它四种算法进行比较,结果表明基于过程奖赏和优先扫除的强化学习算法能显著降低噪声的影响,提高了系统整体性能。
展开更多
关键词
移动机器人
噪声
过程奖赏
优先扫除
强化学习
下载PDF
职称材料
多步截断优先扫描强化学习算法
5
作者
李春贵
《计算机工程》
CAS
CSCD
北大核心
2005年第11期13-15,共3页
研究了优先扫描的强化学习方法,通过定义新的迹,把多步截断即时差分学习用于集成规划的优先扫描强化学习,用多步截断即时差分来定义扫描优先权,提出一种改进的优先扫描强化学习算法并进行仿真实验,实验结果表明,新算法的学习效率有明显...
研究了优先扫描的强化学习方法,通过定义新的迹,把多步截断即时差分学习用于集成规划的优先扫描强化学习,用多步截断即时差分来定义扫描优先权,提出一种改进的优先扫描强化学习算法并进行仿真实验,实验结果表明,新算法的学习效率有明显的提高。
展开更多
关键词
强化学习
优先扫描
多步截断
MARKOV过程
下载PDF
职称材料
题名
基于优先级扫描Dyna结构的贝叶斯Q学习方法
被引量:
6
1
作者
于俊
刘全
傅启明
孙洪坤
陈桂兴
机构
苏州大学计算机科学与技术学院
吉林大学符号计算与知识工程教育部重点实验室
出处
《通信学报》
EI
CSCD
北大核心
2013年第11期129-139,共11页
基金
国家自然科学基金资助项目(61070223
61103045
+5 种基金
61070122
61272005)
江苏省自然科学基金资助项目(BK2012616)
江苏省高校自然科学研究基金资助项目(09KJA520002
09KJB520012)
吉林大学符号计算与知识工程教育部重点实验室基金资助项目(93K172012K04)~~
文摘
贝叶斯Q学习方法使用概率分布来描述Q值的不确定性,并结合Q值分布来选择动作,以达到探索与利用的平衡。然而贝叶斯Q学习存在着收敛速度慢且收敛精度低的问题。针对上述问题,提出一种基于优先级扫描Dyna结构的贝叶斯Q学习方法—Dyna-PS-BayesQL。该方法主要分为2部分:在学习部分,对环境的状态迁移函数及奖赏函数建模,并使用贝叶斯Q学习更新动作值函数的参数;在规划部分,基于建立的模型,使用优先级扫描方法和动态规划方法对动作值函数进行规划更新,以提高对历史经验信息的利用,从而提升方法收敛速度及收敛精度。将Dyna-PS-BayesQL应用于链问题和迷宫导航问题,实验结果表明,该方法能较好地平衡探索与利用,且具有较优的收敛速度及收敛精度。
关键词
强化学习
马尔科夫决策过程
优先级扫描
Dyna结构
贝叶斯Q学习
Keywords
reinforcement learning
Markov decision
process
prioritized sweeping
Dyiaa architecture
Bayesian Qlearning
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于强化学习算法的多机器人系统的冲突消解策略
被引量:
7
2
作者
任燚
陈宗海
机构
中国科学技术大学自动化系
出处
《控制与决策》
EI
CSCD
北大核心
2006年第4期430-434,439,共6页
文摘
多机器人系统中,随着机器人数目的增加,系统中的冲突呈指数级增加,甚至出现死锁.本文提出了基于过程奖赏和优先扫除的强化学习算法作为多机器人系统的冲突消解策略.针对典型的多机器人可识别群体觅食任务,以计算机仿真为手段,以收集的目标物数量为系统性能指标,以算法收敛时学习次数为学习速度指标,进行仿真研究,并与基于全局奖赏和Q学习算法等其他9种算法进行比较.结果表明所提出的基于过程奖赏和优先扫除的强化学习算法能显著减少冲突,避免死锁,提高系统整体性能.
关键词
多机器人
过程奖赏
优先扫除
强化学习
Keywords
Multiple mobile robot system
process reward
,
prioritized sweeping
Reinforcement learning
分类号
TP242 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
自主移动机器人中基于强化学习的噪声消解策略(英文)
3
作者
任燚
陈宗海
机构
中国科学技术大学自动化系
出处
《系统仿真学报》
EI
CAS
CSCD
北大核心
2005年第7期1699-1703,共5页
文摘
基于行为的自主移动机器人在获取外界信息时不可避免地会引入噪声,给其系统性能造成一定的影响。提出了一种基于过程奖赏和优先扫除(PS-process)的强化学习算法作为噪声消解策略。针对典型的觅食任务,以计算机仿真为手段。并与其它四种算法——基于结果奖赏和优先扫除(PS-result)、基于过程奖赏和Q学习(Q-process)、基于结果奖赏和Q学习(Q-result)和基于手工编程策略(Hand)进行比较。研究结果表明比起其它四种算法,本文所提出的基于过程奖赏和优先扫除的强化学习算法能有效降低噪声的影响,提高了系统整体性能。
关键词
移动机器人
噪声
过程奖赏
优先扫除
强化学习
Keywords
mobile robot
noise
process reward
prioritized sweeping
reinforcement learning
分类号
TP242 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
自主机器人的噪声影响及其消解策略的研究
4
作者
任燚
陈宗海
机构
中国科学技术大学自动化系
出处
《计算机仿真》
CSCD
2005年第10期183-185,194,共4页
文摘
该文针对典型的觅食任务,以计算机仿真为手段,直观地揭示噪声对机器人系统性能的影响。在此基础上,提出了以过程奖赏(process reward)代替传统的结果奖赏(resu lt reward),并与优先扫除(prioritized sweep ing)的强化学习算法结合作为噪声消解策略。然后与基于结果奖赏的Q学习算法(Q-learn ing)等其它四种算法进行比较,结果表明基于过程奖赏和优先扫除的强化学习算法能显著降低噪声的影响,提高了系统整体性能。
关键词
移动机器人
噪声
过程奖赏
优先扫除
强化学习
Keywords
Mobile robot
Noise
process reward
prioritized sweeping
Reinforcement learning
分类号
TP21 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
多步截断优先扫描强化学习算法
5
作者
李春贵
机构
广西工学院计算机工程系
出处
《计算机工程》
CAS
CSCD
北大核心
2005年第11期13-15,共3页
基金
广西自然科学基金资助项目(桂科自0481016)
广西工学院博士基金资助项目
文摘
研究了优先扫描的强化学习方法,通过定义新的迹,把多步截断即时差分学习用于集成规划的优先扫描强化学习,用多步截断即时差分来定义扫描优先权,提出一种改进的优先扫描强化学习算法并进行仿真实验,实验结果表明,新算法的学习效率有明显的提高。
关键词
强化学习
优先扫描
多步截断
MARKOV过程
Keywords
Reinforcement learning(RL)
prioritized sweeping
Truncated multi-step
Markov
process
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于优先级扫描Dyna结构的贝叶斯Q学习方法
于俊
刘全
傅启明
孙洪坤
陈桂兴
《通信学报》
EI
CSCD
北大核心
2013
6
下载PDF
职称材料
2
基于强化学习算法的多机器人系统的冲突消解策略
任燚
陈宗海
《控制与决策》
EI
CSCD
北大核心
2006
7
下载PDF
职称材料
3
自主移动机器人中基于强化学习的噪声消解策略(英文)
任燚
陈宗海
《系统仿真学报》
EI
CAS
CSCD
北大核心
2005
0
下载PDF
职称材料
4
自主机器人的噪声影响及其消解策略的研究
任燚
陈宗海
《计算机仿真》
CSCD
2005
0
下载PDF
职称材料
5
多步截断优先扫描强化学习算法
李春贵
《计算机工程》
CAS
CSCD
北大核心
2005
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部