期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于优先级扫描Dyna结构的贝叶斯Q学习方法 被引量:6
1
作者 于俊 刘全 +2 位作者 傅启明 孙洪坤 陈桂兴 《通信学报》 EI CSCD 北大核心 2013年第11期129-139,共11页
贝叶斯Q学习方法使用概率分布来描述Q值的不确定性,并结合Q值分布来选择动作,以达到探索与利用的平衡。然而贝叶斯Q学习存在着收敛速度慢且收敛精度低的问题。针对上述问题,提出一种基于优先级扫描Dyna结构的贝叶斯Q学习方法—Dyna-PS-B... 贝叶斯Q学习方法使用概率分布来描述Q值的不确定性,并结合Q值分布来选择动作,以达到探索与利用的平衡。然而贝叶斯Q学习存在着收敛速度慢且收敛精度低的问题。针对上述问题,提出一种基于优先级扫描Dyna结构的贝叶斯Q学习方法—Dyna-PS-BayesQL。该方法主要分为2部分:在学习部分,对环境的状态迁移函数及奖赏函数建模,并使用贝叶斯Q学习更新动作值函数的参数;在规划部分,基于建立的模型,使用优先级扫描方法和动态规划方法对动作值函数进行规划更新,以提高对历史经验信息的利用,从而提升方法收敛速度及收敛精度。将Dyna-PS-BayesQL应用于链问题和迷宫导航问题,实验结果表明,该方法能较好地平衡探索与利用,且具有较优的收敛速度及收敛精度。 展开更多
关键词 强化学习 马尔科夫决策过程 优先级扫描 Dyna结构 贝叶斯Q学习
下载PDF
基于强化学习算法的多机器人系统的冲突消解策略 被引量:7
2
作者 任燚 陈宗海 《控制与决策》 EI CSCD 北大核心 2006年第4期430-434,439,共6页
多机器人系统中,随着机器人数目的增加,系统中的冲突呈指数级增加,甚至出现死锁.本文提出了基于过程奖赏和优先扫除的强化学习算法作为多机器人系统的冲突消解策略.针对典型的多机器人可识别群体觅食任务,以计算机仿真为手段,以收集的... 多机器人系统中,随着机器人数目的增加,系统中的冲突呈指数级增加,甚至出现死锁.本文提出了基于过程奖赏和优先扫除的强化学习算法作为多机器人系统的冲突消解策略.针对典型的多机器人可识别群体觅食任务,以计算机仿真为手段,以收集的目标物数量为系统性能指标,以算法收敛时学习次数为学习速度指标,进行仿真研究,并与基于全局奖赏和Q学习算法等其他9种算法进行比较.结果表明所提出的基于过程奖赏和优先扫除的强化学习算法能显著减少冲突,避免死锁,提高系统整体性能. 展开更多
关键词 多机器人 过程奖赏 优先扫除 强化学习
下载PDF
自主移动机器人中基于强化学习的噪声消解策略(英文)
3
作者 任燚 陈宗海 《系统仿真学报》 EI CAS CSCD 北大核心 2005年第7期1699-1703,共5页
基于行为的自主移动机器人在获取外界信息时不可避免地会引入噪声,给其系统性能造成一定的影响。提出了一种基于过程奖赏和优先扫除(PS-process)的强化学习算法作为噪声消解策略。针对典型的觅食任务,以计算机仿真为手段。并与其它四种... 基于行为的自主移动机器人在获取外界信息时不可避免地会引入噪声,给其系统性能造成一定的影响。提出了一种基于过程奖赏和优先扫除(PS-process)的强化学习算法作为噪声消解策略。针对典型的觅食任务,以计算机仿真为手段。并与其它四种算法——基于结果奖赏和优先扫除(PS-result)、基于过程奖赏和Q学习(Q-process)、基于结果奖赏和Q学习(Q-result)和基于手工编程策略(Hand)进行比较。研究结果表明比起其它四种算法,本文所提出的基于过程奖赏和优先扫除的强化学习算法能有效降低噪声的影响,提高了系统整体性能。 展开更多
关键词 移动机器人 噪声 过程奖赏 优先扫除 强化学习
下载PDF
自主机器人的噪声影响及其消解策略的研究
4
作者 任燚 陈宗海 《计算机仿真》 CSCD 2005年第10期183-185,194,共4页
该文针对典型的觅食任务,以计算机仿真为手段,直观地揭示噪声对机器人系统性能的影响。在此基础上,提出了以过程奖赏(process reward)代替传统的结果奖赏(resu lt reward),并与优先扫除(prioritized sweep ing)的强化学习算法结合作为... 该文针对典型的觅食任务,以计算机仿真为手段,直观地揭示噪声对机器人系统性能的影响。在此基础上,提出了以过程奖赏(process reward)代替传统的结果奖赏(resu lt reward),并与优先扫除(prioritized sweep ing)的强化学习算法结合作为噪声消解策略。然后与基于结果奖赏的Q学习算法(Q-learn ing)等其它四种算法进行比较,结果表明基于过程奖赏和优先扫除的强化学习算法能显著降低噪声的影响,提高了系统整体性能。 展开更多
关键词 移动机器人 噪声 过程奖赏 优先扫除 强化学习
下载PDF
多步截断优先扫描强化学习算法
5
作者 李春贵 《计算机工程》 CAS CSCD 北大核心 2005年第11期13-15,共3页
研究了优先扫描的强化学习方法,通过定义新的迹,把多步截断即时差分学习用于集成规划的优先扫描强化学习,用多步截断即时差分来定义扫描优先权,提出一种改进的优先扫描强化学习算法并进行仿真实验,实验结果表明,新算法的学习效率有明显... 研究了优先扫描的强化学习方法,通过定义新的迹,把多步截断即时差分学习用于集成规划的优先扫描强化学习,用多步截断即时差分来定义扫描优先权,提出一种改进的优先扫描强化学习算法并进行仿真实验,实验结果表明,新算法的学习效率有明显的提高。 展开更多
关键词 强化学习 优先扫描 多步截断 MARKOV过程
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部