期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于强化学习算法的多机器人系统的冲突消解策略 被引量:7
1
作者 任燚 陈宗海 《控制与决策》 EI CSCD 北大核心 2006年第4期430-434,439,共6页
多机器人系统中,随着机器人数目的增加,系统中的冲突呈指数级增加,甚至出现死锁.本文提出了基于过程奖赏和优先扫除的强化学习算法作为多机器人系统的冲突消解策略.针对典型的多机器人可识别群体觅食任务,以计算机仿真为手段,以收集的... 多机器人系统中,随着机器人数目的增加,系统中的冲突呈指数级增加,甚至出现死锁.本文提出了基于过程奖赏和优先扫除的强化学习算法作为多机器人系统的冲突消解策略.针对典型的多机器人可识别群体觅食任务,以计算机仿真为手段,以收集的目标物数量为系统性能指标,以算法收敛时学习次数为学习速度指标,进行仿真研究,并与基于全局奖赏和Q学习算法等其他9种算法进行比较.结果表明所提出的基于过程奖赏和优先扫除的强化学习算法能显著减少冲突,避免死锁,提高系统整体性能. 展开更多
关键词 多机器人 过程奖赏 优先扫除 强化学习
下载PDF
自主移动机器人中基于强化学习的噪声消解策略(英文)
2
作者 任燚 陈宗海 《系统仿真学报》 EI CAS CSCD 北大核心 2005年第7期1699-1703,共5页
基于行为的自主移动机器人在获取外界信息时不可避免地会引入噪声,给其系统性能造成一定的影响。提出了一种基于过程奖赏和优先扫除(PS-process)的强化学习算法作为噪声消解策略。针对典型的觅食任务,以计算机仿真为手段。并与其它四种... 基于行为的自主移动机器人在获取外界信息时不可避免地会引入噪声,给其系统性能造成一定的影响。提出了一种基于过程奖赏和优先扫除(PS-process)的强化学习算法作为噪声消解策略。针对典型的觅食任务,以计算机仿真为手段。并与其它四种算法——基于结果奖赏和优先扫除(PS-result)、基于过程奖赏和Q学习(Q-process)、基于结果奖赏和Q学习(Q-result)和基于手工编程策略(Hand)进行比较。研究结果表明比起其它四种算法,本文所提出的基于过程奖赏和优先扫除的强化学习算法能有效降低噪声的影响,提高了系统整体性能。 展开更多
关键词 移动机器人 噪声 过程奖赏 优先扫除 强化学习
下载PDF
自主机器人的噪声影响及其消解策略的研究
3
作者 任燚 陈宗海 《计算机仿真》 CSCD 2005年第10期183-185,194,共4页
该文针对典型的觅食任务,以计算机仿真为手段,直观地揭示噪声对机器人系统性能的影响。在此基础上,提出了以过程奖赏(process reward)代替传统的结果奖赏(resu lt reward),并与优先扫除(prioritized sweep ing)的强化学习算法结合作为... 该文针对典型的觅食任务,以计算机仿真为手段,直观地揭示噪声对机器人系统性能的影响。在此基础上,提出了以过程奖赏(process reward)代替传统的结果奖赏(resu lt reward),并与优先扫除(prioritized sweep ing)的强化学习算法结合作为噪声消解策略。然后与基于结果奖赏的Q学习算法(Q-learn ing)等其它四种算法进行比较,结果表明基于过程奖赏和优先扫除的强化学习算法能显著降低噪声的影响,提高了系统整体性能。 展开更多
关键词 移动机器人 噪声 过程奖赏 优先扫除 强化学习
下载PDF
改进的CE-Q算法用于多Agent觅食的研究
4
作者 雷默涵 杨萍 《机械设计》 CSCD 北大核心 2015年第6期1-4,共4页
针对对策论框架下的诸多强化学习方法在复杂环境多Agent任务中存在的缺乏理性、难以保证收敛、计算复杂度较高和效率偏低等问题,文中在CE-Q强化算法的基本理论上,提出了加入对于动作过程的即时奖赏的CE-Q改进强化算法,有效地改善了上述... 针对对策论框架下的诸多强化学习方法在复杂环境多Agent任务中存在的缺乏理性、难以保证收敛、计算复杂度较高和效率偏低等问题,文中在CE-Q强化算法的基本理论上,提出了加入对于动作过程的即时奖赏的CE-Q改进强化算法,有效地改善了上述问题,并在执行任务过程中对Agent进行指导,很好地提高了系统效率。最后以多Agent觅食为任务,Matlab为平台进行仿真实试验,并与普通CE-Q及FF-Q算法进行对比,验证了其在复杂环境下对于多Agent系统的有效性和优越性。 展开更多
关键词 CE-Q强化学习算法 动作过程奖赏 多Agent觅食任务 系统效率
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部