期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
MAS中基于多奖惩标准的Q学习算法研究
1
作者 乔林 罗杰 《计算机科学》 CSCD 北大核心 2012年第B06期235-237,共3页
传统的Q学习算法是基于单奖惩标准的。基于单奖惩标准的Q学习算法往往不能适应multi-agent system(MAS)面对的复杂变化的环境与状态,相反可能还会制约学习效率。提出的基于多奖惩标准的Q学习算法能够较好地适应复杂变化的状态与环境,分... 传统的Q学习算法是基于单奖惩标准的。基于单奖惩标准的Q学习算法往往不能适应multi-agent system(MAS)面对的复杂变化的环境与状态,相反可能还会制约学习效率。提出的基于多奖惩标准的Q学习算法能够较好地适应复杂变化的状态与环境,分阶段完成任务,不同阶段使用不同的奖惩标准,能够快速地完成阶段目标。以三维世界中的围捕问题为仿真平台,增加了围捕的难度和状态环境的复杂性。仿真实验表明,基于多奖惩标准的Q学习算法能够灵活地适应复杂变化的环境与状态,高效地完成学习任务。 展开更多
关键词 Q学习算法 多奖惩标准 MAS 三维围捕
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部