-
题名多Agent Q学习几点问题的研究及改进
被引量:5
- 1
-
-
作者
孟祥萍
王圣镔
王欣欣
-
机构
长春工程学院电气与信息学院
东北电力大学信息工程学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2009年第9期2274-2276,共3页
-
基金
教育部科学技术研究基金项目(206035)
吉林省科技发展计划基金项目(20070530)
-
文摘
提出了一种新颖的基于Q-学习,蚁群算法和轮盘赌算法的多Agent强化学习。在强化学习算法中,当Agent数量增加到足够大时,就会出现动作空间灾难性问题,即:其交互困难,学习速度骤然下降。另外,由于Agent是利用Q值来选择下一步动作的,因此,在学习早期,动作的选择严重束缚于高Q值。在这里,把蚁群算法,轮盘赌算法和强化学习三者结合起来,期望解决上述提出的问题。最后,对新算法的理论分析和实验结果都证明了改进的Q学习是可行的,并且可以有效的提高学习效率。
-
关键词
多Agent强化学习算法
蚁群算法
轮盘赌算法
Q值
动作空间灾难
-
Keywords
multi-agent reinforcement learning algorithm
ant colony algorithm
roulette algorithm
Q value
disaster of action room
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-