期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
元博弈平衡和多Agent强化学习的MetaQ算法 被引量:2
1
作者 王皓 高阳 《计算机研究与发展》 EI CSCD 北大核心 2006年第z1期137-141,共5页
多Agent强化学习(MARL)是强化学习(RL)在多Agent环境中的推广.其中,NashQ学习算法是一个里程碑式的贡献.然而NashQ存在着3点不足:①Nash平衡的"混合策略"思想在MARL中的意义不明确;②一个博弈的Nash平衡可能不是Pareto最优的;... 多Agent强化学习(MARL)是强化学习(RL)在多Agent环境中的推广.其中,NashQ学习算法是一个里程碑式的贡献.然而NashQ存在着3点不足:①Nash平衡的"混合策略"思想在MARL中的意义不明确;②一个博弈的Nash平衡可能不是Pareto最优的;③Nash平衡的计算比较复杂.这3点不足都来源于"Agent是Nash理性的"这一假设.一个称为"MetaQ"的多Agent Q学习算法以元博弈理论为基础,通过改变Agent的理性来避免所有的这些不足.研究证明,MetaQ算法具有很好的理论解释和实验性能. 展开更多
关键词 强化学习 多AGENT系统 元博弈 metaq
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部