期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种新颖的多agent强化学习方法
被引量:
8
1
作者
周浦城
洪炳镕
黄庆成
《电子学报》
EI
CAS
CSCD
北大核心
2006年第8期1488-1491,共4页
提出了一种综合了模块化结构、利益分配学习以及对手建模技术的多agent强化学习方法,利用模块化学习结构来克服状态空间的维数灾问题,将Q-学习与利益分配学习相结合以加快学习速度,采用基于观察的对手建模来预测其他agent的动作分布.追...
提出了一种综合了模块化结构、利益分配学习以及对手建模技术的多agent强化学习方法,利用模块化学习结构来克服状态空间的维数灾问题,将Q-学习与利益分配学习相结合以加快学习速度,采用基于观察的对手建模来预测其他agent的动作分布.追捕问题的仿真结果验证了所提方法的有效性.
展开更多
关键词
多AGENT
学习
Q-
学习
利益分配学习
模块化结构
对手建模
下载PDF
职称材料
题名
一种新颖的多agent强化学习方法
被引量:
8
1
作者
周浦城
洪炳镕
黄庆成
机构
哈尔滨工业大学计算机科学与技术学院
出处
《电子学报》
EI
CAS
CSCD
北大核心
2006年第8期1488-1491,共4页
基金
国家自然科学基金(No.69985002)
文摘
提出了一种综合了模块化结构、利益分配学习以及对手建模技术的多agent强化学习方法,利用模块化学习结构来克服状态空间的维数灾问题,将Q-学习与利益分配学习相结合以加快学习速度,采用基于观察的对手建模来预测其他agent的动作分布.追捕问题的仿真结果验证了所提方法的有效性.
关键词
多AGENT
学习
Q-
学习
利益分配学习
模块化结构
对手建模
Keywords
multi-agent learning
Q-learning
profit-sharing learning
modular architecture
opponent modeling
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
一种新颖的多agent强化学习方法
周浦城
洪炳镕
黄庆成
《电子学报》
EI
CAS
CSCD
北大核心
2006
8
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部