期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于内部结构MPoMDP模型的策略梯度学习算法 被引量:1
1
作者 张润梅 王浩 +2 位作者 张佑生 姚宏亮 方长胜 《计算机工程与应用》 CSCD 北大核心 2009年第7期20-23,共4页
为了提高MPOMDP模型的知识表示能力和推理效率,提出一种基于Agent内部结构的MPOMDP模型。该模型能表示Agent的内部结构及其时间演化,并通过将系统联合概率分布表示成每个Agent内部变量集的局部因式形式,以提高模型的推理效率。将GPI-PO... 为了提高MPOMDP模型的知识表示能力和推理效率,提出一种基于Agent内部结构的MPOMDP模型。该模型能表示Agent的内部结构及其时间演化,并通过将系统联合概率分布表示成每个Agent内部变量集的局部因式形式,以提高模型的推理效率。将GPI-POMDP算法扩展到基于内部结构的MPOMDP模型中,给出基于内部状态的多Agent策略梯度算法(MIS-GPOMDP),来求解基于内部结构的MPOMDP。实验结果表明MIS-GPOMDP算法具有较高的推理效率,且算法是收敛的。 展开更多
关键词 马尔可夫决策过程 强化学习 mpomdp模型 策略梯度算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部