-
题名基于点的FO-POMDP值迭代方法研究
被引量:1
- 1
-
-
作者
陈丽娜
黄宏斌
邓苏
-
机构
国防科学技术大学信息系统工程重点实验室
-
出处
《计算机工程》
CAS
CSCD
2013年第10期217-220,共4页
-
基金
国家自然科学基金资助项目(71071160)
-
文摘
在部分可观测马尔可夫决策过程(POMDP)的基础上,给出一阶部分可观测马尔科夫决策过程(FO-POMDP),用一阶逻辑的情景演算结构表达POMDP。对FO-POMDP模型中状态的抽象层次进行刻画,提出状态粒度、信念状态粒度的概念。采用粒度归结方法,将信念状态的粒度归结到某一确定粒度下,运用确定粒度下的信念点距离度量方法,将基于点的价值迭代(PBVI)扩展到逻辑抽象层面提出一阶PBVI(FO-PBVI)。实验结果证明,该算法的求解速度较快,求解质量较好。
-
关键词
部分可观测马尔科夫决策过程
状态空间
信念状态
粒度归结
基于点的值迭代
-
Keywords
Partially Observable Markov Decision Processes(POMDP)
state space
belief state
granularity resolution
Point-basedValue Iteration(PBVI)
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于一阶信念点的一阶POMDP值迭代算法研究
- 2
-
-
作者
陈丽娜
黄宏斌
邓苏
-
机构
国防科技大学信息系统工程重点实验室
-
出处
《计算机工程与应用》
CSCD
2012年第15期7-11,共5页
-
基金
国家自然科学基金(No.71071160)
-
文摘
主要研究一阶部分可观测马尔可夫决策过程的近似求解方法。给出了一阶信念、一阶信念粒度、流关键度的概念;提出了基于流关键度的粒度归结方法,统一一阶信念粒度;提出了一阶信念粒度距离度量方法,提出FO-PBVI方法,将PBVI提升到抽象层面。通过Tiger和Tag实验对方法进行了验证分析,通过实验可见FO-PBVI方法能够很好地适应问题规模的变化,能够求解较大规模的规划问题。
-
关键词
一阶部分可观测马尔可夫决策过程(POMDP)
一阶信念状态
粒度归结
值迭代
-
Keywords
First Order-Partially-Observable Markov Decision Processes(FO-POMDP)
First Order(FO)-belief state
granularity resolution
value iteration
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-