期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
逻辑马尔可夫决策过程的正则条件概率理论 被引量:1
1
作者 王蓁蓁 邢汉承 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第4期439-447,共9页
增强学习已经开始向关系增强学习发展,并且产生了许多新的算法.大部分方法将命题表达提升为关系或计算逻辑的表达.这些方法已经表现出许多好的性质,但是相关的理论分析目前还缺乏,即为什么这些关系的增强学习具有良好的性质,因此提出基... 增强学习已经开始向关系增强学习发展,并且产生了许多新的算法.大部分方法将命题表达提升为关系或计算逻辑的表达.这些方法已经表现出许多好的性质,但是相关的理论分析目前还缺乏,即为什么这些关系的增强学习具有良好的性质,因此提出基础马尔可夫决策过程和逻辑马尔可夫决策过程的测度空间结构,利用现代概率论中条件数学期望和正则条件概率理论建立基础和逻辑两种马尔可夫决策过程之间的深刻联系,从而证实了逻辑马尔可夫决策过程中的最优策略在某种平均意义上是相应的基础马尔可夫决策过程的最优策略.最后由实例分析得出逻辑马尔可夫决策编程方法.建立逻辑马尔可夫决策过程的测度空间结构可以为关系增强学习提供数学理论框架. 展开更多
关键词 概率测度空间 逻辑马尔可夫决策过程 正则条件概率 增强学习
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部