期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
一种基于性能势的无折扣强化学习算法 被引量:2
1
作者 周如益 高阳 《广西师范大学学报(自然科学版)》 CAS 北大核心 2006年第4期58-61,共4页
传统基于性能势的学习算法能获得马尔可夫决策问题的最优策略。这些算法主要采用单路径采样的方法,使得学习算法效率不高。将性能势与强化学习相结合,提出了一种基于性能势的无折扣值迭代学习算法——G学习,并将其与经典的无折扣强化学... 传统基于性能势的学习算法能获得马尔可夫决策问题的最优策略。这些算法主要采用单路径采样的方法,使得学习算法效率不高。将性能势与强化学习相结合,提出了一种基于性能势的无折扣值迭代学习算法——G学习,并将其与经典的无折扣强化学习算法(R学习)相比较,获得了较好的实验结果。 展开更多
关键词 强化学习 性能势 无折扣 值迭代
下载PDF
平均奖赏强化学习算法研究 被引量:38
2
作者 高阳 周如益 +1 位作者 王皓 曹志新 《计算机学报》 EI CSCD 北大核心 2007年第8期1372-1378,共7页
顺序决策问题常用马尔可夫决策过程(MDP)建模.当决策行为执行从时刻点扩展到连续时间上时,经典的马尔可夫决策过程模型也扩展到半马尔可夫决策过程模型(SMDP).当系统参数未知时,强化学习技术被用来学习最优策略.文中基于性能势理论,证... 顺序决策问题常用马尔可夫决策过程(MDP)建模.当决策行为执行从时刻点扩展到连续时间上时,经典的马尔可夫决策过程模型也扩展到半马尔可夫决策过程模型(SMDP).当系统参数未知时,强化学习技术被用来学习最优策略.文中基于性能势理论,证明了平均奖赏强化学习的逼近定理.通过逼近相对参考状态的性能势值函数,研究一个新的平均奖赏强化学习算法——G-学习算法.G-学习算法既可以用于MDP,也可以用于SMDP.不同于经典的R-学习算法,G-学习算法采用相对参考状态的性能势值函数替代相对平均奖赏和的相对值函数.在顾客访问控制和生产库存仿真实验中,G-学习算法表现出优于R-学习算法和SMART算法的性能. 展开更多
关键词 平均奖赏强化学习 性能势 G-学习 马尔可夫决策过程 半马尔可夫决策过程
下载PDF
应用机器学习于Chi平方密写分析的研究 被引量:1
3
作者 葛屾 高阳 周如益 《计算机科学》 CSCD 北大核心 2007年第1期144-147,共4页
回顾当前的密写和密写分析技术,并将机器学习方法应用到经典的χ2密写分析上。给出了方法的框架并进行了实验,然后对实验结果进行分析和比较,得出了应用机器学习方法的χ2密写分析优于简单χ2密写分析的结论从而肯定了机器学习方法的有... 回顾当前的密写和密写分析技术,并将机器学习方法应用到经典的χ2密写分析上。给出了方法的框架并进行了实验,然后对实验结果进行分析和比较,得出了应用机器学习方法的χ2密写分析优于简单χ2密写分析的结论从而肯定了机器学习方法的有效性。最后指出了在密写分析技术中进一步应用机器学习方法的方向。 展开更多
关键词 机器学习 密写技术 Chi平方密写分析
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部