-
题名基于贝叶斯优化的强化学习广义不动点解逼近
- 1
-
-
作者
陈兴国
吕咏洲
巩宇
陈耀雄
-
机构
南京邮电大学大数据安全与智能处理重点实验室
-
出处
《山东大学学报(工学版)》
CAS
2024年第4期21-34,共14页
-
基金
国家自然科学基金资助项目(62276142,62206133,62202240,62192783)
科技创新2030——“新一代人工智能”重大项目资助项目(2018AAA0100905)
+1 种基金
江苏省产业前瞻与关键核心技术竞争资助项目(BE2021028)
深圳市中央引导地方科技发展资金资助项目(2021Szvup056)。
-
文摘
针对强化学习不动点的解更优这一问题,提出广义不动点解模型设计,该设计使用n步自举法的不动点解扩展和基于线性插值法的不动点解构造方法。将该设计应用于成熟的CBMPI算法框架上,提出基于广义不动点的CBMPI(n,β)算法。针对如何表达并逼近最优解这一问题,提出基于贝叶斯优化的广义不动点解的参数优化和基于集成学习的更高质量的解。在经典的10×10规模的Tetris游戏环境中验证算法提出的有效性。试验结果证明了基于线性插值法的广义不动点构造能比n步传统不动点效果好,其效果与其超参数步长n和插值参数β有很大关联。在100局的Tetris游戏中,平均分达到4 388.3,表明贝叶斯优化技术可以找到多组表现优异的策略。对表现优异的四组广义不动点的策略参数(贝叶斯优化技术的结果)进行策略集成和值函数集成,得到更高质量的解。平均分可以分别达到4 526.29和4 579.74,试验结果表明基于广义不动点的策略集成和基于广义不动点的值函数集成的分数相较于广义不动点的分数有小幅度提高,证实了可以通过集成学习寻找更高质量的解。
-
关键词
强化学习
值函数近似估计
不动点
贝叶斯优化
俄罗斯方块
-
Keywords
reinforcement learning
value function approximation
fixed point
Bayesian optimization
Tetris
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-