期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
稳定且受限的新强化学习SAC算法
1
作者 海日 张兴亮 +1 位作者 姜源 杨永健 《吉林大学学报(信息科学版)》 CAS 2024年第2期318-325,共8页
为解决由于固定温度SAC(Soft Actor Critic)算法中存在的Q函数高估可能会导致算法陷入局部最优的问题,通过深入分析提出了一个稳定且受限的SAC算法(SCSAC:Stable Constrained Soft Actor Critic)。该算法通过改进最大熵目标函数修复固... 为解决由于固定温度SAC(Soft Actor Critic)算法中存在的Q函数高估可能会导致算法陷入局部最优的问题,通过深入分析提出了一个稳定且受限的SAC算法(SCSAC:Stable Constrained Soft Actor Critic)。该算法通过改进最大熵目标函数修复固定温度SAC算法中的Q函数高估问题,同时增强算法在测试过程中稳定性的效果。最后,在4个OpenAI Gym Mujoco环境下对SCSAC算法进行了验证,实验结果表明,稳定且受限的SAC算法相比固定温度SAC算法可以有效减小Q函数高估出现的次数并能在测试中获得更加稳定的结果。 展开更多
关键词 强化学习 最大熵强化学习 q值高估 SAC算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部