期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于对称扰动采样的Actor-critic算法 被引量:1
1
作者 张春元 朱清新 《控制与决策》 EI CSCD 北大核心 2015年第12期2161-2167,共7页
针对传统Actor-critic(AC)方法在求解连续空间序贯决策问题时收敛速度较慢、收敛质量不高的问题,提出一种基于对称扰动采样的AC算法框架.首先,框架采用高斯分布作为策略分布,在每一时间步对当前动作均值对称扰动,从而生成两个动作与环... 针对传统Actor-critic(AC)方法在求解连续空间序贯决策问题时收敛速度较慢、收敛质量不高的问题,提出一种基于对称扰动采样的AC算法框架.首先,框架采用高斯分布作为策略分布,在每一时间步对当前动作均值对称扰动,从而生成两个动作与环境并行交互;然后,基于两者的最大时域差分(TD)误差选取Agent的行为动作,并对值函数参数进行更新;最后,基于两者的平均常规梯度或增量自然梯度对策略参数进行更新.理论分析和仿真结果表明,所提框架具有较好的收敛性和计算效率. 展开更多
关键词 Actor-critic方法 对称扰动采样 连续空间 强化学习
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部