期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于层级深度强化学习的间歇控制算法 被引量:1
1
作者 李广源 史海波 孙杳如 《现代计算机(中旬刊)》 2018年第12期3-7,共5页
DDPG算法是一种端到端的深度强化学习算法,主要用于解决仿真任务。DDPG能够在具有高维度动作空间的任务中取得接近人类的水平,然而当任务的复杂性提高时,DDPG存在收敛时间长和最终效果差的问题。为了提高在复杂任务环境中算法的收敛速... DDPG算法是一种端到端的深度强化学习算法,主要用于解决仿真任务。DDPG能够在具有高维度动作空间的任务中取得接近人类的水平,然而当任务的复杂性提高时,DDPG存在收敛时间长和最终效果差的问题。为了提高在复杂任务环境中算法的收敛速度和最终效果,提出一种基于间歇控制框架的层级深度确定性策略梯度算法(HDDPG)用于完成仿真任务。首先在间歇控制原则下对复杂的任务进行策略上的分解,分解后的子任务间具有层级的架构和较为单一的优化目标,然后在最小转换原则下使用DDPG算法针对多个层级任务寻找最优解。使用DDPG和HD-DPG算法分别在轨迹追踪仿真任务中进行对比实验,实验结果证明在复杂连续运动控制任务上HDDPG相对DDPG算法具有更快的收敛速度和更好的实验结果。 展开更多
关键词 DDPG hddpg 运动控制 确定性策略梯度 强化学习 间歇控制
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部