期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于改进优先经验回放的SAC算法路径规划 被引量:1
1
作者 崔立志 钟航 董文娟 《空间控制技术与应用》 CSCD 北大核心 2023年第5期55-64,共10页
为解决智能体在复杂环境下的路径规划问题,提出一种基于改进优先经验回放方法的在线异策略深度强化学习算法模型.该模型采用柔性动作评价算法,通过设计智能体的状态空间、动作空间及奖励函数等实现智能体无碰撞路径规划;利用样本状态优... 为解决智能体在复杂环境下的路径规划问题,提出一种基于改进优先经验回放方法的在线异策略深度强化学习算法模型.该模型采用柔性动作评价算法,通过设计智能体的状态空间、动作空间及奖励函数等实现智能体无碰撞路径规划;利用样本状态优先度与TD误差构建的样本混合优先度的离散度计算样本采样概率,进一步提出基于改进优先经验回放方法的柔性动作评价算法,提高模型学习效率.仿真实验结果验证了提出的改进柔性动作评价算法在各个参数配合下的有效性及改进优先经验回放方法在连续控制任务中模型学习效率的优越性. 展开更多
关键词 状态优先度 TD误差 离散 优先经验回放 学习效率
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部