期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于值函数估计的参数探索策略梯度算法
1
作者 赵婷婷 杨梦楠 +2 位作者 陈亚瑞 王嫄 杨巨成 《计算机应用研究》 CSCD 北大核心 2023年第8期2404-2410,共7页
策略梯度估计方差大是策略梯度算法存在的普遍问题,基于参数探索的策略梯度算法(PGPE)通过使用确定性策略有效缓解了这一问题。然而,PGPE算法基于蒙特卡罗方法进行策略梯度的估计,需要大量学习样本才能保证梯度估计相对稳定,因此,梯度... 策略梯度估计方差大是策略梯度算法存在的普遍问题,基于参数探索的策略梯度算法(PGPE)通过使用确定性策略有效缓解了这一问题。然而,PGPE算法基于蒙特卡罗方法进行策略梯度的估计,需要大量学习样本才能保证梯度估计相对稳定,因此,梯度估计方差大阻碍了其在现实问题中的实际应用。为进一步减小PGPE算法策略梯度估计的方差,提出了基于值函数估计的参数探索策略梯度算法(PGPE-FA),该算法在PGPE算法中引入Actor-Critic框架。具体地,提出的方法使用价值函数估计策略梯度,代替了PGPE方法使用轨迹样本估计策略梯度的方式,从而减小了梯度估计方差。最后,通过实验验证了所提算法能够减小梯度估计的方差。 展开更多
关键词 强化学习 值函数 参数探索策略梯度 梯度估计方差
下载PDF
基于自然进化策略的多工艺融合结构件加工变形控制方法 被引量:2
2
作者 刘醒彦 刘长青 《航空制造技术》 2020年第11期83-87,93,共6页
毛坯预变形与工件加工位置对工件最终加工变形有着重要影响,毛坯预变形与加工位置优化是控制工件加工变形的一种有效途径,同时考虑到多工艺变量优化的参数求解困难,仅针对单一工艺优化很难实现对工件变形的精确控制。针对以上问题,提出... 毛坯预变形与工件加工位置对工件最终加工变形有着重要影响,毛坯预变形与加工位置优化是控制工件加工变形的一种有效途径,同时考虑到多工艺变量优化的参数求解困难,仅针对单一工艺优化很难实现对工件变形的精确控制。针对以上问题,提出了一种基于自然进化策略的多工艺融合结构件加工变形控制方法。综合考虑毛坯预变形与加工位置对工件变量的影响,建立有限元仿真模型,采用PEPG(Parameter-Exploring Policy Gradients)优化算法搜索最优参数,从而实现对加工变形的控制。最后,以典型飞机结构件为例,在仿真环境中进行验证,结果表明该方法能显著控制工件加工变形。 展开更多
关键词 预变形 加工位置 变形控制 自然进化策略 参数探索策略
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部