期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于值函数估计的参数探索策略梯度算法
1
作者
赵婷婷
杨梦楠
+2 位作者
陈亚瑞
王嫄
杨巨成
《计算机应用研究》
CSCD
北大核心
2023年第8期2404-2410,共7页
策略梯度估计方差大是策略梯度算法存在的普遍问题,基于参数探索的策略梯度算法(PGPE)通过使用确定性策略有效缓解了这一问题。然而,PGPE算法基于蒙特卡罗方法进行策略梯度的估计,需要大量学习样本才能保证梯度估计相对稳定,因此,梯度...
策略梯度估计方差大是策略梯度算法存在的普遍问题,基于参数探索的策略梯度算法(PGPE)通过使用确定性策略有效缓解了这一问题。然而,PGPE算法基于蒙特卡罗方法进行策略梯度的估计,需要大量学习样本才能保证梯度估计相对稳定,因此,梯度估计方差大阻碍了其在现实问题中的实际应用。为进一步减小PGPE算法策略梯度估计的方差,提出了基于值函数估计的参数探索策略梯度算法(PGPE-FA),该算法在PGPE算法中引入Actor-Critic框架。具体地,提出的方法使用价值函数估计策略梯度,代替了PGPE方法使用轨迹样本估计策略梯度的方式,从而减小了梯度估计方差。最后,通过实验验证了所提算法能够减小梯度估计的方差。
展开更多
关键词
强化学习
值函数
参数探索策略梯度
梯度估计方差
下载PDF
职称材料
基于自然进化策略的多工艺融合结构件加工变形控制方法
被引量:
2
2
作者
刘醒彦
刘长青
《航空制造技术》
2020年第11期83-87,93,共6页
毛坯预变形与工件加工位置对工件最终加工变形有着重要影响,毛坯预变形与加工位置优化是控制工件加工变形的一种有效途径,同时考虑到多工艺变量优化的参数求解困难,仅针对单一工艺优化很难实现对工件变形的精确控制。针对以上问题,提出...
毛坯预变形与工件加工位置对工件最终加工变形有着重要影响,毛坯预变形与加工位置优化是控制工件加工变形的一种有效途径,同时考虑到多工艺变量优化的参数求解困难,仅针对单一工艺优化很难实现对工件变形的精确控制。针对以上问题,提出了一种基于自然进化策略的多工艺融合结构件加工变形控制方法。综合考虑毛坯预变形与加工位置对工件变量的影响,建立有限元仿真模型,采用PEPG(Parameter-Exploring Policy Gradients)优化算法搜索最优参数,从而实现对加工变形的控制。最后,以典型飞机结构件为例,在仿真环境中进行验证,结果表明该方法能显著控制工件加工变形。
展开更多
关键词
预变形
加工位置
变形控制
自然进化策略
参数探索策略
下载PDF
职称材料
题名
基于值函数估计的参数探索策略梯度算法
1
作者
赵婷婷
杨梦楠
陈亚瑞
王嫄
杨巨成
机构
天津科技大学人工智能学院
出处
《计算机应用研究》
CSCD
北大核心
2023年第8期2404-2410,共7页
基金
国家自然科学基金资助项目(61976156)
天津市企业科技特派员资助项目(20YDTPJC00560)。
文摘
策略梯度估计方差大是策略梯度算法存在的普遍问题,基于参数探索的策略梯度算法(PGPE)通过使用确定性策略有效缓解了这一问题。然而,PGPE算法基于蒙特卡罗方法进行策略梯度的估计,需要大量学习样本才能保证梯度估计相对稳定,因此,梯度估计方差大阻碍了其在现实问题中的实际应用。为进一步减小PGPE算法策略梯度估计的方差,提出了基于值函数估计的参数探索策略梯度算法(PGPE-FA),该算法在PGPE算法中引入Actor-Critic框架。具体地,提出的方法使用价值函数估计策略梯度,代替了PGPE方法使用轨迹样本估计策略梯度的方式,从而减小了梯度估计方差。最后,通过实验验证了所提算法能够减小梯度估计的方差。
关键词
强化学习
值函数
参数探索策略梯度
梯度估计方差
Keywords
reinforcement learning
value function
policy gradients with parameter based exploration
variance of gradient estimates
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于自然进化策略的多工艺融合结构件加工变形控制方法
被引量:
2
2
作者
刘醒彦
刘长青
机构
南京航空航天大学机电学院
出处
《航空制造技术》
2020年第11期83-87,93,共6页
基金
国家商用飞机制造工程技术研究中心创新基金项目(COMAC–SFGS–2019–328)
国家自然科学基金项目(51775278)。
文摘
毛坯预变形与工件加工位置对工件最终加工变形有着重要影响,毛坯预变形与加工位置优化是控制工件加工变形的一种有效途径,同时考虑到多工艺变量优化的参数求解困难,仅针对单一工艺优化很难实现对工件变形的精确控制。针对以上问题,提出了一种基于自然进化策略的多工艺融合结构件加工变形控制方法。综合考虑毛坯预变形与加工位置对工件变量的影响,建立有限元仿真模型,采用PEPG(Parameter-Exploring Policy Gradients)优化算法搜索最优参数,从而实现对加工变形的控制。最后,以典型飞机结构件为例,在仿真环境中进行验证,结果表明该方法能显著控制工件加工变形。
关键词
预变形
加工位置
变形控制
自然进化策略
参数探索策略
Keywords
Pre-deformation
Machining position
Machining deformation
Natural evolution strategy
parameter
-exploring
policy
gradients
(PEPG)
分类号
V261 [航空宇航科学与技术—航空宇航制造工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于值函数估计的参数探索策略梯度算法
赵婷婷
杨梦楠
陈亚瑞
王嫄
杨巨成
《计算机应用研究》
CSCD
北大核心
2023
0
下载PDF
职称材料
2
基于自然进化策略的多工艺融合结构件加工变形控制方法
刘醒彦
刘长青
《航空制造技术》
2020
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部