简述自由基线采样的参数探索政策梯度

下载PDF

导出

摘要最近已经引起很多关注的直接在参数空间中探索策略梯度方法是最有效和有力的政策搜索方法。这个领域的基本方法,基于参数探索的政策梯度,使用的两个样本都是围绕着当前假设对称,以规避在不对称的分布式聚集基准方法的奖励中的误导性奖励。勘探参数仍然由基线的方法更新-离开容易发生探索非对称奖励分布。在本文中,我们将展示如何探索有限制的可以准对称的参数,而不是勘探自由参数进行采样。我们给出了一个相对于勘探准对称的近似改造获得的样本,而不改变整体抽样分布。最后,我们将证明,为勘探参数的对称取样以及优于原始抽样方法,在所需要的样品和稳健性方面。

作者宋涛吕思思

机构地区天津科技大学计算机科学与信息工程学院天津中医药大学现代教育技术与信息中心

出处《电脑知识与技术》 2016年第2X期242-243,共2页 Computer Knowledge and Technology

关键词超对称PGPE 梯度估计方差参数探索政策梯度

分类号 O212.2 [理学—概率论与数理统计]

引文网络
相关文献

1许治平,谭成武,穆成铮,许莘.估计方差的方差与有效自由度[J].计量技术,1994(4):37-38. 被引量：1
2潘杨友.元周期函数的函数结构特征[J].阜阳师范学院学报（自然科学版）,2007,24(1):16-18. 被引量：2
3蔺焕泉.普通最小二乘估计方差表达式的等价性[J].长春大学学报,2010,20(2):1-2. 被引量：2
4张明珠,张应山,廖靖宇,吴亚桢,杨林.基于正交表替换构造广义正交表[J].数学的实践与认识,2015,45(12):176-182. 被引量：1
5王启华.随机删失下概率密度核估计的光滑Bootstrap逼近[J].应用数学学报,1997,20(3):367-377. 被引量：1
6黄岚,王康平,周春光,原媛,庞巍.基于蚂蚁算法的混合方法求解旅行商问题[J].吉林大学学报（理学版）,2002,40(4):369-373. 被引量：24
7张晓琴,王佳鸣.基于正交表的异方差估计方法改进[J].数理统计与管理,2016,35(2):225-231. 被引量：6
8Yuan-Tsung Chang,Nobuo Shinozaki.Estimation of Ordered Means of Two Normal Distributions with Ordered Variances[J].Journal of Mathematics and System Science,2012,2(1):1-7.
9张晓琴,郝红霞.异方差模型中估计方差的一种新方法[J].中北大学学报（自然科学版）,2013,34(5):481-484.
10王雷,戴妮.比时间更神秘[J].时尚时间,2013(3):72-75.

电脑知识与技术

2016年第2X期

浏览历史

内容加载中请稍等...

简述自由基线采样的参数探索政策梯度

相关作者

相关机构

相关主题

浏览历史