基于对称扰动采样的Actor-critic算法被引量：1

Actor-critic algorithms based on symmetric perturbation sampling

导出

摘要针对传统Actor-critic(AC)方法在求解连续空间序贯决策问题时收敛速度较慢、收敛质量不高的问题,提出一种基于对称扰动采样的AC算法框架.首先,框架采用高斯分布作为策略分布,在每一时间步对当前动作均值对称扰动,从而生成两个动作与环境并行交互;然后,基于两者的最大时域差分(TD)误差选取Agent的行为动作,并对值函数参数进行更新;最后,基于两者的平均常规梯度或增量自然梯度对策略参数进行更新.理论分析和仿真结果表明,所提框架具有较好的收敛性和计算效率. When solving the sequential decision-making problems in continuous spaces, the traditional actor-critic（AC）methods are often difficult to get good convergence speed and quality. To overcome the above weakness, an AC algorithm framework, which uses a Gaussian distribution as the policy distribution, is proposed based on the symmetric perturbation sampling. At each time step, the framework generates two actions through two symmetric perturbations on the current action mean, and takes them to interact with the environment in parallel. Then, the framework selects the Agent＇s behavior action and updates the value-function parameters based on the maximum temporal difference（TD） error, and updates the policy parameters based on the average regular gradient or the average incremental natural gradient. The theoretical analysis and simulation results show that the framework not only has a better convergence performance, but also has a high computational efficiency.

作者张春元朱清新

机构地区电子科技大学计算机科学与工程学院海南大学信息科学技术学院

出处《控制与决策》 EI CSCD 北大核心 2015年第12期2161-2167,共7页 Control and Decision

基金国家自然科学基金项目(61100118 60671033) 海南省自然科学基金项目(613153)

关键词 Actor-critic方法对称扰动采样连续空间强化学习 Actor-critic method symmetric perturbation sampling continuous space reinforcement learning

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献16

1Xu X, Hou Z, Lian C, et al. Online learning control using adaptive critic designs with sparse kernel machines[J].IEEE Trans on Neural Networks and Learning Systems, 2013, 24(5): 762-775.
2Sutton R S, Barto A G. Reinforcement learning: An intro- duction[M]. Cambridge: MIT Press, 1998: 151-215.
3Bhatnagar S, Sutton R S, Ghavamzadeh M, et al. Natural actor-critic algorithms[R]. Canada: Department of Computing Science, University of Alberta, 2009.
4Degris T, Pilarski P M, Sutton R S. Model-free reinforce- ment learning with continuous action in practice[C]. 2012 American Control Conf. Montreal: IEEE Press, 2012: 2177-2182.
5Degris T, White M, Sutton R S. Off-policy actor-critic[C]. The 29th Int Conf on Machine Learning. Edinburgh: Omnipress, 2012: 457-464.
6Silver D, Lever G, Heess N, et al. Deterministic policy gradient algorithms[C]. The 31st Int Conf on Machine Learning. Beijing: JMLR W & CP, 2014: 387-395.
7Lee D, Lee J. Incremental receptive field weighted actor- critic[J]. IEEE Trans on Industrial Informatics, 2013, 9(1): 62-71.
8Pazis J, Lagoudakis M G. Binary action search for learning continuous-action control policies[C]. The 26th Int Conf on Machine Learning. Montreal: ACM Press, 2009: 793-800.
9Sehnke F, Osendorfer C, Ruckstieβ T, et al. Parameter- exploring policy gradients[J]. Neural Networks, 2010, 23(4): 551-559.
10Peters J, Schaal S. Natural actor-critic[J]. Neurocomputing, 2008, 71(7/8/9): 1180-1190.

同被引文献10

1陈利,尤峰.基于AHP和云重心方法的装甲兵指挥信息系统效能评估[J].指挥控制与仿真,2008,30(4):59-60. 被引量：16
2万伟,姜长生,吴庆宪.单步预测影响图法在空战机动决策中的应用[J].电光与控制,2009,16(7):13-16. 被引量：11
3张小泓.基于变异系数法的灰色关联模型在节水灌溉工程投标方案优选中的应用[J].节水灌溉,2009(8):54-56. 被引量：18
4吴海波,梁甲慧,曾前腾.基于熵权TOPSIS法的防空兵指挥模式效能评估[J].四川兵工学报,2014,35(5):115-118. 被引量：2
5吴坤鸿,何明.基于DEA-TOPSIS的联合火力打击目标选择方法[J].军事运筹与系统工程,2015,29(1):25-29. 被引量：13
6何希盈,黄凡,朱璟,林为传.基于SEA法的水下无人航行器侦察效能评估[J].舰船电子工程,2016,36(12):161-164. 被引量：6
7陈浩东,王志平.考虑供应链风险和绩效的供应商选择的模糊动态非线性多目标规划模型[J].运筹与管理,2018,27(4):50-56. 被引量：7
8梁桂林,周晓纪,王亚琼.基于ADC模型的遥感卫星地面系统效能评估[J].指挥控制与仿真,2018,40(5):62-68. 被引量：13
9孙京诰,杨嘉雄,王硕,薛瑞,潘红光.基于Actor-Critic和神经网络的闭环脑机接口控制器设计[J].控制与决策,2018,33(11):1967-1974. 被引量：4
10段欣妤,晋国卿.云计算下复杂网络中心节点重要度评估仿真[J].计算机仿真,2018,35(11):352-355. 被引量：2

引证文献1

1王寿鹏,叶志祥,郭明.基于CRITIC-TOPSIS的联合作战指挥信息系统综合评价[J].舰船电子工程,2021,41(1):15-19. 被引量：3

二级引证文献3

1刘彬,张杰勇,钟赟,孙鹏.考虑时域稳定性的军事信息系统运维性能评估[J].空军工程大学学报,2022,23(4):70-76. 被引量：1
2姜伟杰,刘勇,权冀川,罗晨.指挥信息系统效能评估研究进展[J].火力与指挥控制,2022,47(12):1-5. 被引量：5
3张人文,赖俊,陈希亮,赵春宇.面向作战决策智能体的融合赋权评估方法[J].火力与指挥控制,2024,49(2):180-188.

1金玉净,朱文文,伏玉琛,刘全.基于Tile Coding编码和模型学习的Actor-Critic算法[J].计算机科学,2014,41(6):239-242. 被引量：3
2王国芳,方舟,李平.基于批量递归最小二乘的自然Actor-Critic算法[J].浙江大学学报（工学版）,2015,49(7):1335-1342. 被引量：3
3蔡春华,赵杰,宋丽.基于随机投影的隐私保护分布式聚类算法研究[J].牡丹江师范学院学报（自然科学版）,2014,40(3):1-3. 被引量：1
4陈仕超,凌兴宏,刘全,伏玉琛,陈桂兴.一种基于高斯过程的行动者评论家算法[J].计算机应用研究,2016,33(6):1670-1675. 被引量：1
5陈子辉,王丽,郁有建.基于背景差分与时域差分相结合的运动检测算法[J].天津城市建设学院学报,2009,15(4):297-300. 被引量：5
6高飞,蒋建国,安红新,齐美彬.一种快速运动目标检测算法[J].合肥工业大学学报（自然科学版）,2012,35(2):180-183. 被引量：15
7王小妮,高学东,倪晓明.基于云计算的分布式数据挖掘平台架构[J].北京信息科技大学学报（自然科学版）,2011,26(5):19-24. 被引量：11
8李拥军,江宇闻,朱思铭.基于最短路径和自然梯度的过完备ICA算法[J].计算机工程,2006,32(15):16-18. 被引量：4
9闫飞,胡宝霞.实时视频监控系统中一种快速运动目标检测算法[J].黑龙江科技信息,2008(1):24-24. 被引量：2
10甄志军,鲁士文.基于虚拟网格的无线传感器网络数据融合算法[J].传感器与微系统,2010,29(9):51-54.

控制与决策

2015年第12期

浏览历史

内容加载中请稍等...

基于对称扰动采样的Actor-critic算法被引量：1

参考文献16

同被引文献10

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于对称扰动采样的Actor-critic算法 被引量：1

参考文献16

同被引文献10

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于对称扰动采样的Actor-critic算法被引量：1