基于高斯回归的连续空间多智能体跟踪学习被引量：2

Tracking Learning Based on Gaussian Regression for Multi-agent Systems in Continuous Space

下载PDF

导出

摘要提高适应性、实现连续空间的泛化、降低维度是实现多智能体强化学习(Multi-agent reinforcement learning,MARL)在连续系统中应用的几个关键.针对上述需求,本文提出连续多智能体系统(Multi-agent systems,MAS)环境下基于模型的智能体跟踪式学习机制和算法(MAS MBRL-CPT).以学习智能体适应同伴策略为出发点,通过定义个体期望即时回报,将智能体对同伴策略的观测融入环境交互效果中,并运用随机逼近实现个体期望即时回报的在线学习.定义降维的Q函数,在降低学习空间维度的同时,建立MAS环境下智能体跟踪式学习的Markov决策过程(Markov decision process,MDP).在运用高斯回归建立状态转移概率模型的基础上,实现泛化样本集Q值函数的在线动态规划求解.基于离散样本集Q函数运用高斯回归建立值函数和策略的泛化模型.MAS MBRL-CPT在连续空间Multi-cart-pole控制系统的仿真实验表明,算法能够使学习智能体在系统动力学模型和同伴策略未知的条件下,实现适应性协作策略的学习,具有学习效率高、泛化能力强等特点. mproving adaption, reMizing generalization in continuous space, and reducing dimensions are always viewed as the key issues for the implementation of multi-agent reinforcement learning （MARL） within continuous systems. To tackle them, the paper presents a learning mechanism and algorithm named model-based reinforcement learning with companion＇s policy tracking for multi-agent systems （MAS MBRL-CPT）. Stemming from the viewpoint to make the best responses to companions, a new expected immediate reward is defined, which merges the observation on companion＇s policy into the payoff fed back from the environment, and whose value is estimated online by stochastic approximation. Then a Q value function with dimension reduced is developed to set up Markov decision process （MDP） for strategy learning in multi-agent environment. Based on the model of state transition using Gaussian regression, the Q value functions w.r.t. the state-action samples for generalization are solved by dynamic programming, which then serve as the basic samples to realize the generalization of value functions and learned strategies. In the simulation of multi-cart-pole in continuous space, even if the dynamics and companions＇ strategies are unknown in priori, MBRL-CPT entitles the learning agent to learn the tracking strategy to cooperate with its companions. The performance of MBRL-CPT shows its high efficiency and good generalization ability.

作者陈鑫魏海军吴敏曹卫华

机构地区中南大学信息科学与工程学院先进控制与智能自动化湖南省工程实验室

出处《自动化学报》 EI CSCD 北大核心 2013年第12期2021-2031,共11页 Acta Automatica Sinica

基金国家自然科学基金(61074058)资助~~

关键词连续状态空间多智能体系统基于模型的强化学习高斯回归 Continuous state space, multi-agent systems （MAS）, model-based reinforcement learning （MBRL）, Gaussianregression （GR）

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1程玉虎,冯涣婷,王雪松.基于状态-动作图测地高斯基的策略迭代强化学习[J].自动化学报,2011,37(1):44-51. 被引量：5
2陈学松,杨宜民.强化学习研究综述[J].计算机应用研究,2010,27(8):2834-2838. 被引量：59
3徐昕,沈栋,高岩青,王凯.基于马氏决策过程模型的动态系统学习控制:研究前沿与展望[J].自动化学报,2012,38(5):673-687. 被引量：20
4王雪松,田西兰,程玉虎,易建强.基于协同最小二乘支持向量机的Q学习[J].自动化学报,2009,35(2):214-219. 被引量：20
5戴朝晖,袁姣红,吴敏,陈鑫.基于概率模型的动态分层强化学习[J].控制理论与应用,2011,28(11):1595-1600. 被引量：2
6吴军,徐昕,王健,贺汉根.面向多机器人系统的增强学习研究进展综述[J].控制与决策,2011,26(11):1601-1610. 被引量：22

二级参考文献123

1王皓,高阳.元博弈平衡和多Agent强化学习的MetaQ算法[J].计算机研究与发展,2006,43(z1):137-141. 被引量：2
2孙明轩,王郸维,陈彭年.有限区间非线性系统的重复学习控制[J].中国科学：信息科学,2010,40(3):433-444. 被引量：11
3张雁冰,杭大明,马正新,曹志刚.基于再励学习的主动队列管理算法[J].软件学报,2004,15(7):1090-1098. 被引量：7
4范波,潘泉,张洪才.基于Markov对策的多智能体协调方法及其在Robot Soccer中的应用[J].机器人,2005,27(1):46-51. 被引量：5
5DerongLiu.Approximate Dynamic Programming for Self-Learning Control[J].自动化学报,2005,31(1):13-18. 被引量：14
6杨洋,陈小平.动态不确定环境下的决策:一种分层决策模型[J].计算机科学,2005,32(1):151-154. 被引量：1
7段凡丁.关于最短路径的SPFA快速算法[J].西南交通大学学报,1994,29(2):207-212. 被引量：57
8王学宁,徐昕,吴涛,贺汉根.策略梯度强化学习中的最优回报基线[J].计算机学报,2005,28(6):1021-1026. 被引量：6
9苏畅,高阳,陈世福,陈兆乾.基于SMDP环境的自主生成options算法的研究[J].模式识别与人工智能,2005,18(6):679-684. 被引量：9
10任燚,陈宗海.基于强化学习算法的多机器人系统的冲突消解策略[J].控制与决策,2006,21(4):430-434. 被引量：7

共引文献117

1徐雪松,曾智,邵红燕,杨胜杰,李想.基于个体-协同触发强化学习的多机器人行为决策方法[J].仪器仪表学报,2020(5):66-75. 被引量：9
2李小强,杨凯,代龙飞,夏炜豪,蔡正鑫.冷轧连退机组中央段自动控制系统开发[J].冶金自动化,2023,47(S01):121-124.
3张雨.基于马尔科夫过程状态转移矩阵的桥梁结构技术状态预测方法研究[J].四川水泥,2023(3):212-214. 被引量：1
4丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：6
5陈学松,杨宜民.基于蚁群优化的模糊Sarsa学习算法[J].华中科技大学学报（自然科学版）,2011,39(S2):340-343.
6陈学松,杨宜民.基于递推最小二乘法的多步时序差分学习算法[J].计算机工程与应用,2010,46(8):52-55. 被引量：5
7赵昀,陈庆伟,胡维礼.一种基于信息熵的强化学习算法[J].系统工程与电子技术,2010,32(5):1043-1046. 被引量：4
8刘博,雷汝海.异质Agent间的知识迁移强化学习[J].中国科技论文在线,2010,5(2):120-123. 被引量：1
9陈学松,杨宜民.强化学习研究综述[J].计算机应用研究,2010,27(8):2834-2838. 被引量：59
10程玉虎,冯涣婷,王雪松.基于状态-动作图测地高斯基的策略迭代强化学习[J].自动化学报,2011,37(1):44-51. 被引量：5

同被引文献22

1贺霖,潘泉,邸,李远清.高光谱图像高维多尺度自回归有监督检测[J].自动化学报,2009,35(5):509-518. 被引量：5
2XU Jian-Xin,HOU Zhong-Sheng.Notes on Data-driven System Approaches[J].自动化学报,2009,35(6):668-675. 被引量：30
3王冲,景宁,李军,王钧,陈浩.一种基于多Agent强化学习的多星协同任务规划算法[J].国防科技大学学报,2011,33(1):53-58. 被引量：19
4周卫祥,孙德宝,彭嘉雄.红外图像序列运动小目标检测的预处理算法研究[J].国防科技大学学报,1999,21(5):57-60. 被引量：29
5张秀伟,张艳宁,郭哲,赵静,仝小敏.可见光-热红外视频运动目标融合检测的研究进展及展望[J].红外与毫米波学报,2011,30(4):354-360. 被引量：9
6邢立宁,陈英武.基于知识的智能优化引导方法研究进展[J].自动化学报,2011,37(11):1285-1289. 被引量：6
7孙瑞,王智学,姜志平,蒋鑫.外军指挥控制过程模型剖析[J].舰船电子工程,2012,32(5):12-14. 被引量：17
8颜跃进,李舟军,陈跃新.多Agent系统体系结构[J].计算机科学,2001,28(5):77-80. 被引量：28
9郑延斌,李波,安德宇,李娜.基于分层强化学习及人工势场的多Agent路径规划方法[J].计算机应用,2015,35(12):3491-3496. 被引量：14
10李菠,孟立凡,李晶,刘春美,黄广炎.低空慢速小目标探测与定位技术研究[J].中国测试,2016,42(12):64-69. 被引量：14

引证文献2

1蒲志强,易建强,刘振,丘腾海,孙金林,李非墨.知识和数据协同驱动的群体智能决策方法研究综述[J].自动化学报,2022,48(3):627-643. 被引量：18
2刘孙相与,李贵涛,詹亚锋,高鹏.基于多阶运动参量的四旋翼无人机识别方法[J].自动化学报,2022,48(6):1429-1447. 被引量：2

二级引证文献20

1姚锡凡,黄宇,黄岩松,麦海锋,杨尔辅,于洪年.自主智能制造:社会—信息—物理交互、参考体系架构与运作机制[J].计算机集成制造系统,2022,28(2):325-338. 被引量：4
2刘爱东,郭智超,徐君明,丛林虎.基于改进YOLOv4与JetsonTX2的无人机实时目标检测方法[J].兵器装备工程学报,2022,43(4):204-210. 被引量：2
3谷志群,张佳玮,纪越峰,于浩,塔里克·塔勒布.数据与模型协同驱动的智能光网络架构与关键技术[J].电信科学,2022,38(7):18-30. 被引量：3
4王宏,曾峥,徐奕男,谷晓琳.基于任务关联的端到端目标检测算法[J].自动化博览,2022,39(8):70-75.
5葛佳昊,刘莉,王军.拒止环境下巡飞武器分布式智能作战关键技术研究[J].战术导弹技术,2022(5):62-73. 被引量：1
6杨静,王晓,王雨桐,刘忠民,李小双,王飞跃.平行智能与CPSS:三十年发展的回顾与展望[J].自动化学报,2023,49(3):614-634. 被引量：12
7赵薇玲,章军辉,陈明亮,李庆,陈大鹏.人工智能技术驱动的纺纱质量预测研究进展[J].丝绸,2023,60(4):61-70. 被引量：2
8尹奇跃,赵美静,倪晚成,张俊格,黄凯奇.兵棋推演的智能决策技术与挑战[J].自动化学报,2023,49(5):913-928. 被引量：5
9杨帆,王家润,曹占广.面向军事群体的聚合及解聚可视化控制模型[J].计算机测量与控制,2023,31(5):108-113. 被引量：1
10张百川,毕文豪,张安,毛泽铭,杨咪.基于Transformer模型的空战飞行器轨迹预测误差补偿方法[J].航空学报,2023,44(9):286-299. 被引量：1

1程晓北,顾国昌.多智能体分层强化学习研究进展[J].边疆经济与文化,2007(5):73-75.
2连传强,徐昕,吴军,李兆斌.面向资源分配问题的Q-CF多智能体强化学习[J].智能系统学报,2011,6(2):95-100. 被引量：1
3冯涛,崔炳德.基于网格密度的聚类算法研究[J].煤炭技术,2012,31(3):228-229. 被引量：3
4师占群,商同.神经网络随机逼近学习算法中随机数选法浅析[J].河北工业大学学报（社会科学版）,1997(4):20-24.
5李海威,韦天瀚.基于Q函数优化的加权有向复杂网络模糊聚类算法设计研究[J].广东科技,2016,25(10):54-56.
6徐光祐,史元春,谢伟凯,蒋长浩.将计算融入环境——认识无所不在的计算与智能环境[J].微电脑世界,2001(12):79-83. 被引量：2
7董孟高,毛新军,陈志雄,齐治昌.基于Scenario的MAS环境建模方法[J].计算机工程与科学,2007,29(4):128-130.
8段勇,徐心和.基于多智能体强化学习的多机器人协作策略研究[J].系统工程理论与实践,2014,34(5):1305-1310. 被引量：22
9王志刚.论人工智能技术在Internet与Intranet中的应用[J].办公自动化（综合月刊）,2008(8):54-56.
10韩伟,鲁霜.基于模糊推理的多智能体强化学习[J].计算机应用与软件,2011,28(11):96-98. 被引量：1

自动化学报

2013年第12期

浏览历史

内容加载中请稍等...

基于高斯回归的连续空间多智能体跟踪学习被引量：2

参考文献6

二级参考文献123

共引文献117

同被引文献22

引证文献2

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于高斯回归的连续空间多智能体跟踪学习 被引量：2

参考文献6

二级参考文献123

共引文献117

同被引文献22

引证文献2

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于高斯回归的连续空间多智能体跟踪学习被引量：2