一种改进的多智能体Q学习算法被引量：5

An improve multi-agent system Q-learning algorithm

导出

摘要针对多智能学习特点,提出了一种新的多智能体Q学习算法.算法中将多智能体转换为联合状态的单智能体来学习策略,同时利用改进的随机跳转搜索策略解决了Q算法易陷入局部最优解问题。仿真结果表明,将该算法应用在机械臂轨轨迹划中说明了算法的有效性与泛化能力。 Aiming at the study of MAS, we propose an improved MAS Q-learning algorithm, which convert the MAS into single-agent with the combination of the state, a new search strategy is introduced for the problem of local optimal solution in Q- learning. When applied to trajectory planning for manipulator, the simulation results show that the manipulator reaches the target position more quickly and to show the improve Q-learning algorithm is efficient and generalization.

作者赵辉赵玉峰

机构地区渤海大学工学院

出处《自动化与仪器仪表》 2017年第4期25-27,共3页 Automation & Instrumentation

基金国家青年基金项目(61304053)

关键词多智能体系统 Q学习轨迹规划搜索策略局部最优 MAS q-learning trajectory planning search strategy

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献9

1段勇,徐心和.基于多智能体强化学习的多机器人协作策略研究[J].系统工程理论与实践,2014,34(5):1305-1310. 被引量：22
2陈磊,张土乔.正交多智能体算法求解管网直接优化调度模型[J].哈尔滨工业大学学报,2008,40(4):644-649. 被引量：2
3陈宁,谈英姿,许映秋.多种评价指标下RoboCupRescue救援智能体算法[J].东南大学学报（自然科学版）,2009,39(S1):105-110. 被引量：2
4任子武,朱秋国,熊蓉.快速连续反应-避障作业环境下的七自由度灵巧臂轨迹规划[J].自动化学报,2015,41(6):1131-1144. 被引量：6
5史先鹏,刘士荣.机械臂轨迹跟踪控制研究进展[J].控制工程,2011,18(1):116-122. 被引量：50
6郭锐,吴敏,彭军,彭姣,曹卫华.一种新的多智能体Q学习算法[J].自动化学报,2007,33(4):367-372. 被引量：13
7宋振雷,吴雪松.分组合作多智能体算法优化BP神经网络的权值以及阈值[J].电子测试,2010,21(4):22-25. 被引量：3
8刘全,李瑾,傅启明,崔志明,伏玉琛.一种最大集合期望损失的多目标Sarsa(λ)算法[J].电子学报,2013,41(8):1469-1473. 被引量：3
9李小为,胡立坤,王琥.速度约束下PSO的六自由度机械臂时间最优轨迹规划[J].智能系统学报,2015,10(3):393-398. 被引量：37

二级参考文献138

1牛玉刚,赵建丛,杨成梧.不确定机械手的自适应神经滑模控制[J].探测与控制学报,2000,22(2):55-59. 被引量：12
2鲍培明.基于BP网络的模糊Petri网的学习能力[J].计算机学报,2004,27(5):695-702. 被引量：87
3杜慧秋.基于模糊自适应不确定性机械臂的轨迹跟踪控制[J].电机与控制学报,2005,9(3):238-242. 被引量：20
4刘建昌,苗宇.基于神经网络补偿的机械臂轨迹控制策略的研究[J].控制与决策,2005,20(7):732-736. 被引量：20
5潘昊,王晓勇,陈琼,黄少銮.基于遗传算法的BP神经网络技术的应用[J].计算机应用,2005,25(12):2777-2779. 被引量：46
6张伟丰,郑建国.多智能体遗传算法优化神经网络权值研究[J].湖北汽车工业学院学报,2005,19(4):34-37. 被引量：3
7廖武,钟宜生,石宗英.基于信号补偿的机械臂鲁棒控制器设计与实现[J].清华大学学报（自然科学版）,2006,46(4):473-476. 被引量：8
8董朝阳,王龙,王青,张明廉.基于神经网络的机械臂分散自适应跟踪控制[J].系统仿真学报,2006,18(5):1267-1270. 被引量：7
9李世敬,富彦丽,萧蕴诗.不确定刚性机械臂的鲁棒输出控制[J].电机与控制学报,2006,10(3):308-311. 被引量：6
10郭锐,吴敏,彭军,彭姣,曹卫华.一种新的多智能体Q学习算法[J].自动化学报,2007,33(4):367-372. 被引量：13

共引文献129

1徐雪松,曾智,邵红燕,杨胜杰,李想.基于个体-协同触发强化学习的多机器人行为决策方法[J].仪器仪表学报,2020(5):66-75. 被引量：9
2郭庆鹏,张长青.工业机器人轨迹规划算法研究综述[J].木材加工机械,2019,0(6):8-13. 被引量：8
3刘国栋,杨宝庆.多智能体的增强学习及其在RoboCup中的应用[J].计算机工程与应用,2008,44(23):46-48.
4张捍东,吴玉秀,岑豫皖.多机器人合作与协调研究进展[J].计算机工程与应用,2008,44(24):238-241. 被引量：4
5王雪松,田西兰,程玉虎,易建强.基于协同最小二乘支持向量机的Q学习[J].自动化学报,2009,35(2):214-219. 被引量：20
6柴毅,利节,王嘉骐.基于后悔值的多蚁协作关联强化学习模型[J].系统工程,2010,28(4):64-67. 被引量：1
7陈玉明,张广明,赵英凯.基于混合Q学习的多Agent系统[J].制造业自动化,2010,32(9):61-63.
8柯文德,朴松昊,彭志平,蔡则苏,苑全德.基于π演算的足球机器人协作Q学习方法[J].计算机应用,2011,31(3):654-656. 被引量：4
9向国菲.基于LSM303DLH的机械臂空间定位[J].科技致富向导,2011(27):28-28. 被引量：1
10吴军,徐昕,王健,贺汉根.面向多机器人系统的增强学习研究进展综述[J].控制与决策,2011,26(11):1601-1610. 被引量：22

同被引文献46

1王鹰,王勇,杨灵敏.QR码在电厂物资管理系统中的应用[J].电网技术,2008,32(S1):179-182. 被引量：5
2于红斌,李孝安.基于栅格法的机器人快速路径规划[J].微电子学与计算机,2005,22(6):98-100. 被引量：62
3张明,张建华,徐国鑫,张平.一种新颖的RFID防冲突算法[J].电子技术应用,2006,32(6):127-129. 被引量：9
4马兆青,袁曾任.基于栅格方法的移动机器人实时导航和避障[J].机器人,1996,18(6):344-348. 被引量：91
5王国鑫,朱宪花.分布式信息安全防御系统的设计与实现[J].计算机工程,2012,38(6):156-157. 被引量：5
6陈健,杜源,张浩.舰艇编队防空导弹协同使用目标分配SWTA模型[J].火力与指挥控制,2014,39(3):85-90. 被引量：1
7蔡戟,王泽兵,冯雁.基于数据库的工作流技术在电力物资管理系统中的实现[J].计算机工程与应用,2002,38(3):147-148. 被引量：16
8马晓宇,林龙年.解码大脑的空间方位认知[J].生命科学,2014,26(12):1248-1254. 被引量：5
9林龙年.发现大脑定位系统的细胞组构[J].科学,2015,67(1):30-34. 被引量：2
10尹宝才,王文通,王立春.深度学习研究综述[J].北京工业大学学报,2015,41(1):48-59. 被引量：373

引证文献5

1赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
2高乐,马天录,刘凯,张宇轩.改进Q-Learning算法在路径规划中的应用[J].吉林大学学报（信息科学版）,2018,36(4):439-443. 被引量：17
3方略,何洪军.基于鼠脑海马位置细胞与Q学习面向目标导航[J].生物信息学,2019,17(1):31-38. 被引量：3
4丁振林,刘冠龙,谢艺,刘钦,吴建设.基于强化学习与神经网络的动态目标分配算法[J].电子设计工程,2020,28(13):54-60. 被引量：8
5谭洋洋,刘君,杨红权,姜波,钟鹏,郭松宁,王钢,舒文靖.新型变电物资综合信息管理平台的构建研究[J].四川电力技术,2020,43(5):79-83. 被引量：1

二级引证文献29

1金翔,王天霖,于鹏垚,赵勇.基于值迭代网络的路径规划算法[J].华中科技大学学报（自然科学版）,2020,48(2):91-96. 被引量：1
2邹子缘,陈琪锋.基于决策树搜索的空间飞行器集群对抗目标分配方法[J].航空学报,2022,43(S01):78-88. 被引量：3
3张宁,李彩虹,郭娜,王迪.基于CM-Q学习的自主移动机器人局部路径规划[J].山东理工大学学报（自然科学版）,2020,34(4):37-43. 被引量：3
4孙上杰,姜树海,崔嵩鹤,康玥,陈语唐.基于深度学习的森林消防机器人路径规划[J].森林工程,2020,36(4):51-57. 被引量：26
5任剑锋,叶春明,杨枫.带时间窗的车间搬运机器人路径优化建模及算法研究[J].运筹与管理,2020,29(5):52-60. 被引量：15
6李霜琳,何家皓,敖海跃,刘燕斌.基于鸽群优化算法的实时避障算法[J].北京航空航天大学学报,2021,47(2):359-365. 被引量：7
7刘庆强,刘鹏云.基于优先级经验回放的SAC强化学习算法[J].吉林大学学报（信息科学版）,2021,39(2):192-199. 被引量：5
8刘昙.仓储物流机器搬运密集区储位应急分配研究[J].自动化与仪器仪表,2021(4):144-148. 被引量：1
9王慧,秦广义,杨春梅.定制家具板材搬运AGV路径规划[J].包装工程,2021,42(17):203-209. 被引量：2
10周企慧,张森,戴人杰.一种适用于班组仓库货物管理的智能仓库系统[J].电力与能源,2021,42(4):414-417. 被引量：1

1张莉,刘潇,孙强.一种解决GA收敛于局部最优解问题的新思路[J].计算机应用与软件,2007,24(6):179-180.
2赵辉,刘雅喆.改进的Q学习算法在轨迹规划中的应用[J].吉林大学学报（信息科学版）,2016,34(5):697-702. 被引量：1
3郭东亮,刘小明,郑秋生.基于卷积神经网络的互联网短文本分类方法[J].计算机与现代化,2017(4):78-81. 被引量：13
4吴玺玫.基于效用最大化的路径优化算法研究[J].中南民族大学学报（自然科学版）,2010,29(2):93-95. 被引量：1
5叶迎春,张来斌,梁伟.基于改进K均值算法的输油管道工况聚类研究[J].石油机械,2010(3):9-13.
6权宏伟,李俊华,彭冬亮.使用高斯混合滤波器的机动目标跟踪[J].电光与控制,2014,21(11):24-27.
7权宏伟,彭冬亮,薛安克.目标联合状态类型密度表示的跟踪门技术[J].光电工程,2012,39(1):88-93. 被引量：2
8程兴国,肖南峰.粗粒度并行遗传算法的MapReduce并行化实现[J].重庆理工大学学报（自然科学）,2013,27(10):66-70. 被引量：6
9代小华,汪玉春,朱勇,代治海,宋永亮.基于SVM方法的天然气管网负荷预测研究[J].天然气与石油,2009,27(2):13-15. 被引量：2
10汪济洲,鲁昌华,蒋薇薇.一种基于嵌入空间的防遮挡的多目标跟踪算法[J].电子测量与仪器学报,2016,30(2):318-322. 被引量：6

自动化与仪器仪表

2017年第4期

浏览历史

内容加载中请稍等...

一种改进的多智能体Q学习算法被引量：5

参考文献9

二级参考文献138

共引文献129

同被引文献46

引证文献5

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

一种改进的多智能体Q学习算法 被引量：5

参考文献9

二级参考文献138

共引文献129

同被引文献46

引证文献5

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

一种改进的多智能体Q学习算法被引量：5