基于局部加权k近邻的多机器人系统异步互增强学习被引量：2

Asynchronous interaction reinforcement learning for multi-robot systems based on local weighted kNN-TD

下载PDF

导出

摘要针对多机器人系统的增强学习问题,为提高机器人的学习速度和充分利用通信范围内其他机器人的增强学习的经验和结果,给出了2类基于局部加权k近邻时间差分的多机器人系统的交互式学习策略.对于机器人之间通信无时滞情形,基于环境感测和任务信息状态描述的局部加权k近邻状态选择方法,机器人通过对自身和通信范围内其他机器人Q值表的比较和分析,对其自身的Q值表进行优化迭代更新.在此基础上,分别给出了基于全局通信条件下和局部通信条件下多机器人系统的异步的互增强学习方案.最后,通过仿真实验进一步验证了所提方案的可行性和有效性. To accelerate the learning speed of robots for multirobot systems and make full use of ex perience and results of other robots in the communication domain, two kinds of multirobot learning strategies based on the local weighted knearest neighbor temporal difference （kNNTD） algorithm are proposed. Without consideration of time delays during the communications of robots, based on the method of local weighted kNNTD state selection by using environment sense information and task destination information, the optimal iteration of Q value table of a robot is updated by the em ployment of comparison and analysis of Q value tables of itself and other communicating robots. Af ter that, asynchronous interaction reinforcement learning schemes are presented in the case of global communication and local communication in the working environment, respectively. Finally, the sim ulations verify the effectiveness and efficiency of the proposed strategy.

作者杨月全韩飞金露倪春波曹志强张天平

机构地区扬州大学信息工程学院中国科学院自动化研究所复杂系统管理与控制国家重点实验室

出处《东南大学学报（自然科学版）》 EI CAS CSCD 北大核心 2012年第A01期208-211,共4页 Journal of Southeast University：Natural Science Edition

基金国家自然科学基金资助项目(61175111 61174046) 江苏省高校自然科学研究资助项目(10KJB510027)

关键词多机器人系统增强学习 K近邻运动控制 multi-robot system reinforcement learning kNN motion control

分类号 TP24 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献13

1高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：268
2郭锐,吴敏,彭军,彭姣,曹卫华.一种新的多智能体Q学习算法[J].自动化学报,2007,33(4):367-372. 被引量：13
3张汝波,施洋.基于模糊Q学习的多机器人系统研究[J].哈尔滨工程大学学报,2005,26(4):477-481. 被引量：4
4Desouky S F, Schwartz H M. Schwartz. Q (A)-learn- ing fuzzy logic controller for a multi-robot system [ C ]// IEEE International Conference on Systems, Man and Cybernetics. Istanbul, Turkey, 2010:4075-4080.
5Hu Zhaohui, Zhao Dongbiao. Reinforcement learning for multi-agent patrol policy [ C ]//The 9th IEEE Inter- national Conference on Cognitive Informatics. Beijing, China, 2010:530 - 535.
6Martin J A H, de Lope J, Maravall D. Robust high per- formance reinforcement learning through weighted k-nearest neighbors [ J ]. Neurocomputing, 2011, 74 (8) : 1251 -1259.
7胡俊,朱庆保.未知环境下基于有先验知识的滚动Q学习机器人路径规划[J].控制与决策,2010,25(9):1364-1368. 被引量：11
8童亮,陆际联,龚建伟.一种快速强化学习方法研究[J].北京理工大学学报,2005,25(4):328-331. 被引量：4
9陈圣磊,谷瑞军,陈耿,薛晖.基于TD(λ)的自然梯度强化学习算法[J].计算机科学,2010,37(12):186-189. 被引量：2
10A k-NN based perception scheme for reinforcement learning [ J ]. Lecture notes in Computer Science, 2007,4739 : 138 - 145.

二级参考文献50

1王学宁,徐昕,吴涛,贺汉根.策略梯度强化学习中的最优回报基线[J].计算机学报,2005,28(6):1021-1026. 被引量：6
2陈圣磊,吴慧中,韩祥兰,肖亮.一种多步Q强化学习方法[J].计算机科学,2006,33(3):147-150. 被引量：3
3张汝波,顾国昌,张国印.水下智能机器人模糊局部规划器设计[J].机器人,1996,18(3):158-162. 被引量：11
4宋清昆,胡子婴.基于经验知识的Q-学习算法[J].自动化技术与应用,2006,25(11):10-12. 被引量：7
5王学宁,陈伟,张锰,徐昕,贺汉根.增强学习中的直接策略搜索方法综述[J].智能系统学报,2007,2(1):16-24. 被引量：8
6Ahuh D J, Park J H. Path planning and navigation for autonomous mobile robot[C]. IEEE 28th the Annual Conf of the Industrial Electronics Society. Seville: IEEE Press, 2002: 1538-1542.
7Cabin I, Land S. Adaptation of the A* algorithm for the computation of fastest paths in deterministic discrete- time dynamic networks[J]. IEEE Trans on Intelligent Transportation Systems, 2002, 3(1): 60-74.
8Rimon E. Exact robot navigation using artificial potential functions[J]. IEEE Trans on Robotics and Automation, 1992, 8(5): 501-518.
9Lavelle S M, Kuffner J. Randomized kino dynamic planning[J]. Int J of Robotics Research, 2001, 20(5): 378- 398.
10Sutton R, Barto A G. Reinforcement learning: An introduction[M]. Cambridge: MIT Press, 1998.

共引文献292

1项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
2安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：8
3丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：7
4王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
5马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
6赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
7周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
8卓睿,陈宗海,陈春林.基于强化学习和模糊逻辑的移动机器人导航[J].计算机仿真,2005,22(8):157-162. 被引量：5
9魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
10沈晶,顾国昌,刘海波.分层强化学习研究综述[J].模式识别与人工智能,2005,18(5):574-581. 被引量：7

同被引文献41

1张皓,陈雪波,马德楠.具有自适应度双群体PSO的组群机器人队形控制[J].清华大学学报（自然科学版）,2008,48(S2):1751-1755. 被引量：3
2黄晓东,任旷.五味子木脂素研究进展[J].吉林医药学院学报,2010,31(1):46-49. 被引量：35
3付根平,杨宜民,黄春林.基于粒子群优化算法的双足机器人步态优化[J].华中科技大学学报（自然科学版）,2011,39(S2):355-358. 被引量：10
4金义雄,程浩忠,严健勇,张丽.改进粒子群算法及其在输电网规划中的应用[J].中国电机工程学报,2005,25(4):46-50. 被引量：89
5沈艳,郭兵,古天祥.粒子群优化算法及其与遗传算法的比较[J].电子科技大学学报,2005,34(5):696-699. 被引量：90
6刘淳安,陈一虎.微粒群优化算法的研究现状与发展[J].海南大学学报（自然科学版）,2006,24(3):256-260. 被引量：3
7支成秀,梁正友.融合粒子群优化算法与蚁群算法的随机搜索算法[J].广西科学院学报,2006,22(4):231-233. 被引量：12
8王万良,唐宇.微粒群算法的研究现状与展望[J].浙江工业大学学报,2007,35(2):136-141. 被引量：33
9李军,丰镇平,沈祖达,常建忠.透平跨音速叶栅的优化设计[J].航空动力学报,1997,12(3):287-290. 被引量：8
10王文义,秦广军,王若雨.基于粒子群算法的遗传算法研究[J].计算机科学,2007,34(8):145-147. 被引量：13

引证文献2

1倪春波,孔一斐,杨月全,曹志强,张天平.粒子群优化及其在多机器人系统中的应用展望[J].中南大学学报（自然科学版）,2013,44(S2):126-132. 被引量：3
2杨春静,倪健,游龙泰,冷新,王文平,董晓旭,张欣,杜雪莹,尹兴斌.基于局部加权回归实现五味子醇提结果预测[J].现代中药研究与实践,2017,31(6):44-47.

二级引证文献3

1马晶晶,肖本贤.基于永磁操动机构的同步合闸时间预测方法研究[J].合肥工业大学学报（自然科学版）,2015,38(5):600-604. 被引量：2
2李一宁,张培林,徐超,杨玉栋,张云强,吕纯.油液磨粒超声回波信号双树复小波自适应降噪最优分解层数的研究[J].机床与液压,2015,43(19):205-209.
3康帅,俞建成,张进,金乾隆,胡峰.基于粒子群优化神经网络的水下链式机器人直航阻力预报[J].机械工程学报,2019,55(21):29-39. 被引量：8

1姚静,梅雪,林锦国.复杂背景下基于时间差分的人脸检测算法[J].微计算机信息,2007,23(02S):267-269. 被引量：3
2朱洪涛.基于图像采集卡的智能安防监控系统设计[J].微计算机信息,2009,25(25):90-91. 被引量：1
3徐磊,郑汉垣,刘智翔,宋安平,张武.大规模带状线性方程组的分层混合并行求解算法[J].计算机应用与软件,2013,30(12):124-126. 被引量：1
4范亚男,葛卫丽.一种基于背景模型的自适应的目标检测方法[J].科技资讯,2010,8(32):11-11.
5阮宏镁,田学民,王平.带时延估计的时间差分PLS软测量建模方法[J].石油化工自动化,2013,49(6):35-39. 被引量：1
6杨晓奇,郑启龙,陈国良,张俊霞.国产万亿次高性能计算机KD-50-Ⅰ的通信优化[J].小型微型计算机系统,2009,30(8):1473-1477.
7王绪.视频序列中运动人体的实时检测与提取[J].现代企业文化,2008(33):88-89.
8杨俊红,魏威.视频安全监控中的关键技术研究[J].开封大学学报,2009,23(4):87-89.
9危水根,陈震,黎明.一种基于时间差分运动检测的改进方法[J].南昌航空工业学院学报,2005,19(3):15-19. 被引量：6
10李贵山.IBM-PC和8098单片机构成的主从式局部通信网[J].自动化仪表,1995,16(8):33-35.

东南大学学报（自然科学版）

2012年第A01期

浏览历史

内容加载中请稍等...

基于局部加权k近邻的多机器人系统异步互增强学习被引量：2

参考文献13

二级参考文献50

共引文献292

同被引文献41

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于局部加权k近邻的多机器人系统异步互增强学习 被引量：2

参考文献13

二级参考文献50

共引文献292

同被引文献41

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于局部加权k近邻的多机器人系统异步互增强学习被引量：2