基于个体-协同触发强化学习的多机器人行为决策方法被引量：9

Multi-robot behavior decision making method based on individual-collaborative trigger reinforcement learning

下载PDF

导出

摘要为了提高多机器人行为最优决策控制中强化学习的效率和收敛速度,研究了多机器人的分布式马尔科夫建模与控制策略。根据机器人有限感知能力设计了个体-协同感知触发函数,机器人个体从环境观测结果计算个体-协同触发响应概率,定义一次触发过程后开始计算联合策略,减少机器人间通讯量和计算资源。引入双学习率改进Q学习算法,并将该算法应用于机器人行为决策。仿真实验结果表明,当机器人群组数量在20左右时,本文算法的协同效率较高,单位时步比为1.0850。同时距离调节参数η对机器人协同搜索效率有影响,当η=0.008时,所需的移动时步比和平均移动距离都能达到最小值。通过双学习率的引入,该算法较基于环境模型的强化学习算法具有更高的学习效率和适用性,平均性能提升35%,对于提高多机器人自主协同能力具有较高的理论意义及应用价值。 In order to improve the efficiency and convergence speed of reinforcement learning in multi-robot behavior optimal decision making control,the distributed Markov modeling and control strategy for multi-robots are studied in this paper.According to the limited perception ability of the robots,an individual-cooperative trigger perception function is designed.The individual robot calculates the individual-cooperative trigger response probability from the environment observation results,and defines that after a trigger process the joint strategy calculation starts,which reduces the communication amount and computing resources among robots.The Q-learning algorithm is improved through introducing the dual-learning rate strategy,which is applied to the behavior decision-making of robots.The simulation experiment results show that the algorithm proposed in this paper has quite high cooperative efficiency when the number of robots in the group is about 20.The unit time step ratio is 1.0850.At the same time,the distance adjustment parameterηhas an influence on the cooperative search efficiency of the robot.Whenηis 0.008,the required moving time step ratio and average moving distance can reach minimum.Through introducing the double learning rate,the proposed algorithm possesses higher learning efficiency and applicability compared with the reinforcement learning algorithm based on environment model,the average performance improvement reaches about 35%.The proposed algorithm has a high theoretical significance and application value for improving the autonomous cooperative ability of multi-robots.

作者徐雪松曾智邵红燕杨胜杰李想 Xu Xuesong;Zeng Zhi;Shao Hongyan;Yang Shengjie;Li Xiang(College of Computer and Information Engineering,Hunan University of Technology and Business,Changsha 410205,China;Key Laboratory of Hunan Province for New Retail Virtual Reality Technology,Changsha 410205,China)

机构地区湖南工商大学计算机与信息工程学院新零售虚拟现实技术湖南省重点实验室

出处《仪器仪表学报》 EI CAS CSCD 北大核心 2020年第5期66-75,共10页 Chinese Journal of Scientific Instrument

基金国家自然科学基金重大项目(71991463,71790615) 国家自然科学基金重大研究计划集成项目(91846301) 湖南省教育厅科学研究重点项目(18A303) 湖南社科基金项目(18YBA272) 湖南省社科评审委员会项目(XSP18YBZ123) 湖南省重点实验室开放研究基金项目(18-07)资助

关键词多机器人强化学习个体-协同触发行为决策 multi-robot reinforcement learning individual-collaborative triggering behavioral decision-making

分类号 TP242 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献15

1朱美强,李明,程玉虎,张倩,王雪松.基于拉普拉斯特征映射的启发式Q学习[J].控制与决策,2014,29(3):425-430. 被引量：6
2吴军,徐昕,王健,贺汉根.面向多机器人系统的增强学习研究进展综述[J].控制与决策,2011,26(11):1601-1610. 被引量：22
3刘全,章鹏,钟珊,钱炜晟,翟建伟.连续空间中的一种动作加权行动者评论家算法[J].计算机学报,2017,40(6):1252-1264. 被引量：5
4张浩杰,苏治宝,苏波.基于深度Q网络学习的机器人端到端控制方法[J].仪器仪表学报,2018,39(10):36-43. 被引量：27
5易国,毛建旭,王耀南,郭斯羽,缪志强.多移动机器人运动目标环绕与避障控制[J].仪器仪表学报,2018,39(2):11-20. 被引量：9
6徐雪松,杨胜杰,陈荣元.复杂环境移动群机器人最优路径规划方法[J].电子测量与仪器学报,2016,30(2):274-282. 被引量：35
7徐晓苏,袁杰.基于改进强化学习的移动机器人路径规划方法[J].中国惯性技术学报,2019,27(3):314-320. 被引量：41
8徐继宁,曾杰.基于深度强化算法的机器人动态目标点跟随研究[J].计算机科学,2019,46(S11):94-97. 被引量：7
9张大伟,孟森森,邓计才.多移动微小型机器人编队控制与协作避碰研究[J].仪器仪表学报,2017,38(3):578-585. 被引量：10
10马磊,张文旭,戴朝华.多机器人系统强化学习研究综述[J].西南交通大学学报,2014,49(6):1032-1044. 被引量：14

二级参考文献192

1王皓,高阳.元博弈平衡和多Agent强化学习的MetaQ算法[J].计算机研究与发展,2006,43(z1):137-141. 被引量：2
2Laura RAY.Hierarchical state-abstracted and socially augmented Q-Learning for reducing complexity in agent-based learning[J].控制理论与应用（英文版）,2011,9(3):440-450. 被引量：2
3范波,潘泉,张洪才.基于Markov对策的多智能体协调方法及其在Robot Soccer中的应用[J].机器人,2005,27(1):46-51. 被引量：5
4任燚,陈宗海.基于强化学习算法的多机器人系统的冲突消解策略[J].控制与决策,2006,21(4):430-434. 被引量：7
5周浦城,洪炳镕,黄庆成.一种新颖的多agent强化学习方法[J].电子学报,2006,34(8):1488-1491. 被引量：8
6郭锐,吴敏,彭军,彭姣,曹卫华.一种新的多智能体Q学习算法[J].自动化学报,2007,33(4):367-372. 被引量：13
7JIANG Da-Wei WANG Shi-Yuan DONG Yi-Sheng.Role-based Context-specific Multiagent Q-learning[J].自动化学报,2007,33(6):583-587. 被引量：1
8邱育红.GIS空间分析中两种改进的路径规划算法[J].计算机系统应用,2007,16(7):33-35. 被引量：6
9Lucian B,Robert B,Bart D S.A comprehensive survey of multiagent reinforcement learning[J].IEEE Transactions on Systems,Man,and Cybernetics-Part C:Applications and Reviews,2008,38(2):156-172.
10Shivaram K,Yaxin L,Peter S.Half field offense in robocup soccer:A multiagent reinforcement learning case study[J].Lecture Notes in Computer Science,2007,4434:72-85.

共引文献227

1谭建豪,马小萍,李希.无人机3D航迹规划及动态避障算法研究[J].仪器仪表学报,2019,40(12):224-233. 被引量：17
2高子航.基于5G通信的四足机器人控制系统设计[J].电子技术（上海）,2021,50(5):140-141. 被引量：3
3许松,轩亮,孙剑韬,周怀东.融合行人运动信息的室内移动机器人动态避障方法[J].电子测量与仪器学报,2022,36(12):144-152.
4郑冰原,孙彦赞,吴雅婷,王涛.基于深度强化学习的超密集网络资源分配[J].电子测量技术,2020(9):133-138. 被引量：6
5梁凯,毛剑琳.基于改进蚁群算法的移动机器人动态路径规划[J].电子测量技术,2020(7):56-60. 被引量：9
6樊国根,蒙芳.基于粒子群智能优化的机器人路径全局规划算法[J].电子测量技术,2020(7):41-45. 被引量：6
7许杨子,强文,刘俊,孙鸿雁,胡成刚.基于改进深度强化学习算法的电力市场监测模型研究[J].国外电子测量技术,2020,39(1):82-87. 被引量：4
8王昆生.金融衍生工具及其监管[J].现代企业导刊,2000(4):48-49.
9A.Watzl,罗艳,陈水林.AquaTex——新型织物预处理及增强处理[J].国际纺织导报,2000,28(1):69-73. 被引量：2
10陈鑫,魏海军,吴敏,曹卫华.基于高斯回归的连续空间多智能体跟踪学习[J].自动化学报,2013,39(12):2021-2031. 被引量：2

同被引文献81

1郝雅楠,孔超,关晓红.国外无人机作战运用与发展态势分析——关于纳卡冲突事件的思考[J].国防科技工业,2021(2):50-53. 被引量：8
2王维祺,叶春明,谭晓军.基于Q学习算法的作业车间动态调度[J].计算机系统应用,2020,29(11):218-226. 被引量：6
3曹如月,张振乾,李世超,张漫,李寒,李民赞.基于改进A^(*)算法和Bezier曲线的多机协同全局路径规划[J].农业机械学报,2021,52(S01):548-554. 被引量：24
4罗雄,钱谦,伏云发.无非法解遗传算法求解柔性作业车间调度问题[J].电子测量技术,2020,43(7):36-40. 被引量：3
5智超群,鲁旭涛,张丽娜.水质监测机器人集群编队路径规划策略[J].国外电子测量技术,2022,41(5):15-20. 被引量：4
6魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
7崔世文,冯晓云.列车优化操纵与自动驾驶模式的研究与仿真[J].铁道机车车辆,2005,25(5):9-12. 被引量：17
8王建忠,唐红.TSP问题的一种快速求解算法[J].微电子学与计算机,2011,28(1):7-10. 被引量：11
9张其亮,陈永生.一种新的混合粒子群算法求解置换流水车间调度问题[J].计算机应用研究,2012,29(6):2028-2030. 被引量：8
10范文浩,刘元安,吴帆.异构无线网络中多模终端多接入选择机制研究[J].通信学报,2012,33(7):183-190. 被引量：13

引证文献9

1王凌浩,舒亮,钱祺.基于断路器柔性装配的移动机器人路径规划[J].电子测量技术,2023,46(5):121-128.
2姚懋欣,刘桂雄,陈国宇.燃气表计量检定线首次检定调度技术研究[J].电子测量技术,2023,46(4):56-59. 被引量：2
3曹红倩.应用改进Q-learning算法解决柔性作业车间调度问题[J].国外电子测量技术,2022,41(4):164-169. 被引量：3
4赵伦,伍锡如.基于地图服务器的群采摘机器人的A^(*)路径规划算法[J].桂林电子科技大学学报,2021,41(2):133-139. 被引量：1
5刘峰,魏瑞轩,丁超,姜龙亭,李天.面向多机协同的Att-MADDPG围捕控制方法设计[J].空军工程大学学报（自然科学版）,2021,22(3):9-14. 被引量：2
6金则灵,武晓春.基于Q学习算法的城轨列车智能控制策略[J].铁道标准设计,2022,66(1):166-172. 被引量：4
7韩东升,岳栩彤.基于信息年龄的变电站业务无线接入选择算法[J].电子测量技术,2022,45(20):29-36.
8魏云博,陈阳泉,曹凯,高嵩,刘伟超.面向多智能体协作的环境探索与覆盖算法[J].国外电子测量技术,2023,42(8):80-86.
9王诗,朱笑莹,孙浩,张敏,边廷玥.认知物联网基于边缘计算的频谱感知-分配方法[J].电子测量与仪器学报,2023,37(7):81-92.

二级引证文献12

1范之琳,杨洪勇,韩艺琳.基于强化学习的多智能体系统目标围捕控制[J].航空学报,2023,44(S01):236-245. 被引量：1
2张龙祥,冯全源,刘彬.基于NB-IoT的燃气流量监测系统设计[J].电子测量技术,2023,46(23):153-160.
3刘礼,刘勇,孙云权,郭涛.基于自适应蚁群算法的AGV路径规划优化[J].电子测量技术,2023,46(18):100-107.
4乔勇军,肖凡.基于强化学习的反无人机火力分配模型研究[J].兵器装备工程学报,2021,42(S02):206-212.
5乔勇军,肖凡,袁首.基于威胁度引导的火力分配强化学习算法[J].兵器装备工程学报,2021,42(S02):213-219.
6肖凡,乔勇军.基于作战过程的岛礁兵力配置强化学习算法[J].兵工自动化,2022,41(5):39-47.
7畅鑫,李艳斌,赵研,杜宇峰,刘东辉.基于MA2IDDPG算法的异构多无人机协同突防方法[J].河北工业科技,2022,39(4):328-334.
8马舸瀚,杨旗.基于ROS下移动机器人地图构建与路径规划研究[J].现代计算机,2023,29(3):65-68.
9吴秀丽,闫晓燕.基于改进Q学习的可重入混合流水车间绿色动态调度[J].机械工程学报,2023,59(13):246-259. 被引量：1
10黄江平,郑帅沁.基于FAPSO的地铁列车节能运行优化研究[J].铁道标准设计,2024,68(1):25-31.

1吴鸿敏,徐智浩,周松斌,周雪峰.云机器人:未来机器人新模式[J].广东科技,2020,29(8):27-31.
2张华成,邹万,刘建明,钟晓雄,杨兵.有限感知条件下的停车数据批量式修复研究[J].计算机系统应用,2019,28(11):19-28. 被引量：3
3俞小娟.语用能力在初中英语阅读教学中的培养探讨[J].校园英语,2020(29):201-202.
4于素梅.从一体化谈“学、练、赛”及其应用[J].体育教学,2020,40(8):17-19. 被引量：31
5俞靖凡,金泳海,樊宝瑞,杜鹏,李明明,张申,倪才方.体位改变时经颈内静脉植入胸壁式输液港导管头端位置变化及影响因素[J].中国介入影像与治疗学,2020,17(7):411-414. 被引量：3
6周静.浅谈“零起点”学生解决问题的建模策略——以“减法的意义及应用”教学为例[J].山东教育,2020(27):103-104.
7张光园,王宁.基于小样本置信区间的众包答案决策方法[J].计算机科学,2020,47(10):26-31.
8高峰,周浩,杨卓宇.基于改进A^*算法的水面无人船全局路径规划[J].计算机应用研究,2020,37(S01):120-121. 被引量：5
9杨健健,张强,王超,常博深,王晓林,葛世荣,吴淼.煤矿掘进机的机器人化研究现状与发展[J].煤炭学报,2020,45(8):2995-3005. 被引量：87
10何怀东.论色彩对舞剧舞台灯光设计的意义及应用[J].艺海,2020(9):97-98. 被引量：2

仪器仪表学报

2020年第5期

浏览历史

内容加载中请稍等...

基于个体-协同触发强化学习的多机器人行为决策方法被引量：9

参考文献15

二级参考文献192

共引文献227

同被引文献81

引证文献9

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于个体-协同触发强化学习的多机器人行为决策方法 被引量：9

参考文献15

二级参考文献192

共引文献227

同被引文献81

引证文献9

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于个体-协同触发强化学习的多机器人行为决策方法被引量：9