多智能体编队控制中的迁移强化学习算法研究被引量：1

Study on learning algorithm of transfer reinforcement for multi-agent formation control

下载PDF

导出

摘要针对多障碍环境下的多智能体系统协同编队避障与防撞问题,提出一种迁移学习与强化学习相结合的编队控制算法。在源任务学习阶段,利用值函数近似方法避免Q-表格求解法所需的大规模存储空间问题,有效降低对存储空间的需求,提升算法求解速度;在目标任务学习阶段,采用高斯聚类算法对源任务进行分类,根据聚类中心和目标任务之间的距离,选择最优的源任务类进行目标任务学习,有效避免了负迁移现象,进而提升了强化学习算法的泛化能力及收敛速度。仿真实验结果表明,所提方法能使多智能体系统在复杂的障碍环境下有效地形成并保持编队构型,同时实现避障与防撞。 Considering the obstacle avoidance and collision avoidance for multi-agent cooperative formation in multi-obstacle environment,a formation control algorithm based on transfer learning and reinforcement learning is proposed.Firstly,in the source task learning stage,the large storage space required by Q-table solution is avoided by using the value function approximation method,which effectively reduces the storage space requirement and improves the solving speed of the algorithm.Secondly,in the learning phase of the target task,Gaussian clustering algorithm was used to classify the source tasks.According to the distance between the clustering center and the target task,the optimal source task class was selected for target task learning,which effectively avoided the negative transfer phenomenon,and improved the generalization ability and convergence speed of reinforcement learning algorithm.Finally,the simulation results show that this method can effectively form and maintain formation configuration of multi-agent system in complex environment with obstacles,and realize obstacle avoidance and collision avoidance at the same time.

作者胡鹏林潘泉郭亚宁赵春晖 HU Penglin;PAN Quan;GUO Yaning;ZHAO Chunhui(School of Automation,Northwestern Polytechnical University,Xi′an 710129,China)

机构地区西北工业大学自动化学院

出处《西北工业大学学报》 EI CAS CSCD 北大核心 2023年第2期389-399,共11页 Journal of Northwestern Polytechnical University

基金国家自然科学基金(61790552,62073264)资助。

关键词多智能体系统迁移强化学习值函数近似编队控制高斯聚类 multi-agent system transfer reinforcement learning value function approximation formation control Gaussian clustering

分类号 TP13 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1李正平,鲜斌.基于虚拟结构法的分布式多无人机鲁棒编队控制[J].控制理论与应用,2020,37(11):2423-2431. 被引量：50

二级参考文献4

1金鑫,鲜斌.倾转式三旋翼无人机非线性鲁棒控制设计与实验验证[J].控制理论与应用,2017,34(10):1303-1310. 被引量：9
2Guozhou ZHENG,Bin XIAN.Nonlinear robust control of a quadrotor helicopter with finite time convergence[J].Control Theory and Technology,2018,16(2):133-144. 被引量：2
3马鸣宇,董朝阳,马思迁,王青.基于SO(3)的多四旋翼无人机编队协同控制[J].控制理论与应用,2018,35(9):1229-1238. 被引量：15
4王丹丹,宗群,张博渊,秦新立.多无人机完全分布式有限时间编队控制[J].控制与决策,2019,34(12):2656-2660. 被引量：14

共引文献49

1王振威,刘凯,郭健,刘晓鹏.一种基于领导-跟随策略的多无人机-多无人艇编队协同机制[J].航空学报,2023,44(S02):453-468. 被引量：1
2杨明月,寿莹鑫,唐勇,刘畅,许斌.多四旋翼无人机编队保持与避碰控制[J].航空学报,2022,43(S01):89-99. 被引量：12
3胡锦帆.基于虚拟领航者的无人机一致性编队控制[J].电子测量技术,2023,46(22):70-77. 被引量：1
4佟盛,李大辉.具有实时避障能力的UUV编队技术设计与研究[J].舰船科学技术,2020,42(12):72-75. 被引量：1
5赵红超,赵建忠.基于滑模干扰观测器的无人机编队动态面控制[J].飞行力学,2021,39(4):45-51. 被引量：6
6费思远,鲜斌,王岭.基于群集行为的分布式多无人机编队动态避障控制[J].控制理论与应用,2022,39(1):1-11. 被引量：19
7王巍,谷壬倩,彭力,赵继军,魏忠诚,常存喜.基于无人机的物联网空基中继鲁棒优化[J].物联网学报,2022,6(1):101-112. 被引量：3
8秦留界,宋光明,毛巨正,刘盛松,曾洪,宋爱国.基于手眼双模态人机接口的移动机器人编队共享控制[J].机器人,2022,44(3):343-351. 被引量：3
9曹志斌,邵星灵,杨卫,康新晨.基于神经网络的多四旋翼保性能编队控制[J].科学技术与工程,2022,22(15):6347-6353. 被引量：5
10王汉宁,黄文翰,廖燕邦,陈宇龙,施振华,苏成悦.去中心化无人机集群控制系统设计与实现[J].信息技术与信息化,2022(6):16-19. 被引量：2

同被引文献5

1张超省,王健,张林,王娅.面向复杂障碍场的多智能体系统集群避障模型[J].兵工学报,2021,42(1):141-150. 被引量：10
2尹洋,杨全顺,王征,刘洋.通信距离约束下的无人船集群覆盖搜索方法[J].系统工程与电子技术,2022,44(12):3821-3828. 被引量：4
3Duo Zheng,Yun-fei Zhang,Fan Li,Peng Cheng.UAVs cooperative task assignment and trajectory optimization with safety and time constraints[J].Defence Technology（防务技术）,2023,20(2):149-161. 被引量：2
4刘卫国,项志宇,刘伟平,齐道新,王子旭.基于分布式强化学习的车辆控制算法研究[J].汽车工程,2023,45(9):1637-1645. 被引量：3
5郭宏达,娄静涛,杨珍珍,徐友春.基于拍卖多智能体深度确定性策略梯度的多无人车分散策略研究[J].电子与信息学报,2024,46(1):287-298. 被引量：1

引证文献1

1吴尹菲,李新凯,张宏立,陈颖颖,龚丰金.基于弹性面域特性的虚拟管道优化与设计[J].系统工程与电子技术,2024,46(11):3862-3873.

1苏鹏,罗素云.基于深度学习的图像动态特征点剔除方法[J].农业装备与车辆工程,2022,60(8):55-59.
2司彦娜,普杰信,于晓升,司鹏举,孙力帆.基于径向基神经网络的多步Sarsa控制算法[J].控制与决策,2023,38(4):944-950. 被引量：1
3李斐.三维环境下的智能水力发电厂移动目标UWB定位方法[J].水力发电,2023,49(4):81-86.
4胡阳修,赵长春,贾成龙,钱洲元,胡涛.基于ROS的集群无人机同步路径编队控制[J].航空学报,2022,43(S01):100-109. 被引量：4
5翟金梁.普通高中英语教学中汉语对英语学习的负迁移作用及对策分析[J].教师,2023(5):63-65.
6杨雨卉,于爱菊,乔琛.无人机遂行编队飞行中的纯方位无源定位方案研究[J].数学建模及其应用,2023,12(1):60-68. 被引量：3
7邓忠军.自然资源西藏遥感影像服务平台的设计与实现[J].测绘与空间地理信息,2023,46(3):97-101. 被引量：2
8卢帅多,胡盛斌.输入受限下的无人机编队控制方法研究[J].计算机时代,2023(5):25-30.
9戴嘉伟,熊智,晁丽君,杨闯.基于STDP奖励调节的类脑面向目标导航[J].导航定位与授时,2023,10(2):47-56. 被引量：2
10吕航,吴琼,王浩婷,任洪波,马昊,陈敏.考虑不确定性的电热耦合多能微网系统概率潮流计算[J].上海电力大学学报,2023,39(2):167-174. 被引量：2

西北工业大学学报

2023年第2期

浏览历史

内容加载中请稍等...

多智能体编队控制中的迁移强化学习算法研究被引量：1

参考文献1

二级参考文献4

共引文献49

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

多智能体编队控制中的迁移强化学习算法研究 被引量：1

参考文献1

二级参考文献4

共引文献49

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

多智能体编队控制中的迁移强化学习算法研究被引量：1