一种基于Dyna-Q学习的旋翼无人机视觉伺服智能控制方法被引量：7

A visual servo intelligent control method for rotor UAV based on Dyna-Q learning

导出

摘要基于图像的视觉伺服机器人控制方法通过机器人的视觉获取图像信息,然后形成基于图像信息的闭环反馈来控制机器人的合理运动.经典视觉伺服的伺服增益的选取在大多数条件下是人工赋值的,故存在鲁棒性差、收敛速度慢等问题.针对该问题,提出一种基于Dyna-Q的旋翼无人机视觉伺服智能控制方法调节伺服增益以提高其自适应性.首先,使用基于费尔曼链码的图像特征提取算法提取目标特征点;然后,使用基于图像的视觉伺服形成特征误差的闭环控制;其次,针对旋翼无人机强耦合欠驱动的动力学特性提出一种解耦的视觉伺服控制模型;最后,建立使用Dyna-Q学习调节伺服增益的强化学习模型,通过训练可以使得旋翼无人机自主选择伺服增益.Dyna-Q学习在经典的Q学习的基础上通过建立环境模型来存储经验,环境模型产生的虚拟样本可以作为学习样本来进行值函数的迭代.实验结果表明,所提出的方法相比于传统控制方法PID控制以及经典的基于图像视觉伺服方法具有收敛速度快、稳定性高的优势. The image-based visual servo control method of robots obtains the image information through the robot’s vision and then forms the closed-loop feedback based on the image information to control the robot’s reasonable movement.However, due to the problem of poor robustness and slow convergence, the selection of servo gain for classical visual servoing is artificial assignment under most conditions. Therefore, an intelligent servo control method based on Dyna-Q learning is proposed to adjust the servo gain to improve its adaptability. Firstly, this method uses the image feature extraction algorithm based on Felman chain code to extract the target feature point, then uses the image-based visual servoing to form the closed-loop control of the characteristic error. Then, this paper presents a decoupling visual servoing control model for the dynamic characteristics of rotor UAV’s strong coupling underactuated. Finally, a reinforcement learning model using Dyna-Q learning to adjust the servo gain is established, through which the rotor UAV can choose the servo gain independently. The Dyna-Q learning method learns to store experience on the basis of classical Q-Learning by setting up an environment model, and the virtual samples generated by the environment model can be used as learning samples to iterate the value function. The experimental results show that the proposed method is faster and more stable than the classical PID control and classical image based visual servo methods.

作者史豪斌徐梦刘珈妤李继超 SHI Hao-biny;XU Meng;LIU Jia-yu;LI Ji-chao(School of Computer Science,Northwestern Polytechnical University,Xi’an 710072,China)

机构地区西北工业大学计算机学院

出处《控制与决策》 EI CSCD 北大核心 2019年第12期2517-2526,共10页 Control and Decision

基金航空科学基金项目(2016ZC53022) 国家重点研发计划项目(SQ2017YFGX060091) 西北工业大学研究生种子基金项目(ZZ2018169)

关键词视觉伺服 Dyna-Q学习增益调节旋翼无人机费尔曼连码强化学习 visual servo Dyna-Q learning gain adjustment rotor UAV Felman chain code reinforcement learning

分类号 TP273 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献1

1屈耀红,邢哲文,袁冬莉,张友民.基于悬停四旋翼位置姿态信息的风场估计方法研究[J].西北工业大学学报,2016,34(4):684-690. 被引量：9

二级参考文献2

1何勇灵,陈彦民,周岷峰.四旋翼飞行器在风场扰动下的建模与控制[J].中国惯性技术学报,2013,21(5):624-630. 被引量：37
2屈耀红,于丽丽,周迎,袁冬莉.小型固定翼无人机多步长在线风场估计[J].西北工业大学学报,2015,33(5):750-756. 被引量：3

共引文献8

1马文博,李璜筹,魏帅.基于ADRC的四旋翼抗复合风场干扰悬停性能研究[J].国外电子测量技术,2020,0(2):71-76. 被引量：5
2赵元魁,王耀力.风场环境下四旋翼飞行器抗干扰研究[J].机械科学与技术,2019,38(4):530-537. 被引量：7
3卢凯文,杨忠,张秋雁,许昌亮,徐浩,徐向荣.推力矢量可倾转四旋翼自抗扰飞行控制方法[J].控制理论与应用,2020,37(6):1377-1387. 被引量：20
4张钊,杨忠,段雨潇,廖禄伟,卢凯文,张秋雁.主动变形四旋翼自抗扰飞行控制方法[J].控制理论与应用,2021,38(4):444-456. 被引量：14
5姜泽翔,杨立本,王栋,汤裕民.倾转双旋翼无人机风场扰动下的建模和控制器设计[J].飞行力学,2021,39(5):38-43. 被引量：4
6徐家平,赵天良,陈燕,白永清,孙晓芸,王淞,曹畅.基于旋翼无人机的大气边界层环境气象垂直观测及订正方法的研究[J].气象与环境学报,2022,38(3):101-111. 被引量：3
7黄梦渊,王耀力,张祉怡,常青.旋翼飞行器抗风扰控制器设计与风场环境建模[J].电子设计工程,2022,30(17):12-18.
8张雨杰,文利燕,姜斌,齐瑞云.变工况下不确定动态突变四旋翼飞行器系统的自适应湍流风扰动抑制技术[J].中国科学：信息科学,2024,54(7):1730-1751.

同被引文献53

1李俊芳,李峰,吉月辉,高强.四旋翼无人机轨迹稳定跟踪控制[J].控制与决策,2020,35(2):349-356. 被引量：21
2乔俊飞,侯占军,阮晓钢.基于神经网络的强化学习在避障中的应用[J].清华大学学报（自然科学版）,2008,48(S2):1747-1750. 被引量：27
3王帅.动态不确定环境下一种移动机器人路径规划方法[J].电气技术,2010,11(1):18-21. 被引量：3
4林联明,王浩,王一雄.基于神经网络的Sarsa强化学习算法[J].计算机技术与发展,2006,16(1):30-32. 被引量：4
5孟宪权,赵英男,薛青.遗传算法在路径规划中的应用[J].计算机工程,2008,34(16):215-217. 被引量：15
6李东华,江驹,姜长生.多智能体强化学习飞行路径规划算法[J].电光与控制,2009,16(10):10-14. 被引量：8
7张垚,鲜斌,于琰平,赵勃.四旋翼无人机可视化半实物仿真平台研究[J].仪器仪表学报,2012,33(11):2572-2578. 被引量：25
8王军红,江虹,黄玉清,伍晓利.基于RPkNN-Sarsa(λ)强化学习的机器人路径规划方法[J].计算机应用研究,2013,30(1):199-201. 被引量：4
9王正熙,陈洋,郑秀娟,程磊.风扰下基于气动参数估计的四旋翼无人机控制[J].信息与控制,2018,47(6):663-670. 被引量：7
10唐堂,罗晓曙.四旋翼无人机姿态非线性控制研究[J].计算机仿真,2019,36(1):71-75. 被引量：7

引证文献7

1赵昌丽.旋翼无人机六自由度飞行测试系统设计与应用[J].计算机应用与软件,2020,37(3):72-77. 被引量：2
2刘思嘉,童向荣.基于强化学习的城市交通路径规划[J].计算机应用,2021,41(1):185-190. 被引量：8
3韩维.一种远程终端的智能控制方法[J].电子技术与软件工程,2020(22):93-94.
4胡徐胜,郑睿,陶彬彬.四旋翼无人机飞控系统设计与实现[J].廊坊师范学院学报（自然科学版）,2021,21(4):46-50. 被引量：3
5代晓清,赵旭.一种基于无限时域无模型的在线Q学习算法[J].电光与控制,2022,29(2):53-57.
6李涛.基于终端滑模的六旋翼无人机有限时间鲁棒控制[J].计算机应用与软件,2023,40(4):329-335. 被引量：1
7王悠,方林逸,韩立祥.基于DDPG算法的旋翼无人机智能跟踪方法[J].自动化应用,2024,65(5):12-17.

二级引证文献14

1贺娇,谭代伦.基于视野范围和遗传算法的三维地形路径规划[J].计算机工程与应用,2021,57(15):279-285. 被引量：4
2许靖,靳宇星,杨永春.四旋翼无人机滑模变结构控制[J].电脑知识与技术,2022,18(10):116-118.
3王超森,李舒琪,郭昭馗,马超凡,陈祥.智能预警侦察机器人[J].机械工程与自动化,2022(4):171-173. 被引量：1
4罗飞,白梦伟.基于强化学习的交通情景问题决策优化[J].计算机应用,2022,42(8):2361-2368. 被引量：1
5聂梓润,徐野,哈乐.基于强化学习虚拟链路驾驶行为仿真环境研究[J].工业控制计算机,2022,35(11):128-130.
6孙洋洋,姚俊萍,李晓军,范守祥,王自维.面向单记录的混合负载下物化视图异步增量维护任务生成[J].计算机应用,2022,42(12):3763-3768.
7伍玲密,虞君锚,方懿,沈茗戈.基于多光谱遥感技术的水上智慧运维系统设计[J].河南科技,2022,41(23):7-12.
8李涛.基于终端滑模的六旋翼无人机有限时间鲁棒控制[J].计算机应用与软件,2023,40(4):329-335. 被引量：1
9王伟.口袋布自动缝制设备多电机偏差耦合同步控制技术研究[J].廊坊师范学院学报（自然科学版）,2023,23(2):27-31. 被引量：1
10卢海军,于宁.基于邻近数据查询算法的街区路网规划仿真[J].计算机仿真,2024,41(3):119-122.

1曹亮.机械臂视觉伺服系统的分析[J].时代农机,2019,46(8):63-64.
2钱佳,郭云开,章琼,蒋明.矿区土壤重金属Pb、Cd污染状况高光谱分类建模[J].测绘通报,2019(9):82-84. 被引量：5
3聂衍刚,利振华,窦凯.预先承诺的理论解释及其神经机制[J].心理科学,2019,42(5):1202-1208. 被引量：2
4姜俊彤,李鸿,苏醒.模糊神经网络在列车防冒进系统中的应用[J].自动化与仪表,2019,34(12):92-97. 被引量：3
5高克铉,李志刚,徐长明,王巧云,李博.混合整体趋势扩散的虚拟样本构建及其血液光谱分析应用[J].仪器仪表学报,2019,40(8):167-175. 被引量：8
6刘荣彬.探索高中数学教学中视觉思维理论应用价值[J].数学学习与研究,2019,0(23):32-32. 被引量：1
7邢玲玲.地质工程设备电力系统配电远程控制技术研发[J].世界有色金属,2019,44(19):197-197.
8肖琴,杨栋,李均委,王鸿羽,余建琴,周平.基于计算机视觉的距离测量方法在电网工程审计中的应用研究[J].电脑知识与技术,2019,15(9):227-230. 被引量：3
9覃阳,肖化.自适应非负矩阵分解的人脸识别方法研究[J].软件导刊,2019,18(12):73-77. 被引量：2
10袁凯,刘延俊,孙景余,罗星.基于模糊RBF神经网络的水下机械臂控制研究[J].工程设计学报,2019,26(6):675-682. 被引量：16

控制与决策

2019年第12期

浏览历史

内容加载中请稍等...

一种基于Dyna-Q学习的旋翼无人机视觉伺服智能控制方法被引量：7

参考文献1

二级参考文献2

共引文献8

同被引文献53

引证文献7

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

一种基于Dyna-Q学习的旋翼无人机视觉伺服智能控制方法 被引量：7

参考文献1

二级参考文献2

共引文献8

同被引文献53

引证文献7

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

一种基于Dyna-Q学习的旋翼无人机视觉伺服智能控制方法被引量：7