基于强化学习的机器人底盘能量管理与路径规划优化算法

Reinforcement learning-based optimization algorithm for energy management and path planning of robot chassis

下载PDF

导出

摘要为解决温室机器人底盘传统路径规划中因忽略地面粗糙度而导致的电池寿命缩短与利用效率低下的问题,该研究探讨了3种融合电池能量管理与路径规划的强化学习算法。首先,基于先验知识构建分级预打分奖励模型,并通过增加曼哈顿距离构建奖励函数,提高电池寿命和利用率;其次,针对传统Q-Learning(QL)算法收敛效率低、易陷入局部最优等问题,提出了自适应变步长的优化算法(adaptive multi-step q-learning,AMQL)和基于自适应改变探索率的优化算法(adaptive ε-greedy q-learning,AEQL),以提升Q-Learning算法的性能。此外,为进一步提高算法的可行性,该文将AMQL算法和AEQL算法进行融合,提出了一种自适应多步长和变ε-greedy融合算法(adaptive multi-step and ε-greedy q-learning,AMEQL),并通过仿真对比的方式,验证了AMQL和AMEQL算法相对于传统QL算法在3个不同垄道下的性能。仿真试验结果表明:AMQL相对于传统QL算法,训练平均时间降低23.74%,收敛平均迭代次数降低8.82%,路径平均拐点数降低54.29%,收敛后的平均波动次数降低14.54%;AMEQL相对于传统QL算法,训练平均时间降低34.46%,收敛平均迭代次数降低18.02%,路径平均拐点数降低63.13%,收敛后的平均波动次数减少15.62%,在400次迭代过程中,AMEQL到达最大奖励后平均每7.12次迭代波动1次,而AMQL平均每6.68次迭代波动1次。可知AMEQL训练时间最短,收敛最快,路径拐点数量最低,奖励波动最小,而AMQL次之。该算法可为机器人底盘自主路径规划提供理论参考。 Ground roughness can significantly impact the battery performance in greenhouse environments.In this study,battery energy management was integrated with path planning to address this challenge.A systematic investigation was also implemented to explore the effects of ground roughness on the battery life and utilization efficiency of greenhouse vehicle platforms.A graded pre-scoring model was constructed using prior knowledge.Additionally,the Manhattan distance between the vehicle's current position and the target point was incorporated into the reinforcement learning reward function,thus linking travel distance with battery life to optimize both battery utilization efficiency and life during path planning.An Adaptive Multi-step Q-learning algorithm(AMQL)with adaptive step sizes and an Adaptive 8-greedy Q-learning algorithm(AEQL)with an adaptive exploration rate was proposed to enhance the performance of the Q-learning algorithm.The traditional Q-learning algorithms were associated with some issues,such as long iteration times,low convergence efficiency,susceptibility to local optima,and excessive path turns.The AMQL algorithm was used to adjust the step size,according to the forward reward assessment,if the reward at the current position increased corresponding to the previous reward,the step size increased.The step size gradually decreased to prevent suboptimal path optimization,as the current position approached the endpoint.The AEQL algorithm was used to adaptively adjust the exploration rate using the difference between adjacent reward values-e increased when the adjacent reward value increased,and decreased when the reward value decreased.Although AMQL improved the convergence efficiency and iteration speed,the variations in the step size caused significant fluctuations in rewards,resulting in lower algorithm stability.Additionally,there was no outstanding impact of multi-step length on the convergence efficiency and iteration speed.Furthermore,the AEQL enhanced the exploration efficiency and algorithm stability through dynamic adjustments.But its fluctuating rise during the initial training phase also increased the training time.Therefore,the AMQL and AEQL algorithms were combined to develop an Adaptive Multi-step and c-greedy Q-learning algorithm(AMEQL),in order to ensure faster and more optimal global path selection during path planning.In a simulated environment,the models were first used to simulate a realistic greenhouse tomato scenario.Then,an Inertial Measurement Unit(IMU)was used to record the changes in the aisle roughness in real time.This data was then incorporated into the simulation model.Finally,300 rounds of simulation experiments were carried out to test the traditional Q-learning,AMQL,and AMEQL algorithm for path planning in the single-row(30 mx20 m),double-row(50 mx50 m),and triple-row(70 mx50 m)environments.Simulation results show that the AMEQL algorithm reduced the average training time by 44.10%,the average number of iterations required for convergence by 11.06%,the number of path turns by 63.13%,and the post-convergence average fluctuation by 15.62%,compared with the traditional Q-learning.Due to its higher convergence speed in 400 iterations,the AMEQL algorithm averaged 14 fluctuations per 100 iterations after reaching the maximum reward,while the AMQL algorithm averaged 15 fluctuations.This algorithm can provide a theoretical reference for the autonomous path planning of greenhouse platforms.

作者李潇宇张君华郭晓光伍纲 LI Xiaoyu;ZHANG Junhua;GUO Xiaoguang;WU Gang(School of Mechanical and Electrical Engineering,Beijing Information Science and Technology University,Beijing 100192,China;Institute of Agricultural Environment and Sustainable Development,Chinese Academy of Agricultural Sciences,Beijing 100081,China)

机构地区北京信息科技大学机电工程学院中国农业科学院农业环境与可持续发展研究所

出处《农业工程学报》 EI CAS CSCD 北大核心 2024年第21期175-183,共9页 Transactions of the Chinese Society of Agricultural Engineering

基金国家自然科学基金项目(12272057)。

关键词温室路径规划强化学习能量管理多目标优化 greenhouse path planning reinforcement learning energy management multi-objective optimization

分类号 S23-0 [农业科学—农业机械化工程]

引文网络
相关文献

参考文献10

1宋成宝,柳平增,刘兴华,魏珉,张正辉,章子文.基于温湿度异布的日光温室冬季主动通风策略设计与验证[J].农业工程学报,2024,40(10):228-238. 被引量：1
2张观山,丁小明,何芬,尹义蕾,李天华,任吉傲,周俊毅,齐飞.基于LSTM-AT的温室空气温度预测模型构建[J].农业工程学报,2024,40(18):194-201. 被引量：1
3秦硕璞,李婷,张雅京,杨淼,郝一涵,汪明明,马欣悦,王辰星,严岩.中国农业源非CO_(2)温室气体排放核算[J].生态学报,2024,44(17):7536-7551. 被引量：2
4万俊,孙薇,葛敏,王克鸿,章晓勇.基于含避障角人工势场法的机器人路径规划[J].农业机械学报,2024,55(1):409-418. 被引量：2
5时维国,宁宁,宋存利,宁文静.基于蚁群算法与人工势场法的移动机器人路径规划[J].农业机械学报,2023,54(12):407-416. 被引量：4
6沈跃,张凌飞,沈亚运,储金城,刘慧.基于相邻争夺算法的无人机多架次植保作业路径规划[J].农业工程学报,2024,40(16):44-51. 被引量：1
7孙月平,方正,袁必康,孙杰,孟祥汶,汪彦彤,赵德安.基于FIA*-APF算法的蟹塘投饵船动态路径规划[J].农业工程学报,2024,40(9):137-145. 被引量：1
8孙国祥,黄银锋,汪小旵,袁云鹏,陈光宇.基于LIO-SAM建图和激光视觉融合定位的温室自主行走系统[J].农业工程学报,2024,40(3):227-239. 被引量：6
9熊俊涛,李中行,陈淑绵,郑镇辉.基于深度强化学习的虚拟机器人采摘路径避障规划[J].农业机械学报,2020,51(S02):1-10. 被引量：27
10吕悦来,李广毅.地表粗糙度与土壤风蚀[J].土壤学进展,1992,20(6):38-42. 被引量：20

二级参考文献158

1迟旭,李花,费继友.基于改进A^(*)算法与动态窗口法融合的机器人随机避障方法研究[J].仪器仪表学报,2021,42(3):132-140. 被引量：78
2魏立新,高嘉良,蒋容,王中专,王力,叶霖.基于BFS算法的油田污水系统参数计算方法研究[J].当代化工,2021(1):117-122. 被引量：3
3张亮,刘智宇,曹晶瑛,沈沛意,蒋得志,梅林,朱光明,苗启广.扫地机器人增强位姿融合的Cartographer算法及系统实现[J].软件学报,2020(9):2678-2690. 被引量：33
4姜龙腾,迟瑞娟,熊泽鑫,马悦琦,班超,朱晓龙.基于优化人工势场法的插秧机绕障策略研究[J].农业机械学报,2022,53(S01):20-27. 被引量：4
5王宁,韩雨晓,王雅萱,王天海,张漫,李寒.农业机器人全覆盖作业规划研究进展[J].农业机械学报,2022,53(S01):1-19. 被引量：22
6郝琨,张慧杰,李志圣,刘永磊.基于改进避障策略和双优化蚁群算法的机器人路径规划[J].农业机械学报,2022,53(8):303-312. 被引量：24
7曹如月,张振乾,李世超,张漫,李寒,李民赞.基于改进A^(*)算法和Bezier曲线的多机协同全局路径规划[J].农业机械学报,2021,52(S01):548-554. 被引量：29
8华霄桐,王国磊,张思敏,刘兴杰,陈恳.用于复杂管道内表面喷涂的冗余机器人轨迹避障规划[J].机器人,2019,41(5):690-696. 被引量：9
9张括嘉,张云洲,吕光浩,龚益群.基于局部语义拓扑图的视觉SLAM闭环检测[J].机器人,2019,41(5):649-659. 被引量：15
10陈丽,陈洋,杨艳华.面向三维结构视觉检测的无人机覆盖路径规划[J].电子测量与仪器学报,2023,37(2):1-10. 被引量：11

共引文献55

1刘目兴,王静爱,严平,刘连友,李小雁,杨秀春,赖延斌.沙区旱垄作对油菜生长环境的影响[J].土壤学报,2005,42(6):985-992. 被引量：14
2郑子成,吴发启,何淑勤,王健,佘雕.地表糙度对径流和产沙影响的室内试验研究[J].农业工程学报,2007,23(10):19-24. 被引量：25
3刘静,卓慕宁,胡耀国.初论地表粗糙度[J].生态环境,2007,16(6):1829-1836. 被引量：12
4郭建华,吴发启,梁心兰,刘淼.坡耕地地表糙度对降水分配的实验研究[J].水土保持研究,2008,15(3):11-14. 被引量：10
5张慧娟,孙宇瑞.农田土壤表层粗糙度信息解析[J].农业机械学报,2010,41(3):33-39. 被引量：10
6李君兰,蔡强国,孙莉英,陈晓安.细沟侵蚀影响因素和临界条件研究进展[J].地理科学进展,2010,29(11):1319-1325. 被引量：56
7陶旸,汤国安,王春,杨昕.基于语义和剖面特征匹配的地形粗糙度模型评价[J].地理研究,2011,30(6):1066-1076. 被引量：3
8江冲亚,方红亮,魏珊珊.地表粗糙度参数化研究综述[J].地球科学进展,2012,27(3):292-303. 被引量：27
9许明祥,刘国彬,温仲明,刘宝元,傅伯杰.黄土丘陵区小流域土壤特性时空动态变化研究[J].水土保持通报,2000,20(1):20-23. 被引量：21
10朱良君,张光辉.地表微地形测量及定量化方法研究综述[J].中国水土保持科学,2013,11(5):114-122. 被引量：24

1张浩杰,姜峰,刘传凯,张作宇,李擎.星球车自主路径规划方法[J].工程科学学报,2024,46(11):2063-2075.
2黄玉春,宋俊,王宸,孙楠,王勤,钟毓宁.基于变体天牛须改进QL的AGV路径规划算法研究[J].制造技术与机床,2024(10):89-97.
3王少光,夏超男.老年2型糖尿病患者医学营养治疗的效果观察[J].深圳中西医结合杂志,2024,34(14):103-106.
4林福龙,赵志成,孙振亚,刘盼,陈建飞,丁红军.基于粒子群优化的模糊掘进纠偏控制系统研究与应用[J].隧道建设（中英文）,2024,44(8):1679-1685.
5伍成豪,王维平,袁宝聚,陈春弘,杨心愉.基于ROS多融合巡检机器人的设计[J].信息化研究,2024,50(4):73-78.
6李涛,张春,罗苏明,郑涛.一种改进变步长电导增量法的MPPT跟踪策略[J].四川轻化工大学学报（自然科学版）,2024,37(5):15-21.
7张艳菊,杨庆港,吴俊,吴一玄,李雨扬.考虑订单拆分策略的AGV拣选效率优化方法[J].计算机应用研究,2024,41(11):3258-3264.
8张艳珠,张程,庄博.基于强化学习的移动机器人路径规划改进算法研究[J].通信与信息技术,2024(6):39-43.
9宋燕利,张舒磊,宋康,王旭初,刘煜键,苏建军,杨林.基于ABSS-ARRT*算法的焊接机械臂避障路径规划研究[J].精密成形工程,2024,16(11):168-177.
10苏湘粤,李永胜,朱永进.多策略增强型蛇优化器的避障路径规划[J].电子测量技术,2024,47(16):174-184.

农业工程学报

2024年第21期

浏览历史

内容加载中请稍等...

基于强化学习的机器人底盘能量管理与路径规划优化算法

参考文献10

二级参考文献158

共引文献55

相关作者

相关机构

相关主题

浏览历史