基于气味奖励引导的Q-learning环境认知方法被引量：5

Q-learning environment recognition method based on odor-reward shaping

导出

摘要 Q-learning作为一种无模型的值迭代强化学习算法,被广泛应用于移动机器人在非结构环境下的导航任务中。针对Q-learning在移动机器人导航中环境探索和利用存在矛盾关系导致收敛速度慢的问题,该文在Q-learning算法的基础上,受啮齿类动物可以利用嗅觉线索来进行空间定向和导航的启发,提出一种基于气味奖励引导的Q-learning环境认知策略。该算法通过改善Q-learning中的动作选择策略来减少对环境的无用探索,在动作选择策略中融入了环境气味奖励的引导,并提出了嗅觉因子来平衡动作选择策略中Q-learning和气味奖励引导的权重关系。为了验证算法的有效性,在Tolman老鼠实验所用的迷宫环境中进行了仿真实验,动态仿真结果表明,相比Q-learning算法,基于气味奖励引导的Q-learning算法在环境认知过程中,可减少对环境的无用探索,并增强对环境的认知学习能力,且提高算法的收敛速度。 Q-learning is a model-free iterative reinforcement learning algorithm that is widely used for navigating mobile robots in unstructured environments. However, the exploration and utilization of the environmental data limits the Q-learning convergence speed for mobile robot navigation. This study used the Q-learning algorithm and the fact that rodents use olfactory cues for spatial orientation and navigation to develop a Q-learning environmental cognitive strategy based on odor-reward shaping. This algorithm reduces useless exploration of the environment by improving the Q-learning action selection strategy. Environmental odor information is integrated into the algorithm with the olfactory factor used to weight the Q-learning and the odor-reward shaping in the action selection strategy. The algorithm effectiveness is evaluated in a simulation of movement in the labyrinth environment used in the Tolman mouse experiment. The results show that the Q-learning algorithm with odor-reward shaping reduces useless exploration of the environment, enhances cognitive learning of the environment, and improves the algorithm convergence speed.

作者阮晓钢刘鹏飞朱晓庆 RUAN Xiaogang;LIU Pengfei;ZHU Xiaoqing(Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China;Beijing Key Laboratory of Computational Intelligence and Intelligent System,Beijing 100124,China)

机构地区北京工业大学信息学部计算智能与智能系统北京市重点实验室

出处《清华大学学报（自然科学版）》 EI CAS CSCD 北大核心 2021年第3期254-260,共7页 Journal of Tsinghua University(Science and Technology)

基金国家自然科学基金资助项目(61773027) 北京市自然科学基金资助项目(4202005) 北京市教育委员会科技计划一般项目(KM201810005028)。

关键词机器人导航环境认知 Q-LEARNING 嗅觉因子 robot navigation environment recognition Q-learning olfactory factor

分类号 TP242.6 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献1

1王志文,郭戈.移动机器人导航技术现状与展望[J].机器人,2003,25(5):470-474. 被引量：109

二级参考文献19

1姜若愚,范丰仙.智能机器人传感器的研究述评[J].湖南大学学报（自然科学版）,1994,21(5):96-100. 被引量：1
2王宏,张钹.基于地图的室外移动机器人路径规划与导航系统[J].机器人,1994,16(1):24-29. 被引量：5
3李伟.在未知环境中基于模糊逻辑的移动机器人行为控制[J].控制理论与应用,1996,13(2):153-162. 被引量：16
4马兆青,袁曾任.基于栅格方法的移动机器人实时导航和避障[J].机器人,1996,18(6):344-348. 被引量：91
5马明山,朱绍文,何克忠,李相伟.室外移动机器人定位技术研究[J].电工技术学报,1998,13(2):43-46. 被引量：8
6崔茂源,田彦涛,赵中祺.基于模糊逻辑的自主移动机器人实时滚动路径规划及控制[J].吉林工业大学学报,1999,29(1):58-63. 被引量：12
7李贻斌,刘明,周风余,李彩虹,苏学成.移动机器人多超声波传感器信息融合方法[J].系统工程与电子技术,1999,21(9):55-57. 被引量：15
8李智军,吕恬生.遗传算法在自主移动机器人局部路径规划中的应用[J].机械设计,2000,17(7):26-29. 被引量：11
9任华瑛,胡跃明,池瑞楠.基于遗传算法的最优模糊控制器在非完整移动机器人轨迹跟踪中的应用[J].机器人技术与应用,2000,0(6):24-28. 被引量：6
10王军,苏剑波,席裕庚.多传感器集成与融合概述[J].机器人,2001,23(2):183-186. 被引量：36

共引文献108

1汪中原.基于5G技术的智能机器人技术[J].电子技术（上海）,2020(3):54-55. 被引量：1
2邬再新,李艳宏,刘涛.多移动机器人路径规划技术的研究现状与展望[J].机械,2008,35(1):1-3. 被引量：11
3刘满禄,张华,胡天链.改进的人工势场法用于移动机器人导航[J].华中科技大学学报（自然科学版）,2008,36(S1):177-180. 被引量：11
4杨鹃,孙华,吴林.模糊神经网络信息融合方法在机器人避障中的应用[J].自动化技术与应用,2005,24(2):22-24. 被引量：13
5张捍东,郑睿,岑豫皖.移动机器人路径规划技术的现状与展望[J].系统仿真学报,2005,17(2):439-443. 被引量：119
6石鸿雁,孙茂相,孙昌志.未知环境下移动机器人路径规划方法[J].沈阳工业大学学报,2005,27(1):63-69. 被引量：10
7段俊花,李孝安.基于改进遗传算法的机器人路径规划[J].微电子学与计算机,2005,22(1):70-72. 被引量：26
8孙华,杨鹃.多传感器信息融合在移动机器人上的应用[J].工矿自动化,2005,31(2):22-25. 被引量：6
9廖祝华,刘晓平,刘松林.曲线形套装路径规划算法研究[J].计算机工程与应用,2005,41(17):116-119.
10杨放琼 ,谭青 ,彭高明 ,R.A.Willgoss .两轮驱动移动机器人系统误差分析及校正[J].现代机械,2005(4):6-8. 被引量：1

同被引文献70

1王飞跃,曹东璞,魏庆来.强化学习:迈向知行合一的智能机制与算法[J].智能科学与技术学报,2020(2):101-106. 被引量：12
2黄宜庆,王正刚,王徽,葛愿.基于边缘梯度算法的多移动机器人协作地图构建[J].信息与控制,2020,49(1):62-68. 被引量：4
3董翔宇,张中,朱俊,吴永恒,杜鹏,魏南.一种基于深度神经网络的变电站巡检机器人路面识别方法[J].计算机应用研究,2020,37(S02):389-391. 被引量：10
4胡艳明,李德才,何玉庆,韩建达.基于增量式RBF网络的Q学习算法[J].机器人,2019,41(5):562-573. 被引量：7
5NAN Rendong.Five hundred meter aperture spherical radio telescope (FAST)[J].Science China(Physics,Mechanics & Astronomy),2006,49(2):129-148. 被引量：81
6常宝娴,丁洁,朱俊武,章永龙.未知环境下机器人Q学习覆盖算法[J].南京理工大学学报,2013,37(6):792-798. 被引量：2
7张淑萍,陈聪,王培哲,刘盛林,陈晓宇.野生鸟类应激反应的生理机制及其生态意义[J].生态学杂志,2010,29(11):2280-2285. 被引量：10
8陈晓东,孙福军,刘洋,孟兆新,杨伟光,宋惠东,崔强强.高压输电线路驱鸟试验研究[J].黑龙江电力,2011,33(1):53-57. 被引量：8
9闫飞,庄严,王伟.移动机器人基于多传感器信息融合的室外场景理解[J].控制理论与应用,2011,28(8):1093-1098. 被引量：11
10张青,李龙澍,刘跃.基于卡尔曼滤波的仿真机器人定位方法[J].计算机仿真,2013,30(12):317-320. 被引量：9

引证文献5

1段书用,章霖鑫,韩旭,刘桂荣.具有光滑-直行功能的Q-Learning路径优化算法[J].机械工程学报,2022,58(11):72-87.
2柯杰龙,张羽,朱朋辉,黄炽坤,吴可廷.基于改进Q⁃learning算法的输电线路拟声驱鸟策略研究[J].南京信息工程大学学报（自然科学版）,2022,14(5):579-586. 被引量：1
3冯浩然,尚志刚,杨莉芳,靳富丽,马佐豪.基于Q学习参数辨识的动物学习能力评价方法[J].科学技术与工程,2022,22(27):11842-11849.
4何启嘉,王启明,李佳璇,王正佳,王通.基于优势竞争网络的转运机器人路径规划[J].清华大学学报（自然科学版）,2022,62(11):1751-1757. 被引量：2
5高春艳,陶渊,吕晓玲,张明路.非结构化环境下巡检机器人环境感知技术研究综述[J].传感器与微系统,2023,42(4):10-13. 被引量：2

二级引证文献5

1曾贺.面向车身数字化工艺开发的多机器人避障算法[J].汽车实用技术,2022,47(17):151-156.
2刘鹏辉,琚贇,高维星,张彦彦.基于强化学习的网络拥塞控制优化算法[J].电力科学与工程,2023,39(4):20-27. 被引量：2
3穆龙涛,权超,潘冠廷,周云飞.复合型移动机器人技术进展与应用前景[J].现代农业装备,2023,44(4):10-14. 被引量：1
4杨立,赵骏,郭睿涵,邓雅文,刘俊轶.协作机器人在工业厂房中的应用[J].上海轻工业,2024(2):156-158.
5卢锦澎,梁宏斌.基于深度Q网络的机器人路径规划研究综述[J].传感器与微系统,2024,43(6):1-5.

1日研究团队开发出1型糖尿病新疗法[J].医药前沿,2020,10(12):1-2.
2修志儒,阚默,于澎,宋凤媛,许天阳,杨擎,李辉,刘士坤,陈锡俊,兰兴成,李娜,曲晓波.松子蛋白改善脑缺血再灌注损伤小鼠的认知学习能力作用研究[J].长春中医药大学学报,2020,36(6):1160-1162.
3张赵宣.体育平衡动作引发关于合作学习的思考[J].学苑教育,2021(2):79-80.
4南娜.学前教育信息化建设与应用研究现状[J].文学少年,2021(7):0157-0157.
5鲜开义,彭志远,谷湘煜,梁洪军,蒋鑫,查盛.变电站巡检机器人避障方法研究与应用[J].科学技术与工程,2021,21(5):1957-1962. 被引量：14
6樊仕才.髋臼骨折手术入路选择策略[J].中华创伤杂志,2021,37(3):199-204. 被引量：5
7程珊,马进,张太辉,孙继成,熊凯文,胡文东.听觉定位能力的理论研究现状及其在空间态势感知中的作用[J].职业与健康,2020,36(24):3447-3450. 被引量：3
8朱德文.双轿厢电梯动态运行的强化学习算法配置[J].中国电梯,2021,32(4):25-32.
9胡剑强,康崇皓,朱宏润,肖金花,郑子璇,刘建华.城轨柔性直流牵引供电系统光伏发电并入方式研究[J].北京交通大学学报,2021,45(1):111-118. 被引量：8
10何云竹.浅谈译者主体性问题——以部分中文政治术语的日译为中心[J].佳木斯职业学院学报,2021,37(4):76-77.

清华大学学报（自然科学版）

2021年第3期

浏览历史

内容加载中请稍等...

基于气味奖励引导的Q-learning环境认知方法被引量：5

参考文献1

二级参考文献19

共引文献108

同被引文献70

引证文献5

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于气味奖励引导的Q-learning环境认知方法 被引量：5

参考文献1

二级参考文献19

共引文献108

同被引文献70

引证文献5

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于气味奖励引导的Q-learning环境认知方法被引量：5