马尔可夫决策问题的关键状态优先学习算法被引量：1

下载PDF

导出

摘要针对传统强化学习算法的维数灾难问题,首先提出了用于识别关键状态的"决策收益率"概念及其估算方法,然后借鉴学习范围扩展的思想,以经典Q-Learning学习算法为基础,提出了关键状态优先学习算法(Critical States Prioritized Learning,CSPL)。最后本文实现了机器人寻径实验,并比较了CSPL算法与Q-Learning算法的实验结果。

作者白尘

机构地区清华大学经济管理学院博士后流动站中国民生银行博士后工作站

出处《中国管理信息化》 2016年第7期198-202,共5页 China Management Informationization

关键词马尔可夫决策关键状态决策收益率关键状态优先学习算法

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

同被引文献17

1于红斌,李孝安.基于栅格法的机器人快速路径规划[J].微电子学与计算机,2005,22(6):98-100. 被引量：63
2张本群.基于启发式算法的路径规划[J].计算机仿真,2012,29(10):341-343. 被引量：6
3童亮,王准.强化学习在机器人路径规划中的应用研究[J].计算机仿真,2013,30(12):351-355. 被引量：13
4唐文秀,刘萍洋,赵偲宇,梁小伟.基于立体视觉测量的移动机器人导航技术研究[J].森林工程,2013,29(6):102-105. 被引量：6
5丁柏群,姜瑾.基于蚁群算法和动态路阻的物流配送路径优化[J].森林工程,2014,30(2):149-152. 被引量：4
6刘晓磊,蒋林,金祖飞,郭晨.非结构化环境中基于栅格法环境建模的移动机器人路径规划[J].机床与液压,2016,44(17):1-7. 被引量：22
7胡小平,李泽玉.一种改进的势场法路径规划算法[J].机械科学与技术,2017,36(10):1521-1529. 被引量：5
8程传奇,郝向阳,李建胜,张振杰,孙国鹏.融合改进A~*算法和动态窗口法的全局动态路径规划[J].西安交通大学学报,2017,51(11):137-143. 被引量：110
9王志中.复杂动态环境下自主机器人路径规划研究[J].组合机床与自动化加工技术,2018(1):64-68. 被引量：19
10王艳新,唐文秀,吴函,赵国平,何金龙.基于多传感器融合技术的智能抢险救灾机器人设计[J].林业机械与木工设备,2018,46(5):17-20. 被引量：6

引证文献1

1孙上杰,姜树海,崔嵩鹤,康玥,陈语唐.基于深度学习的森林消防机器人路径规划[J].森林工程,2020,36(4):51-57. 被引量：26

二级引证文献26

1郭赞权,王佩,石宽.森林消防实火模拟技战术训练系统设计[J].消防科学与技术,2020,39(12):1622-1625. 被引量：7
2杨芳,高晓阳,李红岭,杨梅,邵世禄.基于图像处理和深度学习的葡萄叶片钾含量的检测方法[J].林业机械与木工设备,2021,49(2):9-15. 被引量：2
3柴鹏,王月,齐铂金.机器人搅拌摩擦焊缝跟踪控制系统设计与实现[J].自动化技术与应用,2021,40(5):23-27. 被引量：1
4石宇梦,李彤,刘泽新,廖福兰,傅可艺,宋星竹.森林防火监测机器人设计研究[J].林业机械与木工设备,2021,49(6):25-28. 被引量：1
5杨利,陈柳松,谢永超.基于PLC和工业机器人的智能仓库系统设计[J].自动化技术与应用,2021,40(7):72-75. 被引量：13
6雷彪,陈江,侯林.基于随机森林算法的石油钻采装备外部故障自动监测方法[J].自动化技术与应用,2021,40(7):125-128. 被引量：2
7尤晶晶,符周舟,陈华鑫,王林康.Stewart型六维加速度传感器的双支链故障自修复[J].压电与声光,2021,43(5):715-719. 被引量：4
8张慧贤,杨海军,马利民,张莉洁,布占伟,郭兆锋,钟卫.消防机器人作业环境智能感知与识别关键技术[J].机械制造与自动化,2021,50(6):186-189. 被引量：5
9尹宏杰,谢逸逍,贾烨,张瑞强,郝文海.变电站自动化维护巡检机器人设计[J].自动化技术与应用,2022,41(3):101-105. 被引量：6
10王鹏,李百泉,赵永钢.基于数据挖掘技术的货运列车车轮对缺陷状态参数在线检测[J].自动化技术与应用,2022,41(3):187-191. 被引量：2

1杨晓庆.计算机系统与计算机网络中的动态优化:模型、求解与应用[J].计算机光盘软件与应用,2014,17(9):108-108. 被引量：3
2赵飞,刘宁,秦敏.计算机系统与计算机网络中的动态优化[J].山东工业技术,2016(6):142-142. 被引量：1
3赵元东,陈学工,张中华.基于无线传感器网络(WSN)技术的设备管理研究[J].科技信息,2010(1):56-57. 被引量：1
4王帅.基于两层Q-Learning算法的多智能体协作方法研究[J].煤矿机电,2013,34(5):74-76.
5任艳斐,张军锋.煤矿井下移动机器人路径规划的算法优化[J].煤炭技术,2013,32(7):80-82. 被引量：2
6孙乾锋.AutoLISP语言在CAD图纸批量打印中的应用[J].甘肃科技纵横,2012,41(3):21-22. 被引量：1
7陈玲玲.医院信息系统的安全策略探讨[J].数字技术与应用,2016,34(7):194-194.
8杨瑾.医院信息系统的网络安全建设分析[J].数字技术与应用,2016,34(11):201-201. 被引量：3
9李畅,聂定远,刘东.马尔可夫决策在Web服务选择中的应用[J].高等函授学报（自然科学版）,2007,20(2):38-40.
10储毅,赵敏.基于马尔可夫决策的动态电源管理技术[J].电子科技大学学报,2007,36(3):521-523. 被引量：3

中国管理信息化

2016年第7期

浏览历史

内容加载中请稍等...

马尔可夫决策问题的关键状态优先学习算法被引量：1

同被引文献17

引证文献1

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

马尔可夫决策问题的关键状态优先学习算法 被引量：1

同被引文献17

引证文献1

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

马尔可夫决策问题的关键状态优先学习算法被引量：1