面向高维连续行动空间的蒙特卡罗树搜索算法被引量：1

Monte Carlo Tree Search for High-dimensional Continuous Control Space

下载PDF

导出

摘要蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS)在低维离散控制任务中取得了巨大的成功。然而,在现实生活中许多任务需要在连续动作空间进行行动规划。由于连续行动空间涉及的行动集过大,蒙特卡罗树搜索很难在有限的时间内从中筛选出最佳的行动。作为蒙特卡罗树搜索的一个变种,KR-UCT(Kernel Regression UCT)算法通过核函数泛化局部信息的方式提高了蒙特卡罗树搜索在低维连续动作空间的模拟效率。但是在与环境交互的过程中,为了找出最佳的行动,KR-UCT在每一步都需要从头进行大量的模拟,这使得KR-UCT算法仅局限于低维连续行动空间,而在高维连续行动空间难以在有限的时间内从行动空间筛选出最佳的行动。在与环境交互的过程中,智能体可以获得环境反馈回来的信息,因此,为了提高KR-UCT算法在高维行动空间的性能,可以使用这些反馈信息剪枝树搜索过程来加快KR-UCT算法在高维连续行动空间的模拟效率。基于此,文中提出了一种基于策略-价值网络的蒙特卡罗树搜索方法(KR-UCT with Policy-Value Network,KRPV)。该方法使用策略-价值网络保存智能体与环境之间的交互信息,随后策略网络利用这些信息帮助KR-UCT算法剪枝KR-UCT搜索树的宽度;而价值网络则通过泛化不同状态之间的价值信息对蒙特卡罗树搜索在深度上进行剪枝,从而提高了KR-UCT算法的模拟效率,进而提高了算法在高维连续行动任务中的性能。在OpenAI gym中的4个连续控制任务上对KRPV进行了评估。实验结果表明,该方法在4个连续控制任务上均优于KR-UCT,特别是在6维的HalfCheetah-v2任务中,使用KRPV算法所获得的奖励是KR-UCT的6倍。 Monte Carlo tree search(MCTS)has gained great success in low discrete control tasks.However,there are many tasks in real life that require selecting action sequentially in continuous action space.Kernel regression UCT(KR-UCT)is a successful attempt in low-dimensional continuous action space by using a pre-defined kernel function to exploit the similarity of different continuous actions.However,KR-UCT gets a poor performance when it comes to high-dimensional continuous action space,because KR-UCT does not use the interacting information between agent and the environment.And when it interacts with the environment,KR-UCT needs to perform a lot of simulations at each step to find the best action.In order to solve this problem,this paper proposes a method named kernel regression UCT with policy-value network(KRPV).The proposed method can filter out more representative actions from action space to perform MCTS and generalize the information between different states to pruning MCTS.The proposed method has been evaluated by four continuous control tasks of the OpenAI gym.The experimental results show that KRPV outperforms KR-UCT in all tested continuous control tasks.Especially for the six-dimensional HalfCheetah-v2 task,the rewards gained by KRPV are six-times of that of KR-UCT.

作者刘天星李伟许铮张立华戚骁亚甘中学 LIU Tian-xing;LI Wei;XU Zheng;ZHANG Li-hua;QI Xiao-ya;GAN Zhong-xue(Institute of AI and Robotics,Fudan University,Shanghai 200433,China;Jihua Laboratory,Foshan,Guangdong 528000,China)

机构地区复旦大学智能机器人研究院季华实验室

出处《计算机科学》 CSCD 北大核心 2021年第10期30-36,共7页 Computer Science

基金广东省季华实验室基金资助项目(X190021TB190) 上海市科学技术委员会项目(19511132000)。

关键词蒙特卡罗树搜索高维连续行动空间深度神经网络强化学习核回归UCT Monte Carlo tree search High dimensional continuous action space Deep neural network Reinforcement learning Kernel regression UCT

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

同被引文献19

1胡柳,张四平,肖瑶星,邓慈云,卢艳芝.网络化软件异常行为特征分析与识别研究[J].智能计算机与应用,2020(7):253-256. 被引量：1
2杨英杰,刘帅,常德显.一种基于关系熵和J量值的网络事件关联模式漂移检测方法[J].计算机科学,2016,43(1):259-263. 被引量：2
3吴清寿,刘长勇,林丽惠.融合序列后向选择与支持向量机的混合式特征选择算法[J].计算机系统应用,2019,28(7):174-179. 被引量：5
4张喜涛,吴玲达,于少波.基于多层网络的空间信息网络拓扑结构建模方法[J].计算机应用,2019,39(A01):132-137. 被引量：10
5王哲,耿元芳,彭润亚.交互系统设计中分布式多平台信息融合仿真[J].计算机仿真,2019,36(8):427-430. 被引量：6
6李晨光,赵继新.产学研合作创新网络随机交互连通性研究——角色和地域多网络视角[J].管理评论,2019,31(8):110-122. 被引量：17
7李校林,吴腾,郭有庆.融合邻域判别指数的混合式特征选择算法[J].小型微型计算机系统,2019,40(11):2285-2290. 被引量：3
8陈超逸,林耀进,唐莉,王晨曦.基于邻域交互增益信息的多标记流特征选择算法[J].南京大学学报（自然科学版）,2020,56(1):30-40. 被引量：6
9唐彩红.遗传算法确定特征权重值的图像分类[J].现代电子技术,2020,43(3):58-61. 被引量：5
10倪志文,马小虎,孙霄,边丽娜.结合显式和隐式特征交互的深度融合模型[J].计算机工程,2020,46(3):87-92. 被引量：3

引证文献1

1欧卫红,杨永琴.一种交互网络特征反馈标记方法研究[J].信息技术,2023,47(6):71-76.

1王俊.整本书阅读综合实践活动思与行[J].求知导刊,2021(35):87-88.
2无.全面开启“华丽转型”“二次创业”新征程[J].支部建设,2021(26):18-19.
3李克玉,陆永耕,鲍世通,徐培真.基于改进RRT算法的无人机三维避障规划[J].计算机仿真,2021,38(8):59-63. 被引量：12
4卢文云,王志华,华宏县.群众“健身难”问题破解路径研究[J].体育科学,2021,41(5):34-43. 被引量：35
5闫皎洁,张锲石,胡希平.基于强化学习的路径规划技术综述[J].计算机工程,2021,47(10):16-25. 被引量：39
6乔琪,赵辉.基于主导条件和局部极小剪枝机制的SISO检测算法[J].国外电子测量技术,2021,40(7):37-44. 被引量：1
7彭梅,胡必波.智慧城市中大数据技术的应用[J].内蒙古煤炭经济,2021(8):163-164. 被引量：1
8孙祥胜,王国中.基于多尺度特征的无监督去雾算法[J].激光与光电子学进展,2021,58(16):364-372. 被引量：2
9Jienan Chen,Siyu Luo,Lin Zhang,Cong Zhang,Bin Cao.iPAS:A deep Monte Carlo Tree Search-based intelligent pilot-power allocation scheme for massive MIMO system[J].Digital Communications and Networks,2021,7(3):362-372. 被引量：1
10王修来,张玉韬,马宁玲.借助大数据技术推进人才评价改革[J].中国人才,2021(9):43-45. 被引量：1

计算机科学

2021年第10期

浏览历史

内容加载中请稍等...

面向高维连续行动空间的蒙特卡罗树搜索算法被引量：1

同被引文献19

引证文献1

相关作者

相关机构

相关主题

浏览历史

面向高维连续行动空间的蒙特卡罗树搜索算法 被引量：1

同被引文献19

引证文献1

相关作者

相关机构

相关主题

浏览历史

面向高维连续行动空间的蒙特卡罗树搜索算法被引量：1