基于DP-SAMQ行为树的智能体决策模型研究被引量：2

Research on Agent Decision Model Based on Multi-Step Q-Learning Behavior Tree

下载PDF

导出

摘要在多智能体仿真中使用行为树进行决策具有直观、易扩展等优点,但行为树的设计过程过于复杂,人工调试时效率低下。引入Q-Learning来实现行为树的自动设计。为解决传统Q-Learning的收敛速度慢的问题,将模拟退火算法中的Metropolis准则应用到动作选择策略中,随着学习过程自适应改变次优动作的选择概率以及将动态规划思想应用到Q值更新策略。实验结果证明,基于改进的多步Q-Learning行为树的智能体决策模型具有更快的收敛速度,并且能够实现行为树的自动设计和优化。 The use of behavior tree for decision-making in multi-agent simulation is intuitive and easy to expand,but the design process of behavior tree is complex and the efficiency of manual debugging is low.The paper introduced Q-Learning to realize the automatic design of behavior tree.In order to solve the problem of slow convergence speed of traditional Q-Learning,a simulated annealing algorithm was used to improve the action selection strategy of multi-step Q-learning,which reduces the probability of non-optimal action selection,and a dynamic programming algorithm was used to update Q value function in reverse order.The experimental results show that the agent based on the improved Q-Learning behavior tree has faster decision-making speed,and can achieve automatic scheduling while reducing the use of conditional nodes,and get more reasonable behavior decision.

作者陈妙云王雷丁治强 CHEN Miao-yun;WANG Lei;DING Zhi-qiang(School of Information Science and Technology,University of Science and Technology of China,Hefei Anhui 230031,China)

机构地区中国科学技术大学信息科技学院

出处《计算机仿真》北大核心 2021年第2期301-307,共7页 Computer Simulation

基金中科院创新基金(高技术项目CXJJ-17-M139) 中科院重大专项课题(KGFZD-135-18-027)。

关键词多智能体行为树模拟退火动态规划用动态规划和模拟退火改进的多步Q学习 Multi-agent Behavior tree Simulated annealing Dynamic programming DP-SAMQ

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1闫丰亭,贾金原.DP-Q(λ):大规模Web3D场景中Multi-agent实时路径规划算法[J].系统仿真学报,2019,31(1):16-26. 被引量：4
2洪晔,王宏健,边信黔.基于分层马尔可夫决策过程的AUV全局路径规划研究[J].系统仿真学报,2008,20(9):2361-2363. 被引量：3
3李伟,门佳.一种事件驱动有限状态机的编程实现框架[J].计算机与现代化,2014(6):116-119. 被引量：7
4徐文胜,武博,蒋坚鸿.武器装备虚拟维修训练系统行为树设计与实现[J].系统仿真学报,2018,30(7):2722-2728. 被引量：13
5刘炜,许嘉轩,王沛沛,刘瑞龙,唐靖坤.基于模拟退火算法的列车节能操纵研究[J].系统仿真学报,2018,30(6):2320-2327. 被引量：9
6张学锋,张成俊,白晨曦,姜太平,储岳中.基于智能体技术的多重灾难人员疏散感知模型[J].系统仿真学报,2016,28(3):534-541. 被引量：12
7唐克双,张桁嘉,衣谢博闻.基于多智能体仿真的交通诱导系统效率评价[J].系统仿真学报,2018,30(7):2630-2639. 被引量：8
8闫雪飞,李新明,刘东,李亢.基于多分辨率的multi-Agent武器装备体系作战仿真研究[J].系统仿真学报,2017,29(1):136-143. 被引量：4

二级参考文献62

1赵沁平.虚拟现实综述[J].中国科学（F辑:信息科学）,2009,39(1):2-46. 被引量：670
2刘磊,刘群,高轶,顾金.多出口条件下基于排队时间的疏散仿真研究[J].计算机工程,2011,37(S1):349-352. 被引量：3
3张昱,张明智,杨镜宇,赵晔,荣明.一种基于OODA环的武器装备体系建模方法[J].系统仿真学报,2013,25(S1):6-11. 被引量：37
4刘玉海,张锡恩.某大型导弹武器系统虚拟维修系统[J].兵工学报,2004,25(5):562-566. 被引量：7
5王宏健,付明玉,施小成,边信黔.基于大范围海图数据的自主式水下潜器全局路径规划方法研究[J].系统仿真学报,2005,17(3):567-570. 被引量：2
6罗亚中,唐国金.两层非线性规划问题的并行模拟退火全局优化[J].系统仿真学报,2005,17(5):1040-1044. 被引量：13
7江海昇,范辉.USSD对话有限状态自动机的设计与实现[J].计算机应用,2005,25(9):2199-2201. 被引量：2
8李霞,王永章,梁宏斌,钟力.有限状态机在开放式数控系统中的应用[J].计算机集成制造系统,2005,11(3):428-432. 被引量：22
9刘春,唐昊,程文娟.不确定SMDP基于全局优化的鲁棒决策问题[J].系统仿真学报,2005,17(11):2704-2707. 被引量：4
10解璞,苏群星,谷宏强.装备虚拟维修训练系统设计方法研究[J].系统仿真学报,2006,18(8):2195-2198. 被引量：25

共引文献52

1刘久富,陈魁,苏青琴,梁娟娟,王志胜.基于Markov对策的码垛机器人三维路径规划[J].中国机械工程,2012,23(7):851-855. 被引量：4
2陈魁,刘久富,苏青琴,刘蓉.基于Markov对策的机械臂二维路径规划[J].计算机技术与发展,2012,22(5):57-59.
3都娟.基于一种具有感知功能的蚁群算法的图像边缘信息捕获研究[J].生命科学仪器,2018,16(6):37-40.
4张荣,陈颖,黄海莹,王松.超高速瞬态测试系统软硬件构架设计研究[J].装备环境工程,2015,12(2):81-86.
5秦欣,刘弘,刘宝玺,张浩.面向人群疏散仿真的双层关系机制驱动的社会力模型[J].小型微型计算机系统,2017,38(4):839-844.
6李月,郭仁拥,陈亮,李劲东.穿越瓶颈的双向行人流微观建模及仿真[J].系统仿真学报,2018,30(4):1245-1252. 被引量：4
7黄蕾.基于目标阻抗匹配的电源分配网络设计优化[J].兵工自动化,2016,35(11):60-67. 被引量：1
8傅军栋,黄鹿鸣,刘武,陈俐.基于改进蚁群算法模型的三维火灾动态疏散策略[J].华东交通大学学报,2018,35(6):96-102. 被引量：5
9金仙力,高军乐,沈一州.基于自适应窗口的盲区数据预警方法[J].南京师范大学学报（工程技术版）,2018,18(4):72-79.
10杨瀚申,徐华,鞠志伟.基于Agent的三维巷道人员疏散仿真研究[J].计算机技术与发展,2019,29(3):132-137. 被引量：3

同被引文献20

1陈东平.随机网络GERTS的关键线路法GERTS／CPM[J].水力发电,1994,21(1):50-52. 被引量：1
2方志耕,杨保华,陆志鹏,刘思峰,陈晔,陈伟,姚国章.基于Bayes推理的灾害演化GERT网络模型研究[J].中国管理科学,2009,17(2):102-107. 被引量：54
3孙明轩,黄宝健,张学智.非线性系统的PD型迭代学习控制[J].自动化学报,1998,24(5):711-714. 被引量：25
4皮道映,孙优贤.非线性时变系统开闭环P型迭代学习控制的收敛性[J].自动化学报,1999,25(3):351-354. 被引量：27
5杨保华,方志耕,刘思峰,胡明礼.基于GERTS网络的非常规突发事件情景推演共力耦合模型[J].系统工程理论与实践,2012,32(5):963-970. 被引量：28
6周东浩,韩文报.DiffRank:一种新型社会网络信息传播检测算法[J].计算机学报,2014,37(4):884-893. 被引量：17
7郭本海,张笑腾,甄美荣,李文鹣.基于多目标的企业创新资源优化配置GERT网络模型[J].科技管理研究,2018,38(22):161-168. 被引量：6
8杨贵军,孟杰,王双喜.基于赤池信息准则的分类回归决策树剪枝算法[J].计算机应用,2014,34(A02):147-150. 被引量：10
9刘红旗,方志耕,陶良彦.复杂装备研制项目进度规划GERT网络“反问题”模型[J].系统工程与电子技术,2015,37(12):2758-2763. 被引量：17
10郭本海,陈玮,吕东东.基于GERT网络的战略性新兴产业技术瓶颈探测模型[J].系统管理学报,2017,26(4):728-736. 被引量：7

引证文献2

1杨杰,张琪,曾俊杰,尹全军.进化行为树方法研究综述[J].系统仿真学报,2021,33(10):2315-2322. 被引量：2
2方志耕,夏悦馨,张靖如,熊仪,陈静邑.基于Agent的体系过程A-GERT网络“刺激-反应”学习模型[J].系统工程与电子技术,2022,44(8):2540-2553. 被引量：2

二级引证文献4

1马悦,吴琳,郭圣明.作战任务分配建模及求解方法研究[J].系统仿真学报,2023,35(4):887-898. 被引量：5
2方志耕,陈静邑,张靖如,夏悦馨,熊仪,华晨晨.复杂体系过程A-GERT网络Bayes学习机制解析与模型设计[J].系统工程,2023,41(5):151-158. 被引量：1
3曹朋飞,邸彦强,孟宪国,李兴德.基于BDD的作战实体行为一体化建模方法研究[J].计算机仿真,2024,41(7):6-13.
4方志耕,华晨晨,陈顶,张靖如,张亚东,吴鸿华.复杂体系可靠性结构分析与建模GERT网络技术[J].系统工程与电子技术,2024,46(10):3427-3436.

1杨真真,田路遥,徐家兴,庄桂敏.数学模型DTW和KNN算法在传染病地区风险划分中的应用[J].中国科技信息,2021(1):69-70.
2Ji Jing.BRINGING BACK THE BLUE SKIES[J].Beijing Review,2021,64(9):18-19.
3孙潇潇,黄弘,李瑞奇.基于多智能体的突发事件下城市应急管理机制仿真[J].清华大学学报（自然科学版）,2021,61(1):70-76. 被引量：5
4危小超,宋琳,李锋.基于过度反应与多智能体仿真的互联网产品扩散研究[J].北京邮电大学学报（社会科学版）,2020,22(6):1-10.
5夏新海.交叉口交通信号动态回报值强化学习控制[J].数学的实践与认识,2020,50(22):153-166. 被引量：1
6郭百海,隋毅.基于排样矩形的直角边零件下料算法[J].计算机系统应用,2021,30(1):162-167. 被引量：1
7陈奇奇,王观虎,李柯.兼顾军用飞机使用的跑道快滑位置优化模型[J].科学技术与工程,2020,20(36):15140-15147. 被引量：2
8王群,张庆年,杨杰,丛喆,涂敏.内河无人驾驶船舶驾驶行为决策模型研究[J].武汉理工大学学报（交通科学与工程版）,2021,45(1):44-48. 被引量：3
9Adewale Jonathan Adeyemi,Rogers Bariture Kanee,David Onojiede Edokpa,Precious Nwobidi Ede.Short-Term Air Quality Gains of COVID-19 Pandemic Lockdown of Port Harcourt, Nigeria[J].Journal of Geoscience and Environment Protection,2021,9(2):110-123.
10刘益超,郭进平,李角群,程平,方晅东.基于Floyd算法的扇形中深孔爆破布孔优化设计[J].爆破,2021,38(1):64-69. 被引量：9

计算机仿真

2021年第2期

浏览历史

内容加载中请稍等...

基于DP-SAMQ行为树的智能体决策模型研究被引量：2

参考文献8

二级参考文献62

共引文献52

同被引文献20

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于DP-SAMQ行为树的智能体决策模型研究 被引量：2

参考文献8

二级参考文献62

共引文献52

同被引文献20

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于DP-SAMQ行为树的智能体决策模型研究被引量：2