基于逆向强化学习的虚拟人物行为生成方法

下载PDF

导出

摘要针对指挥训练系统所面临的科目越来越复杂,所需要协调的人员越来越庞大,而且对场景的逼真程度要求越来越高,需要多方各级指挥员的参与才能进行训练的问题,提出了一种基于逆向强化学习的方法。首先,通过机器学习得到基于专家数据的潜在回报函数;其次,将回报函数作为轨迹生成训练的奖励函数,利用DDPG网络进行强化学习,训练最优轨迹生成网络模型,使其能够综合众多专家的策略部署能力;最后,对提出的方法在SC2LE平台进行验证,通过对比不同回报函数的训练收敛效果与实际生成策略得分能力来证明了算法的有效性。

作者刘佳楠于洋赵亚威 LIU Jianan;YU Yang;ZHAO Yawei

机构地区沈阳理工大学

出处《信息技术与信息化》 2023年第6期114-117,共4页 Information Technology and Informatization

关键词逆向强化学习强化学习 SC2LE

分类号 G63 [文化科学—教育学]

引文网络
相关文献

参考文献1

1陈希亮,曹雷,沈驰.基于深度逆向强化学习的行动序列规划问题研究[J].国防科技,2019,40(4):55-61. 被引量：9

二级参考文献6

1杜正军,陈超,姜鑫.基于影响网络与序贯博弈的作战行动序列模型与求解[J].系统工程理论与实践,2013,33(1):215-222. 被引量：15
2张迎新,陈超,刘忠,石建迈.资源不确定军事任务计划预测调度模型与算法[J].国防科技大学学报,2013,35(3):30-35. 被引量：13
3孔德锋,陈超,杜正军.序贯博弈中作战行动执行时间的优化建模与求解[J].火力与指挥控制,2013,38(10):42-45. 被引量：2
4赵国宏,罗雪山.作战任务规划系统研究[J].指挥与控制学报,2015,1(4):391-394. 被引量：32
5殷阶,王本胜,朱旭.信息作战行动序列规划随机博弈模型及求解方法[J].指挥信息系统与技术,2016,7(2):7-12. 被引量：5
6赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717. 被引量：131

共引文献8

1董浩洋,张永亮,齐宁,周志宇.基于综合势能的作战行动序列生成方法研究[J].军事运筹与系统工程,2020,34(3):11-18. 被引量：6
2包战,张驭龙,朱松岩,王春光,刘忠.智能临机规划技术要点研究[J].国防科技,2023,44(1):112-118.
3赵芷若,曹雷,陈希亮,赖俊,章乐贵.基于多智能体博弈强化学习的无人机智能攻击策略生成模型[J].系统工程与电子技术,2023,45(10):3165-3171.
4李丽,吴琳,陶九阳,贺筱媛,叶林发.作战任务序列智能生成方式及其态势表征方法[J].指挥与控制学报,2023,9(5):542-548.
5钟赟,张杰勇,蔡明,万路军,李军.影响网在作战行动过程优选中的应用[J].指挥信息系统与技术,2024,15(1):51-58.
6Yun Zhong,Jieyong Zhang,Peng Sun,Lujun Wan,Kepeng Wang.Optimized Selection Method of Air Combat Course of Action under Stochastic Uncertainty[J].Journal of Systems Science and Systems Engineering,2024,33(4):494-518.
7杜伟伟,陈小伟.战术级任务规划方法研究综述[J].兵工学报,2024,45(10):3341-3355.
8辛斌,虞睿,张佳.有人/无人系统协同作战任务规划方法:综述与展望[J].电光与控制,2024,31(11):1-9.

1杨灿.MIDJOURNEV5登场,艺术家们怕了吗?[J].艺术品鉴,2023(5):70-77.
2马瑞峻,何浣冬,陈瑜,赖宇豪,焦锐,唐昊.基于改进YOLOv5的火龙果成熟度识别方法[J].沈阳农业大学学报,2023,54(2):196-206. 被引量：7
3罗旭鸿,刘永春,楚国铭,蒲红平.基于改进YOLOv5无人机图像目标检测算法[J].无线电工程,2023,53(7):1528-1535. 被引量：5
4于兰印.扑下身子真抓实干[J].共产党员,2023(11):23-23.
5刘岩.巴尔干之光佩贾·斯托贾科维奇[J].NBA特刊,2023(13):70-77.
6李琪,胡杰.2021—2022赛季NBA总决赛勇士队制胜因素分析[J].安徽体育科技,2023,44(3):50-53. 被引量：1
7闫筱珊,卢可馨(图).马龙发中路台内短球+控制近台小斜线+台下拉吊小弧圈[J].乒乓世界,2023(7):116-119.
8王毅,王浩,李翀,郭荣坤,杨媛媛,杨华.基于改进的邻域搜索算法对立库货位分配优化的研究[J].中南民族大学学报（自然科学版）,2023,42(4):551-557. 被引量：1
9尚策,史伟民,单军波.基于气动伺服控制的虚拟现实运动模拟研究[J].液压气动与密封,2023,43(6):63-67.
10朱琳.影视同期录音后期制作的相关问题探讨[J].喜剧世界（中旬刊）,2023(5):147-149.

信息技术与信息化

2023年第6期

浏览历史

内容加载中请稍等...

基于逆向强化学习的虚拟人物行为生成方法

参考文献1

二级参考文献6

共引文献8

相关作者

相关机构

相关主题

浏览历史