期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于价值滤波的空战机动决策优化方法 被引量:1
1
作者 付宇鹏 邓向阳 +1 位作者 朱子强 张立民 《航空学报》 EI CAS CSCD 北大核心 2023年第22期14-27,共14页
针对传统强化学习算法面对复杂状态空间的空战机动决策优化问题时,存在的经验数据利用率低、算法不易收敛等问题,分析了价值滤波的概念和原理,提出了基于价值滤波的示例策略约束(DPC)算法,构建了基于DPC算法的空战机动决策优化方法和流... 针对传统强化学习算法面对复杂状态空间的空战机动决策优化问题时,存在的经验数据利用率低、算法不易收敛等问题,分析了价值滤波的概念和原理,提出了基于价值滤波的示例策略约束(DPC)算法,构建了基于DPC算法的空战机动决策优化方法和流程。算法利用价值滤波器提取回放经验池和示例经验池的优势数据,对智能体策略优化方向进行基于状态价值的约束。仿真基于JSBSim平台的F-16飞机空气动力学模型,仿真结果表明算法收敛效率明显提高并避免示例策略的次优问题,生成的机动决策模型具备较好的智能性。 展开更多
关键词 价值滤波 策略约束 机动决策 强化学习 模仿学习
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部