针对航天器与非合作目标追逃博弈的生存型微分对策拦截问题,基于强化学习研究了追逃博弈策略,提出了自适应增强随机搜索(adaptive-augmented random search,A-ARS)算法。针对序贯决策的稀疏奖励难题,设计了基于策略参数空间扰动的探索方...针对航天器与非合作目标追逃博弈的生存型微分对策拦截问题,基于强化学习研究了追逃博弈策略,提出了自适应增强随机搜索(adaptive-augmented random search,A-ARS)算法。针对序贯决策的稀疏奖励难题,设计了基于策略参数空间扰动的探索方法,加快策略收敛速度;针对可能过早陷入局部最优问题设计了新颖度函数并引导策略更新,可提升数据利用效率;通过数值仿真验证并与增强随机搜索(augmented random search,ARS)、近端策略优化算法(proximal policy optimization,PPO)以及深度确定性策略梯度下降算法(deep deterministic policy gradient,DDPG)进行对比,验证了此方法的有效性和先进性。展开更多
针对航空航天大类人才培养面临学科综合性、交叉性强,对学生实践能力要求高的问题,以提升项目为主的“大学生科研训练计划”(Students Research Training Program,SRTP)模式的培养成效为目标,通过建立“四阶段”“一提升”的分阶段渐进...针对航空航天大类人才培养面临学科综合性、交叉性强,对学生实践能力要求高的问题,以提升项目为主的“大学生科研训练计划”(Students Research Training Program,SRTP)模式的培养成效为目标,通过建立“四阶段”“一提升”的分阶段渐进式科研能力培养机制,构建教师和本科生科研实践共同体,探索一种可持续的科研实践引领航空航天大类人才全过程培养模式。面向航空航天大类本科生,以飞行器隐身技术科研项目为培养范例,开展具有科技前沿、跨专业知识交叉融合特点的SRTP实践。实践表明,基于分阶段渐进式科研能力培养机制,开展以项目为主的SRTP,有助于实现本科生科研“软、硬”技能的提升,培养本科生创新实践和交叉应用能力,为其终身学习和发展奠定更为坚实的科学基础。展开更多
文摘针对航天器与非合作目标追逃博弈的生存型微分对策拦截问题,基于强化学习研究了追逃博弈策略,提出了自适应增强随机搜索(adaptive-augmented random search,A-ARS)算法。针对序贯决策的稀疏奖励难题,设计了基于策略参数空间扰动的探索方法,加快策略收敛速度;针对可能过早陷入局部最优问题设计了新颖度函数并引导策略更新,可提升数据利用效率;通过数值仿真验证并与增强随机搜索(augmented random search,ARS)、近端策略优化算法(proximal policy optimization,PPO)以及深度确定性策略梯度下降算法(deep deterministic policy gradient,DDPG)进行对比,验证了此方法的有效性和先进性。
文摘针对航空航天大类人才培养面临学科综合性、交叉性强,对学生实践能力要求高的问题,以提升项目为主的“大学生科研训练计划”(Students Research Training Program,SRTP)模式的培养成效为目标,通过建立“四阶段”“一提升”的分阶段渐进式科研能力培养机制,构建教师和本科生科研实践共同体,探索一种可持续的科研实践引领航空航天大类人才全过程培养模式。面向航空航天大类本科生,以飞行器隐身技术科研项目为培养范例,开展具有科技前沿、跨专业知识交叉融合特点的SRTP实践。实践表明,基于分阶段渐进式科研能力培养机制,开展以项目为主的SRTP,有助于实现本科生科研“软、硬”技能的提升,培养本科生创新实践和交叉应用能力,为其终身学习和发展奠定更为坚实的科学基础。