针对航天器与非合作目标追逃博弈的生存型微分对策拦截问题,基于强化学习研究了追逃博弈策略,提出了自适应增强随机搜索(adaptive-augmented random search,A-ARS)算法。针对序贯决策的稀疏奖励难题,设计了基于策略参数空间扰动的探索方...针对航天器与非合作目标追逃博弈的生存型微分对策拦截问题,基于强化学习研究了追逃博弈策略,提出了自适应增强随机搜索(adaptive-augmented random search,A-ARS)算法。针对序贯决策的稀疏奖励难题,设计了基于策略参数空间扰动的探索方法,加快策略收敛速度;针对可能过早陷入局部最优问题设计了新颖度函数并引导策略更新,可提升数据利用效率;通过数值仿真验证并与增强随机搜索(augmented random search,ARS)、近端策略优化算法(proximal policy optimization,PPO)以及深度确定性策略梯度下降算法(deep deterministic policy gradient,DDPG)进行对比,验证了此方法的有效性和先进性。展开更多
由于探测距离远,火星探测任务对干涉测量具有很强的精度需求。首先描述了相位参考甚长基线干涉测量(Very Long Baseline Interferometry,VLBI)原理,介绍了弧段内干涉相时延解模糊方法,阐述了弧段之间相互参考解算干涉相时延流程,给出了...由于探测距离远,火星探测任务对干涉测量具有很强的精度需求。首先描述了相位参考甚长基线干涉测量(Very Long Baseline Interferometry,VLBI)原理,介绍了弧段内干涉相时延解模糊方法,阐述了弧段之间相互参考解算干涉相时延流程,给出了测量误差分析,并利用中国佳木斯深空站、喀什深空站针对射电源对1633+38和1641+399开展了相位参考VLBI试验验证。结果表明,消除模糊度后,相位参考时延精度优于0.1ns。这为提高中国未来深空探测器角位置精度提供一种可行的技术途径。展开更多
文摘针对航天器与非合作目标追逃博弈的生存型微分对策拦截问题,基于强化学习研究了追逃博弈策略,提出了自适应增强随机搜索(adaptive-augmented random search,A-ARS)算法。针对序贯决策的稀疏奖励难题,设计了基于策略参数空间扰动的探索方法,加快策略收敛速度;针对可能过早陷入局部最优问题设计了新颖度函数并引导策略更新,可提升数据利用效率;通过数值仿真验证并与增强随机搜索(augmented random search,ARS)、近端策略优化算法(proximal policy optimization,PPO)以及深度确定性策略梯度下降算法(deep deterministic policy gradient,DDPG)进行对比,验证了此方法的有效性和先进性。
文摘由于探测距离远,火星探测任务对干涉测量具有很强的精度需求。首先描述了相位参考甚长基线干涉测量(Very Long Baseline Interferometry,VLBI)原理,介绍了弧段内干涉相时延解模糊方法,阐述了弧段之间相互参考解算干涉相时延流程,给出了测量误差分析,并利用中国佳木斯深空站、喀什深空站针对射电源对1633+38和1641+399开展了相位参考VLBI试验验证。结果表明,消除模糊度后,相位参考时延精度优于0.1ns。这为提高中国未来深空探测器角位置精度提供一种可行的技术途径。