针对近端策略优化(PPO)算法难以严格约束新旧策略的差异和探索与利用效率较低这2个问题,提出一种基于裁剪优化和策略指导的PPO(COAPG-PPO)算法。首先,通过分析PPO的裁剪机制,设计基于Wasserstein距离的信任域裁剪方案,加强对新旧策略差...针对近端策略优化(PPO)算法难以严格约束新旧策略的差异和探索与利用效率较低这2个问题,提出一种基于裁剪优化和策略指导的PPO(COAPG-PPO)算法。首先,通过分析PPO的裁剪机制,设计基于Wasserstein距离的信任域裁剪方案,加强对新旧策略差异的约束;其次,在策略更新过程中,融入模拟退火和贪心算法的思想,提升算法的探索效率和学习速度。为了验证所提算法的有效性,使用MuJoCo测试基准对COAPG-PPO与CO-PPO(PPO based on Clipping Optimization)、PPO-CMA(PPO with Covariance Matrix Adaptation)、TR-PPO-RB(Trust Region-based PPO with RollBack)和PPO算法进行对比实验。实验结果表明,COAPG-PPO算法在大多数环境中具有更严格的约束能力、更高的探索和利用效率,以及更高的奖励值。展开更多
现实工业生产应用中存在大量的混合变量优化问题,这类问题的决策变量既包含连续变量,又包含离散变量。由于决策变量为混合类型,导致问题的决策空间变得不规则,采用已有的方法很难进行有效求解。引入协同进化策略,提出一种基于竞争式协...现实工业生产应用中存在大量的混合变量优化问题,这类问题的决策变量既包含连续变量,又包含离散变量。由于决策变量为混合类型,导致问题的决策空间变得不规则,采用已有的方法很难进行有效求解。引入协同进化策略,提出一种基于竞争式协同进化的混合变量粒子群优化算法(competitive coevolution based PSO,CCPSO)。设计基于容忍度的搜索方向调整机制来判断粒子的进化状态,从而自适应地调整粒子的搜索方向,避免陷入局部最优,平衡了种群的收敛性和多样性;引入基于竞争式协同进化的学习对象生成机制,在检测到粒子进化停滞时为每个粒子生成新的学习对象,从而推动粒子的进一步搜索,提高了种群的多样性;采用基于竞争学习的预测策略为粒子选择合适的学习对象,充分利用了新旧学习对象的学习潜力,保证了算法的收敛速度。实验结果表明:相比其他主流的混合变量优化算法,CCPSO可以获得更优的结果。展开更多
随着空间目标的数量逐渐增多、空中目标动态性日趋提升,对目标的观测定位问题变得愈发重要.由于需同时观测的目标多且目标动态性强,而星座观测资源有限,为了更高效地调用星座观测资源,需要动态调整多目标协同观测方案,使各目标均具有较...随着空间目标的数量逐渐增多、空中目标动态性日趋提升,对目标的观测定位问题变得愈发重要.由于需同时观测的目标多且目标动态性强,而星座观测资源有限,为了更高效地调用星座观测资源,需要动态调整多目标协同观测方案,使各目标均具有较好的定位精度,因此需解决星座协同观测多目标的任务规划问题.建立星座姿态轨道模型、目标飞行模型、目标协同探测及定位模型,提出基于几何精度衰减因子(geometric dilution of precision, GDOP)的目标观测定位误差预估模型及目标观测优先级模型,建立基于强化学习的协同观测任务规划框架,采用多头自注意力机制建立策略网络,以及近端策略优化算法开展任务规划算法训练.仿真验证论文提出的方法相比传统启发式方法提升了多目标观测精度和有效跟踪时间,相比遗传算法具有更快的计算速度.展开更多
文摘针对近端策略优化(PPO)算法难以严格约束新旧策略的差异和探索与利用效率较低这2个问题,提出一种基于裁剪优化和策略指导的PPO(COAPG-PPO)算法。首先,通过分析PPO的裁剪机制,设计基于Wasserstein距离的信任域裁剪方案,加强对新旧策略差异的约束;其次,在策略更新过程中,融入模拟退火和贪心算法的思想,提升算法的探索效率和学习速度。为了验证所提算法的有效性,使用MuJoCo测试基准对COAPG-PPO与CO-PPO(PPO based on Clipping Optimization)、PPO-CMA(PPO with Covariance Matrix Adaptation)、TR-PPO-RB(Trust Region-based PPO with RollBack)和PPO算法进行对比实验。实验结果表明,COAPG-PPO算法在大多数环境中具有更严格的约束能力、更高的探索和利用效率,以及更高的奖励值。
文摘现实工业生产应用中存在大量的混合变量优化问题,这类问题的决策变量既包含连续变量,又包含离散变量。由于决策变量为混合类型,导致问题的决策空间变得不规则,采用已有的方法很难进行有效求解。引入协同进化策略,提出一种基于竞争式协同进化的混合变量粒子群优化算法(competitive coevolution based PSO,CCPSO)。设计基于容忍度的搜索方向调整机制来判断粒子的进化状态,从而自适应地调整粒子的搜索方向,避免陷入局部最优,平衡了种群的收敛性和多样性;引入基于竞争式协同进化的学习对象生成机制,在检测到粒子进化停滞时为每个粒子生成新的学习对象,从而推动粒子的进一步搜索,提高了种群的多样性;采用基于竞争学习的预测策略为粒子选择合适的学习对象,充分利用了新旧学习对象的学习潜力,保证了算法的收敛速度。实验结果表明:相比其他主流的混合变量优化算法,CCPSO可以获得更优的结果。
文摘随着空间目标的数量逐渐增多、空中目标动态性日趋提升,对目标的观测定位问题变得愈发重要.由于需同时观测的目标多且目标动态性强,而星座观测资源有限,为了更高效地调用星座观测资源,需要动态调整多目标协同观测方案,使各目标均具有较好的定位精度,因此需解决星座协同观测多目标的任务规划问题.建立星座姿态轨道模型、目标飞行模型、目标协同探测及定位模型,提出基于几何精度衰减因子(geometric dilution of precision, GDOP)的目标观测定位误差预估模型及目标观测优先级模型,建立基于强化学习的协同观测任务规划框架,采用多头自注意力机制建立策略网络,以及近端策略优化算法开展任务规划算法训练.仿真验证论文提出的方法相比传统启发式方法提升了多目标观测精度和有效跟踪时间,相比遗传算法具有更快的计算速度.