在深度强化学习方法中,针对内在好奇心模块(intrinsic curiosity model,ICM)指导智能体在稀疏奖励环境中获得未知策略学习的机会,但好奇心奖励是一个状态差异值,会使智能体过度关注于对新状态的探索,进而出现盲目探索的问题,提出了一种...在深度强化学习方法中,针对内在好奇心模块(intrinsic curiosity model,ICM)指导智能体在稀疏奖励环境中获得未知策略学习的机会,但好奇心奖励是一个状态差异值,会使智能体过度关注于对新状态的探索,进而出现盲目探索的问题,提出了一种基于知识蒸馏的内在好奇心改进算法(intrinsic curiosity model algorithm based on knowledge distillation,KD-ICM)。首先,该算法引入知识蒸馏的方法,使智能体在较短的时间内获得更丰富的环境信息和策略知识,加速学习过程;其次,通过预训练教师神经网络模型去引导前向网络,得到更高精度和性能的前向网络模型,减少智能体的盲目探索。在Unity仿真平台上设计了两个不同的仿真实验进行对比,实验表明,在复杂仿真任务环境中,KD-ICM算法的平均奖励比ICM提升了136%,最优动作概率比ICM提升了13.47%,提升智能体探索性能的同时能提高探索的质量,验证了算法的可行性。展开更多
针对强化学习决策模型生成过程中,由于复杂环境和状态信息观察不完全导致经典的近端策略优化算法处理过程中面临的探索与利用效率较低、生成的策略效果较差等问题,提出了一种基于好奇心机制改进的基于最大到达次数的近端策略优化算法(pr...针对强化学习决策模型生成过程中,由于复杂环境和状态信息观察不完全导致经典的近端策略优化算法处理过程中面临的探索与利用效率较低、生成的策略效果较差等问题,提出了一种基于好奇心机制改进的基于最大到达次数的近端策略优化算法(proximal policy optimization based on maximum number of arrival&expert knowledge,MNAEK-PPO)。围绕策略空间的探索困难问题,通过构建智能体在训练过程中的探索频次矩阵,对探索频次进行处理后作为内在奖励参与到智能体的强化学习训练过程,此外还加入了专家知识辅助智能体进行决策。通过在智能化战场仿真环境中的实验确定了MNAEK-PPO中内在奖励的最佳构造方式,并进行了一系列对比实验,实验结果表明,MNAEK-PPO大幅提升了决策空间的探索效率,收敛速度和对局得分均有明显提升,为推动深度强化学习在智能战术策略生成中的应用与发展提供了新的解决思路。展开更多
文摘在深度强化学习方法中,针对内在好奇心模块(intrinsic curiosity model,ICM)指导智能体在稀疏奖励环境中获得未知策略学习的机会,但好奇心奖励是一个状态差异值,会使智能体过度关注于对新状态的探索,进而出现盲目探索的问题,提出了一种基于知识蒸馏的内在好奇心改进算法(intrinsic curiosity model algorithm based on knowledge distillation,KD-ICM)。首先,该算法引入知识蒸馏的方法,使智能体在较短的时间内获得更丰富的环境信息和策略知识,加速学习过程;其次,通过预训练教师神经网络模型去引导前向网络,得到更高精度和性能的前向网络模型,减少智能体的盲目探索。在Unity仿真平台上设计了两个不同的仿真实验进行对比,实验表明,在复杂仿真任务环境中,KD-ICM算法的平均奖励比ICM提升了136%,最优动作概率比ICM提升了13.47%,提升智能体探索性能的同时能提高探索的质量,验证了算法的可行性。
文摘针对强化学习决策模型生成过程中,由于复杂环境和状态信息观察不完全导致经典的近端策略优化算法处理过程中面临的探索与利用效率较低、生成的策略效果较差等问题,提出了一种基于好奇心机制改进的基于最大到达次数的近端策略优化算法(proximal policy optimization based on maximum number of arrival&expert knowledge,MNAEK-PPO)。围绕策略空间的探索困难问题,通过构建智能体在训练过程中的探索频次矩阵,对探索频次进行处理后作为内在奖励参与到智能体的强化学习训练过程,此外还加入了专家知识辅助智能体进行决策。通过在智能化战场仿真环境中的实验确定了MNAEK-PPO中内在奖励的最佳构造方式,并进行了一系列对比实验,实验结果表明,MNAEK-PPO大幅提升了决策空间的探索效率,收敛速度和对局得分均有明显提升,为推动深度强化学习在智能战术策略生成中的应用与发展提供了新的解决思路。