离线强化学习通过减小分布偏移实现了习得策略向行为策略的逼近,但离线经验缓存的数据分布往往会直接影响习得策略的质量.通过优化采样模型来改善强化学习智能体的训练效果,提出两种离线优先采样模型:基于时序差分误差的采样模型和基于...离线强化学习通过减小分布偏移实现了习得策略向行为策略的逼近,但离线经验缓存的数据分布往往会直接影响习得策略的质量.通过优化采样模型来改善强化学习智能体的训练效果,提出两种离线优先采样模型:基于时序差分误差的采样模型和基于鞅的采样模型.基于时序差分误差的采样模型可以使智能体更多地学习值估计不准确的经验数据,通过估计更准确的值函数来应对可能出现的分布外状态.基于鞅的采样模型可以使智能体更多地学习对策略优化有利的正样本,减少负样本对值函数迭代的影响.进一步,将所提离线优先采样模型分别与批约束深度Q学习(Batch-constrained deep Q-learning,BCQ)相结合,提出基于时序差分误差的优先BCQ和基于鞅的优先BCQ.D4RL和Torcs数据集上的实验结果表明:所提离线优先采样模型可以有针对性地选择有利于值函数估计或策略优化的经验数据,获得更高的回报.展开更多
为提高空地多目标攻击的精确性,该文针对不确定环境下空地多目标攻击的决策模型展开研究。首先,深入分析了影响空对地多目标攻击决策的不确定因素,并提出使用区间形式表示各属性的不确定性范围;其次,采用多层值树对空地协同多目标攻击...为提高空地多目标攻击的精确性,该文针对不确定环境下空地多目标攻击的决策模型展开研究。首先,深入分析了影响空对地多目标攻击决策的不确定因素,并提出使用区间形式表示各属性的不确定性范围;其次,采用多层值树对空地协同多目标攻击进行决策建模;最后,使用RICH(Rank inclusion in criteria hierarchies)方法对决策模型进行求解。2对4空地多目标攻击仿真实例结果表明,该文所提出的协同优先权方法是有效的,可为空地协同多目标攻击决策提供合理依据。展开更多
文摘离线强化学习通过减小分布偏移实现了习得策略向行为策略的逼近,但离线经验缓存的数据分布往往会直接影响习得策略的质量.通过优化采样模型来改善强化学习智能体的训练效果,提出两种离线优先采样模型:基于时序差分误差的采样模型和基于鞅的采样模型.基于时序差分误差的采样模型可以使智能体更多地学习值估计不准确的经验数据,通过估计更准确的值函数来应对可能出现的分布外状态.基于鞅的采样模型可以使智能体更多地学习对策略优化有利的正样本,减少负样本对值函数迭代的影响.进一步,将所提离线优先采样模型分别与批约束深度Q学习(Batch-constrained deep Q-learning,BCQ)相结合,提出基于时序差分误差的优先BCQ和基于鞅的优先BCQ.D4RL和Torcs数据集上的实验结果表明:所提离线优先采样模型可以有针对性地选择有利于值函数估计或策略优化的经验数据,获得更高的回报.
文摘为提高空地多目标攻击的精确性,该文针对不确定环境下空地多目标攻击的决策模型展开研究。首先,深入分析了影响空对地多目标攻击决策的不确定因素,并提出使用区间形式表示各属性的不确定性范围;其次,采用多层值树对空地协同多目标攻击进行决策建模;最后,使用RICH(Rank inclusion in criteria hierarchies)方法对决策模型进行求解。2对4空地多目标攻击仿真实例结果表明,该文所提出的协同优先权方法是有效的,可为空地协同多目标攻击决策提供合理依据。