时序抽象作为分层强化学习的重要研究内容,允许分层强化学习智能体在不同的时间尺度上学习策略,可以有效解决深度强化学习难以处理的稀疏奖励问题。如何端到端地学习到优秀的时序抽象策略一直是分层强化学习研究面临的挑战。Option-Crit...时序抽象作为分层强化学习的重要研究内容,允许分层强化学习智能体在不同的时间尺度上学习策略,可以有效解决深度强化学习难以处理的稀疏奖励问题。如何端到端地学习到优秀的时序抽象策略一直是分层强化学习研究面临的挑战。Option-Critic(OC)框架在Option框架的基础上,通过策略梯度理论,可以有效解决此问题。然而,在策略学习过程中,OC框架会出现Option内部策略动作分布变得十分相似的退化问题。该退化问题影响了OC框架的实验性能,导致Option的可解释性变差。为了解决上述问题,引入互信息知识作为内部奖励,并提出基于互信息优化的Option-Critic算法(Option-Critic Algorithm with Mutual Information Optimization,MIOOC)。MIOOC算法结合了近端策略Option-Critic(Proximal Policy Option-Critic,PPOC)算法,可以保证下层策略的多样性。为了验证算法的有效性,把MIOOC算法和几种常见的强化学习方法在连续实验环境中进行对比实验。实验结果表明,MIOOC算法可以加快模型学习速度,实验性能更优,Option内部策略更有区分度。展开更多
近年来,深度强化学习在控制任务中取得了显著的效果.但受限于探索能力,难以快速且稳定地求解复杂任务.分层强化学习作为深度强化学习的重要分支,主要解决大规模问题.但是仍存在先验知识设定的不合理和无法有效平衡探索与利用等难题.针...近年来,深度强化学习在控制任务中取得了显著的效果.但受限于探索能力,难以快速且稳定地求解复杂任务.分层强化学习作为深度强化学习的重要分支,主要解决大规模问题.但是仍存在先验知识设定的不合理和无法有效平衡探索与利用等难题.针对以上问题,提出优势加权互信息最大化的最大熵分层强化学习(Maximum Entropy Hierarchical Reinforcement Learning with Advantage-weighted Mutual Information Maximization,HRLAMIM)算法.该算法通过优势函数加权重要性采样与互信息最大化,解决由策略引起的样本聚类问题,增加内部奖励来强调Option的多样性.同时,将奖励引入最大熵强化学习目标,使策略具有了更强的探索性和更好的稳定性.此外,采用Option数量退火方法,不仅减少了先验知识对性能的影响,还平衡了算法的探索与利用,并获得了更高的样本效率和更快的学习速度.将HRL-AMIM算法应用于Mujoco任务中,实验表明,与传统深度强化学习算法和同类型的分层强化学习算法相比,HRL-AMIM算法在性能和稳定性方面均具有较大的优势.进一步通过消融实验和超参数敏感性实验,验证了算法的鲁棒性和有效性.展开更多
针对传统数值预报模式计算时间长和计算资源消耗大的问题,以及现有深度学习预报方法在温度预报结果上不精确,且预测结果模糊的问题,提出了一个新的温度预报模型。首先,设计了一个时空信息捕捉模块,将该模块捕获的长期依赖信息,作为扩散...针对传统数值预报模式计算时间长和计算资源消耗大的问题,以及现有深度学习预报方法在温度预报结果上不精确,且预测结果模糊的问题,提出了一个新的温度预报模型。首先,设计了一个时空信息捕捉模块,将该模块捕获的长期依赖信息,作为扩散模型的生成条件,赋予扩散模型预报的能力;其次,设计了一个新的平衡损失函数,同时保护了扩散模型的生成能力和时空信息捕捉模块对时空信息的捕捉能力;最后,基于美国国家环境预报中心的再分析数据进行预报,与现有的深度学习方法相比,所提模型预报结果的质量在均方误差(mean square error,MSE)上降低了17.3%,在均方根误差(root mean square error,RMSE)上降低了9.14%,在峰值信噪比(peak signal to noise ratio,PSNR)上提升了5.1%。改进的扩散模型能有效地捕捉时空依赖的关系,有效地进行时空序列预测,效果优于其他对比方法。展开更多
提出并实现了一种新的蚁群优化(ACO)并行化策略SHOP(Sharing one pheromone matrix).主要思想是基于多蚁群在解的构造过程和信息素更新过程中共享同一个信息素矩阵.以ACS和MMAS的SHOP并行实现为例,简要描述了SHOP设计思想和实现过程,...提出并实现了一种新的蚁群优化(ACO)并行化策略SHOP(Sharing one pheromone matrix).主要思想是基于多蚁群在解的构造过程和信息素更新过程中共享同一个信息素矩阵.以ACS和MMAS的SHOP并行实现为例,简要描述了SHOP设计思想和实现过程,尝试了ACS和MMAS并行混合.以对称TSP测试集为对象,将SHOP的实现与相应串行算法在相同计算环境下的实验结果比较,以及与现有的并行实现进行比较,结果表明SHOP并行策略相对于串行ACO及现有的并行策略具有一定的优势.展开更多
文摘时序抽象作为分层强化学习的重要研究内容,允许分层强化学习智能体在不同的时间尺度上学习策略,可以有效解决深度强化学习难以处理的稀疏奖励问题。如何端到端地学习到优秀的时序抽象策略一直是分层强化学习研究面临的挑战。Option-Critic(OC)框架在Option框架的基础上,通过策略梯度理论,可以有效解决此问题。然而,在策略学习过程中,OC框架会出现Option内部策略动作分布变得十分相似的退化问题。该退化问题影响了OC框架的实验性能,导致Option的可解释性变差。为了解决上述问题,引入互信息知识作为内部奖励,并提出基于互信息优化的Option-Critic算法(Option-Critic Algorithm with Mutual Information Optimization,MIOOC)。MIOOC算法结合了近端策略Option-Critic(Proximal Policy Option-Critic,PPOC)算法,可以保证下层策略的多样性。为了验证算法的有效性,把MIOOC算法和几种常见的强化学习方法在连续实验环境中进行对比实验。实验结果表明,MIOOC算法可以加快模型学习速度,实验性能更优,Option内部策略更有区分度。
文摘近年来,深度强化学习在控制任务中取得了显著的效果.但受限于探索能力,难以快速且稳定地求解复杂任务.分层强化学习作为深度强化学习的重要分支,主要解决大规模问题.但是仍存在先验知识设定的不合理和无法有效平衡探索与利用等难题.针对以上问题,提出优势加权互信息最大化的最大熵分层强化学习(Maximum Entropy Hierarchical Reinforcement Learning with Advantage-weighted Mutual Information Maximization,HRLAMIM)算法.该算法通过优势函数加权重要性采样与互信息最大化,解决由策略引起的样本聚类问题,增加内部奖励来强调Option的多样性.同时,将奖励引入最大熵强化学习目标,使策略具有了更强的探索性和更好的稳定性.此外,采用Option数量退火方法,不仅减少了先验知识对性能的影响,还平衡了算法的探索与利用,并获得了更高的样本效率和更快的学习速度.将HRL-AMIM算法应用于Mujoco任务中,实验表明,与传统深度强化学习算法和同类型的分层强化学习算法相比,HRL-AMIM算法在性能和稳定性方面均具有较大的优势.进一步通过消融实验和超参数敏感性实验,验证了算法的鲁棒性和有效性.
文摘针对传统数值预报模式计算时间长和计算资源消耗大的问题,以及现有深度学习预报方法在温度预报结果上不精确,且预测结果模糊的问题,提出了一个新的温度预报模型。首先,设计了一个时空信息捕捉模块,将该模块捕获的长期依赖信息,作为扩散模型的生成条件,赋予扩散模型预报的能力;其次,设计了一个新的平衡损失函数,同时保护了扩散模型的生成能力和时空信息捕捉模块对时空信息的捕捉能力;最后,基于美国国家环境预报中心的再分析数据进行预报,与现有的深度学习方法相比,所提模型预报结果的质量在均方误差(mean square error,MSE)上降低了17.3%,在均方根误差(root mean square error,RMSE)上降低了9.14%,在峰值信噪比(peak signal to noise ratio,PSNR)上提升了5.1%。改进的扩散模型能有效地捕捉时空依赖的关系,有效地进行时空序列预测,效果优于其他对比方法。
文摘提出并实现了一种新的蚁群优化(ACO)并行化策略SHOP(Sharing one pheromone matrix).主要思想是基于多蚁群在解的构造过程和信息素更新过程中共享同一个信息素矩阵.以ACS和MMAS的SHOP并行实现为例,简要描述了SHOP设计思想和实现过程,尝试了ACS和MMAS并行混合.以对称TSP测试集为对象,将SHOP的实现与相应串行算法在相同计算环境下的实验结果比较,以及与现有的并行实现进行比较,结果表明SHOP并行策略相对于串行ACO及现有的并行策略具有一定的优势.