期刊文献+
共找到34篇文章
< 1 2 >
每页显示 20 50 100
稀疏奖励场景下基于状态空间探索的多智能体强化学习算法
1
作者 方宝富 余婷婷 +1 位作者 王浩 王在俊 《模式识别与人工智能》 EI CSCD 北大核心 2024年第5期435-446,共12页
多智能体的任务场景往往伴随着庞大、多样的状态空间,而且在某些情况下,外部环境提供的奖励信息可能非常有限,呈现出稀疏奖励的特征.现有的大部分多智能体强化学习算法在此类稀疏奖励场景下效果有限,因为算法仅依赖于偶然发现的奖励序列... 多智能体的任务场景往往伴随着庞大、多样的状态空间,而且在某些情况下,外部环境提供的奖励信息可能非常有限,呈现出稀疏奖励的特征.现有的大部分多智能体强化学习算法在此类稀疏奖励场景下效果有限,因为算法仅依赖于偶然发现的奖励序列,会导致学习过程缓慢和低效.为了解决这一问题,文中提出基于状态空间探索的多智能体强化学习算法,构建状态子集空间,从中映射出一个状态,并将其作为内在目标,使智能体更充分利用状态空间并减少不必要的探索.将智能体状态分解成自身状态与环境状态,结合这两类状态与内在目标,生成基于互信息的内在奖励.构建状态子集空间和基于互信息的内在奖励,对接近目标状态的状态与理解环境的状态给予适当的奖励,以激励智能体更积极地朝着目标前进,同时增强对环境的理解,从而引导其灵活适应稀疏奖励场景.在稀疏程度不同的多智能体协作场景中的实验验证文中算法性能较优. 展开更多
关键词 强化学习 稀疏奖励 互信息 内在奖励
下载PDF
面向稀疏奖励的机器人操作技能学习
2
作者 吴培良 张彦 +2 位作者 毛秉毅 陈雯柏 高国伟 《控制理论与应用》 EI CAS CSCD 北大核心 2024年第1期99-108,共10页
基于深度强化学习的机器人操作技能学习成为研究热点,但由于任务的稀疏奖励性质,学习效率较低.本文提出了基于元学习的双经验池自适应软更新事后经验回放方法,并将其应用于稀疏奖励的机器人操作技能学习问题求解.首先,在软更新事后经验... 基于深度强化学习的机器人操作技能学习成为研究热点,但由于任务的稀疏奖励性质,学习效率较低.本文提出了基于元学习的双经验池自适应软更新事后经验回放方法,并将其应用于稀疏奖励的机器人操作技能学习问题求解.首先,在软更新事后经验回放算法的基础上推导出可以提高算法效率的精简值函数,并加入温度自适应调整策略,动态调整温度参数以适应不同的任务环境;其次,结合元学习思想对经验回放进行分割,训练时动态调整选取真实采样数据和构建虚拟数的比例,提出了DAS-HER方法;然后,将DAS-HER算法应用到机器人操作技能学习中,构建了一个稀疏奖励环境下具有通用性的机器人操作技能学习框架;最后,在Mujoco下的Fetch和Hand环境中,进行了8项任务的对比实验,实验结果表明,无论是在训练效率还是在成功率方面,本文算法表现均优于其他算法. 展开更多
关键词 机器人操作技能学习 强化学习 稀疏奖励 最大熵方法 自适应温度参数 元学习
下载PDF
稀疏奖励下基于课程学习的无人机空战仿真
3
作者 祝靖宇 张宏立 +4 位作者 匡敏驰 史恒 朱纪洪 乔直 周文卿 《系统仿真学报》 CAS CSCD 北大核心 2024年第6期1452-1467,共16页
针对传统强化学习在空战环境下探索能力差和奖励稀疏的问题,提出了一种基于课程学习的分布式近端策略优化(curriculum learning distributed proximal policy optimization,CLDPPO)强化学习算法。嵌入包含专家经验知识的奖励函数,设计... 针对传统强化学习在空战环境下探索能力差和奖励稀疏的问题,提出了一种基于课程学习的分布式近端策略优化(curriculum learning distributed proximal policy optimization,CLDPPO)强化学习算法。嵌入包含专家经验知识的奖励函数,设计了离散化的动作空间,构建了局部观测与全局观测分离的演员评论家网络。通过为无人机制定进攻、防御以及综合课程,让无人机从基本课程由浅入深开始学习作战技能,阶段性提升无人机作战能力。实验结果表明:以课程学习方式训练的无人机能以一定的优势击败专家系统和主流强化学习算法,同时具有空战战术的自我学习能力,有效改善稀疏奖励的问题。 展开更多
关键词 UAVS 空战 稀疏奖励 课程学习 分布式近端策略优化
下载PDF
融合好奇心和策略蒸馏的稀疏奖励探索机制
4
作者 王子腾 于亚新 +1 位作者 夏子芳 乔佳琪 《计算机应用》 CSCD 北大核心 2023年第7期2082-2090,共9页
深度强化学习算法在奖励稀疏的环境下,难以通过与环境的交互学习到最优策略,因此需要构建内在奖励指导策略进行探索更新。然而,这样仍存在一些问题:1)状态分类存在的统计失准问题会造成奖励值大小被误判,使智能体(agent)学习到错误行为... 深度强化学习算法在奖励稀疏的环境下,难以通过与环境的交互学习到最优策略,因此需要构建内在奖励指导策略进行探索更新。然而,这样仍存在一些问题:1)状态分类存在的统计失准问题会造成奖励值大小被误判,使智能体(agent)学习到错误行为;2)由于预测网络识别状态信息的能力较强,内在奖励产生状态的新鲜感下降,影响了最优策略的学习效果;3)由于随机状态转移,教师策略的信息未被有效利用,降低了智能体的环境探索能力。为了解决以上问题,提出一种融合随机生成网络预测误差与哈希离散化统计的奖励构建机制RGNP-HCE(Randomly Generated Network Prediction and Hash Count Exploration),并通过蒸馏(distillation)将多教师策略的知识迁移到学生策略中。RGNP-HCE机制采用好奇心分类思想构建融合奖励:一方面在多回合间以随机生成网络预测差构建全局好奇心奖励;另一方面在单回合内以哈希离散化统计构建局部好奇心奖励,从而保证内在奖励的合理性以及策略梯度更新的正确性。此外,将多个教师策略学习到的知识通过蒸馏迁移到学生策略中,有效提升学生策略的环境探索能力。最后,在Montezuma’s Revenge与Breakout测试环境中,把所提机制与当前主流的4个深度强化学习算法进行了对比实验,并执行了策略蒸馏。结果表明,相较于当前高性能的强化学习算法,RGNP-HCE机制在两个测试环境中的平均性能均有提升,且蒸馏后学生策略的平均性能又有进一步的提升,验证了RGNP-HCE机制与策略蒸馏方法对提升智能体的环境探索能力是有效的。 展开更多
关键词 奖励稀疏 内在奖励 探索能力 策略蒸馏 深度强化学习
下载PDF
稀疏奖励下基于强化学习的无人集群自主决策与智能协同 被引量:4
5
作者 李超 王瑞星 +3 位作者 黄建忠 江飞龙 魏雪梅 孙延鑫 《兵工学报》 EI CAS CSCD 北大核心 2023年第6期1537-1546,共10页
无人集群将深刻地塑造战争样式,为提升无人集群自主决策算法能力,对异构无人集群攻防对抗自主决策方法进行研究。对无人集群对抗模型设计进行总体概述,并对无人集群攻防对抗场景进行模型设计;针对无人集群自主决策采用强化学习技术广泛... 无人集群将深刻地塑造战争样式,为提升无人集群自主决策算法能力,对异构无人集群攻防对抗自主决策方法进行研究。对无人集群对抗模型设计进行总体概述,并对无人集群攻防对抗场景进行模型设计;针对无人集群自主决策采用强化学习技术广泛存在的稀疏奖励问题,提出基于局部回报重塑的奖励机制设定方法;在此基础上叠加优先经验回放,有效地改善稀疏奖励问题;通过程序仿真和演示系统设计,验证该方法的优越性。该方法的研究将加速基于强化学习技术的无人集群自主决策算法网络收敛过程,对无人集群自主决策算法研究具有重要意义。 展开更多
关键词 多智能体 无人智能 博弈对抗 强化学习 稀疏奖励
下载PDF
稀疏奖励下基于情感的异构多智能体强化学习 被引量:5
6
作者 方宝富 马云婷 +1 位作者 王在俊 王浩 《模式识别与人工智能》 EI CSCD 北大核心 2021年第3期223-231,共9页
在强化学习中,当处于奖励分布稀疏的环境时,由于无法获得有效经验,智能体收敛速度和效率都会大幅下降.针对此类稀疏奖励,文中提出基于情感的异构多智能体强化学习方法.首先,建立基于个性的智能体情感模型,为异构多智能体提供激励机制,... 在强化学习中,当处于奖励分布稀疏的环境时,由于无法获得有效经验,智能体收敛速度和效率都会大幅下降.针对此类稀疏奖励,文中提出基于情感的异构多智能体强化学习方法.首先,建立基于个性的智能体情感模型,为异构多智能体提供激励机制,作为外部奖励的有效补充.然后,基于上述激励机制,融合深度确定性策略,提出稀疏奖励下基于内在情感激励机制的深度确定性策略梯度强化学习算法,加快智能体的收敛速度.最后,在多机器人追捕仿真实验平台上,构建不同难度等级的稀疏奖励情景,验证文中方法在追捕成功率和收敛速度上的有效性和优越性. 展开更多
关键词 强化学习 稀疏奖励 奖励机制 情感模型
下载PDF
稀疏奖励环境中的分层强化学习 被引量:1
7
作者 欧阳名三 冯舒心 《佳木斯大学学报(自然科学版)》 CAS 2022年第2期54-57,共4页
针对强化学习的稀疏奖励问题,提出一种基于子目标的分层强化学习算法。该算法利用分层学习框架将学习任务分解为两个抽象级别,上层控制器根据策略选择子目标,底层控制器中的批判函数提供适当的内部奖励,使用神经网络训练价值函数,进行... 针对强化学习的稀疏奖励问题,提出一种基于子目标的分层强化学习算法。该算法利用分层学习框架将学习任务分解为两个抽象级别,上层控制器根据策略选择子目标,底层控制器中的批判函数提供适当的内部奖励,使用神经网络训练价值函数,进行动作的选择和策略的更新,直到完成子目标或完成整个学习任务,子目标集合由启发式异常检测结合密度峰值聚类自动创建。与传统强化学习算法以及基于k-means的分层强化学习算法在路径导航仿真问题中进行了对比实验,实验表明,该算法在稀疏延时反馈的环境中具有较高的稳定性和学习效率。 展开更多
关键词 分层强化学习 稀疏奖励 密度峰值聚类 路径导航
下载PDF
基于元生成内在奖励的机器人操作技能学习方法 被引量:1
8
作者 吴培良 渠有源 +2 位作者 李瑶 陈雯柏 高国伟 《计量学报》 CSCD 北大核心 2023年第6期923-930,共8页
针对稀疏奖励下,复杂任务学习效率低的问题,在离线策略(off-policy)强化学习思想基础上,提出了元生成内在奖励算法(meta generative intrinsic reward, MGIR),并将其应用在机器人操作技能学习问题求解方面。具体步骤为先使用一个可将复... 针对稀疏奖励下,复杂任务学习效率低的问题,在离线策略(off-policy)强化学习思想基础上,提出了元生成内在奖励算法(meta generative intrinsic reward, MGIR),并将其应用在机器人操作技能学习问题求解方面。具体步骤为先使用一个可将复杂任务分解为多个子任务的元生成内在奖励框架,对子任务进行能力评价;再引入生成内在奖励模块,将智能体探索得到状态的新颖性作为内在奖励,并联合环境奖励共同指导智能体完成对环境的探索和特定任务的学习;最后,在MuJoCo仿真环境Fetch中对离线策略强化学习进行对比实验。实验结果表明,无论是在训练效率还是在成功率方面,提出的元生成内在奖励算法均表现较好。 展开更多
关键词 计量学 机器人操作技能学习 稀疏奖励 强化学习 元学习 生成内在奖励
下载PDF
稀疏奖励场景下基于个体落差情绪的多智能体协作算法
9
作者 王浩 汪京 方宝富 《模式识别与人工智能》 EI CSCD 北大核心 2022年第5期451-460,共10页
针对在多智能体环境中强化学习面临的稀疏奖励问题,借鉴情绪在人类学习和决策中的作用,文中提出基于个体落差情绪的多智能体协作算法.对近似联合动作值函数进行端到端优化以训练个体策略,将每个智能体的个体动作值函数作为对事件的评估... 针对在多智能体环境中强化学习面临的稀疏奖励问题,借鉴情绪在人类学习和决策中的作用,文中提出基于个体落差情绪的多智能体协作算法.对近似联合动作值函数进行端到端优化以训练个体策略,将每个智能体的个体动作值函数作为对事件的评估.预测评价与实际情况的差距产生落差情绪,以该落差情绪模型作为内在动机机制,为每个智能体产生一个内在情绪奖励,作为外在奖励的有效补充,以此缓解外在奖励稀疏的问题.同时内在情绪奖励与具体任务无关,因此具有一定的通用性.在不同稀疏程度的多智能体追捕场景中验证文中算法的有效性和鲁棒性. 展开更多
关键词 稀疏奖励 多智能体协作 强化学习 个体落差情绪 内在情绪奖励
下载PDF
深度强化学习中稀疏奖励问题研究综述 被引量:36
10
作者 杨惟轶 白辰甲 +2 位作者 蔡超 赵英男 刘鹏 《计算机科学》 CSCD 北大核心 2020年第3期182-191,共10页
强化学习作为机器学习的重要分支,是在与环境交互中寻找最优策略的一类方法。强化学习近年来与深度学习进行了广泛结合,形成了深度强化学习的研究领域。作为一种崭新的机器学习方法,深度强化学习同时具有感知复杂输入和求解最优策略的能... 强化学习作为机器学习的重要分支,是在与环境交互中寻找最优策略的一类方法。强化学习近年来与深度学习进行了广泛结合,形成了深度强化学习的研究领域。作为一种崭新的机器学习方法,深度强化学习同时具有感知复杂输入和求解最优策略的能力,可以应用于机器人控制等复杂决策问题。稀疏奖励问题是深度强化学习在解决任务中面临的核心问题,在实际应用中广泛存在。解决稀疏奖励问题有利于提升样本的利用效率,提高最优策略的水平,推动深度强化学习在实际任务中的广泛应用。文中首先对深度强化学习的核心算法进行阐述;然后介绍稀疏奖励问题的5种解决方案,包括奖励设计与学习、经验回放机制、探索与利用、多目标学习和辅助任务等;最后对相关研究工作进行总结和展望。 展开更多
关键词 深度强化学习 深度学习 强化学习 稀疏奖励 人工智能
下载PDF
强化学习稀疏奖励算法研究——理论与实验 被引量:17
11
作者 杨瑞 严江鹏 李秀 《智能系统学报》 CSCD 北大核心 2020年第5期888-899,共12页
近年来,强化学习在游戏、机器人控制等序列决策领域都获得了巨大的成功,但是大量实际问题中奖励信号十分稀疏,导致智能体难以从与环境的交互中学习到最优的策略,这一问题被称为稀疏奖励问题。稀疏奖励问题的研究能够促进强化学习实际应... 近年来,强化学习在游戏、机器人控制等序列决策领域都获得了巨大的成功,但是大量实际问题中奖励信号十分稀疏,导致智能体难以从与环境的交互中学习到最优的策略,这一问题被称为稀疏奖励问题。稀疏奖励问题的研究能够促进强化学习实际应用与落地,在强化学习理论研究中具有重要意义。本文调研了稀疏奖励问题的研究现状,以外部引导信息为线索,分别介绍了奖励塑造、模仿学习、课程学习、事后经验回放、好奇心驱动、分层强化学习等方法。本文在稀疏奖励环境Fetch Reach上实现了以上6类方法的代表性算法进行实验验证和比较分析。使用外部引导信息的算法平均表现好于无外部引导信息的算法,但是后者对数据的依赖性更低,两类方法均具有重要的研究意义。最后,本文对稀疏奖励算法研究进行了总结与展望。 展开更多
关键词 强化学习 深度强化学习 机器学习 稀疏奖励 神经网络 人工智能 深度学习
下载PDF
稀疏奖励下多航天器规避决策自学习仿真 被引量:5
12
作者 赵毓 郭继峰 +1 位作者 颜鹏 白成超 《系统仿真学报》 CAS CSCD 北大核心 2021年第8期1766-1774,共9页
为了提高航天器编队对多拦截器规避能力,针对传统程序式机动规避成功率低的问题,提出一种基于深度强化学习的多智能体协同自主规避决策方法。其中基于Actor-Critic架构设计了一种多智能体强化学习算法,为解决该自学习算法信度分配问题,... 为了提高航天器编队对多拦截器规避能力,针对传统程序式机动规避成功率低的问题,提出一种基于深度强化学习的多智能体协同自主规避决策方法。其中基于Actor-Critic架构设计了一种多智能体强化学习算法,为解决该自学习算法信度分配问题,提出加权线性拟合方法;对于任务场景稀疏奖励问题,提出基于逆值法的稀疏奖励强化学习方法。根据规避任务决策过程建立了空间多智能体对抗仿真系统,利用其验证了所提算法的正确性和有效性。 展开更多
关键词 多智能体 强化学习 稀疏奖励 规避机动 自主决策
下载PDF
稀疏场景下基于理性好奇心的多智能体强化学习 被引量:1
13
作者 金志军 王浩 方宝富 《计算机工程》 CAS CSCD 北大核心 2023年第5期302-309,共8页
强化学习当前越来越多地应用于多智能体系统。在强化学习中,奖励信号起引导智能体学习的作用,然而多智能体系统任务复杂,可能只在任务结束时才能获得环境的反馈,导致奖励稀疏,大幅降底算法的收敛速度和效率。为解决稀疏奖励问题,提出一... 强化学习当前越来越多地应用于多智能体系统。在强化学习中,奖励信号起引导智能体学习的作用,然而多智能体系统任务复杂,可能只在任务结束时才能获得环境的反馈,导致奖励稀疏,大幅降底算法的收敛速度和效率。为解决稀疏奖励问题,提出一种基于理性好奇心的多智能体强化学习方法。受内在动机理论的启发,将好奇心思想扩展到多智能体中,并给出理性好奇心奖励机制,利用分解求和的网络结构将不同排列的联合状态编码到同一特征表示,减少联合状态的探索空间,将网络的预测误差作为内在奖励,引导智能体去研究新颖且有用的效用状态。在此基础上,引入双值函数网络对Q值进行评估,采用最小化算子计算目标值,缓解Q值的过估计偏差和方差,并采用均值优化策略提高样本利用。在追捕任务和合作导航任务的环境中进行实验评估,结果表明,在最困难的追捕任务中,该方法相较于基线算法,胜率提高15%左右,所需时间步降低20%左右,在合作导航任务中也具有较快的收敛速度。 展开更多
关键词 稀疏奖励 多智能体系统 强化学习 内在动机 好奇心
下载PDF
稀疏奖励下基于强化学习的异构多智能体对抗 被引量:2
14
作者 王瑞星 董诗音 +1 位作者 江飞龙 黄胜全 《信息技术》 2021年第5期12-20,共9页
文中在多智能体对抗问题研究过程中,采用强化学习为研究方法,以完全中心化训练架构为基础,选用基于策略的强化学习算法,针对领域研究中广泛存在的稀疏奖励问题,采用基于任务局部的奖励工程设定方法,以人为经验知识为导引,加速训练过程,... 文中在多智能体对抗问题研究过程中,采用强化学习为研究方法,以完全中心化训练架构为基础,选用基于策略的强化学习算法,针对领域研究中广泛存在的稀疏奖励问题,采用基于任务局部的奖励工程设定方法,以人为经验知识为导引,加速训练过程,提升训练结果。最后以对抗问题中典型的攻防对抗为场景进行了仿真实验,验证了方法的有效性。 展开更多
关键词 多智能体博弈 强化学习 稀疏奖励 基于任务局部的奖励工程设定
下载PDF
稀疏奖励下基于MADDPG算法的多智能体协同 被引量:1
15
作者 许诺 杨振伟 《现代计算机》 2020年第15期47-51,共5页
深度强化学习中最大的问题是对定制化的奖赏工程(Manual Reward Engineering)的依赖,扩展至多智能体协同场景时,这一问题更加显著。提出一种带神经网络参数共享机制的MADDPG算法。在此基础上,重点针对连续奖励函数设计困难的场景,提出... 深度强化学习中最大的问题是对定制化的奖赏工程(Manual Reward Engineering)的依赖,扩展至多智能体协同场景时,这一问题更加显著。提出一种带神经网络参数共享机制的MADDPG算法。在此基础上,重点针对连续奖励函数设计困难的场景,提出一种基于群体目标状态的奖励函数。针对这种奖励函数下,奖励值稀疏,影响学习速率,将基于优先级的经验重放方法扩展至多智能体领域,提高样本利用率,挖掘训练潜能。最后在合作导航场景中进行仿真实验,验证方法的有效性。 展开更多
关键词 深度强化学习 多智能体 稀疏奖励 经验重放
下载PDF
基于改进好奇心的深度强化学习方法
16
作者 乔和 李增辉 +1 位作者 刘春 胡嗣栋 《计算机应用研究》 CSCD 北大核心 2024年第9期2635-2640,共6页
在深度强化学习方法中,针对内在好奇心模块(intrinsic curiosity model,ICM)指导智能体在稀疏奖励环境中获得未知策略学习的机会,但好奇心奖励是一个状态差异值,会使智能体过度关注于对新状态的探索,进而出现盲目探索的问题,提出了一种... 在深度强化学习方法中,针对内在好奇心模块(intrinsic curiosity model,ICM)指导智能体在稀疏奖励环境中获得未知策略学习的机会,但好奇心奖励是一个状态差异值,会使智能体过度关注于对新状态的探索,进而出现盲目探索的问题,提出了一种基于知识蒸馏的内在好奇心改进算法(intrinsic curiosity model algorithm based on knowledge distillation,KD-ICM)。首先,该算法引入知识蒸馏的方法,使智能体在较短的时间内获得更丰富的环境信息和策略知识,加速学习过程;其次,通过预训练教师神经网络模型去引导前向网络,得到更高精度和性能的前向网络模型,减少智能体的盲目探索。在Unity仿真平台上设计了两个不同的仿真实验进行对比,实验表明,在复杂仿真任务环境中,KD-ICM算法的平均奖励比ICM提升了136%,最优动作概率比ICM提升了13.47%,提升智能体探索性能的同时能提高探索的质量,验证了算法的可行性。 展开更多
关键词 深度强化学习 知识蒸馏 近端策略优化 稀疏奖励 内在好奇心
下载PDF
结合先验知识的SAC神经纤维追踪算法及应用
17
作者 林佳俐 李永强 +1 位作者 赵硕 冯远静 《小型微型计算机系统》 CSCD 北大核心 2024年第7期1719-1727,共9页
扩散磁共振成像是目前唯一的非侵入式神经纤维成像方法.针对现有的纤维追踪算法在交叉、分叉等复杂纤维结构上存在无效连接率高或者无连接率高的问题,本文提出了基于先验知识的Soft-Actor-Critic纤维追踪算法;设计了基于球谐函数模型的... 扩散磁共振成像是目前唯一的非侵入式神经纤维成像方法.针对现有的纤维追踪算法在交叉、分叉等复杂纤维结构上存在无效连接率高或者无连接率高的问题,本文提出了基于先验知识的Soft-Actor-Critic纤维追踪算法;设计了基于球谐函数模型的单步奖励和基于解剖学结构的稀疏奖励;结合六邻域体素的球谐函数信息,保证空间一致性;将先前时刻的动作作为决策网络的输入,增强智能体对时序动作的利用.在Fibercup数据集上,有效连接率达到78.1%,并且显著降低了无效链接率和无连接率.此外,还将该方法成功应用到视神经这类长距离、带噪声并且包含交叉区域的复杂结构的重建上.实验结果表明本文方法可以完成复杂结构的重建,并且有效降低错误连接率. 展开更多
关键词 深度强化学习 稀疏奖励 神经纤维追踪 视神经
下载PDF
基于自适应增强随机搜索的航天器追逃博弈策略研究
18
作者 焦杰 苟永杰 +1 位作者 吴文博 泮斌峰 《西北工业大学学报》 EI CAS CSCD 北大核心 2024年第1期117-128,共12页
针对航天器与非合作目标追逃博弈的生存型微分对策拦截问题,基于强化学习研究了追逃博弈策略,提出了自适应增强随机搜索(adaptive-augmented random search,A-ARS)算法。针对序贯决策的稀疏奖励难题,设计了基于策略参数空间扰动的探索方... 针对航天器与非合作目标追逃博弈的生存型微分对策拦截问题,基于强化学习研究了追逃博弈策略,提出了自适应增强随机搜索(adaptive-augmented random search,A-ARS)算法。针对序贯决策的稀疏奖励难题,设计了基于策略参数空间扰动的探索方法,加快策略收敛速度;针对可能过早陷入局部最优问题设计了新颖度函数并引导策略更新,可提升数据利用效率;通过数值仿真验证并与增强随机搜索(augmented random search,ARS)、近端策略优化算法(proximal policy optimization,PPO)以及深度确定性策略梯度下降算法(deep deterministic policy gradient,DDPG)进行对比,验证了此方法的有效性和先进性。 展开更多
关键词 非合作目标 追逃博弈 微分对策 强化学习 稀疏奖励
下载PDF
带有惩罚措施的自竞争事后经验重播算法
19
作者 王子豪 钱雪忠 宋威 《计算机科学与探索》 CSCD 北大核心 2024年第5期1223-1231,共9页
自竞争事后经验重播(SCHER)是在事后经验重播(HER)算法的基础上提出的一种改进策略。HER算法在面对环境奖励稀疏的情况下,通过回放经验生成虚拟有标签数据来优化模型。但HER算法存在两个问题:一是无法处理智能体由于奖励稀疏所产生的大... 自竞争事后经验重播(SCHER)是在事后经验重播(HER)算法的基础上提出的一种改进策略。HER算法在面对环境奖励稀疏的情况下,通过回放经验生成虚拟有标签数据来优化模型。但HER算法存在两个问题:一是无法处理智能体由于奖励稀疏所产生的大量重复数据,这些无效数据会对经验池造成污染;二是虚拟目标可能会随机选择到一些对完成任务没有帮助的中间状态,导致学习偏差。针对这些问题,SCHER算法提出了两个改进策略:一是增加自适应的奖励信号,对智能体做出的无意义动作进行惩罚,使其快速规避此类操作;二是使用自竞争策略,通过竞争产生针对同一任务下的两组不同数据,对比分析后找到使智能体在不同环境中成功的关键步骤,提高生成虚拟目标的准确程度。实验结果表明,SCHER算法可以更好地利用经验回放技术,将平均任务成功率提高5.7个百分点,拥有更高的准确率和泛化能力。 展开更多
关键词 深度强化学习 稀疏奖励 经验回放 自适应奖励信号
下载PDF
规则耦合下的多异构子网络MADDPG博弈对抗算法
20
作者 张钰欣 赵恩娇 赵玉新 《智能系统学报》 CSCD 北大核心 2024年第1期190-208,共19页
针对多无人机博弈对抗过程中无人机数量动态衰减问题和传统深度强化学习算法中的稀疏奖励问题及无效经验抽取频率过高问题,本文以攻防能力及通信范围受限条件下的多无人机博弈对抗任务为研究背景,构建了红、蓝两方无人机群的博弈对抗模... 针对多无人机博弈对抗过程中无人机数量动态衰减问题和传统深度强化学习算法中的稀疏奖励问题及无效经验抽取频率过高问题,本文以攻防能力及通信范围受限条件下的多无人机博弈对抗任务为研究背景,构建了红、蓝两方无人机群的博弈对抗模型,在多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)算法的Actor-Critic框架下,根据博弈环境的特点对原始的MADDPG算法进行改进。为了进一步提升算法对有效经验的探索和利用,本文构建了规则耦合模块以在无人机的决策过程中对Actor网络进行辅助。仿真实验表明,本文设计的算法在收敛速度、学习效率和稳定性方面都取了一定的提升,异构子网络的引入使算法更适用于无人机数量动态衰减的博弈场景;奖励势函数和重要性权重耦合的优先经验回放方法提升了经验差异的细化程度及优势经验利用率;规则耦合模块的引入实现了无人机决策网络对先验知识的有效利用。 展开更多
关键词 深度强化学习 多无人机 博弈对抗 MADDPG Actor-Critic 规则耦合 经验回放 稀疏奖励
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部