期刊文献+
共找到37篇文章
< 1 2 >
每页显示 20 50 100
面向稀疏奖励的机器人操作技能学习
1
作者 吴培良 张彦 +2 位作者 毛秉毅 陈雯柏 高国伟 《控制理论与应用》 EI CAS CSCD 北大核心 2024年第1期99-108,共10页
基于深度强化学习的机器人操作技能学习成为研究热点,但由于任务的稀疏奖励性质,学习效率较低.本文提出了基于元学习的双经验池自适应软更新事后经验回放方法,并将其应用于稀疏奖励的机器人操作技能学习问题求解.首先,在软更新事后经验... 基于深度强化学习的机器人操作技能学习成为研究热点,但由于任务的稀疏奖励性质,学习效率较低.本文提出了基于元学习的双经验池自适应软更新事后经验回放方法,并将其应用于稀疏奖励的机器人操作技能学习问题求解.首先,在软更新事后经验回放算法的基础上推导出可以提高算法效率的精简值函数,并加入温度自适应调整策略,动态调整温度参数以适应不同的任务环境;其次,结合元学习思想对经验回放进行分割,训练时动态调整选取真实采样数据和构建虚拟数的比例,提出了DAS-HER方法;然后,将DAS-HER算法应用到机器人操作技能学习中,构建了一个稀疏奖励环境下具有通用性的机器人操作技能学习框架;最后,在Mujoco下的Fetch和Hand环境中,进行了8项任务的对比实验,实验结果表明,无论是在训练效率还是在成功率方面,本文算法表现均优于其他算法. 展开更多
关键词 机器人操作技能学习 强化学习 稀疏奖励 最大熵方法 自适应温度参数 元学习
下载PDF
稀疏奖励场景下基于状态空间探索的多智能体强化学习算法
2
作者 方宝富 余婷婷 +1 位作者 王浩 王在俊 《模式识别与人工智能》 EI CSCD 北大核心 2024年第5期435-446,共12页
多智能体的任务场景往往伴随着庞大、多样的状态空间,而且在某些情况下,外部环境提供的奖励信息可能非常有限,呈现出稀疏奖励的特征.现有的大部分多智能体强化学习算法在此类稀疏奖励场景下效果有限,因为算法仅依赖于偶然发现的奖励序列... 多智能体的任务场景往往伴随着庞大、多样的状态空间,而且在某些情况下,外部环境提供的奖励信息可能非常有限,呈现出稀疏奖励的特征.现有的大部分多智能体强化学习算法在此类稀疏奖励场景下效果有限,因为算法仅依赖于偶然发现的奖励序列,会导致学习过程缓慢和低效.为了解决这一问题,文中提出基于状态空间探索的多智能体强化学习算法,构建状态子集空间,从中映射出一个状态,并将其作为内在目标,使智能体更充分利用状态空间并减少不必要的探索.将智能体状态分解成自身状态与环境状态,结合这两类状态与内在目标,生成基于互信息的内在奖励.构建状态子集空间和基于互信息的内在奖励,对接近目标状态的状态与理解环境的状态给予适当的奖励,以激励智能体更积极地朝着目标前进,同时增强对环境的理解,从而引导其灵活适应稀疏奖励场景.在稀疏程度不同的多智能体协作场景中的实验验证文中算法性能较优. 展开更多
关键词 强化学习 稀疏奖励 互信息 内在奖励
下载PDF
稀疏奖励下基于课程学习的无人机空战仿真 被引量:1
3
作者 祝靖宇 张宏立 +4 位作者 匡敏驰 史恒 朱纪洪 乔直 周文卿 《系统仿真学报》 CAS CSCD 北大核心 2024年第6期1452-1467,共16页
针对传统强化学习在空战环境下探索能力差和奖励稀疏的问题,提出了一种基于课程学习的分布式近端策略优化(curriculum learning distributed proximal policy optimization,CLDPPO)强化学习算法。嵌入包含专家经验知识的奖励函数,设计... 针对传统强化学习在空战环境下探索能力差和奖励稀疏的问题,提出了一种基于课程学习的分布式近端策略优化(curriculum learning distributed proximal policy optimization,CLDPPO)强化学习算法。嵌入包含专家经验知识的奖励函数,设计了离散化的动作空间,构建了局部观测与全局观测分离的演员评论家网络。通过为无人机制定进攻、防御以及综合课程,让无人机从基本课程由浅入深开始学习作战技能,阶段性提升无人机作战能力。实验结果表明:以课程学习方式训练的无人机能以一定的优势击败专家系统和主流强化学习算法,同时具有空战战术的自我学习能力,有效改善稀疏奖励的问题。 展开更多
关键词 UAVS 空战 稀疏奖励 课程学习 分布式近端策略优化
下载PDF
稀疏奖励下基于情感的异构多智能体强化学习 被引量:6
4
作者 方宝富 马云婷 +1 位作者 王在俊 王浩 《模式识别与人工智能》 EI CSCD 北大核心 2021年第3期223-231,共9页
在强化学习中,当处于奖励分布稀疏的环境时,由于无法获得有效经验,智能体收敛速度和效率都会大幅下降.针对此类稀疏奖励,文中提出基于情感的异构多智能体强化学习方法.首先,建立基于个性的智能体情感模型,为异构多智能体提供激励机制,... 在强化学习中,当处于奖励分布稀疏的环境时,由于无法获得有效经验,智能体收敛速度和效率都会大幅下降.针对此类稀疏奖励,文中提出基于情感的异构多智能体强化学习方法.首先,建立基于个性的智能体情感模型,为异构多智能体提供激励机制,作为外部奖励的有效补充.然后,基于上述激励机制,融合深度确定性策略,提出稀疏奖励下基于内在情感激励机制的深度确定性策略梯度强化学习算法,加快智能体的收敛速度.最后,在多机器人追捕仿真实验平台上,构建不同难度等级的稀疏奖励情景,验证文中方法在追捕成功率和收敛速度上的有效性和优越性. 展开更多
关键词 强化学习 稀疏奖励 奖励机制 情感模型
下载PDF
稀疏奖励环境中的分层强化学习 被引量:1
5
作者 欧阳名三 冯舒心 《佳木斯大学学报(自然科学版)》 CAS 2022年第2期54-57,共4页
针对强化学习的稀疏奖励问题,提出一种基于子目标的分层强化学习算法。该算法利用分层学习框架将学习任务分解为两个抽象级别,上层控制器根据策略选择子目标,底层控制器中的批判函数提供适当的内部奖励,使用神经网络训练价值函数,进行... 针对强化学习的稀疏奖励问题,提出一种基于子目标的分层强化学习算法。该算法利用分层学习框架将学习任务分解为两个抽象级别,上层控制器根据策略选择子目标,底层控制器中的批判函数提供适当的内部奖励,使用神经网络训练价值函数,进行动作的选择和策略的更新,直到完成子目标或完成整个学习任务,子目标集合由启发式异常检测结合密度峰值聚类自动创建。与传统强化学习算法以及基于k-means的分层强化学习算法在路径导航仿真问题中进行了对比实验,实验表明,该算法在稀疏延时反馈的环境中具有较高的稳定性和学习效率。 展开更多
关键词 分层强化学习 稀疏奖励 密度峰值聚类 路径导航
下载PDF
稀疏奖励场景下基于个体落差情绪的多智能体协作算法
6
作者 王浩 汪京 方宝富 《模式识别与人工智能》 EI CSCD 北大核心 2022年第5期451-460,共10页
针对在多智能体环境中强化学习面临的稀疏奖励问题,借鉴情绪在人类学习和决策中的作用,文中提出基于个体落差情绪的多智能体协作算法.对近似联合动作值函数进行端到端优化以训练个体策略,将每个智能体的个体动作值函数作为对事件的评估... 针对在多智能体环境中强化学习面临的稀疏奖励问题,借鉴情绪在人类学习和决策中的作用,文中提出基于个体落差情绪的多智能体协作算法.对近似联合动作值函数进行端到端优化以训练个体策略,将每个智能体的个体动作值函数作为对事件的评估.预测评价与实际情况的差距产生落差情绪,以该落差情绪模型作为内在动机机制,为每个智能体产生一个内在情绪奖励,作为外在奖励的有效补充,以此缓解外在奖励稀疏的问题.同时内在情绪奖励与具体任务无关,因此具有一定的通用性.在不同稀疏程度的多智能体追捕场景中验证文中算法的有效性和鲁棒性. 展开更多
关键词 稀疏奖励 多智能体协作 强化学习 个体落差情绪 内在情绪奖励
下载PDF
深度强化学习中稀疏奖励问题研究综述 被引量:40
7
作者 杨惟轶 白辰甲 +2 位作者 蔡超 赵英男 刘鹏 《计算机科学》 CSCD 北大核心 2020年第3期182-191,共10页
强化学习作为机器学习的重要分支,是在与环境交互中寻找最优策略的一类方法。强化学习近年来与深度学习进行了广泛结合,形成了深度强化学习的研究领域。作为一种崭新的机器学习方法,深度强化学习同时具有感知复杂输入和求解最优策略的能... 强化学习作为机器学习的重要分支,是在与环境交互中寻找最优策略的一类方法。强化学习近年来与深度学习进行了广泛结合,形成了深度强化学习的研究领域。作为一种崭新的机器学习方法,深度强化学习同时具有感知复杂输入和求解最优策略的能力,可以应用于机器人控制等复杂决策问题。稀疏奖励问题是深度强化学习在解决任务中面临的核心问题,在实际应用中广泛存在。解决稀疏奖励问题有利于提升样本的利用效率,提高最优策略的水平,推动深度强化学习在实际任务中的广泛应用。文中首先对深度强化学习的核心算法进行阐述;然后介绍稀疏奖励问题的5种解决方案,包括奖励设计与学习、经验回放机制、探索与利用、多目标学习和辅助任务等;最后对相关研究工作进行总结和展望。 展开更多
关键词 深度强化学习 深度学习 强化学习 稀疏奖励 人工智能
下载PDF
强化学习稀疏奖励算法研究——理论与实验 被引量:18
8
作者 杨瑞 严江鹏 李秀 《智能系统学报》 CSCD 北大核心 2020年第5期888-899,共12页
近年来,强化学习在游戏、机器人控制等序列决策领域都获得了巨大的成功,但是大量实际问题中奖励信号十分稀疏,导致智能体难以从与环境的交互中学习到最优的策略,这一问题被称为稀疏奖励问题。稀疏奖励问题的研究能够促进强化学习实际应... 近年来,强化学习在游戏、机器人控制等序列决策领域都获得了巨大的成功,但是大量实际问题中奖励信号十分稀疏,导致智能体难以从与环境的交互中学习到最优的策略,这一问题被称为稀疏奖励问题。稀疏奖励问题的研究能够促进强化学习实际应用与落地,在强化学习理论研究中具有重要意义。本文调研了稀疏奖励问题的研究现状,以外部引导信息为线索,分别介绍了奖励塑造、模仿学习、课程学习、事后经验回放、好奇心驱动、分层强化学习等方法。本文在稀疏奖励环境Fetch Reach上实现了以上6类方法的代表性算法进行实验验证和比较分析。使用外部引导信息的算法平均表现好于无外部引导信息的算法,但是后者对数据的依赖性更低,两类方法均具有重要的研究意义。最后,本文对稀疏奖励算法研究进行了总结与展望。 展开更多
关键词 强化学习 深度强化学习 机器学习 稀疏奖励 神经网络 人工智能 深度学习
下载PDF
稀疏奖励下基于强化学习的无人集群自主决策与智能协同 被引量:7
9
作者 李超 王瑞星 +3 位作者 黄建忠 江飞龙 魏雪梅 孙延鑫 《兵工学报》 EI CAS CSCD 北大核心 2023年第6期1537-1546,共10页
无人集群将深刻地塑造战争样式,为提升无人集群自主决策算法能力,对异构无人集群攻防对抗自主决策方法进行研究。对无人集群对抗模型设计进行总体概述,并对无人集群攻防对抗场景进行模型设计;针对无人集群自主决策采用强化学习技术广泛... 无人集群将深刻地塑造战争样式,为提升无人集群自主决策算法能力,对异构无人集群攻防对抗自主决策方法进行研究。对无人集群对抗模型设计进行总体概述,并对无人集群攻防对抗场景进行模型设计;针对无人集群自主决策采用强化学习技术广泛存在的稀疏奖励问题,提出基于局部回报重塑的奖励机制设定方法;在此基础上叠加优先经验回放,有效地改善稀疏奖励问题;通过程序仿真和演示系统设计,验证该方法的优越性。该方法的研究将加速基于强化学习技术的无人集群自主决策算法网络收敛过程,对无人集群自主决策算法研究具有重要意义。 展开更多
关键词 多智能体 无人智能 博弈对抗 强化学习 稀疏奖励
下载PDF
稀疏奖励下多航天器规避决策自学习仿真 被引量:5
10
作者 赵毓 郭继峰 +1 位作者 颜鹏 白成超 《系统仿真学报》 CAS CSCD 北大核心 2021年第8期1766-1774,共9页
为了提高航天器编队对多拦截器规避能力,针对传统程序式机动规避成功率低的问题,提出一种基于深度强化学习的多智能体协同自主规避决策方法。其中基于Actor-Critic架构设计了一种多智能体强化学习算法,为解决该自学习算法信度分配问题,... 为了提高航天器编队对多拦截器规避能力,针对传统程序式机动规避成功率低的问题,提出一种基于深度强化学习的多智能体协同自主规避决策方法。其中基于Actor-Critic架构设计了一种多智能体强化学习算法,为解决该自学习算法信度分配问题,提出加权线性拟合方法;对于任务场景稀疏奖励问题,提出基于逆值法的稀疏奖励强化学习方法。根据规避任务决策过程建立了空间多智能体对抗仿真系统,利用其验证了所提算法的正确性和有效性。 展开更多
关键词 多智能体 强化学习 稀疏奖励 规避机动 自主决策
下载PDF
稀疏奖励下基于强化学习的异构多智能体对抗 被引量:2
11
作者 王瑞星 董诗音 +1 位作者 江飞龙 黄胜全 《信息技术》 2021年第5期12-20,共9页
文中在多智能体对抗问题研究过程中,采用强化学习为研究方法,以完全中心化训练架构为基础,选用基于策略的强化学习算法,针对领域研究中广泛存在的稀疏奖励问题,采用基于任务局部的奖励工程设定方法,以人为经验知识为导引,加速训练过程,... 文中在多智能体对抗问题研究过程中,采用强化学习为研究方法,以完全中心化训练架构为基础,选用基于策略的强化学习算法,针对领域研究中广泛存在的稀疏奖励问题,采用基于任务局部的奖励工程设定方法,以人为经验知识为导引,加速训练过程,提升训练结果。最后以对抗问题中典型的攻防对抗为场景进行了仿真实验,验证了方法的有效性。 展开更多
关键词 多智能体博弈 强化学习 稀疏奖励 基于任务局部的奖励工程设定
下载PDF
稀疏奖励下基于MADDPG算法的多智能体协同 被引量:1
12
作者 许诺 杨振伟 《现代计算机》 2020年第15期47-51,共5页
深度强化学习中最大的问题是对定制化的奖赏工程(Manual Reward Engineering)的依赖,扩展至多智能体协同场景时,这一问题更加显著。提出一种带神经网络参数共享机制的MADDPG算法。在此基础上,重点针对连续奖励函数设计困难的场景,提出... 深度强化学习中最大的问题是对定制化的奖赏工程(Manual Reward Engineering)的依赖,扩展至多智能体协同场景时,这一问题更加显著。提出一种带神经网络参数共享机制的MADDPG算法。在此基础上,重点针对连续奖励函数设计困难的场景,提出一种基于群体目标状态的奖励函数。针对这种奖励函数下,奖励值稀疏,影响学习速率,将基于优先级的经验重放方法扩展至多智能体领域,提高样本利用率,挖掘训练潜能。最后在合作导航场景中进行仿真实验,验证方法的有效性。 展开更多
关键词 深度强化学习 多智能体 稀疏奖励 经验重放
下载PDF
融合好奇心和策略蒸馏的稀疏奖励探索机制
13
作者 王子腾 于亚新 +1 位作者 夏子芳 乔佳琪 《计算机应用》 CSCD 北大核心 2023年第7期2082-2090,共9页
深度强化学习算法在奖励稀疏的环境下,难以通过与环境的交互学习到最优策略,因此需要构建内在奖励指导策略进行探索更新。然而,这样仍存在一些问题:1)状态分类存在的统计失准问题会造成奖励值大小被误判,使智能体(agent)学习到错误行为... 深度强化学习算法在奖励稀疏的环境下,难以通过与环境的交互学习到最优策略,因此需要构建内在奖励指导策略进行探索更新。然而,这样仍存在一些问题:1)状态分类存在的统计失准问题会造成奖励值大小被误判,使智能体(agent)学习到错误行为;2)由于预测网络识别状态信息的能力较强,内在奖励产生状态的新鲜感下降,影响了最优策略的学习效果;3)由于随机状态转移,教师策略的信息未被有效利用,降低了智能体的环境探索能力。为了解决以上问题,提出一种融合随机生成网络预测误差与哈希离散化统计的奖励构建机制RGNP-HCE(Randomly Generated Network Prediction and Hash Count Exploration),并通过蒸馏(distillation)将多教师策略的知识迁移到学生策略中。RGNP-HCE机制采用好奇心分类思想构建融合奖励:一方面在多回合间以随机生成网络预测差构建全局好奇心奖励;另一方面在单回合内以哈希离散化统计构建局部好奇心奖励,从而保证内在奖励的合理性以及策略梯度更新的正确性。此外,将多个教师策略学习到的知识通过蒸馏迁移到学生策略中,有效提升学生策略的环境探索能力。最后,在Montezuma’s Revenge与Breakout测试环境中,把所提机制与当前主流的4个深度强化学习算法进行了对比实验,并执行了策略蒸馏。结果表明,相较于当前高性能的强化学习算法,RGNP-HCE机制在两个测试环境中的平均性能均有提升,且蒸馏后学生策略的平均性能又有进一步的提升,验证了RGNP-HCE机制与策略蒸馏方法对提升智能体的环境探索能力是有效的。 展开更多
关键词 奖励稀疏 内在奖励 探索能力 策略蒸馏 深度强化学习
下载PDF
稀疏奖励场景下基于适应性状态近似的多智能体强化学习
14
作者 方宝富 余婷婷 +1 位作者 王浩 王在俊 《机器人》 EI CSCD 北大核心 2024年第6期663-671,682,共10页
稀疏奖励是多智能体强化学习的主要挑战之一,现有算法难以在稀疏奖励场景下有效训练智能体团队,并且容易导致其探索效率低下。为解决此类问题,本文提出基于适应性状态近似的多智能体强化学习算法。受人类在奖励稀缺情况下学习的启发,通... 稀疏奖励是多智能体强化学习的主要挑战之一,现有算法难以在稀疏奖励场景下有效训练智能体团队,并且容易导致其探索效率低下。为解决此类问题,本文提出基于适应性状态近似的多智能体强化学习算法。受人类在奖励稀缺情况下学习的启发,通过考虑智能体状态之间的相似性,自适应地从经验池中获取近似状态,并将其添加到候选状态集,利用候选状态集中的探索信息促进策略训练。此外,算法还将该近似状态与当前局部状态之间的距离作为智能体的内在奖励,引导智能体在最大化联合状态动作值的同时更有效地探索未知环境,快速找到最优策略。实验结果表明,本文算法在不同稀疏奖励程度的多智能体追捕场景中表现优于现有强化学习方法,具备鲁棒性和有效性,能够加快智能体的学习速度。 展开更多
关键词 强化学习 稀疏奖励 状态相似 内在奖励
原文传递
利用团队间的影响解决多智能体强化学习中的奖励冲突
15
作者 赵花蕊 《智能计算机与应用》 2024年第10期56-62,共7页
本文提出了一种基于智能体间相互作用的MARL学习框架,称为IC,以解决MARL中稀疏奖励环境导致智能体产生冲突的问题。IC的主要功能是根据智能体间的高斯核函数大小赋予不同的值,计算出智能体的影响矩阵,并将影响矩阵的核范数作为额外奖励... 本文提出了一种基于智能体间相互作用的MARL学习框架,称为IC,以解决MARL中稀疏奖励环境导致智能体产生冲突的问题。IC的主要功能是根据智能体间的高斯核函数大小赋予不同的值,计算出智能体的影响矩阵,并将影响矩阵的核范数作为额外奖励引入到目标函数中,以提高智能体探索性能以及团队之间的协作能力。实验结果表明,IC可以显著提高智能体间的协作能力,并在稀疏奖励环境中加速智能体对最优策略的学习。这是首次在MARL中尝试利用智能体之间的相互影响来促进智能体的探索能力。 展开更多
关键词 多智能体强化学习 稀疏奖励 奖励冲突 高斯核函数 核范数
下载PDF
基于元生成内在奖励的机器人操作技能学习方法 被引量:1
16
作者 吴培良 渠有源 +2 位作者 李瑶 陈雯柏 高国伟 《计量学报》 CSCD 北大核心 2023年第6期923-930,共8页
针对稀疏奖励下,复杂任务学习效率低的问题,在离线策略(off-policy)强化学习思想基础上,提出了元生成内在奖励算法(meta generative intrinsic reward, MGIR),并将其应用在机器人操作技能学习问题求解方面。具体步骤为先使用一个可将复... 针对稀疏奖励下,复杂任务学习效率低的问题,在离线策略(off-policy)强化学习思想基础上,提出了元生成内在奖励算法(meta generative intrinsic reward, MGIR),并将其应用在机器人操作技能学习问题求解方面。具体步骤为先使用一个可将复杂任务分解为多个子任务的元生成内在奖励框架,对子任务进行能力评价;再引入生成内在奖励模块,将智能体探索得到状态的新颖性作为内在奖励,并联合环境奖励共同指导智能体完成对环境的探索和特定任务的学习;最后,在MuJoCo仿真环境Fetch中对离线策略强化学习进行对比实验。实验结果表明,无论是在训练效率还是在成功率方面,提出的元生成内在奖励算法均表现较好。 展开更多
关键词 计量学 机器人操作技能学习 稀疏奖励 强化学习 元学习 生成内在奖励
下载PDF
稀疏场景下基于理性好奇心的多智能体强化学习 被引量:1
17
作者 金志军 王浩 方宝富 《计算机工程》 CAS CSCD 北大核心 2023年第5期302-309,共8页
强化学习当前越来越多地应用于多智能体系统。在强化学习中,奖励信号起引导智能体学习的作用,然而多智能体系统任务复杂,可能只在任务结束时才能获得环境的反馈,导致奖励稀疏,大幅降底算法的收敛速度和效率。为解决稀疏奖励问题,提出一... 强化学习当前越来越多地应用于多智能体系统。在强化学习中,奖励信号起引导智能体学习的作用,然而多智能体系统任务复杂,可能只在任务结束时才能获得环境的反馈,导致奖励稀疏,大幅降底算法的收敛速度和效率。为解决稀疏奖励问题,提出一种基于理性好奇心的多智能体强化学习方法。受内在动机理论的启发,将好奇心思想扩展到多智能体中,并给出理性好奇心奖励机制,利用分解求和的网络结构将不同排列的联合状态编码到同一特征表示,减少联合状态的探索空间,将网络的预测误差作为内在奖励,引导智能体去研究新颖且有用的效用状态。在此基础上,引入双值函数网络对Q值进行评估,采用最小化算子计算目标值,缓解Q值的过估计偏差和方差,并采用均值优化策略提高样本利用。在追捕任务和合作导航任务的环境中进行实验评估,结果表明,在最困难的追捕任务中,该方法相较于基线算法,胜率提高15%左右,所需时间步降低20%左右,在合作导航任务中也具有较快的收敛速度。 展开更多
关键词 稀疏奖励 多智能体系统 强化学习 内在动机 好奇心
下载PDF
基于相似性的CITCP强化学习奖励策略
18
作者 杨羊 潘超月 +1 位作者 曹天歌 李征 《计算机系统应用》 2022年第2期325-334,共10页
在面向持续集成测试用例优先排序(continuous integration test case prioritization,CITCP)的强化学习方法中,智能体通过对测试用例实施奖励从而调整测试用例优先排序策略以适应后续集成测试,可以满足持续集成测试频繁迭代和快速反馈... 在面向持续集成测试用例优先排序(continuous integration test case prioritization,CITCP)的强化学习方法中,智能体通过对测试用例实施奖励从而调整测试用例优先排序策略以适应后续集成测试,可以满足持续集成测试频繁迭代和快速反馈的需求.智能体通常只奖励执行失效测试用例,但实际工业程序持续集成测试具有集成高频繁但测试低失效的特点,对CITCP的实际应用提出新的挑战.测试低失效,即稀少的执行失效测试用例数量,会导致强化学习中奖励对象稀少,引发强化学习的稀疏奖励问题.本文研究一种强化学习奖励对象选择策略,在奖励执行失效测试用例的基础上,通过选择与执行失效测试用例相似的执行通过测试用例实施奖励,从而增加奖励对象,以解决奖励稀疏问题.研究具体包括,设计了一种测试用例历史执行信息序列和执行时间特征向量表示的相似性度量方法,并基于相似性度量选择与执行失效测试用例集相似的执行通过测试用例集实施奖励.在6个工业数据集上开展了实验研究,结果表明基于相似性的奖励对象选择策略通过增加有效奖励对象解决了稀疏奖励问题,并进一步提高了基于强化学习的持续集成测试用例优先排序质量. 展开更多
关键词 持续集成测试 强化学习 测试用例优先排序 相似性 奖励对象选择策略 稀疏奖励
下载PDF
基于改进好奇心的深度强化学习方法
19
作者 乔和 李增辉 +1 位作者 刘春 胡嗣栋 《计算机应用研究》 CSCD 北大核心 2024年第9期2635-2640,共6页
在深度强化学习方法中,针对内在好奇心模块(intrinsic curiosity model,ICM)指导智能体在稀疏奖励环境中获得未知策略学习的机会,但好奇心奖励是一个状态差异值,会使智能体过度关注于对新状态的探索,进而出现盲目探索的问题,提出了一种... 在深度强化学习方法中,针对内在好奇心模块(intrinsic curiosity model,ICM)指导智能体在稀疏奖励环境中获得未知策略学习的机会,但好奇心奖励是一个状态差异值,会使智能体过度关注于对新状态的探索,进而出现盲目探索的问题,提出了一种基于知识蒸馏的内在好奇心改进算法(intrinsic curiosity model algorithm based on knowledge distillation,KD-ICM)。首先,该算法引入知识蒸馏的方法,使智能体在较短的时间内获得更丰富的环境信息和策略知识,加速学习过程;其次,通过预训练教师神经网络模型去引导前向网络,得到更高精度和性能的前向网络模型,减少智能体的盲目探索。在Unity仿真平台上设计了两个不同的仿真实验进行对比,实验表明,在复杂仿真任务环境中,KD-ICM算法的平均奖励比ICM提升了136%,最优动作概率比ICM提升了13.47%,提升智能体探索性能的同时能提高探索的质量,验证了算法的可行性。 展开更多
关键词 深度强化学习 知识蒸馏 近端策略优化 稀疏奖励 内在好奇心
下载PDF
结合先验知识的SAC神经纤维追踪算法及应用
20
作者 林佳俐 李永强 +1 位作者 赵硕 冯远静 《小型微型计算机系统》 CSCD 北大核心 2024年第7期1719-1727,共9页
扩散磁共振成像是目前唯一的非侵入式神经纤维成像方法.针对现有的纤维追踪算法在交叉、分叉等复杂纤维结构上存在无效连接率高或者无连接率高的问题,本文提出了基于先验知识的Soft-Actor-Critic纤维追踪算法;设计了基于球谐函数模型的... 扩散磁共振成像是目前唯一的非侵入式神经纤维成像方法.针对现有的纤维追踪算法在交叉、分叉等复杂纤维结构上存在无效连接率高或者无连接率高的问题,本文提出了基于先验知识的Soft-Actor-Critic纤维追踪算法;设计了基于球谐函数模型的单步奖励和基于解剖学结构的稀疏奖励;结合六邻域体素的球谐函数信息,保证空间一致性;将先前时刻的动作作为决策网络的输入,增强智能体对时序动作的利用.在Fibercup数据集上,有效连接率达到78.1%,并且显著降低了无效链接率和无连接率.此外,还将该方法成功应用到视神经这类长距离、带噪声并且包含交叉区域的复杂结构的重建上.实验结果表明本文方法可以完成复杂结构的重建,并且有效降低错误连接率. 展开更多
关键词 深度强化学习 稀疏奖励 神经纤维追踪 视神经
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部