期刊文献+
共找到200篇文章
< 1 2 10 >
每页显示 20 50 100
Reward Function Design Method for Long Episode Pursuit Tasks Under Polar Coordinate in Multi-Agent Reinforcement Learning
1
作者 DONG Yubo CUI Tao +3 位作者 ZHOU Yufan SONG Xun ZHU Yue DONG Peng 《Journal of Shanghai Jiaotong university(Science)》 EI 2024年第4期646-655,共10页
Multi-agent reinforcement learning has recently been applied to solve pursuit problems.However,it suffers from a large number of time steps per training episode,thus always struggling to converge effectively,resulting... Multi-agent reinforcement learning has recently been applied to solve pursuit problems.However,it suffers from a large number of time steps per training episode,thus always struggling to converge effectively,resulting in low rewards and an inability for agents to learn strategies.This paper proposes a deep reinforcement learning(DRL)training method that employs an ensemble segmented multi-reward function design approach to address the convergence problem mentioned before.The ensemble reward function combines the advantages of two reward functions,which enhances the training effect of agents in long episode.Then,we eliminate the non-monotonic behavior in reward function introduced by the trigonometric functions in the traditional 2D polar coordinates observation representation.Experimental results demonstrate that this method outperforms the traditional single reward function mechanism in the pursuit scenario by enhancing agents’policy scores of the task.These ideas offer a solution to the convergence challenges faced by DRL models in long episode pursuit problems,leading to an improved model training performance. 展开更多
关键词 multi-agent reinforcement learning deep reinforcement learning(DRL) long episode reward function
原文传递
基于深度强化学习的SCR脱硝系统协同控制策略研究 被引量:2
2
作者 赵征 刘子涵 《动力工程学报》 CAS CSCD 北大核心 2024年第5期802-809,共8页
针对选择性催化还原(SCR)脱硝系统大惯性、多扰动等特点,提出了一种基于多维状态信息和分段奖励函数优化的深度确定性策略梯度(DDPG)协同比例积分微分(PID)控制器的控制策略。针对SCR脱硝系统中存在部分可观测马尔可夫决策过程(POMDP),... 针对选择性催化还原(SCR)脱硝系统大惯性、多扰动等特点,提出了一种基于多维状态信息和分段奖励函数优化的深度确定性策略梯度(DDPG)协同比例积分微分(PID)控制器的控制策略。针对SCR脱硝系统中存在部分可观测马尔可夫决策过程(POMDP),导致DDPG算法策略学习效率较低的问题,首先设计SCR脱硝系统的多维状态信息;其次,设计SCR脱硝系统的分段奖励函数;最后,设计DDPG-PID协同控制策略,以实现SCR脱硝系统的控制。结果表明:所设计的DDPG-PID协同控制策略提高了DDPG算法的策略学习效率,改善了PID的控制效果,同时具有较强的设定值跟踪能力、抗干扰能力和鲁棒性。 展开更多
关键词 DDPG 强化学习 SCR脱硝系统 协同控制 多维状态 分段奖励函数
下载PDF
一种改进蚁群算法的路径规划研究 被引量:2
3
作者 刘海鹏 念紫帅 《小型微型计算机系统》 CSCD 北大核心 2024年第4期853-858,共6页
针对机器人在复杂环境中的路径规划问题,本文提出了一种改进蚁群算法的路径规划研究方法.首先,在启发函数中引入一种自适应调整的放大因子,以提高相邻节点的启发信息差异,使蚂蚁朝着最优路径的方向搜索;其次,采用一种奖惩机制对路径上... 针对机器人在复杂环境中的路径规划问题,本文提出了一种改进蚁群算法的路径规划研究方法.首先,在启发函数中引入一种自适应调整的放大因子,以提高相邻节点的启发信息差异,使蚂蚁朝着最优路径的方向搜索;其次,采用一种奖惩机制对路径上的信息素进行更新,使算法的收敛速度得到有效的提高;然后,通过对信息素挥发因子进行动态调整,提高蚁群的搜索速度,使算法快速收敛.最后,在最优路径的基础上,采用拐点优化算法与分段B样条曲线相结合的方法来进行路径优化,有效的改善了路径的平滑性.仿真结果表明,所提的研究方法具有更好的收敛性和搜索能力,更符合机器人运动的实际要求. 展开更多
关键词 启发函数 奖惩机制 信息素挥发因子 路径优化
下载PDF
改进MADDPG算法的非凸环境下多智能体自组织协同围捕
4
作者 张红强 石佳航 +5 位作者 吴亮红 王汐 左词立 陈祖国 刘朝华 陈磊 《计算机科学与探索》 CSCD 北大核心 2024年第8期2080-2090,共11页
针对多智能体在非凸环境下的围捕效率问题,提出基于改进经验回放的多智能体强化学习算法。利用残差网络(ResNet)来改善网络退化问题,并与多智能体深度确定性策略梯度算法(MADDPG)相结合,提出了RW-MADDPG算法。为解决多智能体在训练过程... 针对多智能体在非凸环境下的围捕效率问题,提出基于改进经验回放的多智能体强化学习算法。利用残差网络(ResNet)来改善网络退化问题,并与多智能体深度确定性策略梯度算法(MADDPG)相结合,提出了RW-MADDPG算法。为解决多智能体在训练过程中,经验池数据利用率低的问题,提出两种改善经验池数据利用率的方法;为解决多智能体在非凸障碍环境下陷入障碍物内部的情况(如陷入目标不可达等),通过设计合理的围捕奖励函数使得智能体在非凸障碍物环境下完成围捕任务。基于此算法设计仿真实验,实验结果表明,该算法在训练阶段奖励增加得更快,能更快地完成围捕任务,相比MADDPG算法静态围捕环境下训练时间缩短18.5%,动态环境下训练时间缩短49.5%,而且在非凸障碍环境下该算法训练的围捕智能体的全局平均奖励更高。 展开更多
关键词 深度强化学习 RW-MADDPG 残差网络 经验池 围捕奖励函数
下载PDF
实时功能磁共振成像神经反馈在肥胖症中的应用进展
5
作者 李鑫 孙永兵 +12 位作者 周菁 和俊雅 乔琦 林新贝 邹智 李中林 武肖玲 张弓 吕雪 李昊 胡扬喜 李凤丽 李永丽 《磁共振成像》 CAS CSCD 北大核心 2024年第5期175-180,共6页
肥胖症及减重后不能维持健康体质量的核心因素多为食物成瘾,食物成瘾在神经影像学中表现为奖赏网络与认知控制网络间神经环路的失衡。实时功能磁共振成像神经反馈(real time functional magnetic resonance imaging neurofeedback,rtfMR... 肥胖症及减重后不能维持健康体质量的核心因素多为食物成瘾,食物成瘾在神经影像学中表现为奖赏网络与认知控制网络间神经环路的失衡。实时功能磁共振成像神经反馈(real time functional magnetic resonance imaging neurofeedback,rtfMRI-NF)作为一种新型生物反馈技术,已被应用于其他物质成瘾领域的临床研究和治疗中。在食物成瘾肥胖症中,rtfMRI-NF同样具有重塑异常脑功能、改善摄食行为并达到减重效果的潜力。本综述总结了肥胖患者食物成瘾的功能磁共振脑成像模型,探讨应用rtfMRI-NF作为其潜在治疗工具的可行神经靶点,并回顾了rtfMRI-NF在肥胖应用中的最新研究进展,为未来rtfMRI-NF在肥胖中的治疗策略和临床指导提供参考。 展开更多
关键词 肥胖 食物成瘾 实时功能磁共振成像神经反馈 磁共振成像 奖赏功能
下载PDF
用于移动机器人路径规划的改进强化学习算法
6
作者 张威 初泽源 +1 位作者 杨玉涛 王伟 《中国民航大学学报》 CAS 2024年第5期59-65,共7页
针对传统Q-learning算法规划出的路径存在平滑度差、收敛速度慢以及学习效率低的问题,本文提出一种用于移动机器人路径规划的改进Q-learning算法。首先,考虑障碍物密度及起始点相对位置来选择动作集,以加快Q-learning算法的收敛速度;其... 针对传统Q-learning算法规划出的路径存在平滑度差、收敛速度慢以及学习效率低的问题,本文提出一种用于移动机器人路径规划的改进Q-learning算法。首先,考虑障碍物密度及起始点相对位置来选择动作集,以加快Q-learning算法的收敛速度;其次,为奖励函数加入一个连续的启发因子,启发因子由当前点与终点的距离和当前点距地图中所有障碍物以及地图边界的距离组成;最后,在Q值表的初始化进程中引入尺度因子,给移动机器人提供先验环境信息,并在栅格地图中对所提出的改进Q-learning算法进行仿真验证。仿真结果表明,改进Q-learning算法相比传统Q-learning算法收敛速度有明显提高,在复杂环境中的适应性更好,验证了改进算法的优越性。 展开更多
关键词 强化学习 路径规划 启发式奖励函数 Q值初始化
下载PDF
基于蒙特卡罗策略梯度的雷达观测器轨迹规划
7
作者 陈辉 王荆宇 +2 位作者 张文旭 赵永红 席磊 《兰州理工大学学报》 CAS 北大核心 2024年第5期77-85,共9页
在目标跟踪过程的雷达观测器轨迹规划(OTP)中,针对马尔可夫步进规划智能决策问题,在离散动作空间上,提出了一种基于蒙特卡罗策略梯度(MCPG)算法的雷达轨迹规划方法.首先,联合目标跟踪状态、奖励机制、动作方案和雷达观测器位置,将OTP过... 在目标跟踪过程的雷达观测器轨迹规划(OTP)中,针对马尔可夫步进规划智能决策问题,在离散动作空间上,提出了一种基于蒙特卡罗策略梯度(MCPG)算法的雷达轨迹规划方法.首先,联合目标跟踪状态、奖励机制、动作方案和雷达观测器位置,将OTP过程建模为一个连续的马尔可夫决策过程(MDP),提出基于MCPG的全局智能规划方法.其次,将跟踪幕长内的每个时间步作为单独一幕来进行策略更新,提出基于MCPG目标跟踪中观测器轨迹的步进智能规划方法,并深入研究目标的跟踪估计特性,构造以跟踪性能优化为目的的奖励函数.最后,对最优非线性目标跟踪过程中基于强化学习的智能OTP决策仿真实验,表明了所提方法的有效性. 展开更多
关键词 目标跟踪 雷达观测器轨迹规划 策略梯度 奖励函数
下载PDF
基于路径模仿和SAC强化学习的机械臂路径规划算法 被引量:1
8
作者 宋紫阳 李军怀 +2 位作者 王怀军 苏鑫 于蕾 《计算机应用》 CSCD 北大核心 2024年第2期439-444,共6页
在机械臂路径规划算法的训练过程中,由于动作空间和状态空间巨大导致奖励稀疏,机械臂路径规划训练效率低,面对海量的状态数和动作数较难评估状态价值和动作价值。针对上述问题,提出一种基于SAC(Soft Actor-Critic)强化学习的机械臂路径... 在机械臂路径规划算法的训练过程中,由于动作空间和状态空间巨大导致奖励稀疏,机械臂路径规划训练效率低,面对海量的状态数和动作数较难评估状态价值和动作价值。针对上述问题,提出一种基于SAC(Soft Actor-Critic)强化学习的机械臂路径规划算法。通过将示教路径融入奖励函数使机械臂在强化学习过程中对示教路径进行模仿以提高学习效率,并采用SAC算法使机械臂路径规划算法的训练更快、稳定性更好。基于所提算法和深度确定性策略梯度(DDPG)算法分别规划10条路径,所提算法和DDPG算法规划的路径与参考路径的平均距离分别是0.8 cm和1.9 cm。实验结果表明,路径模仿机制能提高训练效率,所提算法比DDPG算法能更好地探索环境,使得规划路径更加合理。 展开更多
关键词 模仿学习 强化学习 SAC算法 路径规划 奖励函数
下载PDF
面向类集成测试序列确定的强化学习方法
9
作者 张晓天 王雅文 +2 位作者 谢志庆 金大海 宫云战 《计算机工程》 CSCD 北大核心 2024年第1期68-78,共11页
面向类集成测试序列的强化学习方法能够自适应地根据系统集成状态调整集成测试策略,是测试优化的关键技术之一,但现有方法普遍存在计算成本高且不适用于大规模软件系统、忽略测试风险的滞后性问题,大幅降低了适用性和可靠性。针对上述问... 面向类集成测试序列的强化学习方法能够自适应地根据系统集成状态调整集成测试策略,是测试优化的关键技术之一,但现有方法普遍存在计算成本高且不适用于大规模软件系统、忽略测试风险的滞后性问题,大幅降低了适用性和可靠性。针对上述问题,提出一种具有重要值加权奖励的基于测试顺序的强化学习方法。优化强化学习建模,忽略节点在测试序列上的具体位置,减弱状态之间的相关性,提升模型可用性。结合深度强化学习模型,端到端地更新集成测试策略,减少值函数的误差。在奖励函数的设计上,引入修正的节点重要值,实现降低整体测试桩复杂度且提升关键类优先级的多目标优化求解。在SIR开源系统上的实验结果表明:优化的强化学习建模方式能够有效降低整体测试桩复杂度,并适用于大规模软件系统;融入修正节点重要值的奖励函数能够有效提升软件系统中关键类的优先级,平均提升幅度为55.38%。 展开更多
关键词 测试序列 强化学习 节点重要值 奖励函数 集成测试
下载PDF
奖励机制与用户意愿结合的高峰期负荷博弈调度策略
10
作者 杨雪莹 祁琪 +2 位作者 李启明 杨春萍 祁兵 《电工技术学报》 EI CSCD 北大核心 2024年第16期5060-5074,共15页
在高峰时段,居民冷/热设备占尖峰负荷的比重不断攀升,影响了低压配电网的安全稳定优化运行。为补充供给侧调节能力,提升调控灵活性,亟须引导用户侧可调资源参与电网供需互动。该文提出一种奖励机制与用户意愿相结合的高峰期负荷博弈调... 在高峰时段,居民冷/热设备占尖峰负荷的比重不断攀升,影响了低压配电网的安全稳定优化运行。为补充供给侧调节能力,提升调控灵活性,亟须引导用户侧可调资源参与电网供需互动。该文提出一种奖励机制与用户意愿相结合的高峰期负荷博弈调度策略。依据用户用能意愿对高峰时段用电负荷进行动态划分,制定基于负载率-奖励函数的差异化补贴机制。将高峰时段需要提升功率的负荷群视为领导者,将具有灵活削减能力的负荷群视为追随者,建立Stackelberg博弈模型,证明博弈均衡的唯一性。进而该文提出了Stackelberg博弈下的用电高峰期负荷日内优化调度方法,优化博弈双方在追求效益最大时的策略。该文构建多通路混合专家网络求解设备动作意愿,提出基于用户意愿的单功率-多功率级负荷联合控制策略,实现负荷的实时精细化调控。最后,算例表明所提策略能够在实现聚合商与用户侧双赢、遵从用户调控意愿的同时,有效地平抑用电高峰期的负荷波动,减小峰谷差。 展开更多
关键词 主从博弈 高峰期负荷 用户意愿 负载率-奖励函数 混合专家网络
下载PDF
基于改进梯度策略的多虚拟结构算法的无人机协同控制
11
作者 陈子强 杨艺 姚雪莲 《应用科技》 CAS 2024年第2期120-126,共7页
针对多无人机(unmanned aerial vehicles,UAVs)协同控制问题,提出一种用于无人机协同编队控制方法。以虚拟结构控制为框架,结合梯度策略方法设计奖励函数和惩罚函数,将其看成一种引力和斥力运用到无人机协同编队控制系统,解决在多虚拟... 针对多无人机(unmanned aerial vehicles,UAVs)协同控制问题,提出一种用于无人机协同编队控制方法。以虚拟结构控制为框架,结合梯度策略方法设计奖励函数和惩罚函数,将其看成一种引力和斥力运用到无人机协同编队控制系统,解决在多虚拟结构控制点下因编队数量增加导致机群的稳定性和协调性下降的问题。本文算法使得无人机编队既能协同运动,又能在运动中维持稳定的队形变换,还能防止机群之间的两机碰撞。对有控制输入的无人机编队系统进行仿真,验证了该方法的有效性。 展开更多
关键词 多无人机 协同控制 编队 虚拟结构算法 奖励函数 惩罚函数 碰撞 队形变换
下载PDF
独立直流微网电压动态轨迹神经网络优化控制策略
12
作者 郭睿恒 黄文焘 +3 位作者 余墨多 邰能灵 王良秀 李江 《中国电机工程学报》 EI CSCD 北大核心 2024年第16期6404-6415,I0010,共13页
为解决独立直流微网功率扰动下电压过渡过程动态偏差大的问题,该文提出一种优化电压动态轨迹的神经网络控制策略。分析下垂控制及其改进方法的控制特性,提出独立直流微网最优电压动态轨迹,并以此为基础,采用神经网络生成参考电压,通过... 为解决独立直流微网功率扰动下电压过渡过程动态偏差大的问题,该文提出一种优化电压动态轨迹的神经网络控制策略。分析下垂控制及其改进方法的控制特性,提出独立直流微网最优电压动态轨迹,并以此为基础,采用神经网络生成参考电压,通过非线性控制实现公共直流母线动态电压偏差最小化。基于向量空间同构原理,提出神经网络降维状态反馈构建方法,并根据系统源荷不平衡功率变化范围提出神经网络控制边界。考虑动态电压偏差及其运动趋势,构建电压扰动分层奖励函数,静态层奖励引导神经网络减小电压偏差,动态层奖励加强神经网络对电压运动趋势的修正,实现电压动态轨迹全过程优化控制。最后,利用MATLAB/Simulink进行算例验证,结果表明所提策略可有效抑制由功率不平衡导致的动态电压偏差,保证公共直流母线电压的快速稳定。 展开更多
关键词 电压动态轨迹 神经网络控制 独立直流微网 功率扰动 奖励函数
下载PDF
基于强化学习的多无人车协同围捕方法
13
作者 苏牧青 王寅 +1 位作者 濮锐敏 余萌 《工程科学学报》 EI CSCD 北大核心 2024年第7期1237-1250,共14页
本文面向无人车协同围捕问题开展研究,提出了一种基于柔性执行者-评论家(SAC)算法框架的协同围捕算法.针对多无人车之间的协同性差的问题,在网络结构中加入长短期记忆(LSTM)构建记忆功能,帮助无人车利用历史观测序列进行更稳健的决策;... 本文面向无人车协同围捕问题开展研究,提出了一种基于柔性执行者-评论家(SAC)算法框架的协同围捕算法.针对多无人车之间的协同性差的问题,在网络结构中加入长短期记忆(LSTM)构建记忆功能,帮助无人车利用历史观测序列进行更稳健的决策;针对网络结构中引入LSTM所导致的状态空间维度增大、效率低的问题,提出引入注意力机制,通过对状态空间进行注意力权重的计算和选择,将注意力集中在与任务相关的关键状态上,从而约束状态空间维度并保证网络的稳定性,实现多无人车之间稳定高效的合作并提高算法的训练效率.为解决协同围捕任务中奖励稀疏的问题,提出通过混合奖励函数将奖励函数分为个体奖励和协同奖励,通过引入个体奖励和协同奖励,无人车在围捕过程中可以获得更频繁的奖励信号.个体奖励通过引导无人车向目标靠近来激励其运动行为,而协同奖励则激励群体无人车共同完成围捕任务,从而进一步提高算法的收敛速度.最后,通过仿真和实验表明,该方法具有更快的收敛速度,相较于SAC算法,围捕时间缩短15.1%,成功率提升7.6%. 展开更多
关键词 无人车 协同围捕 柔性执行者-评论家算法 注意力机制 奖励函数设计
下载PDF
基于逆强化学习与行为树的机械臂复杂操作技能学习方法 被引量:1
14
作者 宋越杰 马陈昊 +1 位作者 孟子晗 刘元归 《现代电子技术》 北大核心 2024年第7期133-139,共7页
现有分层强化学习方法不仅在学习过程中存在样本效率低、奖励稀疏以及学习时间过长等问题,而且大多基于仿真环境,导致学习策略在机器人真实操作环境中部署困难。针对上述问题,提出一种基于逆强化学习与行为树的机械臂复杂操作技能学习... 现有分层强化学习方法不仅在学习过程中存在样本效率低、奖励稀疏以及学习时间过长等问题,而且大多基于仿真环境,导致学习策略在机器人真实操作环境中部署困难。针对上述问题,提出一种基于逆强化学习与行为树的机械臂复杂操作技能学习方法。在对复杂操作任务进行分割的基础上,首先,根据专家演示轨迹确定分割后每个子任务的强化学习参数及其对应的专家策略;其次,根据子任务专家策略并使用生成对抗模仿学习算法进行预训练,得到每个子任务的奖励函数;再次,运用每个子任务的奖励函数并基于SAC算法做进一步训练,获取到每个子任务的最优策略;最后,将子任务最优策略从仿真环境部署到真实环境,并将部署后的每个子任务作为叶节点构建行为树,实现机械臂复杂任务规划。实验结果表明,所提方法能较好地学习机械臂复杂操作技能,并在性能上优于其他传统强化学习算法。 展开更多
关键词 机械臂 逆强化学习 行为树 复杂操作任务 专家策略 奖励函数
下载PDF
基于深度强化学习的异构智能体编队避障控制方法
15
作者 虞逸凡 岳圣智 +2 位作者 徐俊 宋婧菡 林远山 《现代电子技术》 北大核心 2024年第15期102-108,共7页
针对在编队避障控制中智能体个体的异构性和多任务的复杂性问题,提出一种基于深度强化学习的异构智能体编队避障控制方法。首先,为了克服智能体个体的异构性,详细描述了领航者和跟随者智能体各自采用的局部观测表示;其次,根据智能体的... 针对在编队避障控制中智能体个体的异构性和多任务的复杂性问题,提出一种基于深度强化学习的异构智能体编队避障控制方法。首先,为了克服智能体个体的异构性,详细描述了领航者和跟随者智能体各自采用的局部观测表示;其次,根据智能体的相应任务,设计了编队、避障和导航三种复合的综合奖励函数,以实现更加灵活和高效的编队避障控制;最后,设计了融合注意力机制的行动者-评论家网络,用于联合训练领航者和跟随者的运动策略,从而使智能体能够逐步优化综合策略,以应对复杂的交互信息。数值仿真实验结果显示,文中提出的方法使得智能体能有效完成各自的任务,与其他强化学习算法相比,能够更迅速、更精确地使智能体学习到最优的运动策略,并在未来应用于复杂环境中,具有潜在的前景和价值。 展开更多
关键词 编队避障控制 异构性 多任务 领航者-跟随者 深度强化学习 综合奖励函数 注意力机制 运动策略
下载PDF
基于分层强化学习的机器人自主避障算法仿真
16
作者 安燕霞 郑晓霞 《计算机仿真》 2024年第4期397-401,共5页
智能机器人可以实时感知周围环境信息,通过绘制环境地图控制行动轨迹,但是如何自主导航起点到终点的同时避开障碍物,获取最优路径的问题仍然需要进一步解决。为提高机器人路径规划能力,减少机器人与障碍物的碰撞概率,提出基于分层强化... 智能机器人可以实时感知周围环境信息,通过绘制环境地图控制行动轨迹,但是如何自主导航起点到终点的同时避开障碍物,获取最优路径的问题仍然需要进一步解决。为提高机器人路径规划能力,减少机器人与障碍物的碰撞概率,提出基于分层强化学习算法的机器人自主避障方法。结合机器人的移动速度、角速度等相关信息,建立运动学模型,分别确立局部和全局坐标系。通过坐标转换,采集机器人和障碍物信息,构建分层强化学习整体架构,分为环境信息交互、子任务选择和根任务协作三个层次。将Q学习方法作为强化学习策略,设定Q函数值更新规则。通过笛卡尔乘积形式表示环境状态信息,选取合理的奖赏函数,提高学习效率,通过赋予Q值最大化的方式控制机器人最佳动作,实现自主避障。实验测试结果验证了上述方法能够精准躲避静态和动态障碍物,计算复杂度较低,可避免陷入局部最优。 展开更多
关键词 机器人 分层强化学习 自主避障 学习策略 奖赏函数
下载PDF
基于强化学习算法的神经网络模糊测试技术优化研究
17
作者 张宇豪 关昕 《计算机测量与控制》 2024年第3期131-137,共7页
现有神经网络模糊测试技术在测试样本生成阶段通常对初始样本进行随机变异,导致生成样本质量不高,从而测试覆盖率不高;针对以上问题,提出一种基于强化学习算法的神经网络模糊测试技术,将模糊测试过程建模为马尔可夫决策过程,在该模型中... 现有神经网络模糊测试技术在测试样本生成阶段通常对初始样本进行随机变异,导致生成样本质量不高,从而测试覆盖率不高;针对以上问题,提出一种基于强化学习算法的神经网络模糊测试技术,将模糊测试过程建模为马尔可夫决策过程,在该模型中,测试样本被看作环境状态,不同的变异方法被看作可供选择的动作空间,神经元覆盖率被看作奖励反馈,使用强化学习算法来学习最优的变异策略,指导生成最优测试样本,使其能够获得最高的神经元覆盖率;通过与现有的主流神经网络模糊测试方法的对比实验表明,基于强化学习算法的神经网络模糊测试技术,可以提升在不同粒度下的神经元覆盖。 展开更多
关键词 模糊测试 神经网络 强化学习 马尔科夫决策过程 奖励函数
下载PDF
离线强化学习动态避障导航算法
18
作者 葛启兴 章伟 +1 位作者 谢贵亮 胡陟 《上海工程技术大学学报》 CAS 2024年第3期313-320,共8页
需要实时采样更新数据供无人机(unmanned aerial vehicle,UAV)优化避障策略是深度强化学习(deep reinforcement learning,DRL)应用于防撞领域亟需解决的问题。针对此,提出一种基于离线DRL的动态避障导航算法。将离线DRL算法与速度障碍(v... 需要实时采样更新数据供无人机(unmanned aerial vehicle,UAV)优化避障策略是深度强化学习(deep reinforcement learning,DRL)应用于防撞领域亟需解决的问题。针对此,提出一种基于离线DRL的动态避障导航算法。将离线DRL算法与速度障碍(velocity obstacle,VO)法结合,改善在线深度强化学习算法需要高实时性交互数据的问题。通过对策略更新进行约束,提升离线DRL算法的性能。开发一个基于VO的奖励函数,使无人机在躲避动态障物的同时考虑耗时和路径最短问题。在三维避障导航环境中仿真进一步验证该方法在路径长度、飞行耗时以及避障成功率等方面均优于在线深度强化学习避障算法,有效改善了DRL需要不断输入在线数据才能有效更新策略的问题。 展开更多
关键词 离线强化学习 速度障碍法 离线数据 动态避障 导航 奖励函数
下载PDF
基于PBRS-SAC算法的无人车路径规划研究
19
作者 杨南禹 时正华 《计算技术与自动化》 2024年第2期82-87,共6页
针对复杂环境下无人车路径规划问题,在软演员评论家(SAC)算法的框架下进行改进。通过在奖励函数的设计上融合基于势能的回报塑形(PBRS)思想,并加入双连帧等训练技巧,设计了PBRS-SAC算法。之后在Ubuntu操作系统上搭建基于Gazebo的仿真环... 针对复杂环境下无人车路径规划问题,在软演员评论家(SAC)算法的框架下进行改进。通过在奖励函数的设计上融合基于势能的回报塑形(PBRS)思想,并加入双连帧等训练技巧,设计了PBRS-SAC算法。之后在Ubuntu操作系统上搭建基于Gazebo的仿真环境,分别模拟静态与动态实验环境进行训练。最后,通过消融实验、敏感性测试实验与鲁棒性分析实验验证该算法的有效性。 展开更多
关键词 强化学习 无人车 势能 奖励函数 路径规划
下载PDF
基于深度强化学习的船舶路径规划方法研究
20
作者 杨长兵 张海华 刘焕牢 《信息技术》 2024年第10期128-135,共8页
针对现有路径规划算法在面对复杂环境时需要大量先验信息,并存在计算量大、转折过多、搜索精准度差等问题,使用深度强化学习算法可以弥补上述缺陷,但是存在算法本身收敛慢等问题。针对此问题,提出使用改进人工势场法(APF)对深度强化学... 针对现有路径规划算法在面对复杂环境时需要大量先验信息,并存在计算量大、转折过多、搜索精准度差等问题,使用深度强化学习算法可以弥补上述缺陷,但是存在算法本身收敛慢等问题。针对此问题,提出使用改进人工势场法(APF)对深度强化学习算法的奖励函数进行优化处理,并通过贝塞尔曲线对路径进行平滑处理,最终输出相对平滑的船舶航行路径。在相同环境下,将改进算法模型与现有方法的路径规划效果进行比较分析,结果表明,DQN-APF算法在生成的路径长度、平滑度、规划完成时间等船舶路径综合规划参数能力上得到了提升。 展开更多
关键词 船舶路径规划 深度强化学习 改进人工势场 奖励函数 路径平滑
下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部