期刊文献+
共找到264篇文章
< 1 2 14 >
每页显示 20 50 100
基于深度确定性梯度算法的端到端自动驾驶策略
1
作者 赖晨光 杨小青 +2 位作者 胡博 庞玉涵 邹宏 《重庆理工大学学报(自然科学)》 CAS 北大核心 2023年第1期56-65,共10页
根据深度确定性策略梯度算法理论,提出了端到端的自动驾驶控制策略,通过Carla无人驾驶模拟器,以汽车前视图像和少量测量信息作为输入,直接输出转向、油门或制动的控制动作。同时,鉴于强化学习过程中存在大量试错行为,设计了对危险试错... 根据深度确定性策略梯度算法理论,提出了端到端的自动驾驶控制策略,通过Carla无人驾驶模拟器,以汽车前视图像和少量测量信息作为输入,直接输出转向、油门或制动的控制动作。同时,鉴于强化学习过程中存在大量试错行为,设计了对危险试错动作加以约束并修正的监督器,以减少危险动作并提升训练效率。根据Carla的训练测试结果表明,深度确定性策略梯度算法能使小车学习到有效的自动驾驶策略,且添加监督器之后的算法能明显减少试错行为并提升训练效率。 展开更多
关键词 自动驾驶 强化学习 深度确定性策略梯度 监督式深度强化学习
下载PDF
深度确定性策略梯度算法耦合模型驱动的行人过街仿真
2
作者 宋涛 王彦林 +1 位作者 魏昕恺 韦艳芳 《上海大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第4期651-665,共15页
行人仿真在公共安全研究中扮演着重要的角色,但如何增强仿真环境中智能体的真实性一直是一个难题.本工作提出了一种深度确定性策略梯度-行人二维优化速度模型耦合驱动算法,并对无信号交叉口行人过街行为进行仿真.通过构建考虑无速度差... 行人仿真在公共安全研究中扮演着重要的角色,但如何增强仿真环境中智能体的真实性一直是一个难题.本工作提出了一种深度确定性策略梯度-行人二维优化速度模型耦合驱动算法,并对无信号交叉口行人过街行为进行仿真.通过构建考虑无速度差项和有速度差项2种行人二维优化速度模型的策略探索方案,揭示出带有速度差项行人二维优化速度模型的耦合驱动算法倾向于灵活地选择相对安全的动作,从而使行人选择动作的策略也更优,达到了完全避免行人碰撞、确保行人安全的功能. 展开更多
关键词 深度确定性策略梯度 二维优化速度模型 碰撞 无信号交叉口 行人仿真
下载PDF
基于深度确定性策略梯度算法的风光储系统联合调度策略 被引量:6
3
作者 张淑兴 马驰 +3 位作者 杨志学 王尧 吴昊 任洲洋 《中国电力》 CSCD 北大核心 2023年第2期68-76,共9页
针对风光储联合系统的调度问题,提出了一种基于深度强化学习的风光储系统联合调度模型。首先,以计划跟踪、弃风弃光以及储能运行成本最小为目标,建立了充分考虑风光储各个场站约束下的联合调度模型。然后,定义该调度模型在强化学习框架... 针对风光储联合系统的调度问题,提出了一种基于深度强化学习的风光储系统联合调度模型。首先,以计划跟踪、弃风弃光以及储能运行成本最小为目标,建立了充分考虑风光储各个场站约束下的联合调度模型。然后,定义该调度模型在强化学习框架下的系统状态变量、动作变量以及奖励函数等,引入了深度确定性策略梯度算法,利用其环境交互、策略探索的机制,学习风光储系统的联合调度策略,以实现对联合系统功率跟踪,减少弃风弃光以及储能充放电。最后,借用西北某地区风电、光伏、跟踪计划的历史数据对模型进行了训练和算例分析,结果表明所提方法可以较好地适应不同时期的风光变化,得到在给定风光下联合系统的调度策略。 展开更多
关键词 风光储联合系统 联合调度策略 确定性 深度强化学习 深度确定性策略梯度算法
下载PDF
基于改进深度确定性策略梯度算法的微电网能量优化调度 被引量:2
4
作者 李瑜 张占强 +1 位作者 孟克其劳 魏皓天 《电子测量技术》 北大核心 2023年第2期73-80,共8页
针对微电网中分布式发电设备存在输出不确定性和间歇性问题,以及传统的深度确定性策略梯度算法存在收敛速度慢、鲁棒性差、容易陷入局部最优的缺点。本文提出了一种基于优先经验回放的深度确定性策略梯度算法,以微电网系统运行成本最低... 针对微电网中分布式发电设备存在输出不确定性和间歇性问题,以及传统的深度确定性策略梯度算法存在收敛速度慢、鲁棒性差、容易陷入局部最优的缺点。本文提出了一种基于优先经验回放的深度确定性策略梯度算法,以微电网系统运行成本最低为目标,实现微电网的能量优化调度。首先,采用马尔可夫决策过程对微电网优化问题进行建模;其次,采用Sumtree结构的优先经验回放池提升样本利用效率,并且应用重要性采样来改善状态分布对收敛结果的影响。最后,本文利用真实的电力数据进行仿真验证,结果表明,提出的优化调度算法可以有效地学习到使微电网系统经济成本最低的运行策略,所提出的算法总运行时间比传统算法缩短了7.25%,运行成本降低了31.5%。 展开更多
关键词 优先经验回放 微电网能量优化调度 深度确定性策略梯度算法
下载PDF
基于深度确定性策略梯度强化学习算法的航迹规划研究 被引量:1
5
作者 杨友波 张目 +1 位作者 唐俊 雷印杰 《现代计算机》 2023年第5期1-7,27,共8页
航迹规划是无人机走向智能化的重要组成部分。目前已有的传统航迹规划算法存在实时规划能力差、无法处理动态场景、航迹不平滑等问题,现有的强化学习算法虽然能够实时规划,但是大多数算法主要应用在二维场景下,且存在容易碰撞障碍物、... 航迹规划是无人机走向智能化的重要组成部分。目前已有的传统航迹规划算法存在实时规划能力差、无法处理动态场景、航迹不平滑等问题,现有的强化学习算法虽然能够实时规划,但是大多数算法主要应用在二维场景下,且存在容易碰撞障碍物、到达率低、航迹不平滑和航迹质量低等问题。针对上述问题,提出基于改进深度确定性策略梯度的强化学习算法,该算法融合自注意力机制,提取障碍物特征,躲避障碍,解决到达率低、实时规划能力差的问题,重新设计奖励函数,惩罚无人机“后退”行为,引入方向向量夹角引导机制,解决航迹不平滑问题。仿真验证结果表明,提出的改进算法在复杂动态场景下达到93.5%的到达率,平均飞行距离减少7.3%,推理时间减少26.2%,推理时间短,航迹符合无人机的飞行要求。 展开更多
关键词 航迹规划 深度确定性策略梯度 强化学习 自注意力机制
下载PDF
基于双评论家的多智能体深度确定性策略梯度方法 被引量:1
6
作者 丁世飞 杜威 +2 位作者 郭丽丽 张健 徐晓 《计算机研究与发展》 EI CSCD 北大核心 2023年第10期2394-2404,共11页
在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这... 在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这一问题,分别从理论和实验上证明了多智能体深度确定性策略梯度方法存在价值函数被高估.提出基于双评论家的多智能体深度确定性策略梯度(multiagent deep deterministic policy gradient method based on double critics,MADDPG-DC)方法,通过在双评论家网络上的最小值操作来避免价值被高估,进一步促进智能体学得最优的策略.此外,延迟行动者网络更新,保证行动者网络策略更新的效率和稳定性,提高策略学习和更新的质量.在多智能体粒子环境和交通信号控制环境上的实验结果证明了所提方法的可行性和优越性. 展开更多
关键词 强化学习 价值估计 双评论家 交通信号控制 多智能体深度确定性策略梯度
下载PDF
基于深度确定性策略梯度算法的智能水下机器人局部路径规划
7
作者 吕茜 党康宁 《科学技术创新》 2023年第20期224-228,共5页
路径规划是智能水下机器人技术研究的核心内容之一,是实现其自主航行和作业的关键环节。基于水下机器人的运动学模型,将深度确定性策略梯度(DDPG)算法应用于水下机器人的局部路径规划中,通过构造适当的奖励信号和设置合理的训练评估条件... 路径规划是智能水下机器人技术研究的核心内容之一,是实现其自主航行和作业的关键环节。基于水下机器人的运动学模型,将深度确定性策略梯度(DDPG)算法应用于水下机器人的局部路径规划中,通过构造适当的奖励信号和设置合理的训练评估条件,使算法适用于水下机器人的运动学模型。仿真试验验证了采用DDPG算法训练的水下机器人能够在航道水域环境中安全快速地规划和避开障碍物,实现自主安全航行。 展开更多
关键词 智能水下机器人 局部路径规划 深度确定性策略梯度(ddpg)算法 自主安全航行
下载PDF
深度确定性策略梯度和预测相结合的无人机空战决策研究 被引量:2
8
作者 李永丰 吕永玺 +1 位作者 史静平 李卫华 《西北工业大学学报》 EI CAS CSCD 北大核心 2023年第1期56-64,共9页
针对无人机自主空战机动决策过程中遇到的敌方不确定性操纵问题,提出了一种目标机动指令预测和深度确定性策略梯度算法相结合的无人机空战自主机动决策方法。对空战双方的态势数据进行有效的融合和处理,搭建无人机六自由度模型和机动动... 针对无人机自主空战机动决策过程中遇到的敌方不确定性操纵问题,提出了一种目标机动指令预测和深度确定性策略梯度算法相结合的无人机空战自主机动决策方法。对空战双方的态势数据进行有效的融合和处理,搭建无人机六自由度模型和机动动作库,在空战中目标通过深度Q网络算法生成相应机动动作库指令,同时我方无人机通过概率神经网络给出目标机动的预测结果。提出了一种同时考虑了两机态势信息和敌机预测结果的深度确定性策略梯度强化学习方法,使得无人机能够根据当前空战态势选择合适的机动决策。仿真结果表明,该算法可以有效利用空战态势信息和目标机动预测信息,在保证收敛性的前提下提高无人机自主空战决策强化学习算法的有效性。 展开更多
关键词 无人机 空战机动决策 预测 深度确定性策略梯度
下载PDF
改进双延迟深度确定性策略梯度的多船协调避碰决策
9
作者 黄仁贤 罗亮 +1 位作者 杨萌 刘维勤 《计算机科学》 CSCD 北大核心 2023年第11期269-281,共13页
目前,多数海上避碰模型都是将船舶作为单智能体进行避碰决策,未考虑船舶间的协调避让,在多船会遇场景下仅靠单船进行避碰操作会导致避让效果不佳。为此,提出了一种改进双延迟深度确定性策略梯度算法(TD3)的Softmax深层双确定性策略梯度(... 目前,多数海上避碰模型都是将船舶作为单智能体进行避碰决策,未考虑船舶间的协调避让,在多船会遇场景下仅靠单船进行避碰操作会导致避让效果不佳。为此,提出了一种改进双延迟深度确定性策略梯度算法(TD3)的Softmax深层双确定性策略梯度(SD3)多船协调避碰模型。从考虑船舶航行安全的时空因素出发构建时间碰撞模型、空间碰撞模型,对船舶碰撞风险进行定量分析,在此基础上采用根据会遇态势和船速矢量动态变化的船域模型对船舶碰撞风险进行定性分析。综合船舶目标导向、航向角改变、航向保持、碰撞风险和《国际海上避碰规则》(COLREGS)的约束设计奖励函数,结合COLREGS中的典型相遇情况构造对遇、追越和交叉相遇多局面共存的会遇场景进行避碰模拟仿真。消融实验显示softmax运算符提升了SD3算法的性能,使其在船舶协调避碰中拥有更好的决策效果,并与其他强化学习算法进行学习效率和学习效果的比较。实验结果表明,SD3算法在多局面共存的复杂场景下能高效做出准确的避碰决策,并且性能优于其他强化学习算法。 展开更多
关键词 多船会遇 协调避碰 智能决策 双延迟深度确定性策略梯度(TD3) Softmax深层双确定性策略梯度(SD3) 强化学习
下载PDF
基于深度确定性策略梯度的粒子群算法 被引量:5
10
作者 鲁华祥 尹世远 +2 位作者 龚国良 刘毅 陈刚 《电子科技大学学报》 EI CAS CSCD 北大核心 2021年第2期199-206,共8页
在传统的粒子群优化算法(PSO)中,所有粒子都遵循最初设定的一些参数进行自我探索,这种方案容易导致过早成熟,且易被困于局部最优点。针对以上问题,该文提出了一种基于深度确定性策略梯度的粒子群优化算法(DDPGPSO),通过构造神经网络分... 在传统的粒子群优化算法(PSO)中,所有粒子都遵循最初设定的一些参数进行自我探索,这种方案容易导致过早成熟,且易被困于局部最优点。针对以上问题,该文提出了一种基于深度确定性策略梯度的粒子群优化算法(DDPGPSO),通过构造神经网络分别实现了动作函数和动作价值函数,且利用神经网络可以动态地生成算法运行所需要的参数,降低了人工配置算法的难度。实验表明DDPGPSO相比9种同类算法在收敛速度和寻优精度上均有较大的提升。 展开更多
关键词 自适应惯性权值 收敛因子 深度确定性策略梯度算法 强化学习 群体智能 粒子群优化算法
下载PDF
深度确定性策略梯度学习的火星无人机控制
11
作者 孙丹 郑建华 +1 位作者 高东 韩鹏 《计算机工程与应用》 CSCD 北大核心 2023年第8期288-296,共9页
为了降低控制器设计对火星无人机动力学模型的依赖,提高火星无人机控制系统的智能化水平,结合强化学习(reinforcement learning,RL)算法,提出了一种具有自主学习能力的火星无人机位置姿态控制器。该控制器由神经网络构成,利用深度确定... 为了降低控制器设计对火星无人机动力学模型的依赖,提高火星无人机控制系统的智能化水平,结合强化学习(reinforcement learning,RL)算法,提出了一种具有自主学习能力的火星无人机位置姿态控制器。该控制器由神经网络构成,利用深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法进行学习,不断优化控制策略,最终获得满足控制要求的策略。仿真结果表明,在没有推导被控对象模型的前提下,基于DDPG算法的控制器通过学习,自主将火星无人机稳定控制到目标位置,且控制精度、调节时间等性能优于比例-积分-微分(proportion integration differentiation,PID)控制器的效果,验证了基于DDPG算法的控制器的有效性;此外,在被控对象模型改变或存在外部扰动的情况下,基于DDPG算法的控制器仍然能够稳定完成任务,控制效果优于PID控制器,表明基于DDPG算法的控制器具有良好的鲁棒性。 展开更多
关键词 火星无人机 强化学习 自主控制 深度确定性策略梯度 策略优化
下载PDF
风储联合电站实时自调度的高效深度确定性策略梯度算法 被引量:4
12
作者 宋煜浩 魏韡 +2 位作者 黄少伟 吴启仁 梅生伟 《电工技术学报》 EI CSCD 北大核心 2022年第23期5987-5999,共13页
发展风电等可再生能源对于实现双碳目标具有重要意义,风储联合电站是未来风电接入电网的主要形式。该文研究发电侧商业化运行的风储联合电站的实时自调度问题,目标是使自身的期望收益最大化。由于场站级风电预测误差较大,独立发电商信... 发展风电等可再生能源对于实现双碳目标具有重要意义,风储联合电站是未来风电接入电网的主要形式。该文研究发电侧商业化运行的风储联合电站的实时自调度问题,目标是使自身的期望收益最大化。由于场站级风电预测误差较大,独立发电商信息有限,难以准确预测电网电价,风储联合电站实时自调度面临多重不确定性,极具挑战。该文提出高效深度确定性策略梯度(DDPG)算法求取风储联合电站实时自调度策略,实现不依赖预测的场站级在线决策。首先通过Lyapunov优化构建基础策略,得到一个较好的但未必是局部最优的策略;然后,采用基础策略预生成样本,用于初始化经验库,提升搜索效率;接着,应用引入专家机制的DDPG算法,可以训练得到局部最优的自调度策略;最后,算例分析表明,相比于基础调度策略和经典DDPG,该文所提方法能有效提升风储联合电站的平均收益。 展开更多
关键词 风储联合电站 实时自调度 Lyapunov优化 深度确定性策略梯度(ddpg)
下载PDF
基于深度确定性策略梯度算法的战机规避中距空空导弹研究 被引量:2
13
作者 宋宏川 詹浩 +2 位作者 夏露 李向阳 刘艳 《航空工程进展》 CSCD 2021年第3期85-94,共10页
飞机规避中距空空导弹的逃逸机动策略对于提高战斗机的生存力至关重要。针对深度确定性策略梯度算法训练智能体学习飞机规避导弹的逃逸机动策略进行研究。以飞机导弹相对态势参数等作为智能体的输入状态,飞机控制指令作为智能体的输出动... 飞机规避中距空空导弹的逃逸机动策略对于提高战斗机的生存力至关重要。针对深度确定性策略梯度算法训练智能体学习飞机规避导弹的逃逸机动策略进行研究。以飞机导弹相对态势参数等作为智能体的输入状态,飞机控制指令作为智能体的输出动作,导弹飞机追逃模型作为智能体的学习环境,设计由相对态势和飞行参数构成的成型奖励以及由交战结果组成的稀疏奖励,实现从状态参数到控制量端到端的逃逸机动策略。通过与四种基于专家先验知识的典型逃逸机动攻击区仿真验证对比,结果表明:智能体实现的逃逸策略攻击区仅次于置尾下降攻击区,该策略对飞机规避导弹先验知识的依存度最低。 展开更多
关键词 导弹规避 逃逸机动策略 深度确定性策略梯度 深度强化学习
下载PDF
改进深度确定性策略梯度算法及其在控制中的应用 被引量:6
14
作者 张浩昱 熊凯 《计算机科学》 CSCD 北大核心 2019年第B06期555-557,570,共4页
深度强化学习往往存在采样效率过低的问题,优先级采样可以在一定程度上提高采样效率。将优先级采样用于深度确定性策略梯度算法,并针对普通优先级采样算法复杂度高的问题提出一种小样本排序的思路。仿真实验结果表明,这种改进的深度确... 深度强化学习往往存在采样效率过低的问题,优先级采样可以在一定程度上提高采样效率。将优先级采样用于深度确定性策略梯度算法,并针对普通优先级采样算法复杂度高的问题提出一种小样本排序的思路。仿真实验结果表明,这种改进的深度确定性策略梯度算法提高了采样效率,具有好的训练效果。将深度确定性策略梯度算法用于小车方向控制,相比于传统的PID控制,该算法避免了人工调整参数的问题,具有更广阔的应用前景。 展开更多
关键词 深度强化学习 深度确定性策略梯度 优先级采样 方向控制
下载PDF
深度确定性策略梯度算法优化 被引量:1
15
作者 刘洋 李建军 《辽宁工程技术大学学报(自然科学版)》 CAS 北大核心 2020年第6期545-549,共5页
针对深度确定性策略梯度算法存在的经验利用率不高和性能差的问题,提出一种基于深度确定性策略梯度算法的复合优先经验回放算法.利用样本的立即回报和基于样本时间差分误差分别构建优先级对样本排序,随后对经验进行复合平均排序并基于... 针对深度确定性策略梯度算法存在的经验利用率不高和性能差的问题,提出一种基于深度确定性策略梯度算法的复合优先经验回放算法.利用样本的立即回报和基于样本时间差分误差分别构建优先级对样本排序,随后对经验进行复合平均排序并基于排序优先性机制求得优先级对经验采样,使用得到的样本训练学习网络.在仿真环境中进行的对比实验表明:与深度确定性策略梯度算法和基于时间差分误差的深度确定性策略梯度算法相比,该方法能够减少训练的时间、提高系统的学习能力. 展开更多
关键词 强化学习 深度确定性策略梯度 复合优先经验回放 立即回报 时间差分误差
下载PDF
改进深度确定性策略梯度的决策算法研究 被引量:1
16
作者 陈建文 张小俊 张明路 《汽车实用技术》 2022年第1期28-31,共4页
为解决无人驾驶路径规划过程中的决策控制问题,文章针对深度确定性策略梯度算法在未知环境中随着搜索空间的增大,出现训练效率低、收敛不稳定等缺点,提出了基于奖励指导的改进算法。首先在每回合内采用基于奖励的优先级经验回放,减少深... 为解决无人驾驶路径规划过程中的决策控制问题,文章针对深度确定性策略梯度算法在未知环境中随着搜索空间的增大,出现训练效率低、收敛不稳定等缺点,提出了基于奖励指导的改进算法。首先在每回合内采用基于奖励的优先级经验回放,减少深度确定性策略梯度算法随机探索的盲目性,提高智能车学习效率。然后在回合间基于奖励筛选优秀轨迹,便于指导智能车对复杂空间的探索,得到稳定的控制策略。最后,在开源智能驾驶仿真环境进行仿真。实验结果表明改进后的深度确定性策略梯度算法性能优于原来的算法,训练效率和收敛稳定性均得到有效提升。 展开更多
关键词 路径规划 决策控制 深度确定性策略梯度 奖励指导 优先经验回放
下载PDF
考虑源荷不确定性下微电网能量调度的深度强化学习策略 被引量:1
17
作者 马冲冲 王一铮 +1 位作者 王坤 冯昌森 《高技术通讯》 CAS 2023年第1期79-87,共9页
针对微电网中源荷不确定性问题,本文提出一种基于连续型深度确定性策略梯度(DDPG)算法的微电网能量调度方法。首先,以日运行成本最低为目标构建优化调度模型,并将该调度模型转化成马尔可夫决策过程(MDP),定义了马尔可夫决策模型的状态... 针对微电网中源荷不确定性问题,本文提出一种基于连续型深度确定性策略梯度(DDPG)算法的微电网能量调度方法。首先,以日运行成本最低为目标构建优化调度模型,并将该调度模型转化成马尔可夫决策过程(MDP),定义了马尔可夫决策模型的状态空间、动作空间和奖励函数。其次,利用长短期记忆(LSTM)神经网络提取环境中时序数据的未来趋势作为状态,从而在连续调度动作空间下改善深度强化学习算法收敛效果。最后,通过训练深度强化学习模型,对比多种算法下最优能量调度策略,验证了本文所提方法的有效性。 展开更多
关键词 微电网 能量管理 强化学习 深度确定性策略梯度(ddpg)
下载PDF
采用双经验回放池的噪声流双延迟深度确定性策略梯度算法
18
作者 王垚儒 李俊 《武汉科技大学学报》 CAS 北大核心 2020年第2期147-154,共8页
为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验... 为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验回放池,将多个连续样本组成一个基础单元进行存储,训练时通过多步截断双Q处理实现对值函数的有效逼近,同时增加一个经验回放池采用重抽样优选机制来存储学习价值更大的样本,双经验回放池的设置可弥补样本多样性不足的问题。在OpenAI Gym平台的Walker2d-v2场景中进行仿真实验,结果表明,与对比算法相比,本文算法获得的回报值有明显改善,网络收敛速度也大大加快。 展开更多
关键词 深度确定性策略梯度 TD3算法 深度强化学习 噪声流 多步截断双Q学习 双经验回放池
下载PDF
DDPG深度强化学习算法在无人船目标追踪与救援中的应用
19
作者 宋雷震 吕东芳 《黑龙江大学工程学报(中英俄文)》 2024年第1期58-64,共7页
为保证海上救援活动的高效性,研究结合深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)从状态空间、动作空间、奖励函数方面对船只追踪救援目标算法进行设计,并实际应用到无人船追踪救援之中。结果显示DDPG算法的稳... 为保证海上救援活动的高效性,研究结合深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)从状态空间、动作空间、奖励函数方面对船只追踪救援目标算法进行设计,并实际应用到无人船追踪救援之中。结果显示DDPG算法的稳定成功率接近100%,性能优异。该设计的算法最终回合累积奖励值能够稳定在10左右,而平均时长则能稳定在80 s左右,能够根据周边环境的状态调整自己的运动策略,满足海上救援活动中的紧迫性要求,能为相关领域的研究提供一条新的思路。 展开更多
关键词 无人船 目标追踪 海上救援 深度确定性策略梯度算法(ddpg)
下载PDF
基于改进深度确定性策略梯度算法的微网优化调度研究 被引量:8
20
作者 周翔 陈盛 +3 位作者 张津源 袁鑫 王新迎 王继业 《电力信息与通信技术》 2022年第7期65-74,共10页
微网作为能源互联网的重要组成部分,对于风、光等新能源的就地消纳具有重要意义。但分布式风光出力的间歇性、波动性及负荷侧用电需求的随机性给微网的优化调度带来巨大挑战。针对微网中分布式新能源出力与用户用电的不确定性问题,文章... 微网作为能源互联网的重要组成部分,对于风、光等新能源的就地消纳具有重要意义。但分布式风光出力的间歇性、波动性及负荷侧用电需求的随机性给微网的优化调度带来巨大挑战。针对微网中分布式新能源出力与用户用电的不确定性问题,文章采用基于分类经验回放机制的深度确定性策略梯度算法,通过数据驱动方式自适应风光、负荷的不确定性,求解微网优化调度问题,在考虑分时电价及弃风弃光惩罚的基础上,设计以最小化运行成本和最大程度消纳新能源的奖励机制,基于即时奖励值大小的经验池分类,提高模型的训练速度和收敛性能。最后,通过IEEE14节点算例进行仿真验证,验证结果表明,所提方法可实时生成优化调度策略,不需对风光出力以及负荷进行精确建模,同时调度经济成本相较于深度Q学习网络算法降低4.73%。 展开更多
关键词 微网 优化调度 分类经验回放 深度确定性策略梯度
下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部