期刊文献+
共找到45篇文章
< 1 2 3 >
每页显示 20 50 100
基于改进双延迟深度确定性策略梯度算法的电网有功安全校正控制 被引量:7
1
作者 顾雪平 刘彤 +2 位作者 李少岩 王铁强 杨晓东 《电工技术学报》 EI CSCD 北大核心 2023年第8期2162-2177,共16页
新型电力系统中,由于源荷不确定性的影响,发生线路过载事故的风险增大,传统的有功安全校正方法无法有效兼顾计算速度及效果等。基于此,该文提出一种基于改进双延迟深度确定性策略梯度算法的电网有功安全校正控制方法。首先,在满足系统... 新型电力系统中,由于源荷不确定性的影响,发生线路过载事故的风险增大,传统的有功安全校正方法无法有效兼顾计算速度及效果等。基于此,该文提出一种基于改进双延迟深度确定性策略梯度算法的电网有功安全校正控制方法。首先,在满足系统静态安全约束条件下,以可调元件出力调整量最小且保证系统整体运行安全性最高为目标,建立有功安全校正控制模型。其次,构建有功安全校正的深度强化学习框架,定义计及目标与约束的奖励函数、反映电力系统运行的观测状态、可改变系统状态的调节动作以及基于改进双延迟深度确定性策略梯度算法的智能体。最后,构造考虑源荷不确定性的历史系统过载场景,借助深度强化学习模型对智能体进行持续交互训练以获得良好的决策效果;并且进行在线应用,计及源荷未来可能的取值,快速得到最优的元件调整方案,消除过载线路。IEEE 39节点系统和IEEE 118节点系统算例结果表明,所提方法能够有效消除电力系统中的线路过载且避免短时间内再次越限,在计算速度、校正效果等方面,与传统方法相比具有明显的优势。 展开更多
关键词 新型电力系统 有功安全校正 深度强化学习 改进双延迟深度确定性策略 最优调整方案
下载PDF
改进双延迟深度确定性策略梯度的多船协调避碰决策
2
作者 黄仁贤 罗亮 +1 位作者 杨萌 刘维勤 《计算机科学》 CSCD 北大核心 2023年第11期269-281,共13页
目前,多数海上避碰模型都是将船舶作为单智能体进行避碰决策,未考虑船舶间的协调避让,在多船会遇场景下仅靠单船进行避碰操作会导致避让效果不佳。为此,提出了一种改进双延迟深度确定性策略梯度算法(TD3)的Softmax深层双确定性策略梯度(... 目前,多数海上避碰模型都是将船舶作为单智能体进行避碰决策,未考虑船舶间的协调避让,在多船会遇场景下仅靠单船进行避碰操作会导致避让效果不佳。为此,提出了一种改进双延迟深度确定性策略梯度算法(TD3)的Softmax深层双确定性策略梯度(SD3)多船协调避碰模型。从考虑船舶航行安全的时空因素出发构建时间碰撞模型、空间碰撞模型,对船舶碰撞风险进行定量分析,在此基础上采用根据会遇态势和船速矢量动态变化的船域模型对船舶碰撞风险进行定性分析。综合船舶目标导向、航向角改变、航向保持、碰撞风险和《国际海上避碰规则》(COLREGS)的约束设计奖励函数,结合COLREGS中的典型相遇情况构造对遇、追越和交叉相遇多局面共存的会遇场景进行避碰模拟仿真。消融实验显示softmax运算符提升了SD3算法的性能,使其在船舶协调避碰中拥有更好的决策效果,并与其他强化学习算法进行学习效率和学习效果的比较。实验结果表明,SD3算法在多局面共存的复杂场景下能高效做出准确的避碰决策,并且性能优于其他强化学习算法。 展开更多
关键词 多船会遇 协调避碰 智能决策 延迟深度确定性策略梯度(TD3) Softmax深层确定性策略梯度(SD3) 强化学习
下载PDF
基于改进双延迟深度确定性策略梯度法的无人机反追击机动决策 被引量:7
3
作者 郭万春 解武杰 +1 位作者 尹晖 董文瀚 《空军工程大学学报(自然科学版)》 CSCD 北大核心 2021年第4期15-21,共7页
针对近距空战下的自主机动反追击问题,建立了无人机反追击马尔科夫(Markov)决策过程模型;在此基础上,提出了一种采用深度强化学习的无人机反追击自主机动决策方法。新方法基于经验回放区重构,改进了双延迟深度确定性策略梯度(TD3)算法,... 针对近距空战下的自主机动反追击问题,建立了无人机反追击马尔科夫(Markov)决策过程模型;在此基础上,提出了一种采用深度强化学习的无人机反追击自主机动决策方法。新方法基于经验回放区重构,改进了双延迟深度确定性策略梯度(TD3)算法,通过拟合策略函数与状态动作值函数,生成最优策略网络。仿真实验表明,在随机初始位置/姿态条件下,与采用纯追踪法的无人机对抗,该方法训练的智能无人机胜率超过93%;与传统的TD3、深度确定性策略梯度(DDPG)算法相比,该方法收敛性更快、稳定性更高。 展开更多
关键词 深度强化学习 近距空战 无人机 延迟深度确定性策略梯度法
下载PDF
基于双延迟深度确定性策略梯度的受电弓主动控制
4
作者 吴延波 韩志伟 +2 位作者 王惠 刘志刚 张雨婧 《电工技术学报》 EI CSCD 北大核心 2024年第14期4547-4556,共10页
弓网系统耦合性能对于高速列车受流质量起着至关重要的作用,提高弓网耦合性能,一种有效的方法是针对受电弓进行主动控制调节,特别是在低速线路提速及列车多线路混跑时,主动控制可通过提高弓网自适应适配性,有效降低线路改造成本并提升... 弓网系统耦合性能对于高速列车受流质量起着至关重要的作用,提高弓网耦合性能,一种有效的方法是针对受电弓进行主动控制调节,特别是在低速线路提速及列车多线路混跑时,主动控制可通过提高弓网自适应适配性,有效降低线路改造成本并提升受流质量。针对受电弓主动控制问题,该文提出一种基于双延迟深度确定性策略梯度(TD3)的深度强化学习受电弓主动控制算法。通过建立弓网耦合模型实现深度强化学习系统环境模块,利用TD3作为受电弓行为控制策略,最终通过对控制器模型训练实现有效的受电弓控制策略。实验结果表明,运用该文方法可有效提升低速线路列车高速运行时弓网耦合性能及受电弓在多线路运行时的适应性,为铁路线路提速及列车跨线路运行提供新的思路。 展开更多
关键词 低速线路 混跑 延迟深度确定性策略梯度(TD3) 受电弓主动控制
下载PDF
基于乐观探索的双延迟深度确定性策略梯度
5
作者 王浩宇 张衡波 +1 位作者 程玉虎 王雪松 《南京理工大学学报》 CAS CSCD 北大核心 2024年第3期300-309,共10页
双延迟深度确定性策略梯度是深度强化学习的一个主流算法,是一种无模型强化学习,已成功应用于具有挑战性的连续控制任务中。然而,当环境中奖励稀疏或者状态空间较大时,双延迟深度确定性策略梯度的样本效率较差,环境探索能力较弱。针对... 双延迟深度确定性策略梯度是深度强化学习的一个主流算法,是一种无模型强化学习,已成功应用于具有挑战性的连续控制任务中。然而,当环境中奖励稀疏或者状态空间较大时,双延迟深度确定性策略梯度的样本效率较差,环境探索能力较弱。针对通过双Q值函数的下界确定目标函数带来的低效探索问题,提出一种基于乐观探索的双延迟深度确定性策略梯度(TD3-OE)。首先,从双Q值函数出发,分析取下界会使得探索具有一定的悲观性;然后,利用高斯函数和分段函数分别对双Q值函数进行拟合;最后,利用拟合Q值函数和目标策略构造出探索策略,指导智能体在环境中进行探索。探索策略能够避免智能体学习到次优策略,从而有效解决低效探索的问题。该文在基于MuJoCo物理引擎的控制平台上将所提算法与基准算法进行试验对比,验证了所提算法的有效性。试验结果表明:所提算法在奖励、稳定性和学习速度等指标上均达到或超过其他基础强化学习算法。 展开更多
关键词 深度强化学习 延迟深度确定性策略梯度 探索策略 乐观探索
下载PDF
基于三值估算法的深度双确定性策略梯度算法
6
作者 王文龙 张帆 +3 位作者 唐超 李徐 郝正阳 张帆扬 《智能计算机与应用》 2024年第5期75-82,共8页
深度强化学习算法在机器人控制领域应用越来越广泛,但用于连续动作空间的算法,如DDPG,一直存在估值高估的问题,在机器人控制领域应用尚不成熟。本文为了提高深度强化学习算法中目标值估值的准确性,得到更适用于机器人控制的深度强化学... 深度强化学习算法在机器人控制领域应用越来越广泛,但用于连续动作空间的算法,如DDPG,一直存在估值高估的问题,在机器人控制领域应用尚不成熟。本文为了提高深度强化学习算法中目标值估值的准确性,得到更适用于机器人控制的深度强化学习算法,提出了一种基于三值估算法的深度双确定性策略梯度算法,该算法采用三值估算法来估计目标评论家网络的估值,去计算目标值作为当前网络的评估标准,采用双确定性策略网络在当前时间步数下生成最优策略,采用更适用于机械臂深度强化学习控制的OU噪声加到动作策略中。实验证明,该算法在复杂模型和环境中能够表现更好的性能。 展开更多
关键词 深度强化学习 三值估算法 确定性策略 机器人控制
下载PDF
基于双评论家的多智能体深度确定性策略梯度方法 被引量:3
7
作者 丁世飞 杜威 +2 位作者 郭丽丽 张健 徐晓 《计算机研究与发展》 EI CSCD 北大核心 2023年第10期2394-2404,共11页
在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这... 在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这一问题,分别从理论和实验上证明了多智能体深度确定性策略梯度方法存在价值函数被高估.提出基于双评论家的多智能体深度确定性策略梯度(multiagent deep deterministic policy gradient method based on double critics,MADDPG-DC)方法,通过在双评论家网络上的最小值操作来避免价值被高估,进一步促进智能体学得最优的策略.此外,延迟行动者网络更新,保证行动者网络策略更新的效率和稳定性,提高策略学习和更新的质量.在多智能体粒子环境和交通信号控制环境上的实验结果证明了所提方法的可行性和优越性. 展开更多
关键词 强化学习 价值估计 评论家 交通信号控制 多智能体深度确定性策略梯度
下载PDF
基于双延迟深度确定性策略梯度的船舶自主避碰方法 被引量:4
8
作者 刘钊 周壮壮 +1 位作者 张明阳 刘敬贤 《交通信息与安全》 CSCD 北大核心 2022年第3期60-74,共15页
为满足智能船舶自主航行的发展需求,解决基于强化学习的船舶避碰决策方法存在的学习效率低、泛化能力弱以及复杂会遇场景下鲁棒性差等问题,针对船舶避碰决策信息的高维性和动作的连续性等特点,考虑决策的合理性和实时性,研究了基于双延... 为满足智能船舶自主航行的发展需求,解决基于强化学习的船舶避碰决策方法存在的学习效率低、泛化能力弱以及复杂会遇场景下鲁棒性差等问题,针对船舶避碰决策信息的高维性和动作的连续性等特点,考虑决策的合理性和实时性,研究了基于双延迟深度确定性策略梯度(TD3)的船舶自主避碰方法。根据船舶间相对运动信息与碰撞危险信息,从全局角度构建具有连续多时刻目标船信息的状态空间;依据船舶操纵性设计连续决策动作空间;综合考虑目标导向、航向保持、碰撞危险、《1972年国际海上避碰规则》(COLREGs)和良好船艺等因素,设计船舶运动的奖励函数;基于TD3算法,根据状态空间结构,结合长短期记忆(LSTM)网络和一维卷积网络,利用Actor-Critic结构设计船舶自主避碰网络模型,利用双价值网络学习、目标策略平滑以及策略网络延迟更新等方式稳定网络训练,利用跳帧以及批量大小和迭代更新次数动态增大等方式加速网络训练;为解决模型泛化能力弱的问题,提出基于TD3的船舶随机会遇场景训练流程,实现自主避碰模型应用的多场景迁移。运用训练得到的船舶自主避碰模型进行仿真验证,并与改进人工势场(APF)算法进行比较,结果表明:所提方法学习效率高,收敛快速平稳;训练得到的自主避碰模型在2船和多船会遇场景下均能使船舶在安全距离上驶过,并且在复杂会遇场景中比改进APF算法避碰成功率高,避让2~4艘目标船时成功率高达99.233%,5~7艘目标船时成功率97.600%,8~10艘目标船时成功率94.166%;所提方法能有效应对来船的不协调行动,避碰实时性高,决策安全合理,航向变化快速平稳、震荡少、避碰路径光滑,比改进APF方法性能更强。 展开更多
关键词 交通信息工程 船舶避碰 智能决策 深度强化学习 延迟深度确定性策略梯度
下载PDF
采用双经验回放池的噪声流双延迟深度确定性策略梯度算法
9
作者 王垚儒 李俊 《武汉科技大学学报》 CAS 北大核心 2020年第2期147-154,共8页
为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验... 为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验回放池,将多个连续样本组成一个基础单元进行存储,训练时通过多步截断双Q处理实现对值函数的有效逼近,同时增加一个经验回放池采用重抽样优选机制来存储学习价值更大的样本,双经验回放池的设置可弥补样本多样性不足的问题。在OpenAI Gym平台的Walker2d-v2场景中进行仿真实验,结果表明,与对比算法相比,本文算法获得的回报值有明显改善,网络收敛速度也大大加快。 展开更多
关键词 深度确定性策略梯度 TD3算法 深度强化学习 噪声流 多步截断Q学习 经验回放池
下载PDF
基于双延迟深度确定性策略梯度的综合能源微网运行优化
10
作者 谢启跃 应雨龙 《济南大学学报(自然科学版)》 CAS 北大核心 2022年第3期301-307,共7页
为了满足综合能源微网运行优化及能量管理的需求,提出基于双延迟深度确定性策略梯度算法的综合能源微网运行优化方法;基于标准化矩阵建模理论,构建一个含冷、热、电供应的综合能源微网数学模型;考虑到综合能源微网中天然气、主电网供电... 为了满足综合能源微网运行优化及能量管理的需求,提出基于双延迟深度确定性策略梯度算法的综合能源微网运行优化方法;基于标准化矩阵建模理论,构建一个含冷、热、电供应的综合能源微网数学模型;考虑到综合能源微网中天然气、主电网供电等相关约束和电力价格的变化,提出以运行成本最小化为目标的双延迟深度确定性策略梯度算法,对各种能源设备的出力情况作出决策,形成合理的能源分配管理方案。仿真结果表明,所提出方法的性能优于非线性算法、深度Q网络算法和深度确定性策略梯度算法,在确保运行成本最小化的同时计算耗时较短。 展开更多
关键词 综合能源微网 运行优化 延迟深度确定性策略梯度 强化学习
下载PDF
基于深度强化学习的梯级水蓄风光互补系统优化调度策略研究
11
作者 刘建行 刘方 《广东电力》 北大核心 2024年第5期10-22,共13页
对常规水电站进行抽水蓄能功能重塑,使其由“电源供应者”逐步转为“电源供应者+‘电池’调节者”,是解决大规模灵活性资源需求的重要技术手段。以梯级水蓄风光互补系统(cascade hydropower-pumping-storage-wind-photovoltaic multi-en... 对常规水电站进行抽水蓄能功能重塑,使其由“电源供应者”逐步转为“电源供应者+‘电池’调节者”,是解决大规模灵活性资源需求的重要技术手段。以梯级水蓄风光互补系统(cascade hydropower-pumping-storage-wind-photovoltaic multi-energy complementary system,CHPMCS)为研究对象,首先针对其发电抽蓄双向运行工况灵活转换和互补消纳特征,以系统发电效益最大为目标建立短期优化运行模型;其次,考虑CHPMCS出力连续可调的特点,提出将优化调度问题转换为马尔可夫决策过程,从而将多约束优化问题转换为无约束深度强化学习问题;然后,针对深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法训练效率低、易陷入局部最优等缺陷,采用改进DDPG算法对优化调度决策过程进行求解。最后,通过算例验证所提模型和算法的有效性。结果表明:CHPMCS通过水电功能重塑,有效提升了灵活性和调节能力,可以提高新能源的消纳能力和水资源的利用率,并通过“低储高发”提高系统发电效益。 展开更多
关键词 梯级水蓄风光互补系统 优化调度 新能源消纳 深度强化学习 改进深度确定性策略梯度算法
下载PDF
基于多智能体深度强化学习的多船协同避碰策略
12
作者 黄仁贤 罗亮 《计算机集成制造系统》 EI CSCD 北大核心 2024年第6期1972-1988,共17页
为了提高多船会遇时智能避碰策略的协同性、安全性、实用性和节能性,在中心化训练去中心化执行框架下,结合优先经验回放机制提出一种多智能体Softmax深层双确定性策略梯度PER-MASD3算法,用于解决多船协同避碰问题,该算法不仅解决了双延... 为了提高多船会遇时智能避碰策略的协同性、安全性、实用性和节能性,在中心化训练去中心化执行框架下,结合优先经验回放机制提出一种多智能体Softmax深层双确定性策略梯度PER-MASD3算法,用于解决多船协同避碰问题,该算法不仅解决了双延迟确定策略梯度(TD3)算法存在的值估计偏差问题,还在模型训练过程中引入熵正则项,以促进探索和控制随机控制策略,采用自适应噪声对不同阶段的任务进行有效探索,进一步提升了算法的学习效果和稳定性。通过实验验证,所提算法在解决多船协同避碰问题上具有较好的决策效果、更快的收敛速度和更稳定的性能。 展开更多
关键词 多智能体深度强化学习 协同避碰 中心化训练去中心化执行 优先经验回放 多智能体Softmax深层确定性策略梯度
下载PDF
基于深度强化学习的配电网无功电压控制策略研究
13
作者 陶用伟 朱勇 《电工技术》 2024年第15期92-94,共3页
随着可再生能源装机规模的逐步提升,并网会对系统的电压造成影响。为了提升对配电网电压的控制要求,提出一种基于深度强化学习的配电网无功电压控制策略。首先以配电网节点电压和网络损耗为目标建立模型;其次将各个光伏逆变器建模为强... 随着可再生能源装机规模的逐步提升,并网会对系统的电压造成影响。为了提升对配电网电压的控制要求,提出一种基于深度强化学习的配电网无功电压控制策略。首先以配电网节点电压和网络损耗为目标建立模型;其次将各个光伏逆变器建模为强化学习环境的智能体,通过配电网分区把光伏逆变器的协同控制问题转化为可观测的马尔科夫决策过程,采用双延迟深度确定性梯度算法进行求解;最后结合改进IEEE 33节点进行验证,结果验证了所提策略的有效性,能提升电压的稳定性、降低网损。 展开更多
关键词 深度强化学习 配电网 无功电压控制 延迟深度确定性梯度算法
下载PDF
基于TD3-PER的氢燃料电池混合动力汽车能量管理策略研究 被引量:1
14
作者 虞志浩 赵又群 +2 位作者 潘陈兵 何鲲鹏 李丹阳 《汽车技术》 CSCD 北大核心 2024年第1期13-19,共7页
为优化氢燃料电池混合动力汽车的燃料经济性及辅助动力电池性能,提出了一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。采用双延迟深度确定性策略梯度(TD3)算法,在防止训练过优估计的同时实现了更精准的连续控... 为优化氢燃料电池混合动力汽车的燃料经济性及辅助动力电池性能,提出了一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。采用双延迟深度确定性策略梯度(TD3)算法,在防止训练过优估计的同时实现了更精准的连续控制;同时结合优先经验采样(PER)算法,在获得更好优化性能的基础上加速了策略的训练。仿真结果表明:相较于深度确定性策略梯度(DDPG)算法,所提出的TD3-PER能量管理策略的百公里氢耗量降低了7.56%,平均功率波动降低了6.49%。 展开更多
关键词 氢燃料电池混合动力汽车 优先经验采样 延迟深度确定性策略梯度 连续控制
下载PDF
基于机群划分与深度强化学习的风电场低电压穿越有功/无功功率联合控制策略 被引量:4
15
作者 韩佶 苗世洪 +3 位作者 Martinez-Rico Jon 柳舟 陈哲 蔡杰 《中国电机工程学报》 EI CSCD 北大核心 2023年第11期4228-4243,共16页
在低电压穿越(low voltage ride through,LVRT)过程中,电网企业要求风电场向系统提供无功支撑;在满足所规定的无功输出基础上,利用风电场剩余容量提供有功功率,对保障系统稳定性意义重大。该文提出一种基于机群划分与改进深度确定性策... 在低电压穿越(low voltage ride through,LVRT)过程中,电网企业要求风电场向系统提供无功支撑;在满足所规定的无功输出基础上,利用风电场剩余容量提供有功功率,对保障系统稳定性意义重大。该文提出一种基于机群划分与改进深度确定性策略梯度(deep deterministic policy gradient,DDPG)的风电场LVRT有功/无功功率联合控制方法。首先,将LVRT期间风机的有功/无功控制分为3个阶段,并基于此构建了风机控制模型;其次,根据风机运行特性将其划分至多个机群,在功率分配过程中,对属于同一机群的风机分配相同的控制指令,该步骤大大降低了优化变量个数与优化问题求解难度;然后,提出一种不含评价网络的并行化DDPG(critic-network free based parallel DDPG,CFP-DDPG)深度-强化学习算法框架,确立了基于CFP-DDPG的风电场功率控制框架,设计控制中的状态量、动作量、评价函数、模型训练策略和控制方法;最后,采用我国某实际风电场数据验证方法的有效性,结果表明,机群划分步骤有助于快速准确得到功率分配方案,CFP-DDPG通过改进动作评价方法并引入并行化结构增强了智能体的探索力,有助于取得更优的控制方案。 展开更多
关键词 改进深度确定性策略梯度算法 有功/无功功率联合控制 机群划分 低电压穿越
下载PDF
基于深度强化学习的增程式电动轻卡能量管理策略 被引量:1
16
作者 段龙锦 王贵勇 +1 位作者 王伟超 何述超 《内燃机工程》 CAS CSCD 北大核心 2023年第6期90-99,共10页
为了解决增程式电动轻卡辅助动力单元(auxiliary power units,APU)和动力电池之间能量的合理分配问题,在Simulink中建立面向控制的仿真模型,并提出一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,T... 为了解决增程式电动轻卡辅助动力单元(auxiliary power units,APU)和动力电池之间能量的合理分配问题,在Simulink中建立面向控制的仿真模型,并提出一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法的实时能量管理策略,以发动机燃油消耗量、电池荷电状态(state of charge,SOC)变化等为优化目标,在世界轻型车辆测试程序(world light vehicle test procedure,WLTP)中对深度强化学习智能体进行训练。仿真结果表明,利用不同工况验证了基于TD3算法的能量管理策略(energy management strategy,EMS)具有较好的稳定性和适应性;TD3算法实现对发动机转速和转矩连续控制,使得输出功率更加平滑。将基于TD3算法的EMS与基于传统深度Q网络(deep Q-network,DQN)算法和深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法进行对比分析,结果表明:基于TD3算法的EMS燃油经济性分别相比基于DQN算法和DDPG算法提高了12.35%和0.67%,达到基于动态规划(dynamic programming,DP)算法的94.85%,收敛速度相比基于DQN算法和DDPG算法分别提高了40.00%和47.60%。 展开更多
关键词 深度Q网络 深度确定性策略梯度 延迟深度确定性策略梯度算法 增程式电动轻卡
下载PDF
深度强化学习驱动的双馈抽蓄抽水工况下调频控制
17
作者 劳文洁 史林军 +2 位作者 李杨 吴峰 林克曼 《电力系统及其自动化学报》 CSCD 北大核心 2023年第12期59-70,共12页
为改善新型电力系统的频率特性,利用抽水工况下双馈抽水蓄能机组功率可调的特点,提出基于多智能体深度确定性策略梯度算法的系统频率控制方法。首先,基于抽水工况下双馈抽水蓄能的频率控制策略,构建多能互补系统的频率控制模型;其次,以... 为改善新型电力系统的频率特性,利用抽水工况下双馈抽水蓄能机组功率可调的特点,提出基于多智能体深度确定性策略梯度算法的系统频率控制方法。首先,基于抽水工况下双馈抽水蓄能的频率控制策略,构建多能互补系统的频率控制模型;其次,以提高各区域控制性能标准指标为目标,利用改进的多智能体深度确定性策略梯度算法优化各机组的自动发电控制指令。算例分析表明,抽水工况下双馈抽水蓄能参与调频可显著改善系统的频率特性,且所提频率控制方法的鲁棒性和可靠性优于传统控制。 展开更多
关键词 调频 馈抽水蓄能机组 多智能体深度确定性策略梯度算法 多能互补系统 控制性能标准
下载PDF
扩展目标跟踪中基于深度强化学习的传感器管理方法
18
作者 张虹芸 陈辉 张文旭 《自动化学报》 EI CAS CSCD 北大核心 2024年第7期1417-1431,共15页
针对扩展目标跟踪(Extended target tracking,ETT)优化中的传感器管理问题,基于随机矩阵模型(Random matrices model,RMM)建模扩展目标,提出一种基于深度强化学习(Deep reinforcement learning,DRL)的传感器管理方法.首先,在部分可观测... 针对扩展目标跟踪(Extended target tracking,ETT)优化中的传感器管理问题,基于随机矩阵模型(Random matrices model,RMM)建模扩展目标,提出一种基于深度强化学习(Deep reinforcement learning,DRL)的传感器管理方法.首先,在部分可观测马尔科夫决策过程(Partially observed Markov decision process,POMDP)理论框架下,给出基于双延迟深度确定性策略梯度(Twin delayed deep deterministic policy gradient,TD3)算法的扩展目标跟踪传感器管理的基本方法;其次,利用高斯瓦瑟斯坦距离(Gaussian Wasserstein distance,GWD)求解扩展目标先验概率密度与后验概率密度之间的信息增益,对扩展目标多特征估计信息进行综合评价,进而以信息增益作为TD3算法奖励函数的构建;然后,通过推导出的奖励函数,进行基于深度强化学习的传感器管理方法的最优决策;最后,通过构造扩展目标跟踪优化仿真实验,验证了所提方法的有效性. 展开更多
关键词 传感器管理 扩展目标跟踪 深度强化学习 延迟深度确定性策略梯度 信息增益
下载PDF
信控路段混行交通生态驾驶深度强化学习模型
19
作者 辛琪 王嘉琪 +2 位作者 杨文科 徐猛 袁伟 《交通运输系统工程与信息》 EI CSCD 北大核心 2024年第3期127-139,共13页
针对考虑通过性约束和安全性约束的动态规划模型,其在混行和大流量条件下模型复杂度较高,甚至会出现无解的问题,本文提出一种混行信控路段智能网联车辆生态驾驶轨迹优化的深度强化学习模型。本文所提模型通过设定不同程度的奖惩机制,并... 针对考虑通过性约束和安全性约束的动态规划模型,其在混行和大流量条件下模型复杂度较高,甚至会出现无解的问题,本文提出一种混行信控路段智能网联车辆生态驾驶轨迹优化的深度强化学习模型。本文所提模型通过设定不同程度的奖惩机制,并采用双延迟深度确定性策略梯度算法优化混行车流中智能网联车辆接近信号交叉口的轨迹。首先,选取车距、速度差、速度、到交叉口距离、排队长度、信号相位及配时等特征作为智能体状态,刻画驾驶安全性和通行效率,特别地,将交叉口排队长度扩增到状态中,解决智能网联车辆因有人驾驶车辆排队而临时停车的问题;其次,构建基于智能体状态和预期到达交叉口时间的多目标奖励函数,同时,优化混行车流下智能网联车辆的效率、能耗、舒适性和安全性,解决动态规划模型约束与求解复杂度关联的问题。仿真训练和测试结果表明,随着智能网联车辆渗透率的提高,车辆在交叉口等待时间显著减少;与无控制相比,能耗降低约5.47%;与动态规划模型相比,能耗降低约4.42%,与基于深度确定性策略梯度轨迹规划模型相比,能耗降低约2.91%。此外,在交通需求和信号周期波动条件下,本文所提模型均可实现智能网联车辆不停车通过信号交叉口。 展开更多
关键词 智能交通 轨迹优化 延迟深度确定性策略梯度 信号交叉口 智能网联车辆
下载PDF
基于连续动作空间深度强化学习的多数据融合室内定位方法
20
作者 陈雪晨 易嘉旋 +1 位作者 王霭祥 邓晓衡 《物联网学报》 2024年第1期40-48,共9页
基于智能手机的室内定位在研究和工业领域都引起了相当大的关注。然而在复杂的定位环境中,定位的准确性和鲁棒性仍然是具有挑战性的问题。考虑到行人航位推算(PDR,pedestrian dead reckoning)算法被广泛配备在最近的智能手机上,提出了... 基于智能手机的室内定位在研究和工业领域都引起了相当大的关注。然而在复杂的定位环境中,定位的准确性和鲁棒性仍然是具有挑战性的问题。考虑到行人航位推算(PDR,pedestrian dead reckoning)算法被广泛配备在最近的智能手机上,提出了一种基于双延迟深度确定性策略梯度(TD3,twin delayed deep deterministic policy gradient)的室内定位融合方法,该方法集成了Wi-Fi信息和PDR数据,将PDR的定位过程建模为马尔可夫过程并引入了智能体的连续动作空间。最后,与3个最先进的深度Q网络(DQN,deep Q network)室内定位方法进行实验。实验结果表明,该方法能够显著减少定位误差,提高定位准确性。 展开更多
关键词 WI-FI 行人航位推算 室内定位 延迟深度确定性策略梯度 深度强化学习
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部