期刊文献+
共找到41篇文章
< 1 2 3 >
每页显示 20 50 100
基于TD3-PER的氢燃料电池混合动力汽车能量管理策略研究 被引量:1
1
作者 虞志浩 赵又群 +2 位作者 潘陈兵 何鲲鹏 李丹阳 《汽车技术》 CSCD 北大核心 2024年第1期13-19,共7页
为优化氢燃料电池混合动力汽车的燃料经济性及辅助动力电池性能,提出了一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。采用双延迟深度确定性策略梯度(TD3)算法,在防止训练过优估计的同时实现了更精准的连续控... 为优化氢燃料电池混合动力汽车的燃料经济性及辅助动力电池性能,提出了一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。采用双延迟深度确定性策略梯度(TD3)算法,在防止训练过优估计的同时实现了更精准的连续控制;同时结合优先经验采样(PER)算法,在获得更好优化性能的基础上加速了策略的训练。仿真结果表明:相较于深度确定性策略梯度(DDPG)算法,所提出的TD3-PER能量管理策略的百公里氢耗量降低了7.56%,平均功率波动降低了6.49%。 展开更多
关键词 氢燃料电池混合动力汽车 优先经验采样 双延迟深度确定性策略梯度 连续控制
下载PDF
基于扰动流体与TD3的无人机路径规划算法 被引量:1
2
作者 陈康雄 刘磊 《电光与控制》 CSCD 北大核心 2024年第1期57-62,共6页
针对双延迟深度确定性策略梯度(TD3)算法存在的动作选取随机性低的问题,在TD3算法中依正态分布进行动作选取,并依据扰动流体路径规划方法在路径平滑度上较高的优势,提出一种基于扰动流体与TD3算法的无人机路径规划框架,将其用于解决动... 针对双延迟深度确定性策略梯度(TD3)算法存在的动作选取随机性低的问题,在TD3算法中依正态分布进行动作选取,并依据扰动流体路径规划方法在路径平滑度上较高的优势,提出一种基于扰动流体与TD3算法的无人机路径规划框架,将其用于解决动态未知环境下的无人机路径规划问题,实现了无人机路径规划方案的快速收敛。仿真结果表明,对算法的改进可大幅提升网络训练效率,且能在保证避障实时性的前提下,满足航迹质量需求,为路径规划任务中应用深度强化学习提供了新思路。 展开更多
关键词 无人机 路径规划 双延迟深度确定性策略梯度算法 深度强化学习 扰动流体动态系统
下载PDF
基于强化学习的核电数字孪生模型自动化同步研究
3
作者 刘浩 肖云龙 +2 位作者 肖焱山 曾祥云 郑胜 《南阳理工学院学报》 2024年第2期47-54,共8页
核电运行数字孪生系统与机组的高效同步是电厂运行优化的基础,是核电安全的重要保障。以核电蒸汽系统数字孪生模型为研究对象,提出了一种基于孪生延迟深度确定性策略梯度的自适应智能优化算法(TD3PSO),通过构建动作网络与动作价值网络,... 核电运行数字孪生系统与机组的高效同步是电厂运行优化的基础,是核电安全的重要保障。以核电蒸汽系统数字孪生模型为研究对象,提出了一种基于孪生延迟深度确定性策略梯度的自适应智能优化算法(TD3PSO),通过构建动作网络与动作价值网络,利用神经网络动态生成基本粒子群优化算法运行过程中所需要的超参数,实现超参数的自我探索,降低人工对算法的干预,解决基本粒子群优化算法容易陷入局部最优的问题。实验表明,TD3PSO算法优于基本粒子群优化算法,相比于人工调试的结果,在优化精度上提高了93.39%,自动化同步效果显著。 展开更多
关键词 数字孪生 自动化同步 自适应 孪生延迟深度确定性策略梯度 智能优化
下载PDF
信控路段混行交通生态驾驶深度强化学习模型
4
作者 辛琪 王嘉琪 +2 位作者 杨文科 徐猛 袁伟 《交通运输系统工程与信息》 EI CSCD 北大核心 2024年第3期127-139,共13页
针对考虑通过性约束和安全性约束的动态规划模型,其在混行和大流量条件下模型复杂度较高,甚至会出现无解的问题,本文提出一种混行信控路段智能网联车辆生态驾驶轨迹优化的深度强化学习模型。本文所提模型通过设定不同程度的奖惩机制,并... 针对考虑通过性约束和安全性约束的动态规划模型,其在混行和大流量条件下模型复杂度较高,甚至会出现无解的问题,本文提出一种混行信控路段智能网联车辆生态驾驶轨迹优化的深度强化学习模型。本文所提模型通过设定不同程度的奖惩机制,并采用双延迟深度确定性策略梯度算法优化混行车流中智能网联车辆接近信号交叉口的轨迹。首先,选取车距、速度差、速度、到交叉口距离、排队长度、信号相位及配时等特征作为智能体状态,刻画驾驶安全性和通行效率,特别地,将交叉口排队长度扩增到状态中,解决智能网联车辆因有人驾驶车辆排队而临时停车的问题;其次,构建基于智能体状态和预期到达交叉口时间的多目标奖励函数,同时,优化混行车流下智能网联车辆的效率、能耗、舒适性和安全性,解决动态规划模型约束与求解复杂度关联的问题。仿真训练和测试结果表明,随着智能网联车辆渗透率的提高,车辆在交叉口等待时间显著减少;与无控制相比,能耗降低约5.47%;与动态规划模型相比,能耗降低约4.42%,与基于深度确定性策略梯度轨迹规划模型相比,能耗降低约2.91%。此外,在交通需求和信号周期波动条件下,本文所提模型均可实现智能网联车辆不停车通过信号交叉口。 展开更多
关键词 智能交通 轨迹优化 双延迟深度确定性策略梯度 信号交叉口 智能网联车辆
下载PDF
扩展目标跟踪中基于深度强化学习的传感器管理方法
5
作者 张虹芸 陈辉 张文旭 《自动化学报》 EI CAS CSCD 北大核心 2024年第7期1417-1431,共15页
针对扩展目标跟踪(Extended target tracking,ETT)优化中的传感器管理问题,基于随机矩阵模型(Random matrices model,RMM)建模扩展目标,提出一种基于深度强化学习(Deep reinforcement learning,DRL)的传感器管理方法.首先,在部分可观测... 针对扩展目标跟踪(Extended target tracking,ETT)优化中的传感器管理问题,基于随机矩阵模型(Random matrices model,RMM)建模扩展目标,提出一种基于深度强化学习(Deep reinforcement learning,DRL)的传感器管理方法.首先,在部分可观测马尔科夫决策过程(Partially observed Markov decision process,POMDP)理论框架下,给出基于双延迟深度确定性策略梯度(Twin delayed deep deterministic policy gradient,TD3)算法的扩展目标跟踪传感器管理的基本方法;其次,利用高斯瓦瑟斯坦距离(Gaussian Wasserstein distance,GWD)求解扩展目标先验概率密度与后验概率密度之间的信息增益,对扩展目标多特征估计信息进行综合评价,进而以信息增益作为TD3算法奖励函数的构建;然后,通过推导出的奖励函数,进行基于深度强化学习的传感器管理方法的最优决策;最后,通过构造扩展目标跟踪优化仿真实验,验证了所提方法的有效性. 展开更多
关键词 传感器管理 扩展目标跟踪 深度强化学习 双延迟深度确定性策略梯度 信息增益
下载PDF
基于深度强化学习的综合能源系统低碳经济调度
6
作者 崔在兴 应雨龙 +1 位作者 李靖超 王新友 《南京信息工程大学学报》 CAS 北大核心 2024年第5期599-607,共9页
综合能源系统(IES)能够实现多种能源形式的供应,但同时排放的大量CO_(2)也影响着周边环境.针对综合能源系统的低碳经济调度问题,本文提出一种基于双延迟深度确定性策略梯度(TD3)算法的优化调度策略.首先,以调度运行成本最小为目标函数,... 综合能源系统(IES)能够实现多种能源形式的供应,但同时排放的大量CO_(2)也影响着周边环境.针对综合能源系统的低碳经济调度问题,本文提出一种基于双延迟深度确定性策略梯度(TD3)算法的优化调度策略.首先,以调度运行成本最小为目标函数,建立考虑碳捕集技术和电转气技术的包含电、热、冷多能互补的综合能源系统模型;其次,引入碳交易机制,提高优化调度策略节能减排的积极性;然后,根据强化学习框架设计优化模型的状态空间、动作空间和奖励函数等,利用TD3算法中的智能体与环境互动,学习综合能源系统的运行策略;最后,利用历史数据对TD3算法的智能体进行训练,并对比线性规划和粒子群算法在不同场景下进行算例分析.结果表明,本文所提方法可以减少综合能源系统运行时的碳排放和运行成本,能够实现综合能源系统的低碳经济调度. 展开更多
关键词 碳捕获系统 电转气 深度强化学习 双延迟深度确定性策略梯度 综合能源系统 碳交易机制
下载PDF
基于连续动作空间深度强化学习的多数据融合室内定位方法
7
作者 陈雪晨 易嘉旋 +1 位作者 王霭祥 邓晓衡 《物联网学报》 2024年第1期40-48,共9页
基于智能手机的室内定位在研究和工业领域都引起了相当大的关注。然而在复杂的定位环境中,定位的准确性和鲁棒性仍然是具有挑战性的问题。考虑到行人航位推算(PDR,pedestrian dead reckoning)算法被广泛配备在最近的智能手机上,提出了... 基于智能手机的室内定位在研究和工业领域都引起了相当大的关注。然而在复杂的定位环境中,定位的准确性和鲁棒性仍然是具有挑战性的问题。考虑到行人航位推算(PDR,pedestrian dead reckoning)算法被广泛配备在最近的智能手机上,提出了一种基于双延迟深度确定性策略梯度(TD3,twin delayed deep deterministic policy gradient)的室内定位融合方法,该方法集成了Wi-Fi信息和PDR数据,将PDR的定位过程建模为马尔可夫过程并引入了智能体的连续动作空间。最后,与3个最先进的深度Q网络(DQN,deep Q network)室内定位方法进行实验。实验结果表明,该方法能够显著减少定位误差,提高定位准确性。 展开更多
关键词 WI-FI 行人航位推算 室内定位 双延迟深度确定性策略梯度 深度强化学习
下载PDF
基于乐观探索的双延迟深度确定性策略梯度
8
作者 王浩宇 张衡波 +1 位作者 程玉虎 王雪松 《南京理工大学学报》 CAS CSCD 北大核心 2024年第3期300-309,共10页
双延迟深度确定性策略梯度是深度强化学习的一个主流算法,是一种无模型强化学习,已成功应用于具有挑战性的连续控制任务中。然而,当环境中奖励稀疏或者状态空间较大时,双延迟深度确定性策略梯度的样本效率较差,环境探索能力较弱。针对... 双延迟深度确定性策略梯度是深度强化学习的一个主流算法,是一种无模型强化学习,已成功应用于具有挑战性的连续控制任务中。然而,当环境中奖励稀疏或者状态空间较大时,双延迟深度确定性策略梯度的样本效率较差,环境探索能力较弱。针对通过双Q值函数的下界确定目标函数带来的低效探索问题,提出一种基于乐观探索的双延迟深度确定性策略梯度(TD3-OE)。首先,从双Q值函数出发,分析取下界会使得探索具有一定的悲观性;然后,利用高斯函数和分段函数分别对双Q值函数进行拟合;最后,利用拟合Q值函数和目标策略构造出探索策略,指导智能体在环境中进行探索。探索策略能够避免智能体学习到次优策略,从而有效解决低效探索的问题。该文在基于MuJoCo物理引擎的控制平台上将所提算法与基准算法进行试验对比,验证了所提算法的有效性。试验结果表明:所提算法在奖励、稳定性和学习速度等指标上均达到或超过其他基础强化学习算法。 展开更多
关键词 深度强化学习 双延迟深度确定性策略梯度 探索策略 乐观探索
下载PDF
面向无人机数字孪生边缘网络的联邦学习资源自适应优化机制
9
作者 谢正昊 赖健鑫 +1 位作者 庄晓翀 蒋丽 《广东工业大学学报》 CAS 2024年第4期61-69,共9页
为了解决无人机数字孪生边缘网络联邦学习性能优化问题,本文提出一种基于深度强化学习的无人机数字孪生边缘网络资源调度策略。考虑动态时变的无人机数字孪生边缘网络环境,构建包含地面基站(Base Station,BS)、地面智能终端、空中无人... 为了解决无人机数字孪生边缘网络联邦学习性能优化问题,本文提出一种基于深度强化学习的无人机数字孪生边缘网络资源调度策略。考虑动态时变的无人机数字孪生边缘网络环境,构建包含地面基站(Base Station,BS)、地面智能终端、空中无人机以及无线传输信道的孪生网络模型,建立联合无人机飞行距离、飞行角度以及无线网络频谱资源分配的自适应资源优化模型,实现最小化联邦学习时延的目标。在无人机数字孪生边缘网络环境下,提出多智能体深度确定性策略梯度算法(Multi-Agent Deep Deterministic Policy Gradient,MA-DDPG),求解自适应资源优化模型。算法训练过程采用中心化训练、去中心化执行的方式,每个无人机智能体在评估动作价值时会考虑其他智能体的状态和动作,而在执行时只根据自身的局部观察来决定动作。上述训练过程将在数字孪生环境中执行,算法收敛后再应用于真实世界,最大限度地减少物理实体的资源开销。仿真结果表明,所提算法可显著降低联邦学习服务时延,同时保证联邦学习训练损失和准确率的优越性。 展开更多
关键词 无人机网络 数字孪生 联邦学习 多智能体深度确定性策略梯度
下载PDF
基于改进TD3的欠驱动无人水面艇路径跟踪控制
10
作者 曲星儒 江雨泽 +2 位作者 李初 龙飞飞 张汝波 《上海海事大学学报》 北大核心 2024年第3期1-9,共9页
针对模型参数未知和海洋环境干扰下的欠驱动无人水面艇(unmanned surface vehicles,USV)路径跟踪问题,提出一种基于改进双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)的控制方法。在运动学层次上,设... 针对模型参数未知和海洋环境干扰下的欠驱动无人水面艇(unmanned surface vehicles,USV)路径跟踪问题,提出一种基于改进双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)的控制方法。在运动学层次上,设计基于视线制导的航速航向联合制导律,引导USV准确跟踪期望路径。在动力学层次上,设计基于改进TD3的强化学习动力学控制器;采用基于时间差分误差的优先经验回放技术,建立包含路径跟踪成功和失败采样信息的双经验池,通过自适应比例系数调整每批次回放数据的组成结构;搭建包含长短期记忆网络的评价网络和策略网络,利用历史状态序列信息提高路径跟踪控制器的训练效率。仿真结果表明,基于改进TD3的控制方法可有效提高欠驱动USV的跟踪精度。该方法不依赖USV模型,可为USV路径跟踪控制提供参考。 展开更多
关键词 无人水面艇 路径跟踪控制 双延迟深度确定性策略梯度 优先经验回放 长短期记忆网络
下载PDF
基于深度强化学习的配电网无功电压控制策略研究
11
作者 陶用伟 朱勇 《电工技术》 2024年第15期92-94,共3页
随着可再生能源装机规模的逐步提升,并网会对系统的电压造成影响。为了提升对配电网电压的控制要求,提出一种基于深度强化学习的配电网无功电压控制策略。首先以配电网节点电压和网络损耗为目标建立模型;其次将各个光伏逆变器建模为强... 随着可再生能源装机规模的逐步提升,并网会对系统的电压造成影响。为了提升对配电网电压的控制要求,提出一种基于深度强化学习的配电网无功电压控制策略。首先以配电网节点电压和网络损耗为目标建立模型;其次将各个光伏逆变器建模为强化学习环境的智能体,通过配电网分区把光伏逆变器的协同控制问题转化为可观测的马尔科夫决策过程,采用双延迟深度确定性梯度算法进行求解;最后结合改进IEEE 33节点进行验证,结果验证了所提策略的有效性,能提升电压的稳定性、降低网损。 展开更多
关键词 深度强化学习 配电网 无功电压控制 双延迟深度确定性梯度算法
下载PDF
基于改进双延迟深度确定性策略梯度算法的电网有功安全校正控制 被引量:8
12
作者 顾雪平 刘彤 +2 位作者 李少岩 王铁强 杨晓东 《电工技术学报》 EI CSCD 北大核心 2023年第8期2162-2177,共16页
新型电力系统中,由于源荷不确定性的影响,发生线路过载事故的风险增大,传统的有功安全校正方法无法有效兼顾计算速度及效果等。基于此,该文提出一种基于改进双延迟深度确定性策略梯度算法的电网有功安全校正控制方法。首先,在满足系统... 新型电力系统中,由于源荷不确定性的影响,发生线路过载事故的风险增大,传统的有功安全校正方法无法有效兼顾计算速度及效果等。基于此,该文提出一种基于改进双延迟深度确定性策略梯度算法的电网有功安全校正控制方法。首先,在满足系统静态安全约束条件下,以可调元件出力调整量最小且保证系统整体运行安全性最高为目标,建立有功安全校正控制模型。其次,构建有功安全校正的深度强化学习框架,定义计及目标与约束的奖励函数、反映电力系统运行的观测状态、可改变系统状态的调节动作以及基于改进双延迟深度确定性策略梯度算法的智能体。最后,构造考虑源荷不确定性的历史系统过载场景,借助深度强化学习模型对智能体进行持续交互训练以获得良好的决策效果;并且进行在线应用,计及源荷未来可能的取值,快速得到最优的元件调整方案,消除过载线路。IEEE 39节点系统和IEEE 118节点系统算例结果表明,所提方法能够有效消除电力系统中的线路过载且避免短时间内再次越限,在计算速度、校正效果等方面,与传统方法相比具有明显的优势。 展开更多
关键词 新型电力系统 有功安全校正 深度强化学习 改进双延迟深度确定性策略 最优调整方案
下载PDF
基于双延迟深度确定性策略梯度的船舶自主避碰方法 被引量:7
13
作者 刘钊 周壮壮 +1 位作者 张明阳 刘敬贤 《交通信息与安全》 CSCD 北大核心 2022年第3期60-74,共15页
为满足智能船舶自主航行的发展需求,解决基于强化学习的船舶避碰决策方法存在的学习效率低、泛化能力弱以及复杂会遇场景下鲁棒性差等问题,针对船舶避碰决策信息的高维性和动作的连续性等特点,考虑决策的合理性和实时性,研究了基于双延... 为满足智能船舶自主航行的发展需求,解决基于强化学习的船舶避碰决策方法存在的学习效率低、泛化能力弱以及复杂会遇场景下鲁棒性差等问题,针对船舶避碰决策信息的高维性和动作的连续性等特点,考虑决策的合理性和实时性,研究了基于双延迟深度确定性策略梯度(TD3)的船舶自主避碰方法。根据船舶间相对运动信息与碰撞危险信息,从全局角度构建具有连续多时刻目标船信息的状态空间;依据船舶操纵性设计连续决策动作空间;综合考虑目标导向、航向保持、碰撞危险、《1972年国际海上避碰规则》(COLREGs)和良好船艺等因素,设计船舶运动的奖励函数;基于TD3算法,根据状态空间结构,结合长短期记忆(LSTM)网络和一维卷积网络,利用Actor-Critic结构设计船舶自主避碰网络模型,利用双价值网络学习、目标策略平滑以及策略网络延迟更新等方式稳定网络训练,利用跳帧以及批量大小和迭代更新次数动态增大等方式加速网络训练;为解决模型泛化能力弱的问题,提出基于TD3的船舶随机会遇场景训练流程,实现自主避碰模型应用的多场景迁移。运用训练得到的船舶自主避碰模型进行仿真验证,并与改进人工势场(APF)算法进行比较,结果表明:所提方法学习效率高,收敛快速平稳;训练得到的自主避碰模型在2船和多船会遇场景下均能使船舶在安全距离上驶过,并且在复杂会遇场景中比改进APF算法避碰成功率高,避让2~4艘目标船时成功率高达99.233%,5~7艘目标船时成功率97.600%,8~10艘目标船时成功率94.166%;所提方法能有效应对来船的不协调行动,避碰实时性高,决策安全合理,航向变化快速平稳、震荡少、避碰路径光滑,比改进APF方法性能更强。 展开更多
关键词 交通信息工程 船舶避碰 智能决策 深度强化学习 双延迟深度确定性策略梯度
下载PDF
Real-Time Implementation of Quadrotor UAV Control System Based on a Deep Reinforcement Learning Approach
14
作者 Taha Yacine Trad Kheireddine Choutri +4 位作者 Mohand Lagha Souham Meshoul Fouad Khenfri Raouf Fareh Hadil Shaiba 《Computers, Materials & Continua》 SCIE EI 2024年第12期4757-4786,共30页
The popularity of quadrotor Unmanned Aerial Vehicles(UAVs)stems from their simple propulsion systems and structural design.However,their complex and nonlinear dynamic behavior presents a significant challenge for cont... The popularity of quadrotor Unmanned Aerial Vehicles(UAVs)stems from their simple propulsion systems and structural design.However,their complex and nonlinear dynamic behavior presents a significant challenge for control,necessitating sophisticated algorithms to ensure stability and accuracy in flight.Various strategies have been explored by researchers and control engineers,with learning-based methods like reinforcement learning,deep learning,and neural networks showing promise in enhancing the robustness and adaptability of quadrotor control systems.This paper investigates a Reinforcement Learning(RL)approach for both high and low-level quadrotor control systems,focusing on attitude stabilization and position tracking tasks.A novel reward function and actor-critic network structures are designed to stimulate high-order observable states,improving the agent’s understanding of the quadrotor’s dynamics and environmental constraints.To address the challenge of RL hyper-parameter tuning,a new framework is introduced that combines Simulated Annealing(SA)with a reinforcement learning algorithm,specifically Simulated Annealing-Twin Delayed Deep Deterministic Policy Gradient(SA-TD3).This approach is evaluated for path-following and stabilization tasks through comparative assessments with two commonly used control methods:Backstepping and Sliding Mode Control(SMC).While the implementation of the well-trained agents exhibited unexpected behavior during real-world testing,a reduced neural network used for altitude control was successfully implemented on a Parrot Mambo mini drone.The results showcase the potential of the proposed SA-TD3 framework for real-world applications,demonstrating improved stability and precision across various test scenarios and highlighting its feasibility for practical deployment. 展开更多
关键词 deep reinforcement learning hyper-parameters optimization path following quadrotor twin delayed deep deterministic policy gradient and simulated annealing
下载PDF
适用于强化学习惯性环境的分数阶改进OU噪声 被引量:1
15
作者 王涛 张卫华 蒲亦非 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第2期57-63,共7页
本文将DDPG算法中使用的Ornstein-Uhlenbeck(OU)噪声整数阶微分模型推广为分数阶OU噪声模型,使得噪声的产生不仅和前一步的噪声有关而且和前K步产生的噪声都有关联.通过在gym惯性环境下对比基于分数阶OU噪声的DDPG和TD3算法和原始的DDPG... 本文将DDPG算法中使用的Ornstein-Uhlenbeck(OU)噪声整数阶微分模型推广为分数阶OU噪声模型,使得噪声的产生不仅和前一步的噪声有关而且和前K步产生的噪声都有关联.通过在gym惯性环境下对比基于分数阶OU噪声的DDPG和TD3算法和原始的DDPG和TD3算法,我们发现基于分数阶微积分的OU噪声相比于原始的OU噪声能在更大范围内震荡,使用分数阶OU噪声的算法在惯性环境下具有更好的探索能力,收敛得更快. 展开更多
关键词 DDPG算法 TD3算法 分数阶微积分 OU噪声 强化学习
下载PDF
基于动态延迟策略更新的TD3算法 被引量:3
16
作者 康朝海 孙超 +1 位作者 荣垂霆 刘鹏云 《吉林大学学报(信息科学版)》 CAS 2020年第4期474-481,共8页
在深度强化学习领域中,为进一步减少双延迟深度确定性策略梯度TD3(Twin Delayed Deep Deterministic Policy Gradients)中价值过估计对策略估计的影响,加快模型学习的效率,提出一种基于动态延迟策略更新的双延迟深度确定性策略梯度(DD-T... 在深度强化学习领域中,为进一步减少双延迟深度确定性策略梯度TD3(Twin Delayed Deep Deterministic Policy Gradients)中价值过估计对策略估计的影响,加快模型学习的效率,提出一种基于动态延迟策略更新的双延迟深度确定性策略梯度(DD-TD3:Twin Delayed Deep Deterministic Policy Gradients with Dynamic Delayed Policy Update)。在DD-TD3方法中,通过Critic网络的最新Loss值与其指数加权移动平均值的动态差异指导Actor网络的延迟更新步长。实验结果表明,与原始TD3算法在2000步获得较高的奖励值相比,DD-TD3方法可在约1000步内学习到最优控制策略,并且获得更高的奖励值,从而提高寻找最优策略的效率。 展开更多
关键词 深度强化学习 TD3算法 动态延迟策略更新
下载PDF
基于深度强化学习的UAV航路自主引导机动控制决策算法 被引量:13
17
作者 张堃 李珂 +2 位作者 时昊天 张振冲 刘泽坤 《系统工程与电子技术》 EI CSCD 北大核心 2020年第7期1567-1574,共8页
针对无人机(unmanned aerial vehicle,UAV)航路终端约束情况下航路自主引导机动控制决策问题,采用Markov决策过程模型建立UAV自主飞行机动模型,基于深度确定性策略梯度提出UAV航路自主引导机动控制决策算法,拟合UAV航路自主引导机动控... 针对无人机(unmanned aerial vehicle,UAV)航路终端约束情况下航路自主引导机动控制决策问题,采用Markov决策过程模型建立UAV自主飞行机动模型,基于深度确定性策略梯度提出UAV航路自主引导机动控制决策算法,拟合UAV航路自主引导机动控制决策函数与状态动作值函数,生成最优决策网络,开展仿真验证。仿真结果表明,该算法实现了UAV在任意位置/姿态的初始条件下,向航路目标点的自主飞行,可有效提高UAV机动控制的自主性。 展开更多
关键词 自主引导 机动控制决策 MARKOV决策过程 深度确定性策略梯度法 深度强化学习
下载PDF
基于改进TD3算法的综合能源系统低碳经济调度 被引量:1
18
作者 邱革非 何虹辉 +3 位作者 刘铠铭 罗世杰 何超 沈赋 《电力科学与工程》 2023年第10期52-62,共11页
在用传统调度方法进行综合能源系统低碳经济调度时会面临数据维数高、建模难度大等困难。虽然用基于数据驱动自适应挖掘物理模型的深度强化学习算法有希望克服这些困难,且其中确定性策略梯度算法尤其适用于连续决策变量问题的求解,但该... 在用传统调度方法进行综合能源系统低碳经济调度时会面临数据维数高、建模难度大等困难。虽然用基于数据驱动自适应挖掘物理模型的深度强化学习算法有希望克服这些困难,且其中确定性策略梯度算法尤其适用于连续决策变量问题的求解,但该算法在实际应用时存在训练效率普遍较低的问题。对此,提出了一种基于改进双延迟深度确定性策略梯度算法的调度决策模型。首先基于综合能源系统低碳经济调度特性建立序贯马尔可夫决策过程模型;进而应用改进双延迟深度确定性策略梯度算法构建并训练神经网络,避免过估计并提高网络输出稳定性。同时,为提升网络训练效率,以求和树对训练过程中的历史经验数据进行存储和经验回放采样。实验结果表明,所提方法能对综合能源系统低碳经济调度问题进行有效求解,且比传统强化学习算法表现更优。 展开更多
关键词 综合能源系统 低碳经济调度 电力系统调度 深度强化学习算法 求和树 双延迟深度确定性策略梯度算法
下载PDF
需量电费影响下的CCHP系统深度强化学习运行优化
19
作者 高文忠 张毅 《中国农业科技导报》 CAS CSCD 北大核心 2023年第4期100-109,共10页
在全球能源紧张的趋势下,冷热电三联供(combined cold,hot and power,CCHP)系统因能源可梯级利用和一次能源利用率高的优势日益受到重视。然而,由于影响因素复杂、多变,特别是需量电费的存在,CCHP系统以现有控制手段和实时满足用户侧供... 在全球能源紧张的趋势下,冷热电三联供(combined cold,hot and power,CCHP)系统因能源可梯级利用和一次能源利用率高的优势日益受到重视。然而,由于影响因素复杂、多变,特别是需量电费的存在,CCHP系统以现有控制手段和实时满足用户侧供能需求的前提下难以以经济性目标运行。为了在考虑需求电费的条件下最大限度地降低运行成本,提出基于TD3算法的CCHP系统控制策略优化方法,对系统的各个设备进行建模,将CCHP系统运行优化问题转化为马尔卡夫决策问题,利用TD3算法求解,并进行实例验证分析。结果表明,考虑需量电费的TD3代理良好地平衡了需量电费和实时运行费用,且具有泛化性;相较于历史运行策略和不考虑需量电费的TD3代理运行策略,总运行成本分别降低了41.5%和8.6%。研究结果为减少农业供能成本、提高经济性提供了新的解决方案。 展开更多
关键词 冷热电三联供系统 需量电费 深度强化学习 双延迟深度确定性策略梯度
下载PDF
基于改进TD3的MEC多任务计算卸载
20
作者 于波 毛鑫浩 《计算机系统应用》 2023年第12期95-103,共9页
在多用户多任务场景下,使用传统的决策算法去对短时间内接踵而来的任务进行计算卸载决策,已经不能满足用户对决策效率和资源利用率的要求.因此有研究提出使用深度强化学习算法来进行卸载决策以满足各种场景下的需求,但是这些算法大多只... 在多用户多任务场景下,使用传统的决策算法去对短时间内接踵而来的任务进行计算卸载决策,已经不能满足用户对决策效率和资源利用率的要求.因此有研究提出使用深度强化学习算法来进行卸载决策以满足各种场景下的需求,但是这些算法大多只考虑卸载优先的策略,这种策略使用户设备(UE)被大量闲置.我们提高了移动边缘计算(MEC)服务器和用户设备(UE)的资源利用率,降低计算卸载的错误率,提出了一种本地优先和改进TD3(twin delayed deep deterministic policy gradient)算法相结合的决策卸载模型,并设计了仿真实验,通过实验证明该模型确实可以提高MEC服务器和UE的资源利用率并降低错误率. 展开更多
关键词 移动边缘计算 计算卸载 双延迟深度确定性策略梯度(TD3) 资源分配
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部