期刊文献+
共找到40篇文章
< 1 2 >
每页显示 20 50 100
A UAV collaborative defense scheme driven by DDPG algorithm
1
作者 ZHANG Yaozhong WU Zhuoran +1 位作者 XIONG Zhenkai CHEN Long 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2023年第5期1211-1224,共14页
The deep deterministic policy gradient(DDPG)algo-rithm is an off-policy method that combines two mainstream reinforcement learning methods based on value iteration and policy iteration.Using the DDPG algorithm,agents ... The deep deterministic policy gradient(DDPG)algo-rithm is an off-policy method that combines two mainstream reinforcement learning methods based on value iteration and policy iteration.Using the DDPG algorithm,agents can explore and summarize the environment to achieve autonomous deci-sions in the continuous state space and action space.In this paper,a cooperative defense with DDPG via swarms of unmanned aerial vehicle(UAV)is developed and validated,which has shown promising practical value in the effect of defending.We solve the sparse rewards problem of reinforcement learning pair in a long-term task by building the reward function of UAV swarms and optimizing the learning process of artificial neural network based on the DDPG algorithm to reduce the vibration in the learning process.The experimental results show that the DDPG algorithm can guide the UAVs swarm to perform the defense task efficiently,meeting the requirements of a UAV swarm for non-centralization,autonomy,and promoting the intelligent development of UAVs swarm as well as the decision-making process. 展开更多
关键词 deep deterministic policy gradient(ddpg)algorithm unmanned aerial vehicles(UAVs)swarm task decision making deep reinforcement learning sparse reward problem
下载PDF
基于DDPG改进PID算法的堆肥翻堆作业反馈控制
2
作者 王悦辰 王纪章 +1 位作者 茆寒 姚承志 《中国农机化学报》 北大核心 2024年第6期184-190,200,共8页
在农业废弃物堆肥发酵过程中物料的含水率会发生变化,导致翻堆作业负荷的变化。而现有的翻堆作业主要通过人工操作,导致机器作业过程中作业效率低,容易产生故障。针对人工操作翻堆机作业时出现调控不精准的问题,通过试验构建翻堆机作业... 在农业废弃物堆肥发酵过程中物料的含水率会发生变化,导致翻堆作业负荷的变化。而现有的翻堆作业主要通过人工操作,导致机器作业过程中作业效率低,容易产生故障。针对人工操作翻堆机作业时出现调控不精准的问题,通过试验构建翻堆机作业负荷与翻堆物料含水率、翻堆机行走速度关系模型,并结合翻堆机变频调速控制模型,利用DDPG(Deep Deterministic Policy Gradient)改进PID算法对翻堆作业调速系统进行优化控制。经过Simulink仿真结果表明,DDPG改进PID算法相比传统PID算法在超调量上减少6.7%,调节时间减少2.5 s,并且抗扰动与跟随性能均更优。翻堆作业现场测试结果表明:DDPG改进PID算法的控制方式相比传统PID算法超调量要降低4%、调节时间减少2 s,相比人工控制其调节时间减少6 s。 展开更多
关键词 堆肥 翻堆 PID控制 反馈控制 ddpg算法
下载PDF
自动驾驶路径优化的RF-DDPG车辆控制算法研究
3
作者 焦龙飞 谷志茹 +2 位作者 舒小华 袁鹏 王建斌 《湖南工业大学学报》 2024年第1期62-69,共8页
针对自动驾驶车辆在行使中对目标路径跟踪精度不高、鲁棒性能较差等问题,提出了一种深度确定性策略梯度RF-DDPG(reward function-deep deterministic policy gradient)路径跟踪算法。该算法是在深度强化学习DDPG的基础上,设计DDPG算法... 针对自动驾驶车辆在行使中对目标路径跟踪精度不高、鲁棒性能较差等问题,提出了一种深度确定性策略梯度RF-DDPG(reward function-deep deterministic policy gradient)路径跟踪算法。该算法是在深度强化学习DDPG的基础上,设计DDPG算法的奖励函数,以此优化DDPG的参数,达到所需跟踪精度及稳定性。并且采用aopllo自动驾驶仿真平台,对原始的DDPG算法和改进的RF-DDPG路径跟踪控制算法进行了仿真实验。研究结果表明,所提出的RF-DDPG算法在路径跟踪精度以及鲁棒性能等方面均优于DDPG算法。 展开更多
关键词 自动驾驶 路径跟踪 深度强化学习 路径控制 ddpg算法
下载PDF
D2D通信增强的蜂窝网络中基于DDPG的资源分配
4
作者 唐睿 庞川林 +2 位作者 张睿智 刘川 岳士博 《计算机应用》 CSCD 北大核心 2024年第5期1562-1569,共8页
针对终端直通(D2D)通信增强的蜂窝网络中存在的同频干扰,通过联合调控信道分配和功率控制最大化D2D链路和速率,并同时满足功率约束和蜂窝链路的服务质量(QoS)需求。为有效求解上述资源分配所对应的混合整数非凸规划问题,将原问题转化为... 针对终端直通(D2D)通信增强的蜂窝网络中存在的同频干扰,通过联合调控信道分配和功率控制最大化D2D链路和速率,并同时满足功率约束和蜂窝链路的服务质量(QoS)需求。为有效求解上述资源分配所对应的混合整数非凸规划问题,将原问题转化为马尔可夫决策过程,并提出一种基于深度确定性策略梯度(DDPG)算法的机制。通过离线训练,直接构建了从信道状态信息到最佳资源分配策略的映射关系,而且无需求解任何优化问题,因此可通过在线方式部署。仿真结果表明,相较于遍历搜索机制,所提机制在仅损失9.726%性能的情况下将运算时间降低了4个数量级(99.51%)。 展开更多
关键词 终端直通通信 资源分配 马尔可夫决策过程 深度强化学习 深度确定性策略梯度算法
下载PDF
基于DDPG算法的微网负载端接口变换器自抗扰控制
5
作者 周雪松 张心茹 +3 位作者 赵浛宇 王博 赵明 问虎龙 《电力系统保护与控制》 EI CSCD 北大核心 2023年第21期66-75,共10页
直流微电网是新能源综合利用的重要形式,但其中的分布式接口往往存在着强随机性扰动,这给直流变换器的稳压控制带来了诸多问题。为了尽可能地抑制控制器参数固定时这种不确定性特征引起的不利影响,提出了一种利用深度确定性策略梯度(dee... 直流微电网是新能源综合利用的重要形式,但其中的分布式接口往往存在着强随机性扰动,这给直流变换器的稳压控制带来了诸多问题。为了尽可能地抑制控制器参数固定时这种不确定性特征引起的不利影响,提出了一种利用深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法整定线性自抗扰控制器参数的方法。依靠引入了智能算法的自抗扰微电网控制系统,实现了控制器参数的自适应调整,从而实现了微电网接口变换器的稳定运行。通过仿真对比了各类典型工况下,DDPG-LADRC与传统线性自抗扰控制器(linear active disturbance rejection control,LADRC)、双闭环比例-积分控制器的性能差异,验证了所提控制策略的有效性。而参数摄动下的鲁棒性分析结果结合多项指标下的系统整体性分析,充分体现了控制器参数的智能化调整所带来的多工况自适应性增益的优越性,具备较强的工程价值。 展开更多
关键词 微电网 DC-DC变换器 线性自抗扰控制 深度强化学习 ddpg算法 抗扰性
下载PDF
基于DDPG算法的双轮腿机器人运动控制研究 被引量:5
6
作者 陈恺丰 田博睿 +4 位作者 李和清 赵晨阳 陆祖兴 李新德 邓勇 《系统工程与电子技术》 EI CSCD 北大核心 2023年第4期1144-1151,共8页
轮腿式机器人兼具轮式和足式机器人的机动性和灵活性,在多种场景中具有广泛的应用前景。针对双轮腿机器人在崎岖地形运动控制缺陷、高度依赖于精确动力学模型、无法自适应求解等问题,提出一种基于深度确定性策略梯度(deep deterministic... 轮腿式机器人兼具轮式和足式机器人的机动性和灵活性,在多种场景中具有广泛的应用前景。针对双轮腿机器人在崎岖地形运动控制缺陷、高度依赖于精确动力学模型、无法自适应求解等问题,提出一种基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的双轮腿机器人控制方法。首先,分析了双轮腿机器人模型及其模糊动力学模型;然后,使用DDPG算法生成双轮腿机器人在崎岖地面的运动控制策略;最后,为了验证控制器性能,分别进行了3组运动控制对比实验。仿真实验表明,在缺少地面状况先验知识的条件下,采用DDPG算法生成的运动控制策略实现了双轮腿式机器人在崎岖地面快速稳定运动的功能,其平均速度相比双轮机器人提高了约29.2%,姿态角偏移峰值相比双足机器人分别减小了约43.9%、66%、50%。 展开更多
关键词 运动控制 强化学习 轮腿机器人 深度确定性策略梯度算法
下载PDF
改进型DDPG算法的多智能体编队控制与仿真
7
作者 景永年 耿双双 +1 位作者 向瑶 文家燕 《广西科技大学学报》 CAS 2023年第3期62-71,共10页
针对多智能体系统编队在路径规划过程中队形不稳定、获取路径时间较慢以及在避障过程中存在与障碍物距离较近的问题,本文采用角度距离度量的方式对多智能体进行编队,通过改变传统的由起始点到达终点避障过程所形成的路径规划方法,弱化... 针对多智能体系统编队在路径规划过程中队形不稳定、获取路径时间较慢以及在避障过程中存在与障碍物距离较近的问题,本文采用角度距离度量的方式对多智能体进行编队,通过改变传统的由起始点到达终点避障过程所形成的路径规划方法,弱化起始点和终点概念,添加路径中点的方式,使智能体同时从起点以及终点向中点移动,形成由起点指向中点、终点指向中点的2条路径。将奖励函数设计为同号智能体相碰为正向奖励,异号智能体相碰以及智能体(同号智能体和异号智能体)与障碍物之间相碰均为负向奖励。在搭建的静态和动态障碍物2种仿真环境下分别进行可变容量体验池深度确定性策略梯度算法(deep deterministic policy gradient-variable capacity experience pool,DDPG-vcep)验证,并对比不同训练次数下的奖赏值。仿真结果表明,改进后的DDPG编队算法较传统DDPG算法节约了路径获取时间,编队避障的效果更加明显。 展开更多
关键词 深度学习 强化学习 深度确定性策略梯度算法(ddpg算法) 多智能体 编队控制 避障
下载PDF
基于DDPG算法的云数据中心任务节能调度研究
8
作者 王立红 张延华 +1 位作者 孟德彬 李萌 《高技术通讯》 CAS 2023年第9期927-936,共10页
承载云计算产业的数据中心近年来数量和规模迅速增加,产生巨大电力消耗。因此,数据中心节能减排迫在眉睫。本文提出一种节能调度策略,其核心思想是使用准入控制和优先级控制对队列任务进行筛选和排序,然后基于深度确定性策略梯度(DDPG)... 承载云计算产业的数据中心近年来数量和规模迅速增加,产生巨大电力消耗。因此,数据中心节能减排迫在眉睫。本文提出一种节能调度策略,其核心思想是使用准入控制和优先级控制对队列任务进行筛选和排序,然后基于深度确定性策略梯度(DDPG)算法对任务进行在线调度,以适应云计算负载的高度动态性,使能耗最小化。仿真实验结果表明,本文所采用的调度方案在降低云数据中心能耗和减小任务的响应时间方面具有有效性。 展开更多
关键词 云数据中心 深度强化学习(DRL) 任务调度 深度确定性策略梯度(ddpg)算法
下载PDF
小型无人有缆遥控水下机器人智能控制方法
9
作者 黄兆军 曾明如 《实验室研究与探索》 CAS 北大核心 2024年第7期34-38,53,共6页
针对深度确定性策略梯度(DDPG)算法应用于无人有缆遥控水下机器人(ROV)运动控制时存在的坏样本影响学习稳定性、缺少环境探索能力以及学习时间长难收敛等问题,从神经网络结构、噪声引入和融合监督学习3个方面对DDPG算法进行改进,并提出... 针对深度确定性策略梯度(DDPG)算法应用于无人有缆遥控水下机器人(ROV)运动控制时存在的坏样本影响学习稳定性、缺少环境探索能力以及学习时间长难收敛等问题,从神经网络结构、噪声引入和融合监督学习3个方面对DDPG算法进行改进,并提出了基于混合神经网络结构和参数噪声的监督式DDPG算法。仿真结果表明,监督式DDPG算法比常规DDPG算法和传统比例-积分-微分(PID)算法更加有效。 展开更多
关键词 深度确定性策略梯度算法 混合神经网络 参数噪声 监督学习 无人有缆遥控水下机器人 运动控制
下载PDF
基于强化学习的飞行器自主规避决策方法
10
作者 窦立谦 任梦圆 +1 位作者 张秀云 宗群 《航空科学技术》 2024年第6期96-103,共8页
考虑飞行器在执行任务过程中存在诸多不可预知的威胁或障碍,为保障飞行器的安全性,本文进行飞行器面向威胁目标的自主规避决策方法研究。首先综合考虑飞行器与威胁目标行为之间的相互影响,提出了基于深度长短期记忆(LSTM)神经网络的轨... 考虑飞行器在执行任务过程中存在诸多不可预知的威胁或障碍,为保障飞行器的安全性,本文进行飞行器面向威胁目标的自主规避决策方法研究。首先综合考虑飞行器与威胁目标行为之间的相互影响,提出了基于深度长短期记忆(LSTM)神经网络的轨迹预测算法,实现对威胁目标未来轨迹的预测;然后结合预测信息构建拦截场景下规避机动的马尔可夫决策过程,设计了基于改进双延迟深度确定性策略梯度(P-TD3)的飞行器规避决策方法,以最大化规避过程的总收益为优化目标,实现飞行器自主规避决策。最后通过在虚拟仿真交互平台的试验验证,本文的决策方法提升了网络的收敛速度,具有84%的规避成功率,提高了飞行器对潜在威胁的成功规避概率,有利于增强飞行器的自主性与安全性。 展开更多
关键词 高超声速飞行器 强化学习 双延迟深度确定性策略梯度 自主规避 机动决策
下载PDF
仿驾驶员DDPG汽车纵向自动驾驶决策方法 被引量:8
11
作者 高振海 闫相同 +1 位作者 高菲 孙天骏 《汽车工程》 EI CSCD 北大核心 2021年第12期1737-1744,共8页
汽车纵向自动驾驶的决策层根据车辆当前运动状态与环境信息,决策出理想的动作指令。目前如何在自动驾驶决策策略中考虑人类驾驶员的行为成为研究热点。在纵向自动驾驶决策策略中传统的基于规则的决策策略难以运用到复杂的场景中,而当前... 汽车纵向自动驾驶的决策层根据车辆当前运动状态与环境信息,决策出理想的动作指令。目前如何在自动驾驶决策策略中考虑人类驾驶员的行为成为研究热点。在纵向自动驾驶决策策略中传统的基于规则的决策策略难以运用到复杂的场景中,而当前使用强化学习和深度强化学习的决策方法大多通过设计安全性、舒适性、经济性相关公式构建奖励函数,得到的决策策略与人类驾驶员相比仍然存在较大差距。针对以上问题,本文使用驾驶员数据通过BP神经网络拟合设计奖励函数,使用深度强化学习DDPG算法,建立了一种仿驾驶员的纵向自动驾驶决策方法。最终通过仿真测试验证了该方法的有效性和与驾驶员行为的一致性。 展开更多
关键词 自动驾驶 决策算法 深度强化学习 深度确定性策略梯度
下载PDF
基于DDPG算法的游船航行避碰路径规划 被引量:8
12
作者 周怡 袁传平 +1 位作者 谢海成 羊箭锋 《中国舰船研究》 CSCD 北大核心 2021年第6期19-26,60,共9页
[目的]作为船舶航行安全的核心问题,若船舶避碰完全依赖船长的个人状态和判断将存在一定的安全隐患。为了统筹关键水域上所有船舶(游船、货船等)并进行路径预测,需要建立防碰撞预警机制。[方法]利用深度确定性策略梯度(DDPG)算法和船舶... [目的]作为船舶航行安全的核心问题,若船舶避碰完全依赖船长的个人状态和判断将存在一定的安全隐患。为了统筹关键水域上所有船舶(游船、货船等)并进行路径预测,需要建立防碰撞预警机制。[方法]利用深度确定性策略梯度(DDPG)算法和船舶领域模型,采用电子海图模拟船舶的航行路径,提出基于失败区域重点学习的DDPG算法改进策略,并针对游船特点改进的船舶领域模型参数等改进方法,提高航线预测和防碰撞准确率。[结果]使用改进的DDPG算法和改进的船舶领域模型,与未改进前的算法相比,船舶避碰正确率由84.9%升至89.7%,模拟航线与真实航线的平均误差由25.2 m降至21.4 m。[结论]通过基于改进的DDPG算法和改进的船舶领域模型开展船舶避碰路径规划,可以实现水域船舶航线监管功能,且当预测航线与其他船舶存在交会时,告警调度人员,从而实现防碰撞预警机制。 展开更多
关键词 混合航道 船舶领域 船舶避碰 深度确定性策略梯度算法 失败区域探索策略
下载PDF
基于DDPG的光储微电网系统能量决策优化 被引量:4
13
作者 李华 于潇 《可再生能源》 CAS CSCD 北大核心 2021年第5期687-693,共7页
为提高光储微电网系统中的能量管理效率及光电的就地消纳能力,文章以家庭光储微电网系统为研究对象,使用真实的气象数据和分时电价信息建立一个虚拟环境,与家庭光储微电网能量调度策略模型进行交互。采用深度确定性策略梯度算法学习控... 为提高光储微电网系统中的能量管理效率及光电的就地消纳能力,文章以家庭光储微电网系统为研究对象,使用真实的气象数据和分时电价信息建立一个虚拟环境,与家庭光储微电网能量调度策略模型进行交互。采用深度确定性策略梯度算法学习控制蓄电池充/放电功率的连续性,将系统的即时收益和蓄电池可调整出力的加权和作为算法的立即回报,并测试和分析了不同重要性权重对实验结果的影响,最终确定了最优能量调度策略。结果表明,使用深度确定性策略梯度算法可以使系统很好地响应当前和未来的电价信息,在缓解电网压力的同时帮助用户利用能源峰谷电价差套利,并预留了一定的蓄电池调节能力,以减轻光伏出力波动引起的计划外电能交易,证明了该方法的实际意义和应用潜力。 展开更多
关键词 光储微电网 分时电价 蓄电池 深度确定性策略梯度算法
下载PDF
基于深度强化学习的个性化跟车控制模型
14
作者 孙腾超 陈焕明 《农业装备与车辆工程》 2024年第5期87-91,共5页
为解决自动驾驶汽车跟车控制问题,提出并改进了一种基于深度强化学习的个性化跟车控制模型。建立车辆安全时距模型,将其融入车辆运动学模型中;使用深度确定性策略梯度(DDPG)算法训练模型;通过MATLAB和CarSim软件对学习到的控制策略进行... 为解决自动驾驶汽车跟车控制问题,提出并改进了一种基于深度强化学习的个性化跟车控制模型。建立车辆安全时距模型,将其融入车辆运动学模型中;使用深度确定性策略梯度(DDPG)算法训练模型;通过MATLAB和CarSim软件对学习到的控制策略进行联合仿真验证。为使训练结果更加真实可靠,提出将CarSim软件融入到智能体的训练过程;将个性化模块引入模型,使模型可以通过改变参数得到不同的驾驶风格。实验结果表明:在一般车速下,该模型能实现在前车加速或减速情况下控制车辆以一定车速安全行驶,并能够通过改变训练参数实现个性化控制,对自动驾驶车辆跟车过程的研究有一定指导意义。 展开更多
关键词 自动驾驶汽车 个性化跟车模型 深度强化学习 深度确定性策略梯度(ddpg)算法
下载PDF
基于深度强化学习的自主换道控制模型
15
作者 孙腾超 陈焕明 《农业装备与车辆工程》 2024年第4期30-34,共5页
为解决自动驾驶汽车快速安全换道问题,提出并改进了一种基于深度强化学习的自主换道控制模型。首先建立车辆动力学运动模型,其次使用深度确定性策略梯度(DDPG)算法更新模型,最后通过MATLAB/CarSim对学习到的控制策略进行联合仿真验证。... 为解决自动驾驶汽车快速安全换道问题,提出并改进了一种基于深度强化学习的自主换道控制模型。首先建立车辆动力学运动模型,其次使用深度确定性策略梯度(DDPG)算法更新模型,最后通过MATLAB/CarSim对学习到的控制策略进行联合仿真验证。为了使模型更真实可靠,提出将CarSim融入智能体的训练,同时为解决传统模型在换道后期控制效果不理想问题,提出一种基于采样时间的方向盘转角输出模型。结果表明:在60、80 km/h车速下,提出的模型从换道开始到稳定行驶的过程相比于改进前更平顺、快速,验证了模型能够实现一般车速下的自主换道控制,为车辆的自主换道研究提供一定的参考。 展开更多
关键词 自动驾驶汽车 自主换道模型 深度强化学习 轨迹规划跟踪 深度确定性策略梯度算法
下载PDF
基于深度强化学习的IRS辅助NOMA-MEC通信资源分配优化
16
作者 方娟 刘珍珍 +1 位作者 陈思琪 李硕朋 《北京工业大学学报》 CAS CSCD 北大核心 2024年第8期930-938,共9页
为了解决无法与边缘服务器建立直连通信链路的盲区边缘用户卸载任务的问题,设计了一个基于深度强化学习(deep reinforcement learning, DRL)的智能反射面(intelligent reflecting surface, IRS)辅助非正交多址(non-orthogonal multiple ... 为了解决无法与边缘服务器建立直连通信链路的盲区边缘用户卸载任务的问题,设计了一个基于深度强化学习(deep reinforcement learning, DRL)的智能反射面(intelligent reflecting surface, IRS)辅助非正交多址(non-orthogonal multiple access, NOMA)通信的资源分配优化算法,以获得由系统和速率和能源效率(energy efficiency, EE)加权的最大系统收益,从而实现绿色高效通信。通过深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法联合优化传输功率分配和IRS的反射相移矩阵。仿真结果表明,使用DDPG算法处理移动边缘计算(mobile edge computing, MEC)的通信资源分配优于其他几种对比实验算法。 展开更多
关键词 非正交多址(non-orthogonal multiple access NOMA) 智能反射面(intelligent reflecting surface IRS) 深度确定性策略梯度(deep deterministic policy gradient ddpg)算法 移动边缘计算(mobile edge computing MEC) 能源效率(energy efficiency EE) 系统收益
下载PDF
基于DDPG算法的变体飞行器自主变形决策 被引量:7
17
作者 桑晨 郭杰 +2 位作者 唐胜景 王肖 王子瑶 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2022年第5期910-919,共10页
针对变体飞行器的自主变形决策问题,提出了一种基于深度确定性策略梯度(DDPG)算法的智能二维变形决策方法。以可同时变展长及后掠角的飞行器为研究对象,利用DATCOM计算气动数据,并通过分析获得变形量与气动特性之间关系;基于给定的展长... 针对变体飞行器的自主变形决策问题,提出了一种基于深度确定性策略梯度(DDPG)算法的智能二维变形决策方法。以可同时变展长及后掠角的飞行器为研究对象,利用DATCOM计算气动数据,并通过分析获得变形量与气动特性之间关系;基于给定的展长和后掠角变形动力学方程,设计DDPG算法学习步骤;针对对称和不对称变形条件下的变形策略进行学习训练。仿真结果表明:所提算法可以快速收敛,变形误差保持在3%以内,训练好的神经网络提高了变体飞行器对不同飞行任务的适应性,可以在不同的飞行环境中获得最佳的飞行性能。 展开更多
关键词 变体飞行器 自主变形决策 深度强化学习 深度确定性策略梯度(ddpg)算法 动力学分析
下载PDF
基于自监督网络的DDPG算法的建筑能耗控制 被引量:1
18
作者 殷雨竹 陈建平 +2 位作者 傅启明 陆悠 吴宏杰 《计算机系统应用》 2022年第2期161-167,共7页
针对强化学习方法训练能耗控制系统时所存在奖赏稀疏的问题,将一种基于自监督网络的深度确定策略梯度(deep deterministic policy gradient,DDPG)方法应用到建筑能耗控制问题中.首先,处理状态和动作变量作为自监督网络前向模型的输入,... 针对强化学习方法训练能耗控制系统时所存在奖赏稀疏的问题,将一种基于自监督网络的深度确定策略梯度(deep deterministic policy gradient,DDPG)方法应用到建筑能耗控制问题中.首先,处理状态和动作变量作为自监督网络前向模型的输入,预测下一个状态特征向量,同时将预测误差作为好奇心设计内部奖赏,以解决奖赏稀疏问题.然后,采用数据驱动的方法训练建筑能耗模型,构建天气数据作为输入、能耗数据作为输出.最后,利用基于自监督网络的DDPG方法求解最优控制策略,并以此设定空气处理装置(air handling unit,AHU)的最优排放温度,减少设备能耗.实验结果表明,该方法能够在保持建筑环境舒适的基础上,实现较好的节能效果. 展开更多
关键词 强化学习 自监督网络 ddpg算法 能耗控制
下载PDF
基于改进DDPG算法的复杂环境下AGV路径规划方法研究 被引量:8
19
作者 孟晨阳 郝崇清 +3 位作者 李冉 王晓博 王昭雷 赵江 《计算机应用研究》 CSCD 北大核心 2022年第3期681-687,共7页
为了提高AGV(automatic guided vehicle)在复杂未知环境下的搜索能力,提出了一种改进的深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法。该算法通过构建经验回放矩阵和双层网络结构提高算法的收敛速度,并将波尔兹... 为了提高AGV(automatic guided vehicle)在复杂未知环境下的搜索能力,提出了一种改进的深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法。该算法通过构建经验回放矩阵和双层网络结构提高算法的收敛速度,并将波尔兹曼引入到ε-greedy搜索策略中,解决了AGV在选择最优动作时的局部最优问题;针对深度神经网络训练速度缓慢的问题,将优先级采样应用于深度确定性策略梯度算法中;为解决普通优先级采样复杂度过高的问题,提出了利用小批量优先采样方法训练网络。为了验证方法的有效性,通过栅格法建模并在不同的复杂环境下进行仿真实验对比,比较了不同算法的损失函数、迭代次数和回报值。实验结果表明,所提改进算法与原算法相比损失函数减小、迭代次数减少、回报值增加,验证了算法的有效性,同时为AGV在复杂环境下能够更加安全且快速地完成规划任务提供了新的思路。 展开更多
关键词 深度学习 自动化导引车路径规划 深度确定性策略梯度算法 小批量优先采样
下载PDF
基于深度确定性策略梯度算法的风光储系统联合调度策略 被引量:7
20
作者 张淑兴 马驰 +3 位作者 杨志学 王尧 吴昊 任洲洋 《中国电力》 CSCD 北大核心 2023年第2期68-76,共9页
针对风光储联合系统的调度问题,提出了一种基于深度强化学习的风光储系统联合调度模型。首先,以计划跟踪、弃风弃光以及储能运行成本最小为目标,建立了充分考虑风光储各个场站约束下的联合调度模型。然后,定义该调度模型在强化学习框架... 针对风光储联合系统的调度问题,提出了一种基于深度强化学习的风光储系统联合调度模型。首先,以计划跟踪、弃风弃光以及储能运行成本最小为目标,建立了充分考虑风光储各个场站约束下的联合调度模型。然后,定义该调度模型在强化学习框架下的系统状态变量、动作变量以及奖励函数等,引入了深度确定性策略梯度算法,利用其环境交互、策略探索的机制,学习风光储系统的联合调度策略,以实现对联合系统功率跟踪,减少弃风弃光以及储能充放电。最后,借用西北某地区风电、光伏、跟踪计划的历史数据对模型进行了训练和算例分析,结果表明所提方法可以较好地适应不同时期的风光变化,得到在给定风光下联合系统的调度策略。 展开更多
关键词 风光储联合系统 联合调度策略 不确定性 深度强化学习 深度确定性策略梯度算法
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部