期刊文献+
共找到296篇文章
< 1 2 15 >
每页显示 20 50 100
MEC网络中基于深度确定策略梯度的能效优化
1
作者 陈卡 《火力与指挥控制》 CSCD 北大核心 2024年第7期44-49,共6页
移动边缘计算(mobile edge computing,MEC)技术能为用户提供数据处理服务,但MEC服务器的计算资源有限,用户合理地向MEC服务器迁移任务及MEC服务器基于任务要求给用户合理分配资源是提高用户端能效的关键因素。提出基于深度确定策略梯度... 移动边缘计算(mobile edge computing,MEC)技术能为用户提供数据处理服务,但MEC服务器的计算资源有限,用户合理地向MEC服务器迁移任务及MEC服务器基于任务要求给用户合理分配资源是提高用户端能效的关键因素。提出基于深度确定策略梯度的能效优化算法(deep deterministic policy gradient-based energy efficiency opti-mization,DDPG-EEO)。在满足时延要求的前提下,建立关于任务卸载率和资源分配策略的最大化能效的优化问题。再将优化问题描述成马尔可夫决策过程(Markov decision process,MDP),并利用深度确定策略梯度求解。仿真结果表明,DDPG-EEO算法降低了UTs端的能耗,并提高了任务完成率。 展开更多
关键词 移动边缘计算 任务卸载 资源分配 强化学习 深度确定策略梯度
下载PDF
CR-NOMA中基于深度确定策略梯度的能效优化策略
2
作者 张云 《电信科学》 北大核心 2024年第5期112-120,共9页
利用认知无线电非正交多址接入(cognitive radio non-orthogonal multiple access,CR-NOMA)技术可缓解频谱资源短缺问题,提升传感设备的吞吐量。传感设备的能效问题一直制约着传感设备的应用。为此,针对CR-NOMA中的传感设备,提出基于深... 利用认知无线电非正交多址接入(cognitive radio non-orthogonal multiple access,CR-NOMA)技术可缓解频谱资源短缺问题,提升传感设备的吞吐量。传感设备的能效问题一直制约着传感设备的应用。为此,针对CR-NOMA中的传感设备,提出基于深度确定策略梯度的能效优化(deep deterministic policy gradientbased energy efficiency optimization,DPEE)算法。DPEE算法通过联合优化传感设备的传输功率和时隙分裂系数,提升传感设备的能效。将能效优化问题建模成马尔可夫决策过程,再利用深度确定策略梯度法求解。最后,通过仿真分析了电路功耗、时隙时长和主设备数对传感能效的影响。仿真结果表明,能效随传感设备电路功耗的增加而下降。此外,相比于基准算法,提出的DPEE算法提升了能效。 展开更多
关键词 传感设备 能量采集 认知无线电非正交多址接入 能效 深度确定策略梯度
下载PDF
融合引力搜索的双延迟深度确定策略梯度方法
3
作者 徐平安 刘全 +1 位作者 郝少璞 张立华 《软件学报》 EI CSCD 北大核心 2023年第11期5191-5204,共14页
近年来,深度强化学习在复杂控制任务中取得了令人瞩目的效果,然而由于超参数的高敏感性和收敛性难以保证等原因,严重影响了其对现实问题的适用性.元启发式算法作为一类模拟自然界客观规律的黑盒优化方法,虽然能够有效避免超参数的敏感性... 近年来,深度强化学习在复杂控制任务中取得了令人瞩目的效果,然而由于超参数的高敏感性和收敛性难以保证等原因,严重影响了其对现实问题的适用性.元启发式算法作为一类模拟自然界客观规律的黑盒优化方法,虽然能够有效避免超参数的敏感性,但仍存在无法适应待优化参数量规模巨大和样本使用效率低等问题.针对以上问题,提出融合引力搜索的双延迟深度确定策略梯度方法(twin delayed deep deterministic policy gradient based on gravitational search algorithm,GSA-TD3).该方法融合两类算法的优势:一是凭借梯度优化的方式更新策略,获得更高的样本效率和更快的学习速度;二是将基于万有引力定律的种群更新方法引入到策略搜索过程中,使其具有更强的探索性和更好的稳定性.将GSA-TD3应用于一系列复杂控制任务中,实验表明,与前沿的同类深度强化学习方法相比,GSA-TD3在性能上具有显著的优势. 展开更多
关键词 深度强化学习 元启发式算法 引力搜索 确定策略梯度 策略搜索
下载PDF
基于多智能体深度确定策略梯度算法的有功-无功协调调度模型 被引量:22
4
作者 赵冬梅 陶然 +2 位作者 马泰屹 夏轩 王浩翔 《电工技术学报》 EI CSCD 北大核心 2021年第9期1914-1925,共12页
实现有功-无功协调调度是促成"未来一体化大电网调控系统"建设中的关键一环。为解决调度中存在反复调节、难以协调冲突等问题,采用多智能体技术,智能组织多种有功调控资源和无功调控资源,建立电网有功-无功协调调度模型;为解... 实现有功-无功协调调度是促成"未来一体化大电网调控系统"建设中的关键一环。为解决调度中存在反复调节、难以协调冲突等问题,采用多智能体技术,智能组织多种有功调控资源和无功调控资源,建立电网有功-无功协调调度模型;为解决电力系统环境在多智能体探索过程中出现的不稳定问题,采用多智能体深度确定策略梯度算法,设计适用于有功-无功协调调度模型的电力系统多智能体环境,构造智能体状态、动作和奖励函数。通过算例仿真和对比分析,验证所提模型及算法的有效性。 展开更多
关键词 多智能体 多智能体深度确定策略梯度算法 策略迭代 灵活调控资源 有功-无功协调
下载PDF
基于深度确定策略梯度算法的主动配电网协调优化 被引量:32
5
作者 龚锦霞 刘艳敏 《电力系统自动化》 EI CSCD 北大核心 2020年第6期113-120,共8页
将新一代人工智能在智能电网和能源互联网中进行应用,实现高比例可再生能源及时有效接入电网,文中基于深度学习中的深度确定策略梯度(DDPG)算法实现主动配电网的优化运行。首先,构造了含多微电网的主动配电网优化模型的DDPG回报函数,使... 将新一代人工智能在智能电网和能源互联网中进行应用,实现高比例可再生能源及时有效接入电网,文中基于深度学习中的深度确定策略梯度(DDPG)算法实现主动配电网的优化运行。首先,构造了含多微电网的主动配电网优化模型的DDPG回报函数,使主动配电网的节点电压总偏差和线损最小,最大限度地降低微电网功率调节量的变化以减小对微电网运行的影响,同时维持联络线功率平衡以减小对配电网的影响。然后,分析了主动配电网优化控制的DDPG样本数据处理、回报函数设计、模型训练和学习过程。最后,通过改进IEEE 14节点算例仿真验证了DDPG算法的有效性。 展开更多
关键词 深度确定策略梯度 主动配电网 深度强化学习 协调优化
下载PDF
不完全信息下基于多代理深度确定策略梯度算法的发电商竞价策略 被引量:7
6
作者 员江洋 杨明 +3 位作者 刘宁宁 张长行 黄诗颖 朱青 《电网技术》 EI CSCD 北大核心 2022年第12期4832-4842,共11页
在电力现货市场中,发电商竞价行为受多种因素综合影响,且由于信息受限无法做出最优决策,难以实现自身收益最大化。将发电商竞价决策行为建模为马尔科夫博弈过程,提出了基于多代理模型的发电商日前市场竞价模型,应用多代理深度确定性策... 在电力现货市场中,发电商竞价行为受多种因素综合影响,且由于信息受限无法做出最优决策,难以实现自身收益最大化。将发电商竞价决策行为建模为马尔科夫博弈过程,提出了基于多代理模型的发电商日前市场竞价模型,应用多代理深度确定性策略梯度(multi-agent deep deterministic policy gradient, MADDPG)算法,分别在IEEE-3节点算例和IEEE-30节点算例模拟发电侧竞价行为。算例分析表明,所提模型通信开销低、训练结果良好,可以在不完全信息条件下提高发电商收益,并实现发电侧报价的激励相容。 展开更多
关键词 电力现货市场 多代理模型 不完全信息 多代理深度确定策略梯度 最优报价策略 激励相容
下载PDF
基于深度确定性策略梯度的星地融合网络可拆分任务卸载算法
7
作者 宋晓勤 吴志豪 +4 位作者 赖海光 雷磊 张莉涓 吕丹阳 郑成辉 《通信学报》 EI CSCD 北大核心 2024年第10期116-128,共13页
为解决低轨卫星网络中星地链路任务卸载时延长的问题,提出了一种基于深度确定性策略梯度(DDPG)的星地融合网络可拆分任务卸载算法。针对不同地区用户建立了星地融合网络的多接入边缘计算结构模型,通过应用多智能体DDPG算法,将系统总服... 为解决低轨卫星网络中星地链路任务卸载时延长的问题,提出了一种基于深度确定性策略梯度(DDPG)的星地融合网络可拆分任务卸载算法。针对不同地区用户建立了星地融合网络的多接入边缘计算结构模型,通过应用多智能体DDPG算法,将系统总服务时延最小化的目标转化为智能体奖励收益最大化。在满足子任务卸载约束、服务时延约束等任务卸载约束条件下,优化用户任务拆分比例。仿真结果表明,所提算法在用户服务时延和受益用户数量等方面优于基线算法。 展开更多
关键词 星地融合网络 深度确定策略梯度 资源分配 多接入边缘计算
下载PDF
基于双延迟深度确定性策略梯度的受电弓主动控制 被引量:1
8
作者 吴延波 韩志伟 +2 位作者 王惠 刘志刚 张雨婧 《电工技术学报》 EI CSCD 北大核心 2024年第14期4547-4556,共10页
弓网系统耦合性能对于高速列车受流质量起着至关重要的作用,提高弓网耦合性能,一种有效的方法是针对受电弓进行主动控制调节,特别是在低速线路提速及列车多线路混跑时,主动控制可通过提高弓网自适应适配性,有效降低线路改造成本并提升... 弓网系统耦合性能对于高速列车受流质量起着至关重要的作用,提高弓网耦合性能,一种有效的方法是针对受电弓进行主动控制调节,特别是在低速线路提速及列车多线路混跑时,主动控制可通过提高弓网自适应适配性,有效降低线路改造成本并提升受流质量。针对受电弓主动控制问题,该文提出一种基于双延迟深度确定性策略梯度(TD3)的深度强化学习受电弓主动控制算法。通过建立弓网耦合模型实现深度强化学习系统环境模块,利用TD3作为受电弓行为控制策略,最终通过对控制器模型训练实现有效的受电弓控制策略。实验结果表明,运用该文方法可有效提升低速线路列车高速运行时弓网耦合性能及受电弓在多线路运行时的适应性,为铁路线路提速及列车跨线路运行提供新的思路。 展开更多
关键词 低速线路 混跑 双延迟深度确定策略梯度(TD3) 受电弓主动控制
下载PDF
基于LSTM车速预测和深度确定性策略梯度的增程式电动汽车能量管理 被引量:1
9
作者 路来伟 赵红 +1 位作者 徐福良 罗勇 《汽车技术》 CSCD 北大核心 2024年第8期27-37,共11页
为提高增程式电动汽车的能量管理性能,首先利用长短时记忆(LSTM)神经网络进行车速预测,然后计算出预测时域内的需求功率,并将其与当前时刻的需求功率共同输入深度确定性策略梯度(DDPG)智能体,由智能体输出控制量,最后通过硬件在环仿真... 为提高增程式电动汽车的能量管理性能,首先利用长短时记忆(LSTM)神经网络进行车速预测,然后计算出预测时域内的需求功率,并将其与当前时刻的需求功率共同输入深度确定性策略梯度(DDPG)智能体,由智能体输出控制量,最后通过硬件在环仿真验证了控制策略的实时性。结果表明,采用所提出的LSTM-DDPG能量管理策略相对于DDPG能量管理策略、深度Q网络(DQN)能量管理策略、功率跟随控制策略在世界重型商用车辆瞬态循环(WTVC)工况下的等效燃油消耗量分别减少0.613 kg、0.350 kg、0.607 kg,与采用动态规划控制策略时的等效燃油消耗量仅相差0.128 kg。 展开更多
关键词 增程式电动汽车 长短时记忆神经网络 深度强化学习 深度确定策略梯度
下载PDF
深度确定性策略梯度下运动目标识别及无人机跟随
10
作者 刘欣 张倩飞 +1 位作者 刘成宇 高涵 《西安工程大学学报》 CAS 2024年第4期9-17,共9页
针对无人机(unmanned aerial vehicle,UAV)平台采集运动目标图像信息过程中因UAV自身的飞行状态、环境的干扰、目标的随机性等原因易产生运动目标丢失等问题,提出了一种基于运动目标识别的深度确定性策略梯度(deep deterministic policy... 针对无人机(unmanned aerial vehicle,UAV)平台采集运动目标图像信息过程中因UAV自身的飞行状态、环境的干扰、目标的随机性等原因易产生运动目标丢失等问题,提出了一种基于运动目标识别的深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法UAV跟随方法。面向高速公路的车辆目标,分析了UAV高度、位姿与高速车辆运动之间的关系,建立了移动平台目标检测帧率的速度自适应模型,根据目标的运动状态计算能够相匹配UAV的飞行状态,实时修正飞行姿态与速度,使UAV能够保持与目标的相对位置和角度。继而基于DDPG算法价值网络估计UAV在不同状态下采取特定动作的价值,策略网络生成UAV在给定状态下采取动作的策略,给予UAV飞行高度、速度控制参数用于目标跟踪,使UAV能够根据目标的运动变化自动调节飞行状态,实现运动目标的自适应跟随。仿真实验表明:DDPG算法能够提供稳定的飞行姿态数据,为UAV的跟随任务提供了可靠的控制基础;通过在真实场景下实验验证,UAV能够实时跟踪速度范围0~33 m/s、半径为120 m的圆形面积内的地面运动目标,且在续航范围内能够实现持续稳定跟随。 展开更多
关键词 四轴飞行器 高速公路 动态规划 深度确定策略梯度 目标跟踪
下载PDF
基于多维度优先级经验回放机制的深度确定性策略梯度算法
11
作者 荣垂霆 李海军 +2 位作者 朱恒伟 刘延旭 于士军 《德州学院学报》 2024年第4期21-27,32,共8页
为进一步提高深度确定性策略梯度算法在处理强化学习连续动作任务中的收敛速度,提出了一种基于多维度优先级经验回放机制的深度确定性策略梯度算法。首先,针对经验回放机制中样本数据利用率低的问题,利用时间差分误差指标对样本进行分类... 为进一步提高深度确定性策略梯度算法在处理强化学习连续动作任务中的收敛速度,提出了一种基于多维度优先级经验回放机制的深度确定性策略梯度算法。首先,针对经验回放机制中样本数据利用率低的问题,利用时间差分误差指标对样本进行分类;其次,利用稀缺性和新奇性两个指标对样本进行评分,并将稀缺性和新奇性的评分进行加权组合,得到最终的优先级评分;最后,将设计的多维度优先级经验回放机制方法应用在深度确定性策略梯度算法中,在强化学习连续控制任务中对改进算法进行测试,实验结果表明,改进算法的收敛速度有所提升。 展开更多
关键词 深度确定策略梯度算法 强化学习 经验回放机制 多维度优先级
下载PDF
基于乐观探索的双延迟深度确定性策略梯度
12
作者 王浩宇 张衡波 +1 位作者 程玉虎 王雪松 《南京理工大学学报》 CAS CSCD 北大核心 2024年第3期300-309,共10页
双延迟深度确定性策略梯度是深度强化学习的一个主流算法,是一种无模型强化学习,已成功应用于具有挑战性的连续控制任务中。然而,当环境中奖励稀疏或者状态空间较大时,双延迟深度确定性策略梯度的样本效率较差,环境探索能力较弱。针对... 双延迟深度确定性策略梯度是深度强化学习的一个主流算法,是一种无模型强化学习,已成功应用于具有挑战性的连续控制任务中。然而,当环境中奖励稀疏或者状态空间较大时,双延迟深度确定性策略梯度的样本效率较差,环境探索能力较弱。针对通过双Q值函数的下界确定目标函数带来的低效探索问题,提出一种基于乐观探索的双延迟深度确定性策略梯度(TD3-OE)。首先,从双Q值函数出发,分析取下界会使得探索具有一定的悲观性;然后,利用高斯函数和分段函数分别对双Q值函数进行拟合;最后,利用拟合Q值函数和目标策略构造出探索策略,指导智能体在环境中进行探索。探索策略能够避免智能体学习到次优策略,从而有效解决低效探索的问题。该文在基于MuJoCo物理引擎的控制平台上将所提算法与基准算法进行试验对比,验证了所提算法的有效性。试验结果表明:所提算法在奖励、稳定性和学习速度等指标上均达到或超过其他基础强化学习算法。 展开更多
关键词 深度强化学习 双延迟深度确定策略梯度 探索策略 乐观探索
下载PDF
基于深度确定性策略梯度的PEMFC的水泵和散热器联合控制研究
13
作者 赵洪山 潘思潮 +2 位作者 吴雨晨 马利波 吕廷彦 《太阳能学报》 EI CAS CSCD 北大核心 2024年第6期92-101,共10页
针对燃料电池热管理系统中水泵和散热器的控制问题,提出一种基于深度确定性策略梯度(DDPG)的联合控制策略。该策略取代了传统控制框架中水泵和散热器的独立控制器,采用多输入多输出且可同时控制水泵冷却水流速和散热器空气流速的智能体... 针对燃料电池热管理系统中水泵和散热器的控制问题,提出一种基于深度确定性策略梯度(DDPG)的联合控制策略。该策略取代了传统控制框架中水泵和散热器的独立控制器,采用多输入多输出且可同时控制水泵冷却水流速和散热器空气流速的智能体。首先确定智能体的状态空间和动作空间,然后由控制目标设定奖励函数,最后在仿真平台上验证该算法的有效性。结果表明,所提出的联合控制策略可有效地同时控制冷却水流速和空气流速,从而提高质子交换膜燃料电池(PEMFC)的运行效率。 展开更多
关键词 深度学习 强化学习 质子交换膜燃料电池 智能控制 深度确定策略梯度
下载PDF
基于双评论家的多智能体深度确定性策略梯度方法 被引量:3
14
作者 丁世飞 杜威 +2 位作者 郭丽丽 张健 徐晓 《计算机研究与发展》 EI CSCD 北大核心 2023年第10期2394-2404,共11页
在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这... 在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这一问题,分别从理论和实验上证明了多智能体深度确定性策略梯度方法存在价值函数被高估.提出基于双评论家的多智能体深度确定性策略梯度(multiagent deep deterministic policy gradient method based on double critics,MADDPG-DC)方法,通过在双评论家网络上的最小值操作来避免价值被高估,进一步促进智能体学得最优的策略.此外,延迟行动者网络更新,保证行动者网络策略更新的效率和稳定性,提高策略学习和更新的质量.在多智能体粒子环境和交通信号控制环境上的实验结果证明了所提方法的可行性和优越性. 展开更多
关键词 强化学习 价值估计 双评论家 交通信号控制 多智能体深度确定策略梯度
下载PDF
基于深度确定性梯度算法的端到端自动驾驶策略 被引量:1
15
作者 赖晨光 杨小青 +2 位作者 胡博 庞玉涵 邹宏 《重庆理工大学学报(自然科学)》 CAS 北大核心 2023年第1期56-65,共10页
根据深度确定性策略梯度算法理论,提出了端到端的自动驾驶控制策略,通过Carla无人驾驶模拟器,以汽车前视图像和少量测量信息作为输入,直接输出转向、油门或制动的控制动作。同时,鉴于强化学习过程中存在大量试错行为,设计了对危险试错... 根据深度确定性策略梯度算法理论,提出了端到端的自动驾驶控制策略,通过Carla无人驾驶模拟器,以汽车前视图像和少量测量信息作为输入,直接输出转向、油门或制动的控制动作。同时,鉴于强化学习过程中存在大量试错行为,设计了对危险试错动作加以约束并修正的监督器,以减少危险动作并提升训练效率。根据Carla的训练测试结果表明,深度确定性策略梯度算法能使小车学习到有效的自动驾驶策略,且添加监督器之后的算法能明显减少试错行为并提升训练效率。 展开更多
关键词 自动驾驶 强化学习 深度确定策略梯度 监督式深度强化学习
下载PDF
深度确定性策略梯度算法耦合模型驱动的行人过街仿真
16
作者 宋涛 王彦林 +1 位作者 魏昕恺 韦艳芳 《上海大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第4期651-665,共15页
行人仿真在公共安全研究中扮演着重要的角色,但如何增强仿真环境中智能体的真实性一直是一个难题.本工作提出了一种深度确定性策略梯度-行人二维优化速度模型耦合驱动算法,并对无信号交叉口行人过街行为进行仿真.通过构建考虑无速度差... 行人仿真在公共安全研究中扮演着重要的角色,但如何增强仿真环境中智能体的真实性一直是一个难题.本工作提出了一种深度确定性策略梯度-行人二维优化速度模型耦合驱动算法,并对无信号交叉口行人过街行为进行仿真.通过构建考虑无速度差项和有速度差项2种行人二维优化速度模型的策略探索方案,揭示出带有速度差项行人二维优化速度模型的耦合驱动算法倾向于灵活地选择相对安全的动作,从而使行人选择动作的策略也更优,达到了完全避免行人碰撞、确保行人安全的功能. 展开更多
关键词 深度确定策略梯度 二维优化速度模型 碰撞 无信号交叉口 行人仿真
下载PDF
基于深度确定性梯度学习的集群多目标分配方法
17
作者 李乔易 王正杰 +1 位作者 张小宁 程杞元 《北京理工大学学报》 EI CAS CSCD 北大核心 2024年第10期1051-1057,共7页
针对多弹协同作战进行目标分配时,存在敌方平台和反舰导弹数量不确定性和类型多样化,导致目标分配算法难以建模的问题,为提升高动态协同攻击条件下的攻击效能,建立动态战场环境模型和多目标分配的单回合马尔可夫决策模型,提出一种改进... 针对多弹协同作战进行目标分配时,存在敌方平台和反舰导弹数量不确定性和类型多样化,导致目标分配算法难以建模的问题,为提升高动态协同攻击条件下的攻击效能,建立动态战场环境模型和多目标分配的单回合马尔可夫决策模型,提出一种改进深度确定性策略梯度的分配算法.通过与模拟器的交互自动求解最佳分配策略,利用mask方法对动作空间进行掩码操作,实现算法对平台数量和类型的适应能力.实验结果表明,在各种不同舰船的防御配置和红蓝双方数量配置下,算法求解得到的攻击策略相对于随机策略的性能提升约为87.5%,模型推理时间约为0.04ms.研究结果将加速基于深度确定性梯度学习的方法在高动态环境下智能决策中的应用,对集群自主决策方法的研究具有推动作用. 展开更多
关键词 多弹协同 动态环境 目标分配 深度确定策略梯度 马尔可夫决策模型
下载PDF
基于深度确定性策略梯度算法的风光储系统联合调度策略 被引量:7
18
作者 张淑兴 马驰 +3 位作者 杨志学 王尧 吴昊 任洲洋 《中国电力》 CSCD 北大核心 2023年第2期68-76,共9页
针对风光储联合系统的调度问题,提出了一种基于深度强化学习的风光储系统联合调度模型。首先,以计划跟踪、弃风弃光以及储能运行成本最小为目标,建立了充分考虑风光储各个场站约束下的联合调度模型。然后,定义该调度模型在强化学习框架... 针对风光储联合系统的调度问题,提出了一种基于深度强化学习的风光储系统联合调度模型。首先,以计划跟踪、弃风弃光以及储能运行成本最小为目标,建立了充分考虑风光储各个场站约束下的联合调度模型。然后,定义该调度模型在强化学习框架下的系统状态变量、动作变量以及奖励函数等,引入了深度确定性策略梯度算法,利用其环境交互、策略探索的机制,学习风光储系统的联合调度策略,以实现对联合系统功率跟踪,减少弃风弃光以及储能充放电。最后,借用西北某地区风电、光伏、跟踪计划的历史数据对模型进行了训练和算例分析,结果表明所提方法可以较好地适应不同时期的风光变化,得到在给定风光下联合系统的调度策略。 展开更多
关键词 风光储联合系统 联合调度策略 确定 深度强化学习 深度确定策略梯度算法
下载PDF
深度确定性策略梯度和预测相结合的无人机空战决策研究 被引量:3
19
作者 李永丰 吕永玺 +1 位作者 史静平 李卫华 《西北工业大学学报》 EI CAS CSCD 北大核心 2023年第1期56-64,共9页
针对无人机自主空战机动决策过程中遇到的敌方不确定性操纵问题,提出了一种目标机动指令预测和深度确定性策略梯度算法相结合的无人机空战自主机动决策方法。对空战双方的态势数据进行有效的融合和处理,搭建无人机六自由度模型和机动动... 针对无人机自主空战机动决策过程中遇到的敌方不确定性操纵问题,提出了一种目标机动指令预测和深度确定性策略梯度算法相结合的无人机空战自主机动决策方法。对空战双方的态势数据进行有效的融合和处理,搭建无人机六自由度模型和机动动作库,在空战中目标通过深度Q网络算法生成相应机动动作库指令,同时我方无人机通过概率神经网络给出目标机动的预测结果。提出了一种同时考虑了两机态势信息和敌机预测结果的深度确定性策略梯度强化学习方法,使得无人机能够根据当前空战态势选择合适的机动决策。仿真结果表明,该算法可以有效利用空战态势信息和目标机动预测信息,在保证收敛性的前提下提高无人机自主空战决策强化学习算法的有效性。 展开更多
关键词 无人机 空战机动决策 预测 深度确定策略梯度
下载PDF
基于改进深度确定性策略梯度算法的微电网能量优化调度 被引量:5
20
作者 李瑜 张占强 +1 位作者 孟克其劳 魏皓天 《电子测量技术》 北大核心 2023年第2期73-80,共8页
针对微电网中分布式发电设备存在输出不确定性和间歇性问题,以及传统的深度确定性策略梯度算法存在收敛速度慢、鲁棒性差、容易陷入局部最优的缺点。本文提出了一种基于优先经验回放的深度确定性策略梯度算法,以微电网系统运行成本最低... 针对微电网中分布式发电设备存在输出不确定性和间歇性问题,以及传统的深度确定性策略梯度算法存在收敛速度慢、鲁棒性差、容易陷入局部最优的缺点。本文提出了一种基于优先经验回放的深度确定性策略梯度算法,以微电网系统运行成本最低为目标,实现微电网的能量优化调度。首先,采用马尔可夫决策过程对微电网优化问题进行建模;其次,采用Sumtree结构的优先经验回放池提升样本利用效率,并且应用重要性采样来改善状态分布对收敛结果的影响。最后,本文利用真实的电力数据进行仿真验证,结果表明,提出的优化调度算法可以有效地学习到使微电网系统经济成本最低的运行策略,所提出的算法总运行时间比传统算法缩短了7.25%,运行成本降低了31.5%。 展开更多
关键词 优先经验回放 微电网能量优化调度 深度确定策略梯度算法
下载PDF
上一页 1 2 15 下一页 到第
使用帮助 返回顶部