期刊文献+
共找到307篇文章
< 1 2 16 >
每页显示 20 50 100
MDT测井中压力-深度梯度线的计算和应用 被引量:6
1
作者 王向荣 王昌学 曹文莉 《大庆石油地质与开发》 CAS CSCD 北大核心 2008年第4期139-142,共4页
应用测试资料计算压力-深度梯度线是MDT的主要功能之一。由于在压力-深度梯度线的计算方法上存在很多不确定性,经常导致计算结果存在较大偏差,使其应用受到限制。通过分析压力-深度梯度线斜率的计算误差,得出其准确度与各测点压力测量... 应用测试资料计算压力-深度梯度线是MDT的主要功能之一。由于在压力-深度梯度线的计算方法上存在很多不确定性,经常导致计算结果存在较大偏差,使其应用受到限制。通过分析压力-深度梯度线斜率的计算误差,得出其准确度与各测点压力测量误差、测点个数、测点长度和各测点相对位置分布有关的结论。在测压点的选取中,还需要综合考虑测压点流体性质、测压点地层压力系数的变化以及各点地层连通情况等。压力-深度梯度线可以用于分析地层流体性质、确定油水界面、单井内评价储层纵向连通性或封隔层、划分压力系统、观察流体性质的纵向变化以及辅助进行多井油藏评价等。 展开更多
关键词 MDT 压力-深度梯度线 计算 误差 应用
下载PDF
深度梯度下降森林模型在轴承故障诊断中的应用 被引量:1
2
作者 彭启明 邵星 +1 位作者 王翠香 皋军 《软件导刊》 2022年第2期120-126,共7页
针对现有基于深度学习的轴承故障诊断方法不适于小样本数据且超参数过多、计算开销大的问题,提出一种基于深度梯度下降森林模型(DSGDF)的轴承故障诊断方法。在凯斯西储大学轴承数据集上对该模型的性能进行验证,结果表明,DSGDF模型平均... 针对现有基于深度学习的轴承故障诊断方法不适于小样本数据且超参数过多、计算开销大的问题,提出一种基于深度梯度下降森林模型(DSGDF)的轴承故障诊断方法。在凯斯西储大学轴承数据集上对该模型的性能进行验证,结果表明,DSGDF模型平均诊断正确率达99%以上。DSGDF模型较经典深度森林模型的收敛速度更快,较其他基于神经网络的深度学习模型计算开销更小。 展开更多
关键词 深度学习 深度梯度下降森林 轴承 故障诊断
下载PDF
太阳速度场的深度梯度
3
作者 叶式煇 《天文学进展》 CSCD 北大核心 1989年第2期98-106,共9页
为了得到太阳速度场的三维图像,除由观测直接取得二维的速度场图外,还须测定视向速度的深度梯度。长期以来不少天文工作者钻研这一课题,建立了一些用谱线轮廓推求速度梯度的方法。本文先阐述解决这一问题的理论前提,然后依次就日面上的... 为了得到太阳速度场的三维图像,除由观测直接取得二维的速度场图外,还须测定视向速度的深度梯度。长期以来不少天文工作者钻研这一课题,建立了一些用谱线轮廓推求速度梯度的方法。本文先阐述解决这一问题的理论前提,然后依次就日面上的吸收谱线和日珥、边缘耀斑等的发射谱线,论述利用谱线的不对称性等特征,推求速度场梯度的各种方法。最后对今后的工作提出一些概括性的意见。 展开更多
关键词 太阳 速度场 深度梯度
下载PDF
MEC网络中基于深度确定策略梯度的能效优化
4
作者 陈卡 《火力与指挥控制》 CSCD 北大核心 2024年第7期44-49,共6页
移动边缘计算(mobile edge computing,MEC)技术能为用户提供数据处理服务,但MEC服务器的计算资源有限,用户合理地向MEC服务器迁移任务及MEC服务器基于任务要求给用户合理分配资源是提高用户端能效的关键因素。提出基于深度确定策略梯度... 移动边缘计算(mobile edge computing,MEC)技术能为用户提供数据处理服务,但MEC服务器的计算资源有限,用户合理地向MEC服务器迁移任务及MEC服务器基于任务要求给用户合理分配资源是提高用户端能效的关键因素。提出基于深度确定策略梯度的能效优化算法(deep deterministic policy gradient-based energy efficiency opti-mization,DDPG-EEO)。在满足时延要求的前提下,建立关于任务卸载率和资源分配策略的最大化能效的优化问题。再将优化问题描述成马尔可夫决策过程(Markov decision process,MDP),并利用深度确定策略梯度求解。仿真结果表明,DDPG-EEO算法降低了UTs端的能耗,并提高了任务完成率。 展开更多
关键词 移动边缘计算 任务卸载 资源分配 强化学习 深度确定策略梯度
下载PDF
基于深度确定性策略梯度的星地融合网络可拆分任务卸载算法
5
作者 宋晓勤 吴志豪 +4 位作者 赖海光 雷磊 张莉涓 吕丹阳 郑成辉 《通信学报》 EI CSCD 北大核心 2024年第10期116-128,共13页
为解决低轨卫星网络中星地链路任务卸载时延长的问题,提出了一种基于深度确定性策略梯度(DDPG)的星地融合网络可拆分任务卸载算法。针对不同地区用户建立了星地融合网络的多接入边缘计算结构模型,通过应用多智能体DDPG算法,将系统总服... 为解决低轨卫星网络中星地链路任务卸载时延长的问题,提出了一种基于深度确定性策略梯度(DDPG)的星地融合网络可拆分任务卸载算法。针对不同地区用户建立了星地融合网络的多接入边缘计算结构模型,通过应用多智能体DDPG算法,将系统总服务时延最小化的目标转化为智能体奖励收益最大化。在满足子任务卸载约束、服务时延约束等任务卸载约束条件下,优化用户任务拆分比例。仿真结果表明,所提算法在用户服务时延和受益用户数量等方面优于基线算法。 展开更多
关键词 星地融合网络 深度确定性策略梯度 资源分配 多接入边缘计算
下载PDF
基于双延迟深度确定性策略梯度的受电弓主动控制 被引量:1
6
作者 吴延波 韩志伟 +2 位作者 王惠 刘志刚 张雨婧 《电工技术学报》 EI CSCD 北大核心 2024年第14期4547-4556,共10页
弓网系统耦合性能对于高速列车受流质量起着至关重要的作用,提高弓网耦合性能,一种有效的方法是针对受电弓进行主动控制调节,特别是在低速线路提速及列车多线路混跑时,主动控制可通过提高弓网自适应适配性,有效降低线路改造成本并提升... 弓网系统耦合性能对于高速列车受流质量起着至关重要的作用,提高弓网耦合性能,一种有效的方法是针对受电弓进行主动控制调节,特别是在低速线路提速及列车多线路混跑时,主动控制可通过提高弓网自适应适配性,有效降低线路改造成本并提升受流质量。针对受电弓主动控制问题,该文提出一种基于双延迟深度确定性策略梯度(TD3)的深度强化学习受电弓主动控制算法。通过建立弓网耦合模型实现深度强化学习系统环境模块,利用TD3作为受电弓行为控制策略,最终通过对控制器模型训练实现有效的受电弓控制策略。实验结果表明,运用该文方法可有效提升低速线路列车高速运行时弓网耦合性能及受电弓在多线路运行时的适应性,为铁路线路提速及列车跨线路运行提供新的思路。 展开更多
关键词 低速线路 混跑 双延迟深度确定性策略梯度(TD3) 受电弓主动控制
下载PDF
基于LSTM车速预测和深度确定性策略梯度的增程式电动汽车能量管理 被引量:1
7
作者 路来伟 赵红 +1 位作者 徐福良 罗勇 《汽车技术》 CSCD 北大核心 2024年第8期27-37,共11页
为提高增程式电动汽车的能量管理性能,首先利用长短时记忆(LSTM)神经网络进行车速预测,然后计算出预测时域内的需求功率,并将其与当前时刻的需求功率共同输入深度确定性策略梯度(DDPG)智能体,由智能体输出控制量,最后通过硬件在环仿真... 为提高增程式电动汽车的能量管理性能,首先利用长短时记忆(LSTM)神经网络进行车速预测,然后计算出预测时域内的需求功率,并将其与当前时刻的需求功率共同输入深度确定性策略梯度(DDPG)智能体,由智能体输出控制量,最后通过硬件在环仿真验证了控制策略的实时性。结果表明,采用所提出的LSTM-DDPG能量管理策略相对于DDPG能量管理策略、深度Q网络(DQN)能量管理策略、功率跟随控制策略在世界重型商用车辆瞬态循环(WTVC)工况下的等效燃油消耗量分别减少0.613 kg、0.350 kg、0.607 kg,与采用动态规划控制策略时的等效燃油消耗量仅相差0.128 kg。 展开更多
关键词 增程式电动汽车 长短时记忆神经网络 深度强化学习 深度确定性策略梯度
下载PDF
基于深度确定性梯度学习的集群多目标分配方法
8
作者 李乔易 王正杰 +1 位作者 张小宁 程杞元 《北京理工大学学报》 EI CAS CSCD 北大核心 2024年第10期1051-1057,共7页
针对多弹协同作战进行目标分配时,存在敌方平台和反舰导弹数量不确定性和类型多样化,导致目标分配算法难以建模的问题,为提升高动态协同攻击条件下的攻击效能,建立动态战场环境模型和多目标分配的单回合马尔可夫决策模型,提出一种改进... 针对多弹协同作战进行目标分配时,存在敌方平台和反舰导弹数量不确定性和类型多样化,导致目标分配算法难以建模的问题,为提升高动态协同攻击条件下的攻击效能,建立动态战场环境模型和多目标分配的单回合马尔可夫决策模型,提出一种改进深度确定性策略梯度的分配算法.通过与模拟器的交互自动求解最佳分配策略,利用mask方法对动作空间进行掩码操作,实现算法对平台数量和类型的适应能力.实验结果表明,在各种不同舰船的防御配置和红蓝双方数量配置下,算法求解得到的攻击策略相对于随机策略的性能提升约为87.5%,模型推理时间约为0.04ms.研究结果将加速基于深度确定性梯度学习的方法在高动态环境下智能决策中的应用,对集群自主决策方法的研究具有推动作用. 展开更多
关键词 多弹协同 动态环境 目标分配 深度确定性策略梯度 马尔可夫决策模型
下载PDF
基于多维度优先级经验回放机制的深度确定性策略梯度算法
9
作者 荣垂霆 李海军 +2 位作者 朱恒伟 刘延旭 于士军 《德州学院学报》 2024年第4期21-27,32,共8页
为进一步提高深度确定性策略梯度算法在处理强化学习连续动作任务中的收敛速度,提出了一种基于多维度优先级经验回放机制的深度确定性策略梯度算法。首先,针对经验回放机制中样本数据利用率低的问题,利用时间差分误差指标对样本进行分类... 为进一步提高深度确定性策略梯度算法在处理强化学习连续动作任务中的收敛速度,提出了一种基于多维度优先级经验回放机制的深度确定性策略梯度算法。首先,针对经验回放机制中样本数据利用率低的问题,利用时间差分误差指标对样本进行分类;其次,利用稀缺性和新奇性两个指标对样本进行评分,并将稀缺性和新奇性的评分进行加权组合,得到最终的优先级评分;最后,将设计的多维度优先级经验回放机制方法应用在深度确定性策略梯度算法中,在强化学习连续控制任务中对改进算法进行测试,实验结果表明,改进算法的收敛速度有所提升。 展开更多
关键词 深度确定性策略梯度算法 强化学习 经验回放机制 多维度优先级
下载PDF
深度确定性策略梯度下运动目标识别及无人机跟随
10
作者 刘欣 张倩飞 +1 位作者 刘成宇 高涵 《西安工程大学学报》 CAS 2024年第4期9-17,共9页
针对无人机(unmanned aerial vehicle,UAV)平台采集运动目标图像信息过程中因UAV自身的飞行状态、环境的干扰、目标的随机性等原因易产生运动目标丢失等问题,提出了一种基于运动目标识别的深度确定性策略梯度(deep deterministic policy... 针对无人机(unmanned aerial vehicle,UAV)平台采集运动目标图像信息过程中因UAV自身的飞行状态、环境的干扰、目标的随机性等原因易产生运动目标丢失等问题,提出了一种基于运动目标识别的深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法UAV跟随方法。面向高速公路的车辆目标,分析了UAV高度、位姿与高速车辆运动之间的关系,建立了移动平台目标检测帧率的速度自适应模型,根据目标的运动状态计算能够相匹配UAV的飞行状态,实时修正飞行姿态与速度,使UAV能够保持与目标的相对位置和角度。继而基于DDPG算法价值网络估计UAV在不同状态下采取特定动作的价值,策略网络生成UAV在给定状态下采取动作的策略,给予UAV飞行高度、速度控制参数用于目标跟踪,使UAV能够根据目标的运动变化自动调节飞行状态,实现运动目标的自适应跟随。仿真实验表明:DDPG算法能够提供稳定的飞行姿态数据,为UAV的跟随任务提供了可靠的控制基础;通过在真实场景下实验验证,UAV能够实时跟踪速度范围0~33 m/s、半径为120 m的圆形面积内的地面运动目标,且在续航范围内能够实现持续稳定跟随。 展开更多
关键词 四轴飞行器 高速公路 动态规划 深度确定性策略梯度 目标跟踪
下载PDF
CR-NOMA中基于深度确定策略梯度的能效优化策略
11
作者 张云 《电信科学》 北大核心 2024年第5期112-120,共9页
利用认知无线电非正交多址接入(cognitive radio non-orthogonal multiple access,CR-NOMA)技术可缓解频谱资源短缺问题,提升传感设备的吞吐量。传感设备的能效问题一直制约着传感设备的应用。为此,针对CR-NOMA中的传感设备,提出基于深... 利用认知无线电非正交多址接入(cognitive radio non-orthogonal multiple access,CR-NOMA)技术可缓解频谱资源短缺问题,提升传感设备的吞吐量。传感设备的能效问题一直制约着传感设备的应用。为此,针对CR-NOMA中的传感设备,提出基于深度确定策略梯度的能效优化(deep deterministic policy gradientbased energy efficiency optimization,DPEE)算法。DPEE算法通过联合优化传感设备的传输功率和时隙分裂系数,提升传感设备的能效。将能效优化问题建模成马尔可夫决策过程,再利用深度确定策略梯度法求解。最后,通过仿真分析了电路功耗、时隙时长和主设备数对传感能效的影响。仿真结果表明,能效随传感设备电路功耗的增加而下降。此外,相比于基准算法,提出的DPEE算法提升了能效。 展开更多
关键词 传感设备 能量采集 认知无线电非正交多址接入 能效 深度确定策略梯度
下载PDF
基于乐观探索的双延迟深度确定性策略梯度
12
作者 王浩宇 张衡波 +1 位作者 程玉虎 王雪松 《南京理工大学学报》 CAS CSCD 北大核心 2024年第3期300-309,共10页
双延迟深度确定性策略梯度是深度强化学习的一个主流算法,是一种无模型强化学习,已成功应用于具有挑战性的连续控制任务中。然而,当环境中奖励稀疏或者状态空间较大时,双延迟深度确定性策略梯度的样本效率较差,环境探索能力较弱。针对... 双延迟深度确定性策略梯度是深度强化学习的一个主流算法,是一种无模型强化学习,已成功应用于具有挑战性的连续控制任务中。然而,当环境中奖励稀疏或者状态空间较大时,双延迟深度确定性策略梯度的样本效率较差,环境探索能力较弱。针对通过双Q值函数的下界确定目标函数带来的低效探索问题,提出一种基于乐观探索的双延迟深度确定性策略梯度(TD3-OE)。首先,从双Q值函数出发,分析取下界会使得探索具有一定的悲观性;然后,利用高斯函数和分段函数分别对双Q值函数进行拟合;最后,利用拟合Q值函数和目标策略构造出探索策略,指导智能体在环境中进行探索。探索策略能够避免智能体学习到次优策略,从而有效解决低效探索的问题。该文在基于MuJoCo物理引擎的控制平台上将所提算法与基准算法进行试验对比,验证了所提算法的有效性。试验结果表明:所提算法在奖励、稳定性和学习速度等指标上均达到或超过其他基础强化学习算法。 展开更多
关键词 深度强化学习 双延迟深度确定性策略梯度 探索策略 乐观探索
下载PDF
基于深度确定性策略梯度的PEMFC的水泵和散热器联合控制研究
13
作者 赵洪山 潘思潮 +2 位作者 吴雨晨 马利波 吕廷彦 《太阳能学报》 EI CAS CSCD 北大核心 2024年第6期92-101,共10页
针对燃料电池热管理系统中水泵和散热器的控制问题,提出一种基于深度确定性策略梯度(DDPG)的联合控制策略。该策略取代了传统控制框架中水泵和散热器的独立控制器,采用多输入多输出且可同时控制水泵冷却水流速和散热器空气流速的智能体... 针对燃料电池热管理系统中水泵和散热器的控制问题,提出一种基于深度确定性策略梯度(DDPG)的联合控制策略。该策略取代了传统控制框架中水泵和散热器的独立控制器,采用多输入多输出且可同时控制水泵冷却水流速和散热器空气流速的智能体。首先确定智能体的状态空间和动作空间,然后由控制目标设定奖励函数,最后在仿真平台上验证该算法的有效性。结果表明,所提出的联合控制策略可有效地同时控制冷却水流速和空气流速,从而提高质子交换膜燃料电池(PEMFC)的运行效率。 展开更多
关键词 深度学习 强化学习 质子交换膜燃料电池 智能控制 深度确定性策略梯度
下载PDF
基于双评论家的多智能体深度确定性策略梯度方法 被引量:3
14
作者 丁世飞 杜威 +2 位作者 郭丽丽 张健 徐晓 《计算机研究与发展》 EI CSCD 北大核心 2023年第10期2394-2404,共11页
在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这... 在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这一问题,分别从理论和实验上证明了多智能体深度确定性策略梯度方法存在价值函数被高估.提出基于双评论家的多智能体深度确定性策略梯度(multiagent deep deterministic policy gradient method based on double critics,MADDPG-DC)方法,通过在双评论家网络上的最小值操作来避免价值被高估,进一步促进智能体学得最优的策略.此外,延迟行动者网络更新,保证行动者网络策略更新的效率和稳定性,提高策略学习和更新的质量.在多智能体粒子环境和交通信号控制环境上的实验结果证明了所提方法的可行性和优越性. 展开更多
关键词 强化学习 价值估计 双评论家 交通信号控制 多智能体深度确定性策略梯度
下载PDF
基于深度确定性梯度算法的端到端自动驾驶策略 被引量:1
15
作者 赖晨光 杨小青 +2 位作者 胡博 庞玉涵 邹宏 《重庆理工大学学报(自然科学)》 CAS 北大核心 2023年第1期56-65,共10页
根据深度确定性策略梯度算法理论,提出了端到端的自动驾驶控制策略,通过Carla无人驾驶模拟器,以汽车前视图像和少量测量信息作为输入,直接输出转向、油门或制动的控制动作。同时,鉴于强化学习过程中存在大量试错行为,设计了对危险试错... 根据深度确定性策略梯度算法理论,提出了端到端的自动驾驶控制策略,通过Carla无人驾驶模拟器,以汽车前视图像和少量测量信息作为输入,直接输出转向、油门或制动的控制动作。同时,鉴于强化学习过程中存在大量试错行为,设计了对危险试错动作加以约束并修正的监督器,以减少危险动作并提升训练效率。根据Carla的训练测试结果表明,深度确定性策略梯度算法能使小车学习到有效的自动驾驶策略,且添加监督器之后的算法能明显减少试错行为并提升训练效率。 展开更多
关键词 自动驾驶 强化学习 深度确定性策略梯度 监督式深度强化学习
下载PDF
深度确定性策略梯度算法耦合模型驱动的行人过街仿真
16
作者 宋涛 王彦林 +1 位作者 魏昕恺 韦艳芳 《上海大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第4期651-665,共15页
行人仿真在公共安全研究中扮演着重要的角色,但如何增强仿真环境中智能体的真实性一直是一个难题.本工作提出了一种深度确定性策略梯度-行人二维优化速度模型耦合驱动算法,并对无信号交叉口行人过街行为进行仿真.通过构建考虑无速度差... 行人仿真在公共安全研究中扮演着重要的角色,但如何增强仿真环境中智能体的真实性一直是一个难题.本工作提出了一种深度确定性策略梯度-行人二维优化速度模型耦合驱动算法,并对无信号交叉口行人过街行为进行仿真.通过构建考虑无速度差项和有速度差项2种行人二维优化速度模型的策略探索方案,揭示出带有速度差项行人二维优化速度模型的耦合驱动算法倾向于灵活地选择相对安全的动作,从而使行人选择动作的策略也更优,达到了完全避免行人碰撞、确保行人安全的功能. 展开更多
关键词 深度确定性策略梯度 二维优化速度模型 碰撞 无信号交叉口 行人仿真
下载PDF
DDPG深度强化学习算法在无人船目标追踪与救援中的应用
17
作者 宋雷震 吕东芳 《黑龙江大学工程学报(中英俄文)》 2024年第1期58-64,共7页
为保证海上救援活动的高效性,研究结合深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)从状态空间、动作空间、奖励函数方面对船只追踪救援目标算法进行设计,并实际应用到无人船追踪救援之中。结果显示DDPG算法的稳... 为保证海上救援活动的高效性,研究结合深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)从状态空间、动作空间、奖励函数方面对船只追踪救援目标算法进行设计,并实际应用到无人船追踪救援之中。结果显示DDPG算法的稳定成功率接近100%,性能优异。该设计的算法最终回合累积奖励值能够稳定在10左右,而平均时长则能稳定在80 s左右,能够根据周边环境的状态调整自己的运动策略,满足海上救援活动中的紧迫性要求,能为相关领域的研究提供一条新的思路。 展开更多
关键词 无人船 目标追踪 海上救援 深度确定性策略梯度算法(DDPG)
下载PDF
水泥分解炉SNCR脱硝系统的深度强化学习多目标优化控制研究
18
作者 刘定平 吴泽豪 《中国电机工程学报》 EI CSCD 北大核心 2024年第12期4815-4825,I0017,共12页
选择性非催化还原(selective non-catalytic reduction,SNCR)脱硝过程的工艺参数优化可以有效减少水泥分解炉NO_(x)排放和脱硝运行成本。以某水泥分解炉为研究对象,建立基于LightGBM的NO_(x)浓度预测模型,以脱硝成本和NO_(x)浓度最小化... 选择性非催化还原(selective non-catalytic reduction,SNCR)脱硝过程的工艺参数优化可以有效减少水泥分解炉NO_(x)排放和脱硝运行成本。以某水泥分解炉为研究对象,建立基于LightGBM的NO_(x)浓度预测模型,以脱硝成本和NO_(x)浓度最小化为优化目标,采用深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法对水泥分解炉掺烧污泥协同SNCR脱硝过程的相关工艺参数进行优化控制建模。结果表明,NO_(x)浓度预测模型均方根误差(root mean squared error,RMSE)为6.8,平均绝对百分比误差(mean absolute percentage error,MAPE)为3.48%;采用DDPG算法可以对相关工艺参数进行优化,喷氨量和污泥掺烧量分别为427.87 L/h和9.78 t/h时,NO_(x)排放浓度为225.99 mg/(Nm^(3)),脱硝运行成本为1 747.8元/h。该优化结果与其他优化算法结果和常规工况对比,NO_(x)排放浓度和脱硝运行成本均呈现不同程度下降;对模型进行仿真及效果验证可知,所建立模型能输出合理的喷氨量和污泥掺烧量组合,减少SNCR出口NO_(x)浓度波动,有效降低NO_(x)排放浓度和脱硝成本,可实现对SNCR脱硝系统的多目标优化控制。该结果可为基于智能算法的水泥分解炉SNCR脱硝的多目标优化控制设计提供一定参考。 展开更多
关键词 喷氨 污泥掺烧 选择性非催化还原优化控制 LightGBM 强化学习 深度确定性策略梯度
下载PDF
深度确定性策略梯度和预测相结合的无人机空战决策研究 被引量:2
19
作者 李永丰 吕永玺 +1 位作者 史静平 李卫华 《西北工业大学学报》 EI CAS CSCD 北大核心 2023年第1期56-64,共9页
针对无人机自主空战机动决策过程中遇到的敌方不确定性操纵问题,提出了一种目标机动指令预测和深度确定性策略梯度算法相结合的无人机空战自主机动决策方法。对空战双方的态势数据进行有效的融合和处理,搭建无人机六自由度模型和机动动... 针对无人机自主空战机动决策过程中遇到的敌方不确定性操纵问题,提出了一种目标机动指令预测和深度确定性策略梯度算法相结合的无人机空战自主机动决策方法。对空战双方的态势数据进行有效的融合和处理,搭建无人机六自由度模型和机动动作库,在空战中目标通过深度Q网络算法生成相应机动动作库指令,同时我方无人机通过概率神经网络给出目标机动的预测结果。提出了一种同时考虑了两机态势信息和敌机预测结果的深度确定性策略梯度强化学习方法,使得无人机能够根据当前空战态势选择合适的机动决策。仿真结果表明,该算法可以有效利用空战态势信息和目标机动预测信息,在保证收敛性的前提下提高无人机自主空战决策强化学习算法的有效性。 展开更多
关键词 无人机 空战机动决策 预测 深度确定性策略梯度
下载PDF
基于改进深度确定性策略梯度算法的微电网能量优化调度 被引量:4
20
作者 李瑜 张占强 +1 位作者 孟克其劳 魏皓天 《电子测量技术》 北大核心 2023年第2期73-80,共8页
针对微电网中分布式发电设备存在输出不确定性和间歇性问题,以及传统的深度确定性策略梯度算法存在收敛速度慢、鲁棒性差、容易陷入局部最优的缺点。本文提出了一种基于优先经验回放的深度确定性策略梯度算法,以微电网系统运行成本最低... 针对微电网中分布式发电设备存在输出不确定性和间歇性问题,以及传统的深度确定性策略梯度算法存在收敛速度慢、鲁棒性差、容易陷入局部最优的缺点。本文提出了一种基于优先经验回放的深度确定性策略梯度算法,以微电网系统运行成本最低为目标,实现微电网的能量优化调度。首先,采用马尔可夫决策过程对微电网优化问题进行建模;其次,采用Sumtree结构的优先经验回放池提升样本利用效率,并且应用重要性采样来改善状态分布对收敛结果的影响。最后,本文利用真实的电力数据进行仿真验证,结果表明,提出的优化调度算法可以有效地学习到使微电网系统经济成本最低的运行策略,所提出的算法总运行时间比传统算法缩短了7.25%,运行成本降低了31.5%。 展开更多
关键词 优先经验回放 微电网能量优化调度 深度确定性策略梯度算法
下载PDF
上一页 1 2 16 下一页 到第
使用帮助 返回顶部