期刊文献+
共找到2,187篇文章
< 1 2 110 >
每页显示 20 50 100
基于世界模型深度强化学习的含风电电力系统低碳经济调度 被引量:1
1
作者 陈实 朱亚斌 +3 位作者 刘艺洪 罗欢 臧天磊 周步祥 《电网技术》 EI CSCD 北大核心 2024年第8期3143-3154,I0021-I0024,共16页
通过调度手段提高发电侧风电等可再生能源利用率,降低常规火电机组的碳排放是实现双碳目标的重要手段。针对含风电电力系统的低碳经济运行问题,提出一种基于世界模型深度强化学习的调度方法。首先,计及碳交易成本与发电成本构建了系统... 通过调度手段提高发电侧风电等可再生能源利用率,降低常规火电机组的碳排放是实现双碳目标的重要手段。针对含风电电力系统的低碳经济运行问题,提出一种基于世界模型深度强化学习的调度方法。首先,计及碳交易成本与发电成本构建了系统运行总成本最低的调度模型,采用基于世界模型的双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法求解系统各机组最优出力策略。该算法通过“因果Transformer”神经网络的自注意力机制和多层堆叠结构学习世界模型以等效真实环境,进一步结合TD3算法在世界模型决策空间中开展大规模探索,提高决策稳定性。以改进IEEE30节点系统为例,通过所提算法求解得到各机组发电策略,实现了含风电电力系统的低碳经济调度目标,表明该方法能有效提升风电消纳,减少系统碳排放量,降低运行成本。 展开更多
关键词 可再生能源 世界模型 深度强化学习 低碳经济运行
下载PDF
基于深度强化学习的Π型阻抗匹配网络多参数最优求解方法 被引量:1
2
作者 胡正伟 夏思懿 +2 位作者 王文彬 曹旺斌 谢志远 《电力系统保护与控制》 EI CSCD 北大核心 2024年第6期152-163,共12页
针对电力线信道阻抗变化复杂、负载阻抗不匹配造成通信质量差等问题,提出一种基于深度强化学习的Π型阻抗匹配网络多参数最优求解方法,并验证分析了深度强化学习对于寻找最优匹配参数的可行性。首先,建立Π型网络结构,推导窄带匹配和宽... 针对电力线信道阻抗变化复杂、负载阻抗不匹配造成通信质量差等问题,提出一种基于深度强化学习的Π型阻抗匹配网络多参数最优求解方法,并验证分析了深度强化学习对于寻找最优匹配参数的可行性。首先,建立Π型网络结构,推导窄带匹配和宽带匹配场景下的最优匹配目标函数。其次,采用深度强化学习,利用智能体的移动模拟实际匹配网络的元件参数变化,设置含有理论值与最优匹配值参数的公式作为奖励,构建寻优匹配模型。然后,分别仿真验证了窄带匹配和宽带匹配两种应用场景并优化模型的网络参数。最后,仿真结果证明,经过训练后的最优模型运行时间较短且准确度较高,能够较好地自动匹配电力线载波通信负载阻抗变化,改善和提高电力线载波通信质量。 展开更多
关键词 深度强化学习 电力线通信 窄带匹配 宽带匹配
下载PDF
结合深度强化学习的边缘计算网络服务功能链时延优化部署方法 被引量:1
3
作者 孙春霞 杨丽 +1 位作者 王小鹏 龙良 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第4期1363-1372,共10页
该文针对边缘网络资源受限且对业务流端到端时延容忍度低的问题,结合深度强化学习与基于时延的Dijkstra寻路算法提出一种面向时延优化的服务功能链(SFC)部署方法。首先,设计一种基于注意力机制的序列到序列(Seq2Seq)代理网络和基于时延... 该文针对边缘网络资源受限且对业务流端到端时延容忍度低的问题,结合深度强化学习与基于时延的Dijkstra寻路算法提出一种面向时延优化的服务功能链(SFC)部署方法。首先,设计一种基于注意力机制的序列到序列(Seq2Seq)代理网络和基于时延的Dijkstra寻路算法,用于产生虚拟网络功能(VNF)的部署以及服务SFC的链路映射,同时考虑了时延优化模型的约束问题,采用拉格朗日松弛技术将其纳入强化学习目标函数中;其次,为了辅助网络代理快速收敛,采用基线评估器网络评估部署策略的预期奖励值;最后,在测试阶段,通过贪婪搜索及抽样技术降低网络收敛到局部最优的概率,从而改进模型的部署。对比实验表明,该方法在网络资源受限的情况下,比First-Fit算法与TabuSearch算法的时延分别降低了约10%和86.3%,且较这两种算法稳定约74.2%与84.4%。该方法能较稳定地提供更低时延的端到端服务,使时延敏感类业务获得更好体验。 展开更多
关键词 服务功能链部署 深度强化学习 边缘网络 端到端时延
下载PDF
考虑行为克隆的深度强化学习股票交易策略 被引量:1
4
作者 杨兴雨 陈亮威 +1 位作者 郑萧腾 张永 《系统管理学报》 CSCD 北大核心 2024年第1期150-161,共12页
为提高股票投资的收益并降低风险,将模仿学习中的行为克隆思想引入深度强化学习框架中设计股票交易策略。在策略设计过程中,将对决DQN深度强化学习算法和行为克隆进行结合,使智能体在自主探索的同时模仿事先构造的投资专家的决策。选择... 为提高股票投资的收益并降低风险,将模仿学习中的行为克隆思想引入深度强化学习框架中设计股票交易策略。在策略设计过程中,将对决DQN深度强化学习算法和行为克隆进行结合,使智能体在自主探索的同时模仿事先构造的投资专家的决策。选择不同行业的股票进行数值实验,说明了所设计的交易策略在年化收益率、夏普比率和卡玛比率等收益与风险指标上优于对比策略。研究结果表明:将模仿学习与深度强化学习相结合可以使智能体同时具有探索和模仿能力,从而提高模型的泛化能力和策略的适用性。 展开更多
关键词 股票交易策略 深度强化学习 模仿学习 行为克隆 对决深度Q学习网络
下载PDF
基于深度强化学习的住宅区电动汽车充电策略 被引量:1
5
作者 王保义 祝郑凌 张少敏 《电力科学与工程》 2024年第6期19-27,共9页
为降低电动汽车(Electricvehicle,EV)充电成本、缓解用户里程焦虑,提出了一种基于深度强化学习算法的EV充电控制策略。首先,使用数学模型定量分析EV用户的充电成本、里程焦虑以及电池老化;然后,将EV充放电问题转化为状态转移概率未知的... 为降低电动汽车(Electricvehicle,EV)充电成本、缓解用户里程焦虑,提出了一种基于深度强化学习算法的EV充电控制策略。首先,使用数学模型定量分析EV用户的充电成本、里程焦虑以及电池老化;然后,将EV充放电问题转化为状态转移概率未知的马尔可夫决策过程,使用强化学习算法得到离散的充放电决策。与传统的基于模型预测控制算法相比,在用该策略得到充电策略时可以不依赖充电环境的精确模型以及EV用户行为等不确定性因素的预测结果。实验结果表明,应用该策略可以在满足用户充电需求的同时降低充电成本、保护电池,其控制性能相比基于模型预测控制的充电策略也更为优异。 展开更多
关键词 电动汽车 住宅区 充放电控制 深度强化学习
下载PDF
基于深度强化学习的工业网络入侵检测研究 被引量:2
6
作者 刘胜全 刘博 《东北师大学报(自然科学版)》 CAS 北大核心 2024年第1期80-86,共7页
为了有效识别工业网络环境中由多条异常数据共同组合的新型攻击,提出了一种基于深度强化学习的融合模型DQN-LSTM.该模型将流量数据的空间特征和时序特征相结合,展开异常检测.在公开的工控网络天然气工厂数据集上进行实验,DQN-LSTM模型... 为了有效识别工业网络环境中由多条异常数据共同组合的新型攻击,提出了一种基于深度强化学习的融合模型DQN-LSTM.该模型将流量数据的空间特征和时序特征相结合,展开异常检测.在公开的工控网络天然气工厂数据集上进行实验,DQN-LSTM模型在准确率和F1值上与SVM、CNN、LSTM、DQN等方法相比,本文模型的综合性能更好. 展开更多
关键词 工业控制系统 流量异常检测 深度强化学习 DQN LSTM
下载PDF
基于数字孪生和深度强化学习的矿井超前液压支架自适应抗冲支护方法 被引量:1
7
作者 张帆 邵光耀 +1 位作者 李昱翰 李玉雪 《工矿自动化》 CSCD 北大核心 2024年第6期23-29,45,共8页
受深部开采冲击地压等地质灾害扰动的影响,存在矿井超前支护系统自感知能力差、智能抗冲自适应能力弱、缺乏决策控制能力等问题。针对上述问题,提出了一种基于数字孪生和深度强化学习的矿井超前液压支架自适应抗冲支护方法。通过多源传... 受深部开采冲击地压等地质灾害扰动的影响,存在矿井超前支护系统自感知能力差、智能抗冲自适应能力弱、缺乏决策控制能力等问题。针对上述问题,提出了一种基于数字孪生和深度强化学习的矿井超前液压支架自适应抗冲支护方法。通过多源传感器感知巷道环境和超前液压支架支护状态,在虚拟世界中创建物理实体的数字孪生模型,其中物理模型精确展现超前液压支架的结构特征和细节,控制模型实现超前液压支架的自适应控制,机理模型实现对超前液压支架自适应支护的逻辑描述和机理解释,数据模型存储超前液压支架实体运行数据和孪生数据,仿真模型完成超前液压支架立柱仿真以实现超前液压支架与数字孪生模型虚实交互。根据基于深度Q网络(DQN)的超前液压支架自适应抗冲决策算法,对仿真环境中巷道抗冲支护进行智能决策,并依据决策结果对物理实体和数字孪生模型下达调控指令,实现超前液压支架智能控制。实验结果表明:立柱位移与压力变化一致,说明超前液压支架立柱仿真模型设计合理,从而验证了数字孪生模型的准确性;基于DQN的矿井超前液压支架自适应抗冲决策算法可通过调节液压支架控制器PID参数,自适应调控立柱压力,提升巷道安全等级,实现超前液压支架自适应抗冲支护。 展开更多
关键词 矿井智能抗冲 超前液压支架 自适应支护 数字孪生 深度强化学习 深度Q网络 DQN
下载PDF
基于深度强化学习的舰船导弹目标分配方法 被引量:1
8
作者 肖友刚 金升成 +2 位作者 毛晓 伍国华 陆志沣 《控制理论与应用》 EI CAS CSCD 北大核心 2024年第6期990-998,共9页
针对对抗环境下的海上舰船防空反导导弹目标分配问题,本文提出了一种融合注意力机制的深度强化学习算法.首先,构建了舰船多类型导弹目标分配模型,并结合目标多波次拦截特点将问题建模为马尔可夫决策过程.接着,基于编码器–解码器框架搭... 针对对抗环境下的海上舰船防空反导导弹目标分配问题,本文提出了一种融合注意力机制的深度强化学习算法.首先,构建了舰船多类型导弹目标分配模型,并结合目标多波次拦截特点将问题建模为马尔可夫决策过程.接着,基于编码器–解码器框架搭建强化学习策略网络,融合多头注意力机制对目标进行编码,并在解码中结合整体目标和单个目标编码信息实现舰船可靠的导弹目标分配.最后,对导弹目标分配收益、分配时效以及策略网络训练过程进行了仿真实验.实验结果表明,本文方法能生成高收益的导弹目标分配方案,相较于对比算法的大规模决策计算速度提高10%~94%,同时其策略网络能够快速稳定收敛. 展开更多
关键词 防空反导 导弹目标分配 武器目标分配 深度强化学习
下载PDF
基于异步深度强化学习的车联网协作卸载策略
9
作者 赵晓焱 韩威 +1 位作者 张俊娜 袁培燕 《计算机应用》 CSCD 北大核心 2024年第5期1501-1510,共10页
随着车联网(IoV)的快速发展,智能网联汽车产生了大量延迟敏感型和计算密集型任务,有限的车辆计算资源以及传统的云服务模式无法满足车载用户的需求,移动边缘计算(MEC)为解决海量数据的任务卸载提供了一种有效范式。但在考虑多任务、多... 随着车联网(IoV)的快速发展,智能网联汽车产生了大量延迟敏感型和计算密集型任务,有限的车辆计算资源以及传统的云服务模式无法满足车载用户的需求,移动边缘计算(MEC)为解决海量数据的任务卸载提供了一种有效范式。但在考虑多任务、多用户场景时,由于车辆位置、任务种类以及车辆密度的实时性和动态变化,IoV中任务卸载场景复杂度较高,卸载过程中容易出现边缘资源分配不均衡、通信成本开销过大、算法收敛慢等问题。为解决以上问题,重点研究了IoV中多任务、多用户移动场景中的多边缘服务器协同任务卸载策略。首先,提出一种多边缘协同处理的三层异构网络模型,针对IoV中不断变化的环境,引入动态协作簇,将卸载问题转化为时延和能耗的联合优化问题;其次,将问题分为卸载决策和资源分配两个子问题,其中资源分配问题又拆分为面向边缘服务器和传输带宽的资源分配,并基于凸优化理论求解。为了寻求最优卸载决策集,提出一种能在协作簇中处理连续问题的多边缘协作深度确定性策略梯度(MC-DDPG)算法,并在此基础上设计了一种异步多边缘协作深度确定性策略梯度(AMCDDPG)算法,通过将协作簇中的训练参数异步上传至云端进行全局更新,再将更新结果返回每个协作簇中提高收敛速度。仿真结果显示,AMC-DDPG算法较DDPG算法至少提高了30%的收敛速度,且在奖励和总成本等方面也取得了较好的效果。 展开更多
关键词 车联网 移动边缘计算 任务卸载 协作 深度强化学习
下载PDF
多智能体深度强化学习研究进展
10
作者 丁世飞 杜威 +2 位作者 张健 郭丽丽 丁玲 《计算机学报》 EI CAS CSCD 北大核心 2024年第7期1547-1567,共21页
深度强化学习(Deep Reinforcement Learning,DRL)在近年受到广泛的关注,并在各种领域取得显著的成功.由于现实环境通常包括多个与环境交互的智能体,多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)获得蓬勃的发展... 深度强化学习(Deep Reinforcement Learning,DRL)在近年受到广泛的关注,并在各种领域取得显著的成功.由于现实环境通常包括多个与环境交互的智能体,多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)获得蓬勃的发展,在各种复杂的序列决策任务上取得优异的表现.本文对多智能体深度强化学习的工作进展进行综述,主要内容分为三个部分.首先,我们回顾了几种常见的多智能体强化学习问题表示及其对应的合作、竞争和混合任务.其次,我们对目前的MADRL方法进行了全新的多维度的分类,并对不同类别的方法展开进一步介绍.其中,我们重点综述值函数分解方法,基于通信的MADRL方法以及基于图神经网络的MADRL方法.最后,我们研究了MADRL方法在现实场景中的主要应用.希望本文能够为即将进入这一快速发展领域的新研究人员和希望获得全方位了解并根据最新进展确定新方向的现有领域专家提供帮助. 展开更多
关键词 多智能体深度强化学习 基于值函数 基于策略 通信学习 图神经网络
下载PDF
基于深度强化学习的电-气区域综合能源系统安全校正控制决策方法
11
作者 彭寒梅 胡磊 +2 位作者 谭貌 李金果 苏永新 《电网技术》 EI CSCD 北大核心 2024年第3期1019-1029,共11页
电–气区域综合能源系统电、气相互耦合与影响,使得其安全校正控制难度大且对快速性要求高,为此,提出一种基于深度确定性策略梯度(deepdeterministicpolicy gradient,DDPG)算法的安全校正控制决策方法。首先,进行系统多能流与变量分析,... 电–气区域综合能源系统电、气相互耦合与影响,使得其安全校正控制难度大且对快速性要求高,为此,提出一种基于深度确定性策略梯度(deepdeterministicpolicy gradient,DDPG)算法的安全校正控制决策方法。首先,进行系统多能流与变量分析,建立安全校正控制的目标与约束条件。然后,构建基于DDPG的安全校正控制模型,设计目标奖励和各种约束条件奖励,提出结合基于综合灵敏度的安全校正知识经验设计目标奖励函数,使调整具有方向性,且目标奖励考虑能量枢纽(energy hub,EH)的经济效益及其可再生能源消纳;通过智能体离线训练,使其能够在线做出实时最优的安全校正控制策略,预先产生专家经验数据集存放于经验回放池,提高训练速度和收敛性。最后,通过含EH电–气区域综合能源系统仿真算例验证了所提方法的有效性。 展开更多
关键词 电–气区域综合能源系统 安全校正控制 深度强化学习 综合灵敏度 能量枢纽
下载PDF
基于深度强化学习的氢能综合能源系统优化调度方法
12
作者 张磊 吴红斌 +3 位作者 何叶 徐斌 张明星 丁明 《电力系统自动化》 EI CSCD 北大核心 2024年第16期132-141,共10页
为实现碳减排目标,氢能与综合能源系统的结合成为最具潜力的发展方向之一。针对当前氢能综合能源系统调度策略灵活性不足、复杂系统多目标优化求解困难等问题,提出一种基于深度强化学习的氢能综合能源系统优化调度方法。首先,采用耦合... 为实现碳减排目标,氢能与综合能源系统的结合成为最具潜力的发展方向之一。针对当前氢能综合能源系统调度策略灵活性不足、复杂系统多目标优化求解困难等问题,提出一种基于深度强化学习的氢能综合能源系统优化调度方法。首先,采用耦合设备的变工况模型,构建风-光-氢-冷-热-电综合能源系统,拓展设备联合供能空间。其次,考虑系统运行成本、碳排放量、系统自供给平衡度和新能源利用率,基于最优解距离构建多目标优化模型,激发智能体探索性。然后,通过时序片段表征优化深度强化学习算法,增强了智能体对系统状态变化的估计精度。最后,在源荷实测数据的基础上设计仿真算例。结果表明,所提方法可以有效提高氢能综合能源系统调度的灵活性,充分挖掘氢能的碳减排潜力,实现调度经济性和环保性的双重优化。 展开更多
关键词 综合能源系统 氢能 优化调度 深度强化学习 多目标优化 可再生能源
下载PDF
深度强化学习求解移动机器人端到端导航问题的研究综述
13
作者 何丽 姚佳程 +4 位作者 廖雨鑫 张文智 卢赵清 袁亮 肖文东 《计算机工程与应用》 CSCD 北大核心 2024年第14期1-13,共13页
自主导航是移动机器人完成复杂任务的前提和基础,传统的自主导航系统依赖于地图的精度,无法适应高度复杂的作业和服务场景。移动机器人不依赖先验地图信息,通过深度强化学习与环境交互学习能够自主决策的端到端导航方法成为新的研究热... 自主导航是移动机器人完成复杂任务的前提和基础,传统的自主导航系统依赖于地图的精度,无法适应高度复杂的作业和服务场景。移动机器人不依赖先验地图信息,通过深度强化学习与环境交互学习能够自主决策的端到端导航方法成为新的研究热点。大多数现有的分类方法不能全面地总结端到端导航问题的挑战和机遇,根据端到端导航系统的特点,将导航问题的挑战归结为导航智能体感知能力差、学习效率低和导航策略泛化能力弱等关键问题,阐述了端到端导航系统的研究现状和发展趋势,分别详细介绍了近年来针对这些关键问题的代表性研究成果,并对其优势和不足进行了归纳总结。最后,从视觉语言导航、多智能体协同导航、融合超分辨率重建图像的端到端导航和可解释性端到端导航等方面展望了移动机器人端到端导航的未来发展趋势,为移动机器人端到端导航的研究和应用提供一定的思路。 展开更多
关键词 端到端导航 深度强化学习 感知能力 学习效率 泛化能力
下载PDF
基于自注意力机制的深度强化学习交通信号控制
14
作者 张玺君 聂生元 +1 位作者 李喆 张红 《交通运输系统工程与信息》 EI CSCD 北大核心 2024年第2期96-104,共9页
交通信号控制(Traffic Signal Control, TSC)仍然是交通领域中最重要的研究课题之一。针对现有基于深度强化学习(Deep Reinforcement Learning, DRL)的交通信号控制方法的状态需要人为设计,导致提取交通状态信息难度大以及交通状态信息... 交通信号控制(Traffic Signal Control, TSC)仍然是交通领域中最重要的研究课题之一。针对现有基于深度强化学习(Deep Reinforcement Learning, DRL)的交通信号控制方法的状态需要人为设计,导致提取交通状态信息难度大以及交通状态信息无法全面表达的问题,为了从有限特征中挖掘潜在交通状态信息,从而降低交通状态设计难度,提出一种引入自注意力网络的DRL算法。首先,仅获取交叉口各进入口车道车辆位置,使用非均匀量化和独热编码方法预处理得到车辆位置分布矩阵;其次,使用自注意力网络挖掘车辆位置分布矩阵的空间相关性和潜在信息,作为DRL算法的输入;最后,在单交叉口学习交通信号自适应控制策略,在多交叉口路网中验证所提算法的适应性和鲁棒性。仿真结果表明,在单交叉口环境下,与3种基准算法相比,所提算法在车辆平均等待时间等指标上具有更好的性能;在多交叉口路网中,所提算法仍然具有良好的适应性。 展开更多
关键词 智能交通 自适应控制 深度强化学习 自注意力网络 近端策略优化
下载PDF
基于深度强化学习的综合航电系统安全性优化方法
15
作者 赵长啸 李道俊 +2 位作者 孙亦轩 景鹏 田毅 《中国安全科学学报》 CAS CSCD 北大核心 2024年第7期123-131,共9页
为解决传统基于人工检查的安全性设计方法难以应对航电系统大规模集成带来的可选驻留方案爆炸问题,构建航电系统分区模型、任务模型以及安全关键等级量化模型,将考虑安全性的综合化设计优化问题模型化为马尔可夫决策过程(MDP)问题,并提... 为解决传统基于人工检查的安全性设计方法难以应对航电系统大规模集成带来的可选驻留方案爆炸问题,构建航电系统分区模型、任务模型以及安全关键等级量化模型,将考虑安全性的综合化设计优化问题模型化为马尔可夫决策过程(MDP)问题,并提出一种基于Actor-Critic框架的柔性动作-评价(SAC)算法的优化方法;为得到SAC算法的参数选择和训练结果之间的相关性,针对算法参数灵敏度开展研究;同时,为验证基于SAC算法的优化方法在优化考虑安全性的综合化设计方面的优越性,以深度确定性策略梯度(DDPG)算法和传统分配算法为对象,开展优化对比试验。结果表明:在最佳的参数组合下,使用的SAC算法收敛后的最大奖励相较于其他参数组合提升近8%,同时,收敛时间缩短近16.6%;相较于DDPG算法和传统分配算法,基于SAC算法的优化方法在相同的参数设置下获得的最大奖励、约束累计违背率、分区均衡风险效果、分区资源利用以及求解时间方面最大提升分别为62%、7464%、8370%、2123%和775%。 展开更多
关键词 深度强化学习 综合航电系统 安全性 优化方法 马尔可夫决策过程(MDP) 综合化设计
下载PDF
基于深度强化学习和隐私保护的群智感知动态任务分配策略
16
作者 傅彦铭 陆盛林 +1 位作者 陈嘉元 覃华 《信息网络安全》 CSCD 北大核心 2024年第3期449-461,共13页
在移动群智感知(Mobile Crowd Sensing,MCS)中,动态任务分配的结果对提高系统效率和确保数据质量至关重要。然而,现有的大部分研究在处理动态任务分配时,通常将其简化为二分匹配模型,该简化模型未充分考虑任务属性与工人属性对匹配结果... 在移动群智感知(Mobile Crowd Sensing,MCS)中,动态任务分配的结果对提高系统效率和确保数据质量至关重要。然而,现有的大部分研究在处理动态任务分配时,通常将其简化为二分匹配模型,该简化模型未充分考虑任务属性与工人属性对匹配结果的影响,同时忽视了工人位置隐私的保护问题。针对这些不足,文章提出一种基于深度强化学习和隐私保护的群智感知动态任务分配策略。该策略首先通过差分隐私技术为工人位置添加噪声,保护工人隐私;然后利用深度强化学习方法自适应地调整任务批量分配;最后使用基于工人任务执行能力阈值的贪婪算法计算最优策略下的平台总效用。在真实数据集上的实验结果表明,该策略在不同参数设置下均能保持优越的性能,同时有效地保护了工人的位置隐私。 展开更多
关键词 群智感知 深度强化学习 隐私保护 深度Q网络 能力阈值贪婪算法
下载PDF
基于深度强化学习的园区综合能源系统低碳经济调度
17
作者 杨挺 刘豪 +3 位作者 王静 党兆帅 耿毅男 盆海波 《电网技术》 EI CSCD 北大核心 2024年第9期3604-3613,I0022,I0023,共12页
为降低园区综合能源系统的运行成本和碳排放量,同时应对系统不确定性带来的随机波动,提出一种考虑阶梯式碳交易的园区综合能源系统低碳经济调度模型,并采用深度强化学习方法求解。首先构建园区阶梯式碳交易模型,将碳交易成本考虑在内对... 为降低园区综合能源系统的运行成本和碳排放量,同时应对系统不确定性带来的随机波动,提出一种考虑阶梯式碳交易的园区综合能源系统低碳经济调度模型,并采用深度强化学习方法求解。首先构建园区阶梯式碳交易模型,将碳交易成本考虑在内对园区综合能源系统低碳经济调度问题进行数学描述;其次将该调度问题表述为马尔可夫决策过程框架,定义系统的观测状态、调度动作和奖励函数;继而采用近端策略优化算法进行低碳经济调度决策。所提方法无需进行负荷预测或不确定性建模,能够对源和荷的随机波动做出实时响应。最后基于多场景多算法进行算例仿真,结果表明所提方法提高系统运行经济性的同时降低了系统碳排放量。 展开更多
关键词 园区综合能源系统 阶梯式碳交易 深度强化学习 近端策略优化算法 低碳经济调度
下载PDF
基于深度强化学习的空天地一体化网络资源分配算法
18
作者 刘雪芳 毛伟灏 杨清海 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第7期2831-2841,共11页
空天地一体化网络(SAGIN)通过提高地面网络的资源利用率可以有效满足多种业务类型的通信需求,然而忽略了系统的自适应能力和鲁棒性及不同用户的服务质量(QoS)。针对这一问题,该文提出在空天地一体化网络架构下,面向城区和郊区通信的深... 空天地一体化网络(SAGIN)通过提高地面网络的资源利用率可以有效满足多种业务类型的通信需求,然而忽略了系统的自适应能力和鲁棒性及不同用户的服务质量(QoS)。针对这一问题,该文提出在空天地一体化网络架构下,面向城区和郊区通信的深度强化学习(DRL)资源分配算法。基于第3代合作伙伴计划(3GPP)标准中定义的用户参考信号接收功率(RSRP),考虑地面同频干扰情况,以不同域中基站的时频资源作为约束条件,构建了最大化系统用户的下行吞吐量优化问题。利用深度Q网络(DQN)算法求解该优化问题时,定义了能够综合考虑用户服务质量需求、系统自适应能力及系统鲁棒性的奖励函数。仿真结果表明,综合考虑无人驾驶汽车,沉浸式服务及普通移动终端通信业务需求时,表征系统性能的奖励函数值在2 000次迭代下,相较于贪婪算法提升了39.1%;对于无人驾驶汽车业务,利用DQN算法进行资源分配后,相比于贪婪算法,丢包数平均下降38.07%,时延下降了6.05%。 展开更多
关键词 空天地一体化网络 资源分配算法 深度强化学习 深度Q网络
下载PDF
基于深度强化学习的空中基站部署优化算法
19
作者 张博 杨锟浩 李俊锋 《郑州大学学报(理学版)》 CAS 北大核心 2024年第4期28-33,共6页
针对无人机群(swarm of unmanned aerial vehicle,UAV-swarm)在救灾场景中对地面移动用户进行持续性通信覆盖的问题,设计了一种基于多智能体的深度强化学习的无人机群路径优化算法。该算法框架中无人机具有分布式决策能力,根据用户的移... 针对无人机群(swarm of unmanned aerial vehicle,UAV-swarm)在救灾场景中对地面移动用户进行持续性通信覆盖的问题,设计了一种基于多智能体的深度强化学习的无人机群路径优化算法。该算法框架中无人机具有分布式决策能力,根据用户的移动来动态调整自身的移动策略。通过设置合适的强化学习奖励和参数,使无人机在满足覆盖百分比、防碰撞、能源限制等多种约束前提下,最大限度地长期覆盖地面移动用户。与其他无人机部署方案算法进行仿真对比,实验结果表明,该模型在收敛速度和收敛效果上得到了显著提升。 展开更多
关键词 无人机 无线通信 深度强化学习 轨迹规划
下载PDF
基于改进深度强化学习的SDN智能路由
20
作者 张晓莉 柳珍 郭庆 《传感器与微系统》 CSCD 北大核心 2024年第8期150-154,共5页
设计了一种基于图神经网络(GNN)和优先经验回放的改进DQN算法(R_DQN)。该算法采用消息传递网络框架进行图结构节点间的信息传播,能够更好地适应网络拓扑这种图结构信息;同时采用优先经验回放机制去学习更有价值的信息,提高样本学习效率... 设计了一种基于图神经网络(GNN)和优先经验回放的改进DQN算法(R_DQN)。该算法采用消息传递网络框架进行图结构节点间的信息传播,能够更好地适应网络拓扑这种图结构信息;同时采用优先经验回放机制去学习更有价值的信息,提高样本学习效率,进行算法优化。实验结果表明:该R_DQN算法在网络拓扑和业务模型方面都具有较强的泛化能力,对于训练期间没有见过的网络场景依然有较好的表现,在最大化通信量性能上有较大提升。 展开更多
关键词 深度强化学习 软件定义网络 图神经网络
下载PDF
上一页 1 2 110 下一页 到第
使用帮助 返回顶部