期刊文献+
共找到101篇文章
< 1 2 6 >
每页显示 20 50 100
基于深度强化学习算法的储能系统盈利策略研究
1
作者 杨国山 董鹏旭 +3 位作者 姚苏航 王永利 宋汶秦 周东 《电力需求侧管理》 2024年第2期20-26,共7页
在高比例新能源接入下,配置储能可以辅助电力系统削峰填谷,平抑波动。然而目前储能系统成本较高,需要政府进行支持。为此,提出了一种储能盈利策略,以在电网、储能运营商和用户组成的电力市场中实现运营利润最大化。结合智能算法提出了... 在高比例新能源接入下,配置储能可以辅助电力系统削峰填谷,平抑波动。然而目前储能系统成本较高,需要政府进行支持。为此,提出了一种储能盈利策略,以在电网、储能运营商和用户组成的电力市场中实现运营利润最大化。结合智能算法提出了一种考虑激励的盈利策略,为每个峰值时段的储能系统运营商提供不同权重的奖励分配。该算法一方面基于最小二乘支持向量机的深度学习,来建立价格和负荷预测模型;另一方面基于深度强化学习,考虑电网的峰值状态、用户负荷需求和储能系统运营商利润,确定最优充放电策略。最后通过案例分析,验证该策略可以显著提高储能系统运营商利润并减轻电网压力。 展开更多
关键词 储能系统 盈利策略 支持向量机 深度强化学习算法
下载PDF
基于强化学习算法的蚕种催青温度控制系统研究
2
作者 兰自勉 陈梦吉 +1 位作者 潘庆流 陆正杰 《广东蚕业》 2024年第11期4-6,共3页
蚕种催青是桑蚕生产的关键环节,催青过程中温度控制十分重要。文章分析了传统蚕种催青方式的缺点,提出了蚕种催青温度控制系统设计方案,包括软件设计与硬件设计,构建了基于强化学习的催青室温度控制模型。该方案利用强化学习算法对环境... 蚕种催青是桑蚕生产的关键环节,催青过程中温度控制十分重要。文章分析了传统蚕种催青方式的缺点,提出了蚕种催青温度控制系统设计方案,包括软件设计与硬件设计,构建了基于强化学习的催青室温度控制模型。该方案利用强化学习算法对环境变化进行实时监测和分析,结合蚕种的生长特性和需求,采取动态调整温度的控制策略,提高了系统对温度变化的适应能力和控制精度。实验结果表明,相比传统催青的温度控制方法,基于强化学习算法的蚕种催青温度控制系统在控制精度和稳定性方面均有显著提升。 展开更多
关键词 强化学习算法 蚕种催青 温度控制 系统设计
下载PDF
基于深度强化学习算法的弹性供应链调度优化方法 被引量:1
3
作者 张进军 《信息技术与信息化》 2024年第4期89-92,共4页
由于参与供应链的客户需求和供应者配置的多元性,导致供应链的配送成本难以得到有效控制,主要是因为在模型求解过程中,受困于参数本身的矛盾性,求解过程很容易陷入局部最优。为此,提出基于深度强化学习算法的弹性供应链调度优化方法研... 由于参与供应链的客户需求和供应者配置的多元性,导致供应链的配送成本难以得到有效控制,主要是因为在模型求解过程中,受困于参数本身的矛盾性,求解过程很容易陷入局部最优。为此,提出基于深度强化学习算法的弹性供应链调度优化方法研究。分别从供应者配置角度和客户需求角度构建了供应链模型,以供应链配送成本最小化为目标函数,应用深度强化学习算法中的深度Q网络(deepQ-network,DQN)算法进行训练,同步进行弹性供应链优化调度。DQN能够有效地处理这种高维状态空间,通过深度神经网络学习状态与动作之间的映射关系,自动提取关键特征,从而简化问题的复杂性。将收敛输出结果期望误差,输入供应链模型进行迭代计算,输出优化调度结果。测试结果表明,设计的方法可以实现对配送成本的有效控制。 展开更多
关键词 深度强化学习算法 弹性供应链调度 供应者配置 客户需求 供应链模型 配送成本最小化 DeepQ-Network 误差收敛
下载PDF
基于深度强化学习算法的全视角人脸纹理图像生成方法
4
作者 吕周澍 《湖南邮电职业技术学院学报》 2024年第2期34-38,共5页
由于人脸的面部特征复杂且纹理结构多样,传统方法往往受到完整性、纹理真实性、清晰度以及鲁棒性等方面的局限。因此,本研究提出基于深度强化学习算法的全视角人脸纹理图像生成方法。首先,对全视角人脸面部区域进行细致划分,建立坐标系... 由于人脸的面部特征复杂且纹理结构多样,传统方法往往受到完整性、纹理真实性、清晰度以及鲁棒性等方面的局限。因此,本研究提出基于深度强化学习算法的全视角人脸纹理图像生成方法。首先,对全视角人脸面部区域进行细致划分,建立坐标系以精确提取各区域的关键纹理结构特征点。随后,将这些特征点输入深度强化学习模型中,通过算法优化整合成一套全面的全视角特征点集合。利用马尔科夫权重场进一步处理特征点,通过计算联合概率,并结合重叠区域约束条件,生成了细节丰富、纹理清晰的全视角人脸纹理图像。实验结果表明,所提出方法生成的图像具有较高的峰值信噪比和较高的纹理清晰度,且鲁棒性较好,有效满足了高质量人脸纹理图像生成的需求。 展开更多
关键词 人脸图像生成 人脸纹理图像 深度强化学习算法 图像生成
下载PDF
强化学习算法在高校超算系统资源管理中的应用研究
5
作者 李东兴 《中国教育技术装备》 2024年第12期32-36,45,共6页
应用强化学习算法优化超算系统资源管理和配置,核心是通过设计合理的奖励函数、定义状态和动作空间,实现智能算法并根据系统状态灵活选择资源分配策略,提高超算系统资源使用效率和产出比。实验结果表明,基于强化学习算法在不同负载和状... 应用强化学习算法优化超算系统资源管理和配置,核心是通过设计合理的奖励函数、定义状态和动作空间,实现智能算法并根据系统状态灵活选择资源分配策略,提高超算系统资源使用效率和产出比。实验结果表明,基于强化学习算法在不同负载和状态下可以显著提高资源利用效率,强化学习的灵活性和自适应性可以为超算系统资源管理提供智能化解决方案。 展开更多
关键词 高校 超算系统 强化学习算法 资源管理 机器学习
下载PDF
基于深度强化学习算法的汽车发动机智能控制研究
6
作者 陈孝威 《汽车测试报告》 2024年第8期32-34,共3页
现有的汽车发动机控制方法低压涡轮转速为3000 r/min,发动机压比值与期望值存在出入。该文设计汽车发动机智能控制器,通过校正的方式来降低动态不确定性对控制器的影响,更新发动机转速。定义奖励函数,针对使燃气轮机转速趋向稳定的动作... 现有的汽车发动机控制方法低压涡轮转速为3000 r/min,发动机压比值与期望值存在出入。该文设计汽车发动机智能控制器,通过校正的方式来降低动态不确定性对控制器的影响,更新发动机转速。定义奖励函数,针对使燃气轮机转速趋向稳定的动作添加大量奖励值,针对影响转速偏离目标值的动作添加少量奖励值,建立控制发动机的动作空间,并设计回报函数,调节网络参数,从而实现控制。试验结果表明,提出的控制方法低压涡轮转速为3400r/min,提高了发动机的性能,并且发动机压比值稳定在1.8,与预期结果一致,未出现明显的超调现象,显示出控制方法的稳定性。 展开更多
关键词 深度强化学习算法 汽车发动机 智能控制
下载PDF
基于强化学习算法的静止同步补偿电压控制器 被引量:25
7
作者 郭红霞 吴捷 +1 位作者 刘永强 王春茹 《电网技术》 EI CSCD 北大核心 2004年第19期9-13,共5页
将强化学习算法应用于静止同步补偿(STATCOM)电压控制器,克服了常规 STATCOM 电压控制器对系统数学模型的依赖性,同时根据来自系统的强化学习信号,采用自适应启发评价算法更新其参数。在控制器中采用局部可测信息量,以确保其可实现性。... 将强化学习算法应用于静止同步补偿(STATCOM)电压控制器,克服了常规 STATCOM 电压控制器对系统数学模型的依赖性,同时根据来自系统的强化学习信号,采用自适应启发评价算法更新其参数。在控制器中采用局部可测信息量,以确保其可实现性。仿真实验结果表明,基于强化学习算法的 STATCOM 电压控制器可以在紧急情况下对系统电压进行调节,从而在一定程度上确保了系统的安全稳定运行。 展开更多
关键词 强化学习算法 同步补偿 系统 自适应 仿真实验 电压控制器 STATCOM 安全稳定运行
下载PDF
基于神经网络的强化学习算法研究 被引量:16
8
作者 陆鑫 高阳 +1 位作者 李宁 陈世福 《计算机研究与发展》 EI CSCD 北大核心 2002年第8期981-985,共5页
BP神经网络在非线性控制系统中被广泛运用 ,但作为有导师监督的学习算法 ,要求批量提供输入输出对对神经网络训练 ,而在一些并不知道最优策略的系统中 ,这样的输入输出对事先并无法得到 ;另一方面 ,强化学习从实际系统学习经验来调整策... BP神经网络在非线性控制系统中被广泛运用 ,但作为有导师监督的学习算法 ,要求批量提供输入输出对对神经网络训练 ,而在一些并不知道最优策略的系统中 ,这样的输入输出对事先并无法得到 ;另一方面 ,强化学习从实际系统学习经验来调整策略 ,并且是一个逐渐逼近最优策略的过程 ,学习过程中并不需要导师的监督 .提出了将强化学习与 BP神经网络结合的学习算法—— RBP模型 .该模型的基本思想是通过强化学习控制策略 ,经过一定周期的学习后再用学到的知识训练神经网络 ,以使网络逐步收敛到最优状态 . 展开更多
关键词 神经网络 强化学习算法 RBP模型
下载PDF
基于多智能体迁移强化学习算法的电力系统最优碳–能复合流求解 被引量:21
9
作者 陈艺璇 张孝顺 +1 位作者 郭乐欣 余涛 《高电压技术》 EI CAS CSCD 北大核心 2019年第3期863-872,共10页
为避免碳排放责任的重复计算,首次在电力系统最优碳–能复合流模型中提出发电侧、电网侧、用户侧之间的碳排放责任分摊机制。并进一步提出一种全新的多智能体迁移强化学习算法,以实现电力系统最优碳–能复合流模型的快速、高质量求解。... 为避免碳排放责任的重复计算,首次在电力系统最优碳–能复合流模型中提出发电侧、电网侧、用户侧之间的碳排放责任分摊机制。并进一步提出一种全新的多智能体迁移强化学习算法,以实现电力系统最优碳–能复合流模型的快速、高质量求解。此算法同时组织多个智能体执行优化任务,并将知识学习机制、多智能体交互机制和知识迁移机制相结合,不仅使每个智能体都具有较强的自主学习能力,还通过多个智能体之间的协调实现了问题的合作求解;知识迁移可以复用历史任务学习经验,使新任务学习效率大幅提升。IEEE 57节点系统、IEEE 300节点系统及深圳电网模型仿真结果均表明,此算法在保证最优解质量和寻优稳定性的同时,收敛速度可达其他算法的4.7~50.5倍,具有明显的优势和实用价值。 展开更多
关键词 多智能体迁移强化学习算法 碳-能复合流 碳排放责任分摊 迁移学习 强化学习
下载PDF
强化学习算法中启发式回报函数的设计及其收敛性分析 被引量:13
10
作者 魏英姿 赵明扬 《计算机科学》 CSCD 北大核心 2005年第3期190-193,共4页
(中国科学院沈阳自动化所机器人学重点实验室沈阳110016)
关键词 强化学习算法 启发式回报函数 收敛性 马尔可夫决策过程 机器学习 人工智能
下载PDF
多步截断SARSA强化学习算法 被引量:5
11
作者 李春贵 林海涛 刘永信 《广西工学院学报》 CAS 2002年第1期1-4,共4页
提出了一种新的 on- policy强化学习算法 ,其基本思想是按照一定学习策略 ,利用 k(k >1)步的信息来估计 TD (λ)回报值 ,从而加快对行动最优值估计的更新。更新速度比 SARSA (0 )算法快 ,但不象 SARSA (λ)
关键词 强化学习 MARKOV决策过程 Q学习 SQRSA学习 机器学习 多步截断SARSA强化学习算法
下载PDF
一种基于状态聚类的SARSA(λ)强化学习算法 被引量:3
12
作者 李春贵 吴沧浦 刘永信 《计算机工程》 CAS CSCD 北大核心 2003年第5期37-38,98,共3页
为求解大状态空间的强化学习问题,提出了一种基于状态聚类的SARSA(λ)强化学习算法,其基本思想是利用先验知识或事先训练控制器,对状态空间进行聚类,分为不同的簇,然后在簇空间上进行SARSA(λ)学习。若能进行适当的状态聚类,算法... 为求解大状态空间的强化学习问题,提出了一种基于状态聚类的SARSA(λ)强化学习算法,其基本思想是利用先验知识或事先训练控制器,对状态空间进行聚类,分为不同的簇,然后在簇空间上进行SARSA(λ)学习。若能进行适当的状态聚类,算法将可得到一个相对好的近似值函数. 展开更多
关键词 SARSA(λ)强化学习算法 状态聚类 强化学习 函数近似 SARSA学习 人工神经网络
下载PDF
平均报酬模型的多步强化学习算法 被引量:4
13
作者 胡光华 吴沧浦 《控制理论与应用》 EI CAS CSCD 北大核心 2000年第5期660-664,共5页
讨论模型未知的平均报酬强化学习算法 .通过结合即时差分学习与R学习算法 ,将折扣问题中的一些方法推广到了平均准则问题中 ,提出了两类算法 :R(λ)学习与截断即时差分TTD(λ)学习 .现有的R学习可视为R(λ)学习和TTD(λ)学习当λ=0时的... 讨论模型未知的平均报酬强化学习算法 .通过结合即时差分学习与R学习算法 ,将折扣问题中的一些方法推广到了平均准则问题中 ,提出了两类算法 :R(λ)学习与截断即时差分TTD(λ)学习 .现有的R学习可视为R(λ)学习和TTD(λ)学习当λ=0时的一个特例 .仿真结果表明 ,λ取中间值的R(λ)和TTD(λ)学习比现有的方法在可靠性与收敛速度上均有提高 . 展开更多
关键词 R学习 强化学习算法 平均报酬模型 机器学习
下载PDF
基于信度分配函数的Agent强化学习算法 被引量:1
14
作者 吴继伟 萧蕴诗 许维胜 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2003年第8期947-950,共4页
基于智能体 (Agent)系统强化学习原理和基于动态规划的Q -学习算法的基础上 ,提出了一种新的Agent强化学习算法 .该算法在Agent学习过程中不断调整Agent知识库的加权值 ,在强化学习的每个阶段 ,通过选取合适的信度分配函数来修正Agent... 基于智能体 (Agent)系统强化学习原理和基于动态规划的Q -学习算法的基础上 ,提出了一种新的Agent强化学习算法 .该算法在Agent学习过程中不断调整Agent知识库的加权值 ,在强化学习的每个阶段 ,通过选取合适的信度分配函数来修正Agent强化学习动作的选取策略 .与标准的Q -学习方法相比 ,具有更加合理的物理结构 ,并且能保证算法收敛 .仿真实验说明该方法加快了标准Q -学习算法的收敛速度 。 展开更多
关键词 Q-学习 信度分配强化学习 Agent强化学习算法 收敛速度
下载PDF
强化学习算法应用于船舶运动的混合智能控制 被引量:1
15
作者 杨国勋 郭晨 贾欣乐 《信息与控制》 CSCD 北大核心 2002年第2期127-131,共5页
将强化学习算法与混合智能技术相结合 ,应用于船舶运动控制 ,克服了通常混合智能算法的学习需要一定数量样本数据的缺陷 ,又能发挥各种智能算法的优势 .仿真结果表明在缺少样本数据情况下 ,该算法可以在一定程度上改进控制效果 .
关键词 强化学习算法 船舶运动 混合智能控制 神经网络 航向控制
下载PDF
基于模拟退火-强化学习算法的船舶运动控制 被引量:2
16
作者 叶光 郭晨 《系统仿真学报》 EI CAS CSCD 北大核心 2006年第5期1278-1282,共5页
船舶运动控制与航行的安全性、可操纵性和经济性密切相关。本文基于模拟退火-强化学习算法提出了一种混合智能控制器,应用于船舶运动航向控制中。这种混合智能控制器发挥了各种智能算法的优势,能够克服风、浪、流等外界的干扰,船舶操纵... 船舶运动控制与航行的安全性、可操纵性和经济性密切相关。本文基于模拟退火-强化学习算法提出了一种混合智能控制器,应用于船舶运动航向控制中。这种混合智能控制器发挥了各种智能算法的优势,能够克服风、浪、流等外界的干扰,船舶操纵自身的不确定性,以及干扰或仪器测量误差情况下,精确的训练数据不容易得到的缺陷。最终的仿真结果表明,当存在风浪干扰海况下,船舶航向的控制仍能取得令人满意的效果。 展开更多
关键词 模拟退火算法 强化学习算法 船舶运动控制 模糊神经网络
下载PDF
基于时隙CSMA的水声无线传感器网络节能强化学习算法 被引量:1
17
作者 周文刚 谭永杰 朱海 《计算机测量与控制》 北大核心 2014年第12期4035-4039,共5页
针对水声无线传感器网络的节能问题,提出了一种基于时隙CSMA的强化学习算法;该算法利用强化学习协议自适应水下环境,根据数据传输的距离调整发射功率,从而减少能量消耗,再结合时隙CSMA协议,使用随机退避算法减少信道中的数据碰撞,使得... 针对水声无线传感器网络的节能问题,提出了一种基于时隙CSMA的强化学习算法;该算法利用强化学习协议自适应水下环境,根据数据传输的距离调整发射功率,从而减少能量消耗,再结合时隙CSMA协议,使用随机退避算法减少信道中的数据碰撞,使得重发的数据包数量减少,节省能量;为验证算法的有效性,仿真实现了该算法,结果表明,该算法能够有效减少能耗,并延长网络寿命。 展开更多
关键词 水声无线传感器网络 强化学习算法 时隙CSMA 节能 随机退避算法
下载PDF
基于有限理性的期望强化学习算法在电力市场中的应用
18
作者 黄金红 周晓阳 《应用数学》 CSCD 北大核心 2007年第S1期6-9,共4页
在分析电力市场时,一般有效的工具是博弈论知识,经典博弈论研究的是理性的决策者.但实际上发电公司在决策时不可能采取完全理性的行为,即决策者的行为总是有限理性的,这是与现实相接近的,能更好的解释现实情况.因此以有限理性为分析前提... 在分析电力市场时,一般有效的工具是博弈论知识,经典博弈论研究的是理性的决策者.但实际上发电公司在决策时不可能采取完全理性的行为,即决策者的行为总是有限理性的,这是与现实相接近的,能更好的解释现实情况.因此以有限理性为分析前提,用期望强化学习算法来研究发电商行为的多样性给市场带来不同的均衡状态是有意义的. 展开更多
关键词 有限理性 期望强化学习算法 Roth-Erev强化学习算法 期望利润 实际利润
下载PDF
基于强化学习算法的供应链管理订单策略研究 被引量:4
19
作者 刘梦婷 牟永敏 +1 位作者 赵刚 欧阳腾飞 《数据通信》 2013年第1期22-25,共4页
供应链管理中的订单制定环节,经常存在一种需求被变异放大的现象即牛鞭效应,从而引起成本的增加。利用强化学习算法进行供应链管理中的订单制定,使得供应链中的节点能够做出较好的订单策略,从而降低整体成本,以提高效益。实验结果证明,... 供应链管理中的订单制定环节,经常存在一种需求被变异放大的现象即牛鞭效应,从而引起成本的增加。利用强化学习算法进行供应链管理中的订单制定,使得供应链中的节点能够做出较好的订单策略,从而降低整体成本,以提高效益。实验结果证明,提出的基于强化学习算法的订单制定策略比传统的固定库存策略更加有效的降低了成本。 展开更多
关键词 供应链管理 强化学习算法 订单策略
下载PDF
基于多智能体强化学习算法的微电网优化研究 被引量:1
20
作者 李健 戴幸泽 《制造业自动化》 2016年第2期80-88,共9页
新型分布式可再生能源的发电技术具有绿色、经济、灵活等特点,微电网为其系统化应用提供了可靠的技术支撑。为了实现微电网对经济环保性的更高要求,就要整合不同类型的微型电源的优势。因此,微网中微型电源的优化调度、综合经济效益是... 新型分布式可再生能源的发电技术具有绿色、经济、灵活等特点,微电网为其系统化应用提供了可靠的技术支撑。为了实现微电网对经济环保性的更高要求,就要整合不同类型的微型电源的优势。因此,微网中微型电源的优化调度、综合经济效益是亟需解决的重要问题。多智能体系统在微电网中的应用同样具有重大的意义。微网中每一个微型电源均可以看成是一个智能体。基于此首先提出一种基于层次分析法与模糊综合评价联合方法的微型电源综合性能指标评价方法,用来评价分析微型电源的综合性能;并采用多智能体强化学习算法实现了微型电源的优化调度问题,即在满足微网供需平衡的条件下,使各微型电源的综合性能达到最优。 展开更多
关键词 微电网 微型电源优化调度 微型电源综合性能指标 强化学习算法
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部