期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
中长期发电计划的值函数近似动态规划方法 被引量:11
1
作者 梁振成 韦化 +1 位作者 李凌 田君杨 《中国电机工程学报》 EI CSCD 北大核心 2015年第20期5199-5209,共11页
针对中长期发电优化调度问题周期长、规模大、随机性强等特点,提出一种基于近似动态规划(approximate dynamic programming,ADP)的多阶段优化决策模型。以预测场景表示日前市场煤价、流域来水、风速等随机变量,将远期合约购煤与市场购... 针对中长期发电优化调度问题周期长、规模大、随机性强等特点,提出一种基于近似动态规划(approximate dynamic programming,ADP)的多阶段优化决策模型。以预测场景表示日前市场煤价、流域来水、风速等随机变量,将远期合约购煤与市场购煤、水库用水等视为ADP框架下的阶段决策。分阶段决策降低了问题的求解规模和难度,提出的燃煤和水库蓄水的值函数近似策略解决了如何优化决策以保持阶段分解后的整体优化特性问题。通过在决策与近似值函数之间的迭代,求解出近似最优决策序列,进而获取发电优化调度方案。某省年度发电计划的计算分析结果表明,所提方法建模简洁,处理随机因素方便,与传统方法相比较,新方法在获得成本期望值偏差小于0.5%的高质量随机解的同时,计算时间可大幅度下降,具有广泛的应用前景。 展开更多
关键词 风水火 中长期发电计划 发电优化调度 近似 态规划 函数近似策略
下载PDF
用户侧分布式储能参与一次调频的日内前瞻-值函数近似策略 被引量:6
2
作者 温可瑞 李卫东 +2 位作者 孙乔 巴宇 王海霞 《电力系统自动化》 EI CSCD 北大核心 2022年第20期33-42,共10页
用户侧分布式储能响应电价同时参与一次调频(PFR)服务的日内运行过程,需要在多维不确定信息下开展优化决策,以保障PFR的可靠性能及运行经济效益。将日内运行问题构建为考虑PFR性能约束的马尔可夫决策过程,进而提出了一种“前瞻-值函数... 用户侧分布式储能响应电价同时参与一次调频(PFR)服务的日内运行过程,需要在多维不确定信息下开展优化决策,以保障PFR的可靠性能及运行经济效益。将日内运行问题构建为考虑PFR性能约束的马尔可夫决策过程,进而提出了一种“前瞻-值函数近似”混合运行策略。在离线阶段,基于近似动态规划思想引入决策后状态近似值函数,以表征不同时段状态下的长期期望效益,并利用差分学习算法对近似效益函数开展离线训练。日内运行过程中,结合滚动更新的预测信息以及离线训练的长期时域近似效益函数,在线滚动优化两阶段近似动态规划模型以动态获取各时段近似最优决策。算例结果表明,所提策略能够兼顾全局经济效益与在线运算开销,同时保障分布式储能资源的频率响应能力。 展开更多
关键词 分布式储能 实时电价 一次调频 日内运行 混合前瞻 函数近似
下载PDF
电-碳-绿证市场耦合下发电商报价与出清双层优化 被引量:2
3
作者 陈荃 张丹宏 +3 位作者 郑淇源 郇嘉嘉 赵敏彤 朱建全 《南方电网技术》 CSCD 北大核心 2024年第1期121-133,共13页
针对电力市场、碳市场和绿证市场耦合下发电商的报价与出清双层优化问题开展了研究工作。首先,考虑直流潮流约束、分段线性报价方法及逆需求线性的绿证量价关系,建立了电力市场、碳市场和绿证市场耦合的双层多主体优化决策模型。该模型... 针对电力市场、碳市场和绿证市场耦合下发电商的报价与出清双层优化问题开展了研究工作。首先,考虑直流潮流约束、分段线性报价方法及逆需求线性的绿证量价关系,建立了电力市场、碳市场和绿证市场耦合的双层多主体优化决策模型。该模型可以帮助发电商优化报价策略,提高自身竞争获益的能力。其次,提出了一种基于最优值函数近似的双层模型求解算法。该算法基于多项式基和最小二乘法构造下层模型最优值函数,进而将双层优化模型转换为单层优化模型。与传统Karush-Kuhn-Tucker(KKT)方法不同,该方法在简化模型时不会引入新的整数变量,能够实现模型的快速求解。最后,通过仿真分析验证了所提模型的合理性和算法的有效性。 展开更多
关键词 函数近似算法 双层模型 碳交易 绿证交易 分段线性报价
下载PDF
应用近似动态规划算法求解安全约束随机动态经济调度问题 被引量:10
4
作者 刘翠平 林舜江 +2 位作者 刘明波 简淦杨 陆文甜 《电力系统自动化》 EI CSCD 北大核心 2016年第22期34-42,共9页
针对大电网安全约束随机动态经济调度(DED)问题的求解时间太长,提出了应用近似动态规划算法快速求解不含抽水蓄能电站电网的安全约束随机DED问题的方法。建立了随机DED问题的虚拟存储器模型,以系统的正旋转备用容量作为存储变量,构建系... 针对大电网安全约束随机动态经济调度(DED)问题的求解时间太长,提出了应用近似动态规划算法快速求解不含抽水蓄能电站电网的安全约束随机DED问题的方法。建立了随机DED问题的虚拟存储器模型,以系统的正旋转备用容量作为存储变量,构建系统相邻时段的状态转移方程,并考虑了各输电线路和断面的安全约束。以风电场日前功率预测曲线为基础,通过拉丁超立方抽样产生风电场出力的误差场景,并逐一场景递推求解每个时段的二次规划模型以对各个时段的值函数进行训练,形成收敛的值函数,再代入预测场景求解以获得最终的优化调度方案。该方法实现了对随机DED模型各个场景和各个时段的解耦求解,将一个大规模优化问题分解为一系列的小规模优化问题,有效提高了对大电网随机DED模型的求解速度。以某一实际省级电网为算例,通过与场景法和鲁棒优化调度方法的比较验证了所提出模型和求解方法的正确有效性。 展开更多
关键词 随机动态经济调度 近似动态规划 虚拟存储器模型 函数近似 安全约束
下载PDF
近似强化学习算法研究综述 被引量:5
5
作者 司彦娜 普杰信 孙力帆 《计算机工程与应用》 CSCD 北大核心 2022年第8期33-44,共12页
强化学习用于解决无模型情况下的优化决策问题,是实现人工智能的重要技术之一,但传统的表格型强化学习方法难以处理具有大规模、连续空间的控制问题。近似强化学习受到函数逼近思想的启发,对价值函数或策略函数参数化表示,通过参数优化... 强化学习用于解决无模型情况下的优化决策问题,是实现人工智能的重要技术之一,但传统的表格型强化学习方法难以处理具有大规模、连续空间的控制问题。近似强化学习受到函数逼近思想的启发,对价值函数或策略函数参数化表示,通过参数优化间接获得最优行为策略,在视频游戏、棋类对抗及机器人控制等领域应用效果显著。基于此,对近似强化学习算法的研究现状与应用进展进行了梳理和综述。介绍了近似强化学习相关的基础理论;分类总结了近似强化学习的经典算法及一些相应的改进方法;概述了近似强化学习在机器人控制领域的研究进展,并总结了当前面临的若干主要问题,为后续的研究提供参考。 展开更多
关键词 强化学习 连续空间 函数近似 直接策略搜索 策略梯度
下载PDF
多智能体编队控制中的迁移强化学习算法研究
6
作者 胡鹏林 潘泉 +1 位作者 郭亚宁 赵春晖 《西北工业大学学报》 EI CAS CSCD 北大核心 2023年第2期389-399,共11页
针对多障碍环境下的多智能体系统协同编队避障与防撞问题,提出一种迁移学习与强化学习相结合的编队控制算法。在源任务学习阶段,利用值函数近似方法避免Q-表格求解法所需的大规模存储空间问题,有效降低对存储空间的需求,提升算法求解速... 针对多障碍环境下的多智能体系统协同编队避障与防撞问题,提出一种迁移学习与强化学习相结合的编队控制算法。在源任务学习阶段,利用值函数近似方法避免Q-表格求解法所需的大规模存储空间问题,有效降低对存储空间的需求,提升算法求解速度;在目标任务学习阶段,采用高斯聚类算法对源任务进行分类,根据聚类中心和目标任务之间的距离,选择最优的源任务类进行目标任务学习,有效避免了负迁移现象,进而提升了强化学习算法的泛化能力及收敛速度。仿真实验结果表明,所提方法能使多智能体系统在复杂的障碍环境下有效地形成并保持编队构型,同时实现避障与防撞。 展开更多
关键词 多智能体系统 迁移强化学习 函数近似 编队控制 高斯聚类
下载PDF
基于变分模态分解的风电机组水冷壁管焊接裂纹缺陷识别方法 被引量:1
7
作者 张帅领 张磊 《焊接技术》 2023年第10期131-135,共5页
针对风电机组水冷壁管焊接裂纹缺陷种类较多、特征难捕捉的问题,提出一种基于变分模态分解的裂纹缺陷识别方法。首先,建立模糊近似熵值函数,用于求解焊接裂纹随温度和时间变化的状态参数,并建立关于这2个参数的时间序列。通过对比时间... 针对风电机组水冷壁管焊接裂纹缺陷种类较多、特征难捕捉的问题,提出一种基于变分模态分解的裂纹缺陷识别方法。首先,建立模糊近似熵值函数,用于求解焊接裂纹随温度和时间变化的状态参数,并建立关于这2个参数的时间序列。通过对比时间序列值,找到相关缺陷目标特征。同时,根据水冷壁管焊缝存在的热裂纹、结晶裂纹、液化裂纹及多边裂纹等多种裂纹,分别给出与其相对应的裂纹特征模态分量。最后,按照分量状态查找完成高效识别。试验数据表明,文中所提方法具有高精度,可以有效地识别多种缺陷。此外,缺陷信号表达与实际情况相符合。 展开更多
关键词 变分模态分解 风电机组水冷壁管 焊接裂纹缺陷识别 多边裂纹 模糊近似函数
下载PDF
基于SARSA(λ)算法的单路口交通信号学习控制 被引量:3
8
作者 李春贵 阳树洪 +1 位作者 王萌 张增芳 《广西工学院学报》 CAS 2008年第2期10-14,共5页
针对复杂的、难以建模的城市交通系统,将多步强化学习算法SARSA(λ)应用于交通信号控制,根据实时的交通状态信息动态进行决策,自动适应环境以便取得更好的控制效果。由于问题状态空间太大而难以直接存储和表示,采用径向基函数神经网络... 针对复杂的、难以建模的城市交通系统,将多步强化学习算法SARSA(λ)应用于交通信号控制,根据实时的交通状态信息动态进行决策,自动适应环境以便取得更好的控制效果。由于问题状态空间太大而难以直接存储和表示,采用径向基函数神经网络进行值函数近似,通过训练自适应非线性处理单元,可达到较好的近似表示效果,解决了单个十字交叉路口的交通信号控制问题。对该方法进行仿真实验,结果表明其控制效果明显优于传统的固定配时控制策略。 展开更多
关键词 SARSA算法 函数近似 径向基函数神经网络 交通信号 学习控制
下载PDF
基于多智能体团队强化学习的交通信号控制 被引量:2
9
作者 李春贵 周坚和 +2 位作者 孙自广 王萌 张增芳 《广西工学院学报》 CAS 2011年第2期1-5,15,共6页
城市的区域交通信号协调系统是一个十分复杂的系统,难以建立准确的数学模型,通过引入主-从式团队强化学习方法于区域交通信号协调控制,就可以根据实时的交通状态信息动态来进行决策,自动地适应环境以便取得更好的控制效果.由于问题状态... 城市的区域交通信号协调系统是一个十分复杂的系统,难以建立准确的数学模型,通过引入主-从式团队强化学习方法于区域交通信号协调控制,就可以根据实时的交通状态信息动态来进行决策,自动地适应环境以便取得更好的控制效果.由于问题状态空间太大且难以直接存储和表示,采用径向基函数神经网络进行值函数近似.通过训练自适应非线性处理单元,达到较好的近似表示效果,解决了多个交叉路口的交通信号协调控制问题.通过仿真实验,结果表明该方法的控制效果明显优于单点控制策略. 展开更多
关键词 多智能体团队学习 交通信号控制 强化学习 函数近似 径向基函数神经网络
下载PDF
基于残差梯度法的神经网络Q学习算法 被引量:3
10
作者 司彦娜 普杰信 臧绍飞 《计算机工程与应用》 CSCD 北大核心 2020年第18期137-142,共6页
针对连续状态空间的非线性系统控制问题,提出一种基于残差梯度法的神经网络Q学习算法。该算法采用多层前馈神经网络逼近Q值函数,同时利用残差梯度法更新神经网络参数以保证收敛性。引入经验回放机制实现神经网络参数的小批量梯度更新,... 针对连续状态空间的非线性系统控制问题,提出一种基于残差梯度法的神经网络Q学习算法。该算法采用多层前馈神经网络逼近Q值函数,同时利用残差梯度法更新神经网络参数以保证收敛性。引入经验回放机制实现神经网络参数的小批量梯度更新,有效减少迭代次数,加快学习速度。为了进一步提高训练过程的稳定性,引入动量优化。此外,采用Softplus函数代替一般的ReLU激活函数,避免了ReLU函数在负数区域值恒为零所导致的某些神经元可能永远无法被激活,相应的权重参数可能永远无法被更新的问题。通过CartPole控制任务的仿真实验,验证了所提算法的正确性和有效性。 展开更多
关键词 Q学习 神经网络 函数近似 残差梯度法 经验回放
下载PDF
自动化立体仓库出入库路径优化研究 被引量:6
11
作者 李媛媛 郑孟 《物流科技》 2019年第4期155-159,共5页
针对自动化立体仓库出入库路径优化问题,对自动化仓库中堆垛机的作业模式进行了分析,创建了考虑堆垛机运行时间最短的目标优化数学模型,对该模型提出了使用近似动态规划来求解仓库出入库路径优化问题的策略。并检验了该算法的有效性,对... 针对自动化立体仓库出入库路径优化问题,对自动化仓库中堆垛机的作业模式进行了分析,创建了考虑堆垛机运行时间最短的目标优化数学模型,对该模型提出了使用近似动态规划来求解仓库出入库路径优化问题的策略。并检验了该算法的有效性,对比试验结果表明,该算法有效地克服了动态规划计算量大、计算时间长的弱点,提高了自动化立体仓库出入库的效率,具有明显的优越性。 展开更多
关键词 自动化立体仓库 路径优化 近似动态规划 函数近似
下载PDF
基于改进高斯过程回归的云工作流调度算法 被引量:1
12
作者 钟积海 崔得龙 《电子设计工程》 2018年第16期35-39,44,共6页
随着大数据时代的来临,工作流应用开始由原有的基础设施转移到更加高效、可靠、廉价的云平台上。本文针对现有基于强化学习的云工作流调度算法收敛速度慢的问题,详细分析云工作流任务的执行流程,设计了一种细粒度的云工作流系统模型,提... 随着大数据时代的来临,工作流应用开始由原有的基础设施转移到更加高效、可靠、廉价的云平台上。本文针对现有基于强化学习的云工作流调度算法收敛速度慢的问题,详细分析云工作流任务的执行流程,设计了一种细粒度的云工作流系统模型,提出了一种结合自适应自然梯度高斯过程回归和强化学习的云工作流调度算法。算法采用强化学习的任务分配算法解决虚拟机间负载均衡问题,并通过自适应自然梯度高斯过程回归加速最优策略的生成。在Workflow Sim平台下进行了验证,实验结果证明了本文算法在一定程度上加速了最优策略的收敛。 展开更多
关键词 云计算 云工作流 强化学习 高斯过程回归 Q函数近似
下载PDF
非凸优化的近似束方法及对偶问题 被引量:3
13
作者 沈洁 刘晓倩 +1 位作者 陈颖 金希 《重庆师范大学学报(自然科学版)》 CAS CSCD 北大核心 2016年第1期1-5,共5页
束方法目前是解决非光滑优化问题最有前景的方法之一。出于实际计算的需要,使用两个扰动函数共同控制真实目标函数,利用它们的信息构建增广函数,从而把凸优化迫近束方法应用到非凸问题中来。类似地建立目标函数的下近似模型,通过求解二... 束方法目前是解决非光滑优化问题最有前景的方法之一。出于实际计算的需要,使用两个扰动函数共同控制真实目标函数,利用它们的信息构建增广函数,从而把凸优化迫近束方法应用到非凸问题中来。类似地建立目标函数的下近似模型,通过求解二次规划最小值点作为下一个候选点,进一步再筛选出下降点。最后利用Lagrange函数写出了束方法子问题的对偶问题,揭示了扰动后原问题的最优解和对偶问题最优解之间的关系。 展开更多
关键词 非凸非光滑优化 束方法 近似函数值 Lagrange对偶问题 lower-C2函数
原文传递
基于径向基神经网络的多步Sarsa控制算法 被引量:1
14
作者 司彦娜 普杰信 +2 位作者 于晓升 司鹏举 孙力帆 《控制与决策》 EI CSCD 北大核心 2023年第4期944-950,共7页
针对具有连续状态空间的无模型非线性系统,提出一种基于径向基(radial basis function,RBF)神经网络的多步强化学习控制算法.首先,将神经网络引入强化学习系统,利用RBF神经网络的函数逼近功能近似表示状态-动作值函数,解决连续状态空间... 针对具有连续状态空间的无模型非线性系统,提出一种基于径向基(radial basis function,RBF)神经网络的多步强化学习控制算法.首先,将神经网络引入强化学习系统,利用RBF神经网络的函数逼近功能近似表示状态-动作值函数,解决连续状态空间表达问题;然后,结合资格迹机制形成多步Sarsa算法,通过记录经历过的状态提高系统的学习效率;最后,采用温度参数衰减的方式改进softmax策略,优化动作的选择概率,达到平衡探索和利用关系的目的.MountainCar任务的仿真实验表明:所提出算法经过少量训练能够有效实现无模型情况下的连续非线性系统控制;与单步算法相比,该算法完成任务所用的平均收敛步数更少,效果更稳定,表明非线性值函数近似与多步算法结合在控制任务中同样可以具有良好的性能. 展开更多
关键词 RBF神经网络 强化学习 Sarsa算法 连续空间 函数近似 资格迹
原文传递
基于贝叶斯优化的强化学习广义不动点解逼近
15
作者 陈兴国 吕咏洲 +1 位作者 巩宇 陈耀雄 《山东大学学报(工学版)》 CAS 2024年第4期21-34,共14页
针对强化学习不动点的解更优这一问题,提出广义不动点解模型设计,该设计使用n步自举法的不动点解扩展和基于线性插值法的不动点解构造方法。将该设计应用于成熟的CBMPI算法框架上,提出基于广义不动点的CBMPI(n,β)算法。针对如何表达并... 针对强化学习不动点的解更优这一问题,提出广义不动点解模型设计,该设计使用n步自举法的不动点解扩展和基于线性插值法的不动点解构造方法。将该设计应用于成熟的CBMPI算法框架上,提出基于广义不动点的CBMPI(n,β)算法。针对如何表达并逼近最优解这一问题,提出基于贝叶斯优化的广义不动点解的参数优化和基于集成学习的更高质量的解。在经典的10×10规模的Tetris游戏环境中验证算法提出的有效性。试验结果证明了基于线性插值法的广义不动点构造能比n步传统不动点效果好,其效果与其超参数步长n和插值参数β有很大关联。在100局的Tetris游戏中,平均分达到4 388.3,表明贝叶斯优化技术可以找到多组表现优异的策略。对表现优异的四组广义不动点的策略参数(贝叶斯优化技术的结果)进行策略集成和值函数集成,得到更高质量的解。平均分可以分别达到4 526.29和4 579.74,试验结果表明基于广义不动点的策略集成和基于广义不动点的值函数集成的分数相较于广义不动点的分数有小幅度提高,证实了可以通过集成学习寻找更高质量的解。 展开更多
关键词 强化学习 函数近似估计 不动点 贝叶斯优化 俄罗斯方块
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部