期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
基于强化学习单元匹配循环神经网络的滚动轴承状态趋势预测 被引量:4
1
作者 李锋 陈勇 +1 位作者 王家序 汤宝平 《计算机集成制造系统》 EI CSCD 北大核心 2020年第8期2050-2059,共10页
为了解决当前人工智能预测方法在滚动轴承状态趋势预测中预测精度较差、计算效率较低的问题,提出基于强化学习单元匹配循环神经网络(RLUMRNN)的滚动轴承状态趋势预测新方法。先采用滑动平均奇异谱熵作为滚动轴承状态退化特征,再将该特... 为了解决当前人工智能预测方法在滚动轴承状态趋势预测中预测精度较差、计算效率较低的问题,提出基于强化学习单元匹配循环神经网络(RLUMRNN)的滚动轴承状态趋势预测新方法。先采用滑动平均奇异谱熵作为滚动轴承状态退化特征,再将该特征作为RLUMRNN的输入完成滚动轴承状态趋势预测。在RLUMRNN中,利用最小二乘线性回归法构造单调趋势识别器,将轴承整体的状态退化趋势分为上升、下降、平稳3种单调趋势单元,并通过强化学习为每一种单调趋势单元选择一个隐层数和隐层节点数与其相适应的循环神经网络,从而改善了RLUMRNN的非线性逼近能力和泛化性能;用3种单调趋势单元和不同隐层数、隐层节点数分别表示Q值表的状态和动作,并构造关于循环神经网络输出误差的新型奖励函数,以明确强化学习的目标,从而减小循环神经网络的输出误差,避免在Q值表更新过程中使Agent(即决策函数)盲目搜索,提高了RLUMRNN的收敛速度。通过双列滚子轴承状态趋势预测实例验证了该方法具有较高的预测精度和计算效率。 展开更多
关键词 强化学习单元匹配循环神经网络 强化学习 奇异谱熵 状态趋势预测 滚动轴承
下载PDF
强化学习长短时记忆神经网络用于状态预测 被引量:1
2
作者 李锋 陈勇 +1 位作者 汤宝平 王家序 《振动.测试与诊断》 EI CSCD 北大核心 2020年第5期895-903,1021,1022,共11页
提出基于强化学习三态组合长短时记忆神经网络(reinforcement learning 3-states combined long and short time memory neural network,简称RL-3S-LSTMNN)的旋转机械状态退化趋势预测新方法。笔者提出的RL-3SLSTMNN中,采用最小二乘线... 提出基于强化学习三态组合长短时记忆神经网络(reinforcement learning 3-states combined long and short time memory neural network,简称RL-3S-LSTMNN)的旋转机械状态退化趋势预测新方法。笔者提出的RL-3SLSTMNN中,采用最小二乘线性回归方法构造单调趋势识别器,将旋转机械整体的状态退化趋势分为平稳、下降、上升3种单调的趋势单元,并通过强化学习为每一种单调趋势单元选择一种隐层层数和隐层节点数与之相适应的长短时记忆神经网络,提高了RL-3S-LSTMNN的泛化性能和非线性逼近能力,使所提出的状态退化趋势预测方法具有较高的预测精度。用不同隐层数、隐层节点数和3种单调趋势单元分别表示Q表的动作和状态,并将长短时记忆神经网络(long and short time memory neural network,简称LSTMNN)输出误差与Q表的更新相关联,避免了决策函数的盲目搜索。结果表明:提高了RL-3S-LSTMNN的收敛速率,使所提出的预测方法具有较高的计算效率;滚动轴承状态退化趋势预测实例验证了该方法的有效性。 展开更多
关键词 强化学习 长短时记忆神经网络 奇异谱熵 趋势预测 旋转机械
下载PDF
基于动态选择预测器的深度强化学习投资组合模型
3
作者 赵淼 谢良 +1 位作者 林文静 徐海蛟 《计算机科学》 CSCD 北大核心 2024年第4期344-352,共9页
近年来,投资组合管理问题在人工智能领域得到了广泛的研究,但现有的基于深度学习的量化交易方法还存在一些问题。首先,对股票的预测模式单一,通常一个模型只能训练出一个交易专家,交易决策也仅根据模型预测结果作出;其次,模型使用的数... 近年来,投资组合管理问题在人工智能领域得到了广泛的研究,但现有的基于深度学习的量化交易方法还存在一些问题。首先,对股票的预测模式单一,通常一个模型只能训练出一个交易专家,交易决策也仅根据模型预测结果作出;其次,模型使用的数据源相对单一,只考虑了股票自身数据,忽略了整个市场风险对股票的影响。针对上述问题,提出了基于动态选择预测器的强化学习模型(DSDRL)。该模型分为3部分,首先提取股票数据的特征并传入多个预测器中,针对不同的投资策略训练多个预测模型,用动态选择器得到当前最优预测结果;其次,利用市场环境评价模块对当前市场风险进行量化,得到合适的投资金额比例;最后,在前两个模块的基础上建立了一种深度强化学习模型模拟真实的交易环境,基于预测的结果和投资金额比例得到实际投资组合策略。文中使用中证500和标普500的日k线数据进行测试验证,结果表明,此模型在夏普率等指标上均优于其他参照模型。 展开更多
关键词 强化学习 LSTM 投资组合 股市预测 神经网络
下载PDF
基于强化自组织映射和径向基神经网络的短期负荷预测 被引量:3
4
作者 黄乾 马开刚 +1 位作者 韦善阳 黎静华 《全球能源互联网》 2019年第1期70-77,共8页
径向基(radial basis function,RBF)神经网络因其泛化能力强、收敛速度快的特点广泛应用于负荷预测。但传统采用K-means和自组织映射(self-organizing map,S O M)训练R B F径向基中心的方法因其全局搜索能力偏弱,仍然存在容易陷入局部... 径向基(radial basis function,RBF)神经网络因其泛化能力强、收敛速度快的特点广泛应用于负荷预测。但传统采用K-means和自组织映射(self-organizing map,S O M)训练R B F径向基中心的方法因其全局搜索能力偏弱,仍然存在容易陷入局部最优解的问题,严重制约了RBF预测精度的提高。针对此问题,提出了一种基于强化学习(reinforcement learning,RL)改进的RBF短期负荷预测方法。强化学习通过环境的反馈不断完善搜索策略,具有非常突出的全局搜索能力。所提方法将强化学习以环境反馈修正搜索策略的机制应用于SOM,大幅增强了SOM的全局搜索能力,使其获得逼近最优的径向基中心,提高RBF负荷预测精度。以英国某地区2016年5~9月的负荷数据进行仿真实验。结果显示,与采用K-means和SOM方法训练径向基中心的RBF相比,所提的强化学习改进RBF方法的负荷预测平均相对误差分别由4.58%和4.37%降低至3.30%。 展开更多
关键词 短期负荷预测 强化学习 径向基人工神经网络 自组织映射 径向基中心
下载PDF
强化学习在交通流预测中的应用研究
5
作者 赵茵 周一博 《信息与电脑》 2024年第3期136-138,共3页
交通流预测是智能交通管理的核心环节之一,对于实现精准调度、优化交通流动具有至关重要的作用。然而,由于交通系统的复杂性和不确定性,传统的交通流预测方法往往难以满足对准确性和实时性的要求。基于此,文章提出一种基于强化学习的交... 交通流预测是智能交通管理的核心环节之一,对于实现精准调度、优化交通流动具有至关重要的作用。然而,由于交通系统的复杂性和不确定性,传统的交通流预测方法往往难以满足对准确性和实时性的要求。基于此,文章提出一种基于强化学习的交通流预测方法,并使用METR-LA数据集对这一方法进行验证。结果表明,该方法在不同场景下展现了良好的预测性能,有效适应了城市交通系统的时空动态变化。 展开更多
关键词 强化学习 循环神经网络 流量预测 交通管理
下载PDF
基于深度强化学习的自适应股指预测研究 被引量:1
6
作者 卜湛 张善凡 +2 位作者 李雪延 马丹丹 曹杰 《管理科学学报》 CSCD 北大核心 2023年第4期148-174,共27页
基于股指成分股基本面和技术面数据构建了时序股票关联网络,然后利用深度图神经网络学习股票关联网络层次化表征,以端到端的方式获得候选预测信号.在此基础上,提出了一种考虑动作评估反馈的深度强化学习方法(Action Evaluation Feedback... 基于股指成分股基本面和技术面数据构建了时序股票关联网络,然后利用深度图神经网络学习股票关联网络层次化表征,以端到端的方式获得候选预测信号.在此基础上,提出了一种考虑动作评估反馈的深度强化学习方法(Action Evaluation Feedback based Deep Q-Learn-ing,AEF-DQN),旨在将不同的候选预测信号融入智能体的动作空间,并基于股票关联网络层次化表征、股票市场整体运行状态和历史动作评估反馈学习环境状态;借鉴前景理论中的参照依赖特性估计奖励值函数,从而建立状态、动作与奖励值之间的映射关系.最后,采用沪深300指数、标普500指数、英国富时100指数和日经225指数的成分股历史数据,构造了股指期货交易模拟器,在投资胜率、最大回撤率、阿尔法比率和夏普比率4个回测指标上对股指预测模型展开实证分析.研究结果表明:1)通过层次化聚合股票关联网络的节点属性信息可以动态捕捉不同行业对股指价格波动的影响,进而可提升预测方法的准确率;2)考虑动作评估反馈的深度强化学习结构可智能化选择适用于当前股票市场环境的最优模型结构,进而可提升预测方法的鲁棒性. 展开更多
关键词 自适应股指预测 股票关联网络 深度图神经网络 深度强化学习
下载PDF
基于强化学习的网络流量非线性多步预测方法
7
作者 廉佐政 王海珍 +1 位作者 李大辉 滕艳萍 《计算机仿真》 CSCD 北大核心 2013年第6期284-287,共4页
网络流量具有分形特性,用线性方法来预测非线性的网络流量,预测精度不高。为了提高测性能,提出了网络流量的非线性多步预测问题,利用一种结合分形神经网络、强化学习的非线性多步预测方法,用多重分形性质将网络流量序列分解为短相关序列... 网络流量具有分形特性,用线性方法来预测非线性的网络流量,预测精度不高。为了提高测性能,提出了网络流量的非线性多步预测问题,利用一种结合分形神经网络、强化学习的非线性多步预测方法,用多重分形性质将网络流量序列分解为短相关序列,设计了一种强化学习神经网络(MRLA)流量预测模型,利用强化学习的Q算法训练BP神经网络,预测尺度系数、计算权值,最后构建MRLA网络进行仿真,预测网络流量。实验分析显示,相对MMLP网络,新预测方法具较好的多步预测性能。 展开更多
关键词 网络流量 分形特性 非线性多步预测 强化学习 神经网络
下载PDF
基于强化学习的股票预测系统的研究与设计 被引量:4
8
作者 叶德谦 金大兵 杨樱 《微计算机信息》 北大核心 2006年第02X期149-151,共3页
股票市场是金融分析领域中重要而困难的问题。股票数据的分析和预测具有重大的理论意义和诱人的应用价值。BP神经网络在目前的股票预测系统中应用广泛,但是作为有导师的学习系统,BP神经网络必须要求提供相关的经验数据才能正常运行。对... 股票市场是金融分析领域中重要而困难的问题。股票数据的分析和预测具有重大的理论意义和诱人的应用价值。BP神经网络在目前的股票预测系统中应用广泛,但是作为有导师的学习系统,BP神经网络必须要求提供相关的经验数据才能正常运行。对此本文提出了一种基于强化学习BP算法应用于股票预测系统,通过强化学习体系来实现体统的自学习,通过网络集成来达到初始数据的预处理,提高系统的泛化能力,在实际应用中取的较好的效果。 展开更多
关键词 股票预测 BP神经网络 强化学习 RBP模型
下载PDF
基于机动预测的强化学习无人机空中格斗研究 被引量:10
9
作者 毛梦月 张安 +1 位作者 周鼎 毕文豪 《电光与控制》 CSCD 北大核心 2019年第2期5-10,22,共7页
在无人机空中格斗过程中,由于无人机自身状态以及空战态势,敌我双方机动动作及行为策略的选择具有极强的不确定性。针对这个问题,将强化学习方法引入无人机空中格斗过程,建立无人机机动模型及动作集;将空战态势评估函数作为强化学习中... 在无人机空中格斗过程中,由于无人机自身状态以及空战态势,敌我双方机动动作及行为策略的选择具有极强的不确定性。针对这个问题,将强化学习方法引入无人机空中格斗过程,建立无人机机动模型及动作集;将空战态势评估函数作为强化学习中的信号函数;采用概率神经网络(PNN)作为对敌机动预测单元;在敌我双方战场信息完全感知条件下,该算法能够不断学习,使无人机通过与环境的交互来掌握其最佳机动行为策略,实现无人机的一对一空中对抗。 展开更多
关键词 无人机 空中格斗 机动预测 态势评估 强化学习 概率神经网络
下载PDF
Extra-iNet:一个针对文本预测的解释抽取框架
10
作者 段俊文 贾智豪 +2 位作者 蒋晗 丁效 仲文明 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第9期3342-3353,共12页
提出一种自解释句子抽取框架(Extra-iNet),该框架仅依赖于粗粒度的任务级标签,从输入文档中抽取部分句子,指导文档标签的预测,并为预测结果提供人类可读的解释。该框架利用卷积神经网络编码输入句子,将预测解释性句子的抽取和表征整合... 提出一种自解释句子抽取框架(Extra-iNet),该框架仅依赖于粗粒度的任务级标签,从输入文档中抽取部分句子,指导文档标签的预测,并为预测结果提供人类可读的解释。该框架利用卷积神经网络编码输入句子,将预测解释性句子的抽取和表征整合在同一模块,采用强化学习和门控机制2种策略抽取解释子集,并由此推导出Hard Extra-iNet和Soft Extra-iNet 2种变体模型。分别在情感分析任务和累计超额收益预测任务上对模型的预测能力和解释能力进行验证。研究结果表明:相比于基线,模型在情感分析任务上的F1(精度与召回率的调和平均数)平均提高了15.5%,在累计超额收益预测任务上的准确率平均提高了3.7%;模型抽取的结果与人类标注的结果高度一致。Extra-iNet框架可以有效地从文档中抽取解释性句子,可推广应用于不同领域的文本预测任务。 展开更多
关键词 可解释预测 强化学习 深度神经网络 情感分析 累积超额收益
下载PDF
基于组合生成对抗网络的短期风电功率预测
11
作者 郭海军 李林霞 《电气技术与经济》 2023年第4期128-132,共5页
为了提高风电功率的预测精度,本文提出基于组合生成对抗网络(Generative Adversarial Network,GAN)的短期风电功率预测模型。首先,通过集合经验模态分解(Ensemble Empirical Mode Decomposition,EEMD)算法将原始数据分解为多个不同频率... 为了提高风电功率的预测精度,本文提出基于组合生成对抗网络(Generative Adversarial Network,GAN)的短期风电功率预测模型。首先,通过集合经验模态分解(Ensemble Empirical Mode Decomposition,EEMD)算法将原始数据分解为多个不同频率的固有模态的子序列,从每个子序列中提取非线性和动态信号。然后,在组合框架中,应用自我注意机制(Self-attention Mechanism,SAM)作为生成模型,提取并生成风电原始数据的分布特征;卷积神经网络(Convolutional Neural Networks,CNN)作为判别模型,进行风电功率的预测,并采用强化学习(Reinforcement Learning,RL)来调整组合模型的超参数。最后,以甘肃省酒泉市某风电场的实际运行数据为例,验证所提方法与其他算法相比的优越性能。 展开更多
关键词 风电功率预测 自我注意 生成对抗网络 卷积神经网络 强化学习
下载PDF
基于机器学习的时序数据预测方法研究综述 被引量:21
12
作者 赵婷婷 韩雅杰 +4 位作者 杨梦楠 任德华 陈亚瑞 王嫄 刘建征 《天津科技大学学报》 CAS 2021年第5期1-9,共9页
机器学习作为大数据时代实现数据分析及挖掘的主要工具被广泛研究及使用。时序数据预测一直是数据挖掘中的重点及难点,基于机器学习的时序数据预测方法主要分为线性预测方法和非线性预测方法。线性预测方法计算简单,容易建模,适用于短... 机器学习作为大数据时代实现数据分析及挖掘的主要工具被广泛研究及使用。时序数据预测一直是数据挖掘中的重点及难点,基于机器学习的时序数据预测方法主要分为线性预测方法和非线性预测方法。线性预测方法计算简单,容易建模,适用于短期的时序数据预测;非线性预测方法涵盖广泛,能够很好地捕捉时序数据之间的非线性关系,能够更好地对时序数据进行预测。本文将以股票时序数据预测为例,对时序数据预测方法进行详细介绍,重点分析非线性预测方法,并探讨其未来的发展趋势。 展开更多
关键词 机器学习 时序数据预测 线性模型 非线性模型 神经网络 深度学习 强化学习
下载PDF
基于深度强化学习的交通信号灯控制 被引量:2
13
作者 陈树德 彭佳汉 +1 位作者 高旭 赖晓晨 《现代计算机》 2020年第3期34-38,共5页
交通问题具有非线性,不确定性的特征,传统算法往往难以取得较好的效果。深度学习模型在处理非线性、时序性的数据上拥有良好的表现。由此,提出一种基于深度强化学习的信号灯控制系统。该系统包括了几个部分:1)使用实时的交通数据或仿真... 交通问题具有非线性,不确定性的特征,传统算法往往难以取得较好的效果。深度学习模型在处理非线性、时序性的数据上拥有良好的表现。由此,提出一种基于深度强化学习的信号灯控制系统。该系统包括了几个部分:1)使用实时的交通数据或仿真环境产生数据;2)通过LSTM循环神经网络预测未来的交通信息;3)使用DDPG深度强化学习模型进行决策。在多个数据集上的实验验证算法的优越性及泛化能力。 展开更多
关键词 预测交通状态 优化信号灯时间 深度强化学习 循环神经网络
下载PDF
考虑移动目标不确定行为方式的轨迹预测方法 被引量:1
14
作者 颜鹏 郭继峰 白成超 《宇航学报》 EI CAS CSCD 北大核心 2022年第8期1040-1051,共12页
针对现有方法难以预测出符合飞行移动目标不确定行为方式轨迹的问题,提出基于逆强化学习的飞行移动目标轨迹预测方法,通过学习目标行为偏好以及模拟目标行为决策过程的方式预测目标的移动轨迹。首先基于深度神经网络建立目标的行为决策... 针对现有方法难以预测出符合飞行移动目标不确定行为方式轨迹的问题,提出基于逆强化学习的飞行移动目标轨迹预测方法,通过学习目标行为偏好以及模拟目标行为决策过程的方式预测目标的移动轨迹。首先基于深度神经网络建立目标的行为决策模型与行为偏好模型,然后通过最大熵逆强化学习方法交替地学习模型参数。为了有效地学习目标的不确定行为特征,采用监督学习的方法学习出目标示例轨迹概率分布模型,用于指导目标行为偏好模型的训练以及初始化目标行为决策模型,同时通过对目标行为偏好模型进行预训练的方式提高其训练质量。仿真结果表明,提出的飞行移动目标轨迹预测方法可通过学习到的目标行为决策模型较为准确地模拟目标的行为方式,预测的目标轨迹分布与真实的目标轨迹分布在Kullback-Leibler(KL)散度下的相似度可达0.24。 展开更多
关键词 轨迹预测 飞行移动目标 不确定行为方式 强化学习 深度神经网络
下载PDF
基于改进DDPG的中央空调负荷预测方法研究 被引量:2
15
作者 贾静 高文忠 《电子测量技术》 北大核心 2022年第3期85-91,共7页
为降低因节假日引起的建筑内部得热对大型中央空调系统负荷预测精度的负面影响,以上海世博园区某办公建筑群作为研究区域,引入新的日期特征DPH,在现有深度确定性策略梯度网络结构的基础上,利用长短期记忆神经网络替换深度确定性策略梯... 为降低因节假日引起的建筑内部得热对大型中央空调系统负荷预测精度的负面影响,以上海世博园区某办公建筑群作为研究区域,引入新的日期特征DPH,在现有深度确定性策略梯度网络结构的基础上,利用长短期记忆神经网络替换深度确定性策略梯度的全连接神经网络,提出基于循环确定性策略梯度的大型中央空调系统冷负荷预测方法。研究结果表明,考虑DPH日期特征的改进算法预测模型能够捕捉因节假日引起的负荷变化趋势,有效提高预测准确性,预测精度达0.951,误差值为7.08%。 展开更多
关键词 空调负荷预测 冷热电三联供系统 长短期记忆神经网络 循环确定性策略梯度 深度强化学习
下载PDF
浅析机器学习在气候研究中的应用 被引量:3
16
作者 刘菁琪 《通讯世界》 2018年第9期218-219,共2页
本文基于机器学习的优越性,探究其在天气预测方面的应用,并进一步阐述深度学习、卷积神经网络在天气预测方面的应用。机器学习能够结合天气相关指标,通过决策树对天气指标进行分类,以预测未来天气;神经网络结合图像迅速全面地分析气象图... 本文基于机器学习的优越性,探究其在天气预测方面的应用,并进一步阐述深度学习、卷积神经网络在天气预测方面的应用。机器学习能够结合天气相关指标,通过决策树对天气指标进行分类,以预测未来天气;神经网络结合图像迅速全面地分析气象图,从而实现对在天气预测及自然灾害方面的预测。本文最后提出结合深度学习、机器学习和强化学习的气象预测系统。 展开更多
关键词 天气预测 机器学习 图像识别 卷积神经网络 决策树 强化学习
下载PDF
基于强化学习的非线性时间序列智能预测模型 被引量:3
17
作者 孙若莹 范厚明 赵刚 《大连海事大学学报》 CAS CSCD 北大核心 2017年第4期97-103,共7页
针对时间序列预测中非线性、噪声高等特点,提出时间序列向前多步混合智能预测模型.首先,在模型训练过程中,提出一种将强化学习与隐马尔可夫模型相结合的新方法,强化学习运用TD(λ)方法,采用历史观测数据作为报酬回报,强调远近期历史数... 针对时间序列预测中非线性、噪声高等特点,提出时间序列向前多步混合智能预测模型.首先,在模型训练过程中,提出一种将强化学习与隐马尔可夫模型相结合的新方法,强化学习运用TD(λ)方法,采用历史观测数据作为报酬回报,强调远近期历史数据的不同影响程度并用以迭代增强历史观测数据在模型中的作用;进一步,在向前多步预测过程中,提出一种以强化学习为桥梁、将神经网络与隐马尔可夫模型相结合的方法,用以充分发挥神经网络数据拟合优势和隐马尔可夫模型减小系统随机误差方面的优势.利用稀土期货交易数据进行预测实验,结果表明:智能预测模型显著降低了预测的平均绝对误差、百分比绝对平均误差、均方根误差,提高了预测的准确性和效果. 展开更多
关键词 非线性时间序列 强化学习 隐马尔可夫模型 神经网络 向前多步预测
原文传递
基于逆强化学习的航天器交会对接方法
18
作者 岳承磊 汪雪川 +1 位作者 岳晓奎 宋婷 《航空学报》 EI CAS CSCD 北大核心 2023年第19期252-263,共12页
针对使用神经网络解决追踪航天器接近静止目标问题,提出一种使用模型预测控制提供数据集,基于生成对抗逆强化学习训练神经网络的方法。首先在考虑追踪航天器最大速度约束,控制输入饱和约束和空间锥约束下,建立追踪航天器接近静止目标的... 针对使用神经网络解决追踪航天器接近静止目标问题,提出一种使用模型预测控制提供数据集,基于生成对抗逆强化学习训练神经网络的方法。首先在考虑追踪航天器最大速度约束,控制输入饱和约束和空间锥约束下,建立追踪航天器接近静止目标的动力学,并通过模型预测控制驱动航天器到达指定位置。其次为标称轨迹添加扰动,通过前述方法计算从各起始位置到目标点的轨迹,收集各轨迹各控制时刻的状态与控制信息,形成包含状态与对应控制的训练集。最后通过设置网络结构与参数和训练超参数,在训练集驱动下,采用生成对抗逆强化学习方法进行网络训练。仿真结果表明生成对抗逆强化学习可模仿专家轨迹行为,并成功训练神经网络,驱动航天器从起始点向目标位置运动。 展开更多
关键词 模型预测控制 生成对抗逆强化学习 模仿学习 网络训练 神经网络
原文传递
基于数据分析的污水监测采样点数据研究
19
作者 周希杰 田博文 +1 位作者 郑宏飞 张昱 《皮革制作与环保科技》 2022年第23期150-152,共3页
本文针对性地设计了一个常规的三层感知机作为神经网络的预测模型,并采用与感知机相同输入、相同隐层的受限玻尔兹曼机作为特征提取器,对数据深层次特征进行提取,并将特征提取后得到的权值矩阵移植到神经网络中进行初始化,最后利用反向... 本文针对性地设计了一个常规的三层感知机作为神经网络的预测模型,并采用与感知机相同输入、相同隐层的受限玻尔兹曼机作为特征提取器,对数据深层次特征进行提取,并将特征提取后得到的权值矩阵移植到神经网络中进行初始化,最后利用反向传播算法(BP)进行第一层与第二层之间的微调和第二层和第三层之间的训练,随机取指标的4/5作为训练集。最终,模型拟合精度达到0.90以上,MSE为0.0849,并且建立基于灰色理论的预测模型进行对比分析。采用这两种预警模型对未来污水监测采样点30天的变化进行预测,并根据预测结果分析两种模型的优缺点及推广可行性。 展开更多
关键词 污水监测采样点 rbm神经网络预测强化学习 特征选择 RLFS方法 灵敏度分析
下载PDF
基于强化学习的地铁站空调系统节能控制 被引量:6
20
作者 焦焕炎 冯浩东 +2 位作者 魏东 冉义兵 胡朝文 《控制与决策》 EI CSCD 北大核心 2022年第12期3139-3148,共10页
地铁站空调系统能源消耗较大,传统控制方法无法兼顾舒适性和节能问题,控制效果不佳,且目前地铁站空调控制系统均是对风系统和水系统单独控制,无法保证整个系统的节能效果.鉴于此,提出基于强化学习的空调系统节能控制策略.首先,采用神经... 地铁站空调系统能源消耗较大,传统控制方法无法兼顾舒适性和节能问题,控制效果不佳,且目前地铁站空调控制系统均是对风系统和水系统单独控制,无法保证整个系统的节能效果.鉴于此,提出基于强化学习的空调系统节能控制策略.首先,采用神经网络建立空调系统模型,作为离线训练智能体的模拟环境,以解决无模型强化学习方法在线训练收敛时间长的问题;然后,为了提升算法效率,同时针对地铁站空调系统多维连续动作空间的特点,提出基于多步预测的深度确定性策略梯度算法,设计智能体框架,将其用于与环境模型进行交互训练;此外,为了确定最佳的训练次数,设置了智能体训练终止条件,进一步提升了算法效率;最后,基于武汉某地铁站的实测运行数据进行仿真实验,结果表明,所提出控制策略具有较好的温度跟踪性能,能够保证站台舒适性,且与目前实际系统相比能源节省约17.908%. 展开更多
关键词 强化学习 深度确定性策略梯度法 神经网络 多步预测 地铁站空调系统 节能控制
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部