提出基于强化学习三态组合长短时记忆神经网络(reinforcement learning 3-states combined long and short time memory neural network,简称RL-3S-LSTMNN)的旋转机械状态退化趋势预测新方法。笔者提出的RL-3SLSTMNN中,采用最小二乘线...提出基于强化学习三态组合长短时记忆神经网络(reinforcement learning 3-states combined long and short time memory neural network,简称RL-3S-LSTMNN)的旋转机械状态退化趋势预测新方法。笔者提出的RL-3SLSTMNN中,采用最小二乘线性回归方法构造单调趋势识别器,将旋转机械整体的状态退化趋势分为平稳、下降、上升3种单调的趋势单元,并通过强化学习为每一种单调趋势单元选择一种隐层层数和隐层节点数与之相适应的长短时记忆神经网络,提高了RL-3S-LSTMNN的泛化性能和非线性逼近能力,使所提出的状态退化趋势预测方法具有较高的预测精度。用不同隐层数、隐层节点数和3种单调趋势单元分别表示Q表的动作和状态,并将长短时记忆神经网络(long and short time memory neural network,简称LSTMNN)输出误差与Q表的更新相关联,避免了决策函数的盲目搜索。结果表明:提高了RL-3S-LSTMNN的收敛速率,使所提出的预测方法具有较高的计算效率;滚动轴承状态退化趋势预测实例验证了该方法的有效性。展开更多
径向基(radial basis function,RBF)神经网络因其泛化能力强、收敛速度快的特点广泛应用于负荷预测。但传统采用K-means和自组织映射(self-organizing map,S O M)训练R B F径向基中心的方法因其全局搜索能力偏弱,仍然存在容易陷入局部...径向基(radial basis function,RBF)神经网络因其泛化能力强、收敛速度快的特点广泛应用于负荷预测。但传统采用K-means和自组织映射(self-organizing map,S O M)训练R B F径向基中心的方法因其全局搜索能力偏弱,仍然存在容易陷入局部最优解的问题,严重制约了RBF预测精度的提高。针对此问题,提出了一种基于强化学习(reinforcement learning,RL)改进的RBF短期负荷预测方法。强化学习通过环境的反馈不断完善搜索策略,具有非常突出的全局搜索能力。所提方法将强化学习以环境反馈修正搜索策略的机制应用于SOM,大幅增强了SOM的全局搜索能力,使其获得逼近最优的径向基中心,提高RBF负荷预测精度。以英国某地区2016年5~9月的负荷数据进行仿真实验。结果显示,与采用K-means和SOM方法训练径向基中心的RBF相比,所提的强化学习改进RBF方法的负荷预测平均相对误差分别由4.58%和4.37%降低至3.30%。展开更多
基于股指成分股基本面和技术面数据构建了时序股票关联网络,然后利用深度图神经网络学习股票关联网络层次化表征,以端到端的方式获得候选预测信号.在此基础上,提出了一种考虑动作评估反馈的深度强化学习方法(Action Evaluation Feedback...基于股指成分股基本面和技术面数据构建了时序股票关联网络,然后利用深度图神经网络学习股票关联网络层次化表征,以端到端的方式获得候选预测信号.在此基础上,提出了一种考虑动作评估反馈的深度强化学习方法(Action Evaluation Feedback based Deep Q-Learn-ing,AEF-DQN),旨在将不同的候选预测信号融入智能体的动作空间,并基于股票关联网络层次化表征、股票市场整体运行状态和历史动作评估反馈学习环境状态;借鉴前景理论中的参照依赖特性估计奖励值函数,从而建立状态、动作与奖励值之间的映射关系.最后,采用沪深300指数、标普500指数、英国富时100指数和日经225指数的成分股历史数据,构造了股指期货交易模拟器,在投资胜率、最大回撤率、阿尔法比率和夏普比率4个回测指标上对股指预测模型展开实证分析.研究结果表明:1)通过层次化聚合股票关联网络的节点属性信息可以动态捕捉不同行业对股指价格波动的影响,进而可提升预测方法的准确率;2)考虑动作评估反馈的深度强化学习结构可智能化选择适用于当前股票市场环境的最优模型结构,进而可提升预测方法的鲁棒性.展开更多
文摘提出基于强化学习三态组合长短时记忆神经网络(reinforcement learning 3-states combined long and short time memory neural network,简称RL-3S-LSTMNN)的旋转机械状态退化趋势预测新方法。笔者提出的RL-3SLSTMNN中,采用最小二乘线性回归方法构造单调趋势识别器,将旋转机械整体的状态退化趋势分为平稳、下降、上升3种单调的趋势单元,并通过强化学习为每一种单调趋势单元选择一种隐层层数和隐层节点数与之相适应的长短时记忆神经网络,提高了RL-3S-LSTMNN的泛化性能和非线性逼近能力,使所提出的状态退化趋势预测方法具有较高的预测精度。用不同隐层数、隐层节点数和3种单调趋势单元分别表示Q表的动作和状态,并将长短时记忆神经网络(long and short time memory neural network,简称LSTMNN)输出误差与Q表的更新相关联,避免了决策函数的盲目搜索。结果表明:提高了RL-3S-LSTMNN的收敛速率,使所提出的预测方法具有较高的计算效率;滚动轴承状态退化趋势预测实例验证了该方法的有效性。
文摘径向基(radial basis function,RBF)神经网络因其泛化能力强、收敛速度快的特点广泛应用于负荷预测。但传统采用K-means和自组织映射(self-organizing map,S O M)训练R B F径向基中心的方法因其全局搜索能力偏弱,仍然存在容易陷入局部最优解的问题,严重制约了RBF预测精度的提高。针对此问题,提出了一种基于强化学习(reinforcement learning,RL)改进的RBF短期负荷预测方法。强化学习通过环境的反馈不断完善搜索策略,具有非常突出的全局搜索能力。所提方法将强化学习以环境反馈修正搜索策略的机制应用于SOM,大幅增强了SOM的全局搜索能力,使其获得逼近最优的径向基中心,提高RBF负荷预测精度。以英国某地区2016年5~9月的负荷数据进行仿真实验。结果显示,与采用K-means和SOM方法训练径向基中心的RBF相比,所提的强化学习改进RBF方法的负荷预测平均相对误差分别由4.58%和4.37%降低至3.30%。
文摘基于股指成分股基本面和技术面数据构建了时序股票关联网络,然后利用深度图神经网络学习股票关联网络层次化表征,以端到端的方式获得候选预测信号.在此基础上,提出了一种考虑动作评估反馈的深度强化学习方法(Action Evaluation Feedback based Deep Q-Learn-ing,AEF-DQN),旨在将不同的候选预测信号融入智能体的动作空间,并基于股票关联网络层次化表征、股票市场整体运行状态和历史动作评估反馈学习环境状态;借鉴前景理论中的参照依赖特性估计奖励值函数,从而建立状态、动作与奖励值之间的映射关系.最后,采用沪深300指数、标普500指数、英国富时100指数和日经225指数的成分股历史数据,构造了股指期货交易模拟器,在投资胜率、最大回撤率、阿尔法比率和夏普比率4个回测指标上对股指预测模型展开实证分析.研究结果表明:1)通过层次化聚合股票关联网络的节点属性信息可以动态捕捉不同行业对股指价格波动的影响,进而可提升预测方法的准确率;2)考虑动作评估反馈的深度强化学习结构可智能化选择适用于当前股票市场环境的最优模型结构,进而可提升预测方法的鲁棒性.