期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于深度强化学习的股市操盘手模型研究 被引量:2
1
作者 韩道岐 张钧垚 +1 位作者 周玉航 刘青 《计算机工程与应用》 CSCD 北大核心 2020年第21期145-153,共9页
股票市场具有变化快、干扰因素多、周期数据不足等特点,股票交易是一种不完全信息下的博弈过程,单目标的监督学习模型很难处理这类序列化决策问题。强化学习是解决该类问题的有效途径之一。提出了基于深度强化学习的智能股市操盘手模型I... 股票市场具有变化快、干扰因素多、周期数据不足等特点,股票交易是一种不完全信息下的博弈过程,单目标的监督学习模型很难处理这类序列化决策问题。强化学习是解决该类问题的有效途径之一。提出了基于深度强化学习的智能股市操盘手模型ISTG(Intelligent Stock Trader and Gym),融合历史行情数据、技术指标、宏观经济指标等多数据类型,分析评判标准和优秀控制策略,加工长周期数据,实现可增量扩展不同类型数据的复盘模型,自动计算回报标签,训练智能操盘手,并提出直接利用行情数据计算单步确定性动作值的方法。采用中国股市1400多支的有10年以上数据的股票进行多种对比实验,ISTG的总体收益达到13%,优于买入持有总体−7%的表现。 展开更多
关键词 深度强化学习 双价值网络的深度强化学习(DDQN) 单步确定性动作值 量化策略
下载PDF
基于规则引导DDPG的多目标电网调度算法 被引量:4
2
作者 黄尽云 罗倩 成梁成 《北京信息科技大学学报(自然科学版)》 2022年第2期56-61,共6页
设计了一种多目标的电网调度模型,在保障电网安全运行的基础上,实现最大化新能源消纳和最小化运行成本的目标。引入深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法与环境交互得到最优调度策略。针对DDPG算法存在的... 设计了一种多目标的电网调度模型,在保障电网安全运行的基础上,实现最大化新能源消纳和最小化运行成本的目标。引入深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法与环境交互得到最优调度策略。针对DDPG算法存在的训练不稳定的问题,提出一种规则引导DDPG算法,并在训练过程中加入双价值网络。实验结果表明,所提方法能够更好地实现调度目标,在原DDPG算法的基础上提高了模型稳定性和有效性。 展开更多
关键词 深度确定性策略梯度 规则引导函数 电网调度 多目标 双价值网络 新能源消纳
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部