基于深度强化学习的股市操盘手模型研究被引量：2

Research on Intelligent Trader Model Based on Deep Reinforcement Learning

下载PDF

导出

摘要股票市场具有变化快、干扰因素多、周期数据不足等特点,股票交易是一种不完全信息下的博弈过程,单目标的监督学习模型很难处理这类序列化决策问题。强化学习是解决该类问题的有效途径之一。提出了基于深度强化学习的智能股市操盘手模型ISTG(Intelligent Stock Trader and Gym),融合历史行情数据、技术指标、宏观经济指标等多数据类型,分析评判标准和优秀控制策略,加工长周期数据,实现可增量扩展不同类型数据的复盘模型,自动计算回报标签,训练智能操盘手,并提出直接利用行情数据计算单步确定性动作值的方法。采用中国股市1400多支的有10年以上数据的股票进行多种对比实验,ISTG的总体收益达到13%,优于买入持有总体−7%的表现。 The stock market has the characteristics of rapid change,many interference factors,and insufficient period data.Stock trading is a game process under incomplete information,and the single-objective supervised learning model is difficult to deal with such serialization decision problems.Reinforcement learning is one of the effective ways to solve this kind of problems.This paper proposes the Intelligent Stock Trader and Gym(ISTG)model based on deep reinforcement learning,which integrates historical data,technical indicators,macroeconomic indicators and other data types.Judging criteria and excellent control strategies,processing long-period data,implementing a replay model that can incrementally expand different types of data,automatically calculating return labels,training intelligent traders,and proposing a method of directly calculating the single-step deterministic action values using market data.Using a stock market of more than 1400 stocks with more than 10 years of data in China,ISTG’s overall revenue has reached 13%,which is better than overall−7%of the buy-and-hold strategy.

作者韩道岐张钧垚周玉航刘青 HAN Daoqi;ZHANG Junyao;ZHOU Yuhang;LIU Qing(School of Information,Renmin University of China,Beijing 100872,China)

机构地区中国人民大学信息学院

出处《计算机工程与应用》 CSCD 北大核心 2020年第21期145-153,共9页 Computer Engineering and Applications

关键词深度强化学习双价值网络的深度强化学习(DDQN) 单步确定性动作值量化策略 deep reinforcement learning Deep Reinforcement Learning with Double Q-Learning(DDQN) one-step deterministic action value quantization strategy

分类号 TP242.6 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献9

1刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：473
2胡文伟,胡建强,李湛,周剑峰.基于强化学习算法的自适应配对交易模型[J].管理科学,2017,30(2):148-160. 被引量：19
3唐振韬,邵坤,赵冬斌,朱圆恒.深度强化学习进展:从AlphaGo到AlphaGo Zero[J].控制理论与应用,2017,34(12):1529-1546. 被引量：92
4周文吉,俞扬.分层强化学习综述[J].智能系统学报,2017,12(5):590-594. 被引量：20
5谢衷洁,黄香,叶伟彰,刘亚利.人工神经网络及其在金融预报中的应用(英文)[J].北京大学学报（自然科学版）,2001,37(3):421-425. 被引量：8
6高杰.人工智能在金融交易中的作用及未来的发展方向[J].电子技术与软件工程,2017(18):253-253. 被引量：4
7齐岳,黄硕华.基于深度强化学习DDPG算法的投资组合管理[J].计算机与现代化,2018(5):93-99. 被引量：13
8赵星宇,丁世飞.深度强化学习研究综述[J].计算机科学,2018,45(7):1-6. 被引量：62
9李晨溪,曹雷,张永亮,陈希亮,周宇欢,段理文.基于知识的深度强化学习研究综述[J].系统工程与电子技术,2017,39(11):2603-2613. 被引量：40

二级参考文献42

1李世伟.基于协整理论的沪深300股指期货跨期套利研究[J].中国计量学院学报,2011,22(2):198-202. 被引量：20
2魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
3高辉,赵进文.沪深300股指套期保值及投资组合实证研究[J].管理科学,2007,20(2):80-90. 被引量：44
4高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
5Zhang Q，IEEE Trans Neural Networks，1997年，8卷，2期，227页
6Zhang Q，IEEE Trans Neural Networks，1992年，3卷，6期，889页
7王皓,高阳,陈兴国.强化学习中的迁移:方法和进展[J].电子学报,2008,36(B12):39-43. 被引量：27
8刘小峰,陈国华,李真.零售网络的结构建模与演化分析[J].管理科学,2009,22(4):23-30. 被引量：2
9陈学松,杨宜民.强化学习研究综述[J].计算机应用研究,2010,27(8):2834-2838. 被引量：61
10孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810. 被引量：623

共引文献661

1傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：45
3韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
4姚红革,王诚,喻钧,白小军,李蔚.复杂卫星图像中的小目标船舶识别[J].遥感学报,2020,24(2):116-125. 被引量：16
5张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376.
6李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：45
7卢喜丰,王新军,白晓明,何风,吕勇波,李柄锦.基于BP神经网络和遗传算法的核级管道力学性能优化研究[J].科技视界,2023(16):138-144.
8唐小林,陈佳信,刘腾,李佳承,胡晓松.基于深度强化学习的混合动力汽车智能跟车控制与能量管理策略研究[J].机械工程学报,2021,57(22):237-246. 被引量：21
9周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：7
10高佳明,张丽,蒋梅.个税改革下资源型省份家庭金融资产投资决策研究[J].金融发展评论,2024(3):80-95.

同被引文献13

1王建勋.煤矿输送带传输故障实时监测技术[J].工矿自动化,2015,41(1):45-48. 被引量：35
2杨清翔,向秀华,孟斌,王开忠.一种煤矿带式输送机故障诊断方法[J].工矿自动化,2017,43(12):48-52. 被引量：17
3齐岳,黄硕华.基于深度强化学习DDPG算法的投资组合管理[J].计算机与现代化,2018(5):93-99. 被引量：13
4张荣,李伟平,莫同.深度学习研究综述[J].信息与控制,2018,47(4):385-397. 被引量：139
5翟正利,梁振明,周炜,孙霞.变分自编码器模型综述[J].计算机工程与应用,2019,55(3):1-9. 被引量：66
6傅丰,王康.基于深度强化学习SAC算法的投资组合管理[J].现代计算机,2020,26(9):45-48. 被引量：2
7郑学召,童鑫,郭军,张铎.煤矿智能监测与预警技术研究现状与发展趋势[J].工矿自动化,2020,46(6):35-40. 被引量：38
8罗响,袁艳斌,王德永,钟珊,张波,李倩.煤矿视频中复杂行为识别的持续学习模型探究[J].金属矿山,2020,49(10):118-123. 被引量：4
9孙健东,张瑞新,贾宏军,贺希格图,王韬,程鹏,马新根.我国露天煤矿智能化发展现状及重点问题分析[J].煤炭工程,2020,52(11):16-22. 被引量：56
10樊红卫,张旭辉,曹现刚,万翔,杨一晴.智慧矿山背景下我国煤矿机械故障诊断研究现状与展望[J].振动与冲击,2020,39(24):194-204. 被引量：40

引证文献2

1卢学明,于在川,许升起.基于深度生成模型的煤矿运输皮带异物检测[J].计算机系统应用,2022,31(5):358-363. 被引量：7
2代一方.基于强化学习PPO算法的上市公司投资组合管理[J].中国管理信息化,2024,27(5):140-143.

二级引证文献7

1李江涛,张康辉,沙特.煤中异物识别的深度学习模型轻量化策略[J].煤炭工程,2023,55(S01):220-224. 被引量：4
2连博博,臧蒙特,傅贤君,林忠晨.基于改进ENet算法的工业皮带输送中的异物检测方法[J].电脑知识与技术,2023,19(17):98-100.
3胡敏.DTL型皮带输送机常见故障分析及改进优化研究[J].西部探矿工程,2023,35(10):140-142.
4张立亚.基于生成对抗网络的带式输送机异物检测方法[J].工矿自动化,2023,49(11):53-59. 被引量：2
5王春霖,吴春雷,李灿伟,朱明飞.基于Coordinate Attention和空洞卷积的异物识别[J].计算机系统应用,2024,33(3):178-186. 被引量：1
6王克凡,王羽玲,童建良,杨建国.基于改进YOLO v8的煤中杂物检测研究[J].中国煤炭,2024,50(4):115-125. 被引量：1
7边铁山.基于SE-YOLOv5模型皮带异物检测算法研究[J].中国矿业,2024,33(7):127-134.

1张垒,房汉廷,钟昊熹,傅丕毅,李志飞,李岭涛,杰文津,仇筠茜.融合发展大家谈:创新、科技与媒体未来[J].中国记者,2020(10):24-31. 被引量：3
2陈婉.“科创50”即将发布[J].环境经济,2020(14):36-37.
3孙佩雪.以品质提升为导向的旧城更新实现路径研究——以渭南市中心区东部南片区旧城更新为例[J].建筑与文化,2020(3):189-191.
4张小平,丁锐.创新城区理念下城镇低效用地再开发研究[J].价值工程,2020,39(17):81-82. 被引量：2
5董壮志.船舶融资市场:大道有常蓄势前行[J].中国远洋海运,2020,0(2):42-45. 被引量：1
6永剑.诈骗海外同学的“操盘手”[J].方圆,2020(20):48-51.
7郭旭.价值网平台型企业财务管理问题研究[J].农村经济与科技,2020,31(15):188-189. 被引量：1
8Xing Fang,Bo Wang,Lanbiao Liu,Yong Song.Heterogeneous Traders, the Leverage Effect and Volatility of the Chinese P2P Market[J].Journal of Management Science and Engineering,2018,3(1):39-57.
9李玉华.基于聚类分析的多源异构数据挖掘技术研究[J].科学大众（科技创新）,2020(10):168-168.
10李海霞,吴雯雯.大数据在风景园林旅游资源评价中的应用[J].安阳师范学院学报,2020(5):72-75. 被引量：3

计算机工程与应用

2020年第21期

浏览历史

内容加载中请稍等...

基于深度强化学习的股市操盘手模型研究被引量：2

参考文献9

二级参考文献42

共引文献661

同被引文献13

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的股市操盘手模型研究 被引量：2

参考文献9

二级参考文献42

共引文献661

同被引文献13

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的股市操盘手模型研究被引量：2