基于值分布最大熵Actor-Critic算法的投资组合管理被引量：4

Portfolio management based on value distributional maximum entropy Actor-Critic algorithm

导出

摘要针对投资组合管理问题,提出一种基于值分布强化学习算法(VD-MEAC)的投资组合框架.首先,以投资组合收益最大化为目标建立强化学习框架,智能体的动作就是投资组合的权重变化;然后,选择股票因子做为智能体观察到的状态信息.在算法设计上通过新颖的技巧来平衡风险与收益:在控制风险方面,Critic网络学习未来收益的整个分布,并排除过度自信的决策信息从而避免过估计带来的风险;在提高收益方面,增加熵正则,鼓励投资者探索动作空间,避免过早陷入局部最优.在数值实验方面,选择真实的股票数据做为金融环境,多次进行测试以验证策略的稳定性.实验结果表明:VD-MEAC策略的收益均值为2.490,夏普比率均值为2.978,并且在收益率、最大回撤和夏普比率等指标上明显优于对照组(等权重,沪深300,DDPG,TD3,SAC),证明了该策略的有效性. Aiming at the problem of portfolio management,a portfolio framework based on value distributional reinforcement learning algorithm(VD-MEAC)was proposed.First,a reinforcement learning framework was established with the goal of maximizing the return of the portfolio,and the action of the agent was the weight change of the portfolio.Then,the stock factor information was selected as the state information observed by the agent.In the design of the algorithm,risks and benefits were balanced through novel techniques.In terms of risk control,the Critic network learned the entire distribution of future benefits,and excluded overconfident decision-making information to avoid the risk of overestimation.In terms of improving benefits,entropy regularization was increased,and investors were encouraged to explore the action space,avoiding falling into local optimum prematurely.In terms of numerical experiments,real stock data was selected as the financial environment,and multiple tests were performed to verify the stability of the strategy.Experimental results show that the average return of the VD-MEAC strategy is 2.490,the average Sharpe ratio is 2.978,and it is significantly better than the control group(equal weight,CSI 300,DDPG,TD3,SAC)in terms of return,maximum drawdown and Sharpe ratio,reflecting the effectiveness of the strategy.

作者刘磊陈浩 LIU Lei;CHEN Hao(College of Science,Hohai University,Nanjing 210000,China)

机构地区河海大学理学院

出处《华中科技大学学报（自然科学版）》 EI CAS CSCD 北大核心 2023年第5期26-32,共7页 Journal of Huazhong University of Science and Technology(Natural Science Edition)

基金国家自然科学基金面上项目(61773152).

关键词值分布强化学习投资组合管理量化投资因子模型深度学习 value distributional reinforcement learning portfolio management quantitative investment factor model deep learning

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

同被引文献63

1赵振洋,齐舒月,李实秋.科技型中小企业专利证券化质量评价研究[J].科研管理,2021,42(12):56-64. 被引量：9
2何诚颖,陈锐,薛冰,何牧原.投资者情绪、有限套利与股价异象[J].经济研究,2021,56(1):58-73. 被引量：51
3黄光辉,徐筱箐.知识产权证券化中资产池的构建策略研究——以风险控制为中心[J].经济问题,2011(2):63-67. 被引量：20
4邵永同,王常柏.科技型中小企业知识产权证券化中的资产组合构建[J].科技管理研究,2014,34(3):157-160. 被引量：15
5金秀,王佳,高莹.基于动态损失厌恶投资组合模型的最优资产配置与实证研究[J].中国管理科学,2014,22(5):16-23. 被引量：23
6岳贤平.国外企业专利组合策略模式及其启示[J].情报科学,2014,32(12):87-92. 被引量：14
7张端阳,肖国华,李文燕.面向专利集成的专利技术相关性测度方法研究[J].情报杂志,2014,33(11):54-61. 被引量：17
8徐翔,汤尚颖.基于投资组合理论的中国电源结构优化模拟研究[J].生态经济,2015,31(9):61-67. 被引量：4
9王佳,金秀,苑莹,王旭.基于动态参照点的损失厌恶投资组合优化模型[J].运筹与管理,2015,24(6):51-57. 被引量：5
10刘贵贤,董秀成,孔朝阳,赵春成.中国天然气进口风险量化研究--基于改进的投资组合理论[J].天然气工业,2016,36(6):110-117. 被引量：11

引证文献4

1宋陆军,沙义金.投资组合构建与优化:投资者偏好和遗传算法视角[J].经济问题,2023(8):60-66.
2刘澄,史燚,王丽.我国知识产权证券化中的基础资产组合策略研究--基于投资组合框架的多案例比较分析[J].北京联合大学学报（人文社会科学版）,2024,22(1):55-65.
3马聪,陈怡君.基于动态多步损失厌恶的在线投资组合管理策略[J].工程数学学报,2024,41(4):677-692.
4刘瑞平,匡亮,孙善飞.基于极大熵方法的反向散射通信资源分配算法[J].微型电脑应用,2024,40(10):248-251.

1陈婕.闽东森林小镇资源空间分布特征研究[J].科技和产业,2023,23(10):172-177.
2许奎,王帆,邹梦琪.关键审计事项、信息环境改善与企业投资效率[J].科学决策,2023(5):1-23. 被引量：2
3董静,王文娟.探讨医院财务预算管理与成本控制[J].中文科技期刊数据库（全文版）经济管理,2023(7):81-84.
4王启名,杨昆,李立晓,朱彦辉,樊贤.滇池流域水文生态系统服务权衡与协同时空异质性及其归因分析[J].生态学报,2023,43(12):4876-4891. 被引量：11
5宋欣宇,王琪琪,张严严,冯嘉怡,张洋.ESG理念对个人投资者投资决策的影响研究——基于山东省的调查问卷分析[J].商展经济,2023(12):99-102. 被引量：2
6杨秀玲,许春梅,耿晓珊,甘静梅,刘秦,胡小虎.独脚金叶绿体基因组密码子偏好性分析[J].分子植物育种,2023,21(12):3889-3897. 被引量：2
7蒋大富,崔安琪.管理者过度自信与企业R&D投入--基于债务期限结构错配的中介作用[J].商业观察,2023,9(17):100-105.
8郭琪,孙道宗,赵文峰,吕石磊.基于Matlab电波预测模型在电磁场教学改革中的应用[J].电脑知识与技术,2023,19(14):80-81.
9余俊.基于国债逆回购操作提高烟草商业企业资金收益的可行性研究[J].会计师,2022(20):136-138.
10焦鑫宇,龙梅,刘志雄.应用最大熵模型预测我国野生蕙兰潜在适生区分布及其影响因素[J].东北林业大学学报,2023,51(7):96-101. 被引量：1

华中科技大学学报（自然科学版）

2023年第5期

浏览历史

内容加载中请稍等...

基于值分布最大熵Actor-Critic算法的投资组合管理被引量：4

同被引文献63

引证文献4

相关作者

相关机构

相关主题

浏览历史

基于值分布最大熵Actor-Critic算法的投资组合管理 被引量：4

同被引文献63

引证文献4

相关作者

相关机构

相关主题

浏览历史

基于值分布最大熵Actor-Critic算法的投资组合管理被引量：4