期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于深度强化学习的高频交易优化算法 被引量:2
1
作者 饶瑞 潘志松 +3 位作者 黎维 刘松仪 张磊 李云波 《南京理工大学学报》 CAS CSCD 北大核心 2022年第3期304-312,共9页
为解决高频交易的高额交易费用问题,该文提出了一种融合长短期记忆(LSTM)网络细胞结构的深度确定性策略梯度交易算法。该算法利用细胞结构对当前信息和历史特征进行环境特征提取和保存,用于指导交易决策。通过深度确定性策略梯度算法实... 为解决高频交易的高额交易费用问题,该文提出了一种融合长短期记忆(LSTM)网络细胞结构的深度确定性策略梯度交易算法。该算法利用细胞结构对当前信息和历史特征进行环境特征提取和保存,用于指导交易决策。通过深度确定性策略梯度算法实现在线自动交易,并考虑了交易费率和收盘价格对奖励函数的影响。在上证50指数基金的分钟级数据上进行实验,结果表明,该算法能有效捕获稍纵即逝的交易机会,是一种低风险高收益的稳健型投资策略;LSTM细胞结构和所设的奖励函数能大幅减少交易次数,不仅增加了算法对交易费率的包容性,还提升了收益的稳定性。 展开更多
关键词 深度强化学习 高频交易 长短期记忆 深度确定性策略 梯度交易 交易费率 收盘价格 奖励函数
下载PDF
基于随机森林强化学习的干扰智能决策方法研究 被引量:6
2
作者 裴绪芳 陈学强 +3 位作者 吕丽刚 张双义 刘松仪 汪西明 《通信技术》 2019年第9期2118-2124,共7页
电磁频谱的主导权是现代化电子战制胜的关键。传统的通信对抗中干扰方的干扰模式相对固定单一,干扰效率低下。因此,研究频谱对抗环境中利用强化学习智能选择干扰信道策略对用户通信进行干扰,将干扰方的信道决策过程建模为一个马尔科夫... 电磁频谱的主导权是现代化电子战制胜的关键。传统的通信对抗中干扰方的干扰模式相对固定单一,干扰效率低下。因此,研究频谱对抗环境中利用强化学习智能选择干扰信道策略对用户通信进行干扰,将干扰方的信道决策过程建模为一个马尔科夫决策过程(Markov Decision Making Process,MDP),并提出了一种基于随机森林强化学习的智能干扰算法。仿真结果表明,与文献[10]所提的智能干扰算法和基于感知的随机信道选择算法相比,所提随机森林强化学习算法干扰收敛速度最快。通过在线自主学习,干扰方可以快速寻找到用户的通信规律,对用户通信实施有效干扰。 展开更多
关键词 电磁频谱 强化学习 智能干扰 MDP
下载PDF
基于多智能体深度强化学习的多域协同抗干扰方法研究 被引量:3
3
作者 张彪 汪西明 +4 位作者 徐逸凡 李文 韩昊 刘松仪 陈学强 《物联网学报》 2022年第4期104-116,共13页
动态的传输需求和有限的缓存空间给恶意干扰环境下的无线数据传输带来巨大挑战。针对上述问题,从频域和时域的角度出发,研究了面向分布式物联网的协同抗干扰信道选择和数据调度联合决策方法,构建了基于多用户马尔可夫决策过程的数据传... 动态的传输需求和有限的缓存空间给恶意干扰环境下的无线数据传输带来巨大挑战。针对上述问题,从频域和时域的角度出发,研究了面向分布式物联网的协同抗干扰信道选择和数据调度联合决策方法,构建了基于多用户马尔可夫决策过程的数据传输模型,提出了基于多智能体深度强化学习的协同抗干扰信道和数据联合决策算法。仿真表明,所提算法可有效避开恶意干扰并避免同频互扰。相较于对比算法,网络吞吐量显著提高,丢包数量明显降低。 展开更多
关键词 协同抗干扰 信道选择 数据调度 多智能体强化学习 深度学习
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部