期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于注意力机制和价值强化学习的WRSN一对多充电调度方法
1
作者 龚政 冯勇 《传感技术学报》 CAS CSCD 北大核心 2024年第8期1411-1423,共13页
在大规模无线可充电传感器网络(WRSN)中,一对一充电模型难以满足节点巨大能量需求,充电效率更高的一对多充电成为更合理选择。提出了一种基于注意力机制和价值强化学习的WRSN在线一对多充电调度方法(MAQRL),从充电序列和充电时长两方面... 在大规模无线可充电传感器网络(WRSN)中,一对一充电模型难以满足节点巨大能量需求,充电效率更高的一对多充电成为更合理选择。提出了一种基于注意力机制和价值强化学习的WRSN在线一对多充电调度方法(MAQRL),从充电序列和充电时长两方面优化移动充电设备(MC)调度。首先,基于MC有效充电范围覆盖最多节点对网络内节点进行分簇处理,并基于价值强化学习优化充电序列。MAQRL结合注意力机制和价值强化学习,利用注意力机制提取特征和MC对节点的注意力,利用双价值强化学习来减少高估,以提高充电方法的充电性能;其次,通过分析整个网络中节点的平均剩余生存时长和MC平均移动延迟,动态优化充电时间,减少后续节点因等待时间过长而导致的死亡。大量的仿真实验表明,与现有几种充电方法相比,MAQRL在降低节点死亡率和充电延迟方面具有显著优势。 展开更多
关键词 无线可充电传感器网络 充电调度 一对多充电 注意力机制 价值强化学习
下载PDF
基于深度强化学习的股市操盘手模型研究 被引量:2
2
作者 韩道岐 张钧垚 +1 位作者 周玉航 刘青 《计算机工程与应用》 CSCD 北大核心 2020年第21期145-153,共9页
股票市场具有变化快、干扰因素多、周期数据不足等特点,股票交易是一种不完全信息下的博弈过程,单目标的监督学习模型很难处理这类序列化决策问题。强化学习是解决该类问题的有效途径之一。提出了基于深度强化学习的智能股市操盘手模型I... 股票市场具有变化快、干扰因素多、周期数据不足等特点,股票交易是一种不完全信息下的博弈过程,单目标的监督学习模型很难处理这类序列化决策问题。强化学习是解决该类问题的有效途径之一。提出了基于深度强化学习的智能股市操盘手模型ISTG(Intelligent Stock Trader and Gym),融合历史行情数据、技术指标、宏观经济指标等多数据类型,分析评判标准和优秀控制策略,加工长周期数据,实现可增量扩展不同类型数据的复盘模型,自动计算回报标签,训练智能操盘手,并提出直接利用行情数据计算单步确定性动作值的方法。采用中国股市1400多支的有10年以上数据的股票进行多种对比实验,ISTG的总体收益达到13%,优于买入持有总体−7%的表现。 展开更多
关键词 深度强化学习 价值网络的深度强化学习(DDQN) 单步确定性动作值 量化策略
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部