期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
采用双层强化学习的干扰决策算法 被引量:12
1
作者 颛孙少帅 杨俊安 +1 位作者 刘辉 黄科举 《西安交通大学学报》 EI CAS CSCD 北大核心 2018年第2期63-69,共7页
为解决强化学习算法在干扰决策过程中收敛速度慢的问题,提出了一种采用双层强化学习的干扰决策算法(DRLJD)。首先对等效通信参数进行建模,模型减少了待学习参数的个数,降低了搜索空间的维度;然后利用降维后的搜索空间指导干扰参数选择,... 为解决强化学习算法在干扰决策过程中收敛速度慢的问题,提出了一种采用双层强化学习的干扰决策算法(DRLJD)。首先对等效通信参数进行建模,模型减少了待学习参数的个数,降低了搜索空间的维度;然后利用降维后的搜索空间指导干扰参数选择,避免随机选择导致干扰性能差的缺点;最后利用选择的干扰参数施加干扰,并根据环境反馈进一步降低搜索空间的维度,通过不断交互的方式加快算法的收敛速度。此外,将以往的干扰经验以先验信息的形式加入到系统的学习进程中,进一步缩短了系统的学习时间。针对构造的干扰问题实验表明,DRLJD算法经过200次交互便学习到优异的干扰策略,小于现有算法所需600次交互,且先验信息的利用进一步降低了对交互次数的要求。以提出的新的奖赏标准作为奖赏依据,算法能够在未知通信协议情况下以牺牲交互时间为代价学习到最佳干扰策略。 展开更多
关键词 强化学习 双层强化学习 干扰决策 先验信息 奖赏标准
下载PDF
战术先验知识启发的多智能体双层强化学习 被引量:6
2
作者 陈晓轩 黄魁华 +2 位作者 梁星星 冯旸赫 黄金才 《指挥与控制学报》 CSCD 2022年第1期72-79,共8页
针对典型海空协同作战中指挥控制技术对时效性、准确性和跨域融合能力的高要求,提出了一种先验知识启发的双层强化学习框架.通过研究先验知识启发的奖励塑造方式,提取作战子任务设计状态聚合方法,从而把具体状态映射到抽象状态;基于抽... 针对典型海空协同作战中指挥控制技术对时效性、准确性和跨域融合能力的高要求,提出了一种先验知识启发的双层强化学习框架.通过研究先验知识启发的奖励塑造方式,提取作战子任务设计状态聚合方法,从而把具体状态映射到抽象状态;基于抽象状态使用马尔科夫决策过程(Markov decision process,MDP)理论进行建模,使用强化学习算法求解该模型;使用最终求解出的抽象状态价值函数进行基于势能的奖励塑造.以上流程与下层具体MDP过程并行求解,从而搭建了一个双层强化学习算法框架.基于全国兵棋推演大赛的兵棋推演平台进行了实验,在状态空间、动作空间、奖励函数等方面细化算法.指出了先验知识代表从上而下的任务式指挥方式,而多智能体强化学习在某些结构上符合自下而上的事件式指挥方式.两种方式结合,使得该算法控制下的作战单元学习到协同作战战术,面对复杂环境具有更好的鲁棒性.经过仿真实验,该算法控制的红方智能体对抗规则智能体控制的蓝方可以获得70%的胜率. 展开更多
关键词 海空协同作战 先验知识 奖励塑造 双层强化学习
下载PDF
基于双层强化学习的热电联供型微网群经济调度
3
作者 杨子民 《智能电网(汉斯)》 2023年第1期15-28,共16页
热电联供型微网群系统对于推动新型电力系统的构建和低碳化具有重要意义。本文提出了一种面向热电联供型微网群系统的双层强化学习调度优化方法,首先设计了一种双层强化学习优化框架,对优化任务进行了分解,上层由智能体求解微网间交互... 热电联供型微网群系统对于推动新型电力系统的构建和低碳化具有重要意义。本文提出了一种面向热电联供型微网群系统的双层强化学习调度优化方法,首先设计了一种双层强化学习优化框架,对优化任务进行了分解,上层由智能体求解微网间交互功率策略和各微网的储能充放电策略,下层各微网基于内部信息采用求解器对微网内设备出力自治优化,通过上下层协同完成热电联供微网群系统的全局优化,各微网之间无需信息交互,有效保护了各微网内部的数据隐私。最后通过算例分析以及与单层强化学习方法和传统集中式优化对比分析验证了本文方法的有效性和优越性。 展开更多
关键词 热电联供系统 双层强化学习 微网群系统 经济调度
下载PDF
无人机辅助的双层深度强化学习任务卸载算法 被引量:1
4
作者 陈钊 龚本灿 《计算机应用研究》 CSCD 北大核心 2024年第2期426-431,共6页
为了解决无人机轨迹优化、用户功率分配和任务卸载策略问题,提出了一种双层深度强化学习任务卸载算法。上层采用多智能体深度强化学习来优化无人机的轨迹,并动态分配用户的传输功率以提高网络传输速率;下层采用多个并行的深度神经网络... 为了解决无人机轨迹优化、用户功率分配和任务卸载策略问题,提出了一种双层深度强化学习任务卸载算法。上层采用多智能体深度强化学习来优化无人机的轨迹,并动态分配用户的传输功率以提高网络传输速率;下层采用多个并行的深度神经网络来求解最优卸载决策以最小化网络的时延和能耗。仿真结果表明,该算法使得无人机能够跟踪用户的移动,显著降低系统的时延和能耗,能够给用户提供更优质的任务卸载服务。 展开更多
关键词 无人机辅助 轨迹优化 双层深度强化学习 任务卸载
下载PDF
集成深度强化学习在股票指数投资组合优化中的应用分析
5
作者 冀中 张文嘉 《计算机科学与探索》 北大核心 2025年第1期237-244,共8页
基于集成深度强化学习的投资组合选择是当前量化金融领域的关键技术之一。然而,目前采用上一窗口阶段最优指标决定下一阶段代理的集成滚动窗口方法存在一定的滞后性。为了有效应对这一不足,提出了双层嵌套集成深度强化学习方法。该方法... 基于集成深度强化学习的投资组合选择是当前量化金融领域的关键技术之一。然而,目前采用上一窗口阶段最优指标决定下一阶段代理的集成滚动窗口方法存在一定的滞后性。为了有效应对这一不足,提出了双层嵌套集成深度强化学习方法。该方法对三种代理(优势演员-评论员、深度确定性策略梯度和近端策略优化)进行两层嵌套模式,第一层集成通过最优化夏普比率进行阶段模型选择,第二层通过加权投票的方法集成三种深度强化学习算法,从单次训练中收集多个模型快照,在训练期间利用这些模型进行集成预测。分别对上证50投资指数和道琼斯指数及其包含的股票进行了投资组合研究,将持有指数被动策略和均值方差投资组合策略作为基线策略。实验采用了投资组合价值、年化回报率、年化波动率、最大回撤和夏普比率等指标作为对比指标。结果表明,所提出的集成方法在实用性和有效性上表现出较好的性能。 展开更多
关键词 股票投资组合 交易策略 深度强化学习 双层嵌套集成深度强化学习方法 集成学习
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部