期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于改进双重深度Q网络主动学习语义分割模型
1
作者 李林 刘政 +2 位作者 南海 张泽崴 魏晔 《计算机应用研究》 CSCD 北大核心 2024年第11期3337-3342,共6页
针对在图像语义分割任务中获取像素标签困难和分割数据集类别不平衡的问题,提出了一种基于改进双重深度Q网络的主动学习语义分割模型CG_D3QN。引入了一种结合决斗网络结构以及门控循环单元的混合网络结构,通过减轻Q值过估计问题和有效... 针对在图像语义分割任务中获取像素标签困难和分割数据集类别不平衡的问题,提出了一种基于改进双重深度Q网络的主动学习语义分割模型CG_D3QN。引入了一种结合决斗网络结构以及门控循环单元的混合网络结构,通过减轻Q值过估计问题和有效地利用历史状态信息,提高了策略评估的准确性和计算效率。在CamVid和Cityscapes数据集上,该模型相较于基线方法,所需的样本标注量减少了65.0%,同时对于少样本标签的类别,其平均交并比提升了约1%~3%。实验结果表明,该模型能够显著减少样本标注成本并有效地缓解了类别不平衡问题,且对于不同的分割网络也具有适用性。 展开更多
关键词 深度强化学习 主动学习 图像语义分割 决斗网络 门控循环单元
下载PDF
基于改进Dueling DQN的多园区网络动态路由算法 被引量:1
2
作者 李国燕 史东雨 张宗辉 《电子测量与仪器学报》 CSCD 北大核心 2022年第11期211-220,共10页
针对高度“中心”连接的多园区网络中,负载不均衡造成传输时延长和网络拥塞问题,提出一种基于自适应多采样机制的决斗深度强化网络(adaptive multi-sampling Dueling deep Q-network, AMD-DQN)动态路由优化算法。首先,在网络模型中引入... 针对高度“中心”连接的多园区网络中,负载不均衡造成传输时延长和网络拥塞问题,提出一种基于自适应多采样机制的决斗深度强化网络(adaptive multi-sampling Dueling deep Q-network, AMD-DQN)动态路由优化算法。首先,在网络模型中引入决斗网络(dueling DQN)的思想,同时对多层感知器组成结构进行中心化处理改进,防止高估计价值函数;然后,经验回放机制采用了自适应多采样机制,该机制融合了随机、就近和优先采样方式,根据负载情况进行自适应调整,并根据权值概率随机选取采样模式;最后,利用AMD-DQN网络结构结合强化学习信号和随机梯度下降来训练神经网络,选出每步最大价值动作,直至传输成功。实验结果表明,相比传统的DQN和Dueling DQN算法,AMD-DQN算法平均时延为128.046 ms,吞吐量达到5.726个/s,有效减少了数据包的传输时延,提高了吞吐量,同时从5个方向对拥塞程度进行评价,取得了较好的实验结果,进一步缓解了网络的拥塞。 展开更多
关键词 动态路由 深度强化学习 决斗网络 自适应多采样经验回放
下载PDF
基于双智能体深度强化学习的交直流配电网经济调度方法
3
作者 赵倩宇 韩照洋 +3 位作者 王守相 尹孜阳 董逸超 钱广超 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2024年第6期624-632,共9页
随着大量直流电源和负荷的接入,交直流混合的配电网技术已成为未来配电网的发展趋势.然而,源荷不确定性及可调度设备的类型多样化给配电网调度带来了巨大的挑战.本文提出了基于分支决斗深度强化网络(branching dueling Q-network,BDQ)... 随着大量直流电源和负荷的接入,交直流混合的配电网技术已成为未来配电网的发展趋势.然而,源荷不确定性及可调度设备的类型多样化给配电网调度带来了巨大的挑战.本文提出了基于分支决斗深度强化网络(branching dueling Q-network,BDQ)和软演员-评论家(soft actor critic,SAC)双智能体深度强化学习的交直流配电网调度方法.该方法首先将经济调度问题与两智能体的动作、奖励、状态相结合,建立经济调度的马尔可夫决策过程,并分别基于BDQ和SAC方法设置两个智能体,其中,BDQ智能体用于控制配电网中离散动作设备,SAC智能体用于控制连续动作设备.然后,通过集中训练分散执行的方式,两智能体与环境进行交互,进行离线训练.最后,固定智能体的参数,进行在线调度.该方法的优势在于采用双智能体能够同时控制离散动作设备电容器组、载调压变压器和连续动作设备变流器、储能,同时通过对双智能体的集中训练,可以自适应源荷的不确定性.改进的IEEE33节点交直流配电网算例测试验证了所提方法的有效性. 展开更多
关键词 交直流配电网 深度强化学习 经济调度 分支决斗深度强化网络 软演员-评论家
下载PDF
基于深度强化学习带时间窗的绿色车辆路径问题研究
4
作者 曹煜 叶春明 《物流科技》 2024年第19期72-79,共8页
如何在客户规定的时间内合理安排车辆运输路线,一直是物流领域亟待解决的问题。基于此,文章提出使用基于软更新策略的决斗双重深度Q网络(Dueling Double Deep Q-network,D3QN),设计动作空间、状态空间与奖励函数,对带时间窗的绿色车辆... 如何在客户规定的时间内合理安排车辆运输路线,一直是物流领域亟待解决的问题。基于此,文章提出使用基于软更新策略的决斗双重深度Q网络(Dueling Double Deep Q-network,D3QN),设计动作空间、状态空间与奖励函数,对带时间窗的绿色车辆路径问题进行建模与求解。选择了小、中、大规模的总计18个算例,将三种算法的实验结果在平均奖励、平均调度车辆数、平均里程和运算时间四个维度进行比较。实验结果表明:在大多数算例中,与Double DQN和Dueling DQN相比,D3QN能在可接受的增加时间范围内,获得更高的奖励函数,调度更少的车辆数,运输更短的里程,实现绿色调度的目标。 展开更多
关键词 深度强化学习 路径优化 决斗双重深度Q网络 D3QN算法 车辆路径问题
下载PDF
一种基于Dueling DQN改进的低轨卫星路由算法 被引量:1
5
作者 许向阳 李京阳 彭文鑫 《长江信息通信》 2023年第7期56-59,共4页
卫星网络具有高动态性、节点处理能力不足,流量负载不均等问题。现有的地面路由算法并不能很好的解决卫星网络存在的问题。针对此问题,提出一种改进Dueling DQN的低轨卫星路由算法。首先,在路由算法中引入决斗网络的思想;然后在经验回... 卫星网络具有高动态性、节点处理能力不足,流量负载不均等问题。现有的地面路由算法并不能很好的解决卫星网络存在的问题。针对此问题,提出一种改进Dueling DQN的低轨卫星路由算法。首先,在路由算法中引入决斗网络的思想;然后在经验回放进行改进,将随机经验采样和优先经验采样进行融合,设置分层采样方法来进行采样;最后对网络进行参数的设置并且进行训练。从仿真和分析表明,从网络传输时延、系统吞吐量、丢包率方面有明显的提升。 展开更多
关键词 卫星路由 分层经验回放 决斗网络
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部