期刊文献+
共找到278篇文章
< 1 2 14 >
每页显示 20 50 100
基于Dueling DQN算法的列车运行图节能优化研究
1
作者 刘飞 唐方慧 +3 位作者 刘琳婷 胡文斌 哈进兵 钱程 《都市快轨交通》 北大核心 2024年第2期39-46,共8页
通过优化地铁时刻表可有效降低地铁牵引能耗。为解决客流波动和车辆延误对实际节能率影响的问题,提出列车牵引和供电系统实时潮流计算分析模型和基于Dueling Deep Q Network(Dueling DQN)深度强化学习算法相结合的运行图节能优化方法,... 通过优化地铁时刻表可有效降低地铁牵引能耗。为解决客流波动和车辆延误对实际节能率影响的问题,提出列车牵引和供电系统实时潮流计算分析模型和基于Dueling Deep Q Network(Dueling DQN)深度强化学习算法相结合的运行图节能优化方法,建立基于区间动态客流概率统计的时刻表迭代优化模型,降低动态客流变化对节能率的影响。对预测Q网络和目标Q网络分别选取自适应时刻估计和均方根反向传播方法,提高模型收敛快速性,同时以时刻表优化前、后总运行时间不变、乘客换乘时间和等待时间最小为优化目标,实现节能时刻表无感切换。以苏州轨道交通4号线为例验证方法的有效性,节能对比试验结果表明:在到达换乘站时刻偏差不超过2 s和列车全周转运行时间不变的前提下,列车牵引节能率达5.27%,车公里能耗下降4.99%。 展开更多
关键词 城市轨道交通 时刻表优化 牵引节能 dueling DQN 动态客流
下载PDF
基于Dueling Double DQN的交通信号控制方法
2
作者 叶宝林 陈栋 +2 位作者 刘春元 陈滨 吴维敏 《计算机测量与控制》 2024年第7期154-161,共8页
为了提高交叉口通行效率缓解交通拥堵,深入挖掘交通状态信息中所包含的深层次隐含特征信息,提出了一种基于Dueling Double DQN(D3QN)的单交叉口交通信号控制方法;构建了一个基于深度强化学习Double DQN(DDQN)的交通信号控制模型,对动作... 为了提高交叉口通行效率缓解交通拥堵,深入挖掘交通状态信息中所包含的深层次隐含特征信息,提出了一种基于Dueling Double DQN(D3QN)的单交叉口交通信号控制方法;构建了一个基于深度强化学习Double DQN(DDQN)的交通信号控制模型,对动作-价值函数的估计值和目标值迭代运算过程进行了优化,克服基于深度强化学习DQN的交通信号控制模型存在收敛速度慢的问题;设计了一个新的Dueling Network解耦交通状态和相位动作的价值,增强Double DQN(DDQN)提取深层次特征信息的能力;基于微观仿真平台SUMO搭建了一个单交叉口模拟仿真框架和环境,开展仿真测试;仿真测试结果表明,与传统交通信号控制方法和基于深度强化学习DQN的交通信号控制方法相比,所提方法能够有效减少车辆平均等待时间、车辆平均排队长度和车辆平均停车次数,明显提升交叉口通行效率。 展开更多
关键词 交通信号控制 深度强化学习 dueling Double DQN dueling Network
下载PDF
未知环境下基于Dueling DQN的无人机路径规划研究
3
作者 赵恬恬 孔建国 +1 位作者 梁海军 刘晨宇 《现代计算机》 2024年第5期37-43,共7页
为有效解决无人机在未知环境下的路径规划问题,提出一种基于Dueling DQN的路径规划方法。首先,在DQN的基础上,引入对抗网络架构,从而更好地提高成功率;其次,设计状态空间并定义离散化的动作和适当的奖励函数以引导无人机学习最优路径;... 为有效解决无人机在未知环境下的路径规划问题,提出一种基于Dueling DQN的路径规划方法。首先,在DQN的基础上,引入对抗网络架构,从而更好地提高成功率;其次,设计状态空间并定义离散化的动作和适当的奖励函数以引导无人机学习最优路径;最后在仿真环境中对DQN和Dueling DQN展开训练,结果表明:①Dueling DQN能规划出未知环境下从初始点到目标点的无碰撞路径,且能获得更高的奖励值;②经过50000次训练,Dueling DQN的成功率比DQN提高17.71%,碰撞率减少1.57%,超过最长步长率降低16.14%。 展开更多
关键词 无人机 路径规划 深度强化学习 dueling DQN算法
下载PDF
Transformer-Aided Deep Double Dueling Spatial-Temporal Q-Network for Spatial Crowdsourcing Analysis
4
作者 Yu Li Mingxiao Li +2 位作者 Dongyang Ou Junjie Guo Fangyuan Pan 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第4期893-909,共17页
With the rapid development ofmobile Internet,spatial crowdsourcing has becomemore andmore popular.Spatial crowdsourcing consists of many different types of applications,such as spatial crowd-sensing services.In terms ... With the rapid development ofmobile Internet,spatial crowdsourcing has becomemore andmore popular.Spatial crowdsourcing consists of many different types of applications,such as spatial crowd-sensing services.In terms of spatial crowd-sensing,it collects and analyzes traffic sensing data from clients like vehicles and traffic lights to construct intelligent traffic prediction models.Besides collecting sensing data,spatial crowdsourcing also includes spatial delivery services like DiDi and Uber.Appropriate task assignment and worker selection dominate the service quality for spatial crowdsourcing applications.Previous research conducted task assignments via traditional matching approaches or using simple network models.However,advanced mining methods are lacking to explore the relationship between workers,task publishers,and the spatio-temporal attributes in tasks.Therefore,in this paper,we propose a Deep Double Dueling Spatial-temporal Q Network(D3SQN)to adaptively learn the spatialtemporal relationship between task,task publishers,and workers in a dynamic environment to achieve optimal allocation.Specifically,D3SQNis revised through reinforcement learning by adding a spatial-temporal transformer that can estimate the expected state values and action advantages so as to improve the accuracy of task assignments.Extensive experiments are conducted over real data collected fromDiDi and ELM,and the simulation results verify the effectiveness of our proposed models. 展开更多
关键词 Historical behavior analysis spatial crowdsourcing deep double dueling Q-networks
下载PDF
基于Dueling DQN的临近空间飞行器再入轨迹规划
5
作者 田若岑 刘益吉 +2 位作者 肖涛 张顺家 陆远 《制导与引信》 2024年第2期1-10,共10页
针对临近空间飞行器再入段禁飞区规避制导问题,构建了临近空间飞行器再入过程横侧向制导的马尔可夫决策过程(Markov decision process,MDP)模型。基于竞争深度Q网络(dueling deep Q network,Dueling DQN),设计了横侧向制导律及满足射程... 针对临近空间飞行器再入段禁飞区规避制导问题,构建了临近空间飞行器再入过程横侧向制导的马尔可夫决策过程(Markov decision process,MDP)模型。基于竞争深度Q网络(dueling deep Q network,Dueling DQN),设计了横侧向制导律及满足射程需求与禁飞区规避需求的再入过程奖励函数。经仿真验证,该横侧向制导律能够通过改变倾侧角符号实现禁飞区规避,并导引飞行器到达目标区域,具备较高精度,验证了方法的有效性。 展开更多
关键词 临近空间飞行器 再入轨迹规划 竞争深度Q网络
下载PDF
一种基于Dueling DQN改进的低轨卫星路由算法 被引量:1
6
作者 许向阳 李京阳 彭文鑫 《长江信息通信》 2023年第7期56-59,共4页
卫星网络具有高动态性、节点处理能力不足,流量负载不均等问题。现有的地面路由算法并不能很好的解决卫星网络存在的问题。针对此问题,提出一种改进Dueling DQN的低轨卫星路由算法。首先,在路由算法中引入决斗网络的思想;然后在经验回... 卫星网络具有高动态性、节点处理能力不足,流量负载不均等问题。现有的地面路由算法并不能很好的解决卫星网络存在的问题。针对此问题,提出一种改进Dueling DQN的低轨卫星路由算法。首先,在路由算法中引入决斗网络的思想;然后在经验回放进行改进,将随机经验采样和优先经验采样进行融合,设置分层采样方法来进行采样;最后对网络进行参数的设置并且进行训练。从仿真和分析表明,从网络传输时延、系统吞吐量、丢包率方面有明显的提升。 展开更多
关键词 卫星路由 分层经验回放 决斗网络
下载PDF
一种改进dueling网络的机器人避障方法 被引量:5
7
作者 周翼 陈渤 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2019年第1期46-50,63,共6页
针对传统增强学习方法在运动规划领域,尤其是机器人避障问题上存在容易过估计、难以适应复杂环境等不足,提出了一种基于深度增强学习的提升机器人避障性能的新算法模型。该模型将dueling神经网络架构与传统增强学习算法Q学习相结合,并... 针对传统增强学习方法在运动规划领域,尤其是机器人避障问题上存在容易过估计、难以适应复杂环境等不足,提出了一种基于深度增强学习的提升机器人避障性能的新算法模型。该模型将dueling神经网络架构与传统增强学习算法Q学习相结合,并利用两个独立训练的dueling网络处理环境数据来预测动作值,在输出层分别输出状态值和动作优势值,并将两者结合输出最终动作值。该模型能处理较高维度数据以适应复杂多变的环境,并输出优势动作供机器人选择以获得更高的累积奖励。实验结果表明,该新算法模型能有效地提升机器人避障性能。 展开更多
关键词 机器人避障 深度增强学习 dueling网络 独立训练
下载PDF
基于Dueling Network与RRT的机械臂抓放控制 被引量:2
8
作者 王永 李金泽 《机床与液压》 北大核心 2021年第17期59-64,共6页
针对当前机械臂抓取与放置方式固定、指令单一、难以应对复杂未知情况的不足,提出一种基于深度强化学习与RRT的机械臂抓放控制方法。该方法将物件抓取与放置问题视为马尔科夫过程,通过物件视场要素描述以及改进的深度强化学习算法Duelin... 针对当前机械臂抓取与放置方式固定、指令单一、难以应对复杂未知情况的不足,提出一种基于深度强化学习与RRT的机械臂抓放控制方法。该方法将物件抓取与放置问题视为马尔科夫过程,通过物件视场要素描述以及改进的深度强化学习算法Dueling Network实现对未知物件的自主抓取,经过关键点选取以及RRT算法依据任务需要将物件准确放置于目标位置。实验结果表明:该方法简便有效,机械臂抓取与放置自主灵活,可进一步提升机械臂应对未知物件的自主操控能力,满足对不同物件抓取与放置任务的需求。 展开更多
关键词 机械臂 深度强化学习 dueling Network RRT 抓放控制
下载PDF
基于KSP与Dueling DQN的电力通信光缆光路智能迂回方法 被引量:3
9
作者 陆怡菲 顾君佳 +3 位作者 沈昊骢 吴媖 潘俊姚 邢旭亮 《浙江电力》 2022年第12期114-122,共9页
目前电力通信光缆光路迂回选路的传统方法是人工决策,效率低下,导致电力通信业务恢复较慢。为此,提出了一种基于KSP(K条最短路径)与Dueling DQN(竞争深度Q学习网络)的电力通信光缆光路智能迂回方法。使用电力通信光缆网络拓扑信息以及... 目前电力通信光缆光路迂回选路的传统方法是人工决策,效率低下,导致电力通信业务恢复较慢。为此,提出了一种基于KSP(K条最短路径)与Dueling DQN(竞争深度Q学习网络)的电力通信光缆光路智能迂回方法。使用电力通信光缆网络拓扑信息以及光缆类型、同沟道情况、光缆长度、光缆芯数等数据,通过KSP算法寻找K条最短迂回路径,然后采用Dueling DQN评估每条迂回路径的风险值并实现路由选择。将所提方法与传统KSP算法、Nature DQN算法的效果进行对比,该算法光缆光路智能迂回准确率达到99.5%,决策时间缩减至秒级。 展开更多
关键词 电力通信光缆 光路迂回 dueling DQN 最短路径
下载PDF
Dueling-DQN在空调节能控制中的应用 被引量:3
10
作者 李骏翔 李兆丰 +3 位作者 杨赛赛 陶洪峰 姚辉 吴超 《计算机系统应用》 2021年第10期271-279,共9页
针对电信机房空调运行耗电量大,空调自动控制系统设计困难的问题,提出了一种规则约束和DuelingDQN算法相结合的空调节能控制方法.该方法能根据不同机房环境自适应学习建模,在保证机房室内温度在规定范围的前提下,节省空调耗电量.同时针... 针对电信机房空调运行耗电量大,空调自动控制系统设计困难的问题,提出了一种规则约束和DuelingDQN算法相结合的空调节能控制方法.该方法能根据不同机房环境自适应学习建模,在保证机房室内温度在规定范围的前提下,节省空调耗电量.同时针对实际机房应用场景,设计节能控制算法中的状态,动作和奖励函数,并采用深度强化学习算法Dueling-DQN提高模型表达能力和学习效率.在电信机房实际验证结果表明:该控制方法与空调默认设定参数运行相比节能18.3%,并可以很方便推广到不同环境场景的机房环境中,为电信机房节能减排提供解决方案. 展开更多
关键词 节能控制 dueling-DQN 强化学习 机房空调调控
下载PDF
考虑行为克隆的深度强化学习股票交易策略 被引量:2
11
作者 杨兴雨 陈亮威 +1 位作者 郑萧腾 张永 《系统管理学报》 CSSCI CSCD 北大核心 2024年第1期150-161,共12页
为提高股票投资的收益并降低风险,将模仿学习中的行为克隆思想引入深度强化学习框架中设计股票交易策略。在策略设计过程中,将对决DQN深度强化学习算法和行为克隆进行结合,使智能体在自主探索的同时模仿事先构造的投资专家的决策。选择... 为提高股票投资的收益并降低风险,将模仿学习中的行为克隆思想引入深度强化学习框架中设计股票交易策略。在策略设计过程中,将对决DQN深度强化学习算法和行为克隆进行结合,使智能体在自主探索的同时模仿事先构造的投资专家的决策。选择不同行业的股票进行数值实验,说明了所设计的交易策略在年化收益率、夏普比率和卡玛比率等收益与风险指标上优于对比策略。研究结果表明:将模仿学习与深度强化学习相结合可以使智能体同时具有探索和模仿能力,从而提高模型的泛化能力和策略的适用性。 展开更多
关键词 股票交易策略 深度强化学习 模仿学习 行为克隆 对决深度Q学习网络
下载PDF
《飞轮喋血》(Duel,1971年):银幕处女作几乎引发阶级斗争
12
《电影世界》 2013年第4期33-37,32,共6页
"《飞轮喋血》是针对机器文明的一次控诉。我在很早的时候就想好了这部影片的方方面面,它蕴含了整个技术社会终将彻底瓦解的隐喻。"——斯皮尔伯格《飞轮喋血》是一部电视电影,只有11天的拍摄期,片长74分钟,用斯皮尔伯格的话... "《飞轮喋血》是针对机器文明的一次控诉。我在很早的时候就想好了这部影片的方方面面,它蕴含了整个技术社会终将彻底瓦解的隐喻。"——斯皮尔伯格《飞轮喋血》是一部电视电影,只有11天的拍摄期,片长74分钟,用斯皮尔伯格的话说——"颇像一部真正的电影"。即便比通常的影片时长短了将近15分钟,但它也需要精心的筹备和策划,上映后,深受好评,他已经开始展示出自己非凡的编导才能。 展开更多
关键词 duel 1971 斯皮尔伯格 希区柯克 卡车司机 韦弗 州际公路 丹尼斯 科伦 设计大师 提前预知
下载PDF
基于知识融合和深度强化学习的智能紧急切机决策 被引量:1
13
作者 李舟平 曾令康 +4 位作者 姚伟 胡泽 帅航 汤涌 文劲宇 《中国电机工程学报》 EI CSCD 北大核心 2024年第5期1675-1687,I0001,共14页
紧急控制是在严重故障后维持电力系统暂态安全稳定的重要手段。目前常用的“人在环路”离线紧急控制决策制定方式存在效率不高、严重依赖专家经验等问题,该文提出一种基于知识融合和深度强化学习(deep reinforcement learning,DRL)的智... 紧急控制是在严重故障后维持电力系统暂态安全稳定的重要手段。目前常用的“人在环路”离线紧急控制决策制定方式存在效率不高、严重依赖专家经验等问题,该文提出一种基于知识融合和深度强化学习(deep reinforcement learning,DRL)的智能紧急切机决策制定方法。首先,构建基于DRL的紧急切机决策制定框架。然后,在智能体处理多个发电机决策时,由于产生的高维决策空间使得智能体训练困难,提出决策空间压缩和应用分支竞争Q(branching dueling Q,BDQ)网络的两种解决方法。接着,为了进一步提高智能体的探索效率和决策质量,在智能体训练中融合紧急切机控制相关知识经验。最后,在10机39节点系统中的仿真结果表明,所提方法可以在多发电机决策时快速给出有效的紧急切机决策,应用BDQ网络比决策空间压缩的决策性能更好,知识融合策略可引导智能体减少无效决策探索从而提升决策性能。 展开更多
关键词 紧急切机决策 深度强化学习 决策空间 分支竞争Q网络 知识融合
下载PDF
基于改进联邦竞争深度Q网络的多微网能量管理策略 被引量:1
14
作者 黎海涛 刘伊然 +3 位作者 杨艳红 肖浩 谢冬雪 裴玮 《电力系统自动化》 EI CSCD 北大核心 2024年第8期174-184,共11页
目前,基于联邦深度强化学习的微网(MG)能量管理研究未考虑多类型能量转换与MG间电量交易的问题,同时,频繁交互模型参数导致通信时延较大。基于此,以一种包含风、光、电、气等多类型能源的MG为研究对象,构建了支持MG间电量交易和MG内能... 目前,基于联邦深度强化学习的微网(MG)能量管理研究未考虑多类型能量转换与MG间电量交易的问题,同时,频繁交互模型参数导致通信时延较大。基于此,以一种包含风、光、电、气等多类型能源的MG为研究对象,构建了支持MG间电量交易和MG内能量转换的能量管理模型,提出基于正余弦算法的联邦竞争深度Q网络学习算法,并基于该算法设计了计及能量交易与转换的多MG能量管理与优化策略。仿真结果表明,所提能量管理策略在保护数据隐私的前提下,能够得到更高奖励且最大化MG经济收益,同时降低了通信时延。 展开更多
关键词 微网(MG) 联邦学习 竞争深度Q网络 正余弦算法 能量管理
下载PDF
自动化立体仓库退库货位优化问题及其求解算法 被引量:2
15
作者 何在祥 李丽 +1 位作者 张云峰 郗琳 《重庆理工大学学报(自然科学)》 CAS 北大核心 2024年第3期183-194,共12页
针对自动化立体仓库出库作业过程中剩余货物退库问题,以堆垛机作业总能耗最小化为目标,以退库货位分配为决策变量,建立了自动化立体仓库退库货位优化模型,提出了基于深度强化学习的自动化立体仓库退库货位优化框架。在该框架内,以立体... 针对自动化立体仓库出库作业过程中剩余货物退库问题,以堆垛机作业总能耗最小化为目标,以退库货位分配为决策变量,建立了自动化立体仓库退库货位优化模型,提出了基于深度强化学习的自动化立体仓库退库货位优化框架。在该框架内,以立体仓库实时存储信息和出库作业信息构建多维状态,以退库货位选择构建动作,建立自动化立体仓库退库货位优化的马尔科夫决策过程模型;将立体仓库多维状态特征输入双层决斗网络,采用决斗双重深度Q网络(dueling double deep Q-network,D3QN)算法训练网络模型并预测退库动作目标价值,以确定智能体的最优行为策略。实验结果表明D3QN算法在求解大规模退库货位优化问题上具有较好的稳定性。 展开更多
关键词 自动化立体仓库 退库货位优化 深度强化学习 D3QN
下载PDF
基于深度强化学习的AUV路径规划研究
16
作者 房鹏程 周焕银 董玫君 《机床与液压》 北大核心 2024年第9期134-141,共8页
针对三维海洋环境水下自主航行器(AUV)路径规划问题,传统的路径规划算法在三维空间中搜索时间长,对环境的依赖性强,且环境发生改变时,需要重新规划路径,不满足实时性要求。为了使AUV能够自主学习场景并做出决策,提出一种改进的Dueling ... 针对三维海洋环境水下自主航行器(AUV)路径规划问题,传统的路径规划算法在三维空间中搜索时间长,对环境的依赖性强,且环境发生改变时,需要重新规划路径,不满足实时性要求。为了使AUV能够自主学习场景并做出决策,提出一种改进的Dueling DQN算法,更改了传统的网络结构以适应AUV路径规划场景。此外,针对路径规划在三维空间中搜寻目标点困难的问题,在原有的优先经验回放池基础上提出了经验蒸馏回放池,使智能体学习失败经验从而提高模型前期的收敛速度和稳定性。仿真实验结果表明:所提出的算法比传统路径规划算法具有更高的实时性,规划路径更短,在收敛速度和稳定性方面都优于标准的DQN算法。 展开更多
关键词 自主水下航行器(AUV) 三维路径规划 深度强化学习 dueling DQN算法
下载PDF
基于改进双重深度Q网络主动学习语义分割模型
17
作者 李林 刘政 +2 位作者 南海 张泽崴 魏晔 《计算机应用研究》 CSCD 北大核心 2024年第11期3337-3342,共6页
针对在图像语义分割任务中获取像素标签困难和分割数据集类别不平衡的问题,提出了一种基于改进双重深度Q网络的主动学习语义分割模型CG_D3QN。引入了一种结合决斗网络结构以及门控循环单元的混合网络结构,通过减轻Q值过估计问题和有效... 针对在图像语义分割任务中获取像素标签困难和分割数据集类别不平衡的问题,提出了一种基于改进双重深度Q网络的主动学习语义分割模型CG_D3QN。引入了一种结合决斗网络结构以及门控循环单元的混合网络结构,通过减轻Q值过估计问题和有效地利用历史状态信息,提高了策略评估的准确性和计算效率。在CamVid和Cityscapes数据集上,该模型相较于基线方法,所需的样本标注量减少了65.0%,同时对于少样本标签的类别,其平均交并比提升了约1%~3%。实验结果表明,该模型能够显著减少样本标注成本并有效地缓解了类别不平衡问题,且对于不同的分割网络也具有适用性。 展开更多
关键词 深度强化学习 主动学习 图像语义分割 决斗网络 门控循环单元
下载PDF
基于双智能体深度强化学习的交直流配电网经济调度方法
18
作者 赵倩宇 韩照洋 +3 位作者 王守相 尹孜阳 董逸超 钱广超 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2024年第6期624-632,共9页
随着大量直流电源和负荷的接入,交直流混合的配电网技术已成为未来配电网的发展趋势.然而,源荷不确定性及可调度设备的类型多样化给配电网调度带来了巨大的挑战.本文提出了基于分支决斗深度强化网络(branching dueling Q-network,BDQ)... 随着大量直流电源和负荷的接入,交直流混合的配电网技术已成为未来配电网的发展趋势.然而,源荷不确定性及可调度设备的类型多样化给配电网调度带来了巨大的挑战.本文提出了基于分支决斗深度强化网络(branching dueling Q-network,BDQ)和软演员-评论家(soft actor critic,SAC)双智能体深度强化学习的交直流配电网调度方法.该方法首先将经济调度问题与两智能体的动作、奖励、状态相结合,建立经济调度的马尔可夫决策过程,并分别基于BDQ和SAC方法设置两个智能体,其中,BDQ智能体用于控制配电网中离散动作设备,SAC智能体用于控制连续动作设备.然后,通过集中训练分散执行的方式,两智能体与环境进行交互,进行离线训练.最后,固定智能体的参数,进行在线调度.该方法的优势在于采用双智能体能够同时控制离散动作设备电容器组、载调压变压器和连续动作设备变流器、储能,同时通过对双智能体的集中训练,可以自适应源荷的不确定性.改进的IEEE33节点交直流配电网算例测试验证了所提方法的有效性. 展开更多
关键词 交直流配电网 深度强化学习 经济调度 分支决斗深度强化网络 软演员-评论家
下载PDF
基于改进奖励机制的深度强化学习目标检测
19
作者 陈盈君 武月 刘力铭 《计算机系统应用》 2024年第10期106-114,共9页
为提高深度强化学习目标检测模型的检测精度和检测速度,对传统模型进行改进.针对特征提取不充分的问题,使用融入通道注意力机制的VGG16特征提取模块作为强化学习的状态输入,来更全面地捕获图像中的关键信息;针对仅使用交并比作为奖励出... 为提高深度强化学习目标检测模型的检测精度和检测速度,对传统模型进行改进.针对特征提取不充分的问题,使用融入通道注意力机制的VGG16特征提取模块作为强化学习的状态输入,来更全面地捕获图像中的关键信息;针对仅使用交并比作为奖励出现的评价不精准问题,使用额外考虑了真实框与预测框中心点距离以及长宽比的改进奖励机制,使奖励更加合理;为加速训练过程的收敛并增强智能体对当前状态和动作评价的客观性,使用Dueling DQN算法进行训练.在PASCAL VOC2007和PASCAL VOC2012数据集上进行实验,实验结果表明,该检测模型仅需4–10个候选框即可检测到目标.与Caicedo-RL相比,准确率提高9.8%,最终预测框和真实框的平均交并比提高5.6%. 展开更多
关键词 目标检测 深度强化学习 VGG16 注意力机制 奖励机制 dueling DQN
下载PDF
强化学习中动态ε的贪婪探索策略
20
作者 孔燕 曹俊豪 +1 位作者 杨智超 芮烨锋 《信息技术》 2024年第7期60-64,70,共6页
随着强化学习领域的成熟,ε-贪婪方法被广泛运用在强化学习中,例如深度Q网络。但是,对于ε-贪婪方法每次选择动作,它有一定概率选择非最优的动作,导致不断探索。在此背景下,提出了一种动态ε-贪婪方法(DEG)和Dueling Actor-Critic框架(A... 随着强化学习领域的成熟,ε-贪婪方法被广泛运用在强化学习中,例如深度Q网络。但是,对于ε-贪婪方法每次选择动作,它有一定概率选择非最优的动作,导致不断探索。在此背景下,提出了一种动态ε-贪婪方法(DEG)和Dueling Actor-Critic框架(ACDD),能够平衡强化学习中的探索和利用问题。DEG将状态输入到ACDD框架得到优势值来自动调整ε的值,从而保持探索和利用之间的更好平衡。该实验在多臂老虎机任务中对DEG进行测试,将累计平均奖励和最优动作选择率作为评估标准。与一些广泛使用的方法相比,DEG可以达到更高的平均累积奖励和最优动作选择率,并提高了性能。 展开更多
关键词 深度强化学习 探索和利用 动态化ε dueling Actor-Critic框架 多臂老虎机
下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部