期刊文献+
共找到49篇文章
< 1 2 3 >
每页显示 20 50 100
基于DDQN的长江新链网络切片资源分配算法
1
作者 沈建军 《电子设计工程》 2024年第21期176-180,共5页
针对长江新链网络为航运业务提供网络资源时能耗较高的问题进行了研究,采用了网络资源和算力资源统一建模为底层网络资源的方法,构建了网络切片环境下网络资源管理模型。根据长江新链网络切片资源的特点,构建了最小化能耗的目标函数。... 针对长江新链网络为航运业务提供网络资源时能耗较高的问题进行了研究,采用了网络资源和算力资源统一建模为底层网络资源的方法,构建了网络切片环境下网络资源管理模型。根据长江新链网络切片资源的特点,构建了最小化能耗的目标函数。通过构建马尔可夫决策模型,提出了基于双深度Q-Network(Double Deep Q-Network,DDQN)的长江新链网络切片资源分配算法。通过实验与相关算法进行了分析,验证了文中算法选择能耗低的网络资源为航运业务提供资源,降低了长江新链网络资源约13.7%的能耗,提升了约10.2%的资源分配成功率。 展开更多
关键词 长江新链网络 网络资源 资源分配 ddqn
下载PDF
基于DDQN的三元多级散列异步流量调度方法
2
作者 张皓瀚 易晶晶 《网络新媒体技术》 2024年第5期42-48,共7页
数据中心网络(DCNs)中Web访问和分布式计算的短消息业务占据大部分的流量,为解决数据中心短消息的长尾效应,提出一种接收端驱动的基于强化学习面向动态优先级的流量调度算法。该算法基于双重深度Q网络(DDQN)强化学习设置动态调度门限,... 数据中心网络(DCNs)中Web访问和分布式计算的短消息业务占据大部分的流量,为解决数据中心短消息的长尾效应,提出一种接收端驱动的基于强化学习面向动态优先级的流量调度算法。该算法基于双重深度Q网络(DDQN)强化学习设置动态调度门限,完成动态优先级分配,并在发送队列按照差额轮询极大地降低了低优先级长消息的尾部延时,在发送端将长度小于调度门限的短数据包直接发送,在接收端根据三元检测的信息给长度大于调度门限的数据包动态分配优先级队列,消除抢占延时,保证链路的高占用率和低传输时延。实验表明,本算法在链路95%以上的高负载情况下,对字节数小于Unscheduled Bytes的短消息流完成时间放缓比降低了85%。 展开更多
关键词 流量调度 数据中心网络 ddqn强化学习 带内优先级 三元检测
下载PDF
基于改进DDQN算法的移动机器人路径规划研究
3
作者 付总礼 胡创业 +1 位作者 李克 王鑫 《电脑知识与技术》 2024年第16期11-14,共4页
针对传统的DDQN算法在复杂环境下进行路径规划时存在探索效率低、收敛速度慢的问题,提出了一种基于动态排序的优先经验回放机制和动态奖励的DDQN(Dynamic Sorting-based Priority Experience Replay Mechanism and Dynamic Reward Doubl... 针对传统的DDQN算法在复杂环境下进行路径规划时存在探索效率低、收敛速度慢的问题,提出了一种基于动态排序的优先经验回放机制和动态奖励的DDQN(Dynamic Sorting-based Priority Experience Replay Mechanism and Dynamic Reward Double Deep Q-Network,简称PR-DDQN)算法。该算法对DDQN中的经验回放机制进行了优化,采用基于动态排序的优先经验回放机制,提高了实际样本利用率,以期提升算法的学习效率和性能;同时,优化了原算法的奖励函数机制,动态调整移动机器人的动作奖励,以加快算法的收敛速度。最后,通过消融仿真实验并进行数据分析,证明了PR-DDQN算法的有效性和高效性。 展开更多
关键词 路径规划 ddqn 动态排序 动态奖励函数 PR—ddqn
下载PDF
基于SDN-DDQN的数据中心网络负载均衡算法 被引量:4
4
作者 陈康 朱晓娟 《重庆科技学院学报(自然科学版)》 CAS 2023年第6期72-78,共7页
在数据中心网络(DCN)数据流量激增、大小流突发的情况下,采用传统负载均衡算法存在实时性不足,长期效果难以优化等问题,易造成网络链路拥塞。为此,提出一种基于SDN-DDQN的负载均衡(DDQNLB)算法。此算法利用SDN全局视图的优势,选择交换... 在数据中心网络(DCN)数据流量激增、大小流突发的情况下,采用传统负载均衡算法存在实时性不足,长期效果难以优化等问题,易造成网络链路拥塞。为此,提出一种基于SDN-DDQN的负载均衡(DDQNLB)算法。此算法利用SDN全局视图的优势,选择交换机负载和带宽利用率作为网络状态输入,为DCN中的大流和小流分别设置卷积神经网络(CNN)进行学习和训练,以满足DCN中大流高吞吐量和小流低延时的需求。实验结果表明,与ECMP和Hedera算法相比,DDQNLB算法可有效提高网络吞吐量并保证较低的丢包率。 展开更多
关键词 数据中心网络 软件定义网络 ddqn算法 链路拥塞 负载均衡
下载PDF
基于DDQN-KRR动态重构策略的综合能源系统运行优化 被引量:2
5
作者 吉兴全 朱应业 +3 位作者 张玉敏 叶平峰 杨明 于一潇 《高电压技术》 EI CAS CSCD 北大核心 2023年第8期3195-3204,共10页
在电-气-热互联的综合能源系统优化中考虑配电网动态重构策略是提高系统灵活性和经济性的重要手段。针对考虑配电网动态重构之后模型复杂与求解效率低的问题,提出了基于双层深度Q网络(doubledeepQ network, DDQN)和内核岭回归(kernel ri... 在电-气-热互联的综合能源系统优化中考虑配电网动态重构策略是提高系统灵活性和经济性的重要手段。针对考虑配电网动态重构之后模型复杂与求解效率低的问题,提出了基于双层深度Q网络(doubledeepQ network, DDQN)和内核岭回归(kernel ridge regression, KRR)方法获取配电网动态重构策略,并将其纳入综合能源系统运行优化模型中,通过把耗时较多的模型学习过程转移到训练过程中,仅应用训练好的模型,进而快速得到运行优化结果。首先,建立包含综合能源系统状态与静态重构结果的数据库,依据时间序列并考虑开关动作成本,制定出动态重构策略;其次,提出KRR方法,用于预测耦合机组的最优出力;最后,基于DDQN挖掘综合能源系统状态与重构结果之间的映射关系,实现快速动态重构。以IEEE33节点配电网、20节点天然气网和16节点热网组成的E33-G20-H16系统以及E78-G40-H32系统为例,验证了所提模型和方法的有效性。 展开更多
关键词 电-气-热互联 综合能源系统 双层深度Q网络 内核岭回归 配电网 配电网动态重构
下载PDF
结合APF和改进DDQN的动态环境机器人路径规划方法 被引量:4
6
作者 孙传禹 张雷 +1 位作者 辛山 刘悦 《小型微型计算机系统》 CSCD 北大核心 2023年第9期1940-1946,共7页
针对动态环境的机器人路径规划,人工势场法(APF)易陷入局部最小陷阱;强化学习深度双重Q网络(DDQN)算法存在盲目探索过多、收敛较慢和规划路径不平滑的问题,本文提出一种基于人工势场法和改进DDQN的动态环境机器人路径规划算法(PF-IDDQN)... 针对动态环境的机器人路径规划,人工势场法(APF)易陷入局部最小陷阱;强化学习深度双重Q网络(DDQN)算法存在盲目探索过多、收敛较慢和规划路径不平滑的问题,本文提出一种基于人工势场法和改进DDQN的动态环境机器人路径规划算法(PF-IDDQN).首先,将人工势场法引入改进DDQN以获取初始全局环境信息,并对奖励模块进行优化;其次,在算法状态集中增加4个方向因素,以提高规划路径的平滑度;最后,进行了动态环境下的训练仿真.结果表明,机器人在动态环境中可以在有限探索次数内到达目标位置,验证了本文算法的有效性. 展开更多
关键词 人工势场法 改进ddqn算法 路径规划 动态环境
下载PDF
基于DDQN的生鲜农产品零售商库存成本控制模型 被引量:2
7
作者 李姣姣 何利力 郑军红 《智能计算机与应用》 2023年第10期60-64,72,共6页
针对生鲜农产品零售商库存成本控制问题,将该问题转换为马尔可夫决策过程,引入三参数Weibull函数,描述生鲜农产品的损腐特征,并考虑过期、损腐、缺货、订货和持有等成本,从供应链视角建立生鲜农产品库存成本控制模型,使用深度强化学习... 针对生鲜农产品零售商库存成本控制问题,将该问题转换为马尔可夫决策过程,引入三参数Weibull函数,描述生鲜农产品的损腐特征,并考虑过期、损腐、缺货、订货和持有等成本,从供应链视角建立生鲜农产品库存成本控制模型,使用深度强化学习中深度双Q网络(Double Deep Q Network,DDQN)优化订货,以控制库存总成本。实验结果表明,相比单周期随机型库存成本控制模型和固定订货量库存成本控制模型,DDQN模型的总成本分别降低约6%和11%,具有实际应用价值。 展开更多
关键词 生鲜农产品 深度强化学习 深度双Q网络 库存成本控制 供应链 WEIBULL分布
下载PDF
未知环境下改进DDQN的无人机探索航迹规划研究 被引量:3
8
作者 唐嘉宁 杨昕 +2 位作者 周思达 李罗宇 安城安 《电光与控制》 CSCD 北大核心 2023年第4期23-27,33,共6页
对未知环境的探索,如搜救、追逃等场景,无人机需要一边探索(感知)环境一边完成当前的航迹规划(动作选择)。针对上述场景,为了提高无人机对未知环境的探索范围,提出了结合长短期记忆的改进深度双Q网络探索航迹规划方法:搭建仿真地图,以... 对未知环境的探索,如搜救、追逃等场景,无人机需要一边探索(感知)环境一边完成当前的航迹规划(动作选择)。针对上述场景,为了提高无人机对未知环境的探索范围,提出了结合长短期记忆的改进深度双Q网络探索航迹规划方法:搭建仿真地图,以无人机视野内的环境信息作为输入,引入长短期记忆网络,输出动作方向的选择;设置探索经验样本优先级,提高训练效率;加入飞行动力学约束,设计合理的状态、动作空间及单步奖励函数。运用所提算法,无人机可以自主规划出一条无碰撞且对环境探索范围大的航迹。仿真实验结果表明:在未知环境下,所提算法得到的探索面积比、单步探索平均奖励值等指标均优于传统的DDQN算法。 展开更多
关键词 无人机 长短期记忆网络 深度双Q网络 未知环境探索 航迹规划
下载PDF
基于引导Minimax-DDQN的无人机空战机动决策 被引量:3
9
作者 王昱 任田君 范子琳 《计算机应用》 CSCD 北大核心 2023年第8期2636-2643,共8页
针对无人机(UAV)空战环境信息复杂、对抗性强所导致的敌机机动策略难以预测,以及作战胜率不高的问题,设计了一种引导Minimax-DDQN(Minimax-Double Deep Q-Network)算法。首先,在Minimax决策方法的基础上提出了一种引导式策略探索机制;然... 针对无人机(UAV)空战环境信息复杂、对抗性强所导致的敌机机动策略难以预测,以及作战胜率不高的问题,设计了一种引导Minimax-DDQN(Minimax-Double Deep Q-Network)算法。首先,在Minimax决策方法的基础上提出了一种引导式策略探索机制;然后,结合引导Minimax策略,以提升Q网络更新效率为出发点设计了一种DDQN(Double Deep Q-Network)算法;最后,提出进阶式三阶段的网络训练方法,通过不同决策模型间的对抗训练,获取更为优化的决策模型。实验结果表明,相较于Minimax-DQN(Minimax-DQN)、Minimax-DDQN等算法,所提算法追击直线目标的成功率提升了14%~60%,并且与DDQN算法的对抗胜率不低于60%。可见,与DDQN、Minimax-DDQN等算法相比,所提算法在高对抗的作战环境中具有更强的决策能力,适应性更好。 展开更多
关键词 无人机空战 自主决策 深度强化学习 双重深度Q网络 多阶段训练
下载PDF
基于双深度Q网络算法的多用户端对端能源共享机制研究
10
作者 武东昊 王国烽 +2 位作者 毛毳 陈玉萍 张有兵 《高技术通讯》 CAS 北大核心 2024年第7期755-764,共10页
端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷... 端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷变动问题。为此,本文建立了一种以多类型用户为基础的多用户P2P能源社区交易模型,并引入基于双深度Q网络(DDQN)的强化学习(RL)算法对其进行求解。所提方法通过DDQN算法中的预测网络以及目标网络读取多用户P2P能源社区中的环境信息,训练后的神经网络可通过实时的光伏、负荷以及电价数据对当前社区内的多用户P2P交易问题进行求解。案例仿真结果表明,所提方法在促进社区内用户间P2P能源交易共享的同时,保证了多用户P2P能源社区的经济性。 展开更多
关键词 端对端(P2P)能源共享 强化学习(RL) 能源交易市场 双深度Q网络(ddqn)算法
下载PDF
一种改进的双深度Q网络服务功能链部署算法 被引量:1
11
作者 刘道华 魏丁二 +2 位作者 宣贺君 余长鸣 寇丽博 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2024年第1期52-59,共8页
网络功能虚拟化已成为未来通信网络的关键技术,动态服务功能链的高效部署是提高网络性能迫切需要解决的问题之一。为降低通信网络服务器能量消耗以及改善通信网络服务质量,提出一种改进的双深度Q网络的动态服务功能链部署算法。由于网... 网络功能虚拟化已成为未来通信网络的关键技术,动态服务功能链的高效部署是提高网络性能迫切需要解决的问题之一。为降低通信网络服务器能量消耗以及改善通信网络服务质量,提出一种改进的双深度Q网络的动态服务功能链部署算法。由于网络状态及服务功能链的动态性,首先将服务功能链部署问题建模为马尔可夫决策过程。根据通信网络中资源的状态以及所选择的动作计算奖励函数值,对双深度Q网络进行在线训练,得到最优深度神经网络模型,从而确定最优的在线服务功能链部署策略。为解决传统深度强化学习从经验回放池中采用均匀抽取经验样本而导致神经网络学习效率低的问题,设计一种基于重要性采样的优先级经验回放方法以抽取经验样本,从而有效地避免训练样本之间的高度相关性,进一步提高离线学习神经网络的效率。仿真结果表明,所提出基于改进双深度Q网络的服务功能链部署算法能够提高奖励值,与传统的双深度Q网络算法相比,在能量消耗与阻塞率方面分别降低约19.89%~36.99%与9.52%~16.37%。 展开更多
关键词 服务功能链 马尔科夫决策过程 网络能耗 双深度Q网络
下载PDF
Double DQN Method For Botnet Traffic Detection System
12
作者 Yutao Hu Yuntao Zhao +1 位作者 Yongxin Feng Xiangyu Ma 《Computers, Materials & Continua》 SCIE EI 2024年第4期509-530,共22页
In the face of the increasingly severe Botnet problem on the Internet,how to effectively detect Botnet traffic in realtime has become a critical problem.Although the existing deepQnetwork(DQN)algorithminDeep reinforce... In the face of the increasingly severe Botnet problem on the Internet,how to effectively detect Botnet traffic in realtime has become a critical problem.Although the existing deepQnetwork(DQN)algorithminDeep reinforcement learning can solve the problem of real-time updating,its prediction results are always higher than the actual results.In Botnet traffic detection,although it performs well in the training set,the accuracy rate of predicting traffic is as high as%;however,in the test set,its accuracy has declined,and it is impossible to adjust its prediction strategy on time based on new data samples.However,in the new dataset,its accuracy has declined significantly.Therefore,this paper proposes a Botnet traffic detection system based on double-layer DQN(DDQN).Two Q-values are designed to adjust the model in policy and action,respectively,to achieve real-time model updates and improve the universality and robustness of the model under different data sets.Experiments show that compared with the DQN model,when using DDQN,the Q-value is not too high,and the detectionmodel has improved the accuracy and precision of Botnet traffic.Moreover,when using Botnet data sets other than the test set,the accuracy and precision of theDDQNmodel are still higher than DQN. 展开更多
关键词 DQN ddqn deep reinforcement learning botnet detection feature classification
下载PDF
基于深度强化学习的无人机集群实时航路规划
13
作者 宋海伟 栗志 +3 位作者 田达 吕丹阳 吴克钊 黄金磊 《航天电子对抗》 2024年第5期15-20,共6页
针对无人机城市任务复杂化场景,提出了一种基于深度强化学习的无人机集群实时航路规划算法,通过对威胁、障碍物等进行统一化建模,构建集群航路规划模型,将无人机传感器探测信息作为深度神经网络的状态输入,优化了无人机航路规划的能耗... 针对无人机城市任务复杂化场景,提出了一种基于深度强化学习的无人机集群实时航路规划算法,通过对威胁、障碍物等进行统一化建模,构建集群航路规划模型,将无人机传感器探测信息作为深度神经网络的状态输入,优化了无人机航路规划的能耗和成功率,通过仿真,证明了算法的有效性和实用性。 展开更多
关键词 无人机集群 航路规划 深度强化学习 城市任务
下载PDF
基于DDQN的片上网络混合关键性消息调度方法 被引量:1
14
作者 李国梁 李峭 +1 位作者 徐亚军 熊华钢 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2022年第7期1233-1241,共9页
对片上网络(NoC)承载的混合关键性消息进行实时调度是其应用于航空电子系统片上多核通信的关键。为解决可满足性模理论(SMT)法求解效率低、低优先级消息等待延迟大的问题,提出了一种基于双深度Q网络(DDQN)的混合关键性消息调度方法。将... 对片上网络(NoC)承载的混合关键性消息进行实时调度是其应用于航空电子系统片上多核通信的关键。为解决可满足性模理论(SMT)法求解效率低、低优先级消息等待延迟大的问题,提出了一种基于双深度Q网络(DDQN)的混合关键性消息调度方法。将虫孔交换机制下的消息调度问题建模为马尔可夫决策过程,建立包含环境、动作、状态、奖励的多层感知调度模型;随机生成多组分布不同的混合关键性消息作为训练样本,采用DDQN算法求解该调度模型;在此基础上,提出并实现了带孔隙DDQN算法,在保证时间触发(TT)消息可调度前提下为速率约束(RC)消息预留用于虫孔交换的时隙。算例研究表明:所提方法的求解时长及TT消息确定性端到端延迟的平均值均低于SMT法;带孔隙DDQN算法的RC消息延迟较不带孔隙DDQN算法和SMT法显著降低。 展开更多
关键词 片上网络(NoC) 时间触发(TT)机制 双深度Q网络(ddqn) 混合关键性消息 消息调度
下载PDF
货运铁路会让列车调度指挥与运行控制协同优化研究
15
作者 夏明 韩涛 《铁道通信信号》 2024年第7期14-20,共7页
针对既有货运铁路调度集中系统和列车运行控制系统分立设置,列车会让质量高度依赖调度员和司机的经验水平,突发事件响应慢等问题,构建货运铁路协同优化仿真系统,实现列车会让过程中调度指挥与运行控制的有机统一。首先依据货运铁路列车... 针对既有货运铁路调度集中系统和列车运行控制系统分立设置,列车会让质量高度依赖调度员和司机的经验水平,突发事件响应慢等问题,构建货运铁路协同优化仿真系统,实现列车会让过程中调度指挥与运行控制的有机统一。首先依据货运铁路列车会让过程,增加通过列车和对向列车的位置、速度,以及列车牵引制动特性、线路条件等约束,构建列车协同会让优化模型;然后采用双深度Q网络(DDQN)进行模型求解,在计算列车速度曲线和选择列车工况序列时,考虑对向列车速度和距会让点的距离,协同优化通过、会让列车的运行过程。最后以某地方铁路实际线路、列车数据为例,验证模型和算法的可行性和适应性。试验结果表明,该系统可辅助调度人员实时掌握列车运行状态,有效调整列车运行速度,提高列车会让运输效率。 展开更多
关键词 货运铁路 列车会让 调度指挥 列车运行控制 双深度Q网络 协同优化
下载PDF
基于Dueling DDQN的无人车换道决策模型 被引量:3
16
作者 张鑫辰 张军 +1 位作者 刘元盛 谢龙洋 《东北师大学报(自然科学版)》 CAS 北大核心 2022年第1期63-71,共9页
针对高速公路场景中无人驾驶车的换道决策问题,提出一种基于竞争结构的双深度Q网络(DDQN)的无人车换道决策模型.在深度Q网络的基础上,将无人车动作的选择和评估分别用不同的神经网络来实现,并将Q网络分为仅与状态S相关的价值函数和同时... 针对高速公路场景中无人驾驶车的换道决策问题,提出一种基于竞争结构的双深度Q网络(DDQN)的无人车换道决策模型.在深度Q网络的基础上,将无人车动作的选择和评估分别用不同的神经网络来实现,并将Q网络分为仅与状态S相关的价值函数和同时与状态S和动作A相关的优势函数两部分,使得Dueling DDQN模型可以更好地理解外部的状态环境.使用训练模型在不同复杂程度的道路环境中进行测试,同时与DQN和DDQN进行了实验对比.结果表明,该算法提高了无人车换道决策的成功率,并在保证车辆安全的前提下提高了无人车的行驶效率,在复杂的道路场景下的适用性更强. 展开更多
关键词 无人车 换道决策 双深度Q网络
下载PDF
基于DDQN算法的混流车间作业动态自适应调度的研究
17
作者 陈晓航 王美林 +1 位作者 吴耿枫 梁凯晴 《现代信息科技》 2021年第24期133-137,141,共6页
大规模生产的混流车间制造系统存在资源规模大、约束多等问题,快速找到合适的调度策略是实现高效生产的关键。为解决传统数学规划算法和启发式算法存在的策略求解效率低、自适应性差等问题,文章提出一种基于DDQN的智能车间动态自适应调... 大规模生产的混流车间制造系统存在资源规模大、约束多等问题,快速找到合适的调度策略是实现高效生产的关键。为解决传统数学规划算法和启发式算法存在的策略求解效率低、自适应性差等问题,文章提出一种基于DDQN的智能车间动态自适应调度方法,对车间作业的自适应调度做了研究。通过“一步一推理”的自适用动态调度,可以高效地匹配合适的调度策略动作。 展开更多
关键词 深度强化学习 ddqn算法 动态自适应调度
下载PDF
基于蜂窝网络的多无人机能量消耗最优化算法研究 被引量:4
18
作者 夏景明 刘玉风 谈玲 《通信学报》 EI CSCD 北大核心 2023年第2期185-197,共13页
在一些复杂时变环境中,地面基站(GBS)可能无法协助处理无人机的计算任务,为此研究了一种基于数字孪生(DT)技术的移动边缘计算(MEC)蜂窝网络。考虑到多无人机效率,引入多只配备MEC服务器的高空气球(HAB)协助,在此基础上提出一个所有无人... 在一些复杂时变环境中,地面基站(GBS)可能无法协助处理无人机的计算任务,为此研究了一种基于数字孪生(DT)技术的移动边缘计算(MEC)蜂窝网络。考虑到多无人机效率,引入多只配备MEC服务器的高空气球(HAB)协助,在此基础上提出一个所有无人机能量最小化问题,并给出一种多无人机轨迹优化和资源分配方案。应用双深度Q网络(DDQN)解决多无人机与多HAB之间的关联问题;采用连续凸逼近技术(SCA)和块坐标下降算法(BCD)对多无人机轨迹和计算资源进行联合优化。仿真实验验证了所提算法的可行性和有效性。实验结果表明,所提算法使系统能量消耗降低30%,明显优于对比算法。 展开更多
关键词 无人机 任务卸载 数字孪生 双深度Q网络 连续凸逼近
下载PDF
基于动作注意策略的树形DDQN目标候选区域提取方法
19
作者 左国玉 杜婷婷 +2 位作者 马蕾 卢佳豪 龚道雄 《电子与信息学报》 EI CSCD 北大核心 2019年第3期666-673,共8页
针对机器人在家庭环境下的目标检测问题,该文提出一种基于动作注意策略的树形双深度Q网络(TDDQN)目标候选区域提取的方法,该方法将双深度Q网络(DDQN)的方法与树结构的方法相结合,通过执行改变检测框的动作以使目标逐渐集中在检测框内。... 针对机器人在家庭环境下的目标检测问题,该文提出一种基于动作注意策略的树形双深度Q网络(TDDQN)目标候选区域提取的方法,该方法将双深度Q网络(DDQN)的方法与树结构的方法相结合,通过执行改变检测框的动作以使目标逐渐集中在检测框内。首先采用DDQN方法在执行较少的动作后选择出当前状态的最佳动作,获取符合条件的候选区域。然后根据执行所选择动作之后所得到的状态重复执行上述过程,以此构成树结构的多条"最佳"路径。最后采用非极大值抑制的方法从多个符合条件的候选区域选择出最佳候选区域。在PascalVOC2007以及Pascal VOC2012上的实验结果表明,在不同数量的候选区域、不同阈值的IoU和不同大小以及不同种类对象的实验条件下,所提方法较其他方法都有着更好的检测性能,可以较好地实现目标检测。 展开更多
关键词 目标检测 候选区域 树结构 双深度Q网络 动作注意
下载PDF
基于深度强化学习的无人机通信速率优化 被引量:2
20
作者 李健 翟亚红 徐龙艳 《湖北汽车工业学院学报》 2023年第3期58-62,共5页
针对城市空对地模型中无人机与地面用户通信视线连接受阻的问题,提出了基于深度强化学习的无人机通信速率优化方案。利用智能反射面(reconfigurable intelligent surface,RIS)辅助无人机通信,采用双深度Q网络(double deep Q-Learning,DD... 针对城市空对地模型中无人机与地面用户通信视线连接受阻的问题,提出了基于深度强化学习的无人机通信速率优化方案。利用智能反射面(reconfigurable intelligent surface,RIS)辅助无人机通信,采用双深度Q网络(double deep Q-Learning,DDQN)算法联合RIS相移和无人机的3D轨迹优化无人机的通信速率,在自建仿真平台上对该方案进行验证。结果表明:与RIS随机相移的DDQN方案、未部署RIS的DDQN方案及RIS相移优化的决斗深度Q网络方案相比,该方案在无人机飞行周期内的平均吞吐量,分别提高了38.61%、30.03%、53.97%。 展开更多
关键词 通信速率优化 ddqn算法 无人机 智能反射面 3D轨迹优化
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部