期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
基于Dueling DQN算法的列车运行图节能优化研究
1
作者 刘飞 唐方慧 +3 位作者 刘琳婷 胡文斌 哈进兵 钱程 《都市快轨交通》 北大核心 2024年第2期39-46,共8页
通过优化地铁时刻表可有效降低地铁牵引能耗。为解决客流波动和车辆延误对实际节能率影响的问题,提出列车牵引和供电系统实时潮流计算分析模型和基于Dueling Deep Q Network(Dueling DQN)深度强化学习算法相结合的运行图节能优化方法,... 通过优化地铁时刻表可有效降低地铁牵引能耗。为解决客流波动和车辆延误对实际节能率影响的问题,提出列车牵引和供电系统实时潮流计算分析模型和基于Dueling Deep Q Network(Dueling DQN)深度强化学习算法相结合的运行图节能优化方法,建立基于区间动态客流概率统计的时刻表迭代优化模型,降低动态客流变化对节能率的影响。对预测Q网络和目标Q网络分别选取自适应时刻估计和均方根反向传播方法,提高模型收敛快速性,同时以时刻表优化前、后总运行时间不变、乘客换乘时间和等待时间最小为优化目标,实现节能时刻表无感切换。以苏州轨道交通4号线为例验证方法的有效性,节能对比试验结果表明:在到达换乘站时刻偏差不超过2 s和列车全周转运行时间不变的前提下,列车牵引节能率达5.27%,车公里能耗下降4.99%。 展开更多
关键词 城市轨道交通 时刻表优化 牵引节能 dueling DQN 动态客流
下载PDF
未知环境下基于Dueling DQN的无人机路径规划研究
2
作者 赵恬恬 孔建国 +1 位作者 梁海军 刘晨宇 《现代计算机》 2024年第5期37-43,共7页
为有效解决无人机在未知环境下的路径规划问题,提出一种基于Dueling DQN的路径规划方法。首先,在DQN的基础上,引入对抗网络架构,从而更好地提高成功率;其次,设计状态空间并定义离散化的动作和适当的奖励函数以引导无人机学习最优路径;... 为有效解决无人机在未知环境下的路径规划问题,提出一种基于Dueling DQN的路径规划方法。首先,在DQN的基础上,引入对抗网络架构,从而更好地提高成功率;其次,设计状态空间并定义离散化的动作和适当的奖励函数以引导无人机学习最优路径;最后在仿真环境中对DQN和Dueling DQN展开训练,结果表明:①Dueling DQN能规划出未知环境下从初始点到目标点的无碰撞路径,且能获得更高的奖励值;②经过50000次训练,Dueling DQN的成功率比DQN提高17.71%,碰撞率减少1.57%,超过最长步长率降低16.14%。 展开更多
关键词 无人机 路径规划 深度强化学习 dueling DQN算法
下载PDF
Transformer-Aided Deep Double Dueling Spatial-Temporal Q-Network for Spatial Crowdsourcing Analysis
3
作者 Yu Li Mingxiao Li +2 位作者 Dongyang Ou Junjie Guo Fangyuan Pan 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第4期893-909,共17页
With the rapid development ofmobile Internet,spatial crowdsourcing has becomemore andmore popular.Spatial crowdsourcing consists of many different types of applications,such as spatial crowd-sensing services.In terms ... With the rapid development ofmobile Internet,spatial crowdsourcing has becomemore andmore popular.Spatial crowdsourcing consists of many different types of applications,such as spatial crowd-sensing services.In terms of spatial crowd-sensing,it collects and analyzes traffic sensing data from clients like vehicles and traffic lights to construct intelligent traffic prediction models.Besides collecting sensing data,spatial crowdsourcing also includes spatial delivery services like DiDi and Uber.Appropriate task assignment and worker selection dominate the service quality for spatial crowdsourcing applications.Previous research conducted task assignments via traditional matching approaches or using simple network models.However,advanced mining methods are lacking to explore the relationship between workers,task publishers,and the spatio-temporal attributes in tasks.Therefore,in this paper,we propose a Deep Double Dueling Spatial-temporal Q Network(D3SQN)to adaptively learn the spatialtemporal relationship between task,task publishers,and workers in a dynamic environment to achieve optimal allocation.Specifically,D3SQNis revised through reinforcement learning by adding a spatial-temporal transformer that can estimate the expected state values and action advantages so as to improve the accuracy of task assignments.Extensive experiments are conducted over real data collected fromDiDi and ELM,and the simulation results verify the effectiveness of our proposed models. 展开更多
关键词 Historical behavior analysis spatial crowdsourcing deep double dueling Q-networks
下载PDF
一种改进dueling网络的机器人避障方法 被引量:4
4
作者 周翼 陈渤 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2019年第1期46-50,63,共6页
针对传统增强学习方法在运动规划领域,尤其是机器人避障问题上存在容易过估计、难以适应复杂环境等不足,提出了一种基于深度增强学习的提升机器人避障性能的新算法模型。该模型将dueling神经网络架构与传统增强学习算法Q学习相结合,并... 针对传统增强学习方法在运动规划领域,尤其是机器人避障问题上存在容易过估计、难以适应复杂环境等不足,提出了一种基于深度增强学习的提升机器人避障性能的新算法模型。该模型将dueling神经网络架构与传统增强学习算法Q学习相结合,并利用两个独立训练的dueling网络处理环境数据来预测动作值,在输出层分别输出状态值和动作优势值,并将两者结合输出最终动作值。该模型能处理较高维度数据以适应复杂多变的环境,并输出优势动作供机器人选择以获得更高的累积奖励。实验结果表明,该新算法模型能有效地提升机器人避障性能。 展开更多
关键词 机器人避障 深度增强学习 dueling网络 独立训练
下载PDF
基于Dueling Network与RRT的机械臂抓放控制 被引量:2
5
作者 王永 李金泽 《机床与液压》 北大核心 2021年第17期59-64,共6页
针对当前机械臂抓取与放置方式固定、指令单一、难以应对复杂未知情况的不足,提出一种基于深度强化学习与RRT的机械臂抓放控制方法。该方法将物件抓取与放置问题视为马尔科夫过程,通过物件视场要素描述以及改进的深度强化学习算法Duelin... 针对当前机械臂抓取与放置方式固定、指令单一、难以应对复杂未知情况的不足,提出一种基于深度强化学习与RRT的机械臂抓放控制方法。该方法将物件抓取与放置问题视为马尔科夫过程,通过物件视场要素描述以及改进的深度强化学习算法Dueling Network实现对未知物件的自主抓取,经过关键点选取以及RRT算法依据任务需要将物件准确放置于目标位置。实验结果表明:该方法简便有效,机械臂抓取与放置自主灵活,可进一步提升机械臂应对未知物件的自主操控能力,满足对不同物件抓取与放置任务的需求。 展开更多
关键词 机械臂 深度强化学习 dueling Network RRT 抓放控制
下载PDF
基于KSP与Dueling DQN的电力通信光缆光路智能迂回方法 被引量:3
6
作者 陆怡菲 顾君佳 +3 位作者 沈昊骢 吴媖 潘俊姚 邢旭亮 《浙江电力》 2022年第12期114-122,共9页
目前电力通信光缆光路迂回选路的传统方法是人工决策,效率低下,导致电力通信业务恢复较慢。为此,提出了一种基于KSP(K条最短路径)与Dueling DQN(竞争深度Q学习网络)的电力通信光缆光路智能迂回方法。使用电力通信光缆网络拓扑信息以及... 目前电力通信光缆光路迂回选路的传统方法是人工决策,效率低下,导致电力通信业务恢复较慢。为此,提出了一种基于KSP(K条最短路径)与Dueling DQN(竞争深度Q学习网络)的电力通信光缆光路智能迂回方法。使用电力通信光缆网络拓扑信息以及光缆类型、同沟道情况、光缆长度、光缆芯数等数据,通过KSP算法寻找K条最短迂回路径,然后采用Dueling DQN评估每条迂回路径的风险值并实现路由选择。将所提方法与传统KSP算法、Nature DQN算法的效果进行对比,该算法光缆光路智能迂回准确率达到99.5%,决策时间缩减至秒级。 展开更多
关键词 电力通信光缆 光路迂回 dueling DQN 最短路径
下载PDF
A transferable energy management strategy for hybrid electric vehicles via dueling deep deterministic policy gradient
7
作者 Jingyi Xu Zirui Li +3 位作者 Guodong Du Qi Liu Li Gao Yanan Zhao 《Green Energy and Intelligent Transportation》 2022年第2期75-87,共13页
Due to the high mileage and heavy load capabilities of hybrid electric vehicles(HEVs),energy management becomes crucial in improving energy efficiency.To avoid the over-dependence on the hard-crafted models,deep reinf... Due to the high mileage and heavy load capabilities of hybrid electric vehicles(HEVs),energy management becomes crucial in improving energy efficiency.To avoid the over-dependence on the hard-crafted models,deep reinforcement learning(DRL)is utilized to learn more precise energy management strategies(EMSs),but cannot generalize well to different driving situations in most cases.When driving cycles are changed,the neural network needs to be retrained,which is a time-consuming and laborious task.A more efficient transferable way is to combine DRL algorithms with transfer learning,which can utilize the knowledge of the driving cycles in other new driving situations,leading to better initial performance and a faster training process to convergence.In this paper,we propose a novel transferable EMS by incorporating the DRL method and dueling network architecture for HEVs.Simulation results indicate that the proposed method can generalize well to new driving cycles,with comparably initial performance and faster convergence in the training process. 展开更多
关键词 Energy management strategies Deep reinforcement learning dueling network architecture Transfer learning
原文传递
特征降维的深度强化学习脑卒中分类预测研究 被引量:1
8
作者 袁甜甜 李凤莲 +2 位作者 张雪英 胡风云 贾文辉 《重庆理工大学学报(自然科学)》 CAS 北大核心 2023年第3期194-203,共10页
针对脑卒中筛查数据集冗余,特征较多,采用传统的分类算法效果较差的问题,为实现脑卒中筛查数据高效的诊断预测,建立了一种混合特征降维的深度强化学习分类预测优化模型。提出一种改进的CFS特征选择算法,并与PCA结合,对原始脑卒中筛查数... 针对脑卒中筛查数据集冗余,特征较多,采用传统的分类算法效果较差的问题,为实现脑卒中筛查数据高效的诊断预测,建立了一种混合特征降维的深度强化学习分类预测优化模型。提出一种改进的CFS特征选择算法,并与PCA结合,对原始脑卒中筛查数据集进行特征降维;基于Double DQN和Dueling DQN算法构建深度强化学习分类预测模型,引入一种更具鲁棒性的损失函数,对模型进行了优化,提高了模型的分类效果;对比已有的Naive Bayes、J48、SVM、KNN和DQN模型在公共数据集及脑卒中筛查数据集的实验结果,结果表明:所提模型在特征降维和分类预测2个方面均表现优越,在脑卒中筛查数据集上分类准确率优于对比算法,可为临床上脑卒中疾病的辅助诊断提供建议。 展开更多
关键词 特征降维 改进的CFS Double dueling DQN 损失函数 脑卒中
下载PDF
面向多异质用户的分布式动态频谱接入方法 被引量:1
9
作者 苗本静 张余 +2 位作者 潘志文 刘楠 尤肖虎 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2021年第4期513-519,共7页
针对认知无线电网络中多个次用户存在不同服务质量(quality of service,QoS)需求的频谱接入问题,提出了基于Dueling DQN(dueling deep Q-network)的分布式动态频谱接入方法。该方法通过与环境交互学习实现在次用户不掌握系统信道先验信... 针对认知无线电网络中多个次用户存在不同服务质量(quality of service,QoS)需求的频谱接入问题,提出了基于Dueling DQN(dueling deep Q-network)的分布式动态频谱接入方法。该方法通过与环境交互学习实现在次用户不掌握系统信道先验信息条件下动态获得最佳频谱接入策略,并以次用户碰撞次数以及成功接入信道次数分析比较所提出方法的性能。仿真结果表明,提出的方法在保护主用户不受干扰、满足多异质用户QoS需求的前提下,能够有效减少次用户间碰撞次数,提高次用户成功接入信道次数,相比随机接入与短视策略(myopic policy)频谱接入方法,该方法的碰撞次数分别降低60%和90%,其成功接入性能分别提高30%和50%。 展开更多
关键词 认知无线电 异质用户 动态频谱接入 dueling DQN
下载PDF
Safe Navigation for UAV-Enabled Data Dissemination by Deep Reinforcement Learning in Unknown Environments 被引量:1
10
作者 Fei Huang Guangxia Li +3 位作者 Shiwei Tian Jin Chen Guangteng Fan Jinghui Chang 《China Communications》 SCIE CSCD 2022年第1期202-217,共16页
Unmanned aerial vehicles(UAVs) are increasingly considered in safe autonomous navigation systems to explore unknown environments where UAVs are equipped with multiple sensors to perceive the surroundings. However, how... Unmanned aerial vehicles(UAVs) are increasingly considered in safe autonomous navigation systems to explore unknown environments where UAVs are equipped with multiple sensors to perceive the surroundings. However, how to achieve UAVenabled data dissemination and also ensure safe navigation synchronously is a new challenge. In this paper, our goal is minimizing the whole weighted sum of the UAV’s task completion time while satisfying the data transmission task requirement and the UAV’s feasible flight region constraints. However, it is unable to be solved via standard optimization methods mainly on account of lacking a tractable and accurate system model in practice. To overcome this tough issue,we propose a new solution approach by utilizing the most advanced dueling double deep Q network(dueling DDQN) with multi-step learning. Specifically, to improve the algorithm, the extra labels are added to the primitive states. Simulation results indicate the validity and performance superiority of the proposed algorithm under different data thresholds compared with two other benchmarks. 展开更多
关键词 Unmanned aerial vehicles(UAVs) safe autonomous navigation unknown environments data dissemination dueling double deep Q network(dueling DDQN)
下载PDF
A deep reinforcement learning method for multi-stage equipment development planning in uncertain environments
11
作者 LIU Peng XIA Boyuan +2 位作者 YANG Zhiwei LI Jichao TAN Yuejin 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2022年第6期1159-1175,共17页
Equipment development planning(EDP)is usually a long-term process often performed in an environment with high uncertainty.The traditional multi-stage dynamic programming cannot cope with this kind of uncertainty with ... Equipment development planning(EDP)is usually a long-term process often performed in an environment with high uncertainty.The traditional multi-stage dynamic programming cannot cope with this kind of uncertainty with unpredictable situations.To deal with this problem,a multi-stage EDP model based on a deep reinforcement learning(DRL)algorithm is proposed to respond quickly to any environmental changes within a reasonable range.Firstly,the basic problem of multi-stage EDP is described,and a mathematical planning model is constructed.Then,for two kinds of uncertainties(future capabi lity requirements and the amount of investment in each stage),a corresponding DRL framework is designed to define the environment,state,action,and reward function for multi-stage EDP.After that,the dueling deep Q-network(Dueling DQN)algorithm is used to solve the multi-stage EDP to generate an approximately optimal multi-stage equipment development scheme.Finally,a case of ten kinds of equipment in 100 possible environments,which are randomly generated,is used to test the feasibility and effectiveness of the proposed models.The results show that the algorithm can respond instantaneously in any state of the multistage EDP environment and unlike traditional algorithms,the algorithm does not need to re-optimize the problem for any change in the environment.In addition,the algorithm can flexibly adjust at subsequent planning stages in the event of a change to the equipment capability requirements to adapt to the new requirements. 展开更多
关键词 equipment development planning(EDP) MULTI-STAGE reinforcement learning uncertainty dueling deep Q-network(dueling DQN)
下载PDF
基于逆强化学习的电动汽车出行规划方法研究
12
作者 李繁菀 张莹 +2 位作者 华云鹏 李沐阳 陈元畅 《广西科学》 CAS 北大核心 2022年第4期668-680,共13页
随着电动汽车的普及,对电动汽车出行规划问题的研究显得尤为重要。有别于路径规划,出行规划既需要考虑路径问题又需要考虑充电问题。本文提出了一种基于逆强化学习(Inverse Reinforcement Learning, IRL)的电动汽车出行规划(Electric Ve... 随着电动汽车的普及,对电动汽车出行规划问题的研究显得尤为重要。有别于路径规划,出行规划既需要考虑路径问题又需要考虑充电问题。本文提出了一种基于逆强化学习(Inverse Reinforcement Learning, IRL)的电动汽车出行规划(Electric Vehicle Travel Planning, EVTP)方法,有效地为电动汽车用户规划一条兼顾行驶路径短以及充电时间短的可达路径。将Dijkstra算法进行改进得到考虑充电行为的最短路径作为专家示例输入到逆强化学习算法中;利用逆强化学习算法得到兼顾行走与充电的奖励;在学习策略上,采用Dueling DQN算法高效更新Q值,提升学习性能;采用部分充电策略以及分段充电策略,提升充电效率并使研究更接近真实情况。通过对模型的工作性能和结果进行详细分析,并结合基准方法进行对比,结果表明,基于逆强化学习的电动汽车出行规划方法在行驶时间与充电时间两方面都有较好的性能,且具备很好的迁移性。 展开更多
关键词 逆强化学习 电动汽车 出行规划 dueling DQN 部分充电策略
下载PDF
两种强化学习算法的性能对比
13
作者 王恩侃 姜乐 《信息技术与信息化》 2021年第7期120-121,124,共3页
针对DQN和Dueling-DQN这两种结合深度学习的强化学习算法,在经验池、学习率和批量采样大小固定的情况下,选取大小分别为15、30和50的动作空间,在不同复杂程度的游戏环境下进行了算法性能对比。对算法进行初始化后,固定训练步数,对比两... 针对DQN和Dueling-DQN这两种结合深度学习的强化学习算法,在经验池、学习率和批量采样大小固定的情况下,选取大小分别为15、30和50的动作空间,在不同复杂程度的游戏环境下进行了算法性能对比。对算法进行初始化后,固定训练步数,对比两种算法的损失值和累计奖励,同时比较达到相同的损失值和累计奖励所需要的训练步数,两种方法相互验证,得出结论。结果表明,Dueling-DQN算法可以更好地提升算法性能,并且拥有更好的收敛性,其收敛速度相较DQN算法提升了20%。 展开更多
关键词 强化学习 DQN dueling 收敛速度
下载PDF
论基拉尔模仿理论的历史实践:基于对相互作用的重视
14
作者 陶艳柯 《法国研究》 2018年第3期50-60,共11页
通过对克劳塞维茨及其《战争论》的阐释,基拉尔检测了其模仿理论的解释力。根据基拉尔,克劳塞维茨对战争的定义和分析敏锐触及了人类模仿关系的实质,把握住了理解现代悲剧世界的关键。对于基拉尔而言,"duel"能够覆盖现代战争&... 通过对克劳塞维茨及其《战争论》的阐释,基拉尔检测了其模仿理论的解释力。根据基拉尔,克劳塞维茨对战争的定义和分析敏锐触及了人类模仿关系的实质,把握住了理解现代悲剧世界的关键。对于基拉尔而言,"duel"能够覆盖现代战争"趋向极端"的属性。从后设的符号学的视角出发来检测基拉尔对战争及人际关系的阐释,以论证其在将自身理论付诸于历史实践过程中运作理路操演的合法性,雅各布森和辜克斯或许能够提供新的启发。 展开更多
关键词 基拉尔 克劳塞维茨 “duel” 相互作用
下载PDF
《飞轮喋血》(Duel,1971年):银幕处女作几乎引发阶级斗争
15
《电影世界》 2013年第4期33-37,32,共6页
"《飞轮喋血》是针对机器文明的一次控诉。我在很早的时候就想好了这部影片的方方面面,它蕴含了整个技术社会终将彻底瓦解的隐喻。"——斯皮尔伯格《飞轮喋血》是一部电视电影,只有11天的拍摄期,片长74分钟,用斯皮尔伯格的话... "《飞轮喋血》是针对机器文明的一次控诉。我在很早的时候就想好了这部影片的方方面面,它蕴含了整个技术社会终将彻底瓦解的隐喻。"——斯皮尔伯格《飞轮喋血》是一部电视电影,只有11天的拍摄期,片长74分钟,用斯皮尔伯格的话说——"颇像一部真正的电影"。即便比通常的影片时长短了将近15分钟,但它也需要精心的筹备和策划,上映后,深受好评,他已经开始展示出自己非凡的编导才能。 展开更多
关键词 Duel 1971 斯皮尔伯格 希区柯克 卡车司机 韦弗 州际公路 丹尼斯 科伦 设计大师 提前预知
下载PDF
基于深度强化学习的AUV路径规划研究
16
作者 房鹏程 周焕银 董玫君 《机床与液压》 2024年第9期134-141,共8页
针对三维海洋环境水下自主航行器(AUV)路径规划问题,传统的路径规划算法在三维空间中搜索时间长,对环境的依赖性强,且环境发生改变时,需要重新规划路径,不满足实时性要求。为了使AUV能够自主学习场景并做出决策,提出一种改进的Dueling ... 针对三维海洋环境水下自主航行器(AUV)路径规划问题,传统的路径规划算法在三维空间中搜索时间长,对环境的依赖性强,且环境发生改变时,需要重新规划路径,不满足实时性要求。为了使AUV能够自主学习场景并做出决策,提出一种改进的Dueling DQN算法,更改了传统的网络结构以适应AUV路径规划场景。此外,针对路径规划在三维空间中搜寻目标点困难的问题,在原有的优先经验回放池基础上提出了经验蒸馏回放池,使智能体学习失败经验从而提高模型前期的收敛速度和稳定性。仿真实验结果表明:所提出的算法比传统路径规划算法具有更高的实时性,规划路径更短,在收敛速度和稳定性方面都优于标准的DQN算法。 展开更多
关键词 自主水下航行器(AUV) 三维路径规划 深度强化学习 dueling DQN算法
下载PDF
空气污染和700万成人中的死亡率:荷兰环境纵向研究(DUELS)
17
作者 Paul H.Fischer Marten Marra Caroline B.Ameling Gerard Hoek Rob Beelen Kees de Hoogh 《环境与职业医学》 CAS CSCD 北大核心 2015年第12期1141-1141,共1页
[背景]一些城市队列研究已经表明空气污染长期暴露与死亡率相关联。但利用包括非城市人群的大规模人口登记数据分析这种关联的研究却很少。[目的]基于现有的国家数据库,评估荷兰空气污染长期暴露与非意外和死因别死亡率之间的关联。[方... [背景]一些城市队列研究已经表明空气污染长期暴露与死亡率相关联。但利用包括非城市人群的大规模人口登记数据分析这种关联的研究却很少。[目的]基于现有的国家数据库,评估荷兰空气污染长期暴露与非意外和死因别死亡率之间的关联。[方法]使用荷兰现有的有关死亡率、个体特征、居住历史、社区特征以及全国空气污染地图的数据库,其中全国空气污染地图是基于土地利用回归(LUR)技术,并针对空气动力学直径≤10μm(PM10)的颗粒物和二氧化氮(NO2)。使用这些数据库建立一个710万人的队列,且队列中研究对象的年龄均≥30岁。跟踪这一队列7年(2004—2011年),采用Cox比例风险模型校正潜在的个体和区域特定的混杂因素。[结果]校正个人和区域特定的混杂因素后,PM10和NO2每增加10μg/m3与非意外死亡[分别为危险比(HR)=1.08,95%CI:1.07~1.09;HR=1.03,95%CI:1.02~1.03]、呼吸系统死亡(分别为HR=1.13,95%CI:1.10~1.17;HR=1.02,95%CI:1.01~1.03)和肺癌死亡(分别为HR=1.26,95%CI:1.21~1.30;HR=1.10,95%CI:1.09~1.11)相关联。此外,PM_(10)与循环系统疾病死亡率(HR=1.06,95%CI:1.04~1.08)相关,但NO_2与其没有关联(HR=1.00,95%CI:0.99~1.01)。在校正了NO_2之后,PM_(10)的关联表现稳健;在校正了PM_(10)之后,NO^2与非意外死亡率和肺癌死亡率间的关联仍然存在。[结论]PM_(10)和NO_2长期暴露与荷兰30岁以上人群的非意外死亡率和死因别死亡率有关联。 展开更多
关键词 空气污染 DUELS 动力学直径 意外死亡 城市人群 模型校正 循环系统疾病 人口登记 混杂因素 个体特征
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部