期刊文献+
共找到242篇文章
< 1 2 13 >
每页显示 20 50 100
基于改进DQN算法的无人仓多AGV路径规划 被引量:1
1
作者 谢勇 郑绥君 +1 位作者 程念胜 朱洪君 《工业工程》 2024年第1期36-44,53,共10页
针对无人仓中多AGV路径规划与冲突问题,以最小化总行程时间为目标,建立多AGV路径规划模型,提出一种基于动态决策的改进DQN算法。算法设计了基于单AGV静态路径规划的经验知识模型,指导AGV的学习探索方向,提前规避冲突与障碍物,加快算法... 针对无人仓中多AGV路径规划与冲突问题,以最小化总行程时间为目标,建立多AGV路径规划模型,提出一种基于动态决策的改进DQN算法。算法设计了基于单AGV静态路径规划的经验知识模型,指导AGV的学习探索方向,提前规避冲突与障碍物,加快算法收敛。同时提出基于总行程时间最短的冲突消解策略,从根本上解决多AGV路径冲突与死锁问题。最后,建立无人仓栅格地图进行仿真实验。结果表明,本文提出的模型和算法较其他DQN算法收敛速度提升13.3%,平均损失值降低26.3%。这说明该模型和算法有利于规避和化解无人仓多AGV路径规划冲突,减少多AGV总行程时间,对提高无人仓作业效率具有重要指导意义。 展开更多
关键词 多AGV 路径规划 dqn算法 经验知识 冲突消解
下载PDF
基于Dueling DQN算法的列车运行图节能优化研究
2
作者 刘飞 唐方慧 +3 位作者 刘琳婷 胡文斌 哈进兵 钱程 《都市快轨交通》 北大核心 2024年第2期39-46,共8页
通过优化地铁时刻表可有效降低地铁牵引能耗。为解决客流波动和车辆延误对实际节能率影响的问题,提出列车牵引和供电系统实时潮流计算分析模型和基于Dueling Deep Q Network(Dueling DQN)深度强化学习算法相结合的运行图节能优化方法,... 通过优化地铁时刻表可有效降低地铁牵引能耗。为解决客流波动和车辆延误对实际节能率影响的问题,提出列车牵引和供电系统实时潮流计算分析模型和基于Dueling Deep Q Network(Dueling DQN)深度强化学习算法相结合的运行图节能优化方法,建立基于区间动态客流概率统计的时刻表迭代优化模型,降低动态客流变化对节能率的影响。对预测Q网络和目标Q网络分别选取自适应时刻估计和均方根反向传播方法,提高模型收敛快速性,同时以时刻表优化前、后总运行时间不变、乘客换乘时间和等待时间最小为优化目标,实现节能时刻表无感切换。以苏州轨道交通4号线为例验证方法的有效性,节能对比试验结果表明:在到达换乘站时刻偏差不超过2 s和列车全周转运行时间不变的前提下,列车牵引节能率达5.27%,车公里能耗下降4.99%。 展开更多
关键词 城市轨道交通 时刻表优化 牵引节能 Dueling dqn 动态客流
下载PDF
基于改进分层DQN算法的智能体路径规划
3
作者 杨尚志 张刚 +1 位作者 陈跃华 何小龙 《计算机应用与软件》 北大核心 2024年第5期226-232,239,共8页
针对智能体使用DQN(Deep Q Network)算法进行路径规划时存在收敛速度慢、Q值难以准确描述动作好坏的问题,提出一种优化DQN模型结构的分层DQN算法。该算法建立的激励层和动作层叠加生成更为准确的Q值,用于选择最优动作,使整个网络的抗干... 针对智能体使用DQN(Deep Q Network)算法进行路径规划时存在收敛速度慢、Q值难以准确描述动作好坏的问题,提出一种优化DQN模型结构的分层DQN算法。该算法建立的激励层和动作层叠加生成更为准确的Q值,用于选择最优动作,使整个网络的抗干扰能力更强。仿真结果表明,智能体使用分层DQN算法的收敛速度更快,从而验证了算法的有效性。 展开更多
关键词 分层dqn 神经网络 强化学习 路径规划
下载PDF
基于Dueling Double DQN的交通信号控制方法
4
作者 叶宝林 陈栋 +2 位作者 刘春元 陈滨 吴维敏 《计算机测量与控制》 2024年第7期154-161,共8页
为了提高交叉口通行效率缓解交通拥堵,深入挖掘交通状态信息中所包含的深层次隐含特征信息,提出了一种基于Dueling Double DQN(D3QN)的单交叉口交通信号控制方法;构建了一个基于深度强化学习Double DQN(DDQN)的交通信号控制模型,对动作... 为了提高交叉口通行效率缓解交通拥堵,深入挖掘交通状态信息中所包含的深层次隐含特征信息,提出了一种基于Dueling Double DQN(D3QN)的单交叉口交通信号控制方法;构建了一个基于深度强化学习Double DQN(DDQN)的交通信号控制模型,对动作-价值函数的估计值和目标值迭代运算过程进行了优化,克服基于深度强化学习DQN的交通信号控制模型存在收敛速度慢的问题;设计了一个新的Dueling Network解耦交通状态和相位动作的价值,增强Double DQN(DDQN)提取深层次特征信息的能力;基于微观仿真平台SUMO搭建了一个单交叉口模拟仿真框架和环境,开展仿真测试;仿真测试结果表明,与传统交通信号控制方法和基于深度强化学习DQN的交通信号控制方法相比,所提方法能够有效减少车辆平均等待时间、车辆平均排队长度和车辆平均停车次数,明显提升交叉口通行效率。 展开更多
关键词 交通信号控制 深度强化学习 Dueling Double dqn Dueling Network
下载PDF
基于补偿标准差的DQN风险调控交易策略
5
作者 符甲鑫 刘磊 《计算机应用与软件》 北大核心 2024年第3期141-146,共6页
针对传统交易策略无法在复杂的市场条件下取得稳定收益的问题,提出基于补偿标准差的DQN风险调控交易策略。通过融合历史行情和技术指标数据,采用卷积神经网络提取数据特征,判断交易信号,并利用累积补偿标准差计算具有风险调控作用的奖... 针对传统交易策略无法在复杂的市场条件下取得稳定收益的问题,提出基于补偿标准差的DQN风险调控交易策略。通过融合历史行情和技术指标数据,采用卷积神经网络提取数据特征,判断交易信号,并利用累积补偿标准差计算具有风险调控作用的奖励函数,有效地提升策略的自适应能力。该策略对沪深300指数2015年至2019年进行交易实验,在2019年测试阶段,策略年收益达到16.13%,胜率为54.62%,夏普比率为15.91%。 展开更多
关键词 智能体 dqn 累计补偿 定量交易 期货市场
下载PDF
基于DQN算法的农用无人车作业路径规划
6
作者 庄金炜 张晓菲 +1 位作者 尹琪东 陈克 《沈阳理工大学学报》 CAS 2024年第4期32-37,共6页
传统农用无人车作业时常依据人工经验确定作业路线,面对复杂的作业环境时无法保证路径规划的高效性,且传统覆盖路径规划方法聚焦于覆盖率而忽略了车辆作业路线上的损耗。为此,提出一种以减少车辆在路线上的损耗为目标的最优全局覆盖路... 传统农用无人车作业时常依据人工经验确定作业路线,面对复杂的作业环境时无法保证路径规划的高效性,且传统覆盖路径规划方法聚焦于覆盖率而忽略了车辆作业路线上的损耗。为此,提出一种以减少车辆在路线上的损耗为目标的最优全局覆盖路径规划方法。以深度Q网络(DQN)算法为基础,根据作业时车辆的真实轨迹创建奖励策略(RLP),对车辆在路线上的损耗进行优化,减少车辆的转弯数、掉头数及重复作业面积,设计了RLP-DQN算法。仿真实验结果表明,对比遗传算法、A~*算法等传统路径规划方法,本文RLP-DQN算法综合性能较好,可在实现全覆盖路径规划的同时有效减少路线损耗。 展开更多
关键词 农用无人车 路径规划 深度强化学习 dqn算法
下载PDF
未知环境下基于Dueling DQN的无人机路径规划研究
7
作者 赵恬恬 孔建国 +1 位作者 梁海军 刘晨宇 《现代计算机》 2024年第5期37-43,共7页
为有效解决无人机在未知环境下的路径规划问题,提出一种基于Dueling DQN的路径规划方法。首先,在DQN的基础上,引入对抗网络架构,从而更好地提高成功率;其次,设计状态空间并定义离散化的动作和适当的奖励函数以引导无人机学习最优路径;... 为有效解决无人机在未知环境下的路径规划问题,提出一种基于Dueling DQN的路径规划方法。首先,在DQN的基础上,引入对抗网络架构,从而更好地提高成功率;其次,设计状态空间并定义离散化的动作和适当的奖励函数以引导无人机学习最优路径;最后在仿真环境中对DQN和Dueling DQN展开训练,结果表明:①Dueling DQN能规划出未知环境下从初始点到目标点的无碰撞路径,且能获得更高的奖励值;②经过50000次训练,Dueling DQN的成功率比DQN提高17.71%,碰撞率减少1.57%,超过最长步长率降低16.14%。 展开更多
关键词 无人机 路径规划 深度强化学习 Dueling dqn算法
下载PDF
基于DQN和功率分配的FDA-MIMO雷达抗扫频干扰
8
作者 周长霖 王春阳 +3 位作者 宫健 谭铭 包磊 刘明杰 《雷达科学与技术》 北大核心 2024年第2期155-160,169,共7页
频率分集阵列(Frequency Diversity Array,FDA)雷达由于其阵列元件的频率增量产生了许多新的特性,包括其可以通过发射功率分配进行灵活的发射波形频谱控制。在以扫频干扰为电磁干扰环境的假设下,首先,通过引入强化学习的框架,建立了频... 频率分集阵列(Frequency Diversity Array,FDA)雷达由于其阵列元件的频率增量产生了许多新的特性,包括其可以通过发射功率分配进行灵活的发射波形频谱控制。在以扫频干扰为电磁干扰环境的假设下,首先,通过引入强化学习的框架,建立了频率分集阵列-多输入多输出(Frequency Diversity Array-Multiple Input Multiple Output,FDA-MIMO)雷达与电磁干扰环境交互模型,使得FDA-MIMO雷达能够在与电磁环境交互过程中,感知干扰抑制干扰。其次,本文提出了一种基于深度Q网络(Deep Q-Network,DQN)和FDA-MIMO雷达发射功率分配的扫频干扰抑制方法,使得雷达系统能够在充分利用频谱资源的情况下最大化SINR。最后,仿真结果证实,在强化学习框架下,FDA-MIMO雷达能够通过对发射功率分配进行优化,完成干扰抑制,提升雷达性能。 展开更多
关键词 频率分集阵列 扫频干扰 强化学习 深度Q网络 功率分配
下载PDF
基于DQN出价策略的多无人机目标分配拍卖算法
9
作者 陈梓豪 胡春鹤 《聊城大学学报(自然科学版)》 2024年第4期23-32,共10页
为实现多无人机监测目标分配任务匹配度、成功率等收益最大化及路径长度、障碍物碰撞风险等代价最小化,基于数据样本驱动的强化学习方法,提出了一种融合深度Q网络(Deep Q-network,DQN)出价策略的自主进化拍卖算法。首先,构建了多无人机... 为实现多无人机监测目标分配任务匹配度、成功率等收益最大化及路径长度、障碍物碰撞风险等代价最小化,基于数据样本驱动的强化学习方法,提出了一种融合深度Q网络(Deep Q-network,DQN)出价策略的自主进化拍卖算法。首先,构建了多无人机任务目标拍卖的马尔科夫决策模型,并且分别以竞拍者剩余竞拍容量为环境,输出增价因子为动作,前后两轮拍卖收益增幅为回报。其次,构建了新型的DQN出价和竞拍决策神经网络模型。该模型通过构建包含拍卖环境、增价因子、回报等元素的强化学习训练样本库,在拍卖过程中以一种离线学习模式不断训练DQN神经网络,使其按照DQN策略在拍卖过程中,根据拍卖环境输出增价因子,实现拍卖结果收益的优化。最后,通过多无人机多监测目标分配仿真,验证了所提出基于DQN拍卖机制的目标分配方法的有效性。通过与传统拍卖算法结果相比,方法获得的拍卖收益提升21.4%。 展开更多
关键词 多无人机 拍卖算法 dqn 多目标分配 拍卖收益
下载PDF
基于DQN的VDES异构星座兼容策略
10
作者 王雪帆 李宗旺 梁旭文 《中国科学院大学学报(中英文)》 CAS CSCD 北大核心 2024年第4期550-557,共8页
异构VDES(VHF data exchange system)星座采用相同的通信频率和时分多址通信机制,使得异构星座重复覆盖区域内存在大量由时隙冲突造成的同频干扰,严重影响通信质量。针对此问题,提出一种基于深度Q网络(DQN)的星座间兼容策略。基于VDES... 异构VDES(VHF data exchange system)星座采用相同的通信频率和时分多址通信机制,使得异构星座重复覆盖区域内存在大量由时隙冲突造成的同频干扰,严重影响通信质量。针对此问题,提出一种基于深度Q网络(DQN)的星座间兼容策略。基于VDES通信流程,设置船站作为资源信息中转节点,赋予卫星对通信环境的感知能力。在此基础上,将异构星座场景下的资源分配问题建模为强化学习问题,提出一种基于DQN的时隙资源分配算法。通过重构历史资源信息和当前资源信息,规划最优时隙资源分配方案,并根据结果对算法迭代优化。仿真结果表明,所提出的策略可以有效提高通信性能。 展开更多
关键词 VDES dqn 卫星通信 干扰规避 资源分配
下载PDF
基于DQN的多智能体深度强化学习运动规划方法
11
作者 史殿习 彭滢璇 +3 位作者 杨焕焕 欧阳倩滢 张玉晖 郝锋 《计算机科学》 CSCD 北大核心 2024年第2期268-277,共10页
DQN方法作为经典的基于价值的深度强化学习方法,在多智能体运动规划等领域得到了广泛应用。然而,DQN方法面临一系列挑战,例如,DQN会过高估计Q值,计算Q值较为复杂,神经网络没有历史记忆能力,使用ε-greedy策略进行探索效率较低等。针对... DQN方法作为经典的基于价值的深度强化学习方法,在多智能体运动规划等领域得到了广泛应用。然而,DQN方法面临一系列挑战,例如,DQN会过高估计Q值,计算Q值较为复杂,神经网络没有历史记忆能力,使用ε-greedy策略进行探索效率较低等。针对这些问题,提出了一种基于DQN的多智能体深度强化学习运动规划方法,该方法可以帮助智能体学习到高效稳定的运动规划策略,无碰撞地到达目标点。首先,在DQN方法的基础上,提出了基于Dueling的Q值计算优化机制,将Q值的计算方式改进为计算状态值和优势函数值,并根据当前正在更新的Q值网络的参数选择最优动作,使得Q值的计算更加简单准确;其次,提出了基于GRU的记忆机制,引入了GRU模块,使得网络可以捕捉时序信息,具有处理智能体历史信息的能力;最后,提出了基于噪声的有效探索机制,通过引入参数化的噪声,改变了DQN中的探索方式,提高了智能体的探索效率,使得多智能体系统达到探索-利用的平衡状态。在PyBullet仿真平台的6种不同的仿真场景中进行了测试,实验结果表明,所提方法可以使多智能体团队进行高效协作,无碰撞地到达各自目标点,且策略训练过程稳定。 展开更多
关键词 多智能体系统 运动规划 深度强化学习 dqn方法
下载PDF
基于改进DQN的移动机器人避障路径规划
12
作者 田箫源 董秀成 《中国惯性技术学报》 EI CSCD 北大核心 2024年第4期406-416,共11页
针对一般强化学习方法下机器人在避障路径规划上学习时间长、探索能力差和奖励稀疏等问题,提出了一种基于改进深度Q网络(DQN)的移动机器人避障路径规划。首先在传统DQN算法基础上设计了障碍学习规则,避免对同一障碍重复学习,提升学习效... 针对一般强化学习方法下机器人在避障路径规划上学习时间长、探索能力差和奖励稀疏等问题,提出了一种基于改进深度Q网络(DQN)的移动机器人避障路径规划。首先在传统DQN算法基础上设计了障碍学习规则,避免对同一障碍重复学习,提升学习效率和成功率。其次提出奖励优化方法,利用状态间的访问次数差异给予奖励,平衡状态点的访问次数,避免过度访问;同时通过计算与目标点的欧氏距离,使其偏向于选择接近目标的路径,并取消远离目标惩罚,实现奖励机制的自适应优化。最后设计了动态探索因子函数,在后期训练中侧重利用强化学习策略选取动作和学习,提高算法性能和学习效率。实验仿真结果显示,与传统DQN算法相比,改进算法在训练时间上缩短了40.25%,避障成功率上提升了79.8%以及路径长度上缩短了2.25%,均体现了更好的性能。 展开更多
关键词 移动机器人 dqn算法 路径规划 避障 深度强化学习
下载PDF
基于DQN算法的泵站供水系统节能控制优化
13
作者 陈财会 张天 +3 位作者 黄健康 金典 王卓悦 张小磊 《净水技术》 CAS 2024年第4期60-67,127,共9页
针对手动调节泵站中水泵运行的转速和启停会造成严重的能量浪费问题,引入基于深度Q网络(deep Q-learning network,DQN)的强化学习算法,通过获取当前泵组运行的状态,自动优化水泵组工作时各个水泵的运行参数,在各个水泵均处于高效区的前... 针对手动调节泵站中水泵运行的转速和启停会造成严重的能量浪费问题,引入基于深度Q网络(deep Q-learning network,DQN)的强化学习算法,通过获取当前泵组运行的状态,自动优化水泵组工作时各个水泵的运行参数,在各个水泵均处于高效区的前提下,提高水泵组的整体效率。对水泵组状态优化问题分别进行了数学描述和马尔可夫决策过程描述。同时定义了水泵组运行时的状态空间、动作空间和即时奖励值,构建DQN网络,并以深圳市M水厂为算例,在由Gym构建的自定义仿真环境中进行验证。相较于人工调控,DQN算法调控降低了8.84%的损失能耗,一年可节省吨水电耗达1.27×10^(-2) kW·h/t,实现了节能减排,具有良好的经济效能。同时,DQN算法可通过在线学习的方式适应供水环境的变化,具有自主性、实时性、可推广性等优点。 展开更多
关键词 泵站供水 优化调度 dqn算法 马尔可夫决策过程 节能减排
下载PDF
Double DQN Method For Botnet Traffic Detection System
14
作者 Yutao Hu Yuntao Zhao +1 位作者 Yongxin Feng Xiangyu Ma 《Computers, Materials & Continua》 SCIE EI 2024年第4期509-530,共22页
In the face of the increasingly severe Botnet problem on the Internet,how to effectively detect Botnet traffic in realtime has become a critical problem.Although the existing deepQnetwork(DQN)algorithminDeep reinforce... In the face of the increasingly severe Botnet problem on the Internet,how to effectively detect Botnet traffic in realtime has become a critical problem.Although the existing deepQnetwork(DQN)algorithminDeep reinforcement learning can solve the problem of real-time updating,its prediction results are always higher than the actual results.In Botnet traffic detection,although it performs well in the training set,the accuracy rate of predicting traffic is as high as%;however,in the test set,its accuracy has declined,and it is impossible to adjust its prediction strategy on time based on new data samples.However,in the new dataset,its accuracy has declined significantly.Therefore,this paper proposes a Botnet traffic detection system based on double-layer DQN(DDQN).Two Q-values are designed to adjust the model in policy and action,respectively,to achieve real-time model updates and improve the universality and robustness of the model under different data sets.Experiments show that compared with the DQN model,when using DDQN,the Q-value is not too high,and the detectionmodel has improved the accuracy and precision of Botnet traffic.Moreover,when using Botnet data sets other than the test set,the accuracy and precision of theDDQNmodel are still higher than DQN. 展开更多
关键词 dqn Ddqn deep reinforcement learning botnet detection feature classification
下载PDF
无人机辅助智能交通系统中基于C-DQN的信息年龄最小化研究
15
作者 李登治 王宁 《测试技术学报》 2024年第4期371-377,共7页
无人机(Unmanned Aerial Vehicle, UAV)由于高机动性和低运营成本的优势,有望在未来智能交通系统(Intelligent Transportation System, ITS)中被部署为车辆数据收集器。为了保证所采集数据的时效性,以信息年龄(Age of Information, AoI... 无人机(Unmanned Aerial Vehicle, UAV)由于高机动性和低运营成本的优势,有望在未来智能交通系统(Intelligent Transportation System, ITS)中被部署为车辆数据收集器。为了保证所采集数据的时效性,以信息年龄(Age of Information, AoI)来衡量无人机从车辆接收到的数据的新鲜度。因此,提出一种基于信息年龄最小化的无人机辅助智能交通系统方案,通过联合优化无人机轨迹和无人机与车辆的关联策略,最小化所有车辆的信息年龄加权和。将该优化问题建模为一个马尔可夫决策过程(Markov Decision Process,MDP),并采用Curiosity-Driven Deep Q-learning Network(C-DQN)算法来求解。大量仿真结果表明,该算法在探索能力和收益性能方面优于传统Deep Q-learning Network(DQN)算法。 展开更多
关键词 无人机 智能交通系统 信息年龄 马尔可夫决策过程 C-dqn
下载PDF
基于D-DQN强化学习算法的双足机器人智能控制研究
16
作者 李丽霞 陈艳 《计算机测量与控制》 2024年第3期181-187,共7页
针对现有双足机器人智能控制算法存在的轨迹偏差大、效率低等问题,提出了一种基于D-DQN强化学习的控制算法;先分析双足机器人运动中的坐标变换关系和关节连杆补偿过程,然后基于Q值网络实现对复杂运动非线性过程降维处理,采用了Q值网络... 针对现有双足机器人智能控制算法存在的轨迹偏差大、效率低等问题,提出了一种基于D-DQN强化学习的控制算法;先分析双足机器人运动中的坐标变换关系和关节连杆补偿过程,然后基于Q值网络实现对复杂运动非线性过程降维处理,采用了Q值网络权值和辅助权值的双网络权值设计方式,进一步强化DQN网络性能,并以Tanh函数作为神经网络的激活函数,提升DQN网络的数值训练能力;在数据训练和交互中经验回放池发挥出关键的辅助作用,通过将奖励值输入到目标函数中,进一步提升对双足机器人的控制精度,最后通过虚拟约束控制的方式提高双足机器人运动中的稳定性;实验结果显示:在D-DQN强化学习的控制算法,机器人完成第一阶段测试的时间仅为115 s,综合轨迹偏差0.02 m,而且步态切换极限环测试的稳定性良好。 展开更多
关键词 D-dqn 强化学习 双足机器人 智能控制 经验回放池 虚拟约束控制
下载PDF
基于Dueling DQN的临近空间飞行器再入轨迹规划
17
作者 田若岑 刘益吉 +2 位作者 肖涛 张顺家 陆远 《制导与引信》 2024年第2期1-10,共10页
针对临近空间飞行器再入段禁飞区规避制导问题,构建了临近空间飞行器再入过程横侧向制导的马尔可夫决策过程(Markov decision process,MDP)模型。基于竞争深度Q网络(dueling deep Q network,Dueling DQN),设计了横侧向制导律及满足射程... 针对临近空间飞行器再入段禁飞区规避制导问题,构建了临近空间飞行器再入过程横侧向制导的马尔可夫决策过程(Markov decision process,MDP)模型。基于竞争深度Q网络(dueling deep Q network,Dueling DQN),设计了横侧向制导律及满足射程需求与禁飞区规避需求的再入过程奖励函数。经仿真验证,该横侧向制导律能够通过改变倾侧角符号实现禁飞区规避,并导引飞行器到达目标区域,具备较高精度,验证了方法的有效性。 展开更多
关键词 临近空间飞行器 再入轨迹规划 竞争深度Q网络
下载PDF
面向无人艇的T-DQN智能避障算法研究 被引量:1
18
作者 周治国 余思雨 +3 位作者 于家宝 段俊伟 陈龙 陈俊龙 《自动化学报》 EI CAS CSCD 北大核心 2023年第8期1645-1655,共11页
无人艇(Unmanned surface vehicle, USV)作为一种具有广泛应用前景的无人系统,其自主决策能力尤为关键.由于水面运动环境较为开阔,传统避障决策算法难以在量化规则下自主规划最优路线,而一般强化学习方法在大范围复杂环境下难以快速收敛... 无人艇(Unmanned surface vehicle, USV)作为一种具有广泛应用前景的无人系统,其自主决策能力尤为关键.由于水面运动环境较为开阔,传统避障决策算法难以在量化规则下自主规划最优路线,而一般强化学习方法在大范围复杂环境下难以快速收敛.针对这些问题,提出一种基于阈值的深度Q网络避障算法(Threshold deep Q network, T-DQN),在深度Q网络(Deep Q network, DQN)基础上增加长短期记忆网络(Long short-term memory, LSTM)来保存训练信息,并设定经验回放池阈值加速算法的收敛.通过在不同尺度的栅格环境中进行实验仿真,实验结果表明, T-DQN算法能快速地收敛到最优路径,其整体收敛步数相比Q-learning算法和DQN算法,分别减少69.1%和24.8%,引入的阈值筛选机制使整体收敛步数降低41.1%.在Unity 3D强化学习仿真平台,验证了复杂地图场景下的避障任务完成情况,实验结果表明,该算法能实现无人艇的精细化避障和智能安全行驶. 展开更多
关键词 无人艇 强化学习 智能避障 深度Q网络
下载PDF
面向煤矿救援机器人路径规划的重回放机制DQN算法
19
作者 吴东领 魏群 刘心军 《煤炭技术》 CAS 北大核心 2023年第5期237-240,共4页
煤矿井下环境复杂,现有煤矿救援机器人路径规划算法存在收敛性差及平滑性能弱等不足。提出一种面向煤矿救援机器人路径规划的重回放机制和动态贪婪策略结合的DQN算法。首先,通过DQN网络训练得到的输出值替换原来的Q值表,并采用重回放机... 煤矿井下环境复杂,现有煤矿救援机器人路径规划算法存在收敛性差及平滑性能弱等不足。提出一种面向煤矿救援机器人路径规划的重回放机制和动态贪婪策略结合的DQN算法。首先,通过DQN网络训练得到的输出值替换原来的Q值表,并采用重回放机制,从而避免陷入维度灾难和改善算法的收敛性;其次,采用一种动态的贪婪搜索策略,选择出当前最佳的执行动作,打破样本之间的关联性,不断探索环境信息选择最优路径。最后,利用拓展邻域的位移模式,缩短搜索距离从而提升规划路径的平滑性能。仿真结果表明:提出的算法性能对比DQN算法在煤矿救援机器人规划路径指标性能上获得较大提升,从而保障了煤矿救援机器人实际作业时的高效运行。 展开更多
关键词 煤矿救援机器人 路径规划 dqn网络训练 重回放机制 收敛性
下载PDF
超密集网络中基于改进DQN的接入选择算法
20
作者 唐宏 刘小洁 +1 位作者 甘陈敏 陈榕 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2023年第5期107-113,共7页
在超密集网络环境中,各个接入点密集部署在热点区域,构成了复杂的异构网络,用户需要选择接入合适的网络以获得最好的性能。如何为用户选择最优的网络,使用户自身或网络性能达到最佳,称为网络接入选择问题。为了解决超密集网络中用户的... 在超密集网络环境中,各个接入点密集部署在热点区域,构成了复杂的异构网络,用户需要选择接入合适的网络以获得最好的性能。如何为用户选择最优的网络,使用户自身或网络性能达到最佳,称为网络接入选择问题。为了解决超密集网络中用户的接入选择问题,综合考虑网络状态、用户偏好以及业务类型,结合负载均衡策略,提出了一种基于改进深度Q网络(deep Q network,DQN)的超密集网络接入选择算法。首先,通过分析网络属性和用户业务的偏好对网络选择的影响,选择合适的网络参数作为接入选择算法的参数;其次,将网络接入选择问题利用马尔可夫决策过程建模,分别对模型中的状态、动作和奖励函数进行设计;最后,利用DQN求解选网模型,得到最优选网策略。此外,为了避免DQN过高估计Q值,对传统DQN的目标函数进行优化,并且在训练神经网络时,引入了优先经验回放机制以提升学习效率。仿真结果表明,所提算法能够解决传统DQN的高估问题,加快神经网络的收敛,有效减少用户的阻塞,并改善网络的吞吐能力。 展开更多
关键词 超密集网络 接入选择 深度Q网络(dqn) 优先经验回放 负载均衡
下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部