期刊文献+
共找到239篇文章
< 1 2 12 >
每页显示 20 50 100
基于改进DQN算法的无人仓多AGV路径规划
1
作者 谢勇 郑绥君 +1 位作者 程念胜 朱洪君 《工业工程》 2024年第1期36-44,53,共10页
针对无人仓中多AGV路径规划与冲突问题,以最小化总行程时间为目标,建立多AGV路径规划模型,提出一种基于动态决策的改进DQN算法。算法设计了基于单AGV静态路径规划的经验知识模型,指导AGV的学习探索方向,提前规避冲突与障碍物,加快算法... 针对无人仓中多AGV路径规划与冲突问题,以最小化总行程时间为目标,建立多AGV路径规划模型,提出一种基于动态决策的改进DQN算法。算法设计了基于单AGV静态路径规划的经验知识模型,指导AGV的学习探索方向,提前规避冲突与障碍物,加快算法收敛。同时提出基于总行程时间最短的冲突消解策略,从根本上解决多AGV路径冲突与死锁问题。最后,建立无人仓栅格地图进行仿真实验。结果表明,本文提出的模型和算法较其他DQN算法收敛速度提升13.3%,平均损失值降低26.3%。这说明该模型和算法有利于规避和化解无人仓多AGV路径规划冲突,减少多AGV总行程时间,对提高无人仓作业效率具有重要指导意义。 展开更多
关键词 多AGV 路径规划 dqn算法 经验知识 冲突消解
下载PDF
基于DQN和功率分配的FDA-MIMO雷达抗扫频干扰
2
作者 周长霖 王春阳 +3 位作者 宫健 谭铭 包磊 刘明杰 《雷达科学与技术》 北大核心 2024年第2期155-160,169,共7页
频率分集阵列(Frequency Diversity Array,FDA)雷达由于其阵列元件的频率增量产生了许多新的特性,包括其可以通过发射功率分配进行灵活的发射波形频谱控制。在以扫频干扰为电磁干扰环境的假设下,首先,通过引入强化学习的框架,建立了频... 频率分集阵列(Frequency Diversity Array,FDA)雷达由于其阵列元件的频率增量产生了许多新的特性,包括其可以通过发射功率分配进行灵活的发射波形频谱控制。在以扫频干扰为电磁干扰环境的假设下,首先,通过引入强化学习的框架,建立了频率分集阵列-多输入多输出(Frequency Diversity Array-Multiple Input Multiple Output,FDA-MIMO)雷达与电磁干扰环境交互模型,使得FDA-MIMO雷达能够在与电磁环境交互过程中,感知干扰抑制干扰。其次,本文提出了一种基于深度Q网络(Deep Q-Network,DQN)和FDA-MIMO雷达发射功率分配的扫频干扰抑制方法,使得雷达系统能够在充分利用频谱资源的情况下最大化SINR。最后,仿真结果证实,在强化学习框架下,FDA-MIMO雷达能够通过对发射功率分配进行优化,完成干扰抑制,提升雷达性能。 展开更多
关键词 频率分集阵列 扫频干扰 强化学习 深度Q网络 功率分配
下载PDF
基于Dueling DQN算法的列车运行图节能优化研究
3
作者 刘飞 唐方慧 +3 位作者 刘琳婷 胡文斌 哈进兵 钱程 《都市快轨交通》 北大核心 2024年第2期39-46,共8页
通过优化地铁时刻表可有效降低地铁牵引能耗。为解决客流波动和车辆延误对实际节能率影响的问题,提出列车牵引和供电系统实时潮流计算分析模型和基于Dueling Deep Q Network(Dueling DQN)深度强化学习算法相结合的运行图节能优化方法,... 通过优化地铁时刻表可有效降低地铁牵引能耗。为解决客流波动和车辆延误对实际节能率影响的问题,提出列车牵引和供电系统实时潮流计算分析模型和基于Dueling Deep Q Network(Dueling DQN)深度强化学习算法相结合的运行图节能优化方法,建立基于区间动态客流概率统计的时刻表迭代优化模型,降低动态客流变化对节能率的影响。对预测Q网络和目标Q网络分别选取自适应时刻估计和均方根反向传播方法,提高模型收敛快速性,同时以时刻表优化前、后总运行时间不变、乘客换乘时间和等待时间最小为优化目标,实现节能时刻表无感切换。以苏州轨道交通4号线为例验证方法的有效性,节能对比试验结果表明:在到达换乘站时刻偏差不超过2 s和列车全周转运行时间不变的前提下,列车牵引节能率达5.27%,车公里能耗下降4.99%。 展开更多
关键词 城市轨道交通 时刻表优化 牵引节能 Dueling dqn 动态客流
下载PDF
基于改进分层DQN算法的智能体路径规划
4
作者 杨尚志 张刚 +1 位作者 陈跃华 何小龙 《计算机应用与软件》 北大核心 2024年第5期226-232,239,共8页
针对智能体使用DQN(Deep Q Network)算法进行路径规划时存在收敛速度慢、Q值难以准确描述动作好坏的问题,提出一种优化DQN模型结构的分层DQN算法。该算法建立的激励层和动作层叠加生成更为准确的Q值,用于选择最优动作,使整个网络的抗干... 针对智能体使用DQN(Deep Q Network)算法进行路径规划时存在收敛速度慢、Q值难以准确描述动作好坏的问题,提出一种优化DQN模型结构的分层DQN算法。该算法建立的激励层和动作层叠加生成更为准确的Q值,用于选择最优动作,使整个网络的抗干扰能力更强。仿真结果表明,智能体使用分层DQN算法的收敛速度更快,从而验证了算法的有效性。 展开更多
关键词 分层dqn 神经网络 强化学习 路径规划
下载PDF
基于补偿标准差的DQN风险调控交易策略
5
作者 符甲鑫 刘磊 《计算机应用与软件》 北大核心 2024年第3期141-146,共6页
针对传统交易策略无法在复杂的市场条件下取得稳定收益的问题,提出基于补偿标准差的DQN风险调控交易策略。通过融合历史行情和技术指标数据,采用卷积神经网络提取数据特征,判断交易信号,并利用累积补偿标准差计算具有风险调控作用的奖... 针对传统交易策略无法在复杂的市场条件下取得稳定收益的问题,提出基于补偿标准差的DQN风险调控交易策略。通过融合历史行情和技术指标数据,采用卷积神经网络提取数据特征,判断交易信号,并利用累积补偿标准差计算具有风险调控作用的奖励函数,有效地提升策略的自适应能力。该策略对沪深300指数2015年至2019年进行交易实验,在2019年测试阶段,策略年收益达到16.13%,胜率为54.62%,夏普比率为15.91%。 展开更多
关键词 智能体 dqn 累计补偿 定量交易 期货市场
下载PDF
未知环境下基于Dueling DQN的无人机路径规划研究
6
作者 赵恬恬 孔建国 +1 位作者 梁海军 刘晨宇 《现代计算机》 2024年第5期37-43,共7页
为有效解决无人机在未知环境下的路径规划问题,提出一种基于Dueling DQN的路径规划方法。首先,在DQN的基础上,引入对抗网络架构,从而更好地提高成功率;其次,设计状态空间并定义离散化的动作和适当的奖励函数以引导无人机学习最优路径;... 为有效解决无人机在未知环境下的路径规划问题,提出一种基于Dueling DQN的路径规划方法。首先,在DQN的基础上,引入对抗网络架构,从而更好地提高成功率;其次,设计状态空间并定义离散化的动作和适当的奖励函数以引导无人机学习最优路径;最后在仿真环境中对DQN和Dueling DQN展开训练,结果表明:①Dueling DQN能规划出未知环境下从初始点到目标点的无碰撞路径,且能获得更高的奖励值;②经过50000次训练,Dueling DQN的成功率比DQN提高17.71%,碰撞率减少1.57%,超过最长步长率降低16.14%。 展开更多
关键词 无人机 路径规划 深度强化学习 Dueling dqn算法
下载PDF
基于DQN的多智能体深度强化学习运动规划方法
7
作者 史殿习 彭滢璇 +3 位作者 杨焕焕 欧阳倩滢 张玉晖 郝锋 《计算机科学》 CSCD 北大核心 2024年第2期268-277,共10页
DQN方法作为经典的基于价值的深度强化学习方法,在多智能体运动规划等领域得到了广泛应用。然而,DQN方法面临一系列挑战,例如,DQN会过高估计Q值,计算Q值较为复杂,神经网络没有历史记忆能力,使用ε-greedy策略进行探索效率较低等。针对... DQN方法作为经典的基于价值的深度强化学习方法,在多智能体运动规划等领域得到了广泛应用。然而,DQN方法面临一系列挑战,例如,DQN会过高估计Q值,计算Q值较为复杂,神经网络没有历史记忆能力,使用ε-greedy策略进行探索效率较低等。针对这些问题,提出了一种基于DQN的多智能体深度强化学习运动规划方法,该方法可以帮助智能体学习到高效稳定的运动规划策略,无碰撞地到达目标点。首先,在DQN方法的基础上,提出了基于Dueling的Q值计算优化机制,将Q值的计算方式改进为计算状态值和优势函数值,并根据当前正在更新的Q值网络的参数选择最优动作,使得Q值的计算更加简单准确;其次,提出了基于GRU的记忆机制,引入了GRU模块,使得网络可以捕捉时序信息,具有处理智能体历史信息的能力;最后,提出了基于噪声的有效探索机制,通过引入参数化的噪声,改变了DQN中的探索方式,提高了智能体的探索效率,使得多智能体系统达到探索-利用的平衡状态。在PyBullet仿真平台的6种不同的仿真场景中进行了测试,实验结果表明,所提方法可以使多智能体团队进行高效协作,无碰撞地到达各自目标点,且策略训练过程稳定。 展开更多
关键词 多智能体系统 运动规划 深度强化学习 dqn方法
下载PDF
基于改进DQN的移动机器人避障路径规划
8
作者 田箫源 董秀成 《中国惯性技术学报》 EI CSCD 北大核心 2024年第4期406-416,共11页
针对一般强化学习方法下机器人在避障路径规划上学习时间长、探索能力差和奖励稀疏等问题,提出了一种基于改进深度Q网络(DQN)的移动机器人避障路径规划。首先在传统DQN算法基础上设计了障碍学习规则,避免对同一障碍重复学习,提升学习效... 针对一般强化学习方法下机器人在避障路径规划上学习时间长、探索能力差和奖励稀疏等问题,提出了一种基于改进深度Q网络(DQN)的移动机器人避障路径规划。首先在传统DQN算法基础上设计了障碍学习规则,避免对同一障碍重复学习,提升学习效率和成功率。其次提出奖励优化方法,利用状态间的访问次数差异给予奖励,平衡状态点的访问次数,避免过度访问;同时通过计算与目标点的欧氏距离,使其偏向于选择接近目标的路径,并取消远离目标惩罚,实现奖励机制的自适应优化。最后设计了动态探索因子函数,在后期训练中侧重利用强化学习策略选取动作和学习,提高算法性能和学习效率。实验仿真结果显示,与传统DQN算法相比,改进算法在训练时间上缩短了40.25%,避障成功率上提升了79.8%以及路径长度上缩短了2.25%,均体现了更好的性能。 展开更多
关键词 移动机器人 dqn算法 路径规划 避障 深度强化学习
下载PDF
基于DQN算法的泵站供水系统节能控制优化
9
作者 陈财会 张天 +3 位作者 黄健康 金典 王卓悦 张小磊 《净水技术》 CAS 2024年第4期60-67,127,共9页
针对手动调节泵站中水泵运行的转速和启停会造成严重的能量浪费问题,引入基于深度Q网络(deep Q-learning network,DQN)的强化学习算法,通过获取当前泵组运行的状态,自动优化水泵组工作时各个水泵的运行参数,在各个水泵均处于高效区的前... 针对手动调节泵站中水泵运行的转速和启停会造成严重的能量浪费问题,引入基于深度Q网络(deep Q-learning network,DQN)的强化学习算法,通过获取当前泵组运行的状态,自动优化水泵组工作时各个水泵的运行参数,在各个水泵均处于高效区的前提下,提高水泵组的整体效率。对水泵组状态优化问题分别进行了数学描述和马尔可夫决策过程描述。同时定义了水泵组运行时的状态空间、动作空间和即时奖励值,构建DQN网络,并以深圳市M水厂为算例,在由Gym构建的自定义仿真环境中进行验证。相较于人工调控,DQN算法调控降低了8.84%的损失能耗,一年可节省吨水电耗达1.27×10^(-2) kW·h/t,实现了节能减排,具有良好的经济效能。同时,DQN算法可通过在线学习的方式适应供水环境的变化,具有自主性、实时性、可推广性等优点。 展开更多
关键词 泵站供水 优化调度 dqn算法 马尔可夫决策过程 节能减排
下载PDF
Transformer-Aided Deep Double Dueling Spatial-Temporal Q-Network for Spatial Crowdsourcing Analysis
10
作者 Yu Li Mingxiao Li +2 位作者 Dongyang Ou Junjie Guo Fangyuan Pan 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第4期893-909,共17页
With the rapid development ofmobile Internet,spatial crowdsourcing has becomemore andmore popular.Spatial crowdsourcing consists of many different types of applications,such as spatial crowd-sensing services.In terms ... With the rapid development ofmobile Internet,spatial crowdsourcing has becomemore andmore popular.Spatial crowdsourcing consists of many different types of applications,such as spatial crowd-sensing services.In terms of spatial crowd-sensing,it collects and analyzes traffic sensing data from clients like vehicles and traffic lights to construct intelligent traffic prediction models.Besides collecting sensing data,spatial crowdsourcing also includes spatial delivery services like DiDi and Uber.Appropriate task assignment and worker selection dominate the service quality for spatial crowdsourcing applications.Previous research conducted task assignments via traditional matching approaches or using simple network models.However,advanced mining methods are lacking to explore the relationship between workers,task publishers,and the spatio-temporal attributes in tasks.Therefore,in this paper,we propose a Deep Double Dueling Spatial-temporal Q Network(D3SQN)to adaptively learn the spatialtemporal relationship between task,task publishers,and workers in a dynamic environment to achieve optimal allocation.Specifically,D3SQNis revised through reinforcement learning by adding a spatial-temporal transformer that can estimate the expected state values and action advantages so as to improve the accuracy of task assignments.Extensive experiments are conducted over real data collected fromDiDi and ELM,and the simulation results verify the effectiveness of our proposed models. 展开更多
关键词 Historical behavior analysis spatial crowdsourcing deep double dueling q-networks
下载PDF
基于D-DQN强化学习算法的双足机器人智能控制研究
11
作者 李丽霞 陈艳 《计算机测量与控制》 2024年第3期181-187,共7页
针对现有双足机器人智能控制算法存在的轨迹偏差大、效率低等问题,提出了一种基于D-DQN强化学习的控制算法;先分析双足机器人运动中的坐标变换关系和关节连杆补偿过程,然后基于Q值网络实现对复杂运动非线性过程降维处理,采用了Q值网络... 针对现有双足机器人智能控制算法存在的轨迹偏差大、效率低等问题,提出了一种基于D-DQN强化学习的控制算法;先分析双足机器人运动中的坐标变换关系和关节连杆补偿过程,然后基于Q值网络实现对复杂运动非线性过程降维处理,采用了Q值网络权值和辅助权值的双网络权值设计方式,进一步强化DQN网络性能,并以Tanh函数作为神经网络的激活函数,提升DQN网络的数值训练能力;在数据训练和交互中经验回放池发挥出关键的辅助作用,通过将奖励值输入到目标函数中,进一步提升对双足机器人的控制精度,最后通过虚拟约束控制的方式提高双足机器人运动中的稳定性;实验结果显示:在D-DQN强化学习的控制算法,机器人完成第一阶段测试的时间仅为115 s,综合轨迹偏差0.02 m,而且步态切换极限环测试的稳定性良好。 展开更多
关键词 D-dqn 强化学习 双足机器人 智能控制 经验回放池 虚拟约束控制
下载PDF
面向无人艇的T-DQN智能避障算法研究
12
作者 周治国 余思雨 +3 位作者 于家宝 段俊伟 陈龙 陈俊龙 《自动化学报》 EI CAS CSCD 北大核心 2023年第8期1645-1655,共11页
无人艇(Unmanned surface vehicle, USV)作为一种具有广泛应用前景的无人系统,其自主决策能力尤为关键.由于水面运动环境较为开阔,传统避障决策算法难以在量化规则下自主规划最优路线,而一般强化学习方法在大范围复杂环境下难以快速收敛... 无人艇(Unmanned surface vehicle, USV)作为一种具有广泛应用前景的无人系统,其自主决策能力尤为关键.由于水面运动环境较为开阔,传统避障决策算法难以在量化规则下自主规划最优路线,而一般强化学习方法在大范围复杂环境下难以快速收敛.针对这些问题,提出一种基于阈值的深度Q网络避障算法(Threshold deep Q network, T-DQN),在深度Q网络(Deep Q network, DQN)基础上增加长短期记忆网络(Long short-term memory, LSTM)来保存训练信息,并设定经验回放池阈值加速算法的收敛.通过在不同尺度的栅格环境中进行实验仿真,实验结果表明, T-DQN算法能快速地收敛到最优路径,其整体收敛步数相比Q-learning算法和DQN算法,分别减少69.1%和24.8%,引入的阈值筛选机制使整体收敛步数降低41.1%.在Unity 3D强化学习仿真平台,验证了复杂地图场景下的避障任务完成情况,实验结果表明,该算法能实现无人艇的精细化避障和智能安全行驶. 展开更多
关键词 无人艇 强化学习 智能避障 深度Q网络
下载PDF
超密集网络中基于改进DQN的接入选择算法
13
作者 唐宏 刘小洁 +1 位作者 甘陈敏 陈榕 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2023年第5期107-113,共7页
在超密集网络环境中,各个接入点密集部署在热点区域,构成了复杂的异构网络,用户需要选择接入合适的网络以获得最好的性能。如何为用户选择最优的网络,使用户自身或网络性能达到最佳,称为网络接入选择问题。为了解决超密集网络中用户的... 在超密集网络环境中,各个接入点密集部署在热点区域,构成了复杂的异构网络,用户需要选择接入合适的网络以获得最好的性能。如何为用户选择最优的网络,使用户自身或网络性能达到最佳,称为网络接入选择问题。为了解决超密集网络中用户的接入选择问题,综合考虑网络状态、用户偏好以及业务类型,结合负载均衡策略,提出了一种基于改进深度Q网络(deep Q network,DQN)的超密集网络接入选择算法。首先,通过分析网络属性和用户业务的偏好对网络选择的影响,选择合适的网络参数作为接入选择算法的参数;其次,将网络接入选择问题利用马尔可夫决策过程建模,分别对模型中的状态、动作和奖励函数进行设计;最后,利用DQN求解选网模型,得到最优选网策略。此外,为了避免DQN过高估计Q值,对传统DQN的目标函数进行优化,并且在训练神经网络时,引入了优先经验回放机制以提升学习效率。仿真结果表明,所提算法能够解决传统DQN的高估问题,加快神经网络的收敛,有效减少用户的阻塞,并改善网络的吞吐能力。 展开更多
关键词 超密集网络 接入选择 深度Q网络(dqn) 优先经验回放 负载均衡
下载PDF
面向煤矿救援机器人路径规划的重回放机制DQN算法
14
作者 吴东领 魏群 刘心军 《煤炭技术》 CAS 北大核心 2023年第5期237-240,共4页
煤矿井下环境复杂,现有煤矿救援机器人路径规划算法存在收敛性差及平滑性能弱等不足。提出一种面向煤矿救援机器人路径规划的重回放机制和动态贪婪策略结合的DQN算法。首先,通过DQN网络训练得到的输出值替换原来的Q值表,并采用重回放机... 煤矿井下环境复杂,现有煤矿救援机器人路径规划算法存在收敛性差及平滑性能弱等不足。提出一种面向煤矿救援机器人路径规划的重回放机制和动态贪婪策略结合的DQN算法。首先,通过DQN网络训练得到的输出值替换原来的Q值表,并采用重回放机制,从而避免陷入维度灾难和改善算法的收敛性;其次,采用一种动态的贪婪搜索策略,选择出当前最佳的执行动作,打破样本之间的关联性,不断探索环境信息选择最优路径。最后,利用拓展邻域的位移模式,缩短搜索距离从而提升规划路径的平滑性能。仿真结果表明:提出的算法性能对比DQN算法在煤矿救援机器人规划路径指标性能上获得较大提升,从而保障了煤矿救援机器人实际作业时的高效运行。 展开更多
关键词 煤矿救援机器人 路径规划 dqn网络训练 重回放机制 收敛性
下载PDF
基于DQN算法的支线集装箱船航线规划与配载协同优化方法
15
作者 李俊 肖笛 +1 位作者 温想 赵雅洁 《交通信息与安全》 CSCD 北大核心 2023年第6期132-141,共10页
针对支线集装箱船运输中喂给港数和靠泊条件不一,以及集装箱船队船型多样的特点,考虑航线规划与配载环节在实际运输过程中的紧密联系,研究支线集装箱船航线规划与配载协同优化方法。采用两阶段分层方法研究航线规划与集装箱配载问题,设... 针对支线集装箱船运输中喂给港数和靠泊条件不一,以及集装箱船队船型多样的特点,考虑航线规划与配载环节在实际运输过程中的紧密联系,研究支线集装箱船航线规划与配载协同优化方法。采用两阶段分层方法研究航线规划与集装箱配载问题,设置多个港口、不同船型及其贝位和堆栈组合、不同尺寸集装箱的集合,并确定其间基本关系,实现两阶段优化过程的完整性和连续性。第一阶段以航线总运营成本最小为目标建立船舶航线规划模型,第二阶段从主贝计划角度出发进行配载优化,确认集装箱与堆栈的对应关系,以船舶混装堆栈数最小为目标建立船舶配载模型,保证船舶稳性在航线任意时段均满足要求,并减少堆栈混装数量,提高到港作业效率。为实现模型高效求解,基于深度强化学习的Deep Q-learning Network(DQN)算法架构,设计了航线规划与配载决策对应的马尔可夫过程,结合问题自身特征分别完成强化学习智能体状态空间、动作空间以及奖励函数设计,构建了两阶段分层求解的DQN算法。实验结果表明:随着船舶数量和船舶装载率的增加,模型精确求解的时间大幅增加,部分算例无法在600 s内完成求解,而DQN算法可实现快速求解;与模型及粒子群优化(Particle Swarm Optimization,PSO)算法相比,DQN算法可高效求解不同规模下的算例,大规模算例求解最大耗时31.40 s,平均耗时30 s以内,求解效率较好;进一步计算表明,不同喂给港数量下PSO算法在求解时间上的平均标准差为11.20,而DQN算法平均标准差仅为1.74,鲁棒性更好。总体来看,DQN算法在求解时间上随问题规模变化而产生的波动较小,具有更加稳定的求解性能,可实现高效寻优。 展开更多
关键词 支线集装箱船运输 航线规划 集装箱配载 深度强化学习 dqn算法
下载PDF
基于改进DQN算法的机器人路径规划 被引量:1
16
作者 李奇儒 耿霞 《计算机工程》 CAS CSCD 北大核心 2023年第12期111-120,共10页
传统深度Q网络(DQN)算法通过融合深度神经网络和强化学习方法,解决了Q-learning算法在应对复杂环境时出现的维数灾难问题,被广泛应用于移动机器人的路径规划,但传统DQN算法的网络收敛速度较慢,路径规划效果较差,难以在较少的训练回合内... 传统深度Q网络(DQN)算法通过融合深度神经网络和强化学习方法,解决了Q-learning算法在应对复杂环境时出现的维数灾难问题,被广泛应用于移动机器人的路径规划,但传统DQN算法的网络收敛速度较慢,路径规划效果较差,难以在较少的训练回合内获取最优路径。为了解决上述问题,提出一种改进的ERDQN算法。通过记录重复状态出现的频率,利用该频率重新计算Q值,使得在网络训练的过程中一种状态重复出现的次数越多,下一次出现该状态的概率越低,从而提高机器人对环境的探索能力,在一定程度上降低了网络收敛于局部最优的风险,减少了网络收敛的训练回合。根据机器人移动方向和机器人与目标点的距离,重新设计奖励函数。机器人在靠近目标点时能够获得正奖励,远离目标点时能够获得负奖励,并通过当前机器人的移动方向和机器人与目标点的距离调整奖励的绝对值,从而使机器人能够在避开障碍物的前提下规划出更优路径。实验结果表明,与DQN算法相比,ERDQN算法的平均得分提高了18.9%,规划出的路径长度和回合数减少了约20.1%和500。上述结果证明了ERDQN算法能够有效提高网络收敛速度及路径规划性能。 展开更多
关键词 深度Q网络算法 路径规划 深度强化学习 状态探索 奖励函数 避障
下载PDF
基于输出层具有噪声的DQN的无人车路径规划 被引量:2
17
作者 李杨 闫冬梅 刘磊 《应用数学和力学》 CSCD 北大核心 2023年第4期450-460,共11页
在DQN算法的框架下,研究了无人车路径规划问题.为提高探索效率,将处理连续状态的DQN算法加以变化地应用到离散状态,同时为平衡探索与利用,选择仅在DQN网络输出层添加噪声,并设计了渐进式奖励函数,最后在Gazebo仿真环境中进行实验.仿真... 在DQN算法的框架下,研究了无人车路径规划问题.为提高探索效率,将处理连续状态的DQN算法加以变化地应用到离散状态,同时为平衡探索与利用,选择仅在DQN网络输出层添加噪声,并设计了渐进式奖励函数,最后在Gazebo仿真环境中进行实验.仿真结果表明:①该策略能快速规划出从初始点到目标点的无碰撞路线,与Q-learning算法、DQN算法和noisynet_DQN算法相比,该文提出的算法收敛速度更快;②该策略关于初始点、目标点、障碍物具有泛化能力,验证了其有效性与鲁棒性. 展开更多
关键词 深度强化学习 无人车 dqn算法 Gauss噪声 路径规划 Gazebo仿真
下载PDF
改进DQN算法在WSNs资源分配中的应用 被引量:1
18
作者 郑岚 徐丽萍 《成都工业学院学报》 2023年第6期56-60,共5页
无线传感器网络(WSNs)资源分配不均,容易引起网络服务中断或假警报等情况发生。为此提出一种改进的深度Q网络(DQN)算法,以提升WSNs资源的分配效率。首先搭建WSNs拓扑结构,并给出WSNs的网络属性,基于误码率最小化、网络链路容量最大化、... 无线传感器网络(WSNs)资源分配不均,容易引起网络服务中断或假警报等情况发生。为此提出一种改进的深度Q网络(DQN)算法,以提升WSNs资源的分配效率。首先搭建WSNs拓扑结构,并给出WSNs的网络属性,基于误码率最小化、网络链路容量最大化、资源分配负载均衡度最大化、网络节点能耗最小化等复合条件,建立目标函数及约束条件的多目标优化模型。然后,针对DQN算法的过估计问题和随机经验回放机制进行改进,利用改进DQN算法求取多目标优化模型最优解,得出WSNs资源分配方案。结果表明:与传统分配方案相比,改进DQN资源分配方案的传输延迟更低,节点总能耗更小,具有更好的实际应用效果。 展开更多
关键词 改进dqn算法 无线传感器网络 多目标优化模型 网络资源 分配方案
下载PDF
基于DQN和K-means聚类算法的天然气站场仪表智能识别研究 被引量:2
19
作者 黄知坤 文炜 +4 位作者 刘明 张香怡 刘凯书 黄腾 顾继俊 《计算机测量与控制》 2023年第5期300-308,共9页
天然气站场中的仪表是工人和设备交互的窗口,可以反映工厂的运行状况;但是站场很多老式仪表不能远程读取示数,采用人工方法读取则浪费人力,需要对其进行智能化的读数研究;针对上述问题,采用了一种基于四足机器人作为载体运动控制,并通... 天然气站场中的仪表是工人和设备交互的窗口,可以反映工厂的运行状况;但是站场很多老式仪表不能远程读取示数,采用人工方法读取则浪费人力,需要对其进行智能化的读数研究;针对上述问题,采用了一种基于四足机器人作为载体运动控制,并通过深度强化学习(DQN)进行目标追踪任务和图像处理来读取仪表示数的新方法;首先通过改进的DQN算法的深度网络模型,根据仿真的环境中机器人学习效果,设计并调整动作奖励函数,设计机器人顶层决策控制系统;实现一维与二维状态参数输入下的仪表目标追踪任务;其次在仪表定位和仪表配准的基础上,通过K-means聚类二值化处理得到刻度分明的表盘;将图像进行内切圆处理,再在图像中间添加一根指针进行旋转,旋转过程中精确计算指针与表盘重合度最高的角度来得到对应刻度;经过实验表明,此算法可实现运动过程中仪表目标的精准追踪和降低计算时间,并大大提高了仪表追踪与识别的精度和效率,为天然气站场的仪表安全监控提供了有效保障。 展开更多
关键词 dqn 目标追踪 仪表读数 K-MEANS聚类 仪表安全监控
下载PDF
基于DQN的旋翼无人机着陆控制算法
20
作者 唐进 梁彦刚 +1 位作者 白志会 黎克波 《系统工程与电子技术》 EI CSCD 北大核心 2023年第5期1451-1460,共10页
针对无人机的着陆控制问题,研究了一种基于深度强化学习理论的旋翼无人机着陆控制算法。利用深度强化学习训练生成无人机智能体,根据观测结果给出动作指令,以实现自主着陆控制。首先,基于随机过程理论,将旋翼无人机的着陆控制问题转化... 针对无人机的着陆控制问题,研究了一种基于深度强化学习理论的旋翼无人机着陆控制算法。利用深度强化学习训练生成无人机智能体,根据观测结果给出动作指令,以实现自主着陆控制。首先,基于随机过程理论,将旋翼无人机的着陆控制问题转化为马尔可夫决策过程。其次,设计分别考虑无人机横向和纵向控制过程的奖励函数,将着陆控制问题转入强化学习框架。然后,采用深度Q网络(deep Q network,DQN)算法求解该强化学习问题,通过大量训练得到着陆控制智能体。最后,通过多种工况下的着陆平台进行大量的数值模拟和仿真分析,验证了算法的有效性。 展开更多
关键词 深度强化学习 马尔可夫决策过程 深度Q网络算法 旋翼无人机 着陆控制
下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部