期刊文献+
共找到36篇文章
< 1 2 >
每页显示 20 50 100
基于深度强化学习的IRS辅助无线传感网充电策略研究
1
作者 白义倩 刘韬 +1 位作者 杨晋 张亮 《传感器与微系统》 北大核心 2025年第1期11-16,共6页
无线可充电传感器网络(WRSNs)广泛应用于许多领域,然而,传感器节点的电池容量有限阻碍了其发展。借助无线能量传输技术,引入智能反射面(IRS)对传感器节点进行无线充电已成为延长WRSNs寿命的一项有前景的技术。但在大规模WRSNs环境中,传... 无线可充电传感器网络(WRSNs)广泛应用于许多领域,然而,传感器节点的电池容量有限阻碍了其发展。借助无线能量传输技术,引入智能反射面(IRS)对传感器节点进行无线充电已成为延长WRSNs寿命的一项有前景的技术。但在大规模WRSNs环境中,传统强化学习方法会遇到维度灾难而导致学习效率低下,于是提出了一种无模型深度强化学习(DRL)的WRSNs能量传输方案。首先,研究如何对IRS的相位偏移进行优化,来补充传感器能量供应的问题,使得目标节点处的接收功率最大化;基于上述相移优化,在WRSNs中以IRS作为智能体,结合传感器实时状态,设计基于DRL的高效充电算法,采用不同的双网络结构解决传统DRL算法会存在的过估计问题,克服大规模网络下强化学习计算量过大和学习效率下降的问题。仿真结果表明:该算法能够达到显著降低节点失效率并最大程度地延长WRSNs生命周期的目的。 展开更多
关键词 无线传感器网络 智能反射面 相位偏移优化 深度强化学习 网络结构
下载PDF
基于深度强化学习和隐私保护的群智感知动态任务分配策略
2
作者 傅彦铭 陆盛林 +1 位作者 陈嘉元 覃华 《信息网络安全》 CSCD 北大核心 2024年第3期449-461,共13页
在移动群智感知(Mobile Crowd Sensing,MCS)中,动态任务分配的结果对提高系统效率和确保数据质量至关重要。然而,现有的大部分研究在处理动态任务分配时,通常将其简化为二分匹配模型,该简化模型未充分考虑任务属性与工人属性对匹配结果... 在移动群智感知(Mobile Crowd Sensing,MCS)中,动态任务分配的结果对提高系统效率和确保数据质量至关重要。然而,现有的大部分研究在处理动态任务分配时,通常将其简化为二分匹配模型,该简化模型未充分考虑任务属性与工人属性对匹配结果的影响,同时忽视了工人位置隐私的保护问题。针对这些不足,文章提出一种基于深度强化学习和隐私保护的群智感知动态任务分配策略。该策略首先通过差分隐私技术为工人位置添加噪声,保护工人隐私;然后利用深度强化学习方法自适应地调整任务批量分配;最后使用基于工人任务执行能力阈值的贪婪算法计算最优策略下的平台总效用。在真实数据集上的实验结果表明,该策略在不同参数设置下均能保持优越的性能,同时有效地保护了工人的位置隐私。 展开更多
关键词 群智感知 深度强化学习 隐私保护 深度Q网络 能力阈值贪婪算法
下载PDF
基于深度强化学习的图书分拣车的路径规划
3
作者 陈玥 《现代电子技术》 北大核心 2024年第19期161-168,共8页
针对图书智能分拣系统中的分拣车路径规划问题,提出一种基于深度强化学习框架和竞争双深度Q网络路径规划算法。将分拣车的路径规划问题构建成马尔可夫决策过程,然后通过结合竞争Q网络和双深度Q网络构建竞争双深度Q网络(D3QN),进而在避... 针对图书智能分拣系统中的分拣车路径规划问题,提出一种基于深度强化学习框架和竞争双深度Q网络路径规划算法。将分拣车的路径规划问题构建成马尔可夫决策过程,然后通过结合竞争Q网络和双深度Q网络构建竞争双深度Q网络(D3QN),进而在避免过估计的同时,优化网络结构。最后,通过设计智能代理的状态、动作和奖励函数,并采用动态ε-贪婪算法和衰减式学习率策略,使智能代理能够快速地选择最优动作,缩短完成预定卸载的移动路径,降低碰撞障碍物的概率。仿真结果表明,相比于基于竞争Q网络、双深度Q网络和深度Q网络的路径规划算法,提出的基于D3QN方法所规划的路径更短、碰撞率更低。 展开更多
关键词 自动分拣 机器人 路径规划 深度强化学习 竞争深度Q网络 马尔可夫决策
下载PDF
基于深度强化学习的测井曲线自动深度校正方法 被引量:3
4
作者 熊文君 肖立志 +1 位作者 袁江如 岳文正 《石油勘探与开发》 EI CAS CSCD 北大核心 2024年第3期553-564,共12页
针对传统测井曲线深度校正需要手动调整曲线,而对于多口井的深度校正工作量巨大,需要大量人工参与,且工作效率较低的问题,提出一种多智能体深度强化学习方法(MARL)来实现多条测井曲线自动深度匹配。该方法基于卷积神经网络(CNN)定义多... 针对传统测井曲线深度校正需要手动调整曲线,而对于多口井的深度校正工作量巨大,需要大量人工参与,且工作效率较低的问题,提出一种多智能体深度强化学习方法(MARL)来实现多条测井曲线自动深度匹配。该方法基于卷积神经网络(CNN)定义多个自上而下的双滑动窗口捕捉测井曲线上相似的特征序列,并设计一个智能体与环境的互动机制来控制深度匹配过程。通过双深度Q学习网络(DDQN)选取一个动作来平移或缩放测井特征序列,并利用反馈的奖励信号来评估每个动作的好坏,以学习到最优的控制策略达到提升深度校正精度的目的。研究表明,MARL方法可以自动完成多口井、不同测井曲线的深度校正任务,减少人工干预。在油田实例应用中,对比分析了动态时间规整(DTW)、深度Q学习网络(DQN)和DDQN等方法的测试结果,DDQN算法采用双网络评估机制有效改进了算法的性能,能够识别和对齐测井曲线特征序列上更多的细节,具有较高的深度匹配精度。 展开更多
关键词 人工智能 机器学习 深度校正 测井曲线 多智能体深度强化学习 卷积神经网络 深度Q学习网络
下载PDF
基于双深度Q网络算法的多用户端对端能源共享机制研究
5
作者 武东昊 王国烽 +2 位作者 毛毳 陈玉萍 张有兵 《高技术通讯》 CAS 北大核心 2024年第7期755-764,共10页
端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷... 端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷变动问题。为此,本文建立了一种以多类型用户为基础的多用户P2P能源社区交易模型,并引入基于双深度Q网络(DDQN)的强化学习(RL)算法对其进行求解。所提方法通过DDQN算法中的预测网络以及目标网络读取多用户P2P能源社区中的环境信息,训练后的神经网络可通过实时的光伏、负荷以及电价数据对当前社区内的多用户P2P交易问题进行求解。案例仿真结果表明,所提方法在促进社区内用户间P2P能源交易共享的同时,保证了多用户P2P能源社区的经济性。 展开更多
关键词 端对端(P2P)能源共享 强化学习(RL) 能源交易市场 深度Q网络(ddqn)算法
下载PDF
双Q网络学习的迁移强化学习算法 被引量:4
6
作者 曾睿 周建 +2 位作者 刘满禄 张俊俊 陈卓 《计算机应用研究》 CSCD 北大核心 2021年第6期1699-1703,共5页
深度强化学习在训练过程中会探索大量环境样本,造成算法收敛时间过长,而重用或传输来自先前任务(源任务)学习的知识,对算法在新任务(目标任务)的学习具有提高算法收敛速度的潜力。为了提高算法学习效率,提出一种双Q网络学习的迁移强化... 深度强化学习在训练过程中会探索大量环境样本,造成算法收敛时间过长,而重用或传输来自先前任务(源任务)学习的知识,对算法在新任务(目标任务)的学习具有提高算法收敛速度的潜力。为了提高算法学习效率,提出一种双Q网络学习的迁移强化学习算法,其基于actor-critic框架迁移源任务最优值函数的知识,使目标任务中值函数网络对策略作出更准确的评价,引导策略快速向最优策略方向更新。将该算法用于Open AI Gym以及在三维空间机械臂到达目标物位置的实验中,相比于常规深度强化学习算法取得了更好的效果,实验证明提出的双Q网络学习的迁移强化学习算法具有较快的收敛速度,并且在训练过程中算法探索更加稳定。 展开更多
关键词 深度强化学习 Q网络学习 actor-critic框架 迁移学习
下载PDF
深度强化学习下连续和离散相位RIS毫米波通信
7
作者 胡浪涛 杨瑞 +3 位作者 刘全金 吴建岚 嵇文 吴磊 《电子科技大学学报》 EI CAS CSCD 北大核心 2024年第1期50-59,共10页
在分布式智能反射面(RIS)辅助多用户毫米波(mmWave)系统中,利用深度强化学习(DRL)理论学习并调整基站发射波束赋形矩阵和RIS相位偏转矩阵,联合优化发射波束赋形和相位偏转,实现加权和速率最大化。即在离散动作空间中,设计了功率码本与... 在分布式智能反射面(RIS)辅助多用户毫米波(mmWave)系统中,利用深度强化学习(DRL)理论学习并调整基站发射波束赋形矩阵和RIS相位偏转矩阵,联合优化发射波束赋形和相位偏转,实现加权和速率最大化。即在离散动作空间中,设计了功率码本与相位码本,提出了用深度Q网络(DQN)算法进行优化发射波束赋形与RIS相位偏转矩阵;在连续动作空间中,采用双延迟策略梯度(TD3)算法进行优化发射波束赋形与RIS相位偏转矩阵。仿真分析比较了在不同码本比特数下离散动作空间和连续动作空间下系统的加权和速率。与传统的凸优化算法以及迫零波束赋形随机相位偏转算法进行了对比,强化学习算法的和速率性能有明显提升,连续的TD3算法的和速率超过凸优化算法23.89%,在码本比特数目为4时,离散的DQN算法性能也优于传统的凸优化算法。 展开更多
关键词 深度Q网络(DQN) 深度强化学习 延迟策略梯度 毫米波 智能反射面
下载PDF
基于深度强化学习的机器人导航算法研究 被引量:1
8
作者 熊李艳 舒垚淞 +1 位作者 曾辉 黄晓辉 《华东交通大学学报》 2023年第1期67-74,共8页
移动机器人穿越动态密集人群时,由于对环境信息理解不充分,导致机器人导航效率低且泛化能力弱。针对这一问题,提出了一种双重注意深度强化学习算法。首先,对稀疏的奖励函数进行优化,引入距离惩罚项和舒适性距离,保证机器人趋近目标的同... 移动机器人穿越动态密集人群时,由于对环境信息理解不充分,导致机器人导航效率低且泛化能力弱。针对这一问题,提出了一种双重注意深度强化学习算法。首先,对稀疏的奖励函数进行优化,引入距离惩罚项和舒适性距离,保证机器人趋近目标的同时兼顾导航的安全性;其次,设计了一种基于双重注意力的状态价值网络处理环境信息,保证机器人导航系统兼具环境理解能力与实时决策能力;最后,在仿真环境中对算法进行验证。实验结果表明,提出的算法不仅提高了机器人导航效率还提升了导航系统的鲁棒性,主要表现为:在500个随机的测试场景中,碰撞次数和超时次数均为0,导航成功率优于对比算法,且平均导航时间比最好的算法缩短了2%;当环境中行人数量、导航距离发生变化时算法依然有效,且导航时间短于对比算法。 展开更多
关键词 深度强化学习 奖励函数 状态价值网络 重注意力
下载PDF
基于竞争双深度Q网络的动态频谱接入 被引量:3
9
作者 梁燕 惠莹 《电讯技术》 北大核心 2022年第12期1715-1721,共7页
针对多信道动态频谱接入问题,建立了存在感知错误与接入碰撞的复杂信道场景,提出了一种结合双深度Q网络和竞争Q网络的竞争双深度Q网络学习框架。双深度Q网络将动作的选择和评估分别用不同值函数实现,解决了值函数的过估计问题,而竞争Q... 针对多信道动态频谱接入问题,建立了存在感知错误与接入碰撞的复杂信道场景,提出了一种结合双深度Q网络和竞争Q网络的竞争双深度Q网络学习框架。双深度Q网络将动作的选择和评估分别用不同值函数实现,解决了值函数的过估计问题,而竞争Q网络解决了神经网络结构优化问题。该方案保证每个次要用户根据感知和回报结果做出频谱接入决策。仿真结果表明,在同时存在感知错误和次要用户冲突的多信道情况下,竞争双深度Q网络相比于同类方法具有较好的损失预测模型,其回报更稳定且提高了4%。 展开更多
关键词 认知无线电 频谱感知 动态频谱接入 深度强化学习 竞争深度Q网络
下载PDF
基于竞争双深度Q网络的频谱感知和接入 被引量:1
10
作者 梁燕 胡垚林 惠莹 《电讯技术》 北大核心 2023年第11期1661-1669,共9页
认知用户通过频谱感知和接入过程识别频谱状态并占用空闲频谱,可有效利用频谱资源。针对频谱感知中存在感知错误和频谱接入中存在用户碰撞的问题,首先建立多用户多信道模型,设计频谱感知和频谱接入过程;然后通过结合双深度Q网络和竞争Q... 认知用户通过频谱感知和接入过程识别频谱状态并占用空闲频谱,可有效利用频谱资源。针对频谱感知中存在感知错误和频谱接入中存在用户碰撞的问题,首先建立多用户多信道模型,设计频谱感知和频谱接入过程;然后通过结合双深度Q网络和竞争Q网络,设计竞争双深度Q网络,解决过估计问题的同时优化网络结构;最后通过智能体与所设计模型中状态、观测、回报和策略的交互,完成使用竞争双深度Q网络解决频谱感知和接入问题的一体化研究。仿真结果表明,相比于已有深度强化学习方法,使用竞争双深度Q网络得到的数值结果更稳定且感知正确率和信道利用率都提高了4%。 展开更多
关键词 频谱感知 频谱接入 深度强化学习 竞争深度Q网络
下载PDF
基于深度强化学习的主动配电网高恢复力决策方法 被引量:10
11
作者 罗欣儿 杜进桥 +4 位作者 田杰 刘安迪 王标 李妍 王少荣 《南方电网技术》 CSCD 北大核心 2022年第1期67-74,共8页
随着全球极端天气事件频发,电力系统在极端自然灾害下恢复力的研究日益受到关注。本文提出基于深度强化学习的高恢复力决策方法,将极端灾害下配电网运行状态和线路故障状态作为观测状态集合,自学习智能体Agent在当前环境观测状态下寻求... 随着全球极端天气事件频发,电力系统在极端自然灾害下恢复力的研究日益受到关注。本文提出基于深度强化学习的高恢复力决策方法,将极端灾害下配电网运行状态和线路故障状态作为观测状态集合,自学习智能体Agent在当前环境观测状态下寻求可行的决策策略进行动作,定义自学习Agent的回报函数以进行动作评价;采用观测状态数据,开展基于竞争深度Q网络(dueling deep Q network,DDQN)的深度强化学习(deep reinforcement learning,DRL)训练,智能体Agent通过试错学习方式选择动作,试错经验在估值函数Q矩阵中存储,实现状态到主动配电网实时故障恢复策略的非线性映射;最后结合改进的IEEE 33节点算例,基于蒙特卡罗法仿真随机故障场景,对所提出方法生成的故障恢复随机优化决策进行分析。结果表明:通过主动配电网的分布式电源、联络开关和可中断负荷的协调优化控制,可以有效提升极端灾害下供电能力。 展开更多
关键词 马尔科夫决策过程 竞争深度Q网络(ddqn) 深度强化学习(DRL) 高恢复力 配电网
下载PDF
基于权重值的竞争深度双Q网络算法 被引量:5
12
作者 汪晨曦 赵学艳 郭新 《南京信息工程大学学报(自然科学版)》 CAS 北大核心 2021年第5期564-570,共7页
在深度强化学习中,深度Q网络算法存在严重高估动作值问题,使得智能体的表现不尽人意.尽管深度双Q网络和竞争网络结构可以部分缓解高估带来的影响,但引入双Q网络的同时,有时也会低估动作值.本文提出了一种基于权重值的竞争深度双Q网络算... 在深度强化学习中,深度Q网络算法存在严重高估动作值问题,使得智能体的表现不尽人意.尽管深度双Q网络和竞争网络结构可以部分缓解高估带来的影响,但引入双Q网络的同时,有时也会低估动作值.本文提出了一种基于权重值的竞争深度双Q网络算法(Weighted Dueling Double Deep Q-Network,WD3QN),把改进的双估计器及竞争网络结构结合至深度Q网络中,将学习到的可能动作值进行加权产生最终动作值,有效减少估计误差.最后,将算法应用于Open AI Gym平台上的CartPole经典控制问题,仿真结果显示:与已有算法对比,本算法有更好的学习效果,收敛性和训练速度均有提升. 展开更多
关键词 深度强化学习 深度Q网络 竞争网络结构 权重值
下载PDF
基于深度循环双Q网络的无人机避障算法研究 被引量:3
13
作者 魏瑶 刘志成 +3 位作者 蔡彬 陈家新 杨尧 张凯 《西北工业大学学报》 EI CAS CSCD 北大核心 2022年第5期970-979,共10页
针对传统强化学习方法在机器运动规划领域,尤其是无人机避障问题上存在价值函数过度估计以及部分可观测性导致网络训练过程中训练时间长、难以收敛的问题,提出一种基于深度循环双Q网络的无人机避障算法。通过将单网络结构变换为双网络结... 针对传统强化学习方法在机器运动规划领域,尤其是无人机避障问题上存在价值函数过度估计以及部分可观测性导致网络训练过程中训练时间长、难以收敛的问题,提出一种基于深度循环双Q网络的无人机避障算法。通过将单网络结构变换为双网络结构,解耦最优动作选择和动作价值估计降低价值函数过度估计;在双网络模块的全连接层引入GRU循环神经网络模块,利用GRU处理时间维度信息,增强真实神经网络的可分析性,提高算法在部分可观察环境中的性能。在此基础上,结合强化学习优先经验回放机制加快网络收敛。在仿真环境中分别对原有算法以及改进算法进行测试,实验结果表明,该算法在训练时间、避障成功率以及鲁棒性方面均有更好的性能。 展开更多
关键词 深度强化学习 无人机 避障 循环神经网络 ddqn
下载PDF
基于深度强化学习的股市操盘手模型研究 被引量:2
14
作者 韩道岐 张钧垚 +1 位作者 周玉航 刘青 《计算机工程与应用》 CSCD 北大核心 2020年第21期145-153,共9页
股票市场具有变化快、干扰因素多、周期数据不足等特点,股票交易是一种不完全信息下的博弈过程,单目标的监督学习模型很难处理这类序列化决策问题。强化学习是解决该类问题的有效途径之一。提出了基于深度强化学习的智能股市操盘手模型I... 股票市场具有变化快、干扰因素多、周期数据不足等特点,股票交易是一种不完全信息下的博弈过程,单目标的监督学习模型很难处理这类序列化决策问题。强化学习是解决该类问题的有效途径之一。提出了基于深度强化学习的智能股市操盘手模型ISTG(Intelligent Stock Trader and Gym),融合历史行情数据、技术指标、宏观经济指标等多数据类型,分析评判标准和优秀控制策略,加工长周期数据,实现可增量扩展不同类型数据的复盘模型,自动计算回报标签,训练智能操盘手,并提出直接利用行情数据计算单步确定性动作值的方法。采用中国股市1400多支的有10年以上数据的股票进行多种对比实验,ISTG的总体收益达到13%,优于买入持有总体−7%的表现。 展开更多
关键词 深度强化学习 价值网络的深度强化学习(ddqn) 单步确定性动作值 量化策略
下载PDF
基于深度强化学习的单臂机器人末端姿态控制 被引量:4
15
作者 范振 陈乃建 +4 位作者 董春超 张来伟 包佳伟 李亚辉 李映君 《济南大学学报(自然科学版)》 CAS 北大核心 2022年第5期616-625,634,共11页
基于双延迟深度确定性策略梯度算法对单臂机器人倒立摆在Simulink软件环境中进行仿真,并与深度确定性策略梯度算法进行比较,验证该算法的控制精度以及在机器人控制中的应用可行性;建立单臂机器人倒立摆仿真模型,添加摩擦模型,并以单臂... 基于双延迟深度确定性策略梯度算法对单臂机器人倒立摆在Simulink软件环境中进行仿真,并与深度确定性策略梯度算法进行比较,验证该算法的控制精度以及在机器人控制中的应用可行性;建立单臂机器人倒立摆仿真模型,添加摩擦模型,并以单臂机器人参数辨识所得的实际参数对所建立的仿真模型加以约束,提高实际应用时的控制精度与实时性;在训练过程中对摆杆随机施加一定数值范围内的干扰力,提高训练模型的抗干扰能力;根据所建立仿真模型的特点设计、改进Actor-Critic网络及奖励函数,在短时间内以较小的控制力使末端摆杆从初始状态摆动至竖直状态并持续保持。结果表明,改进的双延迟深度确定性策略梯度算法可以在减小输出控制力的同时对机械臂末端姿态实现并保持精准控制,并且在受到干扰力时可自行调整,改善了训练模型的鲁棒性与适应性,减少了运行时间。 展开更多
关键词 机器人控制 延迟深度确定性策略梯度算法 强化学习 卷积神经网络 倒立摆系统
下载PDF
基于深度强化学习的雷达智能决策生成算法 被引量:1
16
作者 赵家琛 张劲东 李梓瑜 《现代雷达》 CSCD 北大核心 2022年第12期25-33,共9页
针对雷达系统面临的干扰场景复杂多变、人工设计抗干扰策略性能难以保证以及实时性不高的问题,构建了基于深度强化学习的智能决策生成模型,设计了有针对性的动作集、状态集和奖励函数。同时提出了基于双深度Q网络(DDQN)的决策网络训练算... 针对雷达系统面临的干扰场景复杂多变、人工设计抗干扰策略性能难以保证以及实时性不高的问题,构建了基于深度强化学习的智能决策生成模型,设计了有针对性的动作集、状态集和奖励函数。同时提出了基于双深度Q网络(DDQN)的决策网络训练算法,用于克服深度Q网络(DQN)算法中目标网络与评估网络相耦合导致Q值的过估计。仿真结果表明:与DQN、Q学习、人工制定策略与遍历策略库等方法相比,文中所设计的智能决策模型和训练方法对干扰的抑制效果好,泛化能力更强,反应时间更快,有效地提升了雷达自主决策能力。 展开更多
关键词 雷达智能决策 深度强化学习 深度Q网络 深度Q网络
下载PDF
基于协作式深度强化学习的火灾应急疏散仿真研究 被引量:5
17
作者 倪凌佳 黄晓霞 +1 位作者 李红旮 张子博 《系统仿真学报》 CAS CSCD 北大核心 2022年第6期1353-1366,共14页
火灾是威胁公共安全的主要灾害之一,火灾产生的高温和有毒有害烟气严重影响了疏散路径的选择。将深度强化学习引入到应急疏散仿真研究,针对多智能体环境提出了协作式双深度Q网络算法。建立随时间动态变化的火灾场景模型,为人员疏散提供... 火灾是威胁公共安全的主要灾害之一,火灾产生的高温和有毒有害烟气严重影响了疏散路径的选择。将深度强化学习引入到应急疏散仿真研究,针对多智能体环境提出了协作式双深度Q网络算法。建立随时间动态变化的火灾场景模型,为人员疏散提供实时的危险区域分布信息;对各自独立的智能体神经网络进行整合,建立多智能体统一的深度神经网络,实现所有智能体之间的神经网络和经验共享,提高整体协作疏散效率。结果表明:所提方法具有良好的稳定性和适应性,训练和学习效率得到提升,具有良好的应用价值。 展开更多
关键词 协作式深度Q网络算法 深度强化学习 多智能体系统 应急疏散仿真 火灾场景仿真
下载PDF
基于深度强化学习的节能工艺路线发现方法
18
作者 陶鑫钰 王艳 纪志成 《智能系统学报》 CSCD 北大核心 2023年第1期23-35,共13页
由于传统基于固定加工环境的工艺路线制定规则,无法快速响应加工环境的动态变化制定节能工艺路线。因此提出了基于深度Q网络(deep Q network,DQN)的节能工艺路线发现方法。基于马尔可夫决策过程,定义状态向量、动作空间、奖励函数,建立... 由于传统基于固定加工环境的工艺路线制定规则,无法快速响应加工环境的动态变化制定节能工艺路线。因此提出了基于深度Q网络(deep Q network,DQN)的节能工艺路线发现方法。基于马尔可夫决策过程,定义状态向量、动作空间、奖励函数,建立节能工艺路线模型,并将加工环境动态变化的节能工艺路线规划问题,转化为DQN智能体决策问题,利用决策经验的可复用性和可扩展性,进行求解,同时为了提高DQN的收敛速度和解的质量,提出了基于S函数探索机制和加权经验池,并使用了双Q网络。仿真结果表明,相比较改进前,改进后的算法在动态加工环境中能够更快更好地发现节能工艺路线;与遗传算法、模拟退火算法以及粒子群算法相比,改进后的算法不仅能够以最快地速度发现节能工艺路线,而且能得到相同甚至更高精度的解。 展开更多
关键词 深度强化学习 深度Q网络 动态加工环境 工艺路线 马尔可夫决策过程 智能体决策 Q网络 启发式算法
下载PDF
基于深度双Q网络的多用户蜂窝网络功率分配算法研究 被引量:1
19
作者 王伟 殷爽爽 《计算机应用研究》 CSCD 北大核心 2021年第5期1498-1502,共5页
针对现有蜂窝网络功率分配算法存在泛化能力弱、效率低等问题进行了研究,提出基于深度双Q网络(deep double Q network,DDQN)的功率分配算法。采用双神经网络结构,解决强化学习过程中易出现的维度灾难及值函数过估计问题;对状态信息进行... 针对现有蜂窝网络功率分配算法存在泛化能力弱、效率低等问题进行了研究,提出基于深度双Q网络(deep double Q network,DDQN)的功率分配算法。采用双神经网络结构,解决强化学习过程中易出现的维度灾难及值函数过估计问题;对状态信息进行设计并输入神经网络,输出智能体的动作行为,并设计奖赏函数反馈给神经网络,使智能体可以有效地自主学习,多次迭代得到最优的功率分配策略。仿真结果表明,所提的模型可获得的平均速率为1.89,平均运行时间为0.0013 s,在不同用户密度及小区数量下均可达到最高的平均速率,验证了算法的有效性,为蜂窝网络资源分配问题提供了新的思路。 展开更多
关键词 蜂窝网络 干扰多址信道 功率分配 深度强化学习 深度Q网络
下载PDF
优先状态估计的双深度Q网络
20
作者 张鑫 张席 《计算机工程与应用》 CSCD 北大核心 2021年第8期78-83,共6页
深度强化学习探索问题中,需要根据环境给予的外部奖赏以作出决策,而在稀疏奖赏环境下,训练初期将获取不到任何信息,且在训练后期难以动态地结合已获得的信息对探索策略进行调整。为缓解这个问题,提出优先状态估计方法,在对状态进行访问... 深度强化学习探索问题中,需要根据环境给予的外部奖赏以作出决策,而在稀疏奖赏环境下,训练初期将获取不到任何信息,且在训练后期难以动态地结合已获得的信息对探索策略进行调整。为缓解这个问题,提出优先状态估计方法,在对状态进行访问时给予优先值,结合外部奖赏一并存入经验池中,引导探索的策略方向。结合DDQN(Double Deep Q Network)与优先经验回放,在OpenAI Gym中的MountainCar经典控制问题与Atari 2600中的FreeWay游戏中进行对比实验,结果表明该方法在稀疏奖赏环境中具有更好的学习性能,取得了更高的平均分数。 展开更多
关键词 强化学习 状态估计 深度Q网络 深度Q网络
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部