期刊文献+
共找到94篇文章
< 1 2 5 >
每页显示 20 50 100
一种改进的双深度Q网络服务功能链部署算法 被引量:1
1
作者 刘道华 魏丁二 +2 位作者 宣贺君 余长鸣 寇丽博 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2024年第1期52-59,共8页
网络功能虚拟化已成为未来通信网络的关键技术,动态服务功能链的高效部署是提高网络性能迫切需要解决的问题之一。为降低通信网络服务器能量消耗以及改善通信网络服务质量,提出一种改进的双深度Q网络的动态服务功能链部署算法。由于网... 网络功能虚拟化已成为未来通信网络的关键技术,动态服务功能链的高效部署是提高网络性能迫切需要解决的问题之一。为降低通信网络服务器能量消耗以及改善通信网络服务质量,提出一种改进的双深度Q网络的动态服务功能链部署算法。由于网络状态及服务功能链的动态性,首先将服务功能链部署问题建模为马尔可夫决策过程。根据通信网络中资源的状态以及所选择的动作计算奖励函数值,对双深度Q网络进行在线训练,得到最优深度神经网络模型,从而确定最优的在线服务功能链部署策略。为解决传统深度强化学习从经验回放池中采用均匀抽取经验样本而导致神经网络学习效率低的问题,设计一种基于重要性采样的优先级经验回放方法以抽取经验样本,从而有效地避免训练样本之间的高度相关性,进一步提高离线学习神经网络的效率。仿真结果表明,所提出基于改进双深度Q网络的服务功能链部署算法能够提高奖励值,与传统的双深度Q网络算法相比,在能量消耗与阻塞率方面分别降低约19.89%~36.99%与9.52%~16.37%。 展开更多
关键词 服务功能链 马尔科夫决策过程 网络能耗 双深度Q网络
下载PDF
基于双深度Q网络算法的多用户端对端能源共享机制研究
2
作者 武东昊 王国烽 +2 位作者 毛毳 陈玉萍 张有兵 《高技术通讯》 CAS 北大核心 2024年第7期755-764,共10页
端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷... 端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷变动问题。为此,本文建立了一种以多类型用户为基础的多用户P2P能源社区交易模型,并引入基于双深度Q网络(DDQN)的强化学习(RL)算法对其进行求解。所提方法通过DDQN算法中的预测网络以及目标网络读取多用户P2P能源社区中的环境信息,训练后的神经网络可通过实时的光伏、负荷以及电价数据对当前社区内的多用户P2P交易问题进行求解。案例仿真结果表明,所提方法在促进社区内用户间P2P能源交易共享的同时,保证了多用户P2P能源社区的经济性。 展开更多
关键词 端对端(P2P)能源共享 强化学习(RL) 能源交易市场 双深度Q网络(DDQN)算法
下载PDF
基于竞争双深度Q网络的频谱感知和接入
3
作者 梁燕 胡垚林 惠莹 《电讯技术》 北大核心 2023年第11期1661-1669,共9页
认知用户通过频谱感知和接入过程识别频谱状态并占用空闲频谱,可有效利用频谱资源。针对频谱感知中存在感知错误和频谱接入中存在用户碰撞的问题,首先建立多用户多信道模型,设计频谱感知和频谱接入过程;然后通过结合双深度Q网络和竞争Q... 认知用户通过频谱感知和接入过程识别频谱状态并占用空闲频谱,可有效利用频谱资源。针对频谱感知中存在感知错误和频谱接入中存在用户碰撞的问题,首先建立多用户多信道模型,设计频谱感知和频谱接入过程;然后通过结合双深度Q网络和竞争Q网络,设计竞争双深度Q网络,解决过估计问题的同时优化网络结构;最后通过智能体与所设计模型中状态、观测、回报和策略的交互,完成使用竞争双深度Q网络解决频谱感知和接入问题的一体化研究。仿真结果表明,相比于已有深度强化学习方法,使用竞争双深度Q网络得到的数值结果更稳定且感知正确率和信道利用率都提高了4%。 展开更多
关键词 频谱感知 频谱接入 深度强化学习 竞争双深度Q网络
下载PDF
移动边缘网络中基于双深度Q学习的高能效资源分配方法 被引量:9
4
作者 喻鹏 张俊也 +4 位作者 李文璟 周凡钦 丰雷 付澍 邱雪松 《通信学报》 EI CSCD 北大核心 2020年第12期148-161,共14页
为了提升移动边缘网络中系统的能量使用效率,面向多任务、多终端设备、多边缘网关、多边缘服务器共存网络架构的下行通信过程,提出了一种基于双深度Q学习(DDQL)的通信、计算、存储融合资源分配方法。以任务平均能耗最小化为优化目标,设... 为了提升移动边缘网络中系统的能量使用效率,面向多任务、多终端设备、多边缘网关、多边缘服务器共存网络架构的下行通信过程,提出了一种基于双深度Q学习(DDQL)的通信、计算、存储融合资源分配方法。以任务平均能耗最小化为优化目标,设置任务时延和通信、计算、存储资源限制等约束条件,构建了对应的资源分配模型。依据模型特征,基于DDQL框架,提出了适用于通信和计算资源智能决策、存储资源按需分配的资源分配模型和算法。仿真结果表明,所提出的基于DDQL资源分配方法可以有效地解决多任务资源分配问题,具有较好的收敛性和较低的时间复杂度,在保障业务服务质量的同时,相对于基于随机算法、贪心算法、粒子群优化算法、深度Q学习等方法,降低了至少5%的任务平均能耗。 展开更多
关键词 移动边缘网络 融合资源分配 高能效 双深度Q学习
下载PDF
基于竞争双深度Q网络的动态频谱接入 被引量:2
5
作者 梁燕 惠莹 《电讯技术》 北大核心 2022年第12期1715-1721,共7页
针对多信道动态频谱接入问题,建立了存在感知错误与接入碰撞的复杂信道场景,提出了一种结合双深度Q网络和竞争Q网络的竞争双深度Q网络学习框架。双深度Q网络将动作的选择和评估分别用不同值函数实现,解决了值函数的过估计问题,而竞争Q... 针对多信道动态频谱接入问题,建立了存在感知错误与接入碰撞的复杂信道场景,提出了一种结合双深度Q网络和竞争Q网络的竞争双深度Q网络学习框架。双深度Q网络将动作的选择和评估分别用不同值函数实现,解决了值函数的过估计问题,而竞争Q网络解决了神经网络结构优化问题。该方案保证每个次要用户根据感知和回报结果做出频谱接入决策。仿真结果表明,在同时存在感知错误和次要用户冲突的多信道情况下,竞争双深度Q网络相比于同类方法具有较好的损失预测模型,其回报更稳定且提高了4%。 展开更多
关键词 认知无线电 频谱感知 动态频谱接入 深度强化学习 竞争双深度Q网络
下载PDF
双深度多层穿梭车仓储系统并行作业及建模分析 被引量:4
6
作者 占翔南 徐立云 +1 位作者 宓宏 李爱平 《计算机集成制造系统》 EI CSCD 北大核心 2021年第8期2226-2236,共11页
为了解决传统顺序作业方式下,双深度多层穿梭车仓储系统存在的系统响应时间长和作业效率低等问题,在分析提升机和穿梭车并行作业的基础上,提出该类仓储系统的分离—聚合排队网络模型,并设计基于Coxian分布的近似分解算法进行求解。构建... 为了解决传统顺序作业方式下,双深度多层穿梭车仓储系统存在的系统响应时间长和作业效率低等问题,在分析提升机和穿梭车并行作业的基础上,提出该类仓储系统的分离—聚合排队网络模型,并设计基于Coxian分布的近似分解算法进行求解。构建基于分离—聚合点的闭环排队网络模型,将各服务点的一般分布用Coxian分布替代,进而求解分离—聚合点的吞吐率;用单个服务点替代分离—聚合点,得到基于分离—聚合点的开环排队网络模型,并采用最大熵值法求解,得到系统性能指标。以实际案例的4种配置进行分析验证,结果表明所提模型可以较大幅度提升双深度多层穿梭车仓储系统的性能和作业效率。 展开更多
关键词 双深度多层穿梭车仓储系统 并行作业 排队网络模型 Coxian分布
下载PDF
基于竞争双深度Q学习的智能电表隐私保护与成本管理 被引量:4
7
作者 王峥 郭彦 +3 位作者 聂峥 庞振江 臧志成 巩永稳 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2021年第4期554-561,共8页
智能电表能够实时采集、计算、存储和传输电力数据,对智能电网的运转起着关键性的作用。配备储能设备的智能家居是智能电表的一种重要的应用场景,它的发展面临隐私数据泄露隐患和高用电成本2个问题,需要研究两者的权衡优化策略。系统模... 智能电表能够实时采集、计算、存储和传输电力数据,对智能电网的运转起着关键性的作用。配备储能设备的智能家居是智能电表的一种重要的应用场景,它的发展面临隐私数据泄露隐患和高用电成本2个问题,需要研究两者的权衡优化策略。系统模型考虑了2种不同类型的储电设备,并建立了电表数据泄露和用电成本量化的权衡模型。考虑到传统深度强化学习存在过度估计和收敛慢的缺陷,提出一种基于竞争双深度Q学习的储能电器功率分配方法,实现了性能优化的目标。仿真结果表明,对比传统的深度Q学习和双深度Q学习方法,所提方法在隐私保护和成本控制2方面能获得更好的性能。 展开更多
关键词 智能家居 智能电表 功率分配 隐私保护 成本管理 竞争双深度Q学习
下载PDF
优先状态估计的双深度Q网络
8
作者 张鑫 张席 《计算机工程与应用》 CSCD 北大核心 2021年第8期78-83,共6页
深度强化学习探索问题中,需要根据环境给予的外部奖赏以作出决策,而在稀疏奖赏环境下,训练初期将获取不到任何信息,且在训练后期难以动态地结合已获得的信息对探索策略进行调整。为缓解这个问题,提出优先状态估计方法,在对状态进行访问... 深度强化学习探索问题中,需要根据环境给予的外部奖赏以作出决策,而在稀疏奖赏环境下,训练初期将获取不到任何信息,且在训练后期难以动态地结合已获得的信息对探索策略进行调整。为缓解这个问题,提出优先状态估计方法,在对状态进行访问时给予优先值,结合外部奖赏一并存入经验池中,引导探索的策略方向。结合DDQN(Double Deep Q Network)与优先经验回放,在OpenAI Gym中的MountainCar经典控制问题与Atari 2600中的FreeWay游戏中进行对比实验,结果表明该方法在稀疏奖赏环境中具有更好的学习性能,取得了更高的平均分数。 展开更多
关键词 强化学习 状态估计 深度Q网络 双深度Q网络
下载PDF
双频双深度扼流圈天线
9
作者 思人 《导航》 1999年第4期63-66,共4页
美国Javad公司专门为了大地测量系统设计了新的扼流圈天线。两个频率的槽深是不一样的,因为在接地面的每一个同心槽中放置一种特殊隔板,允许它分别对L1和L2两个频率实现最佳化。通过数学模拟,找到了地网的特殊尺寸,槽深小... 美国Javad公司专门为了大地测量系统设计了新的扼流圈天线。两个频率的槽深是不一样的,因为在接地面的每一个同心槽中放置一种特殊隔板,允许它分别对L1和L2两个频率实现最佳化。通过数学模拟,找到了地网的特殊尺寸,槽深小于L2频率的1/4波长,从而改进L2信号的性能。利用双深度同时改进了L1和L2信号的性能。 展开更多
关键词 扼流圈 天线 双深度 GPS 地网
下载PDF
科朗叉车商贸(上海)有限公司RMD系列双深度前移式叉车
10
《现代制造》 2016年第37期76-76,共1页
科朗RMD双深度前移式叉车为行业内最具创新精神的叉车,具有单柱盒式结构的门架,使得叉车获得几乎没有遮挡的操作视野,解决了困扰叉车行业多年的门架视线较差的问题。该款前移式叉车具备比普通前移式叉车更长的前移距离,
关键词 前移式叉车 双深度 RMD 上海 商贸 叉车行业 创新精神 盒式结构
下载PDF
基于双延迟深度确定性策略梯度的受电弓主动控制 被引量:1
11
作者 吴延波 韩志伟 +2 位作者 王惠 刘志刚 张雨婧 《电工技术学报》 EI CSCD 北大核心 2024年第14期4547-4556,共10页
弓网系统耦合性能对于高速列车受流质量起着至关重要的作用,提高弓网耦合性能,一种有效的方法是针对受电弓进行主动控制调节,特别是在低速线路提速及列车多线路混跑时,主动控制可通过提高弓网自适应适配性,有效降低线路改造成本并提升... 弓网系统耦合性能对于高速列车受流质量起着至关重要的作用,提高弓网耦合性能,一种有效的方法是针对受电弓进行主动控制调节,特别是在低速线路提速及列车多线路混跑时,主动控制可通过提高弓网自适应适配性,有效降低线路改造成本并提升受流质量。针对受电弓主动控制问题,该文提出一种基于双延迟深度确定性策略梯度(TD3)的深度强化学习受电弓主动控制算法。通过建立弓网耦合模型实现深度强化学习系统环境模块,利用TD3作为受电弓行为控制策略,最终通过对控制器模型训练实现有效的受电弓控制策略。实验结果表明,运用该文方法可有效提升低速线路列车高速运行时弓网耦合性能及受电弓在多线路运行时的适应性,为铁路线路提速及列车跨线路运行提供新的思路。 展开更多
关键词 低速线路 混跑 延迟深度确定性策略梯度(TD3) 受电弓主动控制
下载PDF
基于乐观探索的双延迟深度确定性策略梯度
12
作者 王浩宇 张衡波 +1 位作者 程玉虎 王雪松 《南京理工大学学报》 CAS CSCD 北大核心 2024年第3期300-309,共10页
双延迟深度确定性策略梯度是深度强化学习的一个主流算法,是一种无模型强化学习,已成功应用于具有挑战性的连续控制任务中。然而,当环境中奖励稀疏或者状态空间较大时,双延迟深度确定性策略梯度的样本效率较差,环境探索能力较弱。针对... 双延迟深度确定性策略梯度是深度强化学习的一个主流算法,是一种无模型强化学习,已成功应用于具有挑战性的连续控制任务中。然而,当环境中奖励稀疏或者状态空间较大时,双延迟深度确定性策略梯度的样本效率较差,环境探索能力较弱。针对通过双Q值函数的下界确定目标函数带来的低效探索问题,提出一种基于乐观探索的双延迟深度确定性策略梯度(TD3-OE)。首先,从双Q值函数出发,分析取下界会使得探索具有一定的悲观性;然后,利用高斯函数和分段函数分别对双Q值函数进行拟合;最后,利用拟合Q值函数和目标策略构造出探索策略,指导智能体在环境中进行探索。探索策略能够避免智能体学习到次优策略,从而有效解决低效探索的问题。该文在基于MuJoCo物理引擎的控制平台上将所提算法与基准算法进行试验对比,验证了所提算法的有效性。试验结果表明:所提算法在奖励、稳定性和学习速度等指标上均达到或超过其他基础强化学习算法。 展开更多
关键词 深度强化学习 延迟深度确定性策略梯度 探索策略 乐观探索
下载PDF
基于深度强化学习和隐私保护的群智感知动态任务分配策略
13
作者 傅彦铭 陆盛林 +1 位作者 陈嘉元 覃华 《信息网络安全》 CSCD 北大核心 2024年第3期449-461,共13页
在移动群智感知(Mobile Crowd Sensing,MCS)中,动态任务分配的结果对提高系统效率和确保数据质量至关重要。然而,现有的大部分研究在处理动态任务分配时,通常将其简化为二分匹配模型,该简化模型未充分考虑任务属性与工人属性对匹配结果... 在移动群智感知(Mobile Crowd Sensing,MCS)中,动态任务分配的结果对提高系统效率和确保数据质量至关重要。然而,现有的大部分研究在处理动态任务分配时,通常将其简化为二分匹配模型,该简化模型未充分考虑任务属性与工人属性对匹配结果的影响,同时忽视了工人位置隐私的保护问题。针对这些不足,文章提出一种基于深度强化学习和隐私保护的群智感知动态任务分配策略。该策略首先通过差分隐私技术为工人位置添加噪声,保护工人隐私;然后利用深度强化学习方法自适应地调整任务批量分配;最后使用基于工人任务执行能力阈值的贪婪算法计算最优策略下的平台总效用。在真实数据集上的实验结果表明,该策略在不同参数设置下均能保持优越的性能,同时有效地保护了工人的位置隐私。 展开更多
关键词 群智感知 深度强化学习 隐私保护 双深度Q网络 能力阈值贪婪算法
下载PDF
基于深度强化学习的图书分拣车的路径规划
14
作者 陈玥 《现代电子技术》 北大核心 2024年第19期161-168,共8页
针对图书智能分拣系统中的分拣车路径规划问题,提出一种基于深度强化学习框架和竞争双深度Q网络路径规划算法。将分拣车的路径规划问题构建成马尔可夫决策过程,然后通过结合竞争Q网络和双深度Q网络构建竞争双深度Q网络(D3QN),进而在避... 针对图书智能分拣系统中的分拣车路径规划问题,提出一种基于深度强化学习框架和竞争双深度Q网络路径规划算法。将分拣车的路径规划问题构建成马尔可夫决策过程,然后通过结合竞争Q网络和双深度Q网络构建竞争双深度Q网络(D3QN),进而在避免过估计的同时,优化网络结构。最后,通过设计智能代理的状态、动作和奖励函数,并采用动态ε-贪婪算法和衰减式学习率策略,使智能代理能够快速地选择最优动作,缩短完成预定卸载的移动路径,降低碰撞障碍物的概率。仿真结果表明,相比于基于竞争Q网络、双深度Q网络和深度Q网络的路径规划算法,提出的基于D3QN方法所规划的路径更短、碰撞率更低。 展开更多
关键词 自动分拣 机器人 路径规划 深度强化学习 竞争双深度Q网络 马尔可夫决策
下载PDF
基于深度强化学习的测井曲线自动深度校正方法 被引量:3
15
作者 熊文君 肖立志 +1 位作者 袁江如 岳文正 《石油勘探与开发》 EI CAS CSCD 北大核心 2024年第3期553-564,共12页
针对传统测井曲线深度校正需要手动调整曲线,而对于多口井的深度校正工作量巨大,需要大量人工参与,且工作效率较低的问题,提出一种多智能体深度强化学习方法(MARL)来实现多条测井曲线自动深度匹配。该方法基于卷积神经网络(CNN)定义多... 针对传统测井曲线深度校正需要手动调整曲线,而对于多口井的深度校正工作量巨大,需要大量人工参与,且工作效率较低的问题,提出一种多智能体深度强化学习方法(MARL)来实现多条测井曲线自动深度匹配。该方法基于卷积神经网络(CNN)定义多个自上而下的双滑动窗口捕捉测井曲线上相似的特征序列,并设计一个智能体与环境的互动机制来控制深度匹配过程。通过双深度Q学习网络(DDQN)选取一个动作来平移或缩放测井特征序列,并利用反馈的奖励信号来评估每个动作的好坏,以学习到最优的控制策略达到提升深度校正精度的目的。研究表明,MARL方法可以自动完成多口井、不同测井曲线的深度校正任务,减少人工干预。在油田实例应用中,对比分析了动态时间规整(DTW)、深度Q学习网络(DQN)和DDQN等方法的测试结果,DDQN算法采用双网络评估机制有效改进了算法的性能,能够识别和对齐测井曲线特征序列上更多的细节,具有较高的深度匹配精度。 展开更多
关键词 人工智能 机器学习 深度校正 测井曲线 多智能体深度强化学习 卷积神经网络 双深度Q学习网络
下载PDF
基于改进双延迟深度确定性策略梯度算法的电网有功安全校正控制 被引量:7
16
作者 顾雪平 刘彤 +2 位作者 李少岩 王铁强 杨晓东 《电工技术学报》 EI CSCD 北大核心 2023年第8期2162-2177,共16页
新型电力系统中,由于源荷不确定性的影响,发生线路过载事故的风险增大,传统的有功安全校正方法无法有效兼顾计算速度及效果等。基于此,该文提出一种基于改进双延迟深度确定性策略梯度算法的电网有功安全校正控制方法。首先,在满足系统... 新型电力系统中,由于源荷不确定性的影响,发生线路过载事故的风险增大,传统的有功安全校正方法无法有效兼顾计算速度及效果等。基于此,该文提出一种基于改进双延迟深度确定性策略梯度算法的电网有功安全校正控制方法。首先,在满足系统静态安全约束条件下,以可调元件出力调整量最小且保证系统整体运行安全性最高为目标,建立有功安全校正控制模型。其次,构建有功安全校正的深度强化学习框架,定义计及目标与约束的奖励函数、反映电力系统运行的观测状态、可改变系统状态的调节动作以及基于改进双延迟深度确定性策略梯度算法的智能体。最后,构造考虑源荷不确定性的历史系统过载场景,借助深度强化学习模型对智能体进行持续交互训练以获得良好的决策效果;并且进行在线应用,计及源荷未来可能的取值,快速得到最优的元件调整方案,消除过载线路。IEEE 39节点系统和IEEE 118节点系统算例结果表明,所提方法能够有效消除电力系统中的线路过载且避免短时间内再次越限,在计算速度、校正效果等方面,与传统方法相比具有明显的优势。 展开更多
关键词 新型电力系统 有功安全校正 深度强化学习 改进延迟深度确定性策略 最优调整方案
下载PDF
基于梯度指导的双通道深度压缩感知图像重建方法 被引量:1
17
作者 欧阳宁 任天宇 林乐平 《桂林电子科技大学学报》 2023年第1期1-6,共6页
针对压缩感知重建图像边界部分模糊和畸变的问题,将图像的先验特性与深度学习网络相结合,提出了一种基于梯度指导的双通道深度压缩感知图像重建方法。该方法利用梯度图像和原始图像从边缘和纹理2个方面构建了双通道的深度网络模型。一方... 针对压缩感知重建图像边界部分模糊和畸变的问题,将图像的先验特性与深度学习网络相结合,提出了一种基于梯度指导的双通道深度压缩感知图像重建方法。该方法利用梯度图像和原始图像从边缘和纹理2个方面构建了双通道的深度网络模型。一方面,通过梯度分支来恢复高质量梯度图,为最后的重建图像提供额外的结构先验;另一方面,提出了梯度损失,图像的梯度约束有助于重建网络更专注于几何结构。在原图通道中采用混合卷积残差密集连接模块,扩大感受野的同时提取丰富的细节信息。实验结果表明,本方法与其他方法相比,取得了更高的重建质量,特别是在图像边界部分的恢复上有显著提升。 展开更多
关键词 图像重建 压缩感知 图像梯度 通道深度网络
下载PDF
改进双延迟深度确定性策略梯度的多船协调避碰决策
18
作者 黄仁贤 罗亮 +1 位作者 杨萌 刘维勤 《计算机科学》 CSCD 北大核心 2023年第11期269-281,共13页
目前,多数海上避碰模型都是将船舶作为单智能体进行避碰决策,未考虑船舶间的协调避让,在多船会遇场景下仅靠单船进行避碰操作会导致避让效果不佳。为此,提出了一种改进双延迟深度确定性策略梯度算法(TD3)的Softmax深层双确定性策略梯度(... 目前,多数海上避碰模型都是将船舶作为单智能体进行避碰决策,未考虑船舶间的协调避让,在多船会遇场景下仅靠单船进行避碰操作会导致避让效果不佳。为此,提出了一种改进双延迟深度确定性策略梯度算法(TD3)的Softmax深层双确定性策略梯度(SD3)多船协调避碰模型。从考虑船舶航行安全的时空因素出发构建时间碰撞模型、空间碰撞模型,对船舶碰撞风险进行定量分析,在此基础上采用根据会遇态势和船速矢量动态变化的船域模型对船舶碰撞风险进行定性分析。综合船舶目标导向、航向角改变、航向保持、碰撞风险和《国际海上避碰规则》(COLREGS)的约束设计奖励函数,结合COLREGS中的典型相遇情况构造对遇、追越和交叉相遇多局面共存的会遇场景进行避碰模拟仿真。消融实验显示softmax运算符提升了SD3算法的性能,使其在船舶协调避碰中拥有更好的决策效果,并与其他强化学习算法进行学习效率和学习效果的比较。实验结果表明,SD3算法在多局面共存的复杂场景下能高效做出准确的避碰决策,并且性能优于其他强化学习算法。 展开更多
关键词 多船会遇 协调避碰 智能决策 延迟深度确定性策略梯度(TD3) Softmax深层确定性策略梯度(SD3) 强化学习
下载PDF
融合对比预测编码的深度双Q网络 被引量:1
19
作者 刘剑锋 普杰信 孙力帆 《计算机工程与应用》 CSCD 北大核心 2023年第6期162-170,共9页
在模型未知的部分可观测马尔可夫决策过程(partially observable Markov decision process,POMDP)下,智能体无法直接获取环境的真实状态,感知的不确定性为学习最优策略带来挑战。为此,提出一种融合对比预测编码表示的深度双Q网络强化学... 在模型未知的部分可观测马尔可夫决策过程(partially observable Markov decision process,POMDP)下,智能体无法直接获取环境的真实状态,感知的不确定性为学习最优策略带来挑战。为此,提出一种融合对比预测编码表示的深度双Q网络强化学习算法,通过显式地对信念状态建模以获取紧凑、高效的历史编码供策略优化使用。为改善数据利用效率,提出信念回放缓存池的概念,直接存储信念转移对而非观测与动作序列以减少内存占用。此外,设计分段训练策略将表示学习与策略学习解耦来提高训练稳定性。基于Gym-MiniGrid环境设计了POMDP导航任务,实验结果表明,所提出算法能够捕获到与状态相关的语义信息,进而实现POMDP下稳定、高效的策略学习。 展开更多
关键词 部分可观测马尔可夫决策过程 表示学习 强化学习 对比预测编码 深度Q网络
下载PDF
扩展目标跟踪中基于深度强化学习的传感器管理方法
20
作者 张虹芸 陈辉 张文旭 《自动化学报》 EI CAS CSCD 北大核心 2024年第7期1417-1431,共15页
针对扩展目标跟踪(Extended target tracking,ETT)优化中的传感器管理问题,基于随机矩阵模型(Random matrices model,RMM)建模扩展目标,提出一种基于深度强化学习(Deep reinforcement learning,DRL)的传感器管理方法.首先,在部分可观测... 针对扩展目标跟踪(Extended target tracking,ETT)优化中的传感器管理问题,基于随机矩阵模型(Random matrices model,RMM)建模扩展目标,提出一种基于深度强化学习(Deep reinforcement learning,DRL)的传感器管理方法.首先,在部分可观测马尔科夫决策过程(Partially observed Markov decision process,POMDP)理论框架下,给出基于双延迟深度确定性策略梯度(Twin delayed deep deterministic policy gradient,TD3)算法的扩展目标跟踪传感器管理的基本方法;其次,利用高斯瓦瑟斯坦距离(Gaussian Wasserstein distance,GWD)求解扩展目标先验概率密度与后验概率密度之间的信息增益,对扩展目标多特征估计信息进行综合评价,进而以信息增益作为TD3算法奖励函数的构建;然后,通过推导出的奖励函数,进行基于深度强化学习的传感器管理方法的最优决策;最后,通过构造扩展目标跟踪优化仿真实验,验证了所提方法的有效性. 展开更多
关键词 传感器管理 扩展目标跟踪 深度强化学习 延迟深度确定性策略梯度 信息增益
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部