期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
改进型DDPG算法的多智能体编队控制与仿真
1
作者 景永年 耿双双 +1 位作者 向瑶 文家燕 《广西科技大学学报》 CAS 2023年第3期62-71,共10页
针对多智能体系统编队在路径规划过程中队形不稳定、获取路径时间较慢以及在避障过程中存在与障碍物距离较近的问题,本文采用角度距离度量的方式对多智能体进行编队,通过改变传统的由起始点到达终点避障过程所形成的路径规划方法,弱化... 针对多智能体系统编队在路径规划过程中队形不稳定、获取路径时间较慢以及在避障过程中存在与障碍物距离较近的问题,本文采用角度距离度量的方式对多智能体进行编队,通过改变传统的由起始点到达终点避障过程所形成的路径规划方法,弱化起始点和终点概念,添加路径中点的方式,使智能体同时从起点以及终点向中点移动,形成由起点指向中点、终点指向中点的2条路径。将奖励函数设计为同号智能体相碰为正向奖励,异号智能体相碰以及智能体(同号智能体和异号智能体)与障碍物之间相碰均为负向奖励。在搭建的静态和动态障碍物2种仿真环境下分别进行可变容量体验池深度确定性策略梯度算法(deep deterministic policy gradient-variable capacity experience pool,DDPG-vcep)验证,并对比不同训练次数下的奖赏值。仿真结果表明,改进后的DDPG编队算法较传统DDPG算法节约了路径获取时间,编队避障的效果更加明显。 展开更多
关键词 深度学习 强化学习 深度确定性策略梯度算法(ddpg算法) 多智能体 编队控制 避障
下载PDF
基于卡尔曼滤波器及深度强化学习的双有源全桥变换器控制策略
2
作者 武涵 贾燕冰 +2 位作者 韩肖清 石俊逸 孟祥齐 《高电压技术》 EI CAS CSCD 北大核心 2024年第2期714-724,I0026,共12页
高比例的新能源以及随机性负载大量接入微电网,其不确定性带来的大扰动对直流母线电压的稳定性造成不良影响。为了实现大扰动下快速、自适应的电压调节,针对双有源桥式DC-DC变换器(dualactivebridge,DAB)提出了一种基于卡尔曼滤波器(Kal... 高比例的新能源以及随机性负载大量接入微电网,其不确定性带来的大扰动对直流母线电压的稳定性造成不良影响。为了实现大扰动下快速、自适应的电压调节,针对双有源桥式DC-DC变换器(dualactivebridge,DAB)提出了一种基于卡尔曼滤波器(Kalmanfilter,KF)及深度强化学习的新型复合控制策略。设计了基于Actor-Critic架构的深度确定性策略梯度强化学习智能体,采用KF的最佳观测结果作为前馈补偿提高输出电压调节的准确性,通过在线学习自动调整DAB变换器的控制参数,保证直流变换器在面临系统各种扰动问题时均保持稳定,最后通过仿真和实验验证了该控制策略的有效性。 展开更多
关键词 双有源桥式DC-DC变换器 深度强化学习 ddpg智能体 卡尔曼滤波器 大扰动
下载PDF
基于DDPG算法的矿用电机车防撞及避障策略研究 被引量:4
3
作者 鲁良伟 李敬兆 周华平 《煤炭技术》 CAS 北大核心 2022年第2期184-188,共5页
为保障矿用电机车的安全稳定运行,实现电机车运输过程中避障的自主化与智能化,提出了一种基于深度确定性策略梯度(DDPG)算法的电机车防撞及避障策略。通过融合电机车行驶环境中的多源特征数据,作为DDPG算法网络的状态输入,结合奖励函数... 为保障矿用电机车的安全稳定运行,实现电机车运输过程中避障的自主化与智能化,提出了一种基于深度确定性策略梯度(DDPG)算法的电机车防撞及避障策略。通过融合电机车行驶环境中的多源特征数据,作为DDPG算法网络的状态输入,结合奖励函数、OU噪声来训练智能体,进而输出确定性防撞避障策略至电机车整车控制器,以控制电机车完成转向、调速、制动及报警等避障动作。仿真测试结果表明,所设计的避障防撞策略有效解决了电机车在井下复杂工况中的运行控制问题,对电机车的少人、无人化驾驶研究具有一定的意义。 展开更多
关键词 矿用电机车 ddpg算法 防撞避障策略 OU噪声 智能体
下载PDF
改进的DDPG对话策略优化算法 被引量:2
4
作者 赵崟江 李艳玲 林民 《计算机工程与设计》 北大核心 2021年第2期411-418,共8页
针对任务型对话系统缺少大规模真实训练数据的问题,提出一种结合规划的离散深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法来优化对话策略。在代理方面,改进经典DDPG训练算法中actor网络的输出结构和损失函数,使其... 针对任务型对话系统缺少大规模真实训练数据的问题,提出一种结合规划的离散深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法来优化对话策略。在代理方面,改进经典DDPG训练算法中actor网络的输出结构和损失函数,使其适用于离散动作空间任务;在环境方面,引入一个环境模型(又称世界模型)来模拟真实用户提问;在整个训练过程中,代理分别与用户模拟器和世界模型交互,结合规划交替使用真实用户经验和模拟用户经验,改进对话策略。实验结果表明,该方法能够加快模型的收敛速度,提升任务成功率。 展开更多
关键词 对话策略优化 代理 ddpg算法 世界模型 用户模拟器 规划
下载PDF
基于先验知识图谱的多代理被遮挡目标类别推理模型
5
作者 荣欢 钱敏峰 +1 位作者 马廷淮 孙圣杰 《计算机科学》 CSCD 北大核心 2023年第1期243-252,共10页
目标检测(Object Detection)是计算机视觉中最为热门的方向之一,在军事、医疗等重要领域都有广泛运用。然而,大多数目标检测模型都只能对可见物体进行识别,日常生活中的图片往往存在被遮挡(不可见)的目标物体,现有目标检测模型对图片中... 目标检测(Object Detection)是计算机视觉中最为热门的方向之一,在军事、医疗等重要领域都有广泛运用。然而,大多数目标检测模型都只能对可见物体进行识别,日常生活中的图片往往存在被遮挡(不可见)的目标物体,现有目标检测模型对图片中的被遮挡目标难以表现出较理想的检测性能。为此,文中提出了一种基于图库先验知识图谱的多代理协作式图片被遮挡目标类别推理模型(IMG-KGR-MAC)。具体而言,1)IMG-KGR-MAC根据给定图库中所有图片的可见目标及其之间的位置关系构建全局先验知识图谱;同时,根据图片自身所含目标及其位置关系,为各图片分别建立图片知识图谱;各图片内被遮挡目标的信息均不计入全局先验知识图谱和图片自身知识图谱;2)采用DDPG(Deep Deterministic Policy Gradient)深度强化学习思想,构建两个相互协作的代理;代理1根据当前图片语义信息从全局先验知识图谱挑选出与被遮挡目标最为适配的“类别标签”,将其作为新实体节点加入到给定图片自身的知识图谱中;代理2根据代理1新加入的实体,从全局先验知识图谱中进一步挑选〈实体,关系〉,扩展与新实体节点相关联的图谱结构;3)代理1与代理2通过共享任务环境和在奖励值上建立通信,相互协作地按“图片被遮挡目标(实体)→关联图谱结构”以及“关联图谱结构→图片被遮挡目标(实体)”原理,开展正向与反向推理,从而有效估计出给定图片被遮挡目标最为可能的类别标签。实验结果表明,与现有相关方法相比,所提出的IMG-KGR-MAC模型可以学习到给定图片被遮挡目标与全局先验知识图谱之间的语义关系,有效克服了现有模型对被遮挡目标难以检测的弊端,对于被遮挡目标有良好的推理能力,在MR(Mean Rank)以及mAP(Mean Average Precision)等多项指标上都有超过20%的提升。 展开更多
关键词 知识图谱推理 图片目标检测 多代理强化学习 ddpg
下载PDF
基于深度强化学习的多智能体编队协同控制 被引量:1
6
作者 文永明 李博研 +3 位作者 张宁宁 李小建 熊楚依 刘洁玺 《指挥信息系统与技术》 2023年第5期75-79,共5页
采用深度强化学习算法解决了多智能体编队协同控制问题。基于多智能体深度确定性策略梯度算法(MADDPG)构建分布式编队控制架构,并结合集中式训练-分布式执行框架进行求解。针对多智能体环境不稳定问题,依据单个智能体的局部信息构建对... 采用深度强化学习算法解决了多智能体编队协同控制问题。基于多智能体深度确定性策略梯度算法(MADDPG)构建分布式编队控制架构,并结合集中式训练-分布式执行框架进行求解。针对多智能体环境不稳定问题,依据单个智能体的局部信息构建对应奖励函数。针对大规模编队协同控制,实现了多个多智能体环境下的算法训练与评估。试验结果表明,应用该算法的多智能体能够完成协同任务,且所有智能体都可得到合理的协同控制策略。 展开更多
关键词 深度确定性策略梯度 编队控制 多智能体系统 强化学习
下载PDF
基于多智能体共享信息的低压配电网拓扑与数据建模技术研究 被引量:6
7
作者 李澄 陈颢 +3 位作者 刘恢 陆玉军 葛永高 王宁 《电子测量技术》 2020年第12期18-25,共8页
针对国网现役应用的AMI量测系统处理低压配电网精确建模问题时存在的电力线路多阻抗参数约束下方差波动、处理异构低压配电网拓扑生成失效、线损分析易陷入局部极值、电力线路参数泛化能力与学习能力失衡、潮流计算收敛速度随时间呈迟... 针对国网现役应用的AMI量测系统处理低压配电网精确建模问题时存在的电力线路多阻抗参数约束下方差波动、处理异构低压配电网拓扑生成失效、线损分析易陷入局部极值、电力线路参数泛化能力与学习能力失衡、潮流计算收敛速度随时间呈迟滞变化等先天不足,提出了一种基于多智能体共享信息的低压配电网拓扑与数据生成模型。通过引入多智能体机制,视低压配电网涉及到的电力线路参数为独立活性的智能体,构建具有社会属性的面向低压配电网电力线路参数信息共享的全局最优协同控制体系,引入第二代机器学习中的DDPG算法实现异构低压配电网拓扑自动最优生成与数据自主精确建模机制,利用多智能体共享信息生成目标低压配电网参数要素集合,为全局最优模型构建提供可视化支撑。基于Tensorflow开源框架,在Gym torcs环境下进行模型效能仿真验证,较好解决了AMI量测系统处理低压配电网精确建模问题时若干固有缺陷,实现全局最优,具有稳定性高、抗干扰性强、自主感知性高等优势。以国网江苏省电力有限公司辖区某低压配电网为效能评价载体,对模型进行了工程应用分析,验证结果表明所提模型可以较好实现异构低压配电网拓扑自动最优生成与数据自主精确建模,在模型自主性、参数拟合性、全局最优、拓扑生成效率等方面具有明显优势。 展开更多
关键词 多智能体 低压配电网 拓扑与数据建模 ddpg算法 效能仿真验证
下载PDF
序列多智能体强化学习算法 被引量:5
8
作者 史腾飞 王莉 黄子蓉 《模式识别与人工智能》 EI CSCD 北大核心 2021年第3期206-213,共8页
针对当前多智能体强化学习算法难以适应智能体规模动态变化的问题,文中提出序列多智能体强化学习算法(SMARL).将智能体的控制网络划分为动作网络和目标网络,以深度确定性策略梯度和序列到序列分别作为分割后的基础网络结构,分离算法结... 针对当前多智能体强化学习算法难以适应智能体规模动态变化的问题,文中提出序列多智能体强化学习算法(SMARL).将智能体的控制网络划分为动作网络和目标网络,以深度确定性策略梯度和序列到序列分别作为分割后的基础网络结构,分离算法结构与规模的相关性.同时,对算法输入输出进行特殊处理,分离算法策略与规模的相关性.SMARL中的智能体可较快适应新的环境,担任不同任务角色,实现快速学习.实验表明SMARL在适应性、性能和训练效率上均较优. 展开更多
关键词 多智能体强化学习 深度确定性策略梯度(ddpg) 序列到序列(Seq2Seq) 分块结构
下载PDF
基于MADDPG的多阵面相控阵雷达引导搜索资源优化算法
9
作者 王腾 黄俊松 +2 位作者 王乐庭 张才坤 李枭扬 《计算机工程》 CAS 2024年第11期38-48,共11页
针对传统单阵面雷达搜索资源优化算法在复杂多阵面场景下的参数求解困难问题,提出一种基于多智能体深度确定性策略梯度(MADDPG)的多阵面雷达搜索资源优化算法。考虑多阵面相控阵雷达场景约束,结合机载雷达实际搜索任务需求,建立基于最... 针对传统单阵面雷达搜索资源优化算法在复杂多阵面场景下的参数求解困难问题,提出一种基于多智能体深度确定性策略梯度(MADDPG)的多阵面雷达搜索资源优化算法。考虑多阵面相控阵雷达场景约束,结合机载雷达实际搜索任务需求,建立基于最大目标平均积累期望发现概率的多阵面雷达搜索资源优化模型。分别设计多智能体局部及全局观测空间和带折扣因子的复合奖励函数,基于执行者-评论者(Actor-Critic)算法结构,通过各智能体策略网络在线更新各雷达阵面搜索资源分配系数实现上述模型参数的优化求解。仿真结果表明,该算法能够根据空域-目标覆盖情况及各目标威胁权系数迅速作出精确的自主决策,在多阵面相控阵雷达搜索资源优化场景下的表现显著优于传统算法。 展开更多
关键词 多阵面相控阵雷达 雷达搜索资源优化 多智能体深度强化学习 深度确定性策略梯度 集群目标雷达引导搜索
下载PDF
Actor-Critic框架下一种基于改进DDPG的多智能体强化学习算法 被引量:23
10
作者 陈亮 梁宸 +1 位作者 张景异 刘韵婷 《控制与决策》 EI CSCD 北大核心 2021年第1期75-82,共8页
现实世界的人工智能应用通常需要多个agent协同工作,人工agent之间有效的沟通和协调是迈向通用人工智能不可或缺的一步.以自主开发的警员训练虚拟环境为测试场景,设定任务需要多个不同兵种agent小队互相协作或对抗完成.为保证沟通方式... 现实世界的人工智能应用通常需要多个agent协同工作,人工agent之间有效的沟通和协调是迈向通用人工智能不可或缺的一步.以自主开发的警员训练虚拟环境为测试场景,设定任务需要多个不同兵种agent小队互相协作或对抗完成.为保证沟通方式有效且可扩展,提出一种混合DDPG(Mi-DDPG)算法.首先,在Actor网络加入双向循环神经网络(BRNN)作为同兵种agent信息交流层;然后,在Critic网络加入其他兵种agent信息来学习多agent协同策略.另外,为了缓解训练压力,采用集中训练,分散执行的框架,同时对Critic网络里的Q函数进行模块化处理.实验中,在不同的场景下用Mi-DDPG算法与其他算法进行对比,Mi-DDPG在收敛速度和任务完成度方面有明显提高,具有在现实世界应用的潜在价值. 展开更多
关键词 强化学习 深度学习 多智能体 RNN ddpg Actor-Critic
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部