期刊文献+
共找到35篇文章
< 1 2 >
每页显示 20 50 100
Multi-agent reinforcement learning for edge information sharing in vehicular networks 被引量:3
1
作者 Ruyan Wang Xue Jiang +5 位作者 Yujie Zhou Zhidu Li Dapeng Wu Tong Tang Alexander Fedotov Vladimir Badenko 《Digital Communications and Networks》 SCIE CSCD 2022年第3期267-277,共11页
To guarantee the heterogeneous delay requirements of the diverse vehicular services,it is necessary to design a full cooperative policy for both Vehicle to Infrastructure(V2I)and Vehicle to Vehicle(V2V)links.This pape... To guarantee the heterogeneous delay requirements of the diverse vehicular services,it is necessary to design a full cooperative policy for both Vehicle to Infrastructure(V2I)and Vehicle to Vehicle(V2V)links.This paper investigates the reduction of the delay in edge information sharing for V2V links while satisfying the delay requirements of the V2I links.Specifically,a mean delay minimization problem and a maximum individual delay minimization problem are formulated to improve the global network performance and ensure the fairness of a single user,respectively.A multi-agent reinforcement learning framework is designed to solve these two problems,where a new reward function is proposed to evaluate the utilities of the two optimization objectives in a unified framework.Thereafter,a proximal policy optimization approach is proposed to enable each V2V user to learn its policy using the shared global network reward.The effectiveness of the proposed approach is finally validated by comparing the obtained results with those of the other baseline approaches through extensive simulation experiments. 展开更多
关键词 Vehicular networks Edge information sharing Delay guarantee multi-agent reinforcement learning proximal policy optimization
下载PDF
Cooperative multi-target hunting by unmanned surface vehicles based on multi-agent reinforcement learning
2
作者 Jiawei Xia Yasong Luo +3 位作者 Zhikun Liu Yalun Zhang Haoran Shi Zhong Liu 《Defence Technology(防务技术)》 SCIE EI CAS CSCD 2023年第11期80-94,共15页
To solve the problem of multi-target hunting by an unmanned surface vehicle(USV)fleet,a hunting algorithm based on multi-agent reinforcement learning is proposed.Firstly,the hunting environment and kinematic model wit... To solve the problem of multi-target hunting by an unmanned surface vehicle(USV)fleet,a hunting algorithm based on multi-agent reinforcement learning is proposed.Firstly,the hunting environment and kinematic model without boundary constraints are built,and the criteria for successful target capture are given.Then,the cooperative hunting problem of a USV fleet is modeled as a decentralized partially observable Markov decision process(Dec-POMDP),and a distributed partially observable multitarget hunting Proximal Policy Optimization(DPOMH-PPO)algorithm applicable to USVs is proposed.In addition,an observation model,a reward function and the action space applicable to multi-target hunting tasks are designed.To deal with the dynamic change of observational feature dimension input by partially observable systems,a feature embedding block is proposed.By combining the two feature compression methods of column-wise max pooling(CMP)and column-wise average-pooling(CAP),observational feature encoding is established.Finally,the centralized training and decentralized execution framework is adopted to complete the training of hunting strategy.Each USV in the fleet shares the same policy and perform actions independently.Simulation experiments have verified the effectiveness of the DPOMH-PPO algorithm in the test scenarios with different numbers of USVs.Moreover,the advantages of the proposed model are comprehensively analyzed from the aspects of algorithm performance,migration effect in task scenarios and self-organization capability after being damaged,the potential deployment and application of DPOMH-PPO in the real environment is verified. 展开更多
关键词 Unmanned surface vehicles multi-agent deep reinforcement learning Cooperative hunting Feature embedding proximal policy optimization
下载PDF
基于MAPPO的无信号灯交叉口自动驾驶决策
3
作者 许曼晨 于镝 +1 位作者 赵理 郭陈栋 《吉林大学学报(信息科学版)》 CAS 2024年第5期790-798,共9页
针对自动驾驶在通过无信号灯交叉口由于车流密集且车辆行为随机不确定的问题,提出一种基于MAPPO(Multi-Agent Proximal Policy Optimization)算法的无信号灯交叉口自动驾驶决策方案。通过MetaDrive仿真环平台搭建多智能体仿真环境,并且... 针对自动驾驶在通过无信号灯交叉口由于车流密集且车辆行为随机不确定的问题,提出一种基于MAPPO(Multi-Agent Proximal Policy Optimization)算法的无信号灯交叉口自动驾驶决策方案。通过MetaDrive仿真环平台搭建多智能体仿真环境,并且设计了综合考虑交通规则、安全到达或发生碰撞等安全性以及交叉口车辆最大、最小速度等车流效率的奖励函数,旨在实现安全高效的自动驾驶决策。仿真实验表明,所提出的自动驾驶决策方案在训练中相较于其他算法具有更出色的稳定性和收敛性,在不同车流密度下均呈现出更高的成功率和安全性。该自动驾驶决策方案在解决无信号灯交叉口环境方面具有显著潜力,并且为复杂路况自动驾驶决策的研究起到促进作用。 展开更多
关键词 自动驾驶 智能决策 无信号灯交叉口 mappo算法
下载PDF
干扰攻击下基于MAPPO的电视频谱资源分配研究
4
作者 赵越 杨亮 刘明轩 《电视技术》 2024年第3期199-205,共7页
将认知无线电(Cognitive Radio,CR)与能量采集(Energy Harvesting,EH)进行组合是一种提高电视系统频谱性能的有效方案,但由于CR的开放性,电视网络容易遭受干扰攻击。基于此,研究了干扰攻击下EH-CR网络的联合信道和功率分配问题,考虑网... 将认知无线电(Cognitive Radio,CR)与能量采集(Energy Harvesting,EH)进行组合是一种提高电视系统频谱性能的有效方案,但由于CR的开放性,电视网络容易遭受干扰攻击。基于此,研究了干扰攻击下EH-CR网络的联合信道和功率分配问题,考虑网络中存在随机和反应扫描两种干扰攻击,通过信道接入和功率分配,使次用户(Secondary Users,SUs)平均吞吐量最大化。将EH-CR网络建模为部分可观测的马尔可夫决策过程,提出了一个基于多智能体近端策略优化(Multi-Agent Proximal Policy Optimization,MAPPO)的联合信道和功率分配方法。仿真结果表明,提出的方法能够显著提高干扰攻击下SUs的平均吞吐量。 展开更多
关键词 认知无线电(CR) 干扰攻击 多智能体近端策略优化(mappo) 资源分配
下载PDF
基于深度强化学习的游戏智能引导算法
5
作者 白天 吕璐瑶 +1 位作者 李储 何加亮 《吉林大学学报(理学版)》 北大核心 2025年第1期91-98,共8页
针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输... 针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输入数据量;其次,通过精细化设计奖励机制,加速模型的收敛过程;最后,从主观定性和客观定量两方面对该算法模型与现有方法进行对比实验,实验结果表明,该算法不仅显著提高了模型的训练效率,还大幅度提高了智能体的性能. 展开更多
关键词 深度强化学习 游戏智能体 奖励函数塑形 近端策略优化算法
下载PDF
基于可解释强化学习的智能虚拟电厂最优调度
6
作者 袁孝科 沈石兰 +2 位作者 张茂松 石晨旭 杨凌霄 《综合智慧能源》 2025年第1期1-9,共9页
随着电动汽车的不断普及,能源系统日益复杂。虚拟电厂(VPP)可以通过物联网和人工智能技术,将分布式电源、储能系统、可控负荷以及EV等分布式能源进行聚合和协调优化,有助于提升能源的使用效率,并促进非可再生能源的消纳,增强电网稳定性... 随着电动汽车的不断普及,能源系统日益复杂。虚拟电厂(VPP)可以通过物联网和人工智能技术,将分布式电源、储能系统、可控负荷以及EV等分布式能源进行聚合和协调优化,有助于提升能源的使用效率,并促进非可再生能源的消纳,增强电网稳定性。现阶段人工智能技术在电力系统等安全要求较高的应用领域缺乏可靠性和透明度,可能导致用户和运营商难以理解算法如何做出特定的能源调配决策。针对人工智能技术下的VPP实现最优调度并兼顾解释其决策过程的平衡问题,提出一种可解释强化学习的交互式框架,使用近端策略优化算法实现VPP的最优调度,并使用决策树建立一种可解释性强化学习框架,用于提供透明的决策支持,使非专业用户能够理解人工智能在调节能源系统方面的决策过程。试验表明,与传统强化学习优化方法相比,该方法不仅提高了能源分配的效率,而且通过增强模型的可解释性,加强了用户对智能VPP管理系统的信任。 展开更多
关键词 虚拟电厂 电动汽车 近端策略优化算法 强化学习 决策树 可解释性框架 分布式电源 人工智能
下载PDF
山区应急供水装备路径规划系统设计与应用
7
作者 李伟 赵晨淞 +5 位作者 袁寿其 李昊明 曹卫东 周岭 朱勇 季磊磊 《排灌机械工程学报》 CSCD 北大核心 2024年第10期1066-1072,共7页
灾后救援保障中,应急供水扮演着至关重要的角色.然而,由于山区地形和地貌条件复杂多变,现场指挥调度尤为关键,关系着救援人员能否迅速展开保障装备进行应急供水作业.文中基于多智能体强化学习(multi-agent proximal policy optimization... 灾后救援保障中,应急供水扮演着至关重要的角色.然而,由于山区地形和地貌条件复杂多变,现场指挥调度尤为关键,关系着救援人员能否迅速展开保障装备进行应急供水作业.文中基于多智能体强化学习(multi-agent proximal policy optimization,MAPPO)算法进行了路径规划系统的设计,并进行了试验仿真验证,根据奖励图结果确认该路径规划系统的可行性,并实现系统运行可视化,证明该路径规划系统可以初步满足山区应急供水装备路径规划需求.在此基础上,结合Mask2Former图像分割模型优化山区应急供水装备路径规划系统,将地物信息输出结果和路径规划结果相结合,有效避免了单一路径规划算法在受到环境影响时结果波动较大的问题,提高了路径规划的鲁棒性和可靠性.将该路径规划系统集成至山区应急供水装备指挥平台,以解决山区应急供水路径规划问题,为山区应急供水装备的实际运行提供了有力支持. 展开更多
关键词 路径规划 应急供水 强化学习 指挥调度 多智能体强化学习算法
下载PDF
基于PPO算法的CIES低碳优化调度方法
8
作者 陈凡 吴凌霄 +2 位作者 王曼 吕干云 张小莲 《电力工程技术》 北大核心 2024年第6期88-99,共12页
阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优... 阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优化(proximal policy optimization,PPO)算法求解CIES低碳优化调度问题。该方法基于低碳优化调度模型搭建强化学习交互环境,利用设备状态参数及运行参数定义智能体的状态、动作空间及奖励函数,再通过离线训练获取可生成最优策略的智能体。算例分析结果表明,采用PPO算法得到的CIES低碳优化调度方法能够充分发挥阶梯式碳交易机制减少碳排放量和提高能源利用率方面的优势。 展开更多
关键词 园区综合能源系统(CIES) 优化调度 近端策略优化(PPO)算法 阶梯式碳交易机制 惩罚系数 碳排放
下载PDF
基于自注意力PPO算法的智能配电网多设备协同无功优化控制策略
9
作者 张黎元 宋兴旺 +3 位作者 李冰洁 梁睿 刘长德 彭奕洲 《智慧电力》 北大核心 2024年第10期40-48,共9页
针对智能配电网无功可调控资源多样化场景下的快速趋优难题,提出了一种基于多头自注意力近端策略优化算法的多设备协同无功优化控制方法。首先,将无功优化问题建模为马尔可夫决策过程;然后,在深度强化学习框架下使用多头自注意力改进近... 针对智能配电网无功可调控资源多样化场景下的快速趋优难题,提出了一种基于多头自注意力近端策略优化算法的多设备协同无功优化控制方法。首先,将无功优化问题建模为马尔可夫决策过程;然后,在深度强化学习框架下使用多头自注意力改进近端策略优化(PPO)算法对策略网络进行优化训练,算法采用多头自注意力网络获取配电网的实时状态特征,并通过剪切策略梯度法动态控制策略网络的更新幅度;最后,在改进IEEE69节点系统进行仿真验证。结果表明,所提算法的控制性能优于现有先进强化学习算法。 展开更多
关键词 配电网 分布式光伏 电压无功控制 多头自注意力 近端策略优化算法
下载PDF
基于样本优化的PPO算法在单路口信号控制的应用
10
作者 张国有 张新武 《计算机系统应用》 2024年第6期161-168,共8页
优化交通信号的控制策略可以提高道路车辆通行效率,缓解交通拥堵.针对基于值函数的深度强化学习算法难以高效优化单路口信号控制策略的问题,构建了一种基于样本优化的近端策略优化(MPPO)算法的单路口信号控制方法,通过对传统PPO算法中... 优化交通信号的控制策略可以提高道路车辆通行效率,缓解交通拥堵.针对基于值函数的深度强化学习算法难以高效优化单路口信号控制策略的问题,构建了一种基于样本优化的近端策略优化(MPPO)算法的单路口信号控制方法,通过对传统PPO算法中代理目标函数进行最大化提取,有效提高了模型选择样本的质量,采用多维交通状态向量作为模型观测值的输入方法,以及时跟踪并利用道路交通状态的动态变化过程.为了验证MPPO算法模型的准确性和有效性,在城市交通微观模拟软件(SUMO)上与值函数强化学习控制方法进行对比.仿真实验表明,相比于值函数强化学习控制方法,该方法更贴近真实的交通场景,显著加快了车辆累计等待时间的收敛速度,车辆的平均队列长度和平均等待时间明显缩短,有效提高了单路口车辆的通行效率. 展开更多
关键词 交通信号控制 深度强化学习 近端策略优化算法 代理目标函数 状态特征向量
下载PDF
基于注意力的循环PPO算法及其应用
11
作者 吕相霖 臧兆祥 +1 位作者 李思博 王俊英 《计算机技术与发展》 2024年第1期136-142,共7页
针对深度强化学习算法在部分可观测环境中面临信息掌握不足、存在随机因素等问题,提出了一种融合注意力机制与循环神经网络的近端策略优化算法(ARPPO算法)。该算法首先通过卷积网络层提取特征;其次采用注意力机制突出状态中重要的关键信... 针对深度强化学习算法在部分可观测环境中面临信息掌握不足、存在随机因素等问题,提出了一种融合注意力机制与循环神经网络的近端策略优化算法(ARPPO算法)。该算法首先通过卷积网络层提取特征;其次采用注意力机制突出状态中重要的关键信息;再次通过LSTM网络提取数据的时域特性;最后基于Actor-Critic结构的PPO算法进行策略学习与训练提升。基于Gym-Minigrid环境设计了两项探索任务的消融与对比实验,实验结果表明ARPPO算法较已有的A2C算法、PPO算法、RPPO算法具有更快的收敛速度,且ARPPO算法在收敛之后具有很强的稳定性,并对存在随机因素的未知环境具备更强的适应力。 展开更多
关键词 深度强化学习 部分可观测 注意力机制 LSTM网络 近端策略优化算法
下载PDF
基于强化学习的动目标协同观测任务自主规划方法
12
作者 刘一隆 张聪 +1 位作者 张斯航 陈砺寒 《空间控制技术与应用》 CSCD 北大核心 2024年第3期42-51,共10页
随着空间目标的数量逐渐增多、空中目标动态性日趋提升,对目标的观测定位问题变得愈发重要.由于需同时观测的目标多且目标动态性强,而星座观测资源有限,为了更高效地调用星座观测资源,需要动态调整多目标协同观测方案,使各目标均具有较... 随着空间目标的数量逐渐增多、空中目标动态性日趋提升,对目标的观测定位问题变得愈发重要.由于需同时观测的目标多且目标动态性强,而星座观测资源有限,为了更高效地调用星座观测资源,需要动态调整多目标协同观测方案,使各目标均具有较好的定位精度,因此需解决星座协同观测多目标的任务规划问题.建立星座姿态轨道模型、目标飞行模型、目标协同探测及定位模型,提出基于几何精度衰减因子(geometric dilution of precision, GDOP)的目标观测定位误差预估模型及目标观测优先级模型,建立基于强化学习的协同观测任务规划框架,采用多头自注意力机制建立策略网络,以及近端策略优化算法开展任务规划算法训练.仿真验证论文提出的方法相比传统启发式方法提升了多目标观测精度和有效跟踪时间,相比遗传算法具有更快的计算速度. 展开更多
关键词 多目标 协同观测 任务规划 强化学习 自注意力机制 近端策略优化
下载PDF
基于裁剪近端策略优化算法的软机械臂不规则物体抓取
13
作者 余家宸 杨晔 《计算机应用》 CSCD 北大核心 2024年第11期3629-3638,共10页
为应对传统深度强化学习(DRL)算法在处理复杂场景,特别是在不规则物体抓取和软体机械臂应用中算法稳定性和学习率较差的问题,提出一种基于裁剪近端策略优化(CPPO)算法的软体机械臂控制策略。通过引入裁剪函数,该算法优化了近端策略优化(... 为应对传统深度强化学习(DRL)算法在处理复杂场景,特别是在不规则物体抓取和软体机械臂应用中算法稳定性和学习率较差的问题,提出一种基于裁剪近端策略优化(CPPO)算法的软体机械臂控制策略。通过引入裁剪函数,该算法优化了近端策略优化(PPO)算法的性能,提升了它在高维状态空间的稳定性和学习效率。首先定义了软体机械臂的状态空间和动作空间,并设计了模仿八爪鱼触手的软体机械臂模型;其次利用Matlab的SoRoSim(Soft Robot Simulation)工具箱进行建模,同时定义了结合连续和稀疏函数的环境奖励函数;最后构建了基于Matlab的仿真平台,通过Python脚本和滤波器对不规则物体图像进行预处理,并利用Redis缓存高效传输处理后的轮廓数据至仿真平台。与TRPO(Trust Region Policy Optimization)和SAC(Soft Actor-Critic)算法的对比实验结果表明,CPPO算法在软体机械臂抓取不规则物体任务中达到了86.3%的成功率,比TRPO算法高出了3.6个百分点。这说明CPPO算法可以应用于软体机械臂控制,可在非结构化环境下为软体机械臂在复杂抓取任务中的应用提供重要参考。 展开更多
关键词 深度强化学习 近端策略优化算法 不规则物体检测 软体机械臂 机械臂抓取
下载PDF
信息年龄约束下的无人机数据采集能耗优化路径规划算法
14
作者 高思华 刘宝煜 +3 位作者 惠康华 徐伟峰 李军辉 赵炳阳 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第10期4024-4034,共11页
信息年龄(AoI)是评价无线传感器网络(WSN)数据时效性的重要指标,无人机辅助WSN数据采集过程中采用优化飞行轨迹、提升速度等运动策略保障卸载至基站的数据满足各节点AoI限制。然而,不合理的运动策略易导致无人机因飞行距离过长、速度过... 信息年龄(AoI)是评价无线传感器网络(WSN)数据时效性的重要指标,无人机辅助WSN数据采集过程中采用优化飞行轨迹、提升速度等运动策略保障卸载至基站的数据满足各节点AoI限制。然而,不合理的运动策略易导致无人机因飞行距离过长、速度过快产生非必要能耗,造成数据采集任务失败。针对该问题,该文首先提出信息年龄约束的无人机数据采集能耗优化路径规划问题并进行数学建模;其次,设计一种协同混合近端策略优化(CH-PPO)强化学习算法,同时规划无人机对传感器节点或基站的访问次序、悬停位置和飞行速度,在满足各传感器节点信息年龄约束的同时,最大限度地减少无人机能量消耗。再次,设计一种融合离散和连续策略的损失函数,增强CH-PPO算法动作的合理性,提升其训练效果。仿真实验结果显示,CH-PPO算法在无人机能量消耗以及影响该指标因素的比较中均优于对比的3种强化学习算法,并具有良好的收敛性、稳定性和鲁棒性。 展开更多
关键词 无线传感器网络 信息年龄约束 协同混合近端策略优化算法 无人机路径规划 深度强化学习
下载PDF
基于深度强化学习的尾旋改出技术
15
作者 谭健美 王君秋 《航空兵器》 CSCD 北大核心 2024年第1期77-88,共12页
本文搭建了飞机仿真环境,基于近端策略优化(PPO)算法建立了尾旋改出算法测试模型,设计了基准版单阶段、基准版双阶段、加深版单阶段、加深版双阶段四种网络结构,用于探究网络结构和改出阶段对尾旋改出效果的影响,设置了鲁棒性测试试验,... 本文搭建了飞机仿真环境,基于近端策略优化(PPO)算法建立了尾旋改出算法测试模型,设计了基准版单阶段、基准版双阶段、加深版单阶段、加深版双阶段四种网络结构,用于探究网络结构和改出阶段对尾旋改出效果的影响,设置了鲁棒性测试试验,从时延、误差和高度等方面进行了算法测试和结果分析。 展开更多
关键词 尾旋改出 深度学习 强化学习 近端策略优化 算法测试 飞机
下载PDF
基于裁剪优化和策略指导的近端策略优化算法
16
作者 周毅 高华 田永谌 《计算机应用》 CSCD 北大核心 2024年第8期2334-2341,共8页
针对近端策略优化(PPO)算法难以严格约束新旧策略的差异和探索与利用效率较低这2个问题,提出一种基于裁剪优化和策略指导的PPO(COAPG-PPO)算法。首先,通过分析PPO的裁剪机制,设计基于Wasserstein距离的信任域裁剪方案,加强对新旧策略差... 针对近端策略优化(PPO)算法难以严格约束新旧策略的差异和探索与利用效率较低这2个问题,提出一种基于裁剪优化和策略指导的PPO(COAPG-PPO)算法。首先,通过分析PPO的裁剪机制,设计基于Wasserstein距离的信任域裁剪方案,加强对新旧策略差异的约束;其次,在策略更新过程中,融入模拟退火和贪心算法的思想,提升算法的探索效率和学习速度。为了验证所提算法的有效性,使用MuJoCo测试基准对COAPG-PPO与CO-PPO(PPO based on Clipping Optimization)、PPO-CMA(PPO with Covariance Matrix Adaptation)、TR-PPO-RB(Trust Region-based PPO with RollBack)和PPO算法进行对比实验。实验结果表明,COAPG-PPO算法在大多数环境中具有更严格的约束能力、更高的探索和利用效率,以及更高的奖励值。 展开更多
关键词 深度强化学习 近端策略优化 信任域约束 模拟退火 贪心算法
下载PDF
计及风电爬坡的储能分布鲁棒优化配置方法
17
作者 时帅 蒋一 +3 位作者 黄冬梅 李媛媛 虞颖 宋巍 《上海电力大学学报》 CAS 2024年第5期459-467,共9页
深远海场景下的风电场受热带气旋等极端气候影响将产生大规模风电功率爬坡事件,严重威胁电网安全稳定运行。对此,提出了一种将深度强化学习和分布鲁棒优化结合起来平抑风电功率爬坡事件的储能容量优化配置方法。首先,基于改进旋转门算... 深远海场景下的风电场受热带气旋等极端气候影响将产生大规模风电功率爬坡事件,严重威胁电网安全稳定运行。对此,提出了一种将深度强化学习和分布鲁棒优化结合起来平抑风电功率爬坡事件的储能容量优化配置方法。首先,基于改进旋转门算法识别风电功率爬坡事件,采用近端策略优化算法对风电功率爬坡事件进行平抑。其次,基于深度强化学习训练的模型,采用分布鲁棒优化对储能进行容量配置优化。最后,对不同场景下的储能容量配置结果进行比较分析。仿真结果验证了所提优化配置方法的有效性。 展开更多
关键词 风电功率爬坡 热带气旋 储能配置 近端策略优化算法 分布鲁棒优化
下载PDF
基于近端优化的永磁同步电机温度预测方法 被引量:2
18
作者 岑岗 张晨光 +2 位作者 岑跃峰 马伟锋 赵澄 《汽车技术》 CSCD 北大核心 2021年第3期26-32,共7页
为了精准有效地实现永磁同步电机的温度预测,提出了一种基于近端策略优化(PPO)算法和强化学习(RL)网络的永磁同步电机温度预测模型,即PPO-RL模型,利用PPO算法定义模型训练的损失目标函数,选择Nadam算法作为模型优化器,通过强化学习的Act... 为了精准有效地实现永磁同步电机的温度预测,提出了一种基于近端策略优化(PPO)算法和强化学习(RL)网络的永磁同步电机温度预测模型,即PPO-RL模型,利用PPO算法定义模型训练的损失目标函数,选择Nadam算法作为模型优化器,通过强化学习的Actor-Critic框架最小化损失目标函数,进而完成模型的迭代训练。采用Kaggle公开的永磁同步电机测量数据集进行试验,结果表明,与指数加权移动平均法、循环神经网络和长短期记忆网络相比,PPO-RL模型具有更高的预测精度和可靠性。 展开更多
关键词 永磁同步电机 温度预测 近端策略优化算法 强化学习
下载PDF
基于PPO的移动平台自主导航 被引量:2
19
作者 徐国艳 熊绎维 +1 位作者 周彬 陈冠宏 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2022年第11期2138-2145,共8页
为解决强化学习算法在自主导航任务中动作输出不连续、训练收敛困难等问题,提出了一种基于近似策略优化(PPO)算法的移动平台自主导航方法。在PPO算法的基础上设计了基于正态分布的动作策略函数,解决了移动平台整车线速度和横摆角速度的... 为解决强化学习算法在自主导航任务中动作输出不连续、训练收敛困难等问题,提出了一种基于近似策略优化(PPO)算法的移动平台自主导航方法。在PPO算法的基础上设计了基于正态分布的动作策略函数,解决了移动平台整车线速度和横摆角速度的输出动作连续性问题。设计了一种改进的人工势场算法作为自身位置评价,有效提高强化学习模型在自主导航场景中的收敛速度。针对导航场景设计了模型的网络框架和奖励函数,并在Gazebo仿真环境中进行模型训练,结果表明,引入自身位置评价的模型收敛速度明显提高。将收敛模型移植入真实环境中,验证了所提方法的有效性。 展开更多
关键词 近似策略优化算法 移动平台 自主导航 强化学习 人工势场
下载PDF
基于深度强化学习的多机协同空战方法研究 被引量:55
20
作者 施伟 冯旸赫 +4 位作者 程光权 黄红蓝 黄金才 刘忠 贺威 《自动化学报》 EI CAS CSCD 北大核心 2021年第7期1610-1623,共14页
多机协同是空中作战的关键环节,如何处理多实体间复杂的协作关系、实现多机协同空战的智能决策是亟待解决的问题.为此,提出基于深度强化学习的多机协同空战决策流程框架(Deep-reinforcement-learning-based multi-aircraft cooperative ... 多机协同是空中作战的关键环节,如何处理多实体间复杂的协作关系、实现多机协同空战的智能决策是亟待解决的问题.为此,提出基于深度强化学习的多机协同空战决策流程框架(Deep-reinforcement-learning-based multi-aircraft cooperative air combat decision framework,DRL-MACACDF),并针对近端策略优化(Proximal policy optimization,PPO)算法,设计4种算法增强机制,提高多机协同对抗场景下智能体间的协同程度.在兵棋推演平台上进行的仿真实验,验证了该方法的可行性和实用性,并对对抗过程数据进行了可解释性复盘分析,研讨了强化学习与传统兵棋推演结合的交叉研究方向. 展开更多
关键词 多机协同空战 智能决策 深度强化学习 PPO算法 增强机制
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部