期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
基于强化学习PPO算法的上市公司投资组合管理
1
作者 代一方 《中国管理信息化》 2024年第5期140-143,共4页
传统的投资组合管理方法往往依赖于经验规则或数学模型,难以充分利用市场信息和动态调整投资策略。为了解决这一问题,文章提出一种基于强化学习PPO(Proximal Policy Optimization)算法的新方法。使用上市公司的历史数据进行训练和测试,... 传统的投资组合管理方法往往依赖于经验规则或数学模型,难以充分利用市场信息和动态调整投资策略。为了解决这一问题,文章提出一种基于强化学习PPO(Proximal Policy Optimization)算法的新方法。使用上市公司的历史数据进行训练和测试,与传统投资策略和其他强化学习算法进行比较,实验结果表明,基于强化学习PPO算法的投资组合管理方法在投资回报率和风险控制方面取得了显著的改进。 展开更多
关键词 强化学习 ppo算法 投资组合管理 上市公司
下载PDF
基于PPO算法的机器人轴孔装配控制与仿真
2
作者 申玉鑫 刘晓明 +1 位作者 肖逸 余德平 《机械》 2023年第12期74-80,共7页
针对在管道运输和航空航天领域常见的大口径轴孔装配任务,设计一种基于PPO算法的装配控制方法。首先,建立强化学习算法与装配环境交互训练框架,设计两个网络用于拟合装配策略和评估值函数;其次,设计机器人输出的动作空间与装配环境输出... 针对在管道运输和航空航天领域常见的大口径轴孔装配任务,设计一种基于PPO算法的装配控制方法。首先,建立强化学习算法与装配环境交互训练框架,设计两个网络用于拟合装配策略和评估值函数;其次,设计机器人输出的动作空间与装配环境输出的状态空间,保证学习过程中的有效探索;然后,设计非线性奖励函数以确保训练过程的快速收敛;最后,搭建基于MuJoCo物理引擎的机器人大口径轴孔装配仿真平台,并在仿真平台上对设计算法进行训练和实验。结果表明:基于PPO算法的训练框架能保证训练过程的快速收敛,改进后的优势函数估计方法提升了训练过程的稳定性,训练模型不仅能保证轴插入孔和法兰面贴合,还能保证装配过程的安全性。 展开更多
关键词 装配 ppo算法 Mu JoCo仿真
下载PDF
基于PPO算法的攻击路径发现与寻优方法
3
作者 张国敏 张少勇 张津威 《信息网络安全》 CSCD 北大核心 2023年第9期47-57,共11页
基于策略网络选择渗透动作发现最优攻击路径,是自动化渗透测试的一项关键技术。然而,现有方法在训练过程中存在无效动作过多、收敛速度慢等问题。为了解决这些问题,文章将PPO(Proximal Policy Optimization)算法用于解决攻击路径寻优问... 基于策略网络选择渗透动作发现最优攻击路径,是自动化渗透测试的一项关键技术。然而,现有方法在训练过程中存在无效动作过多、收敛速度慢等问题。为了解决这些问题,文章将PPO(Proximal Policy Optimization)算法用于解决攻击路径寻优问题,并提出带有渗透动作选择模块的改进型PPO算法IPPOPAS(Improved PPO with Penetration Action Selection),该算法在获取回合经验时,根据渗透测试场景进行动作筛选。文章设计实现IPPOPAS算法的各个组件,包括策略网络、价值网络和渗透动作选择模块等,对动作选择过程进行改进,并进行参数调优和算法优化,提高了算法的性能和效率。实验结果表明,IPPOPAS算法在特定网络场景中的收敛速度优于传统深度强化学习算法DQN(Deep Q Network)及其改进算法,并且随着主机中漏洞数量的增加,该算法的收敛速度更快。此外,实验还验证了在网络规模扩大的情况下IPPOPAS算法的有效性。 展开更多
关键词 自动化渗透测试 策略网络 ppo算法 攻击路径发现
下载PDF
基于PPO算法优化的IoT环境温度预测研究 被引量:3
4
作者 朱广 霍跃华 +1 位作者 栾庆磊 史艳琼 《传感器与微系统》 CSCD 北大核心 2021年第4期33-36,共4页
针对现有物联网(IoT)环境温度预测方法存在的预测精度低以及预测结果存在滞后性的问题,提出了一种基于优化的近端策略优化(PPO)算法和AC(Actor-Critic)网络的IoT环境温度预测模型(PPO-AC)。模型结合AC强化学习网络构建用于温度预测的双... 针对现有物联网(IoT)环境温度预测方法存在的预测精度低以及预测结果存在滞后性的问题,提出了一种基于优化的近端策略优化(PPO)算法和AC(Actor-Critic)网络的IoT环境温度预测模型(PPO-AC)。模型结合AC强化学习网络构建用于温度预测的双网络模型,并采用优化的PPO算法动态选择损失函数。最后,采用Kaggle数据平台提供的IoT环境温度数据集,通过实验验证了该模型的有效性和稳定性。 展开更多
关键词 物联网(IoT) 近端策略优化(ppo)算法 AC(Actor-Critic)网络 温度预测
下载PDF
基于PPO的球形机器人目标跟随研究
5
作者 靳一聪 应展烽 +2 位作者 刘春政 葛昊 陈志华 《兵器装备工程学报》 CAS CSCD 北大核心 2024年第3期280-285,共6页
球形机器人由于其优异的运动性能、出色的地形适应能力和防侧翻的特性,被广泛应用于水下探测、岸滩巡检等需要适应复杂环境的场景。然而球形机器人系统模型具有欠驱动、非线性的特点,运动控制问题复杂,在复杂应用环境下难以可靠跟随目... 球形机器人由于其优异的运动性能、出色的地形适应能力和防侧翻的特性,被广泛应用于水下探测、岸滩巡检等需要适应复杂环境的场景。然而球形机器人系统模型具有欠驱动、非线性的特点,运动控制问题复杂,在复杂应用环境下难以可靠跟随目标。为此,提出了一种基于近端策略优化(PPO)算法的球形机器人目标跟随方法。该方法基于深度强化学习理论,在球形机器人动力学模型的基础上,设计了简单高效的动作空间和表征完善的状态空间。并且为提高目标跟随方法的鲁棒性,该方法在奖励函数中引入人工势场,以使目标始终保持在机器人视野中心。仿真结果表明,所提方法能够满足既定场景的跟随需求,球形机器人使用该方法可以对随机运动目标进行可靠跟随。 展开更多
关键词 球形机器人 目标跟随 强化学习 ppo算法 人工势场
下载PDF
基于PPO2强化学习算法的空间站轨道预报方法
6
作者 雷骐玮 张洪波 《中国空间科学技术》 CSCD 北大核心 2023年第4期93-103,共11页
影响热层大气密度的因素较多且变化机理复杂,很难建立准确的大气模型,导致大气阻力摄动成为空间站轨道预报精度的主要影响因素之一。研究了基于PPO2强化学习算法的轨道预报方法,利用强化学习网络修正大气模型中的相关参数,提高了轨道预... 影响热层大气密度的因素较多且变化机理复杂,很难建立准确的大气模型,导致大气阻力摄动成为空间站轨道预报精度的主要影响因素之一。研究了基于PPO2强化学习算法的轨道预报方法,利用强化学习网络修正大气模型中的相关参数,提高了轨道预报精度。首先建立了空间站的轨道动力学模型,分析了大气模型参数的误差特性,设计了基于强化学习的轨道动力学模型修正方案。选择PPO2算法作为强化学习算法,设计了训练参量与强化学习网络模型,生成了PPO2算法的训练和测试样本,完成了仿真训练与测试。仿真结果表明,该方案能有效补偿大气密度模型不准确造成的轨道预报误差,提高空间站轨道预报的精度和效率。 展开更多
关键词 大气阻力摄动 空间站 轨道预报 轨道动力学模型修正 ppo2算法
下载PDF
基于PPO2的航天控制器序列决策制导算法设计
7
作者 杨可 翟依婷 +2 位作者 朱志 肖梦旭 董莉 《软件》 2023年第7期5-12,65,共9页
运载火箭的制导回收实现对于航天发展具有重大意义,在火箭回收任务中对回收精确制导、实时低时延的计算能力有高标准,传统回收方法在解决该问题上表现出了一定的缺陷和局限性。本文对控制过程进行马尔可夫决策建模,通过构造PPO2算法框... 运载火箭的制导回收实现对于航天发展具有重大意义,在火箭回收任务中对回收精确制导、实时低时延的计算能力有高标准,传统回收方法在解决该问题上表现出了一定的缺陷和局限性。本文对控制过程进行马尔可夫决策建模,通过构造PPO2算法框架对整个回收过程进行实时求解,采用复合型奖励函数对位置、姿态、着陆阈值和燃料消耗进行相应约束,并对其进行训练。实验表明,基于PPO2算法的回收制导模型可以较好地满足各项约束条件,并实现推力切换最优策略,证明了PPO2算法在处理该问题时可兼顾实时性和控制效果的优化性,对不同初始参数火箭型号和带有扰动的环境偏差均表现出较强的适应能力,具有一定的泛化能力。 展开更多
关键词 深度强化学习 ppo2算法 决策制导
下载PDF
基于强化学习的工业机械臂数字孪生与智能控制 被引量:1
8
作者 王子琪 严知宇 +1 位作者 武辰 王正方 《科技创新与应用》 2023年第23期27-30,共4页
为实现对工业机械臂的实时高效,自动化智能控制,提出一种基于数字孪生技术的工业机械臂控制方法。该方法基于改进的数字孪生系统框架,建立工业机械臂的数字孪生体;链接物理实体和虚拟空间,实现数据的上下行交互;使用深度强化学习算法训... 为实现对工业机械臂的实时高效,自动化智能控制,提出一种基于数字孪生技术的工业机械臂控制方法。该方法基于改进的数字孪生系统框架,建立工业机械臂的数字孪生体;链接物理实体和虚拟空间,实现数据的上下行交互;使用深度强化学习算法训练数字孪生体,实现对工业机械臂的智能控制。 展开更多
关键词 数字孪生 工业机器人 强化学习 智能控制 ppo算法
下载PDF
万向结构蛇形机器人的设计及控制策略研究 被引量:1
9
作者 李亚鑫 逯云飞 +1 位作者 何梓玮 周政辉 《计算机工程与应用》 CSCD 北大核心 2023年第16期143-149,共7页
为了解决蛇形机器人结构复杂、灵活性不足的问题,设计了一款十字轴式万向关节的蛇形机器人。该蛇形机器人由6个模块单元组成,每个模块上均带有被动轮,通过电机驱动滚珠丝杆上的滑块移动,使连杆带动万向关节偏转,以实现蜿蜒运动。不仅如... 为了解决蛇形机器人结构复杂、灵活性不足的问题,设计了一款十字轴式万向关节的蛇形机器人。该蛇形机器人由6个模块单元组成,每个模块上均带有被动轮,通过电机驱动滚珠丝杆上的滑块移动,使连杆带动万向关节偏转,以实现蜿蜒运动。不仅如此,万向节限位机构的多自由度,保证了蛇形机器人运动的灵活性。同时针对蛇形机器人建模复杂的难题,研究提出了一种基于深度强化学习的控制策略。通过MuJoCo物理引擎搭建出用于学习的交互环境,并采用近端策略优化算法(proximal policy optimization,PPO)训练出最优运动策略以指导机器人动作。使用所设计的机器人模型进行学习训练,仿真实验数据表明,采用PPO算法训练出的运动策略能够在不同摩擦系数的环境下完成直行前进的任务,机器人也具备对于不同的地形环境的适应性。最后通过实物实验验证了这一方案的可行性和稳定性。 展开更多
关键词 蛇形机器人 万向结构 强化学习 近端策略优化算法(ppo)
下载PDF
基于深度强化学习的云台追踪检修区矿车方法
10
作者 王国昌 潘冰冰 李琦 《工业控制计算机》 2023年第12期78-80,共3页
矿山检修区工作人员对矿车等机电设备的维修涉及大量的近距离手工操作,具有一定的危险性,安全巡视人员手动控制云台摄像机追踪观察检修车辆存在很大的不便。针对这一情况,采用基于深度强化学习的云台自动追踪检修区矿车方法以辅助安全... 矿山检修区工作人员对矿车等机电设备的维修涉及大量的近距离手工操作,具有一定的危险性,安全巡视人员手动控制云台摄像机追踪观察检修车辆存在很大的不便。针对这一情况,采用基于深度强化学习的云台自动追踪检修区矿车方法以辅助安全巡视人员。该方法模拟了矿车在视频画面中的目标框伴随云台相机的移动而变化的虚拟环境,使用近端策略优化(PPO)算法训练强化学习模型控制云台相机转动。经过实验验证,该算法可自动控制云台相机追踪检修区矿车,使其位于画面中的合适位置,对复杂场景下的云台自动追踪具有一定的普适性。 展开更多
关键词 深度强化学习 近端策略优化算法(ppo) 云台追踪 检修区矿车
下载PDF
基于深度强化学习的多机协同空战方法研究 被引量:43
11
作者 施伟 冯旸赫 +4 位作者 程光权 黄红蓝 黄金才 刘忠 贺威 《自动化学报》 EI CAS CSCD 北大核心 2021年第7期1610-1623,共14页
多机协同是空中作战的关键环节,如何处理多实体间复杂的协作关系、实现多机协同空战的智能决策是亟待解决的问题.为此,提出基于深度强化学习的多机协同空战决策流程框架(Deep-reinforcement-learning-based multi-aircraft cooperative ... 多机协同是空中作战的关键环节,如何处理多实体间复杂的协作关系、实现多机协同空战的智能决策是亟待解决的问题.为此,提出基于深度强化学习的多机协同空战决策流程框架(Deep-reinforcement-learning-based multi-aircraft cooperative air combat decision framework,DRL-MACACDF),并针对近端策略优化(Proximal policy optimization,PPO)算法,设计4种算法增强机制,提高多机协同对抗场景下智能体间的协同程度.在兵棋推演平台上进行的仿真实验,验证了该方法的可行性和实用性,并对对抗过程数据进行了可解释性复盘分析,研讨了强化学习与传统兵棋推演结合的交叉研究方向. 展开更多
关键词 多机协同空战 智能决策 深度强化学习 ppo算法 增强机制
下载PDF
基于强化学习的直流蒸汽发生器控制策略研究 被引量:1
12
作者 李程 余刃 +1 位作者 余文敏 王天舒 《舰船科学技术》 北大核心 2022年第11期89-94,共6页
针对直流蒸汽发生器二回路水容积小,负荷变化过程中蒸汽出口压力极易发生波动、难以控制的特点,设计一种基于强化学习PPO算法的直流蒸汽发生器蒸汽出口压力双层控制结构。该算法通过智能体选取PID参数作为强化学习中的动作Action输出,... 针对直流蒸汽发生器二回路水容积小,负荷变化过程中蒸汽出口压力极易发生波动、难以控制的特点,设计一种基于强化学习PPO算法的直流蒸汽发生器蒸汽出口压力双层控制结构。该算法通过智能体选取PID参数作为强化学习中的动作Action输出,作用到被控对象,利用与其交互后得到奖励值的反馈进行智能体的在线学习,通过上层控制参数调整策略的在线学习和底层PID参数的跟踪调整,从而提升控制器的控制性能。通与传统PID控制算法进行仿真比对实验,验证了基于PPO算法的自适应PID控制器具有响应速度更快、超调量和调整时间更小等优点。 展开更多
关键词 直流蒸汽发生器 强化学习 ppo算法 PID控制
下载PDF
基于深度强化学习的多无人机协同进攻作战智能规划
13
作者 李俊圣 岳龙飞 +2 位作者 左家亮 俞利新 赵家乐 《航空工程进展》 CSCD 2022年第6期40-49,96,共11页
无人机依靠作战效费比高、灵活自主等优势逐步替代了有生力量作战,多无人机协同作战任务规划成为热点研究问题。针对传统任务规划采用的智能优化算法存在的依赖静态、低维的简单场景,机上计算较慢等不足,提出一种基于深度强化学习(DRL)... 无人机依靠作战效费比高、灵活自主等优势逐步替代了有生力量作战,多无人机协同作战任务规划成为热点研究问题。针对传统任务规划采用的智能优化算法存在的依赖静态、低维的简单场景,机上计算较慢等不足,提出一种基于深度强化学习(DRL)的端到端的多无人机协同进攻智能规划方法;将压制敌防空(SEAD)作战任务规划过程建模为马尔科夫决策过程,建立基于近端策略优化(PPO)算法的SEAD智能规划模型,通过两组实验验证智能规划模型的有效性和鲁棒性。结果表明:基于DRL的智能规划方法可以实现快速、精细规划,适应未知、连续高维的环境态势,SEAD智能规划模型具有战术协同规划能力。 展开更多
关键词 多无人机 深度学习 深度强化学习 ppo算法 泛化性 协同作战
下载PDF
基于强化学习的空间机械臂控制方法 被引量:7
14
作者 李鹤宇 林廷宇 +1 位作者 曾贲 施国强 《航天控制》 CSCD 北大核心 2020年第6期38-43,共6页
针对现有空间机械臂控制方法在实际应用中调试时间长、稳定性差的问题,提出一种基于深度强化学习的控制算法。构建仿真环境用于产生数据,通过状态变量实现仿真环境与深度强化学习算法的交互,通过奖励函数实现对神经网络参数的训练,最终... 针对现有空间机械臂控制方法在实际应用中调试时间长、稳定性差的问题,提出一种基于深度强化学习的控制算法。构建仿真环境用于产生数据,通过状态变量实现仿真环境与深度强化学习算法的交互,通过奖励函数实现对神经网络参数的训练,最终实现使用近端策略优化算法(Proximal Policy Optimization,PPO)控制空间机械臂将抓手移动至物体下方特定位置的目的。实验结果表明,本文提出的控制算法能够快速收敛,实现控制空间机械臂完成特定目标,并且有效降低抖动现象,提升控制的稳定性。 展开更多
关键词 空间机械臂 神经网络 深度强化学习 近端策略优化算法(ppo)
下载PDF
DRL-IDS:基于深度强化学习的工业物联网入侵检测系统 被引量:14
15
作者 李贝贝 宋佳芮 +1 位作者 杜卿芸 何俊江 《计算机科学》 CSCD 北大核心 2021年第7期47-54,共8页
近年来,工业物联网迅猛发展,在实现工业数字化、自动化、智能化的同时也带来了大量的网络威胁,且复杂、多样的工业物联网环境为网络入侵者创造了全新的攻击面。传统的入侵检测技术已无法满足当前工业物联网环境下的网络威胁发现需求。对... 近年来,工业物联网迅猛发展,在实现工业数字化、自动化、智能化的同时也带来了大量的网络威胁,且复杂、多样的工业物联网环境为网络入侵者创造了全新的攻击面。传统的入侵检测技术已无法满足当前工业物联网环境下的网络威胁发现需求。对此,文中提出了一种基于深度强化学习算法近端策略优化(Proximal Policy Optimization 2.0,PPO2)的工业物联网入侵检测系统。该系统将深度学习的感知能力和强化学习的决策能力相结合,以实现对工业物联网多种类型网络攻击的有效检测。首先,运用基于LightGBM的特征选择算法筛选出工业物联网数据中最有效的特征集合;然后,结合深度学习算法将多层感知器网络的隐藏层作为PPO2算法中的价值网络和策略网络的共享网络结构;最后,基于PPO2算法构建入侵检测模型,并使用ReLU(Rectified Linear Unit)进行分类输出。在美国能源部橡树岭国家实验室公开发布的工业物联网真实数据集上开展的大量实验表明,所提出的入侵检测系统在检测对工业物联网的多种类型网络攻击时,获得了99.09%的准确率,且在准确率、精密度、召回率、F1评分等指标上均优于目前基于LSTM,CNN,RNN等深度学习模型和DDQN,DQN等深度强化学习模型的入侵检测系统。 展开更多
关键词 工业物联网 网络安全 入侵检测系统 深度强化学习 ppo2算法
下载PDF
基于近端策略优化算法的电化学/氢混合储能系统双层配置及运行优化 被引量:10
16
作者 闫庆友 史超凡 +1 位作者 秦光宇 许传博 《电力建设》 CSCD 北大核心 2022年第8期22-32,共11页
针对电化学储能和氢储能的互补特性,提出了一种包含电化学和氢储能的混合储能系统配置和运行的综合优化模型,并提出了智能算法进行求解。该模型基于双层决策优化问题,将混合储能系统配置及运行2个不同时间维度的问题分上下层进行综合求... 针对电化学储能和氢储能的互补特性,提出了一种包含电化学和氢储能的混合储能系统配置和运行的综合优化模型,并提出了智能算法进行求解。该模型基于双层决策优化问题,将混合储能系统配置及运行2个不同时间维度的问题分上下层进行综合求解,并考虑了两者间的相互影响,采用强化学习近端策略优化(proximal policy optimization,PPO)算法求解该双层优化模型。以甘肃省某地区的风光数据,通过对比应用多种传统算法求解结果,验证了所用算法在复杂环境下适应度最高且收敛速度最快。研究结果表明,应用该模型最大可降低24%的弃风、弃光率,有效提升系统综合效益。氢储能作为容量型储能配置不受地形因素限制,适用于多样的应用场景,从而为氢储能这一新型储能形态在全国的广泛配置提供了应用示范。 展开更多
关键词 风光消纳 储能配置 双层优化 氢储能 近端策略优化(ppo)算法
原文传递
基于强化学习的禁飞区绕飞智能制导技术
17
作者 惠俊鹏 汪韧 郭继峰 《航空学报》 EI CAS CSCD 北大核心 2023年第11期235-247,共13页
人工智能(AI)的快速发展为飞行器制导技术的研究提供新的技术途径。本文针对高速飞行器面临不确定禁飞区的绕飞问题,提出“预测校正制导—基于监督学习预训练倾侧角制导模型—基于强化学习进一步升级倾侧角制导模型”逐级递进的禁飞区... 人工智能(AI)的快速发展为飞行器制导技术的研究提供新的技术途径。本文针对高速飞行器面临不确定禁飞区的绕飞问题,提出“预测校正制导—基于监督学习预训练倾侧角制导模型—基于强化学习进一步升级倾侧角制导模型”逐级递进的禁飞区绕飞智能制导研究框架:一是基于传统预测校正制导生成大量禁飞区绕飞样本轨迹,并基于监督学习方法对倾侧角制导模型进行预训练;二是进一步采用强化学习中近端策略优化算法(PPO)升级倾侧角制导模型,通过飞行器与带有不确定禁飞区环境的大量交互探索,并设置有效的奖励引导,充分挖掘高升阻比飞行器强大的横向机动能力,摆脱传统预测校正制导方法对倾侧角解空间的约束,期望产生更优的绕飞策略。通过与传统预测校正制导和基于监督学习的智能制导的对比分析,验证了基于强化学习的禁飞区绕飞智能制导技术能够充分发挥飞行器的宽域飞行优势,满足未来飞行器智能决策系统对不确定绕飞场景的适应性需求。 展开更多
关键词 智能制导 禁飞区绕飞 强化学习 ppo算法 监督学习
原文传递
基于强化学习的再入飞行器“新质”走廊在线生成技术 被引量:4
18
作者 惠俊鹏 汪韧 俞启东 《航空学报》 EI CAS CSCD 北大核心 2022年第9期615-627,共13页
人工智能技术的突破性进展为飞行器再入制导技术的研究提供了新的技术途径。无论是基于标称轨迹的制导还是预测校正制导,都需要基于人工经验设计飞行走廊参数。本文旨在突破传统制导方法中普遍存在的“锥形”飞行轨迹包络的约束,利用强... 人工智能技术的突破性进展为飞行器再入制导技术的研究提供了新的技术途径。无论是基于标称轨迹的制导还是预测校正制导,都需要基于人工经验设计飞行走廊参数。本文旨在突破传统制导方法中普遍存在的“锥形”飞行轨迹包络的约束,利用强化学习技术在智能决策方面的天然优势,在满足动力学方程和热流率、过载、动压等硬条件的前提下,通过飞行器与环境的大量交互“试错”:一方面,借鉴人类基于反馈来调整学习策略的思想,设置有效的奖励(反馈)引导;另一方面,利用强化学习中近端策略优化(PPO)算法训练飞行器倾侧角制导模型,基于实时的状态信息在线决策倾侧角指令,探索出完全不同于传统制导方法的“新质”飞行走廊。Monte Carlo仿真分析验证了基于强化学习的智能制导技术能够充分发挥飞行器的宽域飞行优势,进一步拓展飞行剖面。 展开更多
关键词 智能制导 “新质”飞行走廊 强化学习 ppo算法 人工智能
原文传递
基于强化学习的挖掘机时间最优轨迹规划
19
作者 张韵悦 孙志毅 +1 位作者 孙前来 王银 《控制与决策》 EI 2024年第5期1433-1440,共8页
针对挖掘机的自主作业场景,提出基于强化学习的时间最优轨迹规划方法.首先,搭建仿真环境用于产生数据,以动臂、斗杆和铲斗关节的角度、角速度为状态观测变量,以各关节的角加速度值为动作信息,通过状态观测信息实现仿真环境与自主学习算... 针对挖掘机的自主作业场景,提出基于强化学习的时间最优轨迹规划方法.首先,搭建仿真环境用于产生数据,以动臂、斗杆和铲斗关节的角度、角速度为状态观测变量,以各关节的角加速度值为动作信息,通过状态观测信息实现仿真环境与自主学习算法的交互;然后,设计以动臂、斗杆和铲斗关节运动是否超出允许范围、完成任务总时间和目标相对距离为奖励函数对策略网络参数进行训练;最后,利用改进的近端策略优化算法(proximal policy optimization, PPO)实现挖掘机的时间最优轨迹规划.与此同时,与不同连续动作空间的强化学习算法进行对比,实验结果表明:所提出优化算法效率更高,收敛速度更快,作业轨迹更平滑,可有效避免各关节受到较大冲击,有助于挖掘机高效、平稳地作业. 展开更多
关键词 挖掘机 自主作业 轨迹规划 多智能体 ppo算法 智能决策
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部