期刊文献+
共找到60篇文章
< 1 2 3 >
每页显示 20 50 100
基于stacking融合机制的自动驾驶伦理决策模型
1
作者 刘国满 盛敬 罗玉峰 《计算机应用研究》 北大核心 2025年第2期462-468,共7页
虽然自动驾驶技术在线路规划和驾驶控制方面取得较大进展,但遇到伦理困境时,当前自动驾驶汽车仍然很难作出确定、合理的决策,导致人们对自动驾驶汽车安全驾驶产生怀疑和担忧。所以有必要研究自动驾驶伦理决策模型和机制,使得自动驾驶汽... 虽然自动驾驶技术在线路规划和驾驶控制方面取得较大进展,但遇到伦理困境时,当前自动驾驶汽车仍然很难作出确定、合理的决策,导致人们对自动驾驶汽车安全驾驶产生怀疑和担忧。所以有必要研究自动驾驶伦理决策模型和机制,使得自动驾驶汽车在伦理困境下能够作出合理决策。针对以上问题,设计了基于stacking融合机制的伦理决策模型,对机器学习和深度学习进行深度融合。一方面将基于特征依赖关系的朴素贝叶斯模型(ACNB)、加权平均一阶贝叶斯模型(WADOE)和自适应模糊模型(AFD)作为stacking融合机制上基学习器。依据先前准确率,设定各自模型权重,再运用加权平均法,计算决策结果。然后将该决策结果作为元学习器训练集,对元学习器进行训练,构建stacking融合模型。最后,运用验证集分别对深度学习模型和stacking融合模型进行验证,依据验证中平均损失率和准确率以及测试中正确率,评价和比较深度学习模型和stacking融合机制决策效果。结果表明,深度学习模型平均损失率最小为0.64,最大平均准确率为0.7,最高正确率为0.61。stacking融合机制平均损失率最小为0.35,最大平均准确率为0.90,最高正确率为0.75,说明stacking融合机制相对于深度学习模型,决策结果准确率和正确率方面有了较大改进。 展开更多
关键词 自动驾驶汽车 伦理决策 stacking融合机制 深度学习
下载PDF
基于改进深度强化学习算法的行为决策方法
2
作者 贾瑞豪 《汽车实用技术》 2025年第1期25-30,共6页
针对传统深度强化学习算法因训练时探索策略差导致在自动驾驶决策任务中同时出现行驶效率低、收敛慢和决策成功率低的问题,提出了结合专家评价的深度竞争双Q网络的决策方法。提出离线专家模型和在线模型,在两者间引入自适应平衡因子;引... 针对传统深度强化学习算法因训练时探索策略差导致在自动驾驶决策任务中同时出现行驶效率低、收敛慢和决策成功率低的问题,提出了结合专家评价的深度竞争双Q网络的决策方法。提出离线专家模型和在线模型,在两者间引入自适应平衡因子;引入自适应重要性系数的优先经验回放机制在竞争深度Q网络的基础上搭建在线模型;设计了考虑行驶效率、安全性和舒适性的奖励函数。结果表明,该算法相较于D3QN、PERD3QN在收敛速度上分别提高了25.93%和20.00%,决策成功率分别提高了3.19%和2.77%,平均步数分别降低了6.40%和0.14%,平均车速分别提升了7.46%与0.42%。 展开更多
关键词 自动驾驶 行为决策 深度强化学习 模仿学习 改进DQN算法
下载PDF
基于柔性演员-评论家算法的决策规划协同研究 被引量:1
3
作者 唐斌 刘光耀 +3 位作者 江浩斌 田宁 米伟 王春宏 《交通运输系统工程与信息》 EI CSCD 北大核心 2024年第2期105-113,187,共10页
为了解决基于常规深度强化学习(Deep Reinforcement Learning, DRL)的自动驾驶决策存在学习速度慢、安全性及合理性较差的问题,本文提出一种基于柔性演员-评论家(Soft Actor-Critic,SAC)算法的自动驾驶决策规划协同方法,并将SAC算法与... 为了解决基于常规深度强化学习(Deep Reinforcement Learning, DRL)的自动驾驶决策存在学习速度慢、安全性及合理性较差的问题,本文提出一种基于柔性演员-评论家(Soft Actor-Critic,SAC)算法的自动驾驶决策规划协同方法,并将SAC算法与基于规则的决策规划方法相结合设计自动驾驶决策规划协同智能体。结合自注意力机制(Self Attention Mechanism, SAM)和门控循环单元(Gate Recurrent Unit, GRU)构建预处理网络;根据规划模块的具体实现方式设计动作空间;运用信息反馈思想设计奖励函数,给智能体添加车辆行驶条件约束,并将轨迹信息传递给决策模块,实现决策规划的信息协同。在CARLA自动驾驶仿真平台中搭建交通场景对智能体进行训练,并在不同场景中将所提出的决策规划协同方法与常规的基于SAC算法的决策规划方法进行比较,结果表明,本文所设计的自动驾驶决策规划协同智能体学习速度提高了25.10%,由其决策结果生成的平均车速更高,车速变化率更小,更接近道路期望车速,路径长度与曲率变化率更小。 展开更多
关键词 智能交通 自动驾驶 柔性演员-评论家算法 决策规划协同 深度强化学习
下载PDF
移动机器人导航路径的自主学习粒子群规划方法 被引量:1
4
作者 吴妮妮 王岫鑫 《机械设计与制造》 北大核心 2024年第7期342-346,共5页
为了减小移动机器人行驶路径长度,提出了基于自主学习粒子群算法的导航路径规划方法。以减小路径长度为目标建立了路径规划模型;为了防止机器人发生碰撞,给出了障碍物膨化处理方法。在粒子群算法中引入了由多种粒子学习策略组成的学习... 为了减小移动机器人行驶路径长度,提出了基于自主学习粒子群算法的导航路径规划方法。以减小路径长度为目标建立了路径规划模型;为了防止机器人发生碰撞,给出了障碍物膨化处理方法。在粒子群算法中引入了由多种粒子学习策略组成的学习策略池,并给出了粒子对学习策略进行选择的自主学习策略,从而提出了具有较强进化能力的自主学习粒子群算法。经算法性能测试,自主学习粒子群算法的优化能力强于传统粒子群算法和文献[11]改进粒子群算法;将自主学习粒子群算法应用于简单场景和复杂场景的路径规划,该算法规划的路径均值和标准差均小于传统粒子群算法,验证了自主学习粒子群算法在机器人路径规划中的优越性。 展开更多
关键词 移动机器人 路径规划 学习策略池 自主学习策略 粒子群算法
下载PDF
基于多通道交叉注意力融合的三维目标检测算法
5
作者 鲁斌 杨振宇 +2 位作者 孙洋 刘亚伟 王明晗 《智能系统学报》 CSCD 北大核心 2024年第4期885-897,共13页
针对现有单阶段三维目标检测算法对点云下采样特征利用方式单一、特征对长程上下文信息的聚合程度无法满足算法性能提升需求的问题,本文提出了基于多通道交叉注意力融合的单阶段三维目标检测算法。首先,设计通道交叉注意力模块用于融合... 针对现有单阶段三维目标检测算法对点云下采样特征利用方式单一、特征对长程上下文信息的聚合程度无法满足算法性能提升需求的问题,本文提出了基于多通道交叉注意力融合的单阶段三维目标检测算法。首先,设计通道交叉注意力模块用于融合下采样特征,可基于交叉注意力机制在通道层面上增强多尺度特征对不同感受野下长程空间信息的表达能力;然后,提出级联特征激励模块,结合原始下采样特征对通道交叉注意力加权特征进行级联激励,提升算法对关键空间特征的学习能力。在公共自动驾驶数据集KITTI上进行了大量实验并与主流算法对比,本文算法作为单阶段目标检测算法,在车辆类别3个难度级别上的检测准确率分别为91.34%、79.85%和75.98%,较基线算法分别提升了4.83%、3.26%和3.32%。实验结果证明了本文算法及所提模块在三维目标检测任务上的有效性和先进性。 展开更多
关键词 三维点云 自动驾驶 激光雷达 深度学习 三维目标检测 柱体素 交叉注意力 单阶段算法
下载PDF
基于改进机器学习的图书馆机器人自主避障控制研究 被引量:1
6
作者 李静 罗征 +1 位作者 闫振平 张县 《计算机测量与控制》 2024年第9期200-205,240,共7页
为控制图书馆机器人在行进过程中自动躲避障碍,达到理想工作效果,提出基于改进机器学习的图书馆机器人自主避障控制方法;采集图书馆机器人与目标障碍物距离信息,感知环境特征向量,当成卷积神经网络输入,经卷积、池化等操作,输出图书馆... 为控制图书馆机器人在行进过程中自动躲避障碍,达到理想工作效果,提出基于改进机器学习的图书馆机器人自主避障控制方法;采集图书馆机器人与目标障碍物距离信息,感知环境特征向量,当成卷积神经网络输入,经卷积、池化等操作,输出图书馆机器人对当前环境感知结果,该结果经输入输出变量模糊化、模糊推理以及输出变量解模糊等操作后,实现图书馆机器人自主避障无冲突运行;实验结果表明:该方法自主避障控制效果较好,避障行驶距离短,高速运行时反应更快,能够避开多个障碍物,识别分类结果与实际感知环境类型一致。 展开更多
关键词 改进机器学习 图书馆机器人 自主避障控制 粒子群算法 卷积神经网络 模糊PID算法
下载PDF
基于双估计强化学习结合前向预测控制的自动驾驶运动控制研究 被引量:2
7
作者 杜国栋 邹渊 +2 位作者 张旭东 孙文景 孙巍 《汽车工程》 EI CSCD 北大核心 2024年第4期564-576,共13页
运动控制研究是实现自动驾驶目标的重要组成部分,针对传统强化学习算法在求解中因单步决策局限而导致控制序列次优的问题,提出了一种基于双估计强化学习算法及前向预测控制方法结合的运动控制框架(DEQL-FPC)。在该框架中引入双估计器以... 运动控制研究是实现自动驾驶目标的重要组成部分,针对传统强化学习算法在求解中因单步决策局限而导致控制序列次优的问题,提出了一种基于双估计强化学习算法及前向预测控制方法结合的运动控制框架(DEQL-FPC)。在该框架中引入双估计器以解决传统强化学习方法动作值过估计问题并提高训练优化的速度,设计前向预测多步决策方法替代传统强化学习的单步决策,以有效提高全局控制策略的性能。通过虚拟驾驶环境仿真,证明了该控制框架应用在自动驾驶汽车的路径跟踪以及安全避障的优越性,保证了运动控制中的精确性、安全性、快速性以及舒适性。 展开更多
关键词 自动驾驶汽车 运动控制优化 双估计强化学习算法 前向预测控制方法
下载PDF
基于深度强化学习CLPER-DDPG的车辆纵向速度规划
8
作者 柳鹏 赵克刚 +1 位作者 梁志豪 叶杰 《汽车安全与节能学报》 CAS CSCD 北大核心 2024年第5期702-710,共9页
为了解决车辆纵向速度规划任务中规划器不易收敛以及在多场景之间切换时稳定性差的问题,基于多层感知机设计了车辆纵向速度规划器,构建了结合优先经验回放机制和课程学习机制的深度确定性策略梯度算法。该文设计了仿真场景进行模型的训... 为了解决车辆纵向速度规划任务中规划器不易收敛以及在多场景之间切换时稳定性差的问题,基于多层感知机设计了车辆纵向速度规划器,构建了结合优先经验回放机制和课程学习机制的深度确定性策略梯度算法。该文设计了仿真场景进行模型的训练和测试,并对深度确定性策略梯度(DDPG)、结合优先经验回放机制的深度确定性策略梯度(PER-DDPG)、结合优先经验回放机制和课程学习机制的深度确定性策略梯度(CLPER-DDPG)3种算法进行对比实验,并在园区内的真实道路上进行实车实验。结果表明:相比于DDPG算法,CLPER-DDPG算法使规划器的收敛速度提高了56.45%,距离差均值降低了16.61%,速度差均值降低了15.25%,冲击度均值降低了18.96%。此外,当实验场景的环境气候和传感器硬件等参数发生改变时,模型能保证在安全的情况下完成纵向速度规划任务。 展开更多
关键词 自动驾驶 纵向速度规划 深度确定性策略梯度(DDPG)算法 课程学习机制 优先经验回放机制
下载PDF
基于深度强化学习的AUV路径规划研究
9
作者 房鹏程 周焕银 董玫君 《机床与液压》 北大核心 2024年第9期134-141,共8页
针对三维海洋环境水下自主航行器(AUV)路径规划问题,传统的路径规划算法在三维空间中搜索时间长,对环境的依赖性强,且环境发生改变时,需要重新规划路径,不满足实时性要求。为了使AUV能够自主学习场景并做出决策,提出一种改进的Dueling ... 针对三维海洋环境水下自主航行器(AUV)路径规划问题,传统的路径规划算法在三维空间中搜索时间长,对环境的依赖性强,且环境发生改变时,需要重新规划路径,不满足实时性要求。为了使AUV能够自主学习场景并做出决策,提出一种改进的Dueling DQN算法,更改了传统的网络结构以适应AUV路径规划场景。此外,针对路径规划在三维空间中搜寻目标点困难的问题,在原有的优先经验回放池基础上提出了经验蒸馏回放池,使智能体学习失败经验从而提高模型前期的收敛速度和稳定性。仿真实验结果表明:所提出的算法比传统路径规划算法具有更高的实时性,规划路径更短,在收敛速度和稳定性方面都优于标准的DQN算法。 展开更多
关键词 自主水下航行器(AUV) 三维路径规划 深度强化学习 Dueling DQN算法
下载PDF
Tube-based robust reinforcement learning for autonomous maneuver decision for UCAVs
10
作者 Lixin WANG Sizhuang ZHENG +3 位作者 Haiyin PIAO Changqian LU Ting YUE Hailiang LIU 《Chinese Journal of Aeronautics》 SCIE EI CAS CSCD 2024年第7期391-405,共15页
Reinforcement Learning(RL)algorithms enhance intelligence of air combat AutonomousManeuver Decision(AMD)policy,but they may underperform in target combat environmentswith disturbances.To enhance the robustness of the ... Reinforcement Learning(RL)algorithms enhance intelligence of air combat AutonomousManeuver Decision(AMD)policy,but they may underperform in target combat environmentswith disturbances.To enhance the robustness of the AMD strategy learned by RL,thisstudy proposes a Tube-based Robust RL(TRRL)method.First,this study introduces a tube todescribe reachable trajectories under disturbances,formulates a method for calculating tubes basedon sum-of-squares programming,and proposes the TRRL algorithm that enhances robustness byutilizing tube size as a quantitative indicator.Second,this study introduces offline techniques forregressing the tube size function and establishing a tube library before policy learning,aiming toeliminate complex online tube solving and reduce the computational burden during training.Furthermore,an analysis of the tube library demonstrates that the mitigated AMD strategy achievesgreater robustness,as smaller tube sizes correspond to more cautious actions.This finding highlightsthat TRRL enhances robustness by promoting a conservative policy.To effectively balanceaggressiveness and robustness,the proposed TRRL algorithm introduces a“laziness factor”as aweight of robustness.Finally,combat simulations in an environment with disturbances confirm thatthe AMD policy learned by the TRRL algorithm exhibits superior air combat performance comparedto selected robust RL baselines. 展开更多
关键词 Air combat autonomous maneuver decision Robust reinforcement learning Tube-based algorithm Combat simulation
原文传递
具身学习视角下身心融合式师德培育模式探讨
11
作者 陈洁莹 宋萑 《现代教育论丛》 2024年第6期56-65,共10页
以往的师德培育与发展中,存在身体体验被忽视的现象,如师德培训的“知行分离”以及权力对教师身体发展道德的规训等。针对这一现象,许多研究阐明了具身学习理论的基本要点,并指出了具身方式比离身方式更能促进师德发展,但缺乏系统探讨... 以往的师德培育与发展中,存在身体体验被忽视的现象,如师德培训的“知行分离”以及权力对教师身体发展道德的规训等。针对这一现象,许多研究阐明了具身学习理论的基本要点,并指出了具身方式比离身方式更能促进师德发展,但缺乏系统探讨具身方式和师德培育相互关系的研究。基于此,本研究通过梳理西方具身认知理论指导下学习理论的发展,并从本体论、价值论、实践论角度出发反思具身学习理论与师德培育的逻辑契合,从而构建出更加全面、深入和有效的具身师德培育体系,即以重视教师本体的具身路径促使教师自主建构师德实践准则。 展开更多
关键词 具身学习 师德 逻辑契合 自主建构
下载PDF
基于深度强化学习的无人机自主探索方法
12
作者 唐嘉宁 李成阳 +2 位作者 周思达 马孟星 施炀 《计算机科学》 CSCD 北大核心 2024年第S02期144-149,共6页
无人机面对非结构化未知环境,如山地和丛林等场景进行探索时,必须在缺乏先验条件的情况下同时进行环境感知和航迹规划。传统方法受制于算法和传感器等多重因素的制约,探索范围有限,效率低下,并易受到环境变化的干扰。为解决这一问题,提... 无人机面对非结构化未知环境,如山地和丛林等场景进行探索时,必须在缺乏先验条件的情况下同时进行环境感知和航迹规划。传统方法受制于算法和传感器等多重因素的制约,探索范围有限,效率低下,并易受到环境变化的干扰。为解决这一问题,提出了一种基于深度强化学习的无人机自主探索方法。该方法以归一化优势函数(Normalized Advantage Functions,NAF)算法为基础,引入了3种算法增强机制,以提升无人机在非结构化未知环境中的探索范围和效率。在自行设计的仿真环境中进行实验,结果表明,改进后的NAF算法相较于原始版本,具有更大的探索范围和更高的效率,同时表现出优越的收敛性和鲁棒性。 展开更多
关键词 无人机自主探索 智能决策 深度强化学习 NAF算法 增强机制
下载PDF
无人机自主精准降落的跟踪算法研究
13
作者 陈潇 徐曙 +1 位作者 钟灿堂 赵晓丹 《自动化仪表》 CAS 2024年第9期65-69,75,共6页
为了提高无人机自主精准降落的准确性、增强无人机自主着陆的适应性,研究了一种新式无人机跟踪算法。首先,对无人机与着陆目标确定相对位置的计算过程和原理进行分析,总结出传统着陆目标跟踪算法的缺点。然后,创新性地将跟踪学习检测(T... 为了提高无人机自主精准降落的准确性、增强无人机自主着陆的适应性,研究了一种新式无人机跟踪算法。首先,对无人机与着陆目标确定相对位置的计算过程和原理进行分析,总结出传统着陆目标跟踪算法的缺点。然后,创新性地将跟踪学习检测(TLD)算法与目标跟踪中的核化相关滤波(KCF)算法相结合,利用KCF算法的优势优化TLD算法,得到TLD+KCF目标跟踪算法。最后,提出基于无人机降落的优化算法,并设置对照组验证算法性能。对比结果表明,所提算法的准确率和成功率超过了对比算法。该算法精度高、稳定性强,可实现无人机自主精准降落。该研究有助于提高无人机自主精准降落的准确性。 展开更多
关键词 无人机 自主降落 控制系统 跟踪学习检测算法 核化相关滤波算法 目标追踪
下载PDF
基于深度强化学习的自主换道控制模型
14
作者 孙腾超 陈焕明 《农业装备与车辆工程》 2024年第4期30-34,共5页
为解决自动驾驶汽车快速安全换道问题,提出并改进了一种基于深度强化学习的自主换道控制模型。首先建立车辆动力学运动模型,其次使用深度确定性策略梯度(DDPG)算法更新模型,最后通过MATLAB/CarSim对学习到的控制策略进行联合仿真验证。... 为解决自动驾驶汽车快速安全换道问题,提出并改进了一种基于深度强化学习的自主换道控制模型。首先建立车辆动力学运动模型,其次使用深度确定性策略梯度(DDPG)算法更新模型,最后通过MATLAB/CarSim对学习到的控制策略进行联合仿真验证。为了使模型更真实可靠,提出将CarSim融入智能体的训练,同时为解决传统模型在换道后期控制效果不理想问题,提出一种基于采样时间的方向盘转角输出模型。结果表明:在60、80 km/h车速下,提出的模型从换道开始到稳定行驶的过程相比于改进前更平顺、快速,验证了模型能够实现一般车速下的自主换道控制,为车辆的自主换道研究提供一定的参考。 展开更多
关键词 自动驾驶汽车 自主换道模型 深度强化学习 轨迹规划跟踪 深度确定性策略梯度算法
下载PDF
基于改进MAAC算法的多无人机自主路径规划
15
作者 周从航 李建兴 +1 位作者 石宇静 林致睿 《无线电工程》 2024年第7期1816-1823,共8页
利用深度强化学习方法对威胁区域环境下多无人机(UAV)自主路径规划问题进行研究。为了解决强化学习算法中普遍存在难以收敛的问题,提出了一种改进的Actor-Attention-Critic for Multi-Agent Reinforcement Learning (MAAC)算法用于多UA... 利用深度强化学习方法对威胁区域环境下多无人机(UAV)自主路径规划问题进行研究。为了解决强化学习算法中普遍存在难以收敛的问题,提出了一种改进的Actor-Attention-Critic for Multi-Agent Reinforcement Learning (MAAC)算法用于多UAV的自主路径规划。通过建立多UAV势场环境模型定义强化学习的马尔科夫决策过程(Markov Modulated Process, MDP),在动态环境中规划出合理的无碰撞路径。仿真实验验证了所设计的多UAV自主路径规划控制算法的有效性,并通过对比仿真验证了该算法在收敛速度和避免碰撞方面具有更优越的性能。 展开更多
关键词 无人机 多智能体深度强化学习 自主路径规划 MAAC算法
下载PDF
基于CQL-SAC的自动驾驶防撞决策方法
16
作者 刘玉辉 于镝 《北京信息科技大学学报(自然科学版)》 2024年第3期16-24,共9页
针对深度强化学习在自动驾驶任务中存在价值函数过估计、学习效率低、安全性差等问题,提出了一种自动驾驶防撞决策方法。首先,将保守Q学习(conservative Q-learning, CQL)算法与软行动评论(soft actor-critic, SAC)算法融合,提出CQL-SA... 针对深度强化学习在自动驾驶任务中存在价值函数过估计、学习效率低、安全性差等问题,提出了一种自动驾驶防撞决策方法。首先,将保守Q学习(conservative Q-learning, CQL)算法与软行动评论(soft actor-critic, SAC)算法融合,提出CQL-SAC算法,以缓解价值过估计问题。然后,在算法训练过程中引入专家经验,实现算法快速收敛,以解决学习效率低的问题。最后,利用防撞模块对CQL-SAC算法输出的动作进行安全检查和矫正,避免车辆碰撞。在基于高速公路的仿真场景下对方法有效性进行验证。仿真结果表明,在训练阶段,CQL-SAC算法相比SAC算法和样本内行动评论(in-sample actor-critic, InAC)算法收敛速度分别提升12.5%、5.4%,引入专家经验后算法收敛速度进一步提升14.3%;在测试阶段,本文算法与SAC和InAC算法相比,成功率分别提升17、12百分点,平均回合奖励分别提升23.1%、10.7%。 展开更多
关键词 智慧交通 自动驾驶决策 保守Q学习算法 软行动评论算法 专家经验 防撞策略
下载PDF
移动自主学堂及其应用 被引量:10
17
作者 王瑞 李永波 +2 位作者 王晓东 姜波 孟杨 《河南师范大学学报(自然科学版)》 CAS 北大核心 2014年第6期162-166,共5页
首先研究了开发原理与主要功能,论述了系统架构,包括开发环境、目录结构、引用框架、数据库架构等;其次,探讨了移动自主学堂支持下的教学模式与学习方式——"四课型"模式;最后,基于系统运行产生的数据库,研究了基于多值属性... 首先研究了开发原理与主要功能,论述了系统架构,包括开发环境、目录结构、引用框架、数据库架构等;其次,探讨了移动自主学堂支持下的教学模式与学习方式——"四课型"模式;最后,基于系统运行产生的数据库,研究了基于多值属性关联的关联规则挖据数据分析模型. 展开更多
关键词 移动自主学堂 IOS 教学模式 学习方式 算法
下载PDF
水下机器人T-S型模糊神经网络控制 被引量:18
18
作者 梁霄 张均东 +3 位作者 李巍 郭冰洁 万磊 徐玉如 《电机与控制学报》 EI CSCD 北大核心 2010年第7期99-104,共6页
针对水下机器人模糊神经网络控制器运算量大和对强外界扰动的鲁棒性差及存在滞后性的问题,提出基于混合学习算法的水下机器人T-S型模糊神经网络控制方法。采用免疫遗传算法离线优化和神经网络自学习在线调整隶属函数的参数,从而减少神... 针对水下机器人模糊神经网络控制器运算量大和对强外界扰动的鲁棒性差及存在滞后性的问题,提出基于混合学习算法的水下机器人T-S型模糊神经网络控制方法。采用免疫遗传算法离线优化和神经网络自学习在线调整隶属函数的参数,从而减少神经网络的运算量,增强水下机器人对环境变化的反应能力。采用T-S模型,由后件网络动态调整模糊规则,提高控制系统的适应性。通过某微小型水下机器人的仿真和外场实验验证方法的可行性和优越性。实验结果表明,控制器对外界扰动具有较强的鲁棒性,保证即使在恶劣情况下,控制性能仍保持在较高水平。 展开更多
关键词 水下机器人 模糊神经网络控制 免疫遗传算法 混合学习算法 T-S模型
下载PDF
基于逆向强化学习的纵向自动驾驶决策方法 被引量:7
19
作者 高振海 闫相同 高菲 《汽车工程》 EI CSCD 北大核心 2022年第7期969-975,共7页
基于人类驾驶员数据获得自动驾驶决策策略是当前自动驾驶技术研究的热点。经典的强化学习决策方法大多通过设计安全性、舒适性、经济性相关公式人为构建奖励函数,决策策略与人类驾驶员相比仍然存在较大差距。本文中使用最大边际逆向强... 基于人类驾驶员数据获得自动驾驶决策策略是当前自动驾驶技术研究的热点。经典的强化学习决策方法大多通过设计安全性、舒适性、经济性相关公式人为构建奖励函数,决策策略与人类驾驶员相比仍然存在较大差距。本文中使用最大边际逆向强化学习算法,将驾驶员驾驶数据作为专家演示数据,建立相应的奖励函数,并实现仿驾驶员的纵向自动驾驶决策。仿真测试结果表明:相比于强化学习方法,逆向强化学习方法的奖励函数从驾驶员的数据中自动化的提取,降低了奖励函数的建立难度,得到的决策策略与驾驶员的行为具有更高的一致性。 展开更多
关键词 自动驾驶 决策算法 强化学习 逆向强化学习
下载PDF
仿驾驶员DDPG汽车纵向自动驾驶决策方法 被引量:12
20
作者 高振海 闫相同 +1 位作者 高菲 孙天骏 《汽车工程》 EI CSCD 北大核心 2021年第12期1737-1744,共8页
汽车纵向自动驾驶的决策层根据车辆当前运动状态与环境信息,决策出理想的动作指令。目前如何在自动驾驶决策策略中考虑人类驾驶员的行为成为研究热点。在纵向自动驾驶决策策略中传统的基于规则的决策策略难以运用到复杂的场景中,而当前... 汽车纵向自动驾驶的决策层根据车辆当前运动状态与环境信息,决策出理想的动作指令。目前如何在自动驾驶决策策略中考虑人类驾驶员的行为成为研究热点。在纵向自动驾驶决策策略中传统的基于规则的决策策略难以运用到复杂的场景中,而当前使用强化学习和深度强化学习的决策方法大多通过设计安全性、舒适性、经济性相关公式构建奖励函数,得到的决策策略与人类驾驶员相比仍然存在较大差距。针对以上问题,本文使用驾驶员数据通过BP神经网络拟合设计奖励函数,使用深度强化学习DDPG算法,建立了一种仿驾驶员的纵向自动驾驶决策方法。最终通过仿真测试验证了该方法的有效性和与驾驶员行为的一致性。 展开更多
关键词 自动驾驶 决策算法 深度强化学习 深度确定性策略梯度
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部