期刊文献+
共找到50篇文章
< 1 2 3 >
每页显示 20 50 100
Recognition and interfere deceptive behavior based on inverse reinforcement learning and game theory
1
作者 ZENG Yunxiu XU Kai 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2023年第2期270-288,共19页
In real-time strategy(RTS)games,the ability of recognizing other players’goals is important for creating artifical intelligence(AI)players.However,most current goal recognition methods do not take the player’s decep... In real-time strategy(RTS)games,the ability of recognizing other players’goals is important for creating artifical intelligence(AI)players.However,most current goal recognition methods do not take the player’s deceptive behavior into account which often occurs in RTS game scenarios,resulting in poor recognition results.In order to solve this problem,this paper proposes goal recognition for deceptive agent,which is an extended goal recognition method applying the deductive reason method(from general to special)to model the deceptive agent’s behavioral strategy.First of all,the general deceptive behavior model is proposed to abstract features of deception,and then these features are applied to construct a behavior strategy that best matches the deceiver’s historical behavior data by the inverse reinforcement learning(IRL)method.Final,to interfere with the deceptive behavior implementation,we construct a game model to describe the confrontation scenario and the most effective interference measures. 展开更多
关键词 deceptive path planning inverse reinforcement learning(irl) game theory goal recognition
下载PDF
异策略模仿-强化学习序列推荐算法
2
作者 刘珈麟 贺泽宇 李俊 《计算机应用研究》 CSCD 北大核心 2024年第5期1349-1355,共7页
最近,强化学习序列推荐系统受到研究者们的广泛关注,这得益于它能更好地联合建模用户感兴趣的内动态和外倾向。然而,现有方法面临同策略评估方法数据利用率低,导致模型依赖大量的专家标注数据,以及启发式价值激励函数设计依赖反复人工... 最近,强化学习序列推荐系统受到研究者们的广泛关注,这得益于它能更好地联合建模用户感兴趣的内动态和外倾向。然而,现有方法面临同策略评估方法数据利用率低,导致模型依赖大量的专家标注数据,以及启发式价值激励函数设计依赖反复人工调试两个主要挑战。因此,提出了一种新颖的异策略模仿-强化学习的序列推荐算法COG4Rec,以提高数据利用效率和实现可学习的价值函数。首先,它通过异策略方式更新分布匹配目标函数,来避免同策略更新密集在线交互限制;其次,COG4Rec采用可学习的价值函数设计,通过对数衰减状态分布比,模仿用户外倾向的价值激励函数;最后,为了避免模仿学习分布漂移问题,COG4Rec通过累积衰减分布比,强化用户行为记录中高价值轨迹片段重组推荐策略。一系列基准数据集上的性能对比实验和消融实验结果表明:COG4Rec比自回归模型提升了17.60%,它比启发式强化学习方法提升了3.25%。这证明了所提模型结构和优化算法的有效性。这也证明可学习的价值函数是可行的,并且异策略方式能有效提高数据利用效率。 展开更多
关键词 异策略评估 模仿学习 逆强化学习 序列推荐
下载PDF
基于近端策略动态优化的多智能体编队方法
3
作者 全家乐 马先龙 沈昱恒 《空天防御》 2024年第2期52-62,共11页
无人机集群系统具有能力冗余、抗毁能力强、适应复杂场景等优势,能够实现高效的任务执行和信息获取。近年来,深度强化学习技术被引入无人机集群编队控制方法中,以解决集群维度爆炸和集群系统建模困难的弊端,但深度强化学习面临训练效率... 无人机集群系统具有能力冗余、抗毁能力强、适应复杂场景等优势,能够实现高效的任务执行和信息获取。近年来,深度强化学习技术被引入无人机集群编队控制方法中,以解决集群维度爆炸和集群系统建模困难的弊端,但深度强化学习面临训练效率低等问题。本文提出了一种基于改进近端策略优化方法的集群编队方法,通过引入动态估计法作为评价机制,解决了传统近端策略优化方法收敛速度慢和忽视高价值动作问题,有效提升了数据利用率。仿真试验证明,该方法能够提高训练效率,解决样本复用问题,具有良好的决策性能。 展开更多
关键词 无人机集群 深度强化学习 近端策略优化 逆强化学习 集群决策
下载PDF
基于逆强化学习与行为树的机械臂复杂操作技能学习方法
4
作者 宋越杰 马陈昊 +1 位作者 孟子晗 刘元归 《现代电子技术》 北大核心 2024年第7期133-139,共7页
现有分层强化学习方法不仅在学习过程中存在样本效率低、奖励稀疏以及学习时间过长等问题,而且大多基于仿真环境,导致学习策略在机器人真实操作环境中部署困难。针对上述问题,提出一种基于逆强化学习与行为树的机械臂复杂操作技能学习... 现有分层强化学习方法不仅在学习过程中存在样本效率低、奖励稀疏以及学习时间过长等问题,而且大多基于仿真环境,导致学习策略在机器人真实操作环境中部署困难。针对上述问题,提出一种基于逆强化学习与行为树的机械臂复杂操作技能学习方法。在对复杂操作任务进行分割的基础上,首先,根据专家演示轨迹确定分割后每个子任务的强化学习参数及其对应的专家策略;其次,根据子任务专家策略并使用生成对抗模仿学习算法进行预训练,得到每个子任务的奖励函数;再次,运用每个子任务的奖励函数并基于SAC算法做进一步训练,获取到每个子任务的最优策略;最后,将子任务最优策略从仿真环境部署到真实环境,并将部署后的每个子任务作为叶节点构建行为树,实现机械臂复杂任务规划。实验结果表明,所提方法能较好地学习机械臂复杂操作技能,并在性能上优于其他传统强化学习算法。 展开更多
关键词 机械臂 逆强化学习 行为树 复杂操作任务 专家策略 奖励函数
下载PDF
基于深度逆向强化学习的城市车辆路径链重构 被引量:1
5
作者 王福建 程慧玲 +1 位作者 马东方 王殿海 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第7期120-128,共9页
随着城市交通监测系统的完善,大量车牌识别数据被存储下来,该类数据具有时间连续性强、空间范围广、样本类型多的优点,为研究城市交通提供了信息基础。但受制于成本和技术,信息采集过程中采集的车牌数据在时空上并不连续,导致车牌识别... 随着城市交通监测系统的完善,大量车牌识别数据被存储下来,该类数据具有时间连续性强、空间范围广、样本类型多的优点,为研究城市交通提供了信息基础。但受制于成本和技术,信息采集过程中采集的车牌数据在时空上并不连续,导致车牌识别数据的应用受限。有鉴于此,文中提出一套路径链提取方案,对单次出行的完整路径链和缺失路径链加以区分,并提出了一种基于深度逆向强化学习的城市车辆出行路径链重构算法。该算法对完整路径链进行采样获得专家示例,利用深度逆向强化学习挖掘专家示例,以非线性回报函数的形式拟合出潜藏的路径选择特性,指导智能体自主补全缺失的路径链,实现车辆出行缺失路径链的重构。将该算法在杭州市萧山区的局部路网中进行实验验证,结果表明,所提出的重构算法具有良好的稳定性能,其平均准确度可达95%,且在缺失程度较大的情况下准确度仍能保持在92%以上,相比传统算法具有较大优势。文中还分析了专家示例的位置分布和数量对算法性能的影响,验证了所提出的重构算法的泛化能力。 展开更多
关键词 城市道路网络 车牌识别 深度逆向强化学习 数据处理 路径链重构
下载PDF
A Novel Experience-Based Exploration Method for Q-Learning 被引量:1
6
作者 Bohong Yang Hong Lu +2 位作者 Baogen Li Zheng Zhang Wenqiang Zhang 《国际计算机前沿大会会议论文集》 2018年第1期17-17,共1页
下载PDF
逆向强化学习研究综述 被引量:1
7
作者 张立华 刘全 +1 位作者 黄志刚 朱斐 《软件学报》 EI CSCD 北大核心 2023年第10期4772-4803,共32页
逆向强化学习(inverse reinforcement learning,IRL)也称为逆向最优控制(inverse optimal control,IOC),是强化学习和模仿学习领域的一种重要研究方法,该方法通过专家样本求解奖赏函数,并根据所得奖赏函数求解最优策略,以达到模仿专家... 逆向强化学习(inverse reinforcement learning,IRL)也称为逆向最优控制(inverse optimal control,IOC),是强化学习和模仿学习领域的一种重要研究方法,该方法通过专家样本求解奖赏函数,并根据所得奖赏函数求解最优策略,以达到模仿专家策略的目的.近年来,逆向强化学习在模仿学习领域取得了丰富的研究成果,已广泛应用于汽车导航、路径推荐和机器人最优控制等问题中.首先介绍逆向强化学习理论基础,然后从奖赏函数构建方式出发,讨论分析基于线性奖赏函数和非线性奖赏函数的逆向强化学习算法,包括最大边际逆向强化学习算法、最大熵逆向强化学习算法、最大熵深度逆向强化学习算法和生成对抗模仿学习等.随后从逆向强化学习领域的前沿研究方向进行综述,比较和分析该领域代表性算法,包括状态动作信息不完全逆向强化学习、多智能体逆向强化学习、示范样本非最优逆向强化学习和指导逆向强化学习等.最后总结分析当前存在的关键问题,并从理论和应用方面探讨未来的发展方向. 展开更多
关键词 逆向强化学习 模仿学习 生成对抗模仿学习 逆向最优控制 强化学习
下载PDF
基于余弦相似度的多模态模仿学习方法 被引量:1
8
作者 郝少璞 刘全 +2 位作者 徐平安 张立华 黄志刚 《计算机研究与发展》 EI CSCD 北大核心 2023年第6期1358-1372,共15页
生成对抗模仿学习(generative adversarial imitation learning,GAIL)是一种基于生成对抗框架的逆向强化学习(inverse reinforcement learning,IRL)方法,旨在从专家样本中模仿专家策略.在实际任务中,专家样本往往由多模态策略产生.然而... 生成对抗模仿学习(generative adversarial imitation learning,GAIL)是一种基于生成对抗框架的逆向强化学习(inverse reinforcement learning,IRL)方法,旨在从专家样本中模仿专家策略.在实际任务中,专家样本往往由多模态策略产生.然而,现有的GAIL方法大部分假设专家样本产自于单一模态策略,导致生成对抗模仿学习只能学习到部分模态策略,即出现模式塌缩问题,这极大地限制了模仿学习方法在多模态任务中的应用.针对模式塌缩问题,提出了基于余弦相似度的多模态模仿学习方法(multi-modal imitation learning method with cosine similarity,MCS-GAIL).该方法引入编码器和策略组,通过编码器提取专家样本的模态特征,计算采样样本与专家样本之间特征的余弦相似度,并将其加入策略组的损失函数中,引导策略组学习对应模态的专家策略.此外,MCS-GAIL使用新的极小极大博弈公式指导策略组以互补的方式学习不同模态策略.在假设条件成立的情况下,通过理论分析证明了MCS-GAIL的收敛性.为了验证方法的有效性,将MCS-GAIL用于格子世界和MuJoCo平台上,并与现有模式塌缩方法进行比较.实验结果表明,MCS-GAIL在所有环境中均能有效学习到多个模态策略,且具有较高的准确性和稳定性. 展开更多
关键词 逆向强化学习 生成对抗模仿学习 多模态 模式塌缩 余弦相似度
下载PDF
智能网联汽车基于逆强化学习的轨迹规划优化机制研究
9
作者 彭浩楠 唐明环 +2 位作者 查奇文 王聪 王伟达 《北京理工大学学报》 EI CAS CSCD 北大核心 2023年第8期820-831,共12页
针对当前轨迹规划策略存在实时性差、优化目标权重系数难以标定、模仿学习方法可解释性差等问题,提出了基于最大熵原则的逆强化学习方法,通过学习经验驾驶员驾驶轨迹的内在优化机制,从而规划出符合人类驾驶经验的整体最优的换道专家轨迹... 针对当前轨迹规划策略存在实时性差、优化目标权重系数难以标定、模仿学习方法可解释性差等问题,提出了基于最大熵原则的逆强化学习方法,通过学习经验驾驶员驾驶轨迹的内在优化机制,从而规划出符合人类驾驶经验的整体最优的换道专家轨迹,为解决轨迹规划方法的实时性问题和可解释性问题奠定了理论基础.以一般风险场景和高风险场景为应用案例,通过Matlab/Simulink仿真验证了所提逆强化学习方法实现轨迹规划的可行性与有效性. 展开更多
关键词 智能网联汽车 逆强化学习 轨迹规划 最大熵原则
下载PDF
结合逆向强化学习与强化学习的晶圆批处理设备调度方法
10
作者 王卓君 张朋 张洁 《计算机集成制造系统》 EI CSCD 北大核心 2023年第11期3738-3749,共12页
针对晶圆批处理设备调度问题,以最小化生产周期为优化目标,考虑晶圆动态到达、重入加工与不兼容性约束等特点,提出了结合逆向强化学习与强化学习(combine Inverse Reinforcement Learning and Reinforcement Learning,IRL-RL)的晶圆批... 针对晶圆批处理设备调度问题,以最小化生产周期为优化目标,考虑晶圆动态到达、重入加工与不兼容性约束等特点,提出了结合逆向强化学习与强化学习(combine Inverse Reinforcement Learning and Reinforcement Learning,IRL-RL)的晶圆批处理设备调度优化方法。根据批处理设备的加工特性,将问题分解为组批和批次指派两个子问题;由于子问题内部复杂的关联特性使晶圆批处理设备调度内部机理不明,且全局奖励函数设计困难,引入逆向强化学习指导奖励函数的设计;针对晶圆lot的重入加工特性,设计期望流动时间与剩余等待时间关键状态变量;批次指派智能体兼顾考虑任务的紧急程度与工艺类型切换带来的差异生产准备时间进行综合决策,满足批处理设备工艺类型的不兼容性约束;通过设计奖励函数关键参数的非线性特征,解释晶圆lot剩余加工层数与期望流动时间之间的复杂流变关系。24组标准算例的实验数据表明,IRL-RL算法的优化结果与计算效率优于一般强化学习算法和较优规则等方法;经企业实例数据验证,晶圆的生产周期缩短了15%。 展开更多
关键词 晶圆批处理调度 并行批处理机 动态调度 逆向强化学习 强化学习 生产周期 重入加工
下载PDF
车辆多目标交互行为建模的轨迹预测方法
11
作者 赵靖文 李煊鹏 张为公 《智能系统学报》 CSCD 北大核心 2023年第3期480-488,共9页
预测周围智能体的运动轨迹是实现自动驾驶行为决策规划的关键。面对复杂的车辆交互影响和多模态驾驶意图所带来的难题,本文提出一种基于车辆多目标交互行为建模的轨迹预测方法。该方法采用条件变分自编码器生成轨迹终点的多模态结果,结... 预测周围智能体的运动轨迹是实现自动驾驶行为决策规划的关键。面对复杂的车辆交互影响和多模态驾驶意图所带来的难题,本文提出一种基于车辆多目标交互行为建模的轨迹预测方法。该方法采用条件变分自编码器生成轨迹终点的多模态结果,结合自注意力机制和多头注意力机制来捕捉车辆之间的群体交互影响,最终使用逆强化学习输出多模态轨迹的最优决策,实现了同步预测多个目标轨迹。在高速公路数据集NGSIM上的实验结果证明该模型的有效性,并且预测效果整体优于现有方法。 展开更多
关键词 轨迹预测 注意力机制 多目标交互 多模态预测 条件变分自编码器 端点生成 逆强化学习 决策校正
下载PDF
Modified reward function on abstract features in inverse reinforcement learning 被引量:1
12
作者 Shen-yi CHEN Hui QIAN Jia FAN Zhuo-jun JIN Miao-liang ZHU 《Journal of Zhejiang University-Science C(Computers and Electronics)》 SCIE EI 2010年第9期718-723,共6页
We improve inverse reinforcement learning(IRL) by applying dimension reduction methods to automatically extract Abstract features from human-demonstrated policies,to deal with the cases where features are either unkno... We improve inverse reinforcement learning(IRL) by applying dimension reduction methods to automatically extract Abstract features from human-demonstrated policies,to deal with the cases where features are either unknown or numerous.The importance rating of each abstract feature is incorporated into the reward function.Simulation is performed on a task of driving in a five-lane highway,where the controlled car has the largest fixed speed among all the cars.Performance is almost 10.6% better on average with than without importance ratings. 展开更多
关键词 Importance rating Abstract feature Feature extraction inverse reinforcement learning(irl) Markov decision process(MDP)
原文传递
基于游览行为和逆向强化学习的游客偏好学习
13
作者 宣闻 常亮 《桂林电子科技大学学报》 2023年第3期173-180,共8页
为了获取游客在景区内的游览行为数据从而学习出游客的细粒度偏好,提出一种基于游览行为和逆向强化学习的游客偏好学习方法。该方法通过物联网和移动传感器技术,采集游客在特定景点内的各个游览点的拍照次数、游玩时间等游览行为数据。... 为了获取游客在景区内的游览行为数据从而学习出游客的细粒度偏好,提出一种基于游览行为和逆向强化学习的游客偏好学习方法。该方法通过物联网和移动传感器技术,采集游客在特定景点内的各个游览点的拍照次数、游玩时间等游览行为数据。针对采集到的行为数据设计逆向强化学习算法,基于获取到的真实数据进行细粒度偏好学习。基于真实场景的实验结果表明,该方法能够在少量游客游览行为数据的情况下,有效学习出游客的细粒度偏好。 展开更多
关键词 游客偏好 游览行为 逆向强化学习 移动传感器技术 细粒度偏好
下载PDF
视觉导向的对抗型模仿学习研究综述
14
作者 崔铭 龚声蓉 《计算机科学与探索》 CSCD 北大核心 2023年第9期2075-2091,共17页
最优决策问题在机器学习领域由来已久。模仿学习从强化学习发展而来,研究如何从专家数据中重建期望策略进而学习最优决策。近年来模仿学习既在理论研究中和计算机视觉有所结合,又在自动驾驶、机器人等应用中取得不错的成效。首先介绍模... 最优决策问题在机器学习领域由来已久。模仿学习从强化学习发展而来,研究如何从专家数据中重建期望策略进而学习最优决策。近年来模仿学习既在理论研究中和计算机视觉有所结合,又在自动驾驶、机器人等应用中取得不错的成效。首先介绍模仿学习的由来及传统的两种研究方法,分别是行为克隆和逆强化学习,随着对抗训练结构的发展,生成对抗模仿学习成为现今的重点研究方向,而对其后续改进工作统称为对抗型模仿学习;其次分析了对抗型模仿学习结合视觉演示的研究内容,并针对存在的次优专家演示样本、少样本、样本利用效率低下等共性问题以及现有的对应改良方案进行总结;然后根据实验结果对比分析不同方法所解决的问题表现;最后说明对抗型视觉模仿学习在实际中的无人驾驶、工业机器人等场景的应用情况,总结并指出未来理论研究方向以及应用前景与挑战。 展开更多
关键词 模仿学习 行为克隆 逆强化学习 对抗模仿学习
下载PDF
Convergence analysis of an incremental approach to online inverse reinforcement learning
15
作者 Zhuo-jun JIN Hui QIAN Shen-yi CHEN Miao-liang ZHU 《Journal of Zhejiang University-Science C(Computers and Electronics)》 SCIE EI 2011年第1期17-24,共8页
Interest in inverse reinforcement learning (IRL) has recently increased,that is,interest in the problem of recovering the reward function underlying a Markov decision process (MDP) given the dynamics of the system and... Interest in inverse reinforcement learning (IRL) has recently increased,that is,interest in the problem of recovering the reward function underlying a Markov decision process (MDP) given the dynamics of the system and the behavior of an expert.This paper deals with an incremental approach to online IRL.First,the convergence property of the incremental method for the IRL problem was investigated,and the bounds of both the mistake number during the learning process and regret were provided by using a detailed proof.Then an online algorithm based on incremental error correcting was derived to deal with the IRL problem.The key idea is to add an increment to the current reward estimate each time an action mismatch occurs.This leads to an estimate that approaches a target optimal value.The proposed method was tested in a driving simulation experiment and found to be able to efficiently recover an adequate reward function. 展开更多
关键词 Incremental approach Reward recovering Online learning inverse reinforcement learning Markov decision process
原文传递
A survey of inverse reinforcement learning techniques
16
作者 Shao Zhifei Er Meng Joo 《International Journal of Intelligent Computing and Cybernetics》 EI 2012年第3期293-311,共19页
Purpose-This purpose of this paper is to provide an overview of the theoretical background and applications of inverse reinforcement learning(IRL).Design/methodology/approach-Reinforcement learning(RL)techniques provi... Purpose-This purpose of this paper is to provide an overview of the theoretical background and applications of inverse reinforcement learning(IRL).Design/methodology/approach-Reinforcement learning(RL)techniques provide a powerful solution for sequential decision making problems under uncertainty.RL uses an agent equipped with a reward function to find a policy through interactions with a dynamic environment.However,one major assumption of existing RL algorithms is that reward function,the most succinct representation of the designer’s intention,needs to be provided beforehand.In practice,the reward function can be very hard to specify and exhaustive to tune for large and complex problems,and this inspires the development of IRL,an extension of RL,which directly tackles this problem by learning the reward function through expert demonstrations.In this paper,the original IRL algorithms and its close variants,as well as their recent advances are reviewed and compared.Findings-This paper can serve as an introduction guide of fundamental theory and developments,as well as the applications of IRL.Originality/value-This paper surveys the theories and applications of IRL,which is the latest development of RL and has not been done so far. 展开更多
关键词 inverse reinforcement learning Reward function reinforcement learning Artificial intelligence learning methods
原文传递
基于知识的深度强化学习研究综述 被引量:38
17
作者 李晨溪 曹雷 +3 位作者 张永亮 陈希亮 周宇欢 段理文 《系统工程与电子技术》 EI CSCD 北大核心 2017年第11期2603-2613,共11页
作为解决序贯决策的机器学习方法,强化学习采取持续的"交互-试错"机制,实现智能体(Agent)与环境的不断交互,从而学得完成任务的最优策略,契合了人类提升智能的行为决策方式。知识作为一种包含了经验、价值观、认知规律以及专... 作为解决序贯决策的机器学习方法,强化学习采取持续的"交互-试错"机制,实现智能体(Agent)与环境的不断交互,从而学得完成任务的最优策略,契合了人类提升智能的行为决策方式。知识作为一种包含了经验、价值观、认知规律以及专家见解等要素的结构化信息,应用于强化学习可以有效提高Agent的学习效率,降低学习难度。鉴于此,本文以强化学习的基本理论为起点,对深度强化学习以及基于知识的深度强化学习研究成果进行了系统性的总结与梳理。 展开更多
关键词 深度强化学习 知识 探索策略 逆强化学习
下载PDF
基于逆向强化学习的舰载机甲板调度优化方案生成方法 被引量:19
18
作者 李耀宇 朱一凡 +1 位作者 杨峰 贾全 《国防科技大学学报》 EI CAS CSCD 北大核心 2013年第4期171-175,共5页
针对计算机辅助指挥调度舰载机甲板作业的决策过程无法脱离人参与这一特点,引入基于逆向学习的强化学习方法,将指挥员或专家的演示作为学习对象,通过分析舰载机的甲板活动,建立舰载机甲板调度的马尔可夫决策模型(MDP)框架;经线性近似,... 针对计算机辅助指挥调度舰载机甲板作业的决策过程无法脱离人参与这一特点,引入基于逆向学习的强化学习方法,将指挥员或专家的演示作为学习对象,通过分析舰载机的甲板活动,建立舰载机甲板调度的马尔可夫决策模型(MDP)框架;经线性近似,采用逆向学习方法计算得到回报函数,从而能够通过强化学习方法得到智能优化策略,生成舰载机甲板调度方案。经仿真实验验证,本文所提方法能够较好地学习专家演示,结果符合调度方案优化需求,为形成辅助决策提供了基础。 展开更多
关键词 逆向强化学习 强化学习 舰载机甲板调度 优化方案生成
下载PDF
基于逆向强化学习的纵向自动驾驶决策方法 被引量:3
19
作者 高振海 闫相同 高菲 《汽车工程》 EI CSCD 北大核心 2022年第7期969-975,共7页
基于人类驾驶员数据获得自动驾驶决策策略是当前自动驾驶技术研究的热点。经典的强化学习决策方法大多通过设计安全性、舒适性、经济性相关公式人为构建奖励函数,决策策略与人类驾驶员相比仍然存在较大差距。本文中使用最大边际逆向强... 基于人类驾驶员数据获得自动驾驶决策策略是当前自动驾驶技术研究的热点。经典的强化学习决策方法大多通过设计安全性、舒适性、经济性相关公式人为构建奖励函数,决策策略与人类驾驶员相比仍然存在较大差距。本文中使用最大边际逆向强化学习算法,将驾驶员驾驶数据作为专家演示数据,建立相应的奖励函数,并实现仿驾驶员的纵向自动驾驶决策。仿真测试结果表明:相比于强化学习方法,逆向强化学习方法的奖励函数从驾驶员的数据中自动化的提取,降低了奖励函数的建立难度,得到的决策策略与驾驶员的行为具有更高的一致性。 展开更多
关键词 自动驾驶 决策算法 强化学习 逆向强化学习
下载PDF
回报函数学习的学徒学习综述 被引量:2
20
作者 金卓军 钱徽 +1 位作者 陈沈轶 朱淼良 《智能系统学报》 2009年第3期208-212,共5页
通过研究基于回报函数学习的学徒学习的发展历史和目前的主要工作,概述了基于回报函数学习的学徒学习方法.分别在回报函数为线性和非线性条件下讨论,并且在线性条件下比较了2类方法——基于逆向增强学习(IRL)和最大化边际规划(MMP)的学... 通过研究基于回报函数学习的学徒学习的发展历史和目前的主要工作,概述了基于回报函数学习的学徒学习方法.分别在回报函数为线性和非线性条件下讨论,并且在线性条件下比较了2类方法——基于逆向增强学习(IRL)和最大化边际规划(MMP)的学徒学习.前者有较为快速的近似算法,但对于演示的最优性作了较强的假设;后者形式上更易于扩展,但计算量大.最后,提出了该领域现在还存在的问题和未来的研究方向,如把学徒学习应用于POMDP环境下,用PBVI等近似算法或者通过PCA等降维方法对数据进行学习特征的提取,从而减少高维度带来的大计算量问题. 展开更多
关键词 学徒学习 回报函数 逆向增强学习 最大化边际规划
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部