期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
回报函数学习的学徒学习综述
被引量:
2
1
作者
金卓军
钱徽
+1 位作者
陈沈轶
朱淼良
《智能系统学报》
2009年第3期208-212,共5页
通过研究基于回报函数学习的学徒学习的发展历史和目前的主要工作,概述了基于回报函数学习的学徒学习方法.分别在回报函数为线性和非线性条件下讨论,并且在线性条件下比较了2类方法——基于逆向增强学习(IRL)和最大化边际规划(MMP)的学...
通过研究基于回报函数学习的学徒学习的发展历史和目前的主要工作,概述了基于回报函数学习的学徒学习方法.分别在回报函数为线性和非线性条件下讨论,并且在线性条件下比较了2类方法——基于逆向增强学习(IRL)和最大化边际规划(MMP)的学徒学习.前者有较为快速的近似算法,但对于演示的最优性作了较强的假设;后者形式上更易于扩展,但计算量大.最后,提出了该领域现在还存在的问题和未来的研究方向,如把学徒学习应用于POMDP环境下,用PBVI等近似算法或者通过PCA等降维方法对数据进行学习特征的提取,从而减少高维度带来的大计算量问题.
展开更多
关键词
学徒
学习
回报函数
逆向增强学习
最大化边际规划
下载PDF
职称材料
基于倾向性分析的轨迹评测技术
被引量:
1
2
作者
金卓军
钱徽
朱淼良
《浙江大学学报(工学版)》
EI
CAS
CSCD
北大核心
2011年第10期1732-1737,共6页
通过逆向增强学习和策略不变条件下的回报函数变形原理,研究已有标准轨迹前提下的车辆轨迹评测问题,提出基于倾向性分析的轨迹评测技术.对于标准轨迹和评测轨迹应用逆向增强学习算法,分别求出两者相对应的特征权重,将特征权重在策略不...
通过逆向增强学习和策略不变条件下的回报函数变形原理,研究已有标准轨迹前提下的车辆轨迹评测问题,提出基于倾向性分析的轨迹评测技术.对于标准轨迹和评测轨迹应用逆向增强学习算法,分别求出两者相对应的特征权重,将特征权重在策略不变条件下分别扩展成线性子空间,通过计算由正交投影矩阵定义的子空间间距离得到对评测轨迹的评测值.在四轮车辆仿真实验中,针对几种典型的驾驶风格轨迹对该方法进行验证.实验结果表明,该方法能够对于避障评测轨迹按其与标准轨迹的差异给出评测结果,克服了相同策略对应回报函数不唯一性所带来的影响,有效解决了车辆轨迹之间难于定量比较的难题.
展开更多
关键词
轨迹评测
倾向性分析
回报函数变形
逆向增强学习
马尔可夫决策过程
下载PDF
职称材料
基于回报函数逼近的学徒学习综述
被引量:
2
3
作者
金卓军
钱徽
+1 位作者
陈沈轶
朱淼良
《华中科技大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2008年第S1期288-290,294,共4页
回顾了基于回报函数逼近的学徒学习的发展历史,介绍了目前的主要工作,总结了学徒学习的一般方法,讨论了线性和非线性假设条件下的回报函数求解,比较了逆向增强学习(IRL)和边际最大化(MMP)两类逼近方法.基于IRL的学徒学习是一种通过迭代...
回顾了基于回报函数逼近的学徒学习的发展历史,介绍了目前的主要工作,总结了学徒学习的一般方法,讨论了线性和非线性假设条件下的回报函数求解,比较了逆向增强学习(IRL)和边际最大化(MMP)两类逼近方法.基于IRL的学徒学习是一种通过迭代的方法用基回报函数的线性组合来逼近真实回报函数的过程.MMP方法可以看作是一类基于梯度下降的最优化方法.综合采用滤波及将策略函数概率化等方法可以降低对专家演示的最优要求.最后指出了该领域存在的问题,提出了未来的研究方向,如在部分可观察马尔可夫决策过程框架下的学徒学习及对不确定策略的学习等.
展开更多
关键词
学徒
学习
回报函数
综述
逆向增强学习
边际最大化
原文传递
题名
回报函数学习的学徒学习综述
被引量:
2
1
作者
金卓军
钱徽
陈沈轶
朱淼良
机构
浙江大学计算机学院
出处
《智能系统学报》
2009年第3期208-212,共5页
基金
国家自然科学基金资助项目(90820306)
浙江省科技厅重大资助项目(006c13096)
文摘
通过研究基于回报函数学习的学徒学习的发展历史和目前的主要工作,概述了基于回报函数学习的学徒学习方法.分别在回报函数为线性和非线性条件下讨论,并且在线性条件下比较了2类方法——基于逆向增强学习(IRL)和最大化边际规划(MMP)的学徒学习.前者有较为快速的近似算法,但对于演示的最优性作了较强的假设;后者形式上更易于扩展,但计算量大.最后,提出了该领域现在还存在的问题和未来的研究方向,如把学徒学习应用于POMDP环境下,用PBVI等近似算法或者通过PCA等降维方法对数据进行学习特征的提取,从而减少高维度带来的大计算量问题.
关键词
学徒
学习
回报函数
逆向增强学习
最大化边际规划
Keywords
apprenticeship learning
reward function
inverse reinforcement learning
maximum margin planning
分类号
TP242 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
基于倾向性分析的轨迹评测技术
被引量:
1
2
作者
金卓军
钱徽
朱淼良
机构
浙江大学计算机科学与技术学院
出处
《浙江大学学报(工学版)》
EI
CAS
CSCD
北大核心
2011年第10期1732-1737,共6页
基金
国家自然科学基金资助项目(90820306)
文摘
通过逆向增强学习和策略不变条件下的回报函数变形原理,研究已有标准轨迹前提下的车辆轨迹评测问题,提出基于倾向性分析的轨迹评测技术.对于标准轨迹和评测轨迹应用逆向增强学习算法,分别求出两者相对应的特征权重,将特征权重在策略不变条件下分别扩展成线性子空间,通过计算由正交投影矩阵定义的子空间间距离得到对评测轨迹的评测值.在四轮车辆仿真实验中,针对几种典型的驾驶风格轨迹对该方法进行验证.实验结果表明,该方法能够对于避障评测轨迹按其与标准轨迹的差异给出评测结果,克服了相同策略对应回报函数不唯一性所带来的影响,有效解决了车辆轨迹之间难于定量比较的难题.
关键词
轨迹评测
倾向性分析
回报函数变形
逆向增强学习
马尔可夫决策过程
Keywords
trajectory evaluation
intention analysis reward reshaping
inverse reinforcement learning Markov decision process
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于回报函数逼近的学徒学习综述
被引量:
2
3
作者
金卓军
钱徽
陈沈轶
朱淼良
机构
浙江大学计算机科学与技术学院
出处
《华中科技大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2008年第S1期288-290,294,共4页
基金
浙江省科技厅重大项目(2006c13096)
文摘
回顾了基于回报函数逼近的学徒学习的发展历史,介绍了目前的主要工作,总结了学徒学习的一般方法,讨论了线性和非线性假设条件下的回报函数求解,比较了逆向增强学习(IRL)和边际最大化(MMP)两类逼近方法.基于IRL的学徒学习是一种通过迭代的方法用基回报函数的线性组合来逼近真实回报函数的过程.MMP方法可以看作是一类基于梯度下降的最优化方法.综合采用滤波及将策略函数概率化等方法可以降低对专家演示的最优要求.最后指出了该领域存在的问题,提出了未来的研究方向,如在部分可观察马尔可夫决策过程框架下的学徒学习及对不确定策略的学习等.
关键词
学徒
学习
回报函数
综述
逆向增强学习
边际最大化
Keywords
apprenticeship learning
reward function
survey
inverse reinforcement learning
maximum margin planning
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
原文传递
题名
作者
出处
发文年
被引量
操作
1
回报函数学习的学徒学习综述
金卓军
钱徽
陈沈轶
朱淼良
《智能系统学报》
2009
2
下载PDF
职称材料
2
基于倾向性分析的轨迹评测技术
金卓军
钱徽
朱淼良
《浙江大学学报(工学版)》
EI
CAS
CSCD
北大核心
2011
1
下载PDF
职称材料
3
基于回报函数逼近的学徒学习综述
金卓军
钱徽
陈沈轶
朱淼良
《华中科技大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2008
2
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部