基于概率轨迹匹配的机器人模仿学习方法被引量：1

Robot Imitation Learning Method Based on Trajectory Probability Matching

下载PDF

导出

摘要模仿学习是机器人仿生机制研究的主要内容之一,即通过观察、理解、学习、模仿示教行为实现机器人的仿生特性;基于高斯过程分别表达采集离散示教信号所构成的示教轨迹和含有未知参数策略的模仿轨迹,构建模仿学习方法框架,将概率模型匹配引入到模仿学习中,以KL散度为代价函数比较两种轨迹的概率分布,运用梯度下降法寻求使KL散度最小的最优模仿控制策略,将策略应用于模仿机器人以完成与示教相同的模仿任务;以关节型机器人的机械臂摆动行为模仿为学习任务进行仿真,结果表明基于概率轨迹匹配的模仿学习方法能够实现机械臂摆动行为模仿,学习过程较传统方法简易且学习效果较好。 Imitation learning is an important means of bio-robot to quickly learn new skills and methods,that is,through observation,understanding,learning,imitating the teaching behavior to achieve bionic robot.A method framework is proposed to introduce the probabilistic matching model into imitation learning,that gaussian process were shown to express teach trajectory which was composed by discrete teach signal,and imitation trajectory with unknown parameters.Then compare the probability distribution of the two trajectories,seek the optimal control strategy----the policy,by minimizing the KL divergence to make use of gradient descent,finally applied the policy to the imitative robot for completing the teaching task.The essential part of the joint type robot,mechanical arm,is used to be the imitate model.The simulation results of imitating the swing behavior demonstrate the effectiveness of the imitation learning method based on trajectory probability matching.The learning process is more simple and learning effect is better than the traditional methods.

作者刘涛于建均阮晓钢

机构地区北京工业大学电子信息与控制工程学院

出处《计算机测量与控制》 2015年第11期3713-3716,3720,共5页 Computer Measurement &Control

基金国家自然科学基金项目(61375086) 国家自然科学基金项目(61075110) 高等学校博士学科点专项科研基金资助课题(20101103110007)

关键词模仿学习概率模型轨迹匹配高斯过程控制策略 imitation learning probability model trajectory matching Gaussian process control policy

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献16

1Sammut C A, Webb G I, Behavioral Cloning, Encyclopaedia of Ma- chine Learning [M]. edn. 1st edition, Springer, New York, 2010: 93-97.
2Pastor P, Hoffmann H, et all Learning and generalization of motor skills by learning from demonstration [A]. Robotics and Automa- tion, 2009. ICRA'09. IEEE International Conference [C] . IEEE, 2009: 763-768. conference on artifical intelligence [C] . Pasade-.
3Gergely Neu and Csaba Szepesvari. Apprenticeship learning using inverse reinforcement Learning and gradient methods [A]. In Pro ceedings of the 23rd Conference on Uncertainty in Artificial Intelli gence (UAI) [C] . Vancouver, BC, Canada, 2007: 295-302.
4Jaedeug Choi, Kee-Eung Kim, Inverse reinforcement learning in partially observable environments [A]. Proceedings of the 21st in- ternational joint na, California, USA, 2009: 1028-1033.
5Morimura T, E. Uchibe, Yoshimoto J, Peters et al. Derivatives of logarithmic stationary distributions for policy gradient rein{orcement learning [J], Neural Comput. , 2010, 22 (2): 342 - 376.
6Kim H J, Jordan M I, Sastry S, et al. Autonomous helicopter flight via reinforcement learning C. Advances in neural informa- tion processing systems 2003: 119- 123.
7Caspi Y, Irani M. Feature- based sequence- to- sequence matc- hing [J], International Journal of Computer Vision, 2006, 68 (1) : 53 - 64.
8文天柱,许爱强,汪定国.故障诊断专家系统的可拓知识表示和匹配研究[J].计算机测量与控制,2014,22(6):1670-1672. 被引量：4
9Black M J, Jepson A D. A probabilistic framework for matching temporal trajectories: Condensation-based recognition of gestures and expressions. Computer Vision ECCV'98 [M . Springer Ber- lin Heidelberg, 1998 62-68.
10Rasmussen C E. Gaussian processes for machine learning [M]. London: The MITPress, 2006:107-136.

二级参考文献6

1吴明强,李霁红,曹爱东,史慧.故障诊断专家系统综合智能推理技术研究[J].计算机测量与控制,2004,12(10):932-934. 被引量：30
2曹立军,王兴贵,秦俊奇,赵阳.融合案例与规则推理的故障预测专家系统[J].计算机工程,2006,32(1):208-210. 被引量：20
3张海涛,董春游.基于Web的可拓专家系统研究[J].智能系统学报,2009,4(2):175-179. 被引量：2
4周德新,谢晓敏.基于可拓规则的故障诊断专家系统推理机的研究[J].计算机测量与控制,2011,19(2):266-268. 被引量：8
5李欣,乔颖,李想,杰艺.基于ECA规则推理的故障诊断技术[J].计算机工程与设计,2011,32(3):1023-1028. 被引量：5
6王玉刚,杨建新.航电设备故障诊断专家系统[J].计算机系统应用,2012,21(12):26-28. 被引量：4

共引文献3

1文天柱,许爱强,王怡苹.基于可拓规则推理的故障诊断方法[J].北京航空航天大学学报,2016,42(3):506-513. 被引量：7
2李果,马春阳,李伟,屈重年,李根全.基于梯次推理获益原则的故障预测方法[J].电光与控制,2019,26(9):107-110.
3李果,屈重年,刘旭焱,刘伟,杜军.基于演化计算修正的神经网络故障预测方法[J].实验室研究与探索,2020,39(8):9-12. 被引量：1

同被引文献6

1蒋平,李自育,陈阳泉.迭代学习神经网络控制在机器人示教学习中的应用(英文)[J].控制理论与应用,2004,21(3):447-452. 被引量：8
2吴晓刚,王旭东,余腾伟,张宇.基于粒子群优化的电磁离合器模糊控制研究[J].中国机械工程,2010,21(9):1071-1077. 被引量：2
3徐莉,刘振方,王建丞,罗志强.仿人机器人综述[J].黑龙江科学,2013,4(7):57-58. 被引量：5
4何群,李磊,江国乾,谢平.基于PCA和多变量极限学习机的轴承剩余寿命预测[J].中国机械工程,2014,25(7):984-989. 被引量：21
5于建均,门玉森,阮晓钢,徐骢驰.模仿学习在机器人仿生机制研究中的应用[J].北京工业大学学报,2016,42(2):210-216. 被引量：6
6王辉,朱龙彪,朱天成,陈红艳,邵小江,朱志慧.基于粒子群遗传算法的泊车系统路径规划研究[J].工程设计学报,2016,23(2):195-200. 被引量：30

引证文献1

1李文华,杨子凝,王来贵.基于耦合算法的类人机器人模仿学习控制方法[J].中国机械工程,2017,28(14):1735-1741. 被引量：2

二级引证文献2

1张磊,方灶军,王聚幸,何晨,顾丹宁.基于任务参数加权的动态运动基元泛化方法[J].中国机械工程,2022,33(10):1226-1233. 被引量：2
2于旭,陶先童,宁丹阳,宋志强,林贤治,金柜年.RGB-D图像引导的机器人操作任务模仿学习[J].组合机床与自动化加工技术,2023(4):165-168.

1郑鹏,王汉飞,李石君,周洞汝.视频流中运动对象的轨迹[J].小型微型计算机系统,2000,21(5):524-526.
2冯勇,徐殿国,王炎.HITDM-Ⅰ型研磨机器人的研制[J].机器人,1993,15(4):38-42. 被引量：1
3戴先宇,王明文,吴水秀,张石林.带参数的搜索引擎[J].江西师范大学学报（自然科学版）,2002,26(4):344-348. 被引量：1
4林果园,郭山清,黄皓,曹天杰.基于动态行为和特征模式的异常检测模型[J].计算机学报,2006,29(9):1553-1560. 被引量：25
5孙秀娟.基于一种有效性函数的k-means算法[J].无线互联科技,2014,11(3):91-91.
6张迅,黎伟,周建国,王赛.基于传感器的室内测试轨迹系统[J].传感器与微系统,2015,34(6):43-45. 被引量：4
7孙中森,王曲,罗海勇,唐怀玉.基于在线地磁指纹的航迹校准算法[J].电子测量技术,2017,40(3):147-152. 被引量：3
8袁冠,夏士雄,张磊,周勇.基于结构相似度的轨迹聚类算法[J].通信学报,2011,32(9):103-110. 被引量：69
9于建均,门玉森,阮晓钢,徐骢驰.在书写任务中的基于轨迹匹配的模仿学习[J].北京工业大学学报,2016,42(8):1144-1152. 被引量：4
10孙美凤,黄飞,陈云菁,殷新春.基于特征模式的马尔可夫链异常检测模型[J].计算机工程,2008,34(24):155-156. 被引量：6

计算机测量与控制

2015年第11期

浏览历史

内容加载中请稍等...

基于概率轨迹匹配的机器人模仿学习方法被引量：1

参考文献16

二级参考文献6

共引文献3

同被引文献6

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于概率轨迹匹配的机器人模仿学习方法 被引量：1

参考文献16

二级参考文献6

共引文献3

同被引文献6

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于概率轨迹匹配的机器人模仿学习方法被引量：1