期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于Markov对策的多智能体协调方法及其在Robot Soccer中的应用 被引量:5
1
作者 范波 潘泉 张洪才 《机器人》 EI CSCD 北大核心 2005年第1期46-51,共6页
提出了一种分层的基于Markov对策的多智能体协调方法 ,根据多智能体之间的竞争和合作的关系 ,高层采用零和Markov对策解决与对手之间的竞争 ,低层采用团队Markov对策完成与团队内部的合作 .通过在RobotSoccer中的应用和实验 ,说明了基于... 提出了一种分层的基于Markov对策的多智能体协调方法 ,根据多智能体之间的竞争和合作的关系 ,高层采用零和Markov对策解决与对手之间的竞争 ,低层采用团队Markov对策完成与团队内部的合作 .通过在RobotSoccer中的应用和实验 ,说明了基于Markov对策的多智能体协调方法优于传统的多智能体学习 . 展开更多
关键词 多智能体 markov对策 零和markov对策 团队markov对策 ROBOT SOCCER
下载PDF
基于Markov对策的码垛机器人三维路径规划 被引量:4
2
作者 刘久富 陈魁 +2 位作者 苏青琴 梁娟娟 王志胜 《中国机械工程》 EI CAS CSCD 北大核心 2012年第7期851-855,共5页
针对码垛机器人应用环境状况较复杂、不确定条件较多的问题,使用基于Markov对策的算法对多关节码垛机器人进行路径规划。首先根据实际的工作环境设定机器人的运动范围,并选择经常出现的动作组合作为机器人运动的基本行为集,给出各种情... 针对码垛机器人应用环境状况较复杂、不确定条件较多的问题,使用基于Markov对策的算法对多关节码垛机器人进行路径规划。首先根据实际的工作环境设定机器人的运动范围,并选择经常出现的动作组合作为机器人运动的基本行为集,给出各种情况可能获得的报酬值,依据多智能体Q值学习算法更新每个关节的报酬值,反解出对应最大报酬值的动作组合,选择部分动作组合可以减少各关节之间的协调关系,降低算法的复杂度。仿真绘制出最佳动作组合时的运动轨迹,以及机器人运动环境中无障碍与放置球形障碍物时的三维运动轨迹,并确定轨迹的误差。最后经过实验验证表明,多智能体Q值算法能有效地控制各个关节的协调运动,实际运动的误差在允许的范围内,满足使用要求。 展开更多
关键词 码垛机器人 多关节机器人 多AGENT系统 markov对策 NASH均衡
下载PDF
基于Markov对策和强化学习的多智能体协作研究 被引量:7
3
作者 李晓萌 杨煜普 许晓鸣 《上海交通大学学报》 EI CAS CSCD 北大核心 2001年第2期288-292,共5页
MAS的协作机制研究 ,当前比较适用的研究框架是非零和 Markov对策及基于 Q-算法的强化学习 .但实际上在这种框架下的 Agent强调独立学习而不考虑其他 Agent的行为 ,故 MAS缺乏协作机制 .并且 ,Q-算法要求 Agent与环境的交互时具有完备... MAS的协作机制研究 ,当前比较适用的研究框架是非零和 Markov对策及基于 Q-算法的强化学习 .但实际上在这种框架下的 Agent强调独立学习而不考虑其他 Agent的行为 ,故 MAS缺乏协作机制 .并且 ,Q-算法要求 Agent与环境的交互时具有完备的观察信息 ,这种情况过于理想化 .文中针对以上两个不足 ,提出了在联合行动和不完备信息下的协调学习 .理论分析和仿真实验表明 ,协调学习算法具有收敛性 . 展开更多
关键词 markov对策 Q-学习算法 协调学习 多智能体系统 强化学习
下载PDF
基于Markov对策的机械臂二维路径规划
4
作者 陈魁 刘久富 +1 位作者 苏青琴 刘蓉 《计算机技术与发展》 2012年第5期57-59,63,共4页
针对机械臂应用环境状况较复杂、不确定条件较多,文中使用基于Markov对策的算法对二维机械臂进行路径规划。二维机械臂路径规划是三维多关节机器人规划的基础。首先根据实际的工作环境设定机械臂的运动范围并选择经常出现的动作组合作... 针对机械臂应用环境状况较复杂、不确定条件较多,文中使用基于Markov对策的算法对二维机械臂进行路径规划。二维机械臂路径规划是三维多关节机器人规划的基础。首先根据实际的工作环境设定机械臂的运动范围并选择经常出现的动作组合作为机械臂运动的基本行为集,给出各种情况可能获得的报酬,依据多智能体Q值学习算法更新每个关节的报酬值,反解出对应最大报酬值的动作组合。文中仿真绘制最佳动作组合时的运动轨迹,分别仿真绘制机械臂运动环境中无障碍与放置圆形障碍物时的二维运动轨迹,并确定轨迹的误差。 展开更多
关键词 多关节机器人 机械臂 多AGENT系统 markov对策 NASH均衡
下载PDF
基于Markov对策的强化学习及其在RoboCup中的应用
5
作者 李镇宇 陈小平 《计算机工程与应用》 CSCD 北大核心 2005年第27期202-204,214,共4页
论文研究了Markov对策模型作为学习框架的强化学习,提出了针对RoboCup仿真球队决策问题这一类复杂问题的学习模型和具体算法。在实验中,成功实现了守门员决策,并取得了良好的效果,证明了算法的可行性和有效性。
关键词 markov对策 多主体系统 强化学习 ROBOCUP
下载PDF
基于强化学习与对策的多代理协同技术 被引量:3
6
作者 张化祥 黄上腾 《计算机科学》 CSCD 北大核心 2004年第8期116-119,共4页
本文从强化学习与 Markov 对策相结合方面考察了多代理协同技术的发展,系统地分析了已有的研究成果,并指出基于强化学习与对策的多代理协同技术研完中存在的问题及未来研究方向。
关键词 多代理协同 强化学习 markov对策 分布式人工智能
下载PDF
一般和对策中基于协商的多代理强化学习
7
作者 张化祥 赵彤 黄上腾 《上海交通大学学报》 EI CAS CSCD 北大核心 2005年第S1期108-112,共5页
一般和对策中,只考虑个体理性的多代理协作是一种无全局目标的协作.代理学习基于对手策略假设,不能保证假设的正确性.为此通过定义代理协作的集体目标,提出了一种基于多代理协商的代理强化学习算法.代理选择协商策略,并惩罚偏离该策略... 一般和对策中,只考虑个体理性的多代理协作是一种无全局目标的协作.代理学习基于对手策略假设,不能保证假设的正确性.为此通过定义代理协作的集体目标,提出了一种基于多代理协商的代理强化学习算法.代理选择协商策略,并惩罚偏离该策略的代理来保证协商策略的执行.文中给出了学习收敛的条件及证明,并以实例加以分析. 展开更多
关键词 markov对策 强化学习 多代理协作 协商
下载PDF
多智能体协作技术综述 被引量:28
8
作者 杨煜普 李晓萌 许晓鸣 《信息与控制》 CSCD 北大核心 2001年第4期337-342,共6页
本文从协作模型和研究方法两个角度考察了多智能体协作技术的发展 ,认为是外在的理性形式化模型和内在的对策和学习机制是多智能体协作技术的两个重要方面 .
关键词 多智能体协作 自协调模型 递归建模 markov对策 智能控制
下载PDF
基于多级决策的多智能体自动导航车调度系统 被引量:11
9
作者 李晓萌 杨煜普 许晓鸣 《上海交通大学学报》 EI CAS CSCD 北大核心 2002年第8期1146-1149,共4页
提出基于多级决策和协作学习的方法来建立自动导航车 ( AGV)调度系统中每个 AGV所需要的动态分布式调度策略 .系统中的每一个 AGV都由一个具有两级决策能力的智能体控制 :在选择级 ,智能体采用 Markov对策框架下的强化学习方法 ,以根据... 提出基于多级决策和协作学习的方法来建立自动导航车 ( AGV)调度系统中每个 AGV所需要的动态分布式调度策略 .系统中的每一个 AGV都由一个具有两级决策能力的智能体控制 :在选择级 ,智能体采用 Markov对策框架下的强化学习方法 ,以根据其他 AGV当前的子任务建立自己的最有反应子任务 ;在行动级 ,智能体通过强化学习建立优化的动作策略来完成由选择级确定的子任务 .AGV调度仿真结果证明 ,该方法能提高系统的产量 。 展开更多
关键词 多智能体 自动导航车 调度系统 多级决策 markov对策 强化学习 动态分布式调度策略
下载PDF
基于后悔值的多Agent冲突博弈强化学习模型 被引量:5
10
作者 肖正 张世永 《软件学报》 EI CSCD 北大核心 2008年第11期2957-2967,共11页
对于冲突博弈,研究了一种理性保守的行为选择方法,即最小化最坏情况下Agent的后悔值.在该方法下,Agent当前的行为策略在未来可能造成的损失最小,并且在没有任何其他Agent信息的条件下,能够得到Nash均衡混合策略.基于后悔值提出了多Agen... 对于冲突博弈,研究了一种理性保守的行为选择方法,即最小化最坏情况下Agent的后悔值.在该方法下,Agent当前的行为策略在未来可能造成的损失最小,并且在没有任何其他Agent信息的条件下,能够得到Nash均衡混合策略.基于后悔值提出了多Agent复杂环境下冲突博弈的强化学习模型以及算法实现.该模型中通过引入交叉熵距离建立信念更新过程,进一步优化了冲突博弈时的行为选择策略.基于Markov重复博弈模型验证了算法的收敛性,分析了信念与最优策略的关系.此外,与MMDP(multi-agent markov decision process)下Q学习扩展算法相比,该算法在很大程度上减少了冲突发生的次数,增强了Agent行为的协调性,并且提高了系统的性能,有利于维持系统的稳定. 展开更多
关键词 markov对策 强化学习 冲突博弈 冲突消解
下载PDF
Robocup半场防守中的一种强化学习算法
11
作者 冯林 李琛 孙焘 《计算机技术与发展》 2008年第1期59-62,共4页
Robocup仿真比赛是研究多Agent之间协作和对抗理论的优秀平台,提高Agent的防守能力是一个具有挑战性的问题。为制定合理的防守策略,将Robocup比赛中的一个子任务——半场防守任务分解为多个一对一防守任务,采用了基于Markov对策的强化... Robocup仿真比赛是研究多Agent之间协作和对抗理论的优秀平台,提高Agent的防守能力是一个具有挑战性的问题。为制定合理的防守策略,将Robocup比赛中的一个子任务——半场防守任务分解为多个一对一防守任务,采用了基于Markov对策的强化学习方法解决这种零和交互问题,给出了具体的学习算法。将该算法应用到3D仿真球队——大连理工大学梦之翼(Fantasia)球队,在实际比赛过程中取得了良好效果。验证了采用Markov零和对策的强化学习算法在一对一防守中优于手工代码的结论。 展开更多
关键词 ROBOCUP 强化学习 markov对策 零和对策
下载PDF
基于分布式强化学习算法的精准助学数据分析方法研究
12
作者 邢文娜 宁睿 《电子设计工程》 2021年第10期28-31,36,共5页
针对传统助学金评选方法中存在虚假申请材料难以鉴别、无法准确了解学生真实经济水平的问题。文中提出了基于分布式强化学习算法的精准助学数据分析方法,该方法通过收集数字化校园中学生的各项消费数据,经过数据预处理后找出具有分类能... 针对传统助学金评选方法中存在虚假申请材料难以鉴别、无法准确了解学生真实经济水平的问题。文中提出了基于分布式强化学习算法的精准助学数据分析方法,该方法通过收集数字化校园中学生的各项消费数据,经过数据预处理后找出具有分类能力的变量。然后,将RBF神经网络通过归一化与选取合适的隐藏层层数、神经元个数来提高聚类速度。由于数字化校园存在多个消费场景,使用Markov对策与Bayesian网络可以建立各个智能体之间的互相关系,从而增强各个智能体之间的交互性。由数据测试分析结果可知,文中所述方案识别贫困生的准确率可达80.9%,优于Adaboost算法。同时具有更低的平均绝对误差,适用于高校贫困生的资格认定。 展开更多
关键词 分布式强化学习算法 精准助学数据分析技术 归一化RBF神经网络 markov对策 BAYESIAN网络
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部