期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于博弈强化学习的多智能体协作行为寻优 被引量:3
1
作者 张捍东 暴伟 王丽华 《自动化与仪表》 北大核心 2009年第1期1-4,共4页
针对非监督多Agent系统协作行为的动态优化中存在难以使行动序列收敛到Pareto最优问题,提出一种一般和博弈框架下改进Pareto-Q算法,将全局目标作为局部Pareto最优联合行为强化学习目标,并提出基于可接受度分配共同收益,将全局意义下的... 针对非监督多Agent系统协作行为的动态优化中存在难以使行动序列收敛到Pareto最优问题,提出一种一般和博弈框架下改进Pareto-Q算法,将全局目标作为局部Pareto最优联合行为强化学习目标,并提出基于可接受度分配共同收益,将全局意义下的最优行为通过迭代学习转化为局部Pareto行为,以多机器人行为协调为模型,仿真验证了算法的可行性和实用性。 展开更多
关键词 多Agent博弈 动态协作寻优 改进Pareto-Q 收益分配
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部