-
题名不完全信息下多智能体对手建模
- 1
-
-
作者
邓有朋
范佳宣
郑岩
王振亚
吕勇梁
李雨霄
-
机构
中国航天科技创新研究院
天津大学智能与计算学部
-
出处
《航空学报》
EI
CAS
CSCD
北大核心
2023年第S02期443-452,共10页
-
基金
国家自然科学基金(62106172)
小米青年学者项目
-
文摘
对手建模的目标是对对手策略进行建模,以最大化主智能体的回报。大多数先前的工作未能有效处理对手信息有限的情况。为此,提出了一种不完全信息下的对手建模(OMII)方法,能够在对手信息有限的情况下,只使用自身观察,提取跨轮次的对手策略表征。OMII提出一种全新的基于策略的数据增广方式,通过对比学习,离线地学习对手策略表征并将其作为额外输入训练一个通用的响应策略。在线测试阶段,OMII从最近几轮的历史轨迹数据中提取对手策略表征,与通用策略结合实现动态的对手策略响应。此外,OMII还通过保守与利用间的平衡保证了期望收益的下界。实验结果表明在对手信息有限的情况下,OMII仍能准确提取对手策略表征,并对未知策略具有一定泛化能力,在性能上优于现有的对手建模算法。
-
关键词
决策智能
强化学习
对手建模
对比学习
多智能体系统
-
Keywords
decision making intelligence
reinforcement learning
opponent modeling
constrastive learning
mul-tiagent system
-
分类号
V19
[航空宇航科学与技术—人机与环境工程]
TP312
[自动化与计算机技术—计算机软件与理论]
-