-
题名非完美信息博弈综述:对抗求解方法与对比分析
- 1
-
-
作者
余超
刘宗凯
胡超豪
黄凯奇
张俊格
-
机构
中山大学计算机学院
中国科学院自动化研究所智能系统与工程研究中心
-
出处
《计算机学报》
EI
CAS
CSCD
北大核心
2024年第9期2211-2246,共36页
-
基金
国家自然科学基金面上项目(No.62076259)
广东省自然科学基金(No.2023A1515012946)
+2 种基金
中国科学院基础培育基金项目(JCPYJJ-22017)
中山大学中央高校基本科研业务费专项资金
中国科学院青年促进会项目资助.
-
文摘
当前,人工智能成为经济发展的新引擎,是新一轮产业变革的核心驱动力.结合人工智能与博弈论形成的新兴研究领域“博弈智能”吸引了越来越多学者的研究兴趣,并在现实生活中得到了广泛应用.作为一类典型的博弈智能,非完美信息博弈通过建模多智能体在私有信息下的博弈行为,能够刻画相较完美信息博弈更广泛的决策过程,在现实世界中具有广泛应用,例如金融贸易、商业谈判、军事对抗等.近年来,非完美信息博弈求解研究取得了突破性进展,涌现出以遗憾最小化(Regret Minimization)和最佳响应(Best Response)为核心技术的两大类离线求解方法.前者通过反省智能体过往决策以使自身策略向均衡点改进,成功解决了以德州扑克为代表的经典非完美信息博弈.后者通过特定应对方式针对对手决策以使自身策略向均衡点改进,在例如星际争霸、DOTA等大型实时战略游戏AI训练中发挥着关键作用.此外,一系列在线求解方法能够进一步实时优化离线算法求解所得的蓝图策略,使其在实时对局中得到进一步改进,成为求解非完美信息博弈的关键技术.本文将从非完美信息博弈的概念和特点切入,全面介绍这三类方法的基本原理、发展脉络和改进技巧,深入对比不同方法间的优缺点并展望未来研究方向.希望通过对非完美信息博弈求解这一研究领域的全方位细致梳理,能够进一步推动博弈智能技术向前发展,为迈向通用人工智能赋能.
-
关键词
非完美信息博弈
-
Keywords
imperfect information game
regret minimization
best response
safe search
reinforcement learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-