-
题名竞争与合作视角下的多Agent强化学习研究进展
- 1
-
-
作者
田小禾
李伟
许铮
刘天星
戚骁亚
甘中学
-
机构
复旦大学工程与应用技术研究院
上海智能机器人工程技术研究中心
智能机器人教育部工程研究中心
季华实验室
北京深度奇点科技有限公司
-
出处
《计算机应用与软件》
北大核心
2024年第4期1-15,共15页
-
基金
广东省季华实验室基金项目(X190021TB190)
上海市科学技术委员会项目(1951113200)。
-
文摘
随着深度学习和强化学习研究取得长足的进展,多Agent强化学习已成为解决大规模复杂序贯决策问题的通用方法。为了推动该领域的发展,从竞争与合作的视角收集并总结近期相关的研究成果。该文介绍单Agent强化学习;分别介绍多Agent强化学习的基本理论框架——马尔可夫博弈以及扩展式博弈,并重点阐述了其在竞争、合作和混合三种场景下经典算法及其近期研究进展;讨论多Agent强化学习面临的核心挑战——环境的不稳定性,并通过一个例子对其解决思路进行总结与展望。
-
关键词
深度学习
强化学习
多AGENT强化学习
环境的不稳定性
-
Keywords
Deep learning
Reinforcement learning
Multi-agent reinforcement learning
Non-stationary of the environment
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-
-
题名群智进化理论及其在智能机器人中的应用
被引量:7
- 2
-
-
作者
戚骁亚
刘创
富宸
甘中学
-
机构
北京深度奇点科技有限公司
复旦大学智能机器人研究院
-
出处
《中国工程科学》
CSCD
北大核心
2018年第4期101-111,共11页
-
基金
中国工程院咨询项目"新一代人工智能引领下的智能制造研究"(2017-ZD-08-03)
-
文摘
群体智能(CI)已经在过去的几十年里被广泛研究。最知名的CI算法就是蚁群算法(ACO),它被用来通过CI涌现解决复杂的路径搜索问题。最近,DeepMind发布的AlphaZero程序,通过从零开始的自我对弈强化学习,在围棋、国际象棋、将棋上都取得了超越人类的成绩。通过在五子棋上试验并实现AlphaZero系列程序,以及对蒙特卡洛树搜索(MCTS)和ACO两种算法的分析和比较,AlphaZero的成功原因被揭示,它不仅是因为深度神经网络和强化学习,而且是因为MCTS算法,该算法实质上是一种CI涌现算法。在上述研究基础上,本文提出了一个CI进化理论,并将其作为走向人工通用智能(AGI)的通用框架。该算法融合了深度学习、强化学习和CI算法的优势,使得单个智能体能够通过CI涌现进行高效且低成本的进化。此CI进化理论在智能机器人中有天然的应用。一个云端平台被开发出来帮助智能机器人进化其智能模型。作为这个概念的验证,一个焊接机器人的焊接参数优化智能模型已经在云端平台上实现。
-
关键词
群体智能
涌现
进化
正反馈
蚁群算法
蒙特卡洛树搜索
分布式人工智能云端平台
智能机器人
-
Keywords
collective intelligence
emergence
evolution
positive feedback
ant colony optimization
Monte-Carlo tree search
distributed AI cloud-terminal platform
intelligent robot
-
分类号
TP242.6
[自动化与计算机技术—检测技术与自动化装置]
-