-
题名基于距离信息的追逃策略:信念状态连续随机博弈
被引量:1
- 1
-
-
作者
陈灵敏
冯宇
李永强
-
机构
浙江工业大学信息工程学院
-
出处
《自动化学报》
EI
CAS
CSCD
北大核心
2024年第4期828-840,共13页
-
基金
国家自然科学基金(61973276,62073294)
浙江省自然科学基金(LZ21F030003)资助。
-
文摘
追逃问题的研究在对抗、追踪以及搜查等领域极具现实意义.借助连续随机博弈与马尔科夫决策过程(Markov decision process, MDP),研究使用测量距离求解多对一追逃问题的最优策略.在此追逃问题中,追捕群体仅领导者可测量与逃逸者间的相对距离,而逃逸者具有全局视野.追逃策略求解被分为追博弈与马尔科夫决策两个过程.在求解追捕策略时,通过分割环境引入信念区域状态以估计逃逸者位置,同时使用测量距离对信念区域状态进行修正,构建起基于信念区域状态的连续随机追博弈,并借助不动点定理证明了博弈平稳纳什均衡策略的存在性.在求解逃逸策略时,逃逸者根据全局信息建立混合状态下的马尔科夫决策过程及相应的最优贝尔曼方程.同时给出了基于强化学习的平稳追逃策略求解算法,并通过案例验证了该算法的有效性.
-
关键词
追逃问题
信念区域状态
连续随机博弈
马尔科夫决策过程
强化学习
-
Keywords
Pursuit-evasion problem
belief region state
continuous stochastic game
Markov decision process(MDP)
reinforcement learning
-
分类号
O225
[理学—运筹学与控制论]
TP18
[自动化与计算机技术—控制理论与控制工程]
-