摘要
1.引言我们将在可测(确定性)马氏策略类Π_m^d(c)中讨论连续时间平均马氏决策(简称平均CTMDP):{S,(A(i),(?)(i),i∈S),q,r,(?)}.本文假设状态空间 S 为可列集;行动集 A(i)为一般点集,(A(i),(?)(i),i∈S)为可测空间,任给 a∈A(i),要求{a}∈(?)(i);q 是保守的转移速率族;报酬率 r 是一致有界的可测函数,即存在 M<∞,使|r(i,a)|≤M 对 i∈S,a∈A(i)成立.对π∈Π_m^d(c),i∈S,平均报酬函数(?)定义为:
出处
《应用数学学报》
CSCD
北大核心
1989年第2期250-256,共7页
Acta Mathematicae Applicatae Sinica