摘要
本文讨论的连续时间MDP(Continuous Time MDP,简记为CTMDP)折扣模型为{S,(A(i),(i),i∈S),q,r,a},其中状态集S可列;行动集A(i)为任意非空集,(i)为其上的σ-代数,它包含A(i)的所有单点集;转移速率族q(j|i,a)满足:i∈S,a∈A(i)均有—∞<q(j|i,a)≤0及∑q(j|i,a)=0;r(i,a)为报酬率函数。
出处
《科学通报》
EI
CAS
CSCD
北大核心
1989年第6期408-411,共4页
Chinese Science Bulletin