期刊文献+

马尔可夫决策规划简介 被引量:1

下载PDF
导出
摘要 人在社会实践中,为了控制一个系统的发展,总离不开决策。其中有一类决策问题需要在系统的一系列时刻进行决策,并且按如下步骤进行:根据观察到的系统状态,从相应的行动集中按某一规律选择某一行动(决策),行动执行后系统随机地转移到下一状态,决策者根据新到达的状态,再作下一步决策,如此循序渐进地持续下去。同时这类决策还有一个重要的特性:系统状态的转移具有马尔可夫性(即无后效性)。于是系统的状态的不断转移以及不断采取相应的决策这种交互作用就确定了系发展进程,并且在每一步上根据出现的状态与采取的行动,系统将获得一定的报酬(效益)。
出处 《贵州科学》 1989年第1期104-111,共8页 Guizhou Science
  • 相关文献

参考文献6

  • 1宋京生,董泽清.连续时间总报酬马氏决策规划[J]科学通报,1987(16).
  • 2郭世贞.折扣马氏决策规划的方差最小最优策略问题[J]应用数学学报,1987(02).
  • 3刘克.无界报酬平均模型的MDP[J]湖南数学年刊,1985(01).
  • 4焦国全,董泽清.飞行控制系统中最优事前更换策略的研究[J]航空学报,1983(04).
  • 5张勇传,李福生,邴凤山,黄益芬,熊斯毅.水库优化问题中的经济性与可靠性[J]水电能源科学,1983(01).
  • 6董泽清.马氏决策规划的加速逼近算法与最小方差问题[J]数学学报,1978(02).

同被引文献2

  • 1王季槐,赵松岭,叶振欧.定西半干旱地区春小麦农田土壤水分动态的计算机模拟[J]土壤学报,1987(04).
  • 2董泽清.马尔可夫决策规划的现状和展望[J]运筹学杂志,1987(02).

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部