期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
单臂Erlang(k) Bandit报酬过程 被引量:1
1
作者 邹捷中 邓倩 梁友 《长沙电力学院学报(自然科学版)》 2006年第4期69-71,77,共4页
应用贝叶斯方法,对未知Band it报酬过程的抽样报酬基于Erlang(k)分布的单臂Erlang(k)Band it报酬过程提出计算描述最优选择的平衡值序列的算法.有效解决了单臂Erlang(k)Band it报酬过程的最优决策问题,将Band it报酬过程基于的分布从负... 应用贝叶斯方法,对未知Band it报酬过程的抽样报酬基于Erlang(k)分布的单臂Erlang(k)Band it报酬过程提出计算描述最优选择的平衡值序列的算法.有效解决了单臂Erlang(k)Band it报酬过程的最优决策问题,将Band it报酬过程基于的分布从负指数分布推广至目前在实际中应用更为广泛的分布,是对Band it报酬过程的补充和推广.使用本算法通过数值计算可以得到G ittins指数的近似解. 展开更多
关键词 贝叶斯方法 多臂Bandit过程 单臂Bandit过程 Gittins指数 平衡值 Bandit报酬过程 分布
下载PDF
非对称超市模型的报酬过程与性能优化研究
2
作者 李泉林 丁园园 杨飞飞 《应用概率统计》 CSCD 北大核心 2015年第4期411-431,共21页
超市模型具有操作简单、反应快速、实时管控等优点而成为研究大型网络资源管理的一个重要数学工具,它已经在物联网、云计算、云制造、大数据、交通运输、医疗卫生等重要实际领域中获得了极为广泛的应用.目前,非对称超市模型是这个研究... 超市模型具有操作简单、反应快速、实时管控等优点而成为研究大型网络资源管理的一个重要数学工具,它已经在物联网、云计算、云制造、大数据、交通运输、医疗卫生等重要实际领域中获得了极为广泛的应用.目前,非对称超市模型是这个研究方向上的一个重要课题.在本文中,我们研究了一个非对称超市模型.由于M个服务台不相同,所以到达顾客的路径选择策略表现得较为复杂:它不仅与队长和服务速度有关,而且也与服务台的信誉有关.为此,我们利用决策方法构造了非对称超市模型的路径选择策略.基于此,我们利用马氏报酬过程及其优化技术,建立了这个非对称超市模型的泛函报酬方程,并给出了这些泛函报酬方程的一个值递推算法;通过对这个报酬函数的一个相向优化,提供了这类非对称超市模型研究中的一个性能评价准则.为了理解非对称超市模型是如何通过客观条件与主观行为来实施对大型网络资源进行有效管控,本文的研究方法与结果在这个方向上首次提供了一些必要的理论依据. 展开更多
关键词 非对称超市模型 路径选择策略 马氏报酬过程 报酬函数 值递推算法
下载PDF
考虑抽样时间间隔的特殊单臂Bandit报酬过程
3
作者 邹捷中 梁友 《铁道科学与工程学报》 CAS CSCD 北大核心 2006年第6期87-90,共4页
应用动态规划向后归纳法和贝叶斯方法,研究了一类特殊单臂Bandit报酬过程的最优决策问题。在这个模型中,未知Bandit过程是抽样时间间隔服从负指数分布,抽样值服从Erlang(2)分布,允许在任意时刻跳转的Bandit报酬过程。讨论了这类Bandit... 应用动态规划向后归纳法和贝叶斯方法,研究了一类特殊单臂Bandit报酬过程的最优决策问题。在这个模型中,未知Bandit过程是抽样时间间隔服从负指数分布,抽样值服从Erlang(2)分布,允许在任意时刻跳转的Bandit报酬过程。讨论了这类Bandit报酬过程Gittins指数的单调性质,并在此基础上将包含这类过程的单臂Bandit报酬过程的最优决策问题简化为一个最优停止问题,构造了计算过程最优停止时间的算法。 展开更多
关键词 贝叶斯方法 特殊单臂Bandit报酬过程 Gittins指灵敏 Erlang(2)布
下载PDF
A Geometric Process Repair Model for the Repairable System Consisting of One Component 被引量:1
4
作者 贾积身 乔保民 张元林 《Chinese Quarterly Journal of Mathematics》 CSCD 2001年第4期76-82,共7页
This paper considers the optimal replacement problem of a repairable system consisting of one component and a single repairman, assume that the system after repair is not 'as good as new', by using the geometr... This paper considers the optimal replacement problem of a repairable system consisting of one component and a single repairman, assume that the system after repair is not 'as good as new', by using the geometric process, we consider a placement policy T based on the age of the system. The problem is to determine the optimal replacement policy T * such that the long_run expected benefit per unit time is maximized. Also, the explicit expression of the long_run expected benefit per unit time can be found. In some conditions, the existence and uniqueness of the optimal policy T * can be proved, finally, we prove that the policy T * is better than the policy T * in . 展开更多
关键词 expected benefit geometric process renewal reward theorem CONVOLUTION
下载PDF
Incremental Multi Step R Learning
5
作者 胡光华 吴沧浦 《Journal of Beijing Institute of Technology》 EI CAS 1999年第3期245-250,共6页
Aim To investigate the model free multi step average reward reinforcement learning algorithm. Methods By combining the R learning algorithms with the temporal difference learning (TD( λ ) learning) algorithm... Aim To investigate the model free multi step average reward reinforcement learning algorithm. Methods By combining the R learning algorithms with the temporal difference learning (TD( λ ) learning) algorithms for average reward problems, a novel incremental algorithm, called R( λ ) learning, was proposed. Results and Conclusion The proposed algorithm is a natural extension of the Q( λ) learning, the multi step discounted reward reinforcement learning algorithm, to the average reward cases. Simulation results show that the R( λ ) learning with intermediate λ values makes significant performance improvement over the simple R learning. 展开更多
关键词 reinforcement learning average reward R learning Markov decision processes temporal difference learning
下载PDF
人才管理的一个决策模型
6
作者 王永兴 刘嘉 《大学数学》 1996年第1期14-17,共4页
本文应用随机过程理论,结合最优化方法.给出一个企业雇员素质管理的Markov决策模型.
关键词 Markov健 报酬的Markov过程 最优策略
下载PDF
Sugeno测度空间上的模糊更新过程 被引量:1
7
作者 张春琴 李俊华 《模糊系统与数学》 CSCD 北大核心 2016年第6期79-86,共8页
研究了随机更新过程在Sugeno测度空间上的推广这一问题。基于Sugeno测度理论,在模糊环境下讨论了关于独立时间间距的更新过程;证明了一些关于模糊更新变量的极限理论;提出并证明了模糊基本更新定理;研究了更新报酬过程并给出了相关理论... 研究了随机更新过程在Sugeno测度空间上的推广这一问题。基于Sugeno测度理论,在模糊环境下讨论了关于独立时间间距的更新过程;证明了一些关于模糊更新变量的极限理论;提出并证明了模糊基本更新定理;研究了更新报酬过程并给出了相关理论的证明。这一工作把经典的随机更新过程的相应理论推广到了Sugeno测度空间上,扩大了随机更新过程的研究范围和应用领域。 展开更多
关键词 Sugeno测度 模糊更新过程 报酬过程 依Sugeno测度收敛 gλ-随机变量
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部