期刊文献+
共找到36篇文章
< 1 2 >
每页显示 20 50 100
Asymptotic Evaluations of the Stability Index for a Markov Control Process with the Expected Total Discounted Reward Criterion
1
作者 Jaime Eduardo Martínez-Sánchez 《American Journal of Operations Research》 2021年第1期62-85,共24页
In this work, for a control consumption-investment process with the discounted reward optimization criteria, a numerical estimate of the stability index is made. Using explicit formulas for the optimal stationary poli... In this work, for a control consumption-investment process with the discounted reward optimization criteria, a numerical estimate of the stability index is made. Using explicit formulas for the optimal stationary policies and for the value functions, the stability index is explicitly calculated and through statistical techniques its asymptotic behavior is investigated (using numerical experiments) when the discount coefficient approaches 1. The results obtained define the conditions under which an approximate optimal stationary policy can be used to control the original process. 展开更多
关键词 Control Consumption-Investment process Discrete-Time markov Control process Expected Total Discounted reward Probabilistic Metrics Stability Index Estimation
下载PDF
Variance Optimization for Continuous-Time Markov Decision Processes
2
作者 Yaqing Fu 《Open Journal of Statistics》 2019年第2期181-195,共15页
This paper considers the variance optimization problem of average reward in continuous-time Markov decision process (MDP). It is assumed that the state space is countable and the action space is Borel measurable space... This paper considers the variance optimization problem of average reward in continuous-time Markov decision process (MDP). It is assumed that the state space is countable and the action space is Borel measurable space. The main purpose of this paper is to find the policy with the minimal variance in the deterministic stationary policy space. Unlike the traditional Markov decision process, the cost function in the variance criterion will be affected by future actions. To this end, we convert the variance minimization problem into a standard (MDP) by introducing a concept called pseudo-variance. Further, by giving the policy iterative algorithm of pseudo-variance optimization problem, the optimal policy of the original variance optimization problem is derived, and a sufficient condition for the variance optimal policy is given. Finally, we use an example to illustrate the conclusion of this paper. 展开更多
关键词 CONTINUOUS-TIME markov Decision process Variance OPTIMALITY of Average reward Optimal POLICY of Variance POLICY ITERATION
下载PDF
基于强化学习算法的神经网络模糊测试技术优化研究
3
作者 张宇豪 关昕 《计算机测量与控制》 2024年第3期131-137,共7页
现有神经网络模糊测试技术在测试样本生成阶段通常对初始样本进行随机变异,导致生成样本质量不高,从而测试覆盖率不高;针对以上问题,提出一种基于强化学习算法的神经网络模糊测试技术,将模糊测试过程建模为马尔可夫决策过程,在该模型中... 现有神经网络模糊测试技术在测试样本生成阶段通常对初始样本进行随机变异,导致生成样本质量不高,从而测试覆盖率不高;针对以上问题,提出一种基于强化学习算法的神经网络模糊测试技术,将模糊测试过程建模为马尔可夫决策过程,在该模型中,测试样本被看作环境状态,不同的变异方法被看作可供选择的动作空间,神经元覆盖率被看作奖励反馈,使用强化学习算法来学习最优的变异策略,指导生成最优测试样本,使其能够获得最高的神经元覆盖率;通过与现有的主流神经网络模糊测试方法的对比实验表明,基于强化学习算法的神经网络模糊测试技术,可以提升在不同粒度下的神经元覆盖。 展开更多
关键词 模糊测试 神经网络 强化学习 马尔科夫决策过程 奖励函数
下载PDF
带动作回报的连续时间Markov回报过程验证
4
作者 黄镇谨 陆阳 +1 位作者 杨娟 王智文 《电子测量与仪器学报》 CSCD 北大核心 2015年第11期1603-1613,共11页
为了能够更准确的表达不确定性复杂系统的时空验证,针对当前连续时间Markov回报过程(continue time markov reward decision process,CMRDP)验证中只考虑状态回报的问题,提出带动作回报的验证方法。考虑添加了动作回报的空间性能约束,... 为了能够更准确的表达不确定性复杂系统的时空验证,针对当前连续时间Markov回报过程(continue time markov reward decision process,CMRDP)验证中只考虑状态回报的问题,提出带动作回报的验证方法。考虑添加了动作回报的空间性能约束,扩展现有的基于状态回报的连续时间Markov回报过程,用正则表达式表示验证属性的路径规范,扩展已有路径算子的表达能力。给出带动作回报CMRDP和路径规范的积模型,求解积模型在确定性策略下的诱导Markov回报模型(markov reward model,MRM),将CMRDP上的时空性能验证转换为MRM模型上的时空可达概率分析,并提出MRM中求解可达概率的算法。实例分析表明,提出的验证思路和验证算法是可行的。 展开更多
关键词 markov回报过程 模型验证 动作回报 时空有界可达概率
下载PDF
Heterogeneous Network Selection Optimization Algorithm Based on a Markov Decision Model 被引量:7
5
作者 Jianli Xie Wenjuan Gao Cuiran Li 《China Communications》 SCIE CSCD 2020年第2期40-53,共14页
A network selection optimization algorithm based on the Markov decision process(MDP)is proposed so that mobile terminals can always connect to the best wireless network in a heterogeneous network environment.Consideri... A network selection optimization algorithm based on the Markov decision process(MDP)is proposed so that mobile terminals can always connect to the best wireless network in a heterogeneous network environment.Considering the different types of service requirements,the MDP model and its reward function are constructed based on the quality of service(QoS)attribute parameters of the mobile users,and the network attribute weights are calculated by using the analytic hierarchy process(AHP).The network handoff decision condition is designed according to the different types of user services and the time-varying characteristics of the network,and the MDP model is solved by using the genetic algorithm and simulated annealing(GA-SA),thus,users can seamlessly switch to the network with the best long-term expected reward value.Simulation results show that the proposed algorithm has good convergence performance,and can guarantee that users with different service types will obtain satisfactory expected total reward values and have low numbers of network handoffs. 展开更多
关键词 heterogeneous wireless networks markov decision process reward function genetic algorithm simulated annealing
下载PDF
风险敏感马氏决策过程与状态扩充变换
6
作者 马帅 夏俐 《中山大学学报(自然科学版)(中英文)》 CAS CSCD 北大核心 2023年第1期181-191,共11页
在马氏决策过程中,过程的随机性由策略与转移核决定,优化目标的随机性受随机报酬与随机策略的影响,其中随机报酬往往可通过简化转化为确定型报酬。当优化准则为经典的期望类准则,如平均准则或折扣准则时,报酬函数的简化不会影响优化结... 在马氏决策过程中,过程的随机性由策略与转移核决定,优化目标的随机性受随机报酬与随机策略的影响,其中随机报酬往往可通过简化转化为确定型报酬。当优化准则为经典的期望类准则,如平均准则或折扣准则时,报酬函数的简化不会影响优化结果。然而对风险敏感的优化准则,此类简化将影响风险目标值,进而破坏策略的最优性。针对该问题,状态扩充变换将随机信息重组进扩充状态空间,在简化报酬函数的同时保持随机报酬过程不变。本文以三种定义于累积折扣报酬的经典风险测度为例,在策略评价中对比报酬函数简化与状态扩充变换对风险评估的影响。理论验证与数值实验均表明,当报酬函数形式较为复杂时,状态扩充变换可在简化报酬函数的同时保持风险测度不变。 展开更多
关键词 马氏决策过程 状态扩充变换 风险 报酬函数简化
下载PDF
THE BOREL STATE SPACE SEMI-MARKOVDECISION PROCESS WITH EXPECTED TOTAL REWARDS IN A SEMI-MARKOV ENVIRONMENT
7
作者 XU Chen(School of Science, Shenzhen University, Shenzhen 518060, China)HU Qiying (School of Economy and Management, Xidian University, Xi’an 710071, China) 《Systems Science and Mathematical Sciences》 SCIE EI CSCD 1999年第1期82-91,共10页
This paper investigates the Borel state space semi-Markov decision process (SMDP) with the criterion of expected total rewards in a semi-Markov environment. It describes a system which behaves like a SMDP except that ... This paper investigates the Borel state space semi-Markov decision process (SMDP) with the criterion of expected total rewards in a semi-Markov environment. It describes a system which behaves like a SMDP except that the system is influenced by its environment modeled by a semi-Markov process. We transform the SMDP in a semiMarkov environment into an equivalent discrete time Markov decision process under the condition that rewards are all positive or all negative, and obtain the optimality equation and some properties for it. 展开更多
关键词 Semi-markov DECISION processES semi-markov ENVIRONMENT EXPECTED TOTAL rewards BOREL state space.
原文传递
策略梯度强化学习中的最优回报基线 被引量:6
8
作者 王学宁 徐昕 +1 位作者 吴涛 贺汉根 《计算机学报》 EI CSCD 北大核心 2005年第6期1021-1026,共6页
尽管策略梯度强化学习算法有较好的收敛性,但是在梯度估计的过程中方差过大,却是该方法在理论和应用上的一个主要弱点.为减小梯度强化学习算法的方差,该文提出一种新的算法———Istate Grbp算法:在策略梯度算法Istate GPOMDP中加入回... 尽管策略梯度强化学习算法有较好的收敛性,但是在梯度估计的过程中方差过大,却是该方法在理论和应用上的一个主要弱点.为减小梯度强化学习算法的方差,该文提出一种新的算法———Istate Grbp算法:在策略梯度算法Istate GPOMDP中加入回报基线,以改进策略梯度算法的学习性能.文中证明了在Istate GPOMDP算法中引入回报基线,不会改变梯度估计的期望值,并且给出了使方差最小的最优回报基线.实验结果表明,和已有算法相比,该文提出的算法通过减小梯度估计的方差,提高了学习效率,加快了学习过程的收敛. 展开更多
关键词 强化学习 策略梯度 部分可观测马氏决策过程 回报基线
下载PDF
基于随机进程代数的软件体系结构建模与性能评价 被引量:3
9
作者 赵会群 徐凌宇 +1 位作者 王国仁 高远 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2002年第1期16-19,共4页
软件体系结构是应用系统的逻辑框架 ,在设计阶段分析软件体系结构的各种性能指标 ,可以改进软件系统设计·提出一种基于随机进程代数 (stochasticprocessalgebra简称SPA)的软件体系结构建模方法 ,该方法把软件体系结构建模与性能评... 软件体系结构是应用系统的逻辑框架 ,在设计阶段分析软件体系结构的各种性能指标 ,可以改进软件系统设计·提出一种基于随机进程代数 (stochasticprocessalgebra简称SPA)的软件体系结构建模方法 ,该方法把软件体系结构建模与性能评价相结合 ,从而可以在系统设计阶段分析软件体系结构的性能·实践验证该方法更简单。 展开更多
关键词 软件体系结构 随机进程代数 性能评价 markov过程 回报结构 软件设计 建模机制
下载PDF
适于估计OD矩阵的交通检测点的最优分布 被引量:7
10
作者 周晶 盛昭瀚 +2 位作者 何建敏 杨海 王长君 《自动化学报》 EI CSCD 北大核心 2000年第3期303-309,共7页
讨论了适于估计起迄点出行分布矩阵 ( OD矩阵 )的交通检测点的合理分布问题 .根据检测点应当满足的规则 ,建立了关于检测点分布的非线性规划模型 .在已知极点间转移概率的前提下 ,将检测点的分布问题描述成一个平均报酬 Markov决策过程 ... 讨论了适于估计起迄点出行分布矩阵 ( OD矩阵 )的交通检测点的合理分布问题 .根据检测点应当满足的规则 ,建立了关于检测点分布的非线性规划模型 .在已知极点间转移概率的前提下 ,将检测点的分布问题描述成一个平均报酬 Markov决策过程 ,并通过转化为一个等价的整数线性规划问题来求解 .最后实例结果表明该模型是有效的。 展开更多
关键词 交通检测点 最优分布 OD矩阵 整数线性规划
下载PDF
强化学习算法中启发式回报函数的设计及其收敛性分析 被引量:13
11
作者 魏英姿 赵明扬 《计算机科学》 CSCD 北大核心 2005年第3期190-193,共4页
(中国科学院沈阳自动化所机器人学重点实验室沈阳110016)
关键词 强化学习算法 启发式回报函数 收敛性 马尔可夫决策过程 机器学习 人工智能
下载PDF
基于社会网络信息流模型的协同过滤算法 被引量:6
12
作者 万里 廖建新 王纯 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2011年第1期270-275,共6页
为提高个性化推荐技术的准确率,首先在多维半马氏过程的状态空间中定义'空状态',得到扩展多维半马氏过程,将其与社会网络分析理论结合,得到社会网络信息流模型,该模型描述了社会网络成员间的信息流动过程。然后基于社会网络信... 为提高个性化推荐技术的准确率,首先在多维半马氏过程的状态空间中定义'空状态',得到扩展多维半马氏过程,将其与社会网络分析理论结合,得到社会网络信息流模型,该模型描述了社会网络成员间的信息流动过程。然后基于社会网络信息流模型,提出协同过滤算法SMRR(Semi-Markov and reward renewal)。实验表明,由于综合考虑用户自身偏好和社会网络中其他成员的影响,SMRR的预测准确率明显高于原有算法。 展开更多
关键词 通信技术 协同过滤 多维半马氏过程 有偿半马氏模型 社会网络 电子商务
下载PDF
A New Theoretical Framework of Pyramid Markov Processes for Blockchain Selfish Mining 被引量:2
13
作者 Quanlin Li Yanxia Chang +1 位作者 Xiaole Wu Guoqing Zhang 《Journal of Systems Science and Systems Engineering》 SCIE EI CSCD 2021年第6期667-711,共45页
In this paper,we provide a new theoretical framework of pyramid Markov processes to solve some open and fundamental problems of blockchain selfish mining under a rigorous mathematical setting.We first describe a more ... In this paper,we provide a new theoretical framework of pyramid Markov processes to solve some open and fundamental problems of blockchain selfish mining under a rigorous mathematical setting.We first describe a more general model of blockchain selfish mining with both a two-block leading competitive criterion and a new economic incentive mechanism.Then we establish a pyramid Markov process and show that it is irreducible and positive recurrent,and its stationary probability vector is matrix-geometric with an explicitly representable rate matrix.Also,we use the stationary probability vector to study the influence of orphan blocks on the waste of computing resource.Next,we set up a pyramid Markov reward process to investigate the long-run average mining profits of the honest and dishonest mining pools,respectively.As a by-product,we build one-dimensional Markov reward processes and provide some new interesting interpretation on the Markov chain and the revenue analysis reported in the seminal work by Eyal and Sirer(2014).Note that the pyramid Markov(reward)processes can open up a new avenue in the study of blockchain selfish mining.Thus we hope that the methodology and results developed in this paper shed light on the blockchain selfish mining such that a series of promising research can be developed potentially. 展开更多
关键词 Blockchain Proof of Work selfish mining main chain pyramid markov process pyramid markov reward process phase-type distribution Matrix-geometric solution
原文传递
两部件冷备系统的可靠性分析及其最优更换策略 被引量:11
14
作者 张元林 《高校应用数学学报(A辑)》 CSCD 北大核心 1995年第1期1-11,共11页
本文研究了两个不同部件、一个修理工组成的冷贮备可修系统,假定它们的寿命分布和维修分布均为指数分布,但故障后均不能修复如新时,我们利用几何过程和补充变量法求得了一些可靠性指标,并以故障次数为策略,以长期运行单位时间内的... 本文研究了两个不同部件、一个修理工组成的冷贮备可修系统,假定它们的寿命分布和维修分布均为指数分布,但故障后均不能修复如新时,我们利用几何过程和补充变量法求得了一些可靠性指标,并以故障次数为策略,以长期运行单位时间内的期望效益为目标函数,确定了最优的故障次数,使得目标函数达到最大值,从而保证了系统的可用度。 展开更多
关键词 更新过程 更换策略 可靠性 冷贮备系统 可修系统
下载PDF
顺序迭代开发过程建模与仿真 被引量:2
15
作者 张卫民 周伯生 罗文劼 《计算机集成制造系统》 EI CSCD 北大核心 2008年第9期1696-1703,共8页
为有效地管理和改进产品开发过程,提出了一种基于奖赏马尔科夫链的顺序迭代过程定量模型。该模型与已有的顺序迭代过程模型不同的是,模型中的返工影响因子不仅作用于直接返工任务的持续时间,而且作用于该返工任务的后续任务,即作用于返... 为有效地管理和改进产品开发过程,提出了一种基于奖赏马尔科夫链的顺序迭代过程定量模型。该模型与已有的顺序迭代过程模型不同的是,模型中的返工影响因子不仅作用于直接返工任务的持续时间,而且作用于该返工任务的后续任务,即作用于返工任务的整个剩余时间。一个任务在每个阶段的返工量随着迭代次数的增加而逐渐减少。考虑了不同任务引起的同一任务返工量的不同。为估计开发过程的期望时间,建立了过程时间估计的分析模型和仿真模型,给出了仿真计算算法。以软件测试过程为例,给出了过程时间估计的分析和仿真实验结果,并与其他已有模型进行了对比分析。最后,讨论了模型估计结果产生偏差的可能原因。 展开更多
关键词 产品开发 过程管理 顺序迭代 过程模型 奖赏马尔科夫链 设计结构矩阵
下载PDF
一类基于有效跟踪的广义平均奖赏激励学习算法 被引量:1
16
作者 陈焕文 谢建平 《计算机工程与应用》 CSCD 北大核心 2002年第1期65-68,共4页
取消了平均奖赏激励学习的单链或互通MDPs假设,基于有效跟踪技术和折扣奖赏型SARSA(λ)算法,对传统的平均奖赏激励学习进行了推广,提出了一类广义平均奖赏激励学习算法,并对算法的性能进行了初步的比较实验。
关键词 激励学习 markov决策过程 平均奖赏 有效跟踪
下载PDF
非对称超市模型的报酬过程与性能优化研究
17
作者 李泉林 丁园园 杨飞飞 《应用概率统计》 CSCD 北大核心 2015年第4期411-431,共21页
超市模型具有操作简单、反应快速、实时管控等优点而成为研究大型网络资源管理的一个重要数学工具,它已经在物联网、云计算、云制造、大数据、交通运输、医疗卫生等重要实际领域中获得了极为广泛的应用.目前,非对称超市模型是这个研究... 超市模型具有操作简单、反应快速、实时管控等优点而成为研究大型网络资源管理的一个重要数学工具,它已经在物联网、云计算、云制造、大数据、交通运输、医疗卫生等重要实际领域中获得了极为广泛的应用.目前,非对称超市模型是这个研究方向上的一个重要课题.在本文中,我们研究了一个非对称超市模型.由于M个服务台不相同,所以到达顾客的路径选择策略表现得较为复杂:它不仅与队长和服务速度有关,而且也与服务台的信誉有关.为此,我们利用决策方法构造了非对称超市模型的路径选择策略.基于此,我们利用马氏报酬过程及其优化技术,建立了这个非对称超市模型的泛函报酬方程,并给出了这些泛函报酬方程的一个值递推算法;通过对这个报酬函数的一个相向优化,提供了这类非对称超市模型研究中的一个性能评价准则.为了理解非对称超市模型是如何通过客观条件与主观行为来实施对大型网络资源进行有效管控,本文的研究方法与结果在这个方向上首次提供了一些必要的理论依据. 展开更多
关键词 非对称超市模型 路径选择策略 马氏报酬过程 报酬函数 值递推算法
下载PDF
基于倾向性分析的轨迹评测技术 被引量:1
18
作者 金卓军 钱徽 朱淼良 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2011年第10期1732-1737,共6页
通过逆向增强学习和策略不变条件下的回报函数变形原理,研究已有标准轨迹前提下的车辆轨迹评测问题,提出基于倾向性分析的轨迹评测技术.对于标准轨迹和评测轨迹应用逆向增强学习算法,分别求出两者相对应的特征权重,将特征权重在策略不... 通过逆向增强学习和策略不变条件下的回报函数变形原理,研究已有标准轨迹前提下的车辆轨迹评测问题,提出基于倾向性分析的轨迹评测技术.对于标准轨迹和评测轨迹应用逆向增强学习算法,分别求出两者相对应的特征权重,将特征权重在策略不变条件下分别扩展成线性子空间,通过计算由正交投影矩阵定义的子空间间距离得到对评测轨迹的评测值.在四轮车辆仿真实验中,针对几种典型的驾驶风格轨迹对该方法进行验证.实验结果表明,该方法能够对于避障评测轨迹按其与标准轨迹的差异给出评测结果,克服了相同策略对应回报函数不唯一性所带来的影响,有效解决了车辆轨迹之间难于定量比较的难题. 展开更多
关键词 轨迹评测 倾向性分析 回报函数变形 逆向增强学习 马尔可夫决策过程
下载PDF
基于马氏决策向量过程模型的有限阶段期望总报酬准则及其最优方程 被引量:2
19
作者 陈杰 刘再明 邢灵博 《数学理论与应用》 2011年第4期7-13,共7页
在马氏决策向量过程模型的理论基础上,结合决策向量和相合度等新定义,进一步提出有限阶段期望总报酬准则和最优方程,并证明最优方程的解的存在性.
关键词 马氏决策向量过程模型 报酬准则 最优方程 存在性
下载PDF
基于马尔科夫奖励过程的牵引系统可靠性评估 被引量:1
20
作者 李小波 褚敏 +2 位作者 陆朱剑 程岳梅 田世贺 《智能计算机与应用》 2020年第2期89-92,96,共5页
针对地铁列车牵引系统可靠性问题,提出一种层次分析法和马尔科夫奖励过程相结合的牵引系统可靠性评估方法。利用层次分析法确定牵引系统模块层的可靠性评价指标,并计算综合权重,确定各模块层进入不同状态的奖励系数,采用马尔科夫奖励过... 针对地铁列车牵引系统可靠性问题,提出一种层次分析法和马尔科夫奖励过程相结合的牵引系统可靠性评估方法。利用层次分析法确定牵引系统模块层的可靠性评价指标,并计算综合权重,确定各模块层进入不同状态的奖励系数,采用马尔科夫奖励过程考虑不同衰减系数下系统可靠性的变化,建立了牵引系统可靠性评估模型。该模型对地铁列车牵引系统的可靠性评估及制定维修维护策略具有重要的参考价值。 展开更多
关键词 地铁牵引系统 可靠性 层次分析法 马尔科夫奖励过程
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部