期刊文献+
共找到191篇文章
< 1 2 10 >
每页显示 20 50 100
基于MDP的无人机避撞航迹规划研究
1
作者 阚煌 辛长范 +3 位作者 谭哲卿 高鑫 史铭姗 张谦 《计算机测量与控制》 2024年第6期292-298,共7页
无人机(UAV)进行避撞前提下的目标搜索航迹规划是指在复杂且众多的环境障碍约束中通过合理规划飞行路径,以更快、更高效的形式找到目标;研究了无障碍环境条件下有限位置马尔科夫移动的规律,构建了相应的马尔科夫移动分布模型;在借鉴搜... 无人机(UAV)进行避撞前提下的目标搜索航迹规划是指在复杂且众多的环境障碍约束中通过合理规划飞行路径,以更快、更高效的形式找到目标;研究了无障碍环境条件下有限位置马尔科夫移动的规律,构建了相应的马尔科夫移动分布模型;在借鉴搜索系统航迹规划的前沿研究成果之上,结合马尔科夫决策过程理论(MDP),引入了负奖励机制对Q-Learning策略算法迭代;类比“风险井”的可视化方式将障碍威胁区域对无人机的负奖励作用直观地呈现出来,构建了复杂障碍约束环境下单无人机目标搜索航迹规划模型,并进行仿真实验证明该算法可行,对航迹规划算法的设计具有一定的参考意义。 展开更多
关键词 无人机 航迹规划 避撞 静态目标搜索 马尔科夫决策过程(mdp) 风险井
下载PDF
Performance Potential-based Neuro-dynamic Programming for SMDPs 被引量:10
2
作者 TANGHao YUANJi-Bin LUYang CHENGWen-Juan 《自动化学报》 EI CSCD 北大核心 2005年第4期642-645,共4页
An alpha-uniformized Markov chain is defined by the concept of equivalent infinitesimalgenerator for a semi-Markov decision process (SMDP) with both average- and discounted-criteria.According to the relations of their... An alpha-uniformized Markov chain is defined by the concept of equivalent infinitesimalgenerator for a semi-Markov decision process (SMDP) with both average- and discounted-criteria.According to the relations of their performance measures and performance potentials, the optimiza-tion of an SMDP can be realized by simulating the chain. For the critic model of neuro-dynamicprogramming (NDP), a neuro-policy iteration (NPI) algorithm is presented, and the performanceerror bound is shown as there are approximate error and improvement error in each iteration step.The obtained results may be extended to Markov systems, and have much applicability. Finally, anumerical example is provided. 展开更多
关键词 决议过程 Smdp 执行电位 神经动力学 markov 优化设计
下载PDF
基于深度强化学习的综合航电系统安全性优化方法
3
作者 赵长啸 李道俊 +2 位作者 孙亦轩 景鹏 田毅 《中国安全科学学报》 CAS CSCD 北大核心 2024年第7期123-131,共9页
为解决传统基于人工检查的安全性设计方法难以应对航电系统大规模集成带来的可选驻留方案爆炸问题,构建航电系统分区模型、任务模型以及安全关键等级量化模型,将考虑安全性的综合化设计优化问题模型化为马尔可夫决策过程(MDP)问题,并提... 为解决传统基于人工检查的安全性设计方法难以应对航电系统大规模集成带来的可选驻留方案爆炸问题,构建航电系统分区模型、任务模型以及安全关键等级量化模型,将考虑安全性的综合化设计优化问题模型化为马尔可夫决策过程(MDP)问题,并提出一种基于Actor-Critic框架的柔性动作-评价(SAC)算法的优化方法;为得到SAC算法的参数选择和训练结果之间的相关性,针对算法参数灵敏度开展研究;同时,为验证基于SAC算法的优化方法在优化考虑安全性的综合化设计方面的优越性,以深度确定性策略梯度(DDPG)算法和传统分配算法为对象,开展优化对比试验。结果表明:在最佳的参数组合下,使用的SAC算法收敛后的最大奖励相较于其他参数组合提升近8%,同时,收敛时间缩短近16.6%;相较于DDPG算法和传统分配算法,基于SAC算法的优化方法在相同的参数设置下获得的最大奖励、约束累计违背率、分区均衡风险效果、分区资源利用以及求解时间方面最大提升分别为62%、7464%、8370%、2123%和775%。 展开更多
关键词 深度强化学习 综合航电系统 安全性 优化方法 马尔可夫决策过程(mdp) 综合化设计
下载PDF
基于距离信息的追逃策略:信念状态连续随机博弈 被引量:1
4
作者 陈灵敏 冯宇 李永强 《自动化学报》 EI CAS CSCD 北大核心 2024年第4期828-840,共13页
追逃问题的研究在对抗、追踪以及搜查等领域极具现实意义.借助连续随机博弈与马尔科夫决策过程(Markov decision process, MDP),研究使用测量距离求解多对一追逃问题的最优策略.在此追逃问题中,追捕群体仅领导者可测量与逃逸者间的相对... 追逃问题的研究在对抗、追踪以及搜查等领域极具现实意义.借助连续随机博弈与马尔科夫决策过程(Markov decision process, MDP),研究使用测量距离求解多对一追逃问题的最优策略.在此追逃问题中,追捕群体仅领导者可测量与逃逸者间的相对距离,而逃逸者具有全局视野.追逃策略求解被分为追博弈与马尔科夫决策两个过程.在求解追捕策略时,通过分割环境引入信念区域状态以估计逃逸者位置,同时使用测量距离对信念区域状态进行修正,构建起基于信念区域状态的连续随机追博弈,并借助不动点定理证明了博弈平稳纳什均衡策略的存在性.在求解逃逸策略时,逃逸者根据全局信息建立混合状态下的马尔科夫决策过程及相应的最优贝尔曼方程.同时给出了基于强化学习的平稳追逃策略求解算法,并通过案例验证了该算法的有效性. 展开更多
关键词 追逃问题 信念区域状态 连续随机博弈 马尔科夫决策过程 强化学习
下载PDF
基于MDP框架的飞行器隐蔽接敌策略 被引量:11
5
作者 徐安 于雷 +2 位作者 寇英信 徐保伟 李战武 《系统工程与电子技术》 EI CSCD 北大核心 2011年第5期1063-1068,共6页
基于近似动态规划(approximate dynamic programming,ADP)对空战飞行器隐蔽接敌决策问题进行研究。基于作战飞行器的战术使用原则,提出了隐蔽接敌过程中的优势区域与暴露区域;构建了基于马尔科夫决策过程(Markov decision process,MDP)... 基于近似动态规划(approximate dynamic programming,ADP)对空战飞行器隐蔽接敌决策问题进行研究。基于作战飞行器的战术使用原则,提出了隐蔽接敌过程中的优势区域与暴露区域;构建了基于马尔科夫决策过程(Markov decision process,MDP)的隐蔽接敌策略的强化学习方法;通过态势得分函数对非连续的即时收益函数进行修正,给出了基于ADP方法的策略学习与策略提取方法。分别针对对手在有无信息源支持情况下的不同机动对策进行了仿真验证。仿真结果表明,将ADP方法应用于隐蔽接敌策略的学习是可行的,在不同态势下可获得较为有效的接敌策略。 展开更多
关键词 隐蔽接敌 马尔科夫决策过程 近似动态规划 空战决策 近似值函数
下载PDF
基于POMDP的不稳定心绞痛中西医结合治疗方案优化研究 被引量:14
6
作者 冯妍 徐浩 +2 位作者 刘凯 周雪忠 陈可冀 《中国中西医结合杂志》 CAS CSCD 北大核心 2013年第7期878-882,共5页
目的初步优化中西医结合防治不稳定心绞痛(unstable angina,UA)的综合治疗方案。方法基于部分可观察的马尔科夫决策过程模型(Partially Observable Markov Decision Process,POMDP)的方法,选择气虚、血瘀、痰浊3个主要证侯要素,对UA住... 目的初步优化中西医结合防治不稳定心绞痛(unstable angina,UA)的综合治疗方案。方法基于部分可观察的马尔科夫决策过程模型(Partially Observable Markov Decision Process,POMDP)的方法,选择气虚、血瘀、痰浊3个主要证侯要素,对UA住院患者的诊治情况进行深层次数据挖掘、分析,客观评价UA中西医结合的疗效。结果 UA气虚证、血瘀证、痰浊证患者的推荐治疗方案依次为:硝酸酯类+他汀类+氯吡格雷+血管紧张素Ⅱ受体阻滞剂+肝素类+黄芪+党参+茯苓+白术(ADR=0.85077869);硝酸酯类+阿司匹林+氯吡格雷+他汀类+肝素类+当归+红花+桃仁+赤芍(ADR=0.70773000);硝酸酯类+阿司匹林+他汀类+血管紧张素转换酶抑制剂+栝蒌+薤白+半夏+陈皮(ADR=0.72509600)。结论本研究基于POMDP优化了UA的治疗方案,可作为进一步规范和制定中西医结合治疗UA方案的参考。 展开更多
关键词 部分可观察马尔科夫决策过程 不稳定心绞痛 治疗方案优化
下载PDF
基于HMDP的无人机三维路径规划 被引量:8
7
作者 洪晔 房建成 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2009年第1期100-103,共4页
路径规划是UAV(Unmanned Aerial Vehicle)自主飞行的重要保障.初步建立了基于MDP(Markov Decision Processes)的全局路径规划模型,把UAV的路径规划看作是给定环境模型和奖惩原则的情况下,寻求最优策略的问题;为解决算法时空开销大、UAV... 路径规划是UAV(Unmanned Aerial Vehicle)自主飞行的重要保障.初步建立了基于MDP(Markov Decision Processes)的全局路径规划模型,把UAV的路径规划看作是给定环境模型和奖惩原则的情况下,寻求最优策略的问题;为解决算法时空开销大、UAV航向改变频繁的缺点,提出一种基于状态聚类方法的HMDP(Hierarchical Markov Decision Processes)模型,并将其拓展到三维规划中.仿真实验证明:这种简单的规划模型可以有效解决UAV的三维全局路径规划问题,为其在实际飞行中的局部规划奠定了基础. 展开更多
关键词 无人机(UAV) 路径规划 马尔可夫决策过程(mdp) 分层马尔可夫决策过程(Hmdp) 仿真
下载PDF
多类病人的结直肠癌联合筛查策略优化
8
作者 黄瑞 张政 黄智慧 《系统工程学报》 CSCD 北大核心 2024年第5期706-723,共18页
针对早期结直肠癌病人,考虑了资源约束下的多类病人联合筛查策略优化问题.建立了该问题的马尔科夫决策模型(MDP)用于求解最优动态筛查策略,提出了基于混合整数规划(MIP)的近似模型求解更大规模的问题,分析了不同资源水平与人群特征下的... 针对早期结直肠癌病人,考虑了资源约束下的多类病人联合筛查策略优化问题.建立了该问题的马尔科夫决策模型(MDP)用于求解最优动态筛查策略,提出了基于混合整数规划(MIP)的近似模型求解更大规模的问题,分析了不同资源水平与人群特征下的最优联合筛查策略,并对比了不同情景下各种筛查策略的效果.实验结果表明,联合筛查策略明显优于单独筛查策略,能够帮助提升健康人群的预期质量调整生命年(QALYs)达到1.84%,并且提升幅度随资源的紧张程度、疾病的严重程度、男性和老年人群的比例上升而增大. 展开更多
关键词 癌症筛查 联合筛查策略 马尔科夫决策模型 混合整数规划
下载PDF
平均和折扣准则MDP基于TD(0)学习的统一NDP方法 被引量:5
9
作者 唐昊 周雷 袁继彬 《控制理论与应用》 EI CAS CSCD 北大核心 2006年第2期292-296,共5页
为适应实际大规模M arkov系统的需要,讨论M arkov决策过程(MDP)基于仿真的学习优化问题.根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行... 为适应实际大规模M arkov系统的需要,讨论M arkov决策过程(MDP)基于仿真的学习优化问题.根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行逼近策略评估;然后,根据性能势的逼近值,通过逼近策略迭代来实现两种准则下统一的神经元动态规划(neuro-dynam ic programm ing,NDP)优化方法.研究结果适用于半M arkov决策过程,并通过一个数值例子,说明了文中的神经元策略迭代算法对两种准则都适用,验证了平均问题是折扣问题当折扣因子趋近于零时的极限情况. 展开更多
关键词 markov决策过程 性能势 TD(0)学习 神经元动态规划
下载PDF
基于内部结构MPoMDP模型的策略梯度学习算法 被引量:1
10
作者 张润梅 王浩 +2 位作者 张佑生 姚宏亮 方长胜 《计算机工程与应用》 CSCD 北大核心 2009年第7期20-23,共4页
为了提高MPOMDP模型的知识表示能力和推理效率,提出一种基于Agent内部结构的MPOMDP模型。该模型能表示Agent的内部结构及其时间演化,并通过将系统联合概率分布表示成每个Agent内部变量集的局部因式形式,以提高模型的推理效率。将GPI-PO... 为了提高MPOMDP模型的知识表示能力和推理效率,提出一种基于Agent内部结构的MPOMDP模型。该模型能表示Agent的内部结构及其时间演化,并通过将系统联合概率分布表示成每个Agent内部变量集的局部因式形式,以提高模型的推理效率。将GPI-POMDP算法扩展到基于内部结构的MPOMDP模型中,给出基于内部状态的多Agent策略梯度算法(MIS-GPOMDP),来求解基于内部结构的MPOMDP。实验结果表明MIS-GPOMDP算法具有较高的推理效率,且算法是收敛的。 展开更多
关键词 马尔可夫决策过程 强化学习 MPOmdp模型 策略梯度算法
下载PDF
基于MDP的战机对抗导弹措施优化方法 被引量:1
11
作者 宋海方 肖明清 +1 位作者 陈游 胡阳光 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2017年第5期942-950,共9页
对战机对抗导弹的措施优化问题进行了研究,将该问题归结为不确定条件下的序贯决策问题,提出了一种基于Markov决策过程(MDP)的导弹对抗措施优化方法。首先,该方法根据作战过程将作战阶段分为不同的状态,将电子对抗措施(ECM)和战术机动作... 对战机对抗导弹的措施优化问题进行了研究,将该问题归结为不确定条件下的序贯决策问题,提出了一种基于Markov决策过程(MDP)的导弹对抗措施优化方法。首先,该方法根据作战过程将作战阶段分为不同的状态,将电子对抗措施(ECM)和战术机动作为可供战机选择的行动;然后,通过不同战术行动下状态之间的转移概率来反映行动的不确定性,以雷达搜索状态和导弹命中状态的期望值来表征不同策略下的飞机生存力;最后,通过建立Markov决策模型得到飞机生存力最大时各个状态对应的最佳行动。仿真结果表明:飞机生存力随着时间推移而逐渐降低;不同策略下飞机的生存力不同,基于MDP的策略可以有效提高飞机的生存力;单步优化措施不能提高战机的生存力,必须考虑长期状态转移的影响。 展开更多
关键词 飞机生存力 电子对抗措施(ECM) 战术机动 markov决策过程(mdp) 导弹对抗 序贯决策
下载PDF
基于MDP和动态规划的医疗检查预约调度优化方法研究 被引量:9
12
作者 梁峰 徐苹 《运筹与管理》 CSSCI CSCD 北大核心 2020年第5期17-25,共9页
医疗检查对医生诊断病人病情具有重要作用。针对医疗检查资源的预约调度问题,考虑两台设备、三类病人且各类病人所需检查时间不同的情况。以医院在检查设备方面收益最大化为目标,建立有限时域马尔可夫决策(Markov decision process,MDP... 医疗检查对医生诊断病人病情具有重要作用。针对医疗检查资源的预约调度问题,考虑两台设备、三类病人且各类病人所需检查时间不同的情况。以医院在检查设备方面收益最大化为目标,建立有限时域马尔可夫决策(Markov decision process,MDP)模型,并结合动态规划理论,得出系统最优的预约排程策略。通过matlab仿真模拟医院的检查预约情况,并结合调研数据,实例验证了该预约策略相对于传统预约策略的优越性。最后,对设备的最大可用时间和住院病人的预约请求到达率模型进行敏感性分析,研究了预约策略的适用性。 展开更多
关键词 医疗检查 预约调度 马尔可夫决策过程 动态规划
下载PDF
一种基于特征向量提取的FMDP模型求解方法 被引量:3
13
作者 张双民 石纯一 《软件学报》 EI CSCD 北大核心 2005年第5期733-743,共11页
在诸如机器人足球赛等典型的可分解马尔可夫决策过程(factored Markov decision process,简称FMDP)模型中,不同状态属性在不同的状态下,对于状态评估的影响程度是不同的,其中存在若干关键状态属性,能够唯一或近似判断当前状态的好坏.为... 在诸如机器人足球赛等典型的可分解马尔可夫决策过程(factored Markov decision process,简称FMDP)模型中,不同状态属性在不同的状态下,对于状态评估的影响程度是不同的,其中存在若干关键状态属性,能够唯一或近似判断当前状态的好坏.为了解决FMDP模型中普遍存在的“维数灾”问题,在效用函数非线性的情况下,通过对状态特征向量的提取近似状态效用函数,同时根据对FMDP模型的认知程度,从线性规划和再励学习两种求解角度分别进行约束不等式组的化简和状态效用函数的高维移植,从而达到降低计算复杂度,加快联合策略生成速度的目的.以机器人足球赛任意球战术配合为背景进行实验来验证基于状态特征向量的再励学习算法的有效性和学习结果的可移植性.与传统再励学习算法相比,基于状态特征向量的再励学习算法能够极大地加快策略的学习速度.但更重要的是,还可以将学习到的状态效用函数方便地移植到更高维的FMDP模型中,从而直接计算出联合策略而不需要重新进行学习. 展开更多
关键词 群体Agent合作求解 可分解马尔可夫决策过程 线性规划 再励学习 维数灾
下载PDF
Markov决策过程在船舶结构维修中的应用 被引量:2
14
作者 江晓俐 《中国造船》 EI CSCD 北大核心 2005年第3期85-91,共7页
船舶腐蚀和疲劳是导致船体老化,进而使其逐渐丧失结构承载能力的重要原因。本文采用具有无后效性的Markov链来模拟船体结构老化过程,其状态空间由完好(不需要维修)、可见裂纹维修、油漆和阴极防护维修、腐蚀修理、疲劳裂纹修理、腐蚀疲... 船舶腐蚀和疲劳是导致船体老化,进而使其逐渐丧失结构承载能力的重要原因。本文采用具有无后效性的Markov链来模拟船体结构老化过程,其状态空间由完好(不需要维修)、可见裂纹维修、油漆和阴极防护维修、腐蚀修理、疲劳裂纹修理、腐蚀疲劳组合修理和完全失效共计七种状态组成。每一状态均可采取无修理、修理和更新三者之一的维修方案。通过迭代来获得最佳维修方案以实现单位时间成本最低的维修优化目标。算例表明,Markov链可以合理地模拟船舶结构的老化过程,并可方便快捷地运用于船舶维修经济论证。 展开更多
关键词 船舶 舰船工程 船舶维修 markov决策过程(mdp) 优化 单位时间成本 经济论证
下载PDF
Age-Driven Joint Sampling and Non-Slot Based Scheduling for Industrial Internet of Things
15
作者 Cao Yali Teng Yinglei +1 位作者 Song Mei Wang Nan 《China Communications》 SCIE CSCD 2024年第11期190-204,共15页
Effective control of time-sensitive industrial applications depends on the real-time transmission of data from underlying sensors.Quantifying the data freshness through age of information(AoI),in this paper,we jointly... Effective control of time-sensitive industrial applications depends on the real-time transmission of data from underlying sensors.Quantifying the data freshness through age of information(AoI),in this paper,we jointly design sampling and non-slot based scheduling policies to minimize the maximum time-average age of information(MAoI)among sensors with the constraints of average energy cost and finite queue stability.To overcome the intractability involving high couplings of such a complex stochastic process,we first focus on the single-sensor time-average AoI optimization problem and convert the constrained Markov decision process(CMDP)into an unconstrained Markov decision process(MDP)by the Lagrangian method.With the infinite-time average energy and AoI expression expended as the Bellman equation,the singlesensor time-average AoI optimization problem can be approached through the steady-state distribution probability.Further,we propose a low-complexity sub-optimal sampling and semi-distributed scheduling scheme for the multi-sensor scenario.The simulation results show that the proposed scheme reduces the MAoI significantly while achieving a balance between the sampling rate and service rate for multiple sensors. 展开更多
关键词 Age of Information(AoI) Industrial Internet of Things(IIoT) markov decision process(mdp) time sensitive systems URLLC
下载PDF
受约束的非平稳Markov决策模型 被引量:1
16
作者 郭先平 《湖南师范大学自然科学学报》 CAS 1993年第2期107-113,共7页
本文用拓扑分析的方法,讨论了马氏策略类Π_m^d的拓扑结构,同时较简单地证明了存在一马氏策略在马氏策略类中是最优的.另外,利用引入Lagrange乘子的技巧和中间值定理,证明了约束最优策略的存在性,并进一步证明约束最优策略可取为马氏策... 本文用拓扑分析的方法,讨论了马氏策略类Π_m^d的拓扑结构,同时较简单地证明了存在一马氏策略在马氏策略类中是最优的.另外,利用引入Lagrange乘子的技巧和中间值定理,证明了约束最优策略的存在性,并进一步证明约束最优策略可取为马氏策略或两个马氏策略的凸组合. 展开更多
关键词 非平稳 马尔柯夫 决策模型 约束
下载PDF
一种MDP基于性能势的并行Q学习算法
17
作者 程文娟 唐昊 +1 位作者 李豹 周雷 《系统仿真学报》 CAS CSCD 北大核心 2009年第9期2670-2674,2678,共6页
在性能势理论框架内,研究折扣和平均准则马尔可夫决策过程(MDP)的统一并行Q学习算法。提出了独立并行Q学习算法和状态划分并行Q学习算法,重点讨论了算法中的关键参数的设计,即同步点如何选择的同步策略和如何合成Q因子的Q值构建策略,给... 在性能势理论框架内,研究折扣和平均准则马尔可夫决策过程(MDP)的统一并行Q学习算法。提出了独立并行Q学习算法和状态划分并行Q学习算法,重点讨论了算法中的关键参数的设计,即同步点如何选择的同步策略和如何合成Q因子的Q值构建策略,给出了一种固定步长结合一定偏移量的同步策略,并分析了并行中Q值构建策略的确定原则,给出了几种Q值构建策略的选择方法。仿真实验表明并行Q学习算法的有效性。 展开更多
关键词 Q学习 马尔可夫决策过程 性能势 并行算法
下载PDF
SMDP基于Actor网络的统一NDP方法
18
作者 唐昊 陈栋 +1 位作者 周雷 吴玉华 《控制与决策》 EI CSCD 北大核心 2007年第2期155-159,共5页
研究半马尔可夫决策过程(SMDP)基于性能势学习和策略逼近的神经元动态规划(NDP)方法.通过SMDP的一致马尔可夫链的单个样本轨道,给出了折扣和平均准则下统一的性能势TD(λ)学习算法,进行逼近策略评估;利用一个神经元网络逼近结构作为行动... 研究半马尔可夫决策过程(SMDP)基于性能势学习和策略逼近的神经元动态规划(NDP)方法.通过SMDP的一致马尔可夫链的单个样本轨道,给出了折扣和平均准则下统一的性能势TD(λ)学习算法,进行逼近策略评估;利用一个神经元网络逼近结构作为行动器(Actor)表示策略,并根据性能势的学习值给出策略参数改进的两种方法.最后通过数值例子说明了有关算法的有效性. 展开更多
关键词 markov决策过程 性能势 TD(λ)学习 神经元动态规划
下载PDF
折扣与无折扣MDPs:一个基于SARSA(λ)算法的实例分析
19
作者 陈焕文 谢丽娟 《计算机工程与应用》 CSCD 北大核心 2002年第9期86-88,共3页
分析了折扣激励学习存在的问题,对MDPs的SARSA(λ)算法进行了折扣的比较实验分析,讨论了平均奖赏常量对无折扣SARSA(()算法的影响。
关键词 机器学习 激励学习 SARSA(λ)算法 实例分析 mdps
下载PDF
基于Q‒learning的变电站无线传感器网络路由算法
20
作者 赵锴 沙杰 丛尤嘉 《太赫兹科学与电子信息学报》 2024年第9期952-958,共7页
电力系统中的无线传感器网络(WSN)可以对工作中设备的状态和环境数据进行实时感知采集,是一种推动智能电网发展的重要技术。针对变电站场景中WSN的网络存活时间、传输时延、传输丢包率上的特殊要求,提出了一种基于强化学习的WSN路由方... 电力系统中的无线传感器网络(WSN)可以对工作中设备的状态和环境数据进行实时感知采集,是一种推动智能电网发展的重要技术。针对变电站场景中WSN的网络存活时间、传输时延、传输丢包率上的特殊要求,提出了一种基于强化学习的WSN路由方案。将数据包在WSN的发送过程抽象为一个马尔科夫决策过程(MDP),根据优化目标合理设置奖励,并给出了基于Q-learning的最优路由求解方法。仿真结果与数值分析表明,所提方案在网络存活时间、传输时延、丢包率等方面的性能均优于基准方案。 展开更多
关键词 变电站无线传感网 路由策略 马尔科夫决策过程 Q-learning算法 网络性能优化
下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部