期刊文献+
共找到114篇文章
< 1 2 6 >
每页显示 20 50 100
基于策略迭代和值迭代的POMDP算法 被引量:7
1
作者 孙湧 仵博 冯延蓬 《计算机研究与发展》 EI CSCD 北大核心 2008年第10期1763-1768,共6页
部分可观察Markov决策过程是通过引入信念状态空间将非Markov链问题转化为Markov链问题来求解,其描述真实世界的特性使它成为研究随机决策过程的重要分支.介绍了部分可观察Markov决策过程的基本原理和决策过程,提出一种基于策略迭代和... 部分可观察Markov决策过程是通过引入信念状态空间将非Markov链问题转化为Markov链问题来求解,其描述真实世界的特性使它成为研究随机决策过程的重要分支.介绍了部分可观察Markov决策过程的基本原理和决策过程,提出一种基于策略迭代和值迭代的部分可观察Markov决策算法,该算法利用线性规划和动态规划的思想,解决当信念状态空间较大时出现的"维数灾"问题,得到Markov决策的逼近最优解.实验数据表明该算法是可行的和有效的. 展开更多
关键词 部分可观察Markov决策 决策算法 智能体 值迭代 策略
下载PDF
POMDP基于点的值迭代算法中一种信念选择方法 被引量:3
2
作者 冯奇 周雪忠 +1 位作者 黄厚宽 张小平 《北京交通大学学报》 CAS CSCD 北大核心 2009年第5期77-80,共4页
部分可观察马尔可夫决策过程(POMDP)是描述不确定环境下进行决策的数学模型.基于点的值迭代算法是求解POMDP问题的一类近似解法.针对基于点的算法中信念选择这一关键问题,提出了一种基于熵的信念选择方法(EBBS).EBBS算法通过计算可以转... 部分可观察马尔可夫决策过程(POMDP)是描述不确定环境下进行决策的数学模型.基于点的值迭代算法是求解POMDP问题的一类近似解法.针对基于点的算法中信念选择这一关键问题,提出了一种基于熵的信念选择方法(EBBS).EBBS算法通过计算可以转移到的信念点的不确定性,选择熵较小且到当前信念点集距离大于一定阈值的信念点扩充信念点集合.实验结果表明,通过熵选择信念点的值迭代算法只需要在较少数量的信念点上进行值迭代操作就能得到预期的折扣报酬. 展开更多
关键词 POMDP 值迭代 基于点的算法 信念选择 不确定性
下载PDF
基于集值迭代的多专家主观权重确定方法的研究 被引量:11
3
作者 李德顺 许开立 李春晨 《金属矿山》 CAS 北大核心 2009年第9期42-43,50,共3页
针对系统综合评价中往往需要建立多个指标体系,并赋以权重来体现不同指标贡献的特点,首先指出了层次分析法的不足之处,然后将多位专家的信息进行了迭代,并以区间的形式给出了2指标的比较值,更符合人们的思维方式,并减少了一致性检验的... 针对系统综合评价中往往需要建立多个指标体系,并赋以权重来体现不同指标贡献的特点,首先指出了层次分析法的不足之处,然后将多位专家的信息进行了迭代,并以区间的形式给出了2指标的比较值,更符合人们的思维方式,并减少了一致性检验的过程。实例表明,该法减少了评价指标的比较次数,能够合理地反映评价指标权重,为系统综合评价确定主观权重提供了一条新的途径。 展开更多
关键词 系统综合评价 主观权重 层次分析法 值迭代
下载PDF
基于横纵波速度比值迭代的纵横波联合反演方法 被引量:6
4
作者 杜启振 霍国栋 陈刚 《石油地球物理勘探》 EI CSCD 北大核心 2016年第1期97-105,20,共9页
在利用弹性阻抗EI反演纵、横波速度和密度时,若无速度信息,通常设定横纵波速度比k为常数,从而与真实的k值存在误差,将导致反演结果不准确。进一步研究发现,当缺乏大入射角信息时单独基于EI反演纵、横波速度和密度,反演结果易受噪声影响... 在利用弹性阻抗EI反演纵、横波速度和密度时,若无速度信息,通常设定横纵波速度比k为常数,从而与真实的k值存在误差,将导致反演结果不准确。进一步研究发现,当缺乏大入射角信息时单独基于EI反演纵、横波速度和密度,反演结果易受噪声影响而很不稳定。为此,利用参数分辨矩阵分析了k值对反演结果的影响,发现纵波速度和密度几乎不受k值误差的影响,横波速度对k值的变化十分敏感。基于此提出了非线性k值迭代方法,通过逐次迭代求取准确的k值,相应得到准确的横波速度,进而基于Aki-Richards转换横波反射系数近似方程推导了转换横波弹性阻抗(SEI)方程,提出了基于k值迭代的纵横波联合反演方法。利用层状模型和Marmous 2的部分模型测试了上述方法,结果表明该方法能使k值较快地收敛到真实值,可更加稳定地反演纵、横波速度和密度。 展开更多
关键词 弹性阻抗 参数分辨矩阵 横波速度 k值迭代 联合反演
下载PDF
一种基于最优策略概率分布的POMDP值迭代算法 被引量:4
5
作者 刘峰 王崇骏 骆斌 《电子学报》 EI CAS CSCD 北大核心 2016年第5期1078-1084,共7页
随着应用中POMDP问题的规模不断扩大,基于最优策略可达区域的启发式方法成为了目前的研究热点.然而目前已有的算法虽然保证了全局最优,但选择最优动作还不够精确,影响了算法的效率.本文提出一种基于最优策略概率的值迭代方法 PBVIOP.该... 随着应用中POMDP问题的规模不断扩大,基于最优策略可达区域的启发式方法成为了目前的研究热点.然而目前已有的算法虽然保证了全局最优,但选择最优动作还不够精确,影响了算法的效率.本文提出一种基于最优策略概率的值迭代方法 PBVIOP.该方法在深度优先的启发式探索中,根据各个动作值函数在其上界和下界之间的分布,用蒙特卡罗法计算动作最优的概率,选择概率最大的动作作为最优探索策略.在4个基准问题上的实验结果表明PBVIOP算法能够收敛到全局最优解,并明显提高了收敛效率. 展开更多
关键词 部分可观测马尔科夫决策过程 基于最优策略概率的值迭代算法 蒙特卡罗法
下载PDF
基于函数逼近的冗余值迭代算法 被引量:2
6
作者 陈建平 胡文 傅启明 《模式识别与人工智能》 EI CSCD 北大核心 2017年第7期663-672,共10页
针对值迭代算法存在算法收敛不稳定及收敛速度慢的问题,文中提出改进的基于函数逼近的冗余值迭代算法.结合值迭代算法与贝尔曼冗余值迭代算法,引入权重因子,构建值函数参数更新向量.同时从理论上证明,利用此更新向量更新值函数参数可以... 针对值迭代算法存在算法收敛不稳定及收敛速度慢的问题,文中提出改进的基于函数逼近的冗余值迭代算法.结合值迭代算法与贝尔曼冗余值迭代算法,引入权重因子,构建值函数参数更新向量.同时从理论上证明,利用此更新向量更新值函数参数可以保证算法收敛,解决值迭代算法收敛不稳定的问题.此外,算法引入遗忘因子,加快权重向量的更新速率和算法收敛速度.在Grid World问题上的实验表明,文中算法收敛性能较好,具有较好的鲁棒性. 展开更多
关键词 强化学习 值迭代 函数逼近 梯度下降 贝尔曼冗余
下载PDF
基于拓扑序列更新的值迭代算法 被引量:1
7
作者 黄蔚 刘全 +2 位作者 孙洪坤 傅启明 周小科 《通信学报》 EI CSCD 北大核心 2014年第8期56-62,共7页
提出一种基于拓扑序列更新的值迭代算法,利用状态之间的迁移关联信息,将任务模型的有向图分解为一系列规模较小的强连通分量,并依据拓扑序列对强连通分量进行更新。在经典规划问题Mountain Car和迷宫实验中的结果表明,算法的收敛速度更... 提出一种基于拓扑序列更新的值迭代算法,利用状态之间的迁移关联信息,将任务模型的有向图分解为一系列规模较小的强连通分量,并依据拓扑序列对强连通分量进行更新。在经典规划问题Mountain Car和迷宫实验中的结果表明,算法的收敛速度更快,精度更高,且对状态空间的增长有较强的顽健性。 展开更多
关键词 强化学习 值迭代 拓扑序列 VI-TS
下载PDF
基于幅值迭代剪枝的多目标奶牛进食行为识别方法 被引量:12
8
作者 刘月峰 边浩东 +2 位作者 何滢婕 郭威 张小燕 《农业机械学报》 EI CAS CSCD 北大核心 2022年第2期274-281,共8页
针对奶牛进食行为监测通常要为每头奶牛配备监测设备,但受限于设备成本,很多应用于奶牛养殖场的奶牛行为监测方法难以普及的问题,提出了一种多目标奶牛进食行为识别方法,基于YOLO v3算法,根据目标差异,将牛舍中的奶牛分为3类目标来实现... 针对奶牛进食行为监测通常要为每头奶牛配备监测设备,但受限于设备成本,很多应用于奶牛养殖场的奶牛行为监测方法难以普及的问题,提出了一种多目标奶牛进食行为识别方法,基于YOLO v3算法,根据目标差异,将牛舍中的奶牛分为3类目标来实现奶牛进食行为监测,以通过单台设备监测多头奶牛的进食行为。YOLO v3算法具有计算成本高、能源消耗大、设备依赖性强等不足,针对该问题,参考彩票假设,提出了一种基于幅值迭代剪枝算法的更优稀疏子网络筛选方法,使参数数量下降了87.04%,平均精度均值(mAP)达到了79.9%,较原始网络提高了4.2个百分点。说明了通过幅值迭代剪枝技术降低奶牛行为监测任务成本的可行性,验证了基于彩票假设从奶牛进食行为识别模型中筛选出更优稀疏子网络的有效性,为降低动物行为监测任务的成本提供了参考。 展开更多
关键词 奶牛 进食行为 目标检测 图像识别 彩票假设 值迭代剪枝
下载PDF
SHP-VI:一种基于最短哈密顿通路的POMDP值迭代算法 被引量:1
9
作者 冯奇 周雪忠 +1 位作者 黄厚宽 张小平 《计算机研究与发展》 EI CSCD 北大核心 2011年第12期2343-2351,共9页
基于试探(trial-based)的值迭代算法是求解部分可观察Markov决策过程(partially observable Markov decision process,POMDP)模型的一类有效算法,其中FSVI算法是目前最快的算法之一.然而对于较大规模的POMDP问题,FSVI计算MDP值函数的时... 基于试探(trial-based)的值迭代算法是求解部分可观察Markov决策过程(partially observable Markov decision process,POMDP)模型的一类有效算法,其中FSVI算法是目前最快的算法之一.然而对于较大规模的POMDP问题,FSVI计算MDP值函数的时间是不容忽视的.提出一种基于最短哈密顿通路(shortest Hamiltonian path)的值迭代算法(shortest Hamiltonian path-based value iteration,SHP-VI).该方法用求解最短哈密顿通路问题的蚁群算法计算一条最优信念状态轨迹,然后在这些信念状态上反向更新值函数.通过与FSVI算法的实验比较,结果表明SHP-VI算法很大程度地提高了基于试探的算法计算信念状态轨迹的效率. 展开更多
关键词 部分可观察Markov决策过程 值迭代 基于点的算法 基于试探的算法 哈密顿通路
下载PDF
基于点的FO-POMDP值迭代方法研究 被引量:1
10
作者 陈丽娜 黄宏斌 邓苏 《计算机工程》 CAS CSCD 2013年第10期217-220,共4页
在部分可观测马尔可夫决策过程(POMDP)的基础上,给出一阶部分可观测马尔科夫决策过程(FO-POMDP),用一阶逻辑的情景演算结构表达POMDP。对FO-POMDP模型中状态的抽象层次进行刻画,提出状态粒度、信念状态粒度的概念。采用粒度归结方法,将... 在部分可观测马尔可夫决策过程(POMDP)的基础上,给出一阶部分可观测马尔科夫决策过程(FO-POMDP),用一阶逻辑的情景演算结构表达POMDP。对FO-POMDP模型中状态的抽象层次进行刻画,提出状态粒度、信念状态粒度的概念。采用粒度归结方法,将信念状态的粒度归结到某一确定粒度下,运用确定粒度下的信念点距离度量方法,将基于点的价值迭代(PBVI)扩展到逻辑抽象层面提出一阶PBVI(FO-PBVI)。实验结果证明,该算法的求解速度较快,求解质量较好。 展开更多
关键词 部分可观测马尔科夫决策过程 状态空间 信念状态 粒度归结 基于点的值迭代
下载PDF
基于学习速率与更新向量的混合云数据冗余值迭代算法 被引量:4
11
作者 张晓丽 《河南理工大学学报(自然科学版)》 CAS 北大核心 2020年第5期114-119,共6页
针对传统混合云数据冗余值迭代算法的平均回报值较低、收敛稳定性较差、收敛动作规模较小等问题,提出一种基于学习速率与更新向量的混合云数据冗余值迭代算法。首先,构建混合云数据冗余值值函数,在该函数中引入一个新的参数更新权重向量... 针对传统混合云数据冗余值迭代算法的平均回报值较低、收敛稳定性较差、收敛动作规模较小等问题,提出一种基于学习速率与更新向量的混合云数据冗余值迭代算法。首先,构建混合云数据冗余值值函数,在该函数中引入一个新的参数更新权重向量,基于深度学习中学习速率要求,获取值函数的稳定值;其次,依据获取的稳定值计算值函数稳定值向量,利用新权值处理稳定值向量,获取值函数更新向量;最后,对权值增量进行计算,结合哈希表完成混合云数据冗余值的迭代研究。实验结果表明,该算法的平均回报值最高,且收敛速度最快。 展开更多
关键词 学习速率 更新向量 深度学习 混合云数据 冗余值迭代算法
下载PDF
基于杂合标准的POMDP值迭代求解算法 被引量:1
12
作者 刘峰 《模式识别与人工智能》 EI CSCD 北大核心 2016年第11期961-968,共8页
基于点的值迭代方法是求解部分可观测马尔科夫决策过程(POMDP)问题的一类有效算法.目前基于点的值迭代算法大都基于单一启发式标准探索信念点集,从而限制算法效果.基于此种情况,文中提出基于杂合标准探索信念点集的值迭代算法(HHVI),可... 基于点的值迭代方法是求解部分可观测马尔科夫决策过程(POMDP)问题的一类有效算法.目前基于点的值迭代算法大都基于单一启发式标准探索信念点集,从而限制算法效果.基于此种情况,文中提出基于杂合标准探索信念点集的值迭代算法(HHVI),可以同时维持值函数的上界和下界.在扩展探索点集时,选取值函数上下界差值大于阈值的信念点进行扩展,并且在值函数上下界差值大于阈值的后继信念点中选择与已探索点集距离最远的信念点进行探索,保证探索点集尽量有效分布于可达信念空间内.在4个基准问题上的实验表明,HHVI能保证收敛效率,并能收敛到更好的全局最优解. 展开更多
关键词 部分可观测马尔科夫决策过程(POMDP) 杂合启发式值迭代 可达信念空间 探索价
下载PDF
深弹性支点法中m值迭代计算方法 被引量:4
13
作者 盛春陵 余巍 李仁民 《河海大学学报(自然科学版)》 CAS CSCD 北大核心 2015年第1期44-48,共5页
在常规弹性支点法的基础上,提出迭代计算m值的改进方法,并结合南京某地铁站深基坑工程,将2种计算方法与实测数据进行对比分析。结果表明:改进后的弹性支点法能够一定程度上模拟基坑支护结构变形过程中坑内土体和支护结构之间相互作用的... 在常规弹性支点法的基础上,提出迭代计算m值的改进方法,并结合南京某地铁站深基坑工程,将2种计算方法与实测数据进行对比分析。结果表明:改进后的弹性支点法能够一定程度上模拟基坑支护结构变形过程中坑内土体和支护结构之间相互作用的变化,更接近实际情况;m值的迭代变化对基坑变形有较好的预测,在以变形为控制的计算理论中具有积极的意义。 展开更多
关键词 深基坑 地下连续墙 弹性支点法 m值迭代计算
下载PDF
基于值迭代的自适应动态规划的收敛条件 被引量:3
14
作者 刘毅 章云 《广东工业大学学报》 CAS 2017年第5期10-14,共5页
研究了应用于离散时间非仿射非线性系统的基于值迭代的自适应动态规划的收敛条件,指出了迭代性能指标函数初始化为半正定函数可保证值迭代收敛到最优,并给出了证明.
关键词 自适应动态规划 值迭代 收敛
下载PDF
基于一阶信念点的一阶POMDP值迭代算法研究
15
作者 陈丽娜 黄宏斌 邓苏 《计算机工程与应用》 CSCD 2012年第15期7-11,共5页
主要研究一阶部分可观测马尔可夫决策过程的近似求解方法。给出了一阶信念、一阶信念粒度、流关键度的概念;提出了基于流关键度的粒度归结方法,统一一阶信念粒度;提出了一阶信念粒度距离度量方法,提出FO-PBVI方法,将PBVI提升到抽象层面... 主要研究一阶部分可观测马尔可夫决策过程的近似求解方法。给出了一阶信念、一阶信念粒度、流关键度的概念;提出了基于流关键度的粒度归结方法,统一一阶信念粒度;提出了一阶信念粒度距离度量方法,提出FO-PBVI方法,将PBVI提升到抽象层面。通过Tiger和Tag实验对方法进行了验证分析,通过实验可见FO-PBVI方法能够很好地适应问题规模的变化,能够求解较大规模的规划问题。 展开更多
关键词 一阶部分可观测马尔可夫决策过程(POMDP) 一阶信念状态 粒度归结 值迭代
下载PDF
基于折扣广义值迭代的智能最优跟踪及应用验证 被引量:6
16
作者 王鼎 赵明明 +1 位作者 哈明鸣 乔俊飞 《自动化学报》 EI CAS CSCD 北大核心 2022年第1期182-193,共12页
设计了一种基于折扣广义值迭代的智能算法,用于解决一类复杂非线性系统的最优跟踪控制问题.通过选取合适的初始值,值迭代过程中的代价函数将以单调递减的形式收敛到最优代价函数.基于单调递减的值迭代算法,在不同折扣因子的作用下,讨论... 设计了一种基于折扣广义值迭代的智能算法,用于解决一类复杂非线性系统的最优跟踪控制问题.通过选取合适的初始值,值迭代过程中的代价函数将以单调递减的形式收敛到最优代价函数.基于单调递减的值迭代算法,在不同折扣因子的作用下,讨论了迭代跟踪控制律的可容许性和误差系统的渐近稳定性.为了促进算法的实现,建立一个数据驱动的模型网络用于学习系统动态信息,同时构造评判网络和执行网络用于近似迭代代价函数和计算迭代跟踪控制律.值得注意的是,我们提出了新颖的停止准则来保证迭代跟踪控制律的有效性.这种停止准则包含两个条件,一个条件用来保证迭代跟踪控制律的可用性,这有利于评估误差系统的渐近稳定性;而另一个条件用来确保跟踪控制律的近似最优性.最后,通过包括污水处理在内的两个应用实例验证了本文提出的近似最优跟踪控制方法的可行性和有效性. 展开更多
关键词 自适应评判控制 可容许性 广义值迭代 智能最优跟踪 神经网络
下载PDF
基于循环卷积神经网络的POMDP值迭代算法 被引量:3
17
作者 于丹宁 倪坤 刘云龙 《计算机工程》 CAS CSCD 北大核心 2021年第2期90-94,102,共6页
基于卷积神经网络的部分可观测马尔科夫决策过程(POMDP)值迭代算法QMDP-net在无先验知识的情况下具有较好的性能表现,但其存在训练效果不稳定、参数敏感等优化难题。提出基于循环卷积神经网络的POMDP值迭代算法RQMDP-net,使用门控循环... 基于卷积神经网络的部分可观测马尔科夫决策过程(POMDP)值迭代算法QMDP-net在无先验知识的情况下具有较好的性能表现,但其存在训练效果不稳定、参数敏感等优化难题。提出基于循环卷积神经网络的POMDP值迭代算法RQMDP-net,使用门控循环单元网络实现值迭代更新,在保留输入和递归权重矩阵卷积特性的同时增强网络时序处理能力。实验结果表明,RQMDP-net在10×10网格地图规划任务中导航准确率高达98.5%,且在36×36网格地图规划任务中相比QMDP-net最多提升5.8个百分点,具有更快的网络收敛速度和更强的导航任务规划能力。 展开更多
关键词 部分可观测马尔科夫决策过程 值迭代 卷积神经网络 循环卷积神经网络 智能体规划
下载PDF
基于强化学习的值迭代算法
18
作者 崔军晓 朱蒙婷 +2 位作者 王海燕 章鹏 王辉 《电脑知识与技术》 2014年第11期7348-7350,共3页
强化学习(Reinforcement Learning)是学习环境状态到动作的一种映射,并且能够获得最大的奖赏信号。强化学习中有三种方法可以实现回报的最大化:值迭代、策略迭代、策略搜索。该文介绍了强化学习的原理、算法,并对有环境模型和无环境... 强化学习(Reinforcement Learning)是学习环境状态到动作的一种映射,并且能够获得最大的奖赏信号。强化学习中有三种方法可以实现回报的最大化:值迭代、策略迭代、策略搜索。该文介绍了强化学习的原理、算法,并对有环境模型和无环境模型的离散空间值迭代算法进行研究,并且把该算法用于固定起点和随机起点的格子世界问题。实验结果表明,相比策略迭代算法,该算法收敛速度快,实验精度好。 展开更多
关键词 强化学习 值迭代 格子世界
下载PDF
在体域网中基于Q值迭代的强化学习动态频谱分配策略研究
19
作者 杨贺淞 《电子世界》 2020年第4期19-20,23,共3页
本文提出了一种在无线体域网(Wireless Body Area Networks,WBANs)中,基于强化学习的动态频谱分配方案。我们使用强化学习中基于Q值迭代的Q-Learning算法,在感知的信道池中以无监督学习的方式来训练多个智能体,使它们能够自主的建立一... 本文提出了一种在无线体域网(Wireless Body Area Networks,WBANs)中,基于强化学习的动态频谱分配方案。我们使用强化学习中基于Q值迭代的Q-Learning算法,在感知的信道池中以无监督学习的方式来训练多个智能体,使它们能够自主的建立一套合作机制,从而获得最优的频谱分配策略,以防止发生同频干扰。文中,我们根据IEEE802.15.6标准来部署和搭建WBANs的环境。最后的仿真结果表明,在服务质量(Qos)的两个重要指标误码率(BER)和吞吐量(Throughout)上,我们的方法比静态信道分配(SCA)方法有明显的提升,而且,与RL-CAA算法相比,我们训练的收敛速度要快5倍以上。 展开更多
关键词 动态频谱分配 体域网 信道分配 值迭代 强化学习 策略研究
下载PDF
迭代奇异值方法在机械结构模态分离重构中的应用
20
作者 罗治军 田桂 阎绍泽 《振动工程学报》 EI CSCD 北大核心 2024年第2期210-217,共8页
通过时频分解技术,将复杂的多模态信号分解成单模态成分,从而可以采用比较简单可靠的单模态识别方法对机械结构复杂模态信号进行参数辨识。经验小波变换(EWT)算法能有效解决模态分离问题,一些改进型EWT算法能有效克服噪声干扰,但是在模... 通过时频分解技术,将复杂的多模态信号分解成单模态成分,从而可以采用比较简单可靠的单模态识别方法对机械结构复杂模态信号进行参数辨识。经验小波变换(EWT)算法能有效解决模态分离问题,一些改进型EWT算法能有效克服噪声干扰,但是在模态重构时,滤波器彼此重叠、临近模态互相干扰,会不可避免地出现重构模态失真。本文针对模态分离重构问题展开研究,分析了EWT算法在模态分离重构中面临的重构失真问题,提出了基于迭代截断奇异值分解(ITSVD)方法的改进算法,并在仿真信号和含结合面机械结构模型振动响应信号上进行了应用。结果表明,所提ITSVD⁃EWT算法能够更好地实现机械结构模态分离重构。 展开更多
关键词 参数辨识 经验模态分解 机械结构 经验小波变换 截断奇异分解
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部