期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
一个因素化SARSA(λ)激励学习算法 被引量:8
1
作者 陈焕文 谢建平 谢丽娟 《计算机研究与发展》 EI CSCD 北大核心 2001年第1期88-92,共5页
基于状态的因素化表达 ,提出了一个新的 SARSA(λ)激励学习算法 .其基本思想是根据状态的特征得出状态相似性启发式 ,再根据该启发式对状态空间进行聚类 ,大大减少了状态空间搜索与计算的复杂度 ,因此比较适用于求解大状态空间的 MDPs问... 基于状态的因素化表达 ,提出了一个新的 SARSA(λ)激励学习算法 .其基本思想是根据状态的特征得出状态相似性启发式 ,再根据该启发式对状态空间进行聚类 ,大大减少了状态空间搜索与计算的复杂度 ,因此比较适用于求解大状态空间的 MDPs问题 . 展开更多
关键词 激励学习 状态聚类 MDPs SARSA(λ)学习
下载PDF
一类值函数激励学习的遗忘算法 被引量:14
2
作者 陈焕文 谢丽娟 谢建平 《计算机研究与发展》 EI CSCD 北大核心 2001年第4期487-494,共8页
大状态空间值函数的激励学习是当今国际激励学习领域的一个热点和难点问题 .将记忆心理学中有关遗忘的基本原理引入值函数的激励学习 ,形成了一类适合于值函数激励学习的遗忘算法 .首先简要介绍了解决马尔可夫决策问题的基本概念 ,比较... 大状态空间值函数的激励学习是当今国际激励学习领域的一个热点和难点问题 .将记忆心理学中有关遗忘的基本原理引入值函数的激励学习 ,形成了一类适合于值函数激励学习的遗忘算法 .首先简要介绍了解决马尔可夫决策问题的基本概念 ,比较了离策略和在策略激励学习算法的差别 ,概述了标准的 SARSA(λ)算法 .在分析了人类记忆和遗忘的一些特征后 ,提出了一个智能体遗忘准则 ,进而将 SARSA(λ)算法改进为具有遗忘功能的 Forget-SARSA(λ)算法 。 展开更多
关键词 激励学习 SARSA(λ)算法 MARKOV决策过程 遗忘算法 值函数 人工智能
下载PDF
一类单机随机调度问题解的特征 被引量:2
3
作者 贾春福 《系统工程学报》 CSCD 2003年第6期552-555,共4页
讨论了加工时间随机的单机调度问题.工件的加工时间服从指数分布,目标函数具有一般形式,涉及工件完成时间与交货期偏差的正规和非正规目标函数,如工件关于交货期拖后时间期望和,工件完成时间关于交货期绝对偏差的期望和等,都是其特殊情... 讨论了加工时间随机的单机调度问题.工件的加工时间服从指数分布,目标函数具有一般形式,涉及工件完成时间与交货期偏差的正规和非正规目标函数,如工件关于交货期拖后时间期望和,工件完成时间关于交货期绝对偏差的期望和等,都是其特殊情形.给出了最优解的特征,包括SEPT(shortestexpectedpro cessingtime)调度,LEPT(largestexpectedprocessingtime)调度和关于加工时间参数的Λ形调度.这些特征可用于确定问题的最优解. 展开更多
关键词 单机随机调度问题 最优解 目标函数 指数分布加工时间
下载PDF
基于有效跟踪的平均渐进瞬时差分学习遗忘算法(英文)
4
作者 殷苌茗 王汉兴 +1 位作者 陈焕文 谢丽娟 《长沙电力学院学报(自然科学版)》 2003年第4期12-16,共5页
智能体通过学习最优决策来解决其决策问题.激励学习方法是智能体通过与其所处的环境交互来改进它自身的行为.Markov决策过程(MDP)模型是求解激励学习问题的一般框架,瞬时差分TD(λ)是在MDP模型下与策略相关的学习值函数的一种算法.一般... 智能体通过学习最优决策来解决其决策问题.激励学习方法是智能体通过与其所处的环境交互来改进它自身的行为.Markov决策过程(MDP)模型是求解激励学习问题的一般框架,瞬时差分TD(λ)是在MDP模型下与策略相关的学习值函数的一种算法.一般情况下,智能体必须记住其所有的值函数的值,当状态空间非常大时,这种记忆的量是大得惊人的.为了解决这个问题,给出了一种遗忘算法,这种算法把心理学的遗忘准则引入到了激励学习之中.利用遗忘算法,可以解决智能体在大状态空间中的激励学习问题. 展开更多
关键词 遗忘算法 激励学习 MARKOV决策过程 ATD(λ) 有效跟踪 平均渐进瞬时差分学习 心理学
下载PDF
基于受限MDP的无模型安全强化学习方法 被引量:2
5
作者 朱斐 葛洋洋 +1 位作者 凌兴宏 刘全 《软件学报》 EI CSCD 北大核心 2022年第8期3086-3102,共17页
很多强化学习方法较少地考虑决策的安全性,但研究领域和工业应用领域都要求的智能体所做决策是安全的.解决智能体决策安全问题的传统方法主要有改变目标函数、改变智能体的探索过程等,然而这些方法忽略了智能体遭受的损害和成本,因此不... 很多强化学习方法较少地考虑决策的安全性,但研究领域和工业应用领域都要求的智能体所做决策是安全的.解决智能体决策安全问题的传统方法主要有改变目标函数、改变智能体的探索过程等,然而这些方法忽略了智能体遭受的损害和成本,因此不能有效地保障决策的安全性.在受限马尔可夫决策过程的基础上,通过对动作空间添加安全约束,设计了安全Sarsa(λ)方法和安全Sarsa方法.在求解过程中,不仅要求智能体得到最大的状态-动作值,还要求其满足安全约束的限制,从而获得安全的最优策略.由于传统的强化学习求解方法不再适用于求解带约束的安全Sarsa(λ)模型和安全Sarsa模型,为在满足约束条件下得到全局最优状态-动作值函数,提出了安全强化学习的求解模型.求解模型基于线性化多维约束,采用拉格朗日乘数法,在保证状态-动作值函数和约束函数具有可微性的前提下,将安全强化学习模型转化为凸模型,避免了在求解过程中陷入局部最优解的问题,提高了算法的求解效率和精确度.同时,给出了算法的可行性证明.最后,实验验证了算法的有效性. 展开更多
关键词 受限马尔可夫决策过程 安全强化学习 多维约束 Sarsa(λ)算法 Sarsa算法
下载PDF
SMDP基于Actor网络的统一NDP方法
6
作者 唐昊 陈栋 +1 位作者 周雷 吴玉华 《控制与决策》 EI CSCD 北大核心 2007年第2期155-159,共5页
研究半马尔可夫决策过程(SMDP)基于性能势学习和策略逼近的神经元动态规划(NDP)方法.通过SMDP的一致马尔可夫链的单个样本轨道,给出了折扣和平均准则下统一的性能势TD(λ)学习算法,进行逼近策略评估;利用一个神经元网络逼近结构作为行动... 研究半马尔可夫决策过程(SMDP)基于性能势学习和策略逼近的神经元动态规划(NDP)方法.通过SMDP的一致马尔可夫链的单个样本轨道,给出了折扣和平均准则下统一的性能势TD(λ)学习算法,进行逼近策略评估;利用一个神经元网络逼近结构作为行动器(Actor)表示策略,并根据性能势的学习值给出策略参数改进的两种方法.最后通过数值例子说明了有关算法的有效性. 展开更多
关键词 半MARKOV决策过程 性能势 TD(λ)学习 神经元动态规划
下载PDF
三种重要分布的关系及应用
7
作者 徐义田 马少军 孙丹娜 《莱阳农学院学报》 2003年第3期220-222,226,共4页
泊松分布、指数分布和Γ(n,λ)分布可以看着是同一随机过程中的不同角度的描述,本文给出了它们的关系并给予了证明。排队论就是基于上述3种分布的随机服务系统理论,在现实生活中有着广泛的应用。
关键词 泊松分布 指数分布 г(n λ)分布 马尔科夫过程 转移概率
下载PDF
冒烟限制对重型电控柴油机加速瞬态性能影响试验研究
8
作者 曹卢 杨蓉 +3 位作者 任洪娟 谭丕强 胡志远 楼狄明 《现代制造技术与装备》 2017年第1期69-72,74,共5页
本文研究了冒烟限制λ值对某重型柴油机恒转速增转矩瞬态工况的动力性、经济性和排放性的影响。随着冒烟限制λ值的增大,实际循环喷油量的最大值减小,实际循环喷油量与冒烟限制下最大循环喷油量重合时间增加;循环进气量呈现降低的变化趋... 本文研究了冒烟限制λ值对某重型柴油机恒转速增转矩瞬态工况的动力性、经济性和排放性的影响。随着冒烟限制λ值的增大,实际循环喷油量的最大值减小,实际循环喷油量与冒烟限制下最大循环喷油量重合时间增加;循环进气量呈现降低的变化趋势,随后与循环喷油量变化趋势相似,时刻相对滞后;过量空气系数降低;减小瞬变过程中的最大极限喷油量,使动力性变化滞后。冒烟限制λ增加2.5%和减小2.5%后,瞬变过程的累积功率相对原值分别降低0.22%和增加0.21%,有效燃油消耗率比原值分别降低了0.39%和1.2%。可见,增大加速冒烟限制λ值,有利于降低瞬变过程中烟度排放峰值以及NO_X排放的累积量,但烟度排放累积量将大幅增加。 展开更多
关键词 电控柴油机 瞬变过程 冒烟限制 λ值
下载PDF
加工时间服从指数分布单机随机调度 被引量:4
9
作者 贾春福 《系统工程》 CSCD 北大核心 2002年第6期58-61,共4页
讨论加工时间服从指数分布的单机随机调度问题 ,目标是实现工件完成时间与公共交货期偏差的加权和的期望最小化。此问题是 JIT(Just- In- Time)生产环境下的典型调度模型。结果表明问题的最优解关于权值与加工时间均值的商具有 Λ形特征。
关键词 加工时间 指数分布 单机随机调度 ∧形调度
下载PDF
过程均值随机偏移控制图经济统计设计 被引量:1
10
作者 胡雪龙 孙金生 《南京理工大学学报》 EI CAS CSCD 北大核心 2014年第5期626-632,638,共8页
针对异常因素的产生时间服从Gamma(λ,2)分布的过程,通过构建控制图费用函数模型,研究了过程均值随机偏移对控制图经济统计设计的影响。采用模式搜索算法对模型进行寻优来获得控制图参数的综合最优解,并进行了算例说明和参数的灵敏... 针对异常因素的产生时间服从Gamma(λ,2)分布的过程,通过构建控制图费用函数模型,研究了过程均值随机偏移对控制图经济统计设计的影响。采用模式搜索算法对模型进行寻优来获得控制图参数的综合最优解,并进行了算例说明和参数的灵敏度分析。结果表明,当采用控制图来监控均值随机偏移的过程时,需要采用相对谨慎的监控策略。 展开更多
关键词 统计过程控制 控制图经济统计设计 Gamma(λ 2)分布 均值随机偏移
下载PDF
双磁性中心内嵌富勒烯Y^(2)C^(2)@C^(82)-C^(2)(1)中的超快自旋动力学行为
11
作者 黄瑞 李春 +2 位作者 金蔚 Georgios Lefkidis Wolfgang Hübner 《物理学报》 SCIE EI CAS CSCD 北大核心 2019年第2期72-79,共8页
自旋翻转和自旋转移是实现基于内嵌富勒体系自旋逻辑功能器件设计的先决条件.本文以双磁性中心内嵌富勒烯Y_2C_2@C8_2-C_2(1)体系为例,采用第一性原理计算方法,结合Λ进程理论模型和自编的遗传算法程序,在该内嵌富勒烯体系中分别实现了... 自旋翻转和自旋转移是实现基于内嵌富勒体系自旋逻辑功能器件设计的先决条件.本文以双磁性中心内嵌富勒烯Y_2C_2@C8_2-C_2(1)体系为例,采用第一性原理计算方法,结合Λ进程理论模型和自编的遗传算法程序,在该内嵌富勒烯体系中分别实现了亚皮秒时间尺度内的自旋翻转和自旋转移过程.计算结果表明,优化后的内嵌Y_2C_2团簇结构和实验得到的各项数据基本吻合,并且会对外部的C8_2-C_2(1)笼结构产生一定的排斥力,但由于富勒烯笼状结构具有很强的稳定性,所以整个体系仍然保持碳笼结构的完整性.通过对自旋密度分布与激光脉冲作用下自旋期望值演化的具体分析,经由Λ进程的自旋翻转是基于两个Y元素的整体自旋翻转;自旋转移则源自两个磁性中心以及碳笼之间在激光脉冲作用下的自旋密度重新分布.本文结果揭示了Y_2C_2@C8_2-C_2(1)体系中的超快自旋动力学机理,可望为基于实际内嵌富勒烯分子的自旋逻辑功能器件设计提供理论依据. 展开更多
关键词 内嵌富勒烯 Λ进程 自旋动力学 第一性原理方法
下载PDF
一类新的多维函数新式的单调类定理
12
作者 康元宝 冯德成 《数学杂志》 CSCD 北大核心 2012年第6期1063-1068,共6页
本文研究了多维函数形式的单调类定理问题.利用类比的方法,定义了多维函数形式的λ族,单调族,获得了相应的多维函数形式的单调类定理,推广了λ族,单调族的一维函数形式的单调类定理,并将其用于可选过程,从而建立了对应的单调类定理.
关键词 函数形式的单调类定理 λ族 单调族 可选过程
下载PDF
基于隐偏向信息学习的强化学习算法 被引量:4
13
作者 李学勇 欧阳柳波 李国徽 《南华大学学报(理工版)》 2004年第2期10-16,共7页
传统的强化学习算法应用到大状态、动作空间和任务复杂的马尔可夫决策过程问题时,存在收敛速度慢,训练时间长等问题.有效地学习和利用问题中包含的偏向信息可以加快学习速度,提高学习效率.在分析了偏向机制特点的基础上引入了隐偏向信... 传统的强化学习算法应用到大状态、动作空间和任务复杂的马尔可夫决策过程问题时,存在收敛速度慢,训练时间长等问题.有效地学习和利用问题中包含的偏向信息可以加快学习速度,提高学习效率.在分析了偏向机制特点的基础上引入了隐偏向信息的概念,建立了一种基于偏向信息学习的强化学习模型,并提出了一种基于特征的改进SARSA(λ)算法.针对于推箱任务的实验表明,改进的算法明显提高了学习效率. 展开更多
关键词 强化学习 MARKOV决策过程 隐偏向信息 SARSA算法 复杂度
下载PDF
基于认知无线电的频谱感知及TCP跨层设计
14
作者 林正红 江虹 殷明勇 《计算机工程》 CAS CSCD 2014年第7期33-37,共5页
目前针对认知无线电网络中TCP协议的研究大多假设次用户的感知是完美的,且未综合考虑TCP协议参数和感知时间等因素对TCP性能的影响。针对上述问题,在TCP Westwood协议的基础上,提出一种基于传输预判的改进TCP协议,建立基于认知无线电网... 目前针对认知无线电网络中TCP协议的研究大多假设次用户的感知是完美的,且未综合考虑TCP协议参数和感知时间等因素对TCP性能的影响。针对上述问题,在TCP Westwood协议的基础上,提出一种基于传输预判的改进TCP协议,建立基于认知无线电网络的TCP吞吐量跨层模型。采用部分可观测马尔可夫决策过程对有感知误差的次用户频谱感知和接入过程进行建模,将其转换为信念状态马尔可夫决策过程,使用Sarsa(λ)算法对其进行求解,以在最大化TCP吞吐量的同时得到最优感知时间。仿真结果表明,与TCP Reno和TCP Newreno协议相比,使用该方案所得的TCP拥塞窗口值分别提高约42%和27%,平均吞吐量分别提高约5.7%和5.5%,当感知时间为0.2s时,所得的TCP平均吞吐量为最大值。 展开更多
关键词 TCP Westwood协议 部分可观测马尔可夫决策过程 频谱感知 Sarsa(λ)算法 TCP吞吐量 感知时间
下载PDF
磁性纳米结构中由激光引起的超快自旋动力学研究 被引量:2
15
作者 李春 杨帆 +1 位作者 Georgios Lefkidis Wolfgang Hubner 《物理学报》 SCIE EI CAS CSCD 北大核心 2011年第1期683-690,共8页
以单个磁性中心的NiO以及由Co和Ni等元素构成的双磁性中心的纳米结构为例,总结了近年所做的主要工作.为了在理论上实现磁性纳米结构中的超快自旋翻转和转移,提出了一种称为Λ进程(Λprocess)的超快自旋转换机理.在实际计算中,首先采用... 以单个磁性中心的NiO以及由Co和Ni等元素构成的双磁性中心的纳米结构为例,总结了近年所做的主要工作.为了在理论上实现磁性纳米结构中的超快自旋翻转和转移,提出了一种称为Λ进程(Λprocess)的超快自旋转换机理.在实际计算中,首先采用量子化学第一性原理计算得到磁性纳米结构中精确的隙间d电子态,然后考虑外加磁场和自旋轨道耦合分析磁性原子中的自旋局域化程度,最后引入激光脉冲项,研究在其作用下材料的自旋态经由Λ进程实现转换的时间历程.研究结果表明自旋翻转和转移可以在线偏振光的作用下在亚皮秒的时间尺度内完成.为了进一步实现对磁性分子自旋操控的检测和监控,采用附加于磁性中心上的CO分子对磁性分子进行标记.计算得到的与自旋态相关的C—O键振动频率表明自旋操控可以较容易地经由红外光谱实验间接监控. 展开更多
关键词 超快自旋动力学 第一性原理计算 Λ进程 磁性纳米结构
原文传递
利用Λ型原子与双模腔场的相互作用进行量子信息处理 被引量:12
16
作者 宋克慧 《物理学报》 SCIE EI CAS CSCD 北大核心 2005年第10期4730-4735,共6页
利用Λ型三能级原子与一个两模腔场在两光子共振和单光子大失谐条件下的相互作用模型,给出了制备两个和三个远距离的腔场的纠缠态和如何实现一个量子比特的原子态的远距离转移、纠缠态的转移的方案;同时找到了一种不用进行Bell基测量而... 利用Λ型三能级原子与一个两模腔场在两光子共振和单光子大失谐条件下的相互作用模型,给出了制备两个和三个远距离的腔场的纠缠态和如何实现一个量子比特的原子态的远距离转移、纠缠态的转移的方案;同时找到了一种不用进行Bell基测量而实现纠缠交换的方法;构造了实现量子交换门的操作.最后对实验的可行性进行了分析. 展开更多
关键词 量子信息处理 Λ型原子 双模腔场 相互作用 Λ型三能级原子 相互作用模型 光子共振 量子比特 纠缠交换 纠缠态
原文传递
双目标函数单机随机调度问题
17
作者 贾春福 涂奉生 《系统工程理论方法应用》 1998年第1期12-16,共5页
本文讨论了一类具有随机加工时间的单机调度问题 ,目的是确定 n个工件的一个排序 ,使完成时间与交货期差的绝对值之和与完成时间之和的线性组合之期望值最小。在一定条件下对问题最优解的性质进行了研究 。
关键词 单机调度 双目标函数 A型排序 随机调度 工件
原文传递
利用高斯过程回归对燃爆单元宽度的预测方法研究 被引量:1
18
作者 侯炳旭 俞冀阳 +2 位作者 徐沾杰 江光明 邹志强 《核动力工程》 EI CAS CSCD 北大核心 2017年第2期72-77,共6页
燃爆单元宽度(λ)是度量可燃气体燃爆风险的一项重要参数。文中把λ和特征化学反应区厚度(δ)联系起来,以无量纲活化能和无量纲温度为自变量,以λ/δ的对数为因变量对实验数据进行回归。针对传统参数回归方法的不足,采用基于机器学习的... 燃爆单元宽度(λ)是度量可燃气体燃爆风险的一项重要参数。文中把λ和特征化学反应区厚度(δ)联系起来,以无量纲活化能和无量纲温度为自变量,以λ/δ的对数为因变量对实验数据进行回归。针对传统参数回归方法的不足,采用基于机器学习的高斯过程回归(GPR)方法完成数据拟合工作。通过比较实验数据和拟合函数的预测值,发现GPR方法的结果能够较为准确地预测不同组分的可燃混合气体在不同初始条件下气体的λ。与传统参数回归的结果相比,GPR方法在拟合精度上优于传统参数回归方法。 展开更多
关键词 氢气燃爆 燃爆单元宽度(λ) 高斯过程回归(GPR)
原文传递
Concurrent Calculus (CC) and Its Properties
19
作者 李未 王飓安 《Science China Mathematics》 SCIE 1993年第6期744-753,共10页
Concurrent calculus (CC) is a mathematical model for higher-order concurrent and communicating systems. Compared with the existing calculi such as CCS, CMP, CHOCS etc., CC includes λ-calculus as its subtheory and emb... Concurrent calculus (CC) is a mathematical model for higher-order concurrent and communicating systems. Compared with the existing calculi such as CCS, CMP, CHOCS etc., CC includes λ-calculus as its subtheory and embodies most important characteristics of CCS and other calculi. CC treats processes and communicating ports as firstclass objects, that is to say, both of them can be sent and received during communication. Besides, the communicating ports in CC-processes are allowed to be any expressions. This paper presents the syntax and semantics of CC first, some examples are given which illustrate the expressing power of CC. Then we study the hlgh-order bisimulation equivalence of CC-processes and the algebraic laws of CC. The summation operator "+" in CC has the same meaning as that in other calculi. Following the principle that only environment can determiue the evolution direction of summation process, this paper also provides a new semantics of summation operator "+", which is different from the semantics of summation in CCS, CMP, and CHOCS. CC has some expected algebraic properties under this new semantics of summation. 展开更多
关键词 concurreney COMMUNICATION process λ-calculus
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部