期刊文献+
共找到93篇文章
< 1 2 5 >
每页显示 20 50 100
在部分观测环境下学习规划领域的派生谓词规则 被引量:2
1
作者 饶东宁 蒋志华 +1 位作者 姜云飞 邓玉辉 《计算机学报》 EI CSCD 北大核心 2015年第7期1372-1385,共14页
文中提出了一种在部分观测环境下学习规划领域的派生谓词规则的方法.在规划领域描述语言(PDDL)中,派生谓词用来描述动作的非直接效果,是规划领域模型和搜索控制知识的重要组成部分.然而,对于大多数规划领域而言,从无到有地构造派生谓词... 文中提出了一种在部分观测环境下学习规划领域的派生谓词规则的方法.在规划领域描述语言(PDDL)中,派生谓词用来描述动作的非直接效果,是规划领域模型和搜索控制知识的重要组成部分.然而,对于大多数规划领域而言,从无到有地构造派生谓词规则是不容易的.因此,研究自动获取派生谓词的推导规则是有意义的.已有研究工作提出通过修订一个初始的不完备的领域理论来获取推导规则的方法,但是它们的主要缺点在于待学习谓词的训练例的数量非常少,这是因为训练例按照非常有限的方式来生成.而更本质的原因在于它们假设环境是不可观测的.其实,在现实生活中很多动作的非直接效果是可以观测的,或者通过简单的目测或者通过专门的工具.因此文中提出增加观测来反映动作的非直接效果,以便增加待学习谓词的训练例数目从而改善学习的精准度.此外,为了补充一些在归纳学习过程中学习不到的谓词,文中还提出了一个后处理方法来使得学习到的规则在语义上更完整.通过在派生谓词基准领域上的实验表明,文中所提出的方法是可行有效的.更深远的意义在于,文中的研究工作有利于规划领域的自动建模或者控制知识的自动获取的研究与实现. 展开更多
关键词 人工智能 自动规划 派生谓词 规则学习 部分观测
下载PDF
在部分观测环境下的不确定动作模型学习 被引量:2
2
作者 饶东宁 蒋志华 姜云飞 《软件学报》 EI CSCD 北大核心 2014年第1期51-63,共13页
近年来,动作模型学习引起了研究人员的极大兴趣.可是,尽管不确定规划已经研究了十几年,动作模型学习的研究仍然集中于经典的确定性动作模型上.提出了在部分观测环境下学习不确定动作模型的算法,该算法可应用于假定人们对转移系统一无所... 近年来,动作模型学习引起了研究人员的极大兴趣.可是,尽管不确定规划已经研究了十几年,动作模型学习的研究仍然集中于经典的确定性动作模型上.提出了在部分观测环境下学习不确定动作模型的算法,该算法可应用于假定人们对转移系统一无所知的情形下进行,输入只有动作-观测序列.在现实世界中,这样的场景很常见.致力于动作是由简单逻辑结构组成的、且观测以一定频率出现的一类问题的研究.学习过程分为3个步骤:首先,计算命题在状态中成立的概率;然后,将命题抽取成效果模式,再抽取前提;最后,对效果模式进行聚类以去除冗余.在基准领域上进行的实验结果表明,动作模型学习技术可推广到不确定的部分观测环境中. 展开更多
关键词 人工智能 自动规划 动作模型学习 不确定动作 部分观测
下载PDF
部分可观测条件下的策略迁移强化学习方法
3
作者 王忠禹 徐晓鹏 王东 《现代防御技术》 北大核心 2024年第2期63-71,共9页
针对多智能体强化学习算法在部分可观测条件下难以形成有效协同策略的问题,基于集中式训练与分散式执行范式(CTDE)提出一种策略迁移强化学习方法。该方法在全局观测下训练可以探索到良好协同策略的教师模块,在部分可观测条件下,学生模... 针对多智能体强化学习算法在部分可观测条件下难以形成有效协同策略的问题,基于集中式训练与分散式执行范式(CTDE)提出一种策略迁移强化学习方法。该方法在全局观测下训练可以探索到良好协同策略的教师模块,在部分可观测条件下,学生模块依据最大化累计回报的期望为目标函数在线训练的同时,利用策略蒸馏技术从教师模块进行策略迁移,并自适应调整教师策略对学生策略的影响比重。在多个地图场景中对所提出的方法进行仿真验证,实验结果表明部分可观测条件下学生模块的胜率高于所对比的基线算法的胜率。研究成果可以应用于多智能体合作任务,提升智能体在分散式执行时的协同性能。 展开更多
关键词 多智能体 强化学习 部分观测 策略迁移 集中式训练与分散式执行
下载PDF
部分可观测条件下的配电网数据驱动最优潮流模型 被引量:2
4
作者 李鹏华 宋卓然 吴文传 《中国电力》 CSCD 北大核心 2023年第12期51-57,共7页
电力系统最优潮流计算是典型的非线性非凸问题,线性化潮流模型主要用于将原始最优潮流问题转化为凸优化问题。配电网覆盖范围广,设备众多,模型参数维护困难,已有的基于数据驱动的线性化潮流模型多基于完备的系统量测数据,而实际中考虑... 电力系统最优潮流计算是典型的非线性非凸问题,线性化潮流模型主要用于将原始最优潮流问题转化为凸优化问题。配电网覆盖范围广,设备众多,模型参数维护困难,已有的基于数据驱动的线性化潮流模型多基于完备的系统量测数据,而实际中考虑经济性安装的测量单元,无法覆盖所有设备,系统量测通常是部分可观测的。为解决量测的部分可观测性问题,提出一种数据驱动线性潮流模型,并基于此构建基于数据驱动的线性化最优潮流模型,该模型对量测中的不良数据具有鲁棒性。通过对不同部分可观测场景的测试,验证了所提模型的有效性。 展开更多
关键词 数据驱动 线性化最优潮流 部分观测
下载PDF
部分观测下基于子结构的大型结构损伤诊断法 被引量:5
5
作者 雷鹰 毛亦可 《工程力学》 EI CSCD 北大核心 2012年第7期180-185,共6页
该文提出一种适用于大型结构在激励与响应部分观测情况下进行结构损伤诊断的方法。基于有限元模型,大型结构被划分成若干个子结构。相邻子结构间的作用,视为对子结构的"附加未知激励"。依次采用扩展卡尔曼估计和最小二乘估计... 该文提出一种适用于大型结构在激励与响应部分观测情况下进行结构损伤诊断的方法。基于有限元模型,大型结构被划分成若干个子结构。相邻子结构间的作用,视为对子结构的"附加未知激励"。依次采用扩展卡尔曼估计和最小二乘估计识别扩展状态向量和未知外部激励,在子结构界面响应未观测的情况下,对各子结构的单元动力参数分别进行识别,并以追踪子结构内单元结构参数的变化,例如单元刚度的退化,对大型结构的局部损伤进行诊断。通过一个较大型的平面桁架桥的损伤识别数值算例,证实了该方法的可行性。与其他方法相比,提出的方法减少了对结构响应观测的要求。 展开更多
关键词 结构工程 结构参数识别 部分观测 子结构方法 扩展的卡尔曼估计
原文传递
基于部分可观测马尔科夫决策过程的C-V2V频谱接入算法
6
作者 张雪飞 《数字通信世界》 2023年第3期33-35,共3页
文章基于部分可观测马尔科夫决策过程,提出一种C-V2V(Cellular Vehicle-to-Vehicle)频谱接入算法,并在既定的网络模型下,通过仿真过程验证了本算法可有效提高车辆用户接入频谱后的吞吐量,从而改善C-V2V通信网络服务质量,可应用于交通事... 文章基于部分可观测马尔科夫决策过程,提出一种C-V2V(Cellular Vehicle-to-Vehicle)频谱接入算法,并在既定的网络模型下,通过仿真过程验证了本算法可有效提高车辆用户接入频谱后的吞吐量,从而改善C-V2V通信网络服务质量,可应用于交通事故、车辆监督管理等领域。 展开更多
关键词 C-V2V 部分观测马尔科夫决策过程 频谱接入
下载PDF
确定部分观测隐状态的k步记忆模型研究
7
作者 王作为 梁晓丹 张汝波 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第S1期356-359,共4页
提出一种顺序联想记忆网络模型以解决隐状态的定位问题.该模型利用活性衰退、突触势能以及同步激活实现k步记忆,根据k步顺序历史确定隐状态.该模型是一种分布式计算模型,并行机制使得隐状态的定位不会因为存储知识的增多而效率下降,具... 提出一种顺序联想记忆网络模型以解决隐状态的定位问题.该模型利用活性衰退、突触势能以及同步激活实现k步记忆,根据k步顺序历史确定隐状态.该模型是一种分布式计算模型,并行机制使得隐状态的定位不会因为存储知识的增多而效率下降,具有真正的在线计算能力.最后对记忆的迭代算法进行改进,实验结果表明改进后的模型具有更好的容错能力. 展开更多
关键词 部分观测隐状态 确定隐状态 活性衰减 前突触势能 联想记忆
原文传递
基于相量测量单元(PMU)部分观测的传输线断路故障定位 被引量:3
8
作者 郭敬元 杨涛 +1 位作者 冯辉 胡波 《复旦学报(自然科学版)》 CAS CSCD 北大核心 2014年第4期490-496,506,共8页
在大规模智能电网中,迅速并准确定位电力线断路故障是保证电网安全运行的必备条件.本文提出一种新颖的基于局部电气量观测来定位全网中电力线断路故障的算法,根据一定的分隔准则,将网络节点分为可观测的内部节点和不可观测的外部节点两... 在大规模智能电网中,迅速并准确定位电力线断路故障是保证电网安全运行的必备条件.本文提出一种新颖的基于局部电气量观测来定位全网中电力线断路故障的算法,根据一定的分隔准则,将网络节点分为可观测的内部节点和不可观测的外部节点两部分,进而通过内部节点的相量测量单元(PMU)的量测数据和拓扑信息,利用观测矩阵分块和故障线路的稀疏表示,结合压缩感知的正交匹配追踪算法(OMP),以实现对外部故障线路的实时定位.通过对IEEE 118节点模型的仿真结果表明所提出的方法具有定位准确、抗噪声能力强的优点. 展开更多
关键词 相量测量单元 部分观测 压缩感知 正交匹配追踪
原文传递
部分可观测马尔可夫决策过程算法综述 被引量:10
9
作者 桂林 武小悦 《系统工程与电子技术》 EI CSCD 北大核心 2008年第6期1058-1064,共7页
部分可观测马尔可夫决策过程(POMDP)是马尔可夫决策过程(MDP)的扩展,它允许系统的状态信息部分可知。但POMDP的可能应用大部分没有实现,这主要是因为缺乏有效的算法。POMDP的算法分为近似算法和精确算法,精确算法是构造近似算法的基础... 部分可观测马尔可夫决策过程(POMDP)是马尔可夫决策过程(MDP)的扩展,它允许系统的状态信息部分可知。但POMDP的可能应用大部分没有实现,这主要是因为缺乏有效的算法。POMDP的算法分为近似算法和精确算法,精确算法是构造近似算法的基础。介绍了POMDP模型后,对离散时间、有限状态集的POMDP精确算法和近似算法进行了综述,分析了造成POMDP难以求解的主要原因,提出了进一步的研究方向。 展开更多
关键词 部分观测马尔可夫决策过程 算法 综述
下载PDF
求解部分可观测马氏决策过程的强化学习算法 被引量:5
10
作者 王学宁 贺汉根 徐昕 《控制与决策》 EI CSCD 北大核心 2004年第11期1263-1266,共4页
针对部分可观测马氏决策过程(POMDP)中,由于感知混淆现象的存在,利用Sarsa等算法得到的无记忆策略可能发生振荡的现象,研究了一种基于记忆的强化学习算法——CPnSarsa(λ)学习算法来解决该问题.它通过重新定义状态,Agent结合观测历史来... 针对部分可观测马氏决策过程(POMDP)中,由于感知混淆现象的存在,利用Sarsa等算法得到的无记忆策略可能发生振荡的现象,研究了一种基于记忆的强化学习算法——CPnSarsa(λ)学习算法来解决该问题.它通过重新定义状态,Agent结合观测历史来识别混淆状态.将CPnSarsa(λ)算法应用到一些典型的POMDP,最后得到的是最优或近似最优策略.与以往算法相比,该算法的收敛速度有了很大提高. 展开更多
关键词 强化学习 部分观测Markov决策过程 Sarsa学习 无记忆策略
下载PDF
部分可观测信息条件下系统最佳检修策略分析 被引量:4
11
作者 尚永爽 许爱强 +2 位作者 李文海 王怡苹 盛沛 《系统工程与电子技术》 EI CSCD 北大核心 2012年第4期749-753,共5页
针对部分可观测信息条件下的退化系统,提出利用部分可观测马尔可夫决策过程模型解决系统视情维修问题。采用隐马尔可夫模型对系统进行状态评估,得到系统的转移概率和观测概率矩阵;利用比例故障率模型对系统进行可靠性分析,得到系统的故... 针对部分可观测信息条件下的退化系统,提出利用部分可观测马尔可夫决策过程模型解决系统视情维修问题。采用隐马尔可夫模型对系统进行状态评估,得到系统的转移概率和观测概率矩阵;利用比例故障率模型对系统进行可靠性分析,得到系统的故障率和可靠度函数,不仅考虑系统的工作时间,也考虑系统的退化状态。最后,以系统长期运行的最小平均费用率为目标,得到最佳的检测周期和最优的更换策略。实例研究表明,该方法可为保障人员提供科学的维修决策依据。 展开更多
关键词 视情维修 维修决策 部分观测马尔可夫决策过程 隐马尔可夫模型 比例故障率模型 退化系统
下载PDF
什么样的股权结构更容易导致公司欺诈?——基于部分可观测的Bivariate Probit估计 被引量:6
12
作者 胡海峰 马奔 王爱萍 《北京师范大学学报(社会科学版)》 CSSCI 北大核心 2019年第5期148-160,共13页
公司欺诈是一个不等同于财务舞弊或公司违规的特有现象,危害巨大。在中国,上市公司呈现出国有企业占比较高和股权集中度较高的显著特征,因此,研究股权结构与公司欺诈之间的关系具有重要意义。通过将公司欺诈分解为发生和发现两个过程,... 公司欺诈是一个不等同于财务舞弊或公司违规的特有现象,危害巨大。在中国,上市公司呈现出国有企业占比较高和股权集中度较高的显著特征,因此,研究股权结构与公司欺诈之间的关系具有重要意义。通过将公司欺诈分解为发生和发现两个过程,利用中国上市公司2006—2016年数据,使用基于部分可观测的Bivariate Probit估计方法对股权结构与上市公司欺诈的关系进行全面的考察,首先发现股权的国有性质是一个积极变量,国有企业实施欺诈的概率更低,已发生的欺诈活动更容易暴露。其次,投资者类型差异决定股权集中度与公司欺诈的关系:作为典型的长期投资者,国有企业的控股股东可以显著抑制公司实施欺诈的倾向;非国有企业的控股股东兼具长期与短期投资者特征,是最'纠结'的投资者,其持股比例与公司实施欺诈负相关但不显著,同时显著包庇内部已发生的欺诈活动;非控股大股东作为典型的短期投资者,显著提高了公司实施欺诈的概率。最后,以十大股东持股比例表征的股权集中度越高,欺诈活动越不容易被发现,这显然会给监管带来困扰。因此,在我国资本市场践行价值投资理念非常必要和紧迫,这就需要政府从惩戒措施和制度改革两个方面进行突破和加强。 展开更多
关键词 部分观测 上市公司欺诈 控股股东 非控股大股东
下载PDF
离散线性系统部分可观测性测试配置 被引量:2
13
作者 杨拥民 黎湘 《国防科技大学学报》 EI CAS CSCD 北大核心 2012年第1期63-66,共4页
不可观测系统的部分状态可观测性对于大系统故障检测具有十分重要的意义。研究了基于部分可观测性的不可观测离散线性系统测点优化配置问题,证明了采用有限次观测值构造一个矩阵,可以给出部分可观测性成立的充分必要条件,并进一步证明... 不可观测系统的部分状态可观测性对于大系统故障检测具有十分重要的意义。研究了基于部分可观测性的不可观测离散线性系统测点优化配置问题,证明了采用有限次观测值构造一个矩阵,可以给出部分可观测性成立的充分必要条件,并进一步证明了部分可观测性的度量可以用一个矩阵的秩的特性来刻画。最后,给出了离散线性系统部分可观测性测试优化配置的度量指标。算例表明,提出的部分可观测性度量指标具有简单实用的特点。 展开更多
关键词 离散线性系统 部分观测 奇异值 测试优化配置
下载PDF
基于部分可观测马尔可夫决策过程的水声传感器网络介质访问控制协议 被引量:2
14
作者 徐明 刘广钟 《计算机应用》 CSCD 北大核心 2015年第11期3047-3050,3074,共5页
针对水声传感器网络低带宽、高延迟特性造成的空时不确定性以及网络状态不能充分观察的问题,提出一种基于部分可观测马尔可夫决策过程(POMDP)的水声传感器网络介质访问控制协议。该协议首先将每个传感器节点的链路质量和剩余能量划分为... 针对水声传感器网络低带宽、高延迟特性造成的空时不确定性以及网络状态不能充分观察的问题,提出一种基于部分可观测马尔可夫决策过程(POMDP)的水声传感器网络介质访问控制协议。该协议首先将每个传感器节点的链路质量和剩余能量划分为多个离散等级来表达节点的状态信息。此后,接收节点通过信道状态观测和接入动作的历史信息对信道的占用概率进行预测,从而得出发送节点的信道最优调度策略;发送节点按照该策略中的调度序列在各自所分配的时隙内依次与接收节点进行通信,传输数据包。通信完成后,相关节点根据网络转移概率的统计量估计下一个时隙的状态。仿真实验表明,与传统的水声传感器网络介质访问控制协议相比,基于POMDP的介质访问控制协议可以提高数据包传输成功率和网络吞吐量,并且降低网络的能量消耗。 展开更多
关键词 水声传感器网络 部分观测马尔可夫决策过程 介质访问控制 信道 调度
下载PDF
非平稳部分可观测状态下的破碎机辊套剩余寿命预测预测新方法 被引量:1
15
作者 伍建军 刘海平 叶祥 《机械强度》 CAS CSCD 北大核心 2018年第6期1278-1286,共9页
双齿辊破碎机辊套准确的剩余寿命预测结果是维护人员做出科学维修决策的重要依据。工程实践中往往是部分状态信息是可观测的,为解决在非线性、非平稳部分可观测状态下破碎机辊套RUL难以准确预测的难题,提出了一种小波技术与SVR融合的RU... 双齿辊破碎机辊套准确的剩余寿命预测结果是维护人员做出科学维修决策的重要依据。工程实践中往往是部分状态信息是可观测的,为解决在非线性、非平稳部分可观测状态下破碎机辊套RUL难以准确预测的难题,提出了一种小波技术与SVR融合的RUL预测新方法。首先采用相关分析进行辊套振动信号特征值的提取,其次利用小波技术对收集到的振动信号消噪,然后建立辊套剩余寿命与特征值之间的关系,来描述辊套的非线性动态变化。最后通过SVR模型对破碎机辊套进行剩余寿命预测。预测结果表明:该方法能够有效解决部分可观测状态情形下的剩余寿命预测,从而降低维修成本,具有较强的工程适用性与推广价值。 展开更多
关键词 部分观测状态 相关分析 小波分析 剩余寿命预测 支持向量回归机
下载PDF
部分可观测车辆系统非线性随机振动的最优控制 被引量:2
16
作者 张巍 应祖光 颜光锋 《噪声与振动控制》 CSCD 2018年第6期7-11,共5页
车辆运行过程的随机振动水平是评估其动力学性能的重要指标,该振动对于车载器件能否正常工作具有极其重要的影响,因此必需进行车辆随机振动控制。重型多轴车辆受空间限制其悬架采用可转动的斜杆支承,且控制器如磁流变阻尼器也斜向安装... 车辆运行过程的随机振动水平是评估其动力学性能的重要指标,该振动对于车载器件能否正常工作具有极其重要的影响,因此必需进行车辆随机振动控制。重型多轴车辆受空间限制其悬架采用可转动的斜杆支承,且控制器如磁流变阻尼器也斜向安装在悬架与车轮之间,导致系统呈现几何非线性,其非线性随机振动控制方法与效果完全不同于普通车辆。同时由于不可避免的观测噪声,导致出现部分可观斜杆支承车辆系统的非线性随机控制新问题。考虑车体与车轮的垂直耦合运动及斜支承杆的转动,用拉格朗日方程建立车辆控制系统模型的运动微分方程,转化为非线性的耦合振动方程,同时建立包含测量噪声的系统观测方程,构成一个部分可观系统的非线性随机最优控制问题;根据推广的Kalman滤波方法得到关于估计状态的非线性随机系统方程,再根据随机动态规划原理建立动态规划方程,结合控制力的有界性,得到基于系统估计状态的最优有界控制律;通过受控与未控系统响应统计的比较评估控制效果,数值计算结果表明该控制策略可有效降低具有观测噪声的采用斜杆支承与控制车辆系统在随机路面激励下的非线性随机振动,并对于不同观测系数具有一定的鲁棒性。 展开更多
关键词 振动与波 随机振动 非线性车辆系统 部分观测 最优控制
下载PDF
一类部分可观测的倒向重随机控制系统 被引量:1
17
作者 王维峰 郭仲凯 《中南民族大学学报(自然科学版)》 CAS 北大核心 2021年第4期429-433,共5页
研究了一类部分可观测的倒向重随机控制系统,其漂移系数、扩散系数和可观测过程都包含了控制变量.在非凸控制区域情形下,利用针状变分方法对状态变量以及伴随变量进行了相应的估计,最后对变分不等式进行了探讨.研究结果有助于非凸控制... 研究了一类部分可观测的倒向重随机控制系统,其漂移系数、扩散系数和可观测过程都包含了控制变量.在非凸控制区域情形下,利用针状变分方法对状态变量以及伴随变量进行了相应的估计,最后对变分不等式进行了探讨.研究结果有助于非凸控制区域情形下倒向随机控制理论的进一步发展,也为金融、生物、工程等学科相关问题提供了一定的指导方案,有较强的应用价值. 展开更多
关键词 部分观测 非凸控制区域 最优控制 针状变分
下载PDF
部分可观测通信网络的扰动分析方法研究
18
作者 李勇建 邵秀丽 涂菶生 《南开大学学报(自然科学版)》 CAS CSCD 北大核心 2002年第1期58-62,共5页
研究了一类信元“部分可观测”的通信系统 .基于关键路径思想 ,采用扰动分析方法 ,对通信网络的性能进行分析 ,给出了扰动分析的计算方法 .并对通信系统的两个性能指标 :最大传输时间 D和信元丢失率
关键词 离散事件动态系统 通信网络 排除网络 关键路径 扰动分析 部分观测 最大传输时间 信元丢失率
下载PDF
状态部分可观测条件下电力设备状态检修决策模型 被引量:20
19
作者 徐波 韩学山 +1 位作者 孙宏斌 张玉敏 《中国电机工程学报》 EI CSCD 北大核心 2018年第14期4107-4116,共10页
在设备状态检修决策中,当设备状态评价结果与其真实状态不符时(状态无法完全观测),会导致检修决策偏离实际。针对这一问题,提出一种适用于状态部分可观测设备的检修决策模型。该模型考虑设备突发性故障和老化故障,基于部分可观测马尔... 在设备状态检修决策中,当设备状态评价结果与其真实状态不符时(状态无法完全观测),会导致检修决策偏离实际。针对这一问题,提出一种适用于状态部分可观测设备的检修决策模型。该模型考虑设备突发性故障和老化故障,基于部分可观测马尔科夫过程,推导设备的初始状态概率。进一步,考虑设备故障修复效果不确定性,对研究周期内设备瞬时可用度进行求解。并在此基础上,给出部分可观测条件下系统故障风险和检修风险表达,以系统总风险最小为目标进行检修决策。通过算例分析验证了文中模型的有效性。 展开更多
关键词 电力设备 状态检修 部分观测马尔科夫过程 故障风险 检修风险
下载PDF
部分可观测Markov环境下的激励学习综述
20
作者 谢丽娟 陈焕文 《长沙电力学院学报(自然科学版)》 2002年第2期23-27,共5页
对智能体在不确定环境下的学习与规划问题的激励学习技术进行了综述 .首先介绍了用于描述隐状态问题的部分可观测Markov决策理论 (POMDPs) ,在简单回顾其它POMDP求解技术后 ,重点讨论环境模型事先未知的激励学习技术 ,包括两类 :一类为... 对智能体在不确定环境下的学习与规划问题的激励学习技术进行了综述 .首先介绍了用于描述隐状态问题的部分可观测Markov决策理论 (POMDPs) ,在简单回顾其它POMDP求解技术后 ,重点讨论环境模型事先未知的激励学习技术 ,包括两类 :一类为基于状态的值函数学习 ;一类为策略空间的直接搜索 .最后分析了这些方法尚存在的问题 ,并指出了未来可能的研究方向 . 展开更多
关键词 激励学习 部分观测Markov决策过程 机器学习 人工智能 智能体 值函数学习 策略空间
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部