期刊文献+
共找到697篇文章
< 1 2 35 >
每页显示 20 50 100
基于无模型自适应迭代学习的液压锚杆钻机转速控制
1
作者 朱敏 卜旭辉 梁嘉琪 《电子测量与仪器学报》 CSCD 北大核心 2024年第6期95-103,共9页
针对存在参数不确定、非线性约束液压锚杆钻机回转系统的转速高精度控制问题,利用钻机作业的重复性,提出了一种基于无模型自适应迭代学习的液压锚杆钻机回转系统转速控制方案。首先,搭建钻机回转控制系统关于转速的状态空间模型。其次,... 针对存在参数不确定、非线性约束液压锚杆钻机回转系统的转速高精度控制问题,利用钻机作业的重复性,提出了一种基于无模型自适应迭代学习的液压锚杆钻机回转系统转速控制方案。首先,搭建钻机回转控制系统关于转速的状态空间模型。其次,利用动态线性化技术,构造钻机回转系统液压马达与伺服阀电流在迭代域的等价线性映射关系,并根据系统采集的历史伺服阀电流输入、液压马达转角输出数据,提出无模型自适应迭代学习转速控制设计方法。然后在理论上给出液压锚杆钻机回转系统转速跟踪误差沿数据方向以及重复作业方向的渐近收敛性。最后,利用MATLAB软件和AMEsim平台联合仿真验证算法的有效性。结果表明,相比于传统PID算法和迭代学习控制算法,所提出的算法在不需要已知锚杆钻机系统模型的情况下,能够仅利用可测数据实现钻机转速的高精度控制,并且在面对突加外部干扰、油温波动情况下仍具备良好的自适应、抗干扰能力。 展开更多
关键词 无模型自适应控制 迭代学习控制 液压锚杆钻机回转系统 联合仿真
下载PDF
基于深度学习方法的诊断模型在甲状腺结节超声诊断教学中的应用研究
2
作者 刘娜 刘婷 +2 位作者 马盼 王娟 程继文 《西部素质教育》 2024年第22期131-134,共4页
文章选取2020级临床医学专业本科生共118人作为研究对象,将其随机分为实验组和对照组,研究了基于深度学习方法的诊断模型在甲状腺结节超声诊断教学中的应用效果,结果显示,实验组学生的诊断准确率更高、诊断速度更快、学习效果更好,两组... 文章选取2020级临床医学专业本科生共118人作为研究对象,将其随机分为实验组和对照组,研究了基于深度学习方法的诊断模型在甲状腺结节超声诊断教学中的应用效果,结果显示,实验组学生的诊断准确率更高、诊断速度更快、学习效果更好,两组间比较,差异均具有统计学意义。 展开更多
关键词 甲状腺结节 超声诊断教学 深度学习方法 诊断模型
下载PDF
基于无模型自适应控制方法的直流电机调速系统 被引量:8
3
作者 曹荣敏 侯忠生 +1 位作者 白雪峰 黄健 《电气传动》 北大核心 2008年第7期26-30,共5页
设计了一种应用数据采集卡的无模型学习自适应直流调速系统,将基于全格式线性化的单入单出非线性离散时间系统的无模型自适应控制方法应用在直流电机速度控制中,控制器的设计是无模型的,弥补了经典自适应控制阶数高时在线计算量过大而... 设计了一种应用数据采集卡的无模型学习自适应直流调速系统,将基于全格式线性化的单入单出非线性离散时间系统的无模型自适应控制方法应用在直流电机速度控制中,控制器的设计是无模型的,弥补了经典自适应控制阶数高时在线计算量过大而不能适应于系统快速变化过程的不足。系统包括控制部分和实时仿真部分,实现了转速采集、电机控制、参数修改及轨迹绘制的实时过程。采用Visual Basic(VB)编写的控制软件,通过动态链接库调用的方式控制数据采集卡。实验结果展示了该方法的稳定性和抑止外部干扰的有效性和鲁棒性。 展开更多
关键词 无模型学习自适应控制方法 直流电机 数据采集 稳定性 鲁棒性
下载PDF
基于主动学习Kriging模型的改进一次可靠度方法 被引量:1
4
作者 刘丞 范文亮 +1 位作者 余书君 李正良 《工程力学》 EI CSCD 北大核心 2024年第2期35-42,共8页
结构可靠度分析的一次可靠度方法在每一迭代中均涉及迭代点的函数值及梯度值计算,但后续迭代过程不能充分利用前期迭代过程中迭代点的计算结果,因此计算效率有待于进一步提升。考虑到迭代后期迭代点在局部区域内波动,若以已有迭代结果... 结构可靠度分析的一次可靠度方法在每一迭代中均涉及迭代点的函数值及梯度值计算,但后续迭代过程不能充分利用前期迭代过程中迭代点的计算结果,因此计算效率有待于进一步提升。考虑到迭代后期迭代点在局部区域内波动,若以已有迭代结果为基础建立代理模型进行迭代后期迭代点的函数值及梯度值计算将有助于改善一次可靠度方法的计算效率。为此,该文在将一次可靠度方法的迭代过程分为全局搜索阶段与局部搜索阶段的基础上,针对两个阶段分别采用不同的计算策略,即全局搜索阶段沿用已有一次可靠度方法的迭代过程,在局部搜索阶段则基于全局搜索阶段的迭代结果建立Kriging模型,并引入可评估Kriging模型在迭代点处精度的学习函数,实现局部搜索阶段迭代点的高效率计算,从而提出了具有更高计算效率的改进一次可靠度方法。数值算例和工程算例的计算结果表明建议方法在保持精度不变的情况下,可显著提高一次可靠度方法的计算效率。 展开更多
关键词 结构可靠度 一次可靠度方法 KRIGING模型 学习函数 计算效率
下载PDF
基于Q学习加权融合的无模型自适应参数寻优
5
作者 马振恒 谢丽蓉 叶金鑫 《计算机仿真》 2024年第6期383-389,共7页
无模型自适应控制算法作为一种数据驱动算法,具有计算量小,无需系统精确模型,易于实现等特点。为使传统无模型自适应控制算法具有更好的控制性能,提出了一种使用Q学习对控制参数进行优化的改进无模型自适应控制方法。在此基础上,采用加... 无模型自适应控制算法作为一种数据驱动算法,具有计算量小,无需系统精确模型,易于实现等特点。为使传统无模型自适应控制算法具有更好的控制性能,提出了一种使用Q学习对控制参数进行优化的改进无模型自适应控制方法。在此基础上,采用加权融合的方式对伪偏导数的取值优化,使其具有更好的鲁棒性。然后采用跟踪-微分器对输出数据进行滤波处理,并通过仿真进行上述方法的可行性验证。仿真结果表明,对比传统无模型自适应控制,上述方法更具有良好的控制性能和响应速度。 展开更多
关键词 无模型自适应控制 加权融合 学习 数据驱动
下载PDF
船舶类量化神经网络自适应运动控制方法研究
6
作者 郁榴华 潘慧君 +2 位作者 林艳 顾胜 王旭 《舰船科学技术》 北大核心 2024年第15期34-39,共6页
研究船舶类航向自适应运动控制方法有助于加快解决船舶在海上通讯带宽受限情况下航向跟踪检测困难和控制效果差的问题。基于RBF神经网络,采用一种经典非线性运动解析模型来描述通信信号输入量化过程,无限逼近于航向控制系统中的未知非... 研究船舶类航向自适应运动控制方法有助于加快解决船舶在海上通讯带宽受限情况下航向跟踪检测困难和控制效果差的问题。基于RBF神经网络,采用一种经典非线性运动解析模型来描述通信信号输入量化过程,无限逼近于航向控制系统中的未知非线性项来消除隐性不确定项因子对控制系统的影响,与此同时模型中所设计的RBF自适应量化控制器不需要对先验信息进行量化参数处理,不仅可以保证有效跟踪和控制的同时,还可以减轻通信的传输负担、减少执行频次和降低系统控制幅度。本文基于Lyapunov稳定性理论证明了所提出的带有输入量化的RBF神经网络自适应闭环控制系统的稳定性,并在Matlab Simulink环境中构建仿真模型分析,论证了所设计的运动控制方法的有效性。 展开更多
关键词 自适应控制方法 RBF神经网络 船舶类航向控制 量化控制 运动解析模型
下载PDF
初级保健领域基于机器学习预测模型研究的设计特征与方法学质量:范围综述
7
作者 钟锦佳 李文涛 +1 位作者 黄亚芳 吴浩 《中国全科医学》 北大核心 2024年第10期1271-1276,共6页
背景近年来初级保健领域基于机器学习预测模型研究发展迅速,但关于其设计特征与方法学质量的研究报道较少。目的系统总结、分析初级保健领域基于机器学习预测模型研究的设计特征与方法学质量。方法采用计算机检索PubMed、Embase、中国... 背景近年来初级保健领域基于机器学习预测模型研究发展迅速,但关于其设计特征与方法学质量的研究报道较少。目的系统总结、分析初级保健领域基于机器学习预测模型研究的设计特征与方法学质量。方法采用计算机检索PubMed、Embase、中国知网、万方数据知识服务平台建库至2023-02-21发布的初级保健领域基于机器学习预测模型研究,采用叙述性总结和描述方法分析纳入文献的基本特征、预测模型类型、样本量、缺失值处理方法、机器学习算法类型、模型性能评价指标及预测效能、模型验证方法等。结果最终纳入30篇文献,涉及106个预测模型,其中发表时间为2021~2023年17篇;研究主题涉及呼吸系统疾病6篇,肿瘤4篇,门诊预约3篇;26篇文献样本量>1000(占86.67%,95%CI=68.36%~95.64%);使用机器学习方法处理缺失值者7篇;65个预测模型使用基于树的机器学习算法,其中随机森林使用频率最高(占32.08%,95%CI=23.53%~41.95%);61个预测模型使用受试者工作特征(ROC)曲线下面积(AUC)或一致性(C统计量)作为区分度评价指标(占57.55%,95%CI=47.57%~66.97%),但仅14个预测模型报告了校准度指标(占13.21%,95%CI=7.67%~21.50%);106个预测模型多数区分度良好,但92个预测模型偏倚风险评估结果为高风险(占86.79%,95%CI=78.50%~92.33%);仅7篇文献所涉预测模型进行了外部验证。结论近3年来初级保健领域基于机器学习预测模型研究逐渐增多,研究主题主要涉及呼吸系统疾病、肿瘤、门诊预约等;预测模型在样本量、缺失值处理方法等方面存在较大差异,多数预测模型区分度良好,但大部分预测模型未进行外部验证,总体偏倚风险较高。 展开更多
关键词 初级保健 机器学习 研究设计 预测模型 方法学评价 范围综述
下载PDF
基于集成学习算法提升方法的贷款违约预测模型选择
8
作者 李杨 彭雅雷 +1 位作者 徐鸣一 张亦驰 《中国管理信息化》 2024年第9期141-144,共4页
机器学习的集成算法具有重要的应用价值,其实际数据分析效果较好。本文在对信贷违约数据进行数据清洗后,分别使用AdaBoost、XGBoost、LightGBM三种集成提升方法对贷款违约情况进行预测分析,构建了相应的违约预测模型。预测结果显示XGBo... 机器学习的集成算法具有重要的应用价值,其实际数据分析效果较好。本文在对信贷违约数据进行数据清洗后,分别使用AdaBoost、XGBoost、LightGBM三种集成提升方法对贷款违约情况进行预测分析,构建了相应的违约预测模型。预测结果显示XGBoost与LightGBM的预测效果略优于AdaBoost方法,LightGBM的计算效率最高。 展开更多
关键词 贷款违约 ADABOOST XGBoost LightGBM 预测模型 机器学习 集成学习算法 提升方法
下载PDF
基于在线学习的多模型自适应控制 被引量:13
9
作者 翟军勇 费树岷 《中国电机工程学报》 EI CSCD 北大核心 2005年第9期80-83,共4页
针对传统自适应控制算法,实际工业过程在不同工况下的模型参数突变时系统暂态响应特性较差,该文提出了基于在线学习的多模型自适应控制方法。应用动态模型库技术来建立模型库,而无需被控对象的先验知识,所提出的建模方法和相应的多模型... 针对传统自适应控制算法,实际工业过程在不同工况下的模型参数突变时系统暂态响应特性较差,该文提出了基于在线学习的多模型自适应控制方法。应用动态模型库技术来建立模型库,而无需被控对象的先验知识,所提出的建模方法和相应的多模型自适应控制器使系统的动态响应品质得到了明显的改善。文中证明了该算法能够保证闭环系统的稳定性和跟踪误差的渐近收敛性。计算机仿真结果表明该算法的有效性。 展开更多
关键词 模型自适应控制 在线学习 自适应控制算法 自适应控制 模型库技术 渐近收敛性 响应特性 模型参数 工业过程 控制方法 应用动态 先验知识 被控对象 动态响应 建模方法 跟踪误差 闭环系统 仿真结果 稳定性 计算机
下载PDF
基于强化学习的模型参考自适应控制 被引量:5
10
作者 郭红霞 吴捷 王春茹 《控制理论与应用》 EI CAS CSCD 北大核心 2005年第2期291-294,300,共5页
提出了一种基于强化学习的模型参考自适应控制方法,控制器采用自适应启发评价算法,它由两部分组成:自适应评价单元及联想搜索单元.由参考模型给出系统的性能指标,利用系统反馈的强化信号在线更新控制器的参数.仿真结果表明:基于强化学... 提出了一种基于强化学习的模型参考自适应控制方法,控制器采用自适应启发评价算法,它由两部分组成:自适应评价单元及联想搜索单元.由参考模型给出系统的性能指标,利用系统反馈的强化信号在线更新控制器的参数.仿真结果表明:基于强化学习的模型参考自适应控制方法可以实现对一类复杂的非线性系统的稳定控制和鲁棒控制,该控制方法不仅响应速度快,而且具有较高的学习速率,实时性较强. 展开更多
关键词 强化学习 模型参考自适应控制 联想搜索单元 适应评价单元
下载PDF
基于即时学习算法非线性系统多模型自适应控制 被引量:3
11
作者 孙维 王伟 《大连理工大学学报》 CAS CSCD 北大核心 2002年第5期611-615,共5页
针对可获得大量输入输出数据的非线性系统 ,提出一种改进的即时模型辨识方法 ,并与自校正的极点配置控制算法相结合 ,设计多模型自适应控制器 .所提出的建模方法和相应的多模型自适应控制器能较好地逼近非线性系统的动态特性 。
关键词 模型自适应控制 非线性系统 极点配置 即时学习算法 建模方法 即时局部模型
下载PDF
基于分片线性化方法的非线性系统多模型自适应控制 被引量:4
12
作者 李晓理 王书宁 《控制与决策》 EI CSCD 北大核心 2002年第1期45-48,52,共5页
基于分片线性化方法辨识一类非线性系统 ,给出了非线性系统的多线性模型表示。基于线性模型建立多个控制器 ,基于最大最小指标切换函数构成多模型自适应控制器。给出了非线性系统多模型自适应控制算法的优化模型集建立方法 ,解决了多模... 基于分片线性化方法辨识一类非线性系统 ,给出了非线性系统的多线性模型表示。基于线性模型建立多个控制器 ,基于最大最小指标切换函数构成多模型自适应控制器。给出了非线性系统多模型自适应控制算法的优化模型集建立方法 ,解决了多模型自适应控制模型多、计算量大的问题。 展开更多
关键词 模型自适应控制 分片线性方法 非线性系统
下载PDF
永磁直线电机的无模型自适应控制方法研究 被引量:9
13
作者 曹荣敏 侯忠生 《计算机工程与设计》 CSCD 北大核心 2007年第6期1433-1436,共4页
将基于全格式线性化的单入单出非线性离散时间系统的无模型学习自适应控制方法应用在永磁直线电机的速度和位置控制中。控制器的设计是无模型的,是直接基于称为拟梯度的向量,拟梯度向量是通过新型参数估计算法,根据给出的永磁直流直线... 将基于全格式线性化的单入单出非线性离散时间系统的无模型学习自适应控制方法应用在永磁直线电机的速度和位置控制中。控制器的设计是无模型的,是直接基于称为拟梯度的向量,拟梯度向量是通过新型参数估计算法,根据给出的永磁直流直线电机运动模型的输入输出信息在线导出的。无模型控制方法非常适用于实际的阶数难以知道或难以辨识,且是时变的非线性系统。实现了系统阶数较高时的有效控制,弥补了经典自适应控制阶数高时在线计算量过大而不能适应于系统快速变化过程的不足。利用Matlab软件进行仿真实验,验证了该方法对电机这种具有不确知动态的非线性系统的稳定性和抑止外部干扰和噪声的有效性和鲁棒性。 展开更多
关键词 无模型学习自适应控制 永磁直线电机 非线性系统 计算机仿真 稳定性 鲁棒性
下载PDF
DoS攻击下多智能体系统无模型自适应迭代学习跟踪控制
14
作者 郭金丽 卜旭辉 +1 位作者 崔立志 陈宗遥 《控制理论与应用》 EI CAS CSCD 北大核心 2023年第6期977-985,共9页
针对周期性拒绝服务(DoS)攻击下多智能体系统有限时间趋同跟踪控制问题,本文提出了一种无模型自适应迭代学习控制(MFAILC)算法.假设多智能体系统具有固定拓扑结构,并且仅有部分智能体可获取到期望轨迹信息.在多智能体系统数据传输过程中... 针对周期性拒绝服务(DoS)攻击下多智能体系统有限时间趋同跟踪控制问题,本文提出了一种无模型自适应迭代学习控制(MFAILC)算法.假设多智能体系统具有固定拓扑结构,并且仅有部分智能体可获取到期望轨迹信息.在多智能体系统数据传输过程中,需要经由对数量化器进行量化处理.首先,使用伪偏导数将智能体系统动态线性化,处理过程中考虑符合伯努利分布的周期性DoS攻击现象,在此基础上设计了MFAILC控制算法,其次,采用压缩映射方法给出了一个在期望意义下保证跟踪误差收敛的充分条件,并在理论上证明了所提算法的收敛性.所提算法只需利用系统的输入输出数据就可完成趋同跟踪任务.最后,仿真结果验证了所提算法的有效性. 展开更多
关键词 无模型自适应控制 迭代学习控制 数据量化 周期性DoS攻击 多智能体系统
下载PDF
基于聚类方法和神经网络的非线性系统多模型自适应控制 被引量:9
15
作者 唐伟强 龙文堃 +1 位作者 孙丽娟 黄小丽 《系统工程与电子技术》 EI CSCD 北大核心 2019年第9期2100-2106,共7页
针对具有参数跳变的非线性系统,联合聚类算法和神经网络提出新的多模型自适应控制方法。首先对系统的输入输出数据进行模糊聚类,然后基于递推最小二乘法建立多个固定模型。为提高系统的暂态性能,同时建立两个自适应模型,并在此基础上设... 针对具有参数跳变的非线性系统,联合聚类算法和神经网络提出新的多模型自适应控制方法。首先对系统的输入输出数据进行模糊聚类,然后基于递推最小二乘法建立多个固定模型。为提高系统的暂态性能,同时建立两个自适应模型,并在此基础上设计鲁棒自适应控制器。此外,为了补偿系统的非线性部分,建立非线性预测模型,并设计非线性神经网络自适应控制器。所提方法可使控制切换系统具有稳定性保证。最后,通过性能指标对控制器进行平滑切换。仿真结果表明,所提方法能够保证系统具有良好的控制性能。 展开更多
关键词 非线性系统 模型方法 自适应控制 模糊聚类 神经网络
下载PDF
基于改进多入多出无模型自适应控制的二维直线电机迭代学习控制 被引量:17
16
作者 曹荣敏 郑鑫鑫 侯忠生 《电工技术学报》 EI CSCD 北大核心 2021年第19期4025-4034,共10页
二维直线电机在实际运行中存在强耦合、未知非线性等未建模动态控制问题,且易受外部干扰的影响。基于无模型自适应控制(MFAC)不依赖被控系统精确数学模型的特点及迭代学习控制(ILC)循序渐进的学习规律,提出一种改进多入多出无模型自适... 二维直线电机在实际运行中存在强耦合、未知非线性等未建模动态控制问题,且易受外部干扰的影响。基于无模型自适应控制(MFAC)不依赖被控系统精确数学模型的特点及迭代学习控制(ILC)循序渐进的学习规律,提出一种改进多入多出无模型自适应控制(MIMO-MFAC)的二维直线电机迭代学习控制(ILC)复合控制方案。在无模型自适应控制输入准则函数中加入一阶差分单元,使改进多入多出(MIMO)无模型自适应反馈控制器具有很强的鲁棒性。迭代学习前馈控制器可以克服外部干扰,补偿系统非线性,前馈反馈优势互补,实现对期望输出的精度补偿,进一步减小位置跟踪误差。最后,将二维直线电机运动平台与LINKS-RT半实物仿真系统相结合,通过实验验证所提方案的有效性。 展开更多
关键词 二维直线电机 无模型自适应控制 多输入多输出 迭代学习控制 位置跟踪误差
下载PDF
基于在线学习优化动态模型库的多模型自适应控制
17
作者 钱承山 吴庆宪 姜长生 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2007年第4期601-606,共6页
提出一种通过在线学习优化动态模型库的方法.当子模型数量增长达到设定规模时,根据动态模型库中各子模型与实际对象的匹配程度,选取匹配程度最低的旧模型删除,并添加新建子模型,从而维持动态模型库在设定规模以内,解决了在线学习建立动... 提出一种通过在线学习优化动态模型库的方法.当子模型数量增长达到设定规模时,根据动态模型库中各子模型与实际对象的匹配程度,选取匹配程度最低的旧模型删除,并添加新建子模型,从而维持动态模型库在设定规模以内,解决了在线学习建立动态模型库子模型数量不断增长的问题,避免了子模型数量的过度增长而引起的计算量增加和性能下降,并通过仿真证明了算法的有效性. 展开更多
关键词 模型自适应控制 在线学习 动态模型 优化
下载PDF
一类非线性系统的无模型学习自适应控制 被引量:1
18
作者 胡致强 王世刚 《黑龙江水专学报》 2005年第1期7-9,共3页
对于一类常见非线性离散系统,提出了其动态线性逼近的增量型模型、无模型自适应控制律和带有参数限定时域长度的参数自适应预报递推算法,实现了对时滞非线性系统的无模型学习自适应控制。通过仿真表明,该算法对于一类非线性系统实现无... 对于一类常见非线性离散系统,提出了其动态线性逼近的增量型模型、无模型自适应控制律和带有参数限定时域长度的参数自适应预报递推算法,实现了对时滞非线性系统的无模型学习自适应控制。通过仿真表明,该算法对于一类非线性系统实现无模型学习自适应控制是正确和有效的。 展开更多
关键词 非线性系统 无模型学习自适应控制 参数自适应预报 增量型模型 动态线性化
下载PDF
改进平衡优化器的超声电机无模型自适应控制
19
作者 胡启福 刘电霆 +1 位作者 吴珊 黄康政 《电子机械工程》 2023年第1期58-64,共7页
为了提高超声电机的控制性能,将基于数据驱动的无模型自适应控制(Model Free Adaptive Control,MFAC)方法应用到超声电机的速度控制中,并针对MFAC存在参数调整困难的问题,提出一种改进的平衡优化器(Improved Equilibrium Optimizer, IEO... 为了提高超声电机的控制性能,将基于数据驱动的无模型自适应控制(Model Free Adaptive Control,MFAC)方法应用到超声电机的速度控制中,并针对MFAC存在参数调整困难的问题,提出一种改进的平衡优化器(Improved Equilibrium Optimizer, IEO)算法用于MFAC参数寻优。首先,利用自适应生成概率策略来平衡算法的探索与开发能力;其次,引入折射反向学习策略来扩大解的搜索范围,提高算法的收敛速度,同时采用柯西变异策略来提高算法跳出局部最优的能力;最后,提出一种改进的时间乘以绝对误差积分(Improved Integral Time Absolute Error, IITAE)指标函数用于MFAC的参数寻优。仿真和实验结果表明,与基于原始平衡优化器算法的MFAC相比,基于改进平衡优化器算法的MFAC的稳态误差和调整时间明显减小,系统的控制性能得到显著提高。 展开更多
关键词 超声电机 无模型自适应控制 平衡优化器算法 折射反向学习 柯西变异
下载PDF
潜在空间中的策略搜索强化学习方法
20
作者 赵婷婷 王莹 +3 位作者 孙威 陈亚瑞 王嫄 杨巨成 《计算机科学与探索》 CSCD 北大核心 2024年第4期1032-1046,共15页
策略搜索是深度强化学习领域中一种能够解决大规模连续状态空间和动作空间问题的高效学习方法,被广泛应用在现实问题中。然而,此类方法通常需要花费大量的学习样本和训练时间,且泛化能力较差,学到的策略模型难以泛化至环境中看似微小的... 策略搜索是深度强化学习领域中一种能够解决大规模连续状态空间和动作空间问题的高效学习方法,被广泛应用在现实问题中。然而,此类方法通常需要花费大量的学习样本和训练时间,且泛化能力较差,学到的策略模型难以泛化至环境中看似微小的变化。为了解决上述问题,提出了一种基于潜在空间的策略搜索强化学习方法。将学习状态表示的思想拓展到动作表示上,即在动作表示的潜在空间中学习策略,再将动作表示映射到真实动作空间中。通过表示学习模型的引入,摒弃端到端的训练方式,将整个强化学习任务划分成大规模的表示模型部分和小规模的策略模型部分,使用无监督的学习方法来学习表示模型,使用策略搜索强化学习方法学习小规模的策略模型。大规模的表示模型能保留应有的泛化性和表达能力,小规模的策略模型有助于减轻策略学习的负担,从而在一定程度上缓解深度强化学习领域中样本利用率低、学习效率低和动作选择泛化性弱的问题。最后,在智能控制任务CarRacing和Cheetah中验证了引入潜在空间中的状态表示和动作表示的有效性。 展开更多
关键词 无模型强化学习 策略模型 状态表示 动作表示 连续动作空间 策略搜索强化学习方法
下载PDF
上一页 1 2 35 下一页 到第
使用帮助 返回顶部