期刊文献+
共找到982篇文章
< 1 2 50 >
每页显示 20 50 100
基于RL-LSTM的空中目标意图识别方法
1
作者 张鹏程 张勇 +2 位作者 李建国 张鹏飞 魏鑫 《火力与指挥控制》 CSCD 北大核心 2024年第2期75-81,共7页
空中目标意图识别是战场态势认知的重要部分。为了进一步提高空中目标意图识别准确率及实时性,提出了基于改进长短时记忆(long short-term memory,LSTM)网络模型RL-LSTM的空中目标意图识别方法。首先获取目标实时的状态数据,以最后时刻... 空中目标意图识别是战场态势认知的重要部分。为了进一步提高空中目标意图识别准确率及实时性,提出了基于改进长短时记忆(long short-term memory,LSTM)网络模型RL-LSTM的空中目标意图识别方法。首先获取目标实时的状态数据,以最后时刻目标状态作为模型输入,利用RL-LSTM模型来学习7种常见意图的运动及时间相关特征信息,最后,通过Softmax分类器实现目标意图识别。仿真实验表明,该模型提升了现有神经网络模型的识别准确率及识别效率。 展开更多
关键词 空中目标 意图识别 rl-LSTM模型 神经网络
下载PDF
重组新城疫病毒rL-RVG通过p53-YAP1-ACSL4通路诱导肺腺癌细胞铁死亡
2
作者 何瑛珏 李洋 +2 位作者 田仪督 贡克文 严玉兰 《医学研究与战创伤救治》 CAS 北大核心 2024年第1期14-22,共9页
目的旨在探究重组新城疫病毒rL-RVG是否通过p53-YAP1-ACSL4通路影响肺腺癌细胞铁死亡。方法体外培养人肺腺癌细胞系A549、PC9,将处于对数增殖期的细胞分为对照组(NC组)、新城疫病毒感染组(NDV组)、重组新城疫病毒感染组(rL-RVG组)、铁... 目的旨在探究重组新城疫病毒rL-RVG是否通过p53-YAP1-ACSL4通路影响肺腺癌细胞铁死亡。方法体外培养人肺腺癌细胞系A549、PC9,将处于对数增殖期的细胞分为对照组(NC组)、新城疫病毒感染组(NDV组)、重组新城疫病毒感染组(rL-RVG组)、铁死亡诱导剂组(Erastin组)及铁死亡抑制剂组(NAC组)。在病毒感染和铁死亡诱导剂、抑制剂干预后,通过CCK-8、划痕实验和Transwell来检测细胞的功能学变化,包括细胞活力、迁移能力和侵袭能力;光学显微镜观察细胞形态改变。使用流式细胞术和荧光显微镜来测定细胞中ROS的含量,用酶标仪对MDA含量进行测定,通过Western blot和实时荧光定量PCR来检测铁死亡相关蛋白p53、YAP1及ACSL4的表达。结果与NC组相比,rL-RVG组细胞生长、迁移及侵袭能力明显下降(P<0.01);ROS及MDA水平升高且与铁死亡诱导剂组相比含量显著提高(P<0.01),铁死亡抑制剂干预后含量均减少(P<0.01);铁死亡关键蛋白p53、YAP1、ACSL4表达量明显升高(P<0.01);Si-RNA敲减YAP1和ACSL4后相应蛋白的表达量减少(P<0.01),并且ROS和MDA含量均减少(P<0.01)。结论rL-RVG可以有效地阻止肺腺癌细胞的增殖、迁移和扩散,并且能够通过p53-YAP1-ACSL4轴增加脂质过氧化物和细胞活性氧的含量,最终诱导肿瘤细胞铁死亡。 展开更多
关键词 重组新城疫病毒 肺腺癌 铁死亡 YAP1 ACSL4
下载PDF
基于VDFE-RLS的单波长200 Gbit/s光接入系统(特邀)
3
作者 何婷 李响 +1 位作者 李婕 罗鸣 《光通信研究》 北大核心 2024年第1期48-54,共7页
【目的】高速无源光接入网络中存在光纤色散、非线性损伤和带宽限制等问题,导致传统强度调制和直接检测技术的功率预算损失较高,难以满足高速无源光接入网络的要求。【方法】为了更好地提升强度调制和直接检测光接入系统的速率和性能,... 【目的】高速无源光接入网络中存在光纤色散、非线性损伤和带宽限制等问题,导致传统强度调制和直接检测技术的功率预算损失较高,难以满足高速无源光接入网络的要求。【方法】为了更好地提升强度调制和直接检测光接入系统的速率和性能,文章在Volterra判决反馈均衡器(VDFE)的基础上,研究了基于递推最小二乘估计(RLS)算法的VDFE-RLS信道均衡方法。该均衡器采用RLS算法对其中的抽头系数进行更新。该均衡器包含了一、二、三阶Volterra级数,其中一阶Volterra级数对线性损伤进行补偿,二阶和三阶Volterra级数能够对非线性损伤进行补偿。文章将该均衡器应用于经过20 km传输后的单波长为200 Gbit/s的O波段强度调制和直接检测技术的下行光接入系统中。【结果】实验结果表明,RLS算法相比传统的最小均方(LMS)算法在均衡器中表现出来的性能更好。此外,VDFE-RLS可以实现>29 dB的功率预算。VDFE-RLS相比于传统的基于Volterra的前馈均衡器(VFFE),当VDFE-RLS和VFFE-RLS均衡器长度相同时,可以实现2.2 dB功率预算的提升。当VDFE-RLS的均衡器长度为VFFE-RLS的一半时,前者相比后者仍可以提升0.5 dB的功率预算。【结论】文章所述系统相比其他传统系统在能够缩短均衡器长度的同时,能提高系统的功率预算,还能最终恢复出准确度较高的信号。 展开更多
关键词 Volterra判决反馈均衡器 递推最小二乘估计 VOLTERRA级数 自适应滤波算法
下载PDF
逆向云灰色关联相似日的EEMD-RL-GWO-LSTM区域风光功率短期预测
4
作者 张宇华 时鑫洋 +2 位作者 颜楠楠 王育飞 薛花 《太阳能学报》 EI CAS CSCD 北大核心 2024年第10期144-152,共9页
针对现有方法在风光预测时气象因素考虑不全面且未考虑风光功率关联性的问题,提出一种风光功率短期预测方法。首先,以云模型表征风光出力不确定性,逆向云结合灰色关联度分析不同气象特征对输出功率的影响程度,并设立选取标准及综合评分... 针对现有方法在风光预测时气象因素考虑不全面且未考虑风光功率关联性的问题,提出一种风光功率短期预测方法。首先,以云模型表征风光出力不确定性,逆向云结合灰色关联度分析不同气象特征对输出功率的影响程度,并设立选取标准及综合评分指标;其次,采用集合经验模态分解(EEMD)将选取相似日的功率数据分解为子序列;最后,将子序列和气象数据作为基于折射学习策略(RL)的灰狼算法(GWO)优化的改进长短期记忆网络(LSTM)模型的预测输入进行训练,对待预测日的子序列分别预测,并叠加得到短期区域风光发电功率的预测。以中国西北某风光联合电场数据为例,对该模型进行验证,结果表明,相比于现有预测模型,该文所提方法考虑了天气因素,具有较高的预测精度,能够较好地为区域风光联合电场的功率预测提供参考。 展开更多
关键词 逆向云灰色关联相似日 集合经验模态分解 rl-GWO-LSTM神经网络 短期风光功率预测
下载PDF
基于RLS和EKF算法的锂离子动力电池荷电状态估计
5
作者 潘正军 《汽车实用技术》 2024年第8期1-5,共5页
电池荷电状态(SOC)是电动汽车电池管理系统的关键参数之一,影响着整车性能与安全。文章以一阶Thevenin等效电路作为电池模型,采用递推最小二乘法(RLS)对电池进行参数辨识,再运用扩展卡尔曼滤波(EKF)算法估算电池的SOC。将估算结果与试... 电池荷电状态(SOC)是电动汽车电池管理系统的关键参数之一,影响着整车性能与安全。文章以一阶Thevenin等效电路作为电池模型,采用递推最小二乘法(RLS)对电池进行参数辨识,再运用扩展卡尔曼滤波(EKF)算法估算电池的SOC。将估算结果与试验测量结果进行对比,结果显示,RLS-EKF的联合算法可有效估计电池的SOC值,估算误差值基本保持在2%以内。 展开更多
关键词 电池SOC rlS EKF 联合算法
下载PDF
重组新城疫病毒rL-RVG抑制人肺腺癌细胞系增殖 被引量:1
6
作者 张珍珍 李洋 +2 位作者 高生宝 夏德鑫 严玉兰 《基础医学与临床》 2023年第10期1549-1556,共8页
目的探讨表达狂犬病毒糖蛋白的重组新城疫病毒rL-RVG抑制人肺腺癌细胞系A549和PC9增殖。方法体外培养人肺腺癌细胞系A549、PC9,将处于对数增殖期的细胞分为对照组、新城疫病毒感染组(NDV)、重组新城疫病毒感染组(rL-RVG)、铁死亡诱导剂... 目的探讨表达狂犬病毒糖蛋白的重组新城疫病毒rL-RVG抑制人肺腺癌细胞系A549和PC9增殖。方法体外培养人肺腺癌细胞系A549、PC9,将处于对数增殖期的细胞分为对照组、新城疫病毒感染组(NDV)、重组新城疫病毒感染组(rL-RVG)、铁死亡诱导剂组(Erastin)和重组新城疫病毒联合铁死亡诱导剂组(rL-RVG+Erastin)。病毒及药物感染细胞24 h后,光学显微镜下观察细胞形态,CCK-8法检测细胞增殖能力,划痕试验检测细胞迁移能力,细胞毒性检测试剂盒测定乳酸脱氢酶(LDH)释放量,流式细胞术检测细胞内活性氧(ROS)含量,Western blot检测铁死亡相关蛋白p53、SLC7A11、GPX4的表达。结果与对照组相比,NDV组、rL-RVG组、Erastin组细胞数、细胞增殖能力及迁移的距离明显降低(P均<0.001),LDH释放量和总ROS水平显著提高(P<0.01),p53蛋白表达明显增加(P<0.001),而SLC7A11、GPX4蛋白表达明显降低(P<0.001)。rL-RVG组与NDV组相比上述结果更明显(P<0.05),rL-RVG+Erastin组与rL-RVG组和Erastin组相比细胞数、细胞增殖能力及迁移的距离明显减少(P<0.05),LDH释放量和总ROS水平显著提高(P<0.05),P53蛋白表达明显增加(P<0.001),而SLC7A11、GPX4蛋白表达明显降低(P<0.001)。结论rL-RVG可以发挥类似Erastin抑制肿瘤细胞增殖的作用,且其效果远远强于NDV。这为rL-RVG诱导的细胞死亡提供了新的见解,并强调了病毒在治疗肿瘤中的关键作用。 展开更多
关键词 重组新城疫病毒 新城疫病毒 Erastin 细胞增殖 肺腺癌
下载PDF
基于SMO和RLS的航空电推进永磁电机驱动系统 被引量:3
7
作者 王宏喆 甘醇 +2 位作者 倪锴 何琪 曲荣海 《航空科学技术》 2023年第1期97-104,共8页
针对大功率航空电推进驱动系统高可靠性和轻量化特性的需求,本文提出了一种基于滑模观测器(SMO)和递推最小二乘法(RLS)的多模式无位置传感器控制策略。首先通过SMO对扩展反电动势进行观测,并对转速估算值进行多模式处理,实现了快速、准... 针对大功率航空电推进驱动系统高可靠性和轻量化特性的需求,本文提出了一种基于滑模观测器(SMO)和递推最小二乘法(RLS)的多模式无位置传感器控制策略。首先通过SMO对扩展反电动势进行观测,并对转速估算值进行多模式处理,实现了快速、准确地提取出电机的转子位置角及转速等信息;再由RLS对永磁体磁链等参数进行辨识,依据辨识结果对控制器中的相关控制参数进行整定,并对观测器参数进行更新,提高了系统的鲁棒性。本文对300kW的永磁同步电机电推进驱动系统进行了实例仿真,验证了所提方案的有效性。本文所提出的方案可以实现可靠的无位置传感器驱动控制,具有快速的动态性能和较高的鲁棒性,为相关航空电推进驱动系统控制方案的设计和研究提供了参考。 展开更多
关键词 航空电推进驱动系统 永磁同步电机 无位置传感器控制 滑模观测器 递推最小二乘法
下载PDF
基于RLS的锂电池全工况自适应等效电路模型
8
作者 郭向伟 王晨 +1 位作者 陈岗 许孝卓 《储能科学与技术》 CAS CSCD 北大核心 2023年第10期3230-3241,共12页
为提高电池模型参数辨识的准确性和模型的适应性,文章对双极化(DP)电路模型展开研究。首先,根据模型参数不同的时变特性,通过将欧姆电阻的辨识过程分离,减少需要辨识的参数数量,进而降低待辨识参数之间的相互影响,提高递推最小二乘法(R... 为提高电池模型参数辨识的准确性和模型的适应性,文章对双极化(DP)电路模型展开研究。首先,根据模型参数不同的时变特性,通过将欧姆电阻的辨识过程分离,减少需要辨识的参数数量,进而降低待辨识参数之间的相互影响,提高递推最小二乘法(RLS)辨识精度的同时减少计算量;其次,根据模型参数在线和离线辨识对不同工况的适应性,提出一种全工况自适应等效电路模型(ECM),进一步提高模型精度;最后,以模型精度和运行速度作为指标,建立模型评价方法,验证了自适应输出ECM的优越性。仿真实验表明,相比于欧姆电阻已知的R-DP在线模型、DP在线模型和DP离线模型,基于RLS的全工况自适应ECM具有更高的精度,能够在精度和速度之间实现更好的平衡。 展开更多
关键词 电池模型 参数辨识 递推最小二乘法 模型精度 全工况
下载PDF
一种基于无偏协方差估计RLS的自适应阵列天线抗干扰算法
9
作者 王雷钢 李金梁 +1 位作者 周继航 乔会东 《现代导航》 2023年第2期117-122,共6页
递推最小二乘法(RLS)是自适应阵列天线抗干扰的主要算法之一。为提高RLS算法对遗忘因子选择健壮性,避免因遗忘因子选择不当所造成的算法不收敛问题,针对自适应阵列天线的多路接收信号,基于其无偏协方差矩阵模型,推导设计出了一种新的RL... 递推最小二乘法(RLS)是自适应阵列天线抗干扰的主要算法之一。为提高RLS算法对遗忘因子选择健壮性,避免因遗忘因子选择不当所造成的算法不收敛问题,针对自适应阵列天线的多路接收信号,基于其无偏协方差矩阵模型,推导设计出了一种新的RLS算法,相比于常规RLS,在该算法中遗忘因子可以更加精确地控制RLS迭代过程项,降低因遗忘因子设置不当而造成的算法不收敛风险。通过仿真验证了算法的有效性。 展开更多
关键词 递推最小二乘 自适应阵列天线 无偏协方差估计 遗忘因子
下载PDF
基于改进近端策略优化的空战自主决策研究
10
作者 钱殿伟 齐红敏 +2 位作者 刘振 周志明 易建强 《系统仿真学报》 CAS CSCD 北大核心 2024年第9期2208-2218,共11页
针对传统强化学习在空战自主决策应用中信息冗余度高、收敛速度慢等问题,提出一种基于双重观测与复合奖励的近端策略优化空战自主决策算法。设计了以交互信息为主、个体特征信息为辅的双重观测信息,降低战场信息高度冗余对训练效率的影... 针对传统强化学习在空战自主决策应用中信息冗余度高、收敛速度慢等问题,提出一种基于双重观测与复合奖励的近端策略优化空战自主决策算法。设计了以交互信息为主、个体特征信息为辅的双重观测信息,降低战场信息高度冗余对训练效率的影响;设计了结果奖励和过程奖励相结合的复合奖励函数,提高了训练过程收敛速度;采用广义优势函数估计,改进了近端策略优化算法,提高优势函数估计的准确性。仿真结果表明:在对战固定程控对手和矩阵博弈对手实验场景中,该算法决策模型均可根据战场态势准确进行自主决策,完成空战任务。 展开更多
关键词 强化学习 空战自主决策 双重观测 复合奖励 广义优势函数估计
下载PDF
基于PPO的自适应PID控制算法研究
11
作者 周志勇 莫非 +2 位作者 赵凯 郝云波 钱宇峰 《系统仿真学报》 CAS CSCD 北大核心 2024年第6期1425-1432,共8页
采用MATLAB物理引擎联合Python搭建了一个六轴机械臂,并模拟带有扰动的复杂控制环境,为机械臂训练提供现实中无法提供的试错环境。使用强化学习中近端优化算法(proximal policy optimization,PPO)算法对传统PID控制算法进行改进,引入多... 采用MATLAB物理引擎联合Python搭建了一个六轴机械臂,并模拟带有扰动的复杂控制环境,为机械臂训练提供现实中无法提供的试错环境。使用强化学习中近端优化算法(proximal policy optimization,PPO)算法对传统PID控制算法进行改进,引入多智能体思想,根据PID三个参数对控制系统的不同影响及六轴机械臂的特性,将三个参数分别作为不同的智能个体进行训练,实现多智能体自适应调整参数的新型多智能体自适应PID算法。仿真结果表明:该算法的训练收敛性优于MA-DDPG与MA-SAC算法,与传统PID算法的控制效果相比,在遇到扰动及振荡的情况下,能够更有效地抑制振荡,并具有更低的超调量和调整时间,控制过程更为平缓,有效提高了机械臂的控制精度,证明了该算法的鲁棒性及有效性。 展开更多
关键词 强化学习 近端优化算法 自适应PID整定 机械臂 多智能体
下载PDF
基于TMR器件的弱磁传感系统设计
12
作者 陈棣湘 李自斌 +2 位作者 杜青法 胡佳飞 周卫红 《中国测试》 CAS 北大核心 2024年第6期93-97,共5页
小型化高性能磁传感系统在磁异探测、航空航天、生物磁测量等领域具有重要的应用前景。传统磁传感系统因体积大、功耗高等原因难以搭载于无人机平台,而隧道磁电阻(TMR)器件是构建小型磁传感系统的理想选择。该文在分析TMR器件磁滞特性... 小型化高性能磁传感系统在磁异探测、航空航天、生物磁测量等领域具有重要的应用前景。传统磁传感系统因体积大、功耗高等原因难以搭载于无人机平台,而隧道磁电阻(TMR)器件是构建小型磁传感系统的理想选择。该文在分析TMR器件磁滞特性及其灵敏度与工作点关系的基础上,提出一种通过稳定TMR器件工作点来实现磁滞补偿的方法,通过建立磁场反馈补偿回路并采用自适应磁场补偿算法,大幅提升磁传感系统的性能。测试结果表明所设计的磁传感系统的测量范围为-10000~10000 nT,线性度为0.016%,噪声水平为0.39 nT/√Hz@1 Hz,带宽为60 Hz,可以满足水下磁异目标探测等应用需求。 展开更多
关键词 隧道磁电阻(TMR) 磁传感系统 磁滞补偿 递推最小二乘(rlS)
下载PDF
强化学习在协作频谱感知中的应用
13
作者 刘春玲 许军 郭楷文 《无线电工程》 2024年第6期1346-1354,共9页
针对随着节点数量的增多,多节点协作频谱感知(Cooperative Spectrum Sensing,CSS)会产生大量本地数据,导致能耗变高和全局决策延迟的问题,提出节点评估与选择(Node Evaluation Selection,NES)和网格搜索(Grid Search,GS)的强化学习(Rein... 针对随着节点数量的增多,多节点协作频谱感知(Cooperative Spectrum Sensing,CSS)会产生大量本地数据,导致能耗变高和全局决策延迟的问题,提出节点评估与选择(Node Evaluation Selection,NES)和网格搜索(Grid Search,GS)的强化学习(Reinforcement Learning,RL)算法。通过NES算法在融合中心(Fusion Center,FC)实时更新协作用户的信任值,对信任值大小进行排序,根据设定的阈值,阻止恶意用户(Malicious Users,MU)参与CSS。通过基于GS的RL机制对处理后的数据进行标记,把信噪比(Signal to Noise Ratio,SNR)和信任值作为输入参数,搜索出所有可能的参数组合。在相同环境参数时,FC可以直接调用该环境下的节点,不需要再重新进行感知操作,如果有新用户加入时通过改变参数的范围重新搜索,新用户可以模仿其他用户RL的经验,从而获得更加快速的信道占用情况。仿真结果表明,该方法与其他算法相比,在提高检测概率的同时,降低了能耗,减少重复计算的时间,解决了全局决策延迟的问题。 展开更多
关键词 协作频谱感知 认知无线网络 融合中心 网格搜索 强化学习
下载PDF
永磁同步电机多参数辨识研究
14
作者 林立 杨阳 +1 位作者 李亚楠 王翔 《邵阳学院学报(自然科学版)》 2024年第2期18-27,共10页
针对表贴式永磁同步电机(surface permanent magnet synchronous motor, SPMSM)在运行过程中参数时变问题,采用带遗忘因子的递推最小二乘法(forgetting factor recursive least squares, FFRLS)在线辨识永磁磁链ψ_f、定子电阻R_s和电感... 针对表贴式永磁同步电机(surface permanent magnet synchronous motor, SPMSM)在运行过程中参数时变问题,采用带遗忘因子的递推最小二乘法(forgetting factor recursive least squares, FFRLS)在线辨识永磁磁链ψ_f、定子电阻R_s和电感L_s。对SPMSM数学模型进行分析,结合空间矢量脉宽调制技术,实现矢量控制;分析不同参数发生变化对电机控制性能的影响,并建立矢量控制策略下FFRLS参数辨识和递推最小二乘法(recursive least squares, RLS)辨识的系统仿真模型,进行对比仿真分析。仿真结果表明,该算法能较好地进行辨识,辨识快速收敛,辨识精度高。 展开更多
关键词 永磁同步电机 参数辨识 递推最小二乘法 遗忘因子
下载PDF
基于路径模仿和SAC强化学习的机械臂路径规划算法 被引量:1
15
作者 宋紫阳 李军怀 +2 位作者 王怀军 苏鑫 于蕾 《计算机应用》 CSCD 北大核心 2024年第2期439-444,共6页
在机械臂路径规划算法的训练过程中,由于动作空间和状态空间巨大导致奖励稀疏,机械臂路径规划训练效率低,面对海量的状态数和动作数较难评估状态价值和动作价值。针对上述问题,提出一种基于SAC(Soft Actor-Critic)强化学习的机械臂路径... 在机械臂路径规划算法的训练过程中,由于动作空间和状态空间巨大导致奖励稀疏,机械臂路径规划训练效率低,面对海量的状态数和动作数较难评估状态价值和动作价值。针对上述问题,提出一种基于SAC(Soft Actor-Critic)强化学习的机械臂路径规划算法。通过将示教路径融入奖励函数使机械臂在强化学习过程中对示教路径进行模仿以提高学习效率,并采用SAC算法使机械臂路径规划算法的训练更快、稳定性更好。基于所提算法和深度确定性策略梯度(DDPG)算法分别规划10条路径,所提算法和DDPG算法规划的路径与参考路径的平均距离分别是0.8 cm和1.9 cm。实验结果表明,路径模仿机制能提高训练效率,所提算法比DDPG算法能更好地探索环境,使得规划路径更加合理。 展开更多
关键词 模仿学习 强化学习 SAC算法 路径规划 奖励函数
下载PDF
面向机器人系统的虚实迁移强化学习综述 被引量:1
16
作者 林谦 余超 +4 位作者 伍夏威 董银昭 徐昕 张强 郭宪 《软件学报》 EI CSCD 北大核心 2024年第2期711-738,共28页
近年来,基于环境交互的强化学习方法在机器人相关应用领域取得巨大成功,为机器人行为控制策略优化提供一个现实可行的解决方案.但在真实世界中收集交互样本存在高成本以及低效率等问题,因此仿真环境被广泛应用于机器人强化学习训练过程... 近年来,基于环境交互的强化学习方法在机器人相关应用领域取得巨大成功,为机器人行为控制策略优化提供一个现实可行的解决方案.但在真实世界中收集交互样本存在高成本以及低效率等问题,因此仿真环境被广泛应用于机器人强化学习训练过程中.通过在虚拟仿真环境中以较低成本获取大量训练样本进行策略训练,并将学习策略迁移至真实环境,能有效缓解真实机器人训练中存在的安全性、可靠性以及实时性等问题.然而,由于仿真环境与真实环境存在差异,仿真环境中训练得到的策略直接迁移到真实机器人往往难以获得理想的性能表现.针对这一问题,虚实迁移强化学习方法被提出用以缩小环境差异,进而实现有效的策略迁移.按照迁移强化学习过程中信息的流动方向和智能化方法作用的不同对象,提出一个虚实迁移强化学习系统的流程框架,并基于此框架将现有相关工作分为3大类:基于真实环境的模型优化方法、基于仿真环境的知识迁移方法、基于虚实环境的策略迭代提升方法,并对每一分类中的代表技术与关联工作进行阐述.最后,讨论虚实迁移强化学习研究领域面临的机遇和挑战. 展开更多
关键词 强化学习 迁移学习 虚实迁移 现实差距 机器人控制
下载PDF
电力系统优化控制中强化学习方法应用及挑战 被引量:3
17
作者 毕聪博 唐聿劼 +1 位作者 罗永红 陆超 《中国电机工程学报》 EI CSCD 北大核心 2024年第1期1-21,I0001,共22页
强化学习(reinforcementlearning,RL)方法目前已应用于电力系统的多个领域,在电力系统优化与控制领域的一些应用展现出良好的结果。但在强化学习方法落地于实际电力系统应用的过程中依然存在一些关键性问题。该文首先概述强化学习基础... 强化学习(reinforcementlearning,RL)方法目前已应用于电力系统的多个领域,在电力系统优化与控制领域的一些应用展现出良好的结果。但在强化学习方法落地于实际电力系统应用的过程中依然存在一些关键性问题。该文首先概述强化学习基础理论与研究现状,随后提出强化学习理论落地于电力系统各领域优化与控制过程中存在的关键问题。最后探讨强化学习应用于电力系统优化与控制的研究展望。 展开更多
关键词 强化学习(rl) 电力系统 优化与控制
下载PDF
基于持续强化学习的自动驾驶赛车决策算法研究 被引量:1
18
作者 牛京玉 胡瑜 +1 位作者 李玮 韩银和 《高技术通讯》 CAS 北大核心 2024年第1期1-14,共14页
赛道形状与路面材质变化对自动驾驶赛车的行为决策带来了严峻挑战。为应对道路间的动力学差异,本文提出一种基于持续强化学习(CRL)的高速赛车决策算法。该算法将不同道路看作独立任务。算法的第1训练阶段负责提取描述不同任务上赛车动... 赛道形状与路面材质变化对自动驾驶赛车的行为决策带来了严峻挑战。为应对道路间的动力学差异,本文提出一种基于持续强化学习(CRL)的高速赛车决策算法。该算法将不同道路看作独立任务。算法的第1训练阶段负责提取描述不同任务上赛车动力学的低维特征,从而计算出任务间的相似性关系。算法的第2训练阶段负责为策略学习过程提供2个持续强化学习约束:其一是权重正则化约束,策略网络中对于旧任务重要的权重将在新任务学习期间被限制更新,其限制力度由任务相似性自适应调节;其二是奖励函数约束,鼓励在新任务学习期间策略的旧任务性能不下降。设计不同任务排序下的赛车实验和持续强化学习评价指标以评估算法性能。实验结果表明,所提算法能在既不存储旧任务数据也不扩展策略网络的条件下获得比基准方法更出色的驾驶性能。 展开更多
关键词 强化学习(rl) 持续学习 行为决策 自动驾驶赛车 动力学特征提取
下载PDF
采用RLS算法的功率倒置阵列的性能 被引量:22
19
作者 桑怀胜 李峥嵘 +2 位作者 王飞雪 雍少为 郁文贤 《国防科技大学学报》 EI CAS CSCD 北大核心 2003年第3期36-40,共5页
为解决功率倒置阵列采用LMS算法时收敛速度和稳态失调误差不能兼顾的缺点,提出了采用RLS算法实现功率倒置阵列的方法。仿真结果表明,功率倒置阵列采用RLS算法和LMS算法都能达到较好的抗干扰效果。和LMS算法相比,RLS算法同时具有收敛速... 为解决功率倒置阵列采用LMS算法时收敛速度和稳态失调误差不能兼顾的缺点,提出了采用RLS算法实现功率倒置阵列的方法。仿真结果表明,功率倒置阵列采用RLS算法和LMS算法都能达到较好的抗干扰效果。和LMS算法相比,RLS算法同时具有收敛速度快和稳态失调误差小的优点,代价是计算量增大。 展开更多
关键词 功率倒置阵列 LMS算法 rlS算法
下载PDF
时滞影响下压电悬臂梁强化学习振动控制
20
作者 张猛 王晓宇 文浩 《振动与冲击》 EI CSCD 北大核心 2024年第16期77-83,共7页
时滞普遍存在于各种控制系统中,如果忽略控制系统中时滞的影响可能会降低控制器的控制效果,甚至导致发散。因此研究了时滞对强化学习(reinforcement learning,RL)振动控制器性能的影响。首先,利用有限元方法建立了压电悬臂梁的动力学模... 时滞普遍存在于各种控制系统中,如果忽略控制系统中时滞的影响可能会降低控制器的控制效果,甚至导致发散。因此研究了时滞对强化学习(reinforcement learning,RL)振动控制器性能的影响。首先,利用有限元方法建立了压电悬臂梁的动力学模型,通过试验辨识修正了动力学模型参数;进而,仿真分析了不同时滞大小对比例微分控制和基于近端优化策略的RL控制效果的影响;然后,在不同时滞条件下训练了多个RL时滞控制器,并对RL控制效果进行了仿真及试验验证;最后,评估了RL时滞控制器对时滞偏差的鲁棒性。结果显示,RL时滞控制器不仅在所对应的时滞条件下具有良好的控制效果,还对实际时滞偏差有一定容忍范围,具有良好鲁棒性。 展开更多
关键词 强化学习(rl) 近端优化策略 时滞 振动控制
下载PDF
上一页 1 2 50 下一页 到第
使用帮助 返回顶部