期刊文献+
共找到66,625篇文章
< 1 2 250 >
每页显示 20 50 100
Path Planning and Tracking Control for Parking via Soft Actor-Critic Under Non-Ideal Scenarios 被引量:1
1
作者 Xiaolin Tang Yuyou Yang +3 位作者 Teng Liu Xianke Lin Kai Yang Shen Li 《IEEE/CAA Journal of Automatica Sinica》 SCIE EI CSCD 2024年第1期181-195,共15页
Parking in a small parking lot within limited space poses a difficult task. It often leads to deviations between the final parking posture and the target posture. These deviations can lead to partial occupancy of adja... Parking in a small parking lot within limited space poses a difficult task. It often leads to deviations between the final parking posture and the target posture. These deviations can lead to partial occupancy of adjacent parking lots, which poses a safety threat to vehicles parked in these parking lots. However, previous studies have not addressed this issue. In this paper, we aim to evaluate the impact of parking deviation of existing vehicles next to the target parking lot(PDEVNTPL) on the automatic ego vehicle(AEV) parking, in terms of safety, comfort, accuracy, and efficiency of parking. A segmented parking training framework(SPTF) based on soft actor-critic(SAC) is proposed to improve parking performance. In the proposed method, the SAC algorithm incorporates strategy entropy into the objective function, to enable the AEV to learn parking strategies based on a more comprehensive understanding of the environment. Additionally, the SPTF simplifies complex parking tasks to maintain the high performance of deep reinforcement learning(DRL). The experimental results reveal that the PDEVNTPL has a detrimental influence on the AEV parking in terms of safety, accuracy, and comfort, leading to reductions of more than 27%, 54%, and 26%respectively. However, the SAC-based SPTF effectively mitigates this impact, resulting in a considerable increase in the parking success rate from 71% to 93%. Furthermore, the heading angle deviation is significantly reduced from 2.25 degrees to 0.43degrees. 展开更多
关键词 Automatic parking control strategy parking deviation(APS) soft actor-critic(SAC)
下载PDF
GRU-integrated constrained soft actor-critic learning enabled fully distributed scheduling strategy for residential virtual power plant
2
作者 Xiaoyun Deng Yongdong Chen +2 位作者 Dongchuan Fan Youbo Liu Chao Ma 《Global Energy Interconnection》 EI CSCD 2024年第2期117-129,共13页
In this study,a novel residential virtual power plant(RVPP)scheduling method that leverages a gate recurrent unit(GRU)-integrated deep reinforcement learning(DRL)algorithm is proposed.In the proposed scheme,the GRU-in... In this study,a novel residential virtual power plant(RVPP)scheduling method that leverages a gate recurrent unit(GRU)-integrated deep reinforcement learning(DRL)algorithm is proposed.In the proposed scheme,the GRU-integrated DRL algorithm guides the RVPP to participate effectively in both the day-ahead and real-time markets,lowering the electricity purchase costs and consumption risks for end-users.The Lagrangian relaxation technique is introduced to transform the constrained Markov decision process(CMDP)into an unconstrained optimization problem,which guarantees that the constraints are strictly satisfied without determining the penalty coefficients.Furthermore,to enhance the scalability of the constrained soft actor-critic(CSAC)-based RVPP scheduling approach,a fully distributed scheduling architecture was designed to enable plug-and-play in the residential distributed energy resources(RDER).Case studies performed on the constructed RVPP scenario validated the performance of the proposed methodology in enhancing the responsiveness of the RDER to power tariffs,balancing the supply and demand of the power grid,and ensuring customer comfort. 展开更多
关键词 Residential virtual power plant Residential distributed energy resource Constrained soft actor-critic Fully distributed scheduling strategy
下载PDF
融合Dead-ends和离线监督Actor-Critic的动态治疗策略生成模型
3
作者 杨莎莎 于亚新 +3 位作者 王跃茹 许晶铭 魏阳杰 李新华 《计算机科学》 CSCD 北大核心 2024年第7期80-88,共9页
强化学习对数学模型依赖性低,利用经验便于架构和优化模型,非常适合用于动态治疗策略学习。但现有研究仍存在以下问题:1)学习策略最优性的同时未考虑风险,导致学到的策略存在一定的风险;2)忽略了分布偏移问题,导致学到的策略与医生策略... 强化学习对数学模型依赖性低,利用经验便于架构和优化模型,非常适合用于动态治疗策略学习。但现有研究仍存在以下问题:1)学习策略最优性的同时未考虑风险,导致学到的策略存在一定的风险;2)忽略了分布偏移问题,导致学到的策略与医生策略完全不同;3)忽略患者的历史观测数据和治疗史,从而不能很好地得到患者状态,进而导致不能学到最优策略。基于此,提出了融合Dead-ends和离线监督Actor-Critic的动态治疗策略生成模型DOSAC-DTR。首先,考虑学到的策略所推荐的治疗行动的风险性,在Actor-Critic框架中融入Dead-ends概念;其次,为缓解分布偏移问题,在Actor-Critic框架中融入医生监督,在最大化预期回报的同时,最小化所学策略与医生策略之间的差距;最后,为了得到包含患者关键历史信息的状态表示,使用基于LSTM的编码器解码器模型对患者的历史观测数据和治疗史进行建模。实验结果表明,DOSAC-DTR相比基线方法有更好的性能,可以得到更低的估计死亡率以及更高的Jaccard系数。 展开更多
关键词 动态治疗策略 Dead-ends actor-critic 状态表征
下载PDF
无人机辅助物联网中基于Safe Actor-Critic的信息年龄最小化研究
4
作者 魏宪鹏 付芳 张志才 《测试技术学报》 2024年第1期71-78,共8页
无人机作为一种新的通信设备,有望在物联网数据采集、监控等业务中发挥关键作用。为保证所采集数据的时效性,利用信息年龄来衡量无人机从物联网设备接收到的数据新鲜度。通过联合优化无人机轨迹和无人机与物联网设备的关联策略以最小化... 无人机作为一种新的通信设备,有望在物联网数据采集、监控等业务中发挥关键作用。为保证所采集数据的时效性,利用信息年龄来衡量无人机从物联网设备接收到的数据新鲜度。通过联合优化无人机轨迹和无人机与物联网设备的关联策略以最小化信息年龄加权和,并保证无人机累积飞行能量消耗满足预算要求。由于上述问题同时受短期和长期约束条件的限制,将问题建模为受约束的马尔可夫决策过程(CMDP),并利用Safe Actor-Critic来求解。仿真结果表明,所提算法在最小化信息年龄的同时,能有效保证能量预算。 展开更多
关键词 无人机 信息年龄 物联网 Safe actor-critic
下载PDF
基于不确定性估计的离线确定型Actor-Critic
5
作者 冯涣婷 程玉虎 王雪松 《计算机学报》 EI CAS CSCD 北大核心 2024年第4期717-732,共16页
Actor-Critic是一种强化学习方法,通过与环境在线试错交互收集样本来学习策略,是求解序贯感知决策问题的有效手段.但是,这种在线交互的主动学习范式在一些复杂真实环境中收集样本时会带来成本和安全问题离线强化学习作为一种基于数据驱... Actor-Critic是一种强化学习方法,通过与环境在线试错交互收集样本来学习策略,是求解序贯感知决策问题的有效手段.但是,这种在线交互的主动学习范式在一些复杂真实环境中收集样本时会带来成本和安全问题离线强化学习作为一种基于数据驱动的强化学习范式,强调从静态样本数据集中学习策略,与环境无探索交互,为机器人、自动驾驶、健康护理等真实世界部署应用提供了可行的解决方案,是近年来的研究热点.目前,离线强化学习方法存在学习策略和行为策略之间的分布偏移挑战,针对这个挑战,通常采用策略约束或值函数正则化来限制访问数据集分布之外(Out-Of-Distribution,OOD)的动作,从而导致学习性能过于保守,阻碍了值函数网络的泛化和学习策略的性能提升.为此,本文利用不确定性估计和OOD采样来平衡值函数学习的泛化性和保守性,提出一种基于不确定性估计的离线确定型Actor-Critic方法(Offline Deterministic Actor-Critic based on UncertaintyEstimation,ODACUE).首先,针对确定型策略,给出一种Q值函数的不确定性估计算子定义,理论证明了该算子学到的Q值函数是最优Q值函数的一种悲观估计.然后,将不确定性估计算子应用于确定型Actor-Critic框架中,通过对不确定性估计算子进行凸组合构造Critic学习的目标函数.最后,D4RL基准数据集任务上的实验结果表明:相较于对比算法,ODACUE在11个不同质量等级数据集任务中的总体性能提升最低达9.56%,最高达64.92%.此外,参数分析和消融实验进一步验证了ODACUE的稳定性和泛化能力. 展开更多
关键词 离线强化学习 不确定性估计 分布外采样 凸组合 actor-critic
下载PDF
Actor-critic框架下的二次指派问题求解方法
6
作者 李雪源 韩丛英 《中国科学院大学学报(中英文)》 CAS CSCD 北大核心 2024年第2期275-284,共10页
二次指派问题(QAP)属于NP-hard组合优化问题,在现实生活中有着广泛应用。目前相对成熟的启发式算法通常以问题为导向来设计定制化算法,缺乏迁移泛化能力。为提供一个统一的QAP求解策略,将QAP问题的流量矩阵及距离矩阵抽象成两个无向完... 二次指派问题(QAP)属于NP-hard组合优化问题,在现实生活中有着广泛应用。目前相对成熟的启发式算法通常以问题为导向来设计定制化算法,缺乏迁移泛化能力。为提供一个统一的QAP求解策略,将QAP问题的流量矩阵及距离矩阵抽象成两个无向完全图并构造相应的关联图,从而将设施和地点的指派任务转化为关联图上的节点选择任务,基于actor-critic框架,提出一种全新的求解算法ACQAP。首先,利用多头注意力机制构造策略网络,处理来自图卷积神经网络的节点表征向量;然后,通过actor-critic算法预测每个节点被作为最优节点输出的概率;最后,依据该概率在可行时间内输出满足目标奖励函数的动作决策序列。该算法摆脱人工设计,且适用于不同规模的输入,更加灵活可靠。实验结果表明,在QAPLIB实例上,本算法在精度媲美传统启发式算法的前提下,迁移泛化能力更强;同时相对于NGM等基于学习的算法,求解的指派费用与最优解之间的偏差最小,且在大部分实例中,偏差均小于20%。 展开更多
关键词 二次指派问题 图卷积神经网络 深度强化学习 多头注意力机制 actor-critic算法
下载PDF
基于Actor-Critic自适应PID的钢筋套丝头跟踪检测控制系统研究
7
作者 秦天为 冯云剑 《工业控制计算机》 2024年第2期75-77,共3页
为适应流水线节奏,不影响生产进程,从而更好地实现钢筋套丝头质量检测和尺寸测量的自动化与智能化,设计了基于同步带直线导轨的钢筋套丝头检测跟踪系统,并提出了一种基于Actor-Critic的自适应PID控制方法,用强化学习的方法根据环境反馈... 为适应流水线节奏,不影响生产进程,从而更好地实现钢筋套丝头质量检测和尺寸测量的自动化与智能化,设计了基于同步带直线导轨的钢筋套丝头检测跟踪系统,并提出了一种基于Actor-Critic的自适应PID控制方法,用强化学习的方法根据环境反馈自动调节PID控制器的比例、积分、微分参数。对该方法和其他PID控制方法的响应性能指标进行实验和分析,实验结果表明该方法能够实现高精度、快速响应的跟踪拍摄,保证高精度的套丝头质量检测。 展开更多
关键词 钢筋套丝头检测 跟踪拍摄 自适应PID控制 actor-critic
下载PDF
Actor-Critic框架下的数据驱动异步电机离线参数辨识方法 被引量:8
8
作者 漆星 张倩 《电工技术学报》 EI CSCD 北大核心 2019年第9期1875-1885,共11页
电动汽车用电机的参数辨识可以使电机在任意转速下尽可能输出更高的转矩及效率,是优化电机输出性能的重要手段。传统的基于模型驱动的参数辨识方法的缺点为易受模型误差的影响、抗干扰能力差以及无法实现全转速范围内的转矩最优。鉴于... 电动汽车用电机的参数辨识可以使电机在任意转速下尽可能输出更高的转矩及效率,是优化电机输出性能的重要手段。传统的基于模型驱动的参数辨识方法的缺点为易受模型误差的影响、抗干扰能力差以及无法实现全转速范围内的转矩最优。鉴于上述缺点,该文研究了一种完全基于实际数据的电动汽车用异步电机离线参数辨识方法,对电机的转子电阻和励磁电感在任意转速下进行了优化,从而使电机能够在特定转速和特定电流下输出最优转矩。为达到电机在特定转速和电流下输出转矩最优的目的,研究了一种基于Actor-Critic框架的电动汽车用异步电机离线参数辨识方法,确定了框架中的观测、奖励和动作的设计。实验证明相对于传统参数辨识方法,该文方法具有更高的精确性和鲁棒性,同时确保了电动汽车用异步电机在任意转速下的输出转矩最优。 展开更多
关键词 异步电机参数辨识数据驱动actor-critic 框架
下载PDF
基于改进Actor-Critic算法的多传感器交叉提示技术
9
作者 韦道知 张曌宇 +1 位作者 谢家豪 李宁 《系统工程与电子技术》 EI CSCD 北大核心 2023年第6期1624-1632,共9页
针对在减少战场资源浪费、平衡战场效费比的同时提高目标探测概率,保证目标的可持续跟踪,提出利用改进Actor-Critic算法的多传感器交叉提示技术进行目标探测。首先,综合传感器探测、能耗、时效等因素搭建基于“交叉提示”传感器的动态... 针对在减少战场资源浪费、平衡战场效费比的同时提高目标探测概率,保证目标的可持续跟踪,提出利用改进Actor-Critic算法的多传感器交叉提示技术进行目标探测。首先,综合传感器探测、能耗、时效等因素搭建基于“交叉提示”传感器的动态管理评估模型;其次,重点分析利用Actor-Critic交叉提示算法的传感器管理决策规则,并且提出了Actor-Critic算法,以根据任务自身需求组建中央评价网络,加大传感器与外部环境的交互。仿真结果表明,改进的算法可以加速网络收益,实现对目标的持续性探测,加强传感器之间的交叉提示功能,提升调度的智能化水平,具有较大的应用价值。 展开更多
关键词 多传感器交叉提示 actor-critic算法 强化学习 目标探测 传感器资源调度
下载PDF
基于Tile Coding编码和模型学习的Actor-Critic算法 被引量:3
10
作者 金玉净 朱文文 +1 位作者 伏玉琛 刘全 《计算机科学》 CSCD 北大核心 2014年第6期239-242,249,共5页
Actor-Critic是一类具有较好性能及收敛保证的强化学习方法,然而,Agent在学习和改进策略的过程中并没有对环境的动态性进行学习,导致Actor-Critic方法的性能受到一定限制。此外,Actor-Critic方法中需要近似地表示策略以及值函数,其中状... Actor-Critic是一类具有较好性能及收敛保证的强化学习方法,然而,Agent在学习和改进策略的过程中并没有对环境的动态性进行学习,导致Actor-Critic方法的性能受到一定限制。此外,Actor-Critic方法中需要近似地表示策略以及值函数,其中状态和动作的编码方法以及参数对Actor-Critic方法有重要的影响。Tile Coding编码具有简单易用、计算时间复杂度较低等优点,因此,将Tile Coding编码与基于模型的Actor-Critic方法结合,并将所得算法应用于强化学习仿真实验。实验结果表明,所得算法具有较好的性能。 展开更多
关键词 强化学习 TILE CODING actor-critic 模型学习 函数逼近
下载PDF
基于批量递归最小二乘的自然Actor-Critic算法 被引量:3
11
作者 王国芳 方舟 李平 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2015年第7期1335-1342,共8页
为了减轻Actor-Critic结构中智能体用最小二乘法估计自然梯度时的在线运算负担,提高运算实时性,提出新的学习算法:NAC-BRLS.该算法在Critic中利用批量递归最小二乘法估计自然梯度,根据估计得到的梯度乐观地更新策略.批量递归最小二乘法... 为了减轻Actor-Critic结构中智能体用最小二乘法估计自然梯度时的在线运算负担,提高运算实时性,提出新的学习算法:NAC-BRLS.该算法在Critic中利用批量递归最小二乘法估计自然梯度,根据估计得到的梯度乐观地更新策略.批量递归最小二乘法的引入使得智能体能根据自身运算能力自由调整各批次运算的数据量,即每次策略估计时使用的数据量,在全乐观和部分乐观之间进行权衡,大大提高了NAC-LSTD算法的灵活性.山地车仿真实验表明,与NAC-LSTD算法相比,NAC-BRLS算法在保证一定收敛性能的前提下,能够明显降低智能体的单步平均运算负担. 展开更多
关键词 自然梯度 actor-critic 批次更新 递归最小二乘
下载PDF
Actor-Critic框架下的多智能体决策方法及其在兵棋上的应用 被引量:25
12
作者 李琛 黄炎焱 +1 位作者 张永亮 陈天德 《系统工程与电子技术》 EI CSCD 北大核心 2021年第3期755-762,共8页
将人工智能应用于兵棋推演的智能战术兵棋正逐年发展,基于Actor-Critic框架的决策方法可以实现智能战术兵棋的战术行动动态决策。但若Critic网络只对单算子进行评价,多算子之间的网络没有协同,本方算子之间各自行动决策会不够智能。针... 将人工智能应用于兵棋推演的智能战术兵棋正逐年发展,基于Actor-Critic框架的决策方法可以实现智能战术兵棋的战术行动动态决策。但若Critic网络只对单算子进行评价,多算子之间的网络没有协同,本方算子之间各自行动决策会不够智能。针对上述方法的不足,提出了一种基于强化学习并结合规则的多智能体决策方法,以提升兵棋推演的智能水平。侧重采用强化学习对多算子的行动决策进行决策分析,并结合产生式规则对战术决策进行规划。构建基于Actor-Critic框架的多算子分布执行集中训练的行动决策模型,对比每个算子互不交流的封闭式行动决策学习方法,提出的分布执行集中训练方法更具优势且有效。 展开更多
关键词 智能战术 兵棋推演 多智能体强化学习 actor-critic框架 分布执行集中训练
下载PDF
基于Actor-Critic算法的多无人机协同空战目标重分配方法 被引量:2
13
作者 陈宇轩 王国强 +1 位作者 罗贺 马滢滢 《无线电工程》 北大核心 2022年第7期1266-1275,共10页
目标重分配问题是多无人机协同空战中亟需解决的关键问题之一。考虑到空战中的不确定性、实时性等特点,建立了多无人机协同空战目标重分配问题的数学模型,结合强化学习核心概念,提出了基于Actor-Critic算法的多无人机协同空战目标重分... 目标重分配问题是多无人机协同空战中亟需解决的关键问题之一。考虑到空战中的不确定性、实时性等特点,建立了多无人机协同空战目标重分配问题的数学模型,结合强化学习核心概念,提出了基于Actor-Critic算法的多无人机协同空战目标重分配框架,构建了基于目标重分配的马尔科夫决策过程、Actor网络结构和Critic网络结构。针对强化学习算法中存在的奖励稀疏问题,设计了局部回报和全局汇报相结合的双层回报函数。在基于VR-Forces仿真平台中验证了该方法的有效性。实验结果表明,提出的多无人机协同空战目标重分配方法能够有效地提升空战对抗的胜率。 展开更多
关键词 无人机 空战 目标重分配 强化学习 actor-critic算法
下载PDF
滑模控制器参数整定的Actor-Critic学习算法 被引量:4
14
作者 宋仕元 胡剑波 +1 位作者 王应洋 韩霖晓 《电光与控制》 CSCD 北大核心 2020年第9期24-27,49,共5页
针对滑模变结构控制律设计过程中出现的控制参数整定问题,提出一种基于强化学习的滑模变结构控制参数寻优方法。首先,根据系统设计了相应的滑模控制律,并给出了参数选择的范围,设计了基于Actor-Critic结构的参数在线整定器。然后,选择TD... 针对滑模变结构控制律设计过程中出现的控制参数整定问题,提出一种基于强化学习的滑模变结构控制参数寻优方法。首先,根据系统设计了相应的滑模控制律,并给出了参数选择的范围,设计了基于Actor-Critic结构的参数在线整定器。然后,选择TD-Error方法进行求解计算,并用梯度下降法计算出神经网络权值的更新取值。最后,以固定翼飞行器纵向通道系统为例进行了仿真和实验验证,实验结果说明所提出控制方法减小了控制参数整定的盲目性,有效提升了系统的动态性能。 展开更多
关键词 滑模变结构控制 actor-critic 强化学习 参数整定
下载PDF
基于actor-critic算法的分数阶多自主体系统最优主-从一致性控制 被引量:4
15
作者 马丽新 刘晨 刘磊 《应用数学和力学》 CSCD 北大核心 2022年第1期104-114,共11页
研究了分数阶多自主体系统的最优主-从一致性问题.在考虑控制器周期间歇的前提下,将分数阶微分的一阶近似逼近式、事件触发机制和强化学习中的actor-critic算法有机整合,设计了基于周期间歇事件触发策略的强化学习算法结构.最后,通过数... 研究了分数阶多自主体系统的最优主-从一致性问题.在考虑控制器周期间歇的前提下,将分数阶微分的一阶近似逼近式、事件触发机制和强化学习中的actor-critic算法有机整合,设计了基于周期间歇事件触发策略的强化学习算法结构.最后,通过数值仿真实验证明了该算法的可行性和有效性. 展开更多
关键词 分数阶多自主体系统 actor-critic算法 最优主-从一致性 事件触发 间歇
下载PDF
广义行为正则化离线Actor-Critic 被引量:2
16
作者 程玉虎 黄龙阳 +3 位作者 侯棣元 张佳志 陈俊龙 王雪松 《计算机学报》 EI CAS CSCD 北大核心 2023年第4期843-855,共13页
行为正则化Actor-Critic(BRAC)是一种离线强化学习算法,通过将当前策略与行为策略之间的Kullback-Leibler(KL)散度作为策略目标函数的正则化项来缓解分布偏移问题.但是,由于KL散度是一种无界的分布差异度量,在策略差异过大时,策略目标... 行为正则化Actor-Critic(BRAC)是一种离线强化学习算法,通过将当前策略与行为策略之间的Kullback-Leibler(KL)散度作为策略目标函数的正则化项来缓解分布偏移问题.但是,由于KL散度是一种无界的分布差异度量,在策略差异过大时,策略目标函数中的累积期望回报项将仅对策略改进发挥有限的作用,从而导致最终学到的策略性能较差.针对该问题,将当前策略与行为策略之间的斜对称Jensen-Shannon(JS)散度作为策略目标函数的正则化项,提出了一种广义行为正则化离线Actor-Critic(GOACBR)算法.理论分析表明:由于斜对称JS散度有界,将其作为正则化项有助于降低策略性能差异.进一步,针对行为策略未知导致难以直接计算当前策略和行为策略间斜对称JS散度的问题,设计了一个辅助网络来对其进行间接估计.最后,给出了GOACBR的收敛性理论证明.在D4RL基准数据集上的评估结果表明:相较于BRAC,GOACBR在所有测试任务上获得的平均累积回报总和提升了289.8%.相关代码公布在https://github.com/houge1996/GOAC. 展开更多
关键词 离线actor-critic 行为正则化 斜对称JS散度 分布偏移
下载PDF
基于Actor-Critical架构的5G Massive MIMO波束能效的研究与应用
17
作者 乔勇 葛昌帅 +1 位作者 张天兴 鲁晓峰 《通信技术》 2022年第12期1642-1649,共8页
大规模阵列天线技术(Massive Multiple Input Multiple Output,Massive MIMO)作为第五代移动通信(5G)的无线核心技术,实现了多波束空间覆盖增强,然而5G Massive MIMO的多波束射频高能耗、多波束碰撞和增加的干扰造会成5G网络能效下降,... 大规模阵列天线技术(Massive Multiple Input Multiple Output,Massive MIMO)作为第五代移动通信(5G)的无线核心技术,实现了多波束空间覆盖增强,然而5G Massive MIMO的多波束射频高能耗、多波束碰撞和增加的干扰造会成5G网络能效下降,运营成本增高。基于3D数字地图、基站工程参数、终端上报的测量报告/最小化路测(Measurement Report/Minimization of Drive Test,MR/MDT)数据、用户/业务分布构建的三维数字孪生栅格,通过卷积长短期记忆(Convolutional Long Short Term Memory,Conv-LSTM)算法对栅格内的用户分布、业务分布进行分析和预测,通过Actor-Critic架构对5G波束配置和优化策略进行评估,实现不同场景、时段的5G波束最佳能效,智能适应5G网络潮汐效应,实现“网随业动”。 展开更多
关键词 大规模阵列天线技术 数字孪生 actor-critic算法架构 波束能效
下载PDF
基于Actor-Critic学习的数控机床加工过程控制方法 被引量:1
18
作者 黄苏 《辽东学院学报(自然科学版)》 CAS 2022年第4期273-278,共6页
为了精准控制数控机床的加工过程,提升数控机床工作效率,研究基于Actor-Critic学习的数控机床加工过程控制方法是很好的解决办法。通过结合模糊推理系统与径向基函数神经网络,设计Actor-Critic学习网络结构;通过增加网络节点完成网络结... 为了精准控制数控机床的加工过程,提升数控机床工作效率,研究基于Actor-Critic学习的数控机床加工过程控制方法是很好的解决办法。通过结合模糊推理系统与径向基函数神经网络,设计Actor-Critic学习网络结构;通过增加网络节点完成网络结构学习,利用梯度下降法完成网络可调参数学习,得到模糊Actor-Critic学习网络;通过数控机床加工过程切削力设定值和实际输出切削力测量值之差,获取PID控制器误差信号;利用状态转换器转换误差信号,获取加工过程状态向量,并输入到模糊Actor-Critic学习网络内,输出PID控制器最优参数,完成数控机床加工过程控制。实验证明:在加工不同材料时,该方法均可有效控制加工过程,且最大偏差较小;在不同切削深度时,该方法的跟踪误差平方与绝对误差积分均较低,具备较优的控制精度与平稳度,从而可有效提升数控机床工作效率。 展开更多
关键词 actor-critic学习 数控机床 加工过程控制 模糊推理 梯度下降法 控制器
下载PDF
基于Actor-Critic帧间预定位的改进SiamRPN模型
19
作者 韩慧 陆建峰 《计算机与数字工程》 2021年第11期2222-2228,共7页
目标跟踪在智能监控、无人驾驶、航空航天等领域有广泛的应用,其目的是在视频每一帧中找到运动目标并用目标框将其定位出来,但由于运动模糊、外观变化、遮挡、光照变化和背景混杂等原因,跟踪器在跟踪过程中极易丢失跟踪目标。由于SiamRP... 目标跟踪在智能监控、无人驾驶、航空航天等领域有广泛的应用,其目的是在视频每一帧中找到运动目标并用目标框将其定位出来,但由于运动模糊、外观变化、遮挡、光照变化和背景混杂等原因,跟踪器在跟踪过程中极易丢失跟踪目标。由于SiamRPN模型搜索目标区域面积较小,模型有丢失目标的风险,为了提高跟踪准确率和成功率,论文提出了一种扩大搜索区域的改进SiamRPN模型ACSiamRPN,利用目标在图像前后帧间的运动信息进行目标预定位的方法,扩大目标搜索区域,借助强化学习中的Actor-Critic方法,训练预定位网络来回归目标位置,并利用预定位结果来校正SiamRPN模型搜索区域中心,从而提高跟踪准确率和成功率。在OTB2013、OTB2015、DTB70、NFS30以及VOT2016数据集上,论文提出的改进SiamRPN模型ACSiamRPN的跟踪准确率和成功率均超越了SiamRPN,运行速度达到65fps,仍然保持良好的实时性能,与当今较为先进的一些跟踪方法相比具有明显优势。 展开更多
关键词 目标跟踪 强化学习 actor-critic 帧间预定位 SiamRPN
下载PDF
基于Actor-Critic强化学习的倒立摆智能控制方法 被引量:4
20
作者 邱宇宸 《武汉冶金管理干部学院学报》 2018年第4期88-90,共3页
针对模型未知的运动系统的控制问题,提出一种基于Actor-Critic强化学习的智能控制方法。该方法由两个神经网络构成,Actor为基于概率的动作执行器,而Critic则对Actor的每一个动作进行评价以修正Actor的权值,Critic则通过环境反馈的得分... 针对模型未知的运动系统的控制问题,提出一种基于Actor-Critic强化学习的智能控制方法。该方法由两个神经网络构成,Actor为基于概率的动作执行器,而Critic则对Actor的每一个动作进行评价以修正Actor的权值,Critic则通过环境反馈的得分进行评价标准更新,整体算法通过多次探索学习获得收敛。文中设计的Actor-Critic算法在MATLAB平台上对模型未知的一级倒立摆进行仿真实验,该算法能够在多次尝试之后,实现倒立摆平衡。 展开更多
关键词 actor-critic 强化学习 智能控制 倒立摆控制 神经网络
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部