期刊文献+
共找到1,610,859篇文章
< 1 2 250 >
每页显示 20 50 100
Actor-critic框架下的二次指派问题求解方法
1
作者 李雪源 韩丛英 《中国科学院大学学报(中英文)》 CAS CSCD 北大核心 2024年第2期275-284,共10页
二次指派问题(QAP)属于NP-hard组合优化问题,在现实生活中有着广泛应用。目前相对成熟的启发式算法通常以问题为导向来设计定制化算法,缺乏迁移泛化能力。为提供一个统一的QAP求解策略,将QAP问题的流量矩阵及距离矩阵抽象成两个无向完... 二次指派问题(QAP)属于NP-hard组合优化问题,在现实生活中有着广泛应用。目前相对成熟的启发式算法通常以问题为导向来设计定制化算法,缺乏迁移泛化能力。为提供一个统一的QAP求解策略,将QAP问题的流量矩阵及距离矩阵抽象成两个无向完全图并构造相应的关联图,从而将设施和地点的指派任务转化为关联图上的节点选择任务,基于actor-critic框架,提出一种全新的求解算法ACQAP。首先,利用多头注意力机制构造策略网络,处理来自图卷积神经网络的节点表征向量;然后,通过actor-critic算法预测每个节点被作为最优节点输出的概率;最后,依据该概率在可行时间内输出满足目标奖励函数的动作决策序列。该算法摆脱人工设计,且适用于不同规模的输入,更加灵活可靠。实验结果表明,在QAPLIB实例上,本算法在精度媲美传统启发式算法的前提下,迁移泛化能力更强;同时相对于NGM等基于学习的算法,求解的指派费用与最优解之间的偏差最小,且在大部分实例中,偏差均小于20%。 展开更多
关键词 二次指派问题 图卷积神经网络 深度强化学习 多头注意力机制 actor-critic算法
下载PDF
Actor-Critic框架下的数据驱动异步电机离线参数辨识方法 被引量:8
2
作者 漆星 张倩 《电工技术学报》 EI CSCD 北大核心 2019年第9期1875-1885,共11页
电动汽车用电机的参数辨识可以使电机在任意转速下尽可能输出更高的转矩及效率,是优化电机输出性能的重要手段。传统的基于模型驱动的参数辨识方法的缺点为易受模型误差的影响、抗干扰能力差以及无法实现全转速范围内的转矩最优。鉴于... 电动汽车用电机的参数辨识可以使电机在任意转速下尽可能输出更高的转矩及效率,是优化电机输出性能的重要手段。传统的基于模型驱动的参数辨识方法的缺点为易受模型误差的影响、抗干扰能力差以及无法实现全转速范围内的转矩最优。鉴于上述缺点,该文研究了一种完全基于实际数据的电动汽车用异步电机离线参数辨识方法,对电机的转子电阻和励磁电感在任意转速下进行了优化,从而使电机能够在特定转速和特定电流下输出最优转矩。为达到电机在特定转速和电流下输出转矩最优的目的,研究了一种基于Actor-Critic框架的电动汽车用异步电机离线参数辨识方法,确定了框架中的观测、奖励和动作的设计。实验证明相对于传统参数辨识方法,该文方法具有更高的精确性和鲁棒性,同时确保了电动汽车用异步电机在任意转速下的输出转矩最优。 展开更多
关键词 异步电机参数辨识数据驱动actor-critic 框架
下载PDF
基于核方法的连续动作Actor-Critic学习 被引量:8
3
作者 陈兴国 高阳 +1 位作者 范顺国 俞亚君 《模式识别与人工智能》 EI CSCD 北大核心 2014年第2期103-110,共8页
强化学习算法通常要处理连续状态及连续动作空间问题以实现精确控制.就此文中结合Actor-Critic方法在处理连续动作空间的优点及核方法在处理连续状态空间的优势,提出一种基于核方法的连续动作Actor-Critic学习算法(KCACL).该算法中,Acto... 强化学习算法通常要处理连续状态及连续动作空间问题以实现精确控制.就此文中结合Actor-Critic方法在处理连续动作空间的优点及核方法在处理连续状态空间的优势,提出一种基于核方法的连续动作Actor-Critic学习算法(KCACL).该算法中,Actor根据奖赏不作为原则更新动作概率,Critic采用基于核方法的在线选择时间差分算法学习状态值函数.对比实验验证该算法的有效性. 展开更多
关键词 强化学习 连续动作空间 函数估计 方法
下载PDF
Actor-Critic框架下的多智能体决策方法及其在兵棋上的应用 被引量:25
4
作者 李琛 黄炎焱 +1 位作者 张永亮 陈天德 《系统工程与电子技术》 EI CSCD 北大核心 2021年第3期755-762,共8页
将人工智能应用于兵棋推演的智能战术兵棋正逐年发展,基于Actor-Critic框架的决策方法可以实现智能战术兵棋的战术行动动态决策。但若Critic网络只对单算子进行评价,多算子之间的网络没有协同,本方算子之间各自行动决策会不够智能。针... 将人工智能应用于兵棋推演的智能战术兵棋正逐年发展,基于Actor-Critic框架的决策方法可以实现智能战术兵棋的战术行动动态决策。但若Critic网络只对单算子进行评价,多算子之间的网络没有协同,本方算子之间各自行动决策会不够智能。针对上述方法的不足,提出了一种基于强化学习并结合规则的多智能体决策方法,以提升兵棋推演的智能水平。侧重采用强化学习对多算子的行动决策进行决策分析,并结合产生式规则对战术决策进行规划。构建基于Actor-Critic框架的多算子分布执行集中训练的行动决策模型,对比每个算子互不交流的封闭式行动决策学习方法,提出的分布执行集中训练方法更具优势且有效。 展开更多
关键词 智能战术 兵棋推演 多智能体强化学习 actor-critic框架 分布执行集中训练
下载PDF
基于Actor-Critic算法的多无人机协同空战目标重分配方法 被引量:2
5
作者 陈宇轩 王国强 +1 位作者 罗贺 马滢滢 《无线电工程》 北大核心 2022年第7期1266-1275,共10页
目标重分配问题是多无人机协同空战中亟需解决的关键问题之一。考虑到空战中的不确定性、实时性等特点,建立了多无人机协同空战目标重分配问题的数学模型,结合强化学习核心概念,提出了基于Actor-Critic算法的多无人机协同空战目标重分... 目标重分配问题是多无人机协同空战中亟需解决的关键问题之一。考虑到空战中的不确定性、实时性等特点,建立了多无人机协同空战目标重分配问题的数学模型,结合强化学习核心概念,提出了基于Actor-Critic算法的多无人机协同空战目标重分配框架,构建了基于目标重分配的马尔科夫决策过程、Actor网络结构和Critic网络结构。针对强化学习算法中存在的奖励稀疏问题,设计了局部回报和全局汇报相结合的双层回报函数。在基于VR-Forces仿真平台中验证了该方法的有效性。实验结果表明,提出的多无人机协同空战目标重分配方法能够有效地提升空战对抗的胜率。 展开更多
关键词 无人机 空战 目标重分配 强化学习 actor-critic算法
下载PDF
Path Planning and Tracking Control for Parking via Soft Actor-Critic Under Non-Ideal Scenarios 被引量:1
6
作者 Xiaolin Tang Yuyou Yang +3 位作者 Teng Liu Xianke Lin Kai Yang Shen Li 《IEEE/CAA Journal of Automatica Sinica》 SCIE EI CSCD 2024年第1期181-195,共15页
Parking in a small parking lot within limited space poses a difficult task. It often leads to deviations between the final parking posture and the target posture. These deviations can lead to partial occupancy of adja... Parking in a small parking lot within limited space poses a difficult task. It often leads to deviations between the final parking posture and the target posture. These deviations can lead to partial occupancy of adjacent parking lots, which poses a safety threat to vehicles parked in these parking lots. However, previous studies have not addressed this issue. In this paper, we aim to evaluate the impact of parking deviation of existing vehicles next to the target parking lot(PDEVNTPL) on the automatic ego vehicle(AEV) parking, in terms of safety, comfort, accuracy, and efficiency of parking. A segmented parking training framework(SPTF) based on soft actor-critic(SAC) is proposed to improve parking performance. In the proposed method, the SAC algorithm incorporates strategy entropy into the objective function, to enable the AEV to learn parking strategies based on a more comprehensive understanding of the environment. Additionally, the SPTF simplifies complex parking tasks to maintain the high performance of deep reinforcement learning(DRL). The experimental results reveal that the PDEVNTPL has a detrimental influence on the AEV parking in terms of safety, accuracy, and comfort, leading to reductions of more than 27%, 54%, and 26%respectively. However, the SAC-based SPTF effectively mitigates this impact, resulting in a considerable increase in the parking success rate from 71% to 93%. Furthermore, the heading angle deviation is significantly reduced from 2.25 degrees to 0.43degrees. 展开更多
关键词 Automatic parking control strategy parking deviation(APS) soft actor-critic(SAC)
下载PDF
融合Dead-ends和离线监督Actor-Critic的动态治疗策略生成模型
7
作者 杨莎莎 于亚新 +3 位作者 王跃茹 许晶铭 魏阳杰 李新华 《计算机科学》 CSCD 北大核心 2024年第7期80-88,共9页
强化学习对数学模型依赖性低,利用经验便于架构和优化模型,非常适合用于动态治疗策略学习。但现有研究仍存在以下问题:1)学习策略最优性的同时未考虑风险,导致学到的策略存在一定的风险;2)忽略了分布偏移问题,导致学到的策略与医生策略... 强化学习对数学模型依赖性低,利用经验便于架构和优化模型,非常适合用于动态治疗策略学习。但现有研究仍存在以下问题:1)学习策略最优性的同时未考虑风险,导致学到的策略存在一定的风险;2)忽略了分布偏移问题,导致学到的策略与医生策略完全不同;3)忽略患者的历史观测数据和治疗史,从而不能很好地得到患者状态,进而导致不能学到最优策略。基于此,提出了融合Dead-ends和离线监督Actor-Critic的动态治疗策略生成模型DOSAC-DTR。首先,考虑学到的策略所推荐的治疗行动的风险性,在Actor-Critic框架中融入Dead-ends概念;其次,为缓解分布偏移问题,在Actor-Critic框架中融入医生监督,在最大化预期回报的同时,最小化所学策略与医生策略之间的差距;最后,为了得到包含患者关键历史信息的状态表示,使用基于LSTM的编码器解码器模型对患者的历史观测数据和治疗史进行建模。实验结果表明,DOSAC-DTR相比基线方法有更好的性能,可以得到更低的估计死亡率以及更高的Jaccard系数。 展开更多
关键词 动态治疗策略 Dead-ends actor-critic 状态表征
下载PDF
无人机辅助物联网中基于Safe Actor-Critic的信息年龄最小化研究
8
作者 魏宪鹏 付芳 张志才 《测试技术学报》 2024年第1期71-78,共8页
无人机作为一种新的通信设备,有望在物联网数据采集、监控等业务中发挥关键作用。为保证所采集数据的时效性,利用信息年龄来衡量无人机从物联网设备接收到的数据新鲜度。通过联合优化无人机轨迹和无人机与物联网设备的关联策略以最小化... 无人机作为一种新的通信设备,有望在物联网数据采集、监控等业务中发挥关键作用。为保证所采集数据的时效性,利用信息年龄来衡量无人机从物联网设备接收到的数据新鲜度。通过联合优化无人机轨迹和无人机与物联网设备的关联策略以最小化信息年龄加权和,并保证无人机累积飞行能量消耗满足预算要求。由于上述问题同时受短期和长期约束条件的限制,将问题建模为受约束的马尔可夫决策过程(CMDP),并利用Safe Actor-Critic来求解。仿真结果表明,所提算法在最小化信息年龄的同时,能有效保证能量预算。 展开更多
关键词 无人机 信息年龄 物联网 Safe actor-critic
下载PDF
基于不确定性估计的离线确定型Actor-Critic
9
作者 冯涣婷 程玉虎 王雪松 《计算机学报》 EI CAS CSCD 北大核心 2024年第4期717-732,共16页
Actor-Critic是一种强化学习方法,通过与环境在线试错交互收集样本来学习策略,是求解序贯感知决策问题的有效手段.但是,这种在线交互的主动学习范式在一些复杂真实环境中收集样本时会带来成本和安全问题离线强化学习作为一种基于数据驱... Actor-Critic是一种强化学习方法,通过与环境在线试错交互收集样本来学习策略,是求解序贯感知决策问题的有效手段.但是,这种在线交互的主动学习范式在一些复杂真实环境中收集样本时会带来成本和安全问题离线强化学习作为一种基于数据驱动的强化学习范式,强调从静态样本数据集中学习策略,与环境无探索交互,为机器人、自动驾驶、健康护理等真实世界部署应用提供了可行的解决方案,是近年来的研究热点.目前,离线强化学习方法存在学习策略和行为策略之间的分布偏移挑战,针对这个挑战,通常采用策略约束或值函数正则化来限制访问数据集分布之外(Out-Of-Distribution,OOD)的动作,从而导致学习性能过于保守,阻碍了值函数网络的泛化和学习策略的性能提升.为此,本文利用不确定性估计和OOD采样来平衡值函数学习的泛化性和保守性,提出一种基于不确定性估计的离线确定型Actor-Critic方法(Offline Deterministic Actor-Critic based on UncertaintyEstimation,ODACUE).首先,针对确定型策略,给出一种Q值函数的不确定性估计算子定义,理论证明了该算子学到的Q值函数是最优Q值函数的一种悲观估计.然后,将不确定性估计算子应用于确定型Actor-Critic框架中,通过对不确定性估计算子进行凸组合构造Critic学习的目标函数.最后,D4RL基准数据集任务上的实验结果表明:相较于对比算法,ODACUE在11个不同质量等级数据集任务中的总体性能提升最低达9.56%,最高达64.92%.此外,参数分析和消融实验进一步验证了ODACUE的稳定性和泛化能力. 展开更多
关键词 离线强化学习 不确定性估计 分布外采样 凸组合 actor-critic
下载PDF
GRU-integrated constrained soft actor-critic learning enabled fully distributed scheduling strategy for residential virtual power plant
10
作者 Xiaoyun Deng Yongdong Chen +2 位作者 Dongchuan Fan Youbo Liu Chao Ma 《Global Energy Interconnection》 EI CSCD 2024年第2期117-129,共13页
In this study,a novel residential virtual power plant(RVPP)scheduling method that leverages a gate recurrent unit(GRU)-integrated deep reinforcement learning(DRL)algorithm is proposed.In the proposed scheme,the GRU-in... In this study,a novel residential virtual power plant(RVPP)scheduling method that leverages a gate recurrent unit(GRU)-integrated deep reinforcement learning(DRL)algorithm is proposed.In the proposed scheme,the GRU-integrated DRL algorithm guides the RVPP to participate effectively in both the day-ahead and real-time markets,lowering the electricity purchase costs and consumption risks for end-users.The Lagrangian relaxation technique is introduced to transform the constrained Markov decision process(CMDP)into an unconstrained optimization problem,which guarantees that the constraints are strictly satisfied without determining the penalty coefficients.Furthermore,to enhance the scalability of the constrained soft actor-critic(CSAC)-based RVPP scheduling approach,a fully distributed scheduling architecture was designed to enable plug-and-play in the residential distributed energy resources(RDER).Case studies performed on the constructed RVPP scenario validated the performance of the proposed methodology in enhancing the responsiveness of the RDER to power tariffs,balancing the supply and demand of the power grid,and ensuring customer comfort. 展开更多
关键词 Residential virtual power plant Residential distributed energy resource Constrained soft actor-critic Fully distributed scheduling strategy
下载PDF
地震宽角反射/折射方法发展述评
11
作者 王夫运 田晓峰 刘汉奇 《地球与行星物理论评(中英文)》 2025年第2期118-130,共13页
本文从地震宽角反射/折射方法的仪器装备、观测系统、观测实验、震相识别、数据分析等主要技术环节的出现、改进、发展、完善,回顾了该方法的百年发展历史.按照我们的见解,将其发展过程分为萌芽期、诞生期、成长期和发展期.对于早期的追... 本文从地震宽角反射/折射方法的仪器装备、观测系统、观测实验、震相识别、数据分析等主要技术环节的出现、改进、发展、完善,回顾了该方法的百年发展历史.按照我们的见解,将其发展过程分为萌芽期、诞生期、成长期和发展期.对于早期的追溯,重点放在方法的孕育和诞生起到关键作用的人物和事件上,并且尽可能详细;对后期的回顾,聚焦在方法的技术内容的萌发、出现、改进、应用和重点文献等方面,如,何时出现了剖面方法、相遇和追逐观测、地震宽角反射/折射剖面数据的完备性等,成果表述不作为重点,而且叙述简略.述及了天然地震学、地震折射勘探、地震反射勘探、电子技术、通讯技术、测量技术、计算机技术、计算数学等相关学科的进步,对地震宽角反射/折射方法发展的促进作用.展望未来,宽角反射/折射方法在我国深部探测与矿产资源勘查领域大有可为.以此文致敬追寻科学真理的地学前辈. 展开更多
关键词 地震宽角反射/折射方法 轻便地震仪 观测系统 观测实验 资料分析
下载PDF
装配式建筑梁柱节点疲劳损伤检测方法研究
12
作者 张延 《山东理工大学学报(自然科学版)》 CAS 2025年第1期35-40,共6页
常规的装配式建筑梁柱节点疲劳损伤检测主要采用梁柱图像分析实现,忽略了节点内部损伤的影响,导致检测结果相对变化量系数与实际系数的差值较大。本文对装配式建筑梁柱节点疲劳损伤检测方法进行了研究,于装配式建筑梁柱周围布置测点对... 常规的装配式建筑梁柱节点疲劳损伤检测主要采用梁柱图像分析实现,忽略了节点内部损伤的影响,导致检测结果相对变化量系数与实际系数的差值较大。本文对装配式建筑梁柱节点疲劳损伤检测方法进行了研究,于装配式建筑梁柱周围布置测点对梁柱节点的应变状态进行分析;根据分析结果,结合梁柱内部能量耗散值,计算节点疲劳损伤能量系数;将该系数作为节点应变能密度因子分析节点轴向力,由此得出检测的梁柱节点疲劳损伤值。实验结果表明,所提方法应用后梁柱节点疲劳损伤检测结果表现出的相对变化量系数差值较小,检测结果准确率较高,满足了装配式建筑梁柱安全运维工作的现实需求。 展开更多
关键词 梁柱节点 装配式建筑 疲劳损伤检测 梁柱损伤 检测方法
下载PDF
基于Actor-Critic学习的数控机床加工过程控制方法 被引量:1
13
作者 黄苏 《辽东学院学报(自然科学版)》 CAS 2022年第4期273-278,共6页
为了精准控制数控机床的加工过程,提升数控机床工作效率,研究基于Actor-Critic学习的数控机床加工过程控制方法是很好的解决办法。通过结合模糊推理系统与径向基函数神经网络,设计Actor-Critic学习网络结构;通过增加网络节点完成网络结... 为了精准控制数控机床的加工过程,提升数控机床工作效率,研究基于Actor-Critic学习的数控机床加工过程控制方法是很好的解决办法。通过结合模糊推理系统与径向基函数神经网络,设计Actor-Critic学习网络结构;通过增加网络节点完成网络结构学习,利用梯度下降法完成网络可调参数学习,得到模糊Actor-Critic学习网络;通过数控机床加工过程切削力设定值和实际输出切削力测量值之差,获取PID控制器误差信号;利用状态转换器转换误差信号,获取加工过程状态向量,并输入到模糊Actor-Critic学习网络内,输出PID控制器最优参数,完成数控机床加工过程控制。实验证明:在加工不同材料时,该方法均可有效控制加工过程,且最大偏差较小;在不同切削深度时,该方法的跟踪误差平方与绝对误差积分均较低,具备较优的控制精度与平稳度,从而可有效提升数控机床工作效率。 展开更多
关键词 actor-critic学习 数控机床 加工过程控制 模糊推理 梯度下降法 控制器
下载PDF
基于Actor-Critic强化学习的倒立摆智能控制方法 被引量:4
14
作者 邱宇宸 《武汉冶金管理干部学院学报》 2018年第4期88-90,共3页
针对模型未知的运动系统的控制问题,提出一种基于Actor-Critic强化学习的智能控制方法。该方法由两个神经网络构成,Actor为基于概率的动作执行器,而Critic则对Actor的每一个动作进行评价以修正Actor的权值,Critic则通过环境反馈的得分... 针对模型未知的运动系统的控制问题,提出一种基于Actor-Critic强化学习的智能控制方法。该方法由两个神经网络构成,Actor为基于概率的动作执行器,而Critic则对Actor的每一个动作进行评价以修正Actor的权值,Critic则通过环境反馈的得分进行评价标准更新,整体算法通过多次探索学习获得收敛。文中设计的Actor-Critic算法在MATLAB平台上对模型未知的一级倒立摆进行仿真实验,该算法能够在多次尝试之后,实现倒立摆平衡。 展开更多
关键词 actor-critic 强化学习 智能控制 倒立摆控制 神经网络
下载PDF
基于Actor-Critic自适应PID的钢筋套丝头跟踪检测控制系统研究
15
作者 秦天为 冯云剑 《工业控制计算机》 2024年第2期75-77,共3页
为适应流水线节奏,不影响生产进程,从而更好地实现钢筋套丝头质量检测和尺寸测量的自动化与智能化,设计了基于同步带直线导轨的钢筋套丝头检测跟踪系统,并提出了一种基于Actor-Critic的自适应PID控制方法,用强化学习的方法根据环境反馈... 为适应流水线节奏,不影响生产进程,从而更好地实现钢筋套丝头质量检测和尺寸测量的自动化与智能化,设计了基于同步带直线导轨的钢筋套丝头检测跟踪系统,并提出了一种基于Actor-Critic的自适应PID控制方法,用强化学习的方法根据环境反馈自动调节PID控制器的比例、积分、微分参数。对该方法和其他PID控制方法的响应性能指标进行实验和分析,实验结果表明该方法能够实现高精度、快速响应的跟踪拍摄,保证高精度的套丝头质量检测。 展开更多
关键词 钢筋套丝头检测 跟踪拍摄 自适应PID控制 actor-critic
下载PDF
实证研究在临床实践指南制订中的思考及方法学建议
16
作者 高一城 于子津 +6 位作者 曹蕊 刘芷含 方锐 李媛媛 邓迎杰 向文远 费宇彤 《中国全科医学》 CAS 北大核心 2025年第4期402-406,共5页
临床实践指南制订的方法学理论在真实的制订情境下存在诸多问题,缺乏对于实际情况的考量,致使其对于指南制订的指导性下降。本文深入剖析了指南制订中理论与实践相关的多方面难点,包括指南制订时方法学理论与实践存在偏差、缺乏大样本... 临床实践指南制订的方法学理论在真实的制订情境下存在诸多问题,缺乏对于实际情况的考量,致使其对于指南制订的指导性下降。本文深入剖析了指南制订中理论与实践相关的多方面难点,包括指南制订时方法学理论与实践存在偏差、缺乏大样本的指南方法学相关的实证研究、方法学理论在实证运用后对于局限性和未来研究建议的报告内容不足且形式不规范的问题。为提高未来指南制订方法学的指导性,本课题组提出了多项方法学建议,包括倡导开展对方法学理论进行验证的实证研究、促进大样本实证研究和对比研究开展、规范实证研究后对局限性和未来研究建议的报告内容和形式,以期为指南制订方法学研究者及指南制订小组提供参考。 展开更多
关键词 循证医学 实证研究 方法学研究 临床实践指南 指南制订
下载PDF
虚拟震源地震探测方法及其应用
17
作者 张明辉 徐涛 +3 位作者 田小波 唐国彬 刘震 白志明 《地球与行星物理论评(中英文)》 2025年第2期215-224,共10页
SsPmp震相是远震直达S波在地表激发的下行P波在Moho面反射的震相,具有信号能量大、信噪比高、不易受近地表沉积层和地壳小尺度结构扰动的影响等优势.虚拟地震测深方法(VDSS)是近年来发展的利用SsPmp震相与直达Ss波震相的到时差来研究地... SsPmp震相是远震直达S波在地表激发的下行P波在Moho面反射的震相,具有信号能量大、信噪比高、不易受近地表沉积层和地壳小尺度结构扰动的影响等优势.虚拟地震测深方法(VDSS)是近年来发展的利用SsPmp震相与直达Ss波震相的到时差来研究地壳厚度(或Moho面深度)的探测方法.本文介绍了VDSS方法的原理、优势及其在实际应用中的表现.研究表明,VDSS方法在提高探测精度、降低成本、环境影响等方面具有显著优势,且成功应用于克拉通、造山带和沉积盆地、峨眉山大火成岩省等不同地质环境中,在探测地壳结构中展现出巨大潜力和应用价值.但是VDSS方法的准确度高度依赖于地震数据的质量,尤其是远震S波的清晰度和震中距的范围,使得该方法在复杂地质结构区域的应用受到较大限制.未来,VDSS与传统接收函数方法、地震层析成像、重力测量等多类地球物理方法的结合,有望为地壳结构探测提供更全面的约束. 展开更多
关键词 虚拟地震测深方法 SsPmp震相 地壳结构探测
下载PDF
基于改进Actor-Critic算法的多传感器交叉提示技术
18
作者 韦道知 张曌宇 +1 位作者 谢家豪 李宁 《系统工程与电子技术》 EI CSCD 北大核心 2023年第6期1624-1632,共9页
针对在减少战场资源浪费、平衡战场效费比的同时提高目标探测概率,保证目标的可持续跟踪,提出利用改进Actor-Critic算法的多传感器交叉提示技术进行目标探测。首先,综合传感器探测、能耗、时效等因素搭建基于“交叉提示”传感器的动态... 针对在减少战场资源浪费、平衡战场效费比的同时提高目标探测概率,保证目标的可持续跟踪,提出利用改进Actor-Critic算法的多传感器交叉提示技术进行目标探测。首先,综合传感器探测、能耗、时效等因素搭建基于“交叉提示”传感器的动态管理评估模型;其次,重点分析利用Actor-Critic交叉提示算法的传感器管理决策规则,并且提出了Actor-Critic算法,以根据任务自身需求组建中央评价网络,加大传感器与外部环境的交互。仿真结果表明,改进的算法可以加速网络收益,实现对目标的持续性探测,加强传感器之间的交叉提示功能,提升调度的智能化水平,具有较大的应用价值。 展开更多
关键词 多传感器交叉提示 actor-critic算法 强化学习 目标探测 传感器资源调度
下载PDF
基于Tile Coding编码和模型学习的Actor-Critic算法 被引量:3
19
作者 金玉净 朱文文 +1 位作者 伏玉琛 刘全 《计算机科学》 CSCD 北大核心 2014年第6期239-242,249,共5页
Actor-Critic是一类具有较好性能及收敛保证的强化学习方法,然而,Agent在学习和改进策略的过程中并没有对环境的动态性进行学习,导致Actor-Critic方法的性能受到一定限制。此外,Actor-Critic方法中需要近似地表示策略以及值函数,其中状... Actor-Critic是一类具有较好性能及收敛保证的强化学习方法,然而,Agent在学习和改进策略的过程中并没有对环境的动态性进行学习,导致Actor-Critic方法的性能受到一定限制。此外,Actor-Critic方法中需要近似地表示策略以及值函数,其中状态和动作的编码方法以及参数对Actor-Critic方法有重要的影响。Tile Coding编码具有简单易用、计算时间复杂度较低等优点,因此,将Tile Coding编码与基于模型的Actor-Critic方法结合,并将所得算法应用于强化学习仿真实验。实验结果表明,所得算法具有较好的性能。 展开更多
关键词 强化学习 TILE CODING actor-critic 模型学习 函数逼近
下载PDF
基于批量递归最小二乘的自然Actor-Critic算法 被引量:3
20
作者 王国芳 方舟 李平 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2015年第7期1335-1342,共8页
为了减轻Actor-Critic结构中智能体用最小二乘法估计自然梯度时的在线运算负担,提高运算实时性,提出新的学习算法:NAC-BRLS.该算法在Critic中利用批量递归最小二乘法估计自然梯度,根据估计得到的梯度乐观地更新策略.批量递归最小二乘法... 为了减轻Actor-Critic结构中智能体用最小二乘法估计自然梯度时的在线运算负担,提高运算实时性,提出新的学习算法:NAC-BRLS.该算法在Critic中利用批量递归最小二乘法估计自然梯度,根据估计得到的梯度乐观地更新策略.批量递归最小二乘法的引入使得智能体能根据自身运算能力自由调整各批次运算的数据量,即每次策略估计时使用的数据量,在全乐观和部分乐观之间进行权衡,大大提高了NAC-LSTD算法的灵活性.山地车仿真实验表明,与NAC-LSTD算法相比,NAC-BRLS算法在保证一定收敛性能的前提下,能够明显降低智能体的单步平均运算负担. 展开更多
关键词 自然梯度 actor-critic 批次更新 递归最小二乘
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部