期刊文献+
共找到96,002篇文章
< 1 2 250 >
每页显示 20 50 100
W元素在新型镍基粉末高温合金中的强化作用
1
作者 贾建 罗俊鹏 +3 位作者 张浩鹏 闫婷 侯琼 张义文 《材料导报》 EI CAS CSCD 北大核心 2024年第15期50-55,共6页
通过真空感应熔炼(VIM)棒料+电极感应熔炼氩气雾化(EIGA)制粉+热等静压(HIP)成形+热处理(HT)工艺制备三种W含量(质量分数4.1%、6.1%和8.1%)的新型镍基粉末高温合金实验锭坯。以此锭坯为对象,结合金属材料相图计算及材料性能模拟软件JMat... 通过真空感应熔炼(VIM)棒料+电极感应熔炼氩气雾化(EIGA)制粉+热等静压(HIP)成形+热处理(HT)工艺制备三种W含量(质量分数4.1%、6.1%和8.1%)的新型镍基粉末高温合金实验锭坯。以此锭坯为对象,结合金属材料相图计算及材料性能模拟软件JMatPro 6.5计算,利用SEM、EBSD和XRD分析W含量对热处理态锭坯显微组织(如晶粒尺寸、退火孪晶、γ′强化相及错配度)的影响,测试分析不同温度下合金的拉伸性能,通过经验公式量化分析各强化机制对合金室温屈服强度的贡献情况。结果表明,随着W含量增加,γ基体层错能明显降低,热处理态退火孪晶界Σ3数量增多;W促使晶内一次γ′强化相由立方状加速粗化为固态枝晶状,对γ′总量和二次、三次γ′的影响不大;W进入γ基体产生晶格畸变的程度大于γ′强化相,使得γ′/γ错配度呈下降趋势;W有助于提高室温和650~800℃拉伸强度,但略微降低塑性;W主要起固溶强化、γ/γ′共格应变强化和晶界强化作用,其中固溶强化贡献相对最低,固溶强化时以强化γ基体为主,γ基体固溶强化和γ/γ′共格应变强化效果随W含量增加而减弱,W含量为6.1%时晶界强化效果最大;固溶强化、γ/γ′共格应变强化和晶界强化贡献值总和不足室温屈服强度实测值的50%,合金以γ′相沉淀强化为主,测试值和计算值较为吻合。 展开更多
关键词 粉末高温合金 退火孪晶 错配度 层错能 固溶强化 共格应变强化 晶界强化 沉淀强化
下载PDF
逆强化学习算法、理论与应用研究综述
2
作者 宋莉 李大字 徐昕 《自动化学报》 EI CAS CSCD 北大核心 2024年第9期1704-1723,共20页
随着高维特征表示与逼近能力的提高,强化学习(Reinforcement learning,RL)在博弈与优化决策、智能驾驶等现实问题中的应用也取得显著进展.然而强化学习在智能体与环境的交互中存在人工设计奖励函数难的问题,因此研究者提出了逆强化学习(... 随着高维特征表示与逼近能力的提高,强化学习(Reinforcement learning,RL)在博弈与优化决策、智能驾驶等现实问题中的应用也取得显著进展.然而强化学习在智能体与环境的交互中存在人工设计奖励函数难的问题,因此研究者提出了逆强化学习(Inverse reinforcement learning,IRL)这一研究方向.如何从专家演示中学习奖励函数和进行策略优化是一个重要的研究课题,在人工智能领域具有十分重要的研究意义.本文综合介绍了逆强化学习算法的最新进展,首先介绍了逆强化学习在理论方面的新进展,然后分析了逆强化学习面临的挑战以及未来的发展趋势,最后讨论了逆强化学习的应用进展和应用前景. 展开更多
关键词 强化学习 强化学习 线性逆强化学习 深度逆强化学习 对抗逆强化学习
下载PDF
元强化学习研究综述
3
作者 陈奕宇 霍静 +1 位作者 丁天雨 高阳 《软件学报》 EI CSCD 北大核心 2024年第4期1618-1650,共33页
近年来,深度强化学习(deep reinforcement learning,DRL)已经在诸多序贯决策任务中取得瞩目成功,但当前,深度强化学习的成功很大程度依赖于海量的学习数据与计算资源,低劣的样本效率和策略通用性是制约其进一步发展的关键因素.元强化学... 近年来,深度强化学习(deep reinforcement learning,DRL)已经在诸多序贯决策任务中取得瞩目成功,但当前,深度强化学习的成功很大程度依赖于海量的学习数据与计算资源,低劣的样本效率和策略通用性是制约其进一步发展的关键因素.元强化学习(meta-reinforcementlearning,Meta-RL)致力于以更小的样本量适应更广泛的任务,其研究有望缓解上述限制从而推进强化学习领域发展.以元强化学习工作的研究对象与适用场景为脉络,对元强化学习领域的研究进展进行了全面梳理:首先,对深度强化学习、元学习背景做基本介绍;然后,对元强化学习作形式化定义及常见的场景设置总结,并从元强化学习研究成果的适用范围角度展开介绍元强化学习的现有研究进展;最后,分析了元强化学习领域的研究挑战与发展前景. 展开更多
关键词 强化学习 强化学习 深度强化学习 元学习
下载PDF
潜在空间中的策略搜索强化学习方法
4
作者 赵婷婷 王莹 +3 位作者 孙威 陈亚瑞 王嫄 杨巨成 《计算机科学与探索》 CSCD 北大核心 2024年第4期1032-1046,共15页
策略搜索是深度强化学习领域中一种能够解决大规模连续状态空间和动作空间问题的高效学习方法,被广泛应用在现实问题中。然而,此类方法通常需要花费大量的学习样本和训练时间,且泛化能力较差,学到的策略模型难以泛化至环境中看似微小的... 策略搜索是深度强化学习领域中一种能够解决大规模连续状态空间和动作空间问题的高效学习方法,被广泛应用在现实问题中。然而,此类方法通常需要花费大量的学习样本和训练时间,且泛化能力较差,学到的策略模型难以泛化至环境中看似微小的变化。为了解决上述问题,提出了一种基于潜在空间的策略搜索强化学习方法。将学习状态表示的思想拓展到动作表示上,即在动作表示的潜在空间中学习策略,再将动作表示映射到真实动作空间中。通过表示学习模型的引入,摒弃端到端的训练方式,将整个强化学习任务划分成大规模的表示模型部分和小规模的策略模型部分,使用无监督的学习方法来学习表示模型,使用策略搜索强化学习方法学习小规模的策略模型。大规模的表示模型能保留应有的泛化性和表达能力,小规模的策略模型有助于减轻策略学习的负担,从而在一定程度上缓解深度强化学习领域中样本利用率低、学习效率低和动作选择泛化性弱的问题。最后,在智能控制任务CarRacing和Cheetah中验证了引入潜在空间中的状态表示和动作表示的有效性。 展开更多
关键词 无模型强化学习 策略模型 状态表示 动作表示 连续动作空间 策略搜索强化学习方法
下载PDF
基于不确定性权重的保守Q学习离线强化学习算法
5
作者 王天久 刘全 乌兰 《计算机科学》 CSCD 北大核心 2024年第9期265-272,共8页
离线强化学习(Offline RL)中,智能体不与环境交互而是从一个固定的数据集中获得数据进行学习,这是强化学习领域研究的一个热点。目前多数离线强化学习算法对策略训练过程进行保守正则化处理,训练策略倾向于选择存在于数据集中的动作,从... 离线强化学习(Offline RL)中,智能体不与环境交互而是从一个固定的数据集中获得数据进行学习,这是强化学习领域研究的一个热点。目前多数离线强化学习算法对策略训练过程进行保守正则化处理,训练策略倾向于选择存在于数据集中的动作,从而解决离线强化学习中对数据集分布外(OOD)的状态-动作价值估值错误的问题。保守Q学习算法(CQL)通过值函数正则赋予分布外状态-动作较低的价值来避免该问题。然而,由于该算法正则化过于保守,数据集内的分布内状态-动作也被赋予了较低的价值,难以达到训练策略选择数据集中动作的目的,因此很难学习到最优策略。针对该问题,提出了一种基于不确定性权重的保守Q学习算法(UWCQL)。该方法引入不确定性计算,在保守Q学习算法的基础上添加不确定性权重,对不确定性高的动作给予更高的保守权重,使得策略能更合理地选择数据集分布内的状态-动作。将UWCQL算法应用于D4RL的MuJoCo数据集中进行了实验,实验结果表明,UWCQL算法具有更好的性能表现,从而验证了算法的有效性。 展开更多
关键词 离线强化学习 深度强化学习 强化学习 保守Q学习 不确定性
下载PDF
超高强Ti-15Mo-2.7Nb-3Al-0.2Si钛合金的强化行为及模型
6
作者 石晓辉 张琪 +3 位作者 荆镇 范智渊 刘江林 乔珺威 《Transactions of Nonferrous Metals Society of China》 SCIE EI CAS CSCD 2024年第4期1136-1149,共14页
基于XRD、OM、SEM和TEM分析,研究超高强Ti-15Mo-2.7Nb-3Al-0.2Si钛合金的组织演变及强化行为。结果表明,位错强化和析出强化效应对该合金的屈服强度影响较大。冷轧+再结晶+冷轧+双时效组合工艺可获得1518 MPa的最高屈服强度,这主要归因... 基于XRD、OM、SEM和TEM分析,研究超高强Ti-15Mo-2.7Nb-3Al-0.2Si钛合金的组织演变及强化行为。结果表明,位错强化和析出强化效应对该合金的屈服强度影响较大。冷轧+再结晶+冷轧+双时效组合工艺可获得1518 MPa的最高屈服强度,这主要归因于显微组织中的高密度残存位错及密集而细小的次生α相。建立复合强化模型,其预测误差在16.6%以内。此外,研究发现次生α相体积分数的增加可以不断强化晶内区域,这使得沿晶断裂开始出现并逐渐占据整个断裂面。 展开更多
关键词 强化模型 超高强 强化行为 钛合金 Ti-15Mo-2.7Nb-3Al-0.2Si
下载PDF
基于深度强化学习的铁路纵断面智能设计模型研究
7
作者 缪鹍 戴炎林 高鸿剑 《铁道学报》 EI CAS CSCD 北大核心 2024年第9期102-110,共9页
传统智能算法通常要求变量维度在计算过程中不变,而铁路纵断面智能设计中的变坡点数量需要根据地形等变化自适应确定。考虑到强化学习能从地面高程和已经生成的线形等环境数据中获得最优策略的特点,将深度强化学习方法应用于纵断面智能... 传统智能算法通常要求变量维度在计算过程中不变,而铁路纵断面智能设计中的变坡点数量需要根据地形等变化自适应确定。考虑到强化学习能从地面高程和已经生成的线形等环境数据中获得最优策略的特点,将深度强化学习方法应用于纵断面智能设计,研究智能体决策变坡点的方法,提出铁路纵断面设计的变坡点决策模型,确定模型中的状态、动作、奖励等表达形式。结合纵断面设计约束多的特点,引入动作屏蔽机制处理约束,加快收敛并提高模型性能。将计算期引入模型的状态,提出通过单网络产生多个多目标策略的单网络多策略的多目标处理方法。通过实际工程案例验证了本文所提模型的正确性和有效性。 展开更多
关键词 铁路 纵断面设计 深度强化学习 安全强化学习 动作屏蔽
下载PDF
基于图强化学习的配电网故障恢复决策
8
作者 张沛 陈玉鑫 +1 位作者 王光华 李晓影 《电力系统自动化》 EI CSCD 北大核心 2024年第2期151-158,共8页
针对配电网拓扑变化时启发式等算法在配电网故障恢复决策中求解效果与适应性变差的问题,提出了一种基于图强化学习的故障恢复决策方法。首先,利用图数据表征故障恢复中的决策信息,包括配电网拓扑结构与电气特征信息。然后,在图强化学习... 针对配电网拓扑变化时启发式等算法在配电网故障恢复决策中求解效果与适应性变差的问题,提出了一种基于图强化学习的故障恢复决策方法。首先,利用图数据表征故障恢复中的决策信息,包括配电网拓扑结构与电气特征信息。然后,在图强化学习模型中设置前置图神经网络接收图数据输入,应对故障恢复过程中配电网的拓扑变化。最后,由内嵌图神经网络的强化学习智能体输出最终故障恢复策略以提高决策速度。采用改进的PG&E 69节点配电网算例进行验证,结果表明所提算法求解速度达到毫秒级,较启发式和遗传算法在求解效率上提高了6%~7%,故障恢复策略的负荷恢复率也更高。 展开更多
关键词 强化学习 图神经网络 强化学习 配电网 故障恢复
下载PDF
基于超声强化研磨加工的GH4099合金耐磨服役性能提升研究
9
作者 刘晓初 唐荟 +3 位作者 林子顺 谢智铭 殷浚彬 梁忠伟 《机电工程技术》 2024年第7期13-17,共5页
GH4099合金具有优异的高温热稳定性、高温力学性能和高温抗蠕变性能,用于航空发动机涡轮盘和涡轮叶片的制造,常处于高温、重载、高频的工作环境,但因耐磨服役性能差导致其使用寿命较短。通过超声强化研磨加工技术对GH4099合金分别进行0... GH4099合金具有优异的高温热稳定性、高温力学性能和高温抗蠕变性能,用于航空发动机涡轮盘和涡轮叶片的制造,常处于高温、重载、高频的工作环境,但因耐磨服役性能差导致其使用寿命较短。通过超声强化研磨加工技术对GH4099合金分别进行0、3、6、9 min的加工,实现其耐磨服役性能提升。采用超声强化研磨加工技术对GH4099合金板表面进行不同时间的加工处理,并对加工前后的截面显微硬度、金相组织以及表面形貌进行分析。同时,通过往复式摩擦磨损试验对加工前后的试样耐磨性能进行对比分析。研究结果表明:随着加工时间的增加,材料表面显微硬度逐渐增大,最大为432.83 HV,比未加工试样增加43.8%。当加工时间为6 min时,GH4099合金试样的摩擦系数为0.47,磨损率为5.78×10^(-14)m^(3)/(N·m),与未加工试样相比,分别降低24.2%、68.59%,表明超声强化研磨可有效提升GH4099合金耐磨服役性能。 展开更多
关键词 超声强化研磨 耐磨损性能 GH4099 表面强化 摩擦磨损试验
下载PDF
基于相对熵逆强化学习的飞行冲突解脱方法
10
作者 隋东 董金涛 《安全与环境学报》 CAS CSCD 北大核心 2024年第3期1070-1078,共9页
针对航路上的飞行冲突解脱问题,提出了基于相对熵逆强化学习的飞行冲突解脱方法。首先基于相对熵的逆强化学习算法从历史飞行轨迹数据中学习隐含的管制员先验知识,并以奖励函数的形式进行量化表达。然后,将奖励函数引入基于深度强化学... 针对航路上的飞行冲突解脱问题,提出了基于相对熵逆强化学习的飞行冲突解脱方法。首先基于相对熵的逆强化学习算法从历史飞行轨迹数据中学习隐含的管制员先验知识,并以奖励函数的形式进行量化表达。然后,将奖励函数引入基于深度强化学习的冲突解脱模型,以指引训练模型不断向与管制员解脱方案相似的方向更新。试验结果表明,解脱模型能够学习管制先验知识,且在测试集中冲突解脱率超过73%。研究对于减少管制员工作负荷和提升空中交通管制安全性有借鉴价值。 展开更多
关键词 安全工程 空中交通管制 飞行冲突解脱 强化学习 深度强化学习
下载PDF
喷丸强化对车辆传动齿轮裂纹扩展影响的研究综述 被引量:2
11
作者 李杰 高紫钰 +3 位作者 王晓燕 胡铮 兰海 王志勇 《表面技术》 EI CAS CSCD 北大核心 2024年第4期1-19,57,共20页
疲劳断裂是重载车辆传动齿轮的主要失效形式之一,齿轮底部疲劳裂纹的扩展将缩短车辆传动系统的服役寿命,严重时会导致车辆发生安全事故。延缓裂纹扩展的主要方法是在传动齿轮的表面引入一定大小的残余压应力。喷丸技术是一种冷加工表面... 疲劳断裂是重载车辆传动齿轮的主要失效形式之一,齿轮底部疲劳裂纹的扩展将缩短车辆传动系统的服役寿命,严重时会导致车辆发生安全事故。延缓裂纹扩展的主要方法是在传动齿轮的表面引入一定大小的残余压应力。喷丸技术是一种冷加工表面强化处理工艺,该技术利用高速弹丸冲击材料表面,使零件表层产生塑性应变的同时,在表面和内部引入残余压应力,从而使裂纹闭合的能力得到强化,达到延缓裂纹扩展的强化效果。为了更好地揭示喷丸引入的残余压应力对疲劳裂纹扩展的影响,首先综述了传动齿轮表面疲劳裂纹产生的原因以及疲劳裂纹的扩展行为对重载车辆服役的影响。从强度因子、J积分以及裂纹闭合效应出发,介绍了传动齿轮表面疲劳裂纹扩展的理论以及残余压应力与疲劳裂纹扩展速率之间的关系。其次概述了目前国内外常用的新型有益于将残余拉应力转化为残余压应力的微粒子喷丸、激光喷丸、超声喷丸方法,并与传统机械喷丸技术相比较,阐述了新型喷丸表面强化技术的优缺点。此外,从数值模拟和试验结果两方面,论述了喷丸速度、喷丸角度、弹丸直径、弹丸材质和覆盖率5个工艺参数对在传动齿轮表面引入残余压应力的改善影响。最后对喷丸强化技术在传动齿轮上的多目标参数优化以及多尺度残余压应力与疲劳性能进行了展望,并结合重载车辆的使用需求,强调需要创新设计一种效率高、价格低、适用性广的喷丸技术,以进一步推动喷丸强化在延缓疲劳裂纹扩展方面的持续发展。 展开更多
关键词 喷丸强化 残余压应力 传动齿轮 疲劳裂纹扩展速率 疲劳寿命 表面强化
下载PDF
基于单/多智能体简化强化学习的电力系统无功电压控制 被引量:4
12
作者 马庆 邓长虹 《电工技术学报》 EI CSCD 北大核心 2024年第5期1300-1312,共13页
为了快速平抑分布式能源接入系统产生的无功电压波动,以强化学习、模仿学习为代表的机器学习方法逐渐被应用于无功电压控制。虽然现有方法能实现在线极速求解,但仍然存在离线训练速度慢、普适性不够等阻碍其应用于实际的缺陷。该文首先... 为了快速平抑分布式能源接入系统产生的无功电压波动,以强化学习、模仿学习为代表的机器学习方法逐渐被应用于无功电压控制。虽然现有方法能实现在线极速求解,但仍然存在离线训练速度慢、普适性不够等阻碍其应用于实际的缺陷。该文首先提出一种适用于输电网集中式控制的单智能体简化强化学习方法,该方法基于“Actor-Critic”架构对强化学习进行简化与改进,保留了强化学习无需标签数据与强普适性的优点,同时消除了训练初期因智能体随机搜索造成的计算浪费,大幅提升了强化学习的训练速度;然后,提出一种适用于配电网分布式零通信控制的多智能体简化强化学习方法,该方法将简化强化学习思想推广形成多智能体版本,同时采用模仿学习进行初始化,将全局优化思想提前注入各智能体,提升各无功设备之间的就地协同控制效果;最后,基于改进IEEE 118节点算例的仿真结果验证了所提方法的正确性与快速性。 展开更多
关键词 无功电压控制 集中式控制 单智能体简化强化学习 分布式控制 多智能体简化强化学习
下载PDF
超声滚压表面复合强化研究综述 被引量:1
13
作者 梁浩 潘永智 +3 位作者 孙玉涵 张艺嘉 潘延安 付秀丽 《表面技术》 EI CAS CSCD 北大核心 2024年第10期41-55,109,共16页
超声滚压技术通过位错的湮灭和产生将晶粒细化至纳米级,提高了材料硬度和耐磨损等性能。探讨了如何进一步提升材料的使役性能,通过将超声滚压与其他处理技术相结合形成复合加工工艺,克服单一超声滚压处理工艺的局限性,如超过塑性变形的... 超声滚压技术通过位错的湮灭和产生将晶粒细化至纳米级,提高了材料硬度和耐磨损等性能。探讨了如何进一步提升材料的使役性能,通过将超声滚压与其他处理技术相结合形成复合加工工艺,克服单一超声滚压处理工艺的局限性,如超过塑性变形的极限或过度强化带来的起皱、开裂和压溃等。超声滚压表面复合强化技术作为特种复合加工工艺,在零件高性能表面制造中具有明显优势。根据超声滚压在复合工艺中的位置顺序,分别介绍了超声滚压前端强化、同步强化和后续强化3种加工类型。超声滚压前端复合加工技术主要包括超声滚压复合物理气相沉积技术和超声滚压复合离子注入技术等。在超声滚压同步强化方面,讨论了声电耦合和温度场辅助超声滚压对变形层厚度和摩擦磨损性能的影响。在超声滚压后续强化方面,介绍了涂层复合超声滚压技术,讨论了它对涂层裂纹、孔隙以及表面粗糙度的影响。此外,分析了超声滚压对复合强化过程中材料微观组织演化和塑性变形的作用机制,总结了这些技术在改善表面强化效果和满足复杂服役要求方面的研究现状。最后,展望了超声滚压复合强化技术的应用前景和发展方向,强调了它在提高材料使役性能方面的研究价值和目标。 展开更多
关键词 超声滚压 复合强化 微观组织演化 表面强化
下载PDF
碎软低渗煤储层强化与煤层气地面开发技术进展 被引量:2
14
作者 桑树勋 皇凡生 +7 位作者 单衍胜 周效志 刘世奇 韩思杰 郑司建 刘统 王梓良 王峰斌 《煤炭科学技术》 EI CAS CSCD 北大核心 2024年第1期196-210,共15页
我国碎软低渗煤储层分布广泛,然而由于其煤体松软、破碎、渗透性差,常规的直井/水平井煤储层直接压裂技术应用于碎软低渗煤储层强化及其煤层气地面开发的效果并不理想,碎软低渗煤储层煤层气的高效开发是制约我国煤层气产业大规模发展以... 我国碎软低渗煤储层分布广泛,然而由于其煤体松软、破碎、渗透性差,常规的直井/水平井煤储层直接压裂技术应用于碎软低渗煤储层强化及其煤层气地面开发的效果并不理想,碎软低渗煤储层煤层气的高效开发是制约我国煤层气产业大规模发展以及煤矿瓦斯高效治理的重要技术瓶颈。在系统分析我国碎软低渗煤储层特征及煤层气地面开发中存在的问题基础上,以水平井为基础井型,围绕间接压裂、应力释放和先固结后压裂3种不同的技术方向,梳理了目前碎软低渗煤储层强化与煤层气地面开发技术进展。归纳评述了以顶板间接压裂、夹矸层间接压裂以及硬煤分层间接压裂为内涵的间接压裂煤层气开发技术,以水力喷射造穴、气体动力造穴、扩孔+水力喷射+流体加卸载诱导失稳造穴、水力割缝为不同应力释放方式的应力释放煤层气开发技术,以及先微生物诱导碳酸钙固结碎软煤储层再进行水力压裂的先固结后压裂煤层气开发技术。间接压裂技术的工程实践探索已有较多积累,在地质条件适宜地区对碎软低渗煤储层强化取得了较好效果,而以应力释放为代表的碎软低渗煤储层强化新技术探索已取得重大进展,并进入工程试验和验证阶段。水平井应力释放技术针对碎软低渗煤储层特性和新的开发原理,其对储层改造潜力更大、煤层气开发效果会更好。基于水平井应力释放技术,围绕扩大应力释放范围、提高煤层气开发效果以及实现煤与煤层气共采3个方面,对碎软低渗煤储层强化及煤层气地面开发技术的发展趋势进行了展望,以期为改善我国碎软低渗煤储层增产改造效果以及提高煤层气单井产量提供参考。 展开更多
关键词 煤层气 碎软低渗煤储层 储层强化技术 地面开发 水力压裂
下载PDF
基于特征强化U⁃Net的地震速度反演方法 被引量:2
15
作者 张岩 孟德聪 +1 位作者 宋利伟 董宏丽 《石油地球物理勘探》 EI CSCD 北大核心 2024年第2期185-194,共10页
基于深度神经网络的地震速度反演方法面临的挑战是:时间域地震数据与空间域模型信息间语义映射的弱对应关系导致多解性;神经网络将地震数据映射到速度模型过程中缺少有效引导,易受噪声干扰,影响反演精度。为此,提出一种基于特征强化U‑Ne... 基于深度神经网络的地震速度反演方法面临的挑战是:时间域地震数据与空间域模型信息间语义映射的弱对应关系导致多解性;神经网络将地震数据映射到速度模型过程中缺少有效引导,易受噪声干扰,影响反演精度。为此,提出一种基于特征强化U‑Net的地震速度反演方法。首先,通过多炮地震数据特征叠加使输入网络的地震时间序列信号与对应速度模型之间的空间关系更加明确;其次,基于多尺度特征融合的思想设计具有不同尺寸卷积核的模块,以增强网络对有效特征的学习能力;然后,利用注意力门引导网络,增强网络重点关注的特征;最后,结合瓶颈残差和预激活的思想,在网络中加入预激活瓶颈残差,避免梯度消失和网络退化。实验表明,该方法在地震速度反演方面具有更高的精度,并在抗噪声测试中效果较好,具有一定的泛化能力。 展开更多
关键词 地震速度反演 深度学习 注意力 多尺度 特征融合 特征强化
下载PDF
基于斯金纳的强化理论浅谈警犬训练中奖励的运用
16
作者 许普之 李涛 杨毅 《中国工作犬业》 2024年第2期24-26,共3页
众所周知,斯金纳提出的操作性条件反射理论正被广泛应用于警犬训练之中,其核心观点为人或动物为了达到自身的某种需求,会采取一定的行为,而当这种行为的后果是对自身有利或者正向时,那么这种行为在以后出现的频率就会增加,反之则减少或... 众所周知,斯金纳提出的操作性条件反射理论正被广泛应用于警犬训练之中,其核心观点为人或动物为了达到自身的某种需求,会采取一定的行为,而当这种行为的后果是对自身有利或者正向时,那么这种行为在以后出现的频率就会增加,反之则减少或完全消退。我们可以利用这种正强化或负强化的方法来决定动物行为的后果,从而达到固定所需的特定行为。 展开更多
关键词 警犬训练 斯金纳 强化理论 强化 强化 特定行为 核心观点 后果
下载PDF
多智能体强化学习算法研究综述 被引量:1
17
作者 李明阳 许可儿 +2 位作者 宋志强 夏庆锋 周鹏 《计算机科学与探索》 CSCD 北大核心 2024年第8期1979-1997,共19页
近年来,多智能体强化学习算法技术已广泛应用于人工智能领域。系统性地分析了多智能体强化学习算法,审视了其在多智能体系统中的应用与进展,并深入调研了相关研究成果。介绍了多智能体强化学习的研究背景和发展历程,并总结了已有的相关... 近年来,多智能体强化学习算法技术已广泛应用于人工智能领域。系统性地分析了多智能体强化学习算法,审视了其在多智能体系统中的应用与进展,并深入调研了相关研究成果。介绍了多智能体强化学习的研究背景和发展历程,并总结了已有的相关研究成果;简要回顾了传统强化学习算法在不同任务下的应用情况;重点强调多智能体强化学习算法分类,并根据三种主要的任务类型(路径规划、追逃博弈、任务分配)对其在多智能体系统中的应用、挑战以及解决方案进行了细致的梳理与分析;调研了多智能体领域中现有的算法训练环境,总结了深度学习对多智能体强化学习算法的改进作用,提出该领域所面临的挑战并展望了未来的研究方向。 展开更多
关键词 智能体 强化学习 多智能体强化学习 多智能体系统
下载PDF
多智能体深度强化学习研究进展 被引量:1
18
作者 丁世飞 杜威 +2 位作者 张健 郭丽丽 丁玲 《计算机学报》 EI CAS CSCD 北大核心 2024年第7期1547-1567,共21页
深度强化学习(Deep Reinforcement Learning,DRL)在近年受到广泛的关注,并在各种领域取得显著的成功.由于现实环境通常包括多个与环境交互的智能体,多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)获得蓬勃的发展... 深度强化学习(Deep Reinforcement Learning,DRL)在近年受到广泛的关注,并在各种领域取得显著的成功.由于现实环境通常包括多个与环境交互的智能体,多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)获得蓬勃的发展,在各种复杂的序列决策任务上取得优异的表现.本文对多智能体深度强化学习的工作进展进行综述,主要内容分为三个部分.首先,我们回顾了几种常见的多智能体强化学习问题表示及其对应的合作、竞争和混合任务.其次,我们对目前的MADRL方法进行了全新的多维度的分类,并对不同类别的方法展开进一步介绍.其中,我们重点综述值函数分解方法,基于通信的MADRL方法以及基于图神经网络的MADRL方法.最后,我们研究了MADRL方法在现实场景中的主要应用.希望本文能够为即将进入这一快速发展领域的新研究人员和希望获得全方位了解并根据最新进展确定新方向的现有领域专家提供帮助. 展开更多
关键词 多智能体深度强化学习 基于值函数 基于策略 通信学习 图神经网络
下载PDF
基于世界模型深度强化学习的含风电电力系统低碳经济调度 被引量:1
19
作者 陈实 朱亚斌 +3 位作者 刘艺洪 罗欢 臧天磊 周步祥 《电网技术》 EI CSCD 北大核心 2024年第8期3143-3154,I0021-I0024,共16页
通过调度手段提高发电侧风电等可再生能源利用率,降低常规火电机组的碳排放是实现双碳目标的重要手段。针对含风电电力系统的低碳经济运行问题,提出一种基于世界模型深度强化学习的调度方法。首先,计及碳交易成本与发电成本构建了系统... 通过调度手段提高发电侧风电等可再生能源利用率,降低常规火电机组的碳排放是实现双碳目标的重要手段。针对含风电电力系统的低碳经济运行问题,提出一种基于世界模型深度强化学习的调度方法。首先,计及碳交易成本与发电成本构建了系统运行总成本最低的调度模型,采用基于世界模型的双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法求解系统各机组最优出力策略。该算法通过“因果Transformer”神经网络的自注意力机制和多层堆叠结构学习世界模型以等效真实环境,进一步结合TD3算法在世界模型决策空间中开展大规模探索,提高决策稳定性。以改进IEEE30节点系统为例,通过所提算法求解得到各机组发电策略,实现了含风电电力系统的低碳经济调度目标,表明该方法能有效提升风电消纳,减少系统碳排放量,降低运行成本。 展开更多
关键词 可再生能源 世界模型 深度强化学习 低碳经济运行
下载PDF
考虑行为克隆的深度强化学习股票交易策略 被引量:2
20
作者 杨兴雨 陈亮威 +1 位作者 郑萧腾 张永 《系统管理学报》 CSSCI CSCD 北大核心 2024年第1期150-161,共12页
为提高股票投资的收益并降低风险,将模仿学习中的行为克隆思想引入深度强化学习框架中设计股票交易策略。在策略设计过程中,将对决DQN深度强化学习算法和行为克隆进行结合,使智能体在自主探索的同时模仿事先构造的投资专家的决策。选择... 为提高股票投资的收益并降低风险,将模仿学习中的行为克隆思想引入深度强化学习框架中设计股票交易策略。在策略设计过程中,将对决DQN深度强化学习算法和行为克隆进行结合,使智能体在自主探索的同时模仿事先构造的投资专家的决策。选择不同行业的股票进行数值实验,说明了所设计的交易策略在年化收益率、夏普比率和卡玛比率等收益与风险指标上优于对比策略。研究结果表明:将模仿学习与深度强化学习相结合可以使智能体同时具有探索和模仿能力,从而提高模型的泛化能力和策略的适用性。 展开更多
关键词 股票交易策略 深度强化学习 模仿学习 行为克隆 对决深度Q学习网络
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部