期刊文献+
共找到33篇文章
< 1 2 >
每页显示 20 50 100
基于TD3的恶意节点检测与鲁棒联邦聚合算法
1
作者 孙凡 文红 +3 位作者 侯文静 王永丰 姚瑞祥 严地宝 《通信技术》 2024年第8期845-849,共5页
针对联邦学习中的数据安全与隐私问题,提出了一种基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic policy gradient,TD3)的恶意节点检测与鲁棒联邦聚合算法,旨在提高系统在面对恶意攻击时的鲁棒性。以标签翻转攻击和梯... 针对联邦学习中的数据安全与隐私问题,提出了一种基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic policy gradient,TD3)的恶意节点检测与鲁棒联邦聚合算法,旨在提高系统在面对恶意攻击时的鲁棒性。以标签翻转攻击和梯度上升攻击为例,展示了该算法对于恶意节点的有效识别与抵御能力,并对比分析了所提方法与传统的聚合算法,如FedAvg、Krum、MKrum等。试验结果表明,相较于传统算法,所提算法不仅能有效防御恶意攻击,同时能保持高效的学习效率和模型准确性,显著提升了模型的整体安全防御能力。 展开更多
关键词 联邦学习 恶意节点检测 鲁棒联邦聚合 td3算法
下载PDF
改进TD3算法在电机PID控制器中的应用
2
作者 张梦杰 陈姚节 邓江 《计算机系统应用》 2024年第5期262-270,共9页
本文针对永磁同步电机(PMSM)在工业领域中的多变量、非线性和强耦合特性以及传统PID控制在应对其变化时可能导致参数调整困难、响应延迟、鲁棒性差以及适应性问题,提出一种结合双延迟深度确定性策略梯度(TD3)算法和PID控制的创新方案,... 本文针对永磁同步电机(PMSM)在工业领域中的多变量、非线性和强耦合特性以及传统PID控制在应对其变化时可能导致参数调整困难、响应延迟、鲁棒性差以及适应性问题,提出一种结合双延迟深度确定性策略梯度(TD3)算法和PID控制的创新方案,以优化PID参数调整,实现更精确的电机速度控制.在本文的方法中,融合双向长短期记忆网络(BiLSTM)到Actor和Critic网络中,极大增强了对PMSM动态行为的时间序列数据处理能力,使得系统不仅能够准确捕捉当前状态,还能预测未来趋势,从而实现对PID参数更精确和适应性强的自整定.此外,通过整合熵正则化和好奇心驱动的探索方法进一步增强策略的多样性,避免过早收敛到次优策略,并鼓励模型对未知环境进行深入探索.为验证方法的有效性,设计了一个永磁同步电机的仿真模型,并将本文提出的方法BiLSTM-TD3-ICE与传统的TD3以及经典的Ziegler-Nichols (Z-N)方法进行对比.实验结果充分证明了本文提出的策略在控制性能上具有显著的优势. 展开更多
关键词 深度强化学习 td3算法 永磁同步电机 PID参数自整定 BiLSTM 内在好奇心 熵正则化
下载PDF
低地球轨道下基于TD3算法的通用轨道转移控制
3
作者 曹海涛 邱鹏鹏 蔡霞 《软件工程》 2024年第9期6-9,共4页
为应对低地球轨道下潜在的航天器脉冲式轨道转移任务挑战,提出一种用深度强化学习算法建立轨道转移通用控制模型的方法,以减少人工干预,解决反应不及时等问题。通过对轨道动力学的建模和对马尔可夫决策过程的设计,成功将TD3(Twin Delaye... 为应对低地球轨道下潜在的航天器脉冲式轨道转移任务挑战,提出一种用深度强化学习算法建立轨道转移通用控制模型的方法,以减少人工干预,解决反应不及时等问题。通过对轨道动力学的建模和对马尔可夫决策过程的设计,成功将TD3(Twin Delayed Deep Deterministic Policy Gradient)算法运用于轨道转移决策,实现高度自主的脉冲式点火控制器的设计。实验结果表明,使用TD3算法建立的脉冲式点火控制器,在不同的轨道转移任务下自主到达目标轨道的成功率可达96.1%,同时完成了轨道5个根数的收敛,证明TD3算法用于解决该问题的可行性与有效性。 展开更多
关键词 轨道转移 深度强化学习 td3算法
下载PDF
基于改进型TD3算法的车载边缘计算任务卸载决策
4
作者 李亚 王卫岗 +1 位作者 张原 刘瑞鹏 《电子测量技术》 北大核心 2024年第6期64-70,共7页
为满足复杂车辆任务在时延、能耗和计算性能方面的要求,同时减少网络资源的竞争和消耗,设计了一种基于车载边缘计算(VEC)的任务卸载策略,以最小化任务处理延迟和能源消耗之间平衡的长期成本为目标,将车联网中的任务卸载问题建模为马尔... 为满足复杂车辆任务在时延、能耗和计算性能方面的要求,同时减少网络资源的竞争和消耗,设计了一种基于车载边缘计算(VEC)的任务卸载策略,以最小化任务处理延迟和能源消耗之间平衡的长期成本为目标,将车联网中的任务卸载问题建模为马尔可夫决策过程(MDP),提出了在传统双延时深度确定性策略梯度(TD3)的基础上,利用长短期记忆网络(LSTM)来逼近策略函数和价值函数,将系统状态进行归一化处理以加速网络收敛并增强训练稳定性的改进算法(LN-TD3)。仿真结果表明,LN-TD3性能与全部本地计算和全部卸载计算相比提高了两倍以上;收敛速度上与深度确定性策略梯度DDPG、TD3相比提高了约20%。 展开更多
关键词 车载边缘计算 td3算法 任务卸载 深度强化学习 马尔可夫决策过程
下载PDF
基于双延迟深度确定性策略梯度算法的微电网能源优化分配策略研究 被引量:1
5
作者 杨家令 陈涛 高赐威 《电力需求侧管理》 2024年第4期1-8,共8页
在孤岛模式下,微电网需独立于传统电力系统运作,高效协调内部能源以保障能源供应的连续性与高效性。通过策略延迟更新与双Q网络的引入,双延迟深度确定性策略梯度算法(twin delayed deep deterministic policy gradient,TD3)显著提升了... 在孤岛模式下,微电网需独立于传统电力系统运作,高效协调内部能源以保障能源供应的连续性与高效性。通过策略延迟更新与双Q网络的引入,双延迟深度确定性策略梯度算法(twin delayed deep deterministic policy gradient,TD3)显著提升了复杂连续控制任务的处理效率和精度。基于此方法,设计了基于TD3算法的嵌有燃料电池的微电网能源优化分配策略,以提升微电网系统的稳定供电能力和质量,降低能耗与运维成本,增强系统的经济性与可靠性。通过综合分析,全面评估了所设计能源优化分配策略在不同场景下的综合性能。结果表明,通过对燃料电池系统充放电模式及比例的优化调度,所设计基于TD3算法的能源优化分配策略在提升能源分配效率、缩短响应时间及降低运营成本方面的性能优于传统算法。研究结果验证了TD3算法在应对可再生能源发电功率输出波动和负载需求变化时的高效适应能力,在实际能源管理场景中具有广泛适用性。 展开更多
关键词 微电网 燃料电池 能源优化分配 td3算法 深度强化学习
下载PDF
基于TD3算法的热管堆功率控制算法优化研究
6
作者 宋霄森 余刃 +1 位作者 毛伟 殷少轩 《舰船电子工程》 2023年第8期104-109,共6页
核反应堆功率控制仍多采用PID控制算法,但其控制参数往往难以选择,也难以在不同功率水平下均保持最优的控制效果。论文针对热管冷却核反应堆的功率控制设计PID控制算法,并基于深度强化学习TD3算法来实现对PID控制器的参数寻优。对比基... 核反应堆功率控制仍多采用PID控制算法,但其控制参数往往难以选择,也难以在不同功率水平下均保持最优的控制效果。论文针对热管冷却核反应堆的功率控制设计PID控制算法,并基于深度强化学习TD3算法来实现对PID控制器的参数寻优。对比基于试凑法和参数寻优选取的PID参数的控制效果,采用深度强化学习TD3算法寻优参数可以获得更快速稳定的控制效果。 展开更多
关键词 热管冷却核反应堆 深度强化学习 td3算法 功率控制
下载PDF
基于TD3算法的自动协商策略
7
作者 陈佐明 詹捷宇 《计算机系统应用》 2023年第3期15-24,共10页
协商是人们就某些议题进行交流寻求一致协议的过程.而自动协商旨在通过协商智能体的使用降低协商成本、提高协商效率并且优化协商结果.近年来深度强化学习技术开始被运用于自动协商领域并取得了良好的效果,然而依然存在智能体训练时间... 协商是人们就某些议题进行交流寻求一致协议的过程.而自动协商旨在通过协商智能体的使用降低协商成本、提高协商效率并且优化协商结果.近年来深度强化学习技术开始被运用于自动协商领域并取得了良好的效果,然而依然存在智能体训练时间较长、特定协商领域依赖、协商信息利用不充分等问题.为此,本文提出了一种基于TD3深度强化学习算法的协商策略,通过预训练降低训练过程的探索成本,通过优化状态和动作定义提高协商策略的鲁棒性从而适应不同的协商场景,通过多头语义神经网络和对手偏好预测模块充分利用协商的交互信息.实验结果表明,该策略在不同协商环境下都可以很好地完成协商任务. 展开更多
关键词 自动协商 协商策略 深度强化学习 td3算法 偏好预测
下载PDF
基于动态延迟策略更新的TD3算法 被引量:3
8
作者 康朝海 孙超 +1 位作者 荣垂霆 刘鹏云 《吉林大学学报(信息科学版)》 CAS 2020年第4期474-481,共8页
在深度强化学习领域中,为进一步减少双延迟深度确定性策略梯度TD3(Twin Delayed Deep Deterministic Policy Gradients)中价值过估计对策略估计的影响,加快模型学习的效率,提出一种基于动态延迟策略更新的双延迟深度确定性策略梯度(DD-T... 在深度强化学习领域中,为进一步减少双延迟深度确定性策略梯度TD3(Twin Delayed Deep Deterministic Policy Gradients)中价值过估计对策略估计的影响,加快模型学习的效率,提出一种基于动态延迟策略更新的双延迟深度确定性策略梯度(DD-TD3:Twin Delayed Deep Deterministic Policy Gradients with Dynamic Delayed Policy Update)。在DD-TD3方法中,通过Critic网络的最新Loss值与其指数加权移动平均值的动态差异指导Actor网络的延迟更新步长。实验结果表明,与原始TD3算法在2000步获得较高的奖励值相比,DD-TD3方法可在约1000步内学习到最优控制策略,并且获得更高的奖励值,从而提高寻找最优策略的效率。 展开更多
关键词 深度强化学习 td3算法 动态延迟策略更新
下载PDF
TD-BP强化学习算法在五子棋博弈系统中的应用 被引量:3
9
作者 宫瑞敏 吕艳辉 《沈阳理工大学学报》 CAS 2010年第4期30-32,37,共4页
局面估值的准确性是决定棋类游戏水平高低的一个重要因素。针对使用静态估值函数的不足,提出了TD-BP强化学习算法,结合博弈中常用的极小极大搜索算法和经过历史启发增强的PVS搜索算法,实现了一种自适应性较强的五子棋自学习程序。实验... 局面估值的准确性是决定棋类游戏水平高低的一个重要因素。针对使用静态估值函数的不足,提出了TD-BP强化学习算法,结合博弈中常用的极小极大搜索算法和经过历史启发增强的PVS搜索算法,实现了一种自适应性较强的五子棋自学习程序。实验结果表明,使用该算法的程序经过较短时间的训练后达到了较好的下棋水平. 展开更多
关键词 td算法 BP神经网络 估值函数 PVS算法
下载PDF
基于TD算法和BP算法相结合的同步电动机失步保护 被引量:1
10
作者 汪海洋 纪建伟 马丽丽 《自动化技术与应用》 2007年第1期93-95,134+131,共5页
同步电动机在运行过程中,不可避免地受到各种各样的扰动,易产生失步,反映失步的主要标志是电动机的功角是否越限。基于以上的分析提出的一种基于相邻实际输出之间差别驱动的TD算法与BP算法相结合的混合算法。通过仿真结果表明,该算法是... 同步电动机在运行过程中,不可避免地受到各种各样的扰动,易产生失步,反映失步的主要标志是电动机的功角是否越限。基于以上的分析提出的一种基于相邻实际输出之间差别驱动的TD算法与BP算法相结合的混合算法。通过仿真结果表明,该算法是有效可行的,达到了满意的精度,解决了同步电动机的失步问题,有很高的实际应用价值。 展开更多
关键词 同步电动机 失步 功角 td算法 BP算法
下载PDF
应用于TD-SCDMA的Turbo码解码器的算法及硬件实现 被引量:1
11
作者 诸烜程 陈杰 《科学技术与工程》 2008年第11期2818-2821,共4页
研究了适用于TD-SCDMA的Turbo码解码器的算法及硬件实现,提出了一级流水的单SISO结构,并结合滑窗MAX-LOG-MAP算法使得面积,功耗,存储器的开销大大减小,最后给出了综合结果。
关键词 硬件架构 滑窗MAX-LOG—MAP算法td—SCDMA TURBO码
下载PDF
基于因素化表示的TD(λ)算法
12
作者 戴帅 殷苌茗 张欣 《计算机工程》 CAS CSCD 北大核心 2009年第13期190-192,195,共4页
提出一种新的基于因素法方法的TD(λ)算法。其基本思想是状态因素化表示,通过动态贝叶斯网络表示Markov决策过程(MDP)中的状态转移概率函数,结合决策树表示TD(λ)算法中的状态值函数,降低状态空间的搜索与计算复杂度,因而适用于求解大... 提出一种新的基于因素法方法的TD(λ)算法。其基本思想是状态因素化表示,通过动态贝叶斯网络表示Markov决策过程(MDP)中的状态转移概率函数,结合决策树表示TD(λ)算法中的状态值函数,降低状态空间的搜索与计算复杂度,因而适用于求解大状态空间的MDPs问题,实验证明该表示方法是有效的。 展开更多
关键词 因素化表示 动态贝叶斯网络 决策树 td(λ)算法
下载PDF
基于强化学习TD算法的乒乓游戏击球策略优化
13
作者 陈功 周谊成 王辉 《电脑知识与技术》 2011年第10期6926-6927,共2页
计算机乒乓游戏是出现在个人计算机上最早的游戏之一,该文利用强化学习中的TD算法,将状态的变化与得分的统计规律统计出来,就是研究在当前状态S下,球拍怎样移动获利最大,让机器击球手快速运动并准确击球。
关键词 机器学习 td算法 策略优化
下载PDF
基于SAC和TD3的含电动汽车虚拟电厂调度策略 被引量:3
14
作者 陶力 杨夏喜 +3 位作者 顾金辉 魏兵兵 张琳 王嘉宁 《电气传动》 2023年第9期25-34,共10页
虚拟电厂(VPP)可以聚合分布式电源(DER)参与电力市场和辅助服务市场运行,为配电网和输电网提供管理和辅助服务,其运行和控制得到广泛关注。针对含电动汽车(EV)充电站的虚拟电厂,构建了基于柔性行动器-评判器(SAC)算法和双延迟深度确定... 虚拟电厂(VPP)可以聚合分布式电源(DER)参与电力市场和辅助服务市场运行,为配电网和输电网提供管理和辅助服务,其运行和控制得到广泛关注。针对含电动汽车(EV)充电站的虚拟电厂,构建了基于柔性行动器-评判器(SAC)算法和双延迟深度确定性策略梯度(TD3)算法的VPP与EV充电站主从博弈模型。通过训练主从博弈网络参数,计算博弈均衡时的策略和解。算例结果表明,上述模型训练完成后,可以有效地降低EV充电站运行费用以及平缓功率,基于SAC强化学习方法能够整合VPP内部DER,并引导电动汽车有序充电。在VPP作为价格接受者参与日前电力市场时,也能够给出优化的交易策略;当VPP与EV之间存在主从博弈时,EV用确定性策略算法可以降低充电成本,VPP用随机性策略算法则可以提高收益。 展开更多
关键词 虚拟电厂 SAC算法 td3算法 电动汽车 主从博弈 实时调度
下载PDF
基于改进深度强化学习的SCR脱硝系统复合控制研究
15
作者 赵征 全家乐 刘子涵 《电力科学与工程》 2024年第11期70-78,共9页
针对选择性催化还原(Selective catalytic reduction,SCR)脱硝系统延迟大、扰动多等特点,提出了一种基于改进双延迟深度确定性策略梯度(Twin delayed deep deterministic policy gradient,TD3)的SCR脱硝系统复合控制策略。首先,提出了... 针对选择性催化还原(Selective catalytic reduction,SCR)脱硝系统延迟大、扰动多等特点,提出了一种基于改进双延迟深度确定性策略梯度(Twin delayed deep deterministic policy gradient,TD3)的SCR脱硝系统复合控制策略。首先,提出了一种融合多步时序差分(Muti-step temporal-difference,MSTD)和优先经验回放(Prioritized experience replay,PER)的改进TD3算法。该算法在策略更新时使用MSTD计算回报,同时利用PER选择重要的经验进行学习,以此提高TD3算法的策略学习能力并加速算法的学习过程。其次,通过设计多维状态观测,综合考虑SCR脱硝系统的前馈信号和验证反馈信号来实现SCR脱硝系统的复合控制,进而维持出口NOx浓度的稳定性。最后,进行仿真实验验证,结果表明基于MSTD-PER-TD3算法的复合控制策略能更有效地克服入口NOx浓度波动对出口NOx浓度的影响,并具有优秀的抗干扰能力和鲁棒性。 展开更多
关键词 td3算法 多步时序差分 优先经验回放 SCR脱硝系统 复合控制策略
下载PDF
基于任务复制的处理器预分配算法 被引量:22
16
作者 周双娥 袁由光 +1 位作者 熊兵周 欧中红 《计算机学报》 EI CSCD 北大核心 2004年第2期216-223,共8页
基于任务复制的调度算法比无任务复制的调度算法具有较好的性能 .文章在分析了基于任务复制的几个典型算法 (如TDS ,OSA等算法 )及其假设条件后 ,提出了以使调度长度最短作为主要目标、减少处理机数目作为次要目标的处理器预分配算法PP... 基于任务复制的调度算法比无任务复制的调度算法具有较好的性能 .文章在分析了基于任务复制的几个典型算法 (如TDS ,OSA等算法 )及其假设条件后 ,提出了以使调度长度最短作为主要目标、减少处理机数目作为次要目标的处理器预分配算法PPA .该算法对任务计算时间与任务间通信时间未做任何限制 (即不考虑任务粒度 ) .通过与相关工作的比较可以看出 :PPA算法在调度长度与处理器使用数目上均优于其它算法或与其它算法相当 ,同时 ,该算法具有与TDS ,OSA相同的时间复杂度 .这对嵌入式实时分布系统具有重要的意义 . 展开更多
关键词 任务复制 处理器 PPA算法 tds算法 OSA算法 任务调度 任务分配
下载PDF
强化学习原理、算法及应用 被引量:19
17
作者 黄炳强 曹广益 王占全 《河北工业大学学报》 CAS 2006年第6期34-38,共5页
强化学习(ReinforcementLearningRL)是从动物学习理论发展而来的,它不需要有先验知识,通过不断与环境交互来获得知识,自主的进行动作选择,具有自主学习能力,在自主机器人行为学习中受到广泛重视.本文综述了强化学习的基本原理,各种算法... 强化学习(ReinforcementLearningRL)是从动物学习理论发展而来的,它不需要有先验知识,通过不断与环境交互来获得知识,自主的进行动作选择,具有自主学习能力,在自主机器人行为学习中受到广泛重视.本文综述了强化学习的基本原理,各种算法,包括TD算法、Q-学习和R学习等,最后介绍了强化学习的应用及其在多机器人系统中的研究热点问题. 展开更多
关键词 强化学习 td算法 Q-学习 R-学习
下载PDF
一种基于模式最长前缀正文分割的串匹配新算法 被引量:4
18
作者 庞善臣 王淑栋 《小型微型计算机系统》 CSCD 北大核心 2004年第3期404-406,共3页
字符串的模式匹配问题是计算机科学的基本问题之一 ,本文提出了基于模式最长前缀正文分割的匹配新算法(Text Divided Algorithm,以下简称 TD算法 ) .首先在模式 P中寻找最长的前缀子串 subp,使其末字符在 subp中只出现一次 ;然后根据 s... 字符串的模式匹配问题是计算机科学的基本问题之一 ,本文提出了基于模式最长前缀正文分割的匹配新算法(Text Divided Algorithm,以下简称 TD算法 ) .首先在模式 P中寻找最长的前缀子串 subp,使其末字符在 subp中只出现一次 ;然后根据 subp末字符的特点 ,将正文 T进行分段 ,按段对模式 P进行匹配 .新算法有以下重要的特点 :1.最坏情况下 ,本算法有效地减少了字符重复比较的次数 ,从而提高了算法的匹配效率 ;2 .匹配算法在二维匹配和不精确匹配中较易推广 ;3.匹配过程近似于直接算法 。 展开更多
关键词 字符串 模式匹配 模式最长前缀正文分割 串匹配算法 时间复杂度 td算法
下载PDF
基于递推最小二乘法的多步时序差分学习算法 被引量:5
19
作者 陈学松 杨宜民 《计算机工程与应用》 CSCD 北大核心 2010年第8期52-55,共4页
强化学习是一种重要的机器学习方法。为了提高强化学习过程的收敛速度和减少学习过程值函数估计的误差,提出了基于递推最小二乘法的多步时序差分学习算法(RLS-TD(λ))。证明了在满足一定条件下,该算法的权值将以概率1收敛到唯一解,并且... 强化学习是一种重要的机器学习方法。为了提高强化学习过程的收敛速度和减少学习过程值函数估计的误差,提出了基于递推最小二乘法的多步时序差分学习算法(RLS-TD(λ))。证明了在满足一定条件下,该算法的权值将以概率1收敛到唯一解,并且得出和证明了值函数估计值的误差应满足的关系式。迷宫实验表明,与RLS-TD(0)算法相比,该算法能加快学习过程的收敛,与传统的TD(λ)算法相比,该算法减少了值函数估计误差,从而提高了精度。 展开更多
关键词 强化学习 时序差分 最小二乘 收敛 RLS—td(λ)算法
下载PDF
分布式包装实时数据库ARS算法应用 被引量:3
20
作者 李同英 朱洪波 《包装工程》 CAS 北大核心 2017年第11期88-91,共4页
目的研究具有连续状态空间的复杂包装产品信息在分布式网络实时数据库中的查询方式。方法通过结合增强学习(EL)和自适应共振结构神经网络(ARS),给出一种基于增强学习的自适应共振结构神经网络算法——ELARS2。在ARS2算法中引入增强学习... 目的研究具有连续状态空间的复杂包装产品信息在分布式网络实时数据库中的查询方式。方法通过结合增强学习(EL)和自适应共振结构神经网络(ARS),给出一种基于增强学习的自适应共振结构神经网络算法——ELARS2。在ARS2算法中引入增强学习的选择和评估方式,解决在ARS2算法中分类模式的查询问题。设计在存储空间中使用分布式网络实时数据库查询目标的仿真试验,并用2种ELARS2算法(TDARS2和QARS2算法)来实现,并与经典的EL算法进行对比。结果 2种ELARS2算法完成查询目标的平均时间显著小于经典的EL算法。结论在2种ELARS2算法中,TDARS2比QARS2效果更好。 展开更多
关键词 增强学习 ARS2神经网络 td神经网络算法 Q学习
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部