期刊文献+
共找到52篇文章
< 1 2 3 >
每页显示 20 50 100
基于HER-TD3算法的青皮核桃采摘机械臂路径规划
1
作者 杨淑华 谢晓波 +3 位作者 邴振凯 郝建军 张秀花 袁大超 《农业机械学报》 EI CAS CSCD 北大核心 2024年第4期113-123,共11页
针对青皮核桃和树枝等障碍物无序生长导致机械臂采摘环境复杂、训练任务量大、稳定性差等普遍存在的问题,本文设计了一种同步带模组与机械臂协作的采摘装置,并采用基于事后经验回放的双延迟深度确定性策略梯度算法(Twin delayed deep de... 针对青皮核桃和树枝等障碍物无序生长导致机械臂采摘环境复杂、训练任务量大、稳定性差等普遍存在的问题,本文设计了一种同步带模组与机械臂协作的采摘装置,并采用基于事后经验回放的双延迟深度确定性策略梯度算法(Twin delayed deep deterministic policy gradient with hindsight experience replay,HER-TD3)对采摘机械臂进行路径规划,通过HER算法提高智能体的探索能力,缓解稀疏奖励的问题;通过TD3算法提高智能体的稳定性,减少了训练中出现的震荡现象。为了证明HER-TD3算法的可行性和泛化能力,引入TD3、HER-DDPG算法进行对比,采用降维训练方法对3种深度强化学习智能体进行训练,结果表明HER-TD3算法模型在完成路径规划任务中成功率达到98%,与HER-DDPG算法相比提高4个百分点,与TD3算法相比提高19个百分点;在CoppeliaSim软件中搭建三维模型仿真环境,设计初始姿态和碰撞检测,使用YOLO v4识别青皮核桃,通过该算法模型能够引导虚拟采摘机械臂避开树枝障碍物达到目标位置,完成无碰撞路径规划,无障碍物和有障碍物时路径规划成功率分别为91%和86%;利用物理样机进行青皮核桃采摘试验时,仍能较好地完成路径规划任务,无障碍物时采摘路径规划成功率为86.7%,平均运动时间为12.8 s,有障碍物时采摘路径规划成功率为80.0%,平均运动时间为13.6 s,验证了HER-TD3算法对复杂环境具有较好的适应性和稳定性。 展开更多
关键词 青皮核桃 采摘机器人 机械臂 HER-td3算法 路径规划
下载PDF
基于改进TD3算法的智能通信干扰决策方法研究
2
作者 安国臣 毕胜 王晓君 《信息化研究》 2024年第1期13-17,23,共6页
本文对通信对抗中干扰决策方法展开研究,旨在解决人为手动干扰决策带来的对抗方式单一、极易被敌军发现、干扰效率不佳等问题。随着科技的发展,各种电子技术层出不穷,这就导致电子战争中的环境变得越来越复杂,为了应对这种复杂的环境,... 本文对通信对抗中干扰决策方法展开研究,旨在解决人为手动干扰决策带来的对抗方式单一、极易被敌军发现、干扰效率不佳等问题。随着科技的发展,各种电子技术层出不穷,这就导致电子战争中的环境变得越来越复杂,为了应对这种复杂的环境,并达到预期的干扰效果,本文提出一种基于改进双延迟深度确定性策略梯度算法(TD3)的智能通信干扰决策方法,以解决通信干扰过程中的干扰决策问题。TD3算法不仅能够应对连续动作空间而且具有高稳定性的特点。另外,改进的TD3算法使学习的过程更加迅速,算法的结果也更加收敛。仿真结果表明,基于该算法的改进,通信干扰成功率比原算法提升了28%。 展开更多
关键词 通信干扰 深度强化学习 td3 干扰决策
下载PDF
改进TD3算法在电机PID控制器中的应用
3
作者 张梦杰 陈姚节 邓江 《计算机系统应用》 2024年第5期262-270,共9页
本文针对永磁同步电机(PMSM)在工业领域中的多变量、非线性和强耦合特性以及传统PID控制在应对其变化时可能导致参数调整困难、响应延迟、鲁棒性差以及适应性问题,提出一种结合双延迟深度确定性策略梯度(TD3)算法和PID控制的创新方案,... 本文针对永磁同步电机(PMSM)在工业领域中的多变量、非线性和强耦合特性以及传统PID控制在应对其变化时可能导致参数调整困难、响应延迟、鲁棒性差以及适应性问题,提出一种结合双延迟深度确定性策略梯度(TD3)算法和PID控制的创新方案,以优化PID参数调整,实现更精确的电机速度控制.在本文的方法中,融合双向长短期记忆网络(BiLSTM)到Actor和Critic网络中,极大增强了对PMSM动态行为的时间序列数据处理能力,使得系统不仅能够准确捕捉当前状态,还能预测未来趋势,从而实现对PID参数更精确和适应性强的自整定.此外,通过整合熵正则化和好奇心驱动的探索方法进一步增强策略的多样性,避免过早收敛到次优策略,并鼓励模型对未知环境进行深入探索.为验证方法的有效性,设计了一个永磁同步电机的仿真模型,并将本文提出的方法BiLSTM-TD3-ICE与传统的TD3以及经典的Ziegler-Nichols (Z-N)方法进行对比.实验结果充分证明了本文提出的策略在控制性能上具有显著的优势. 展开更多
关键词 深度强化学习 td3算法 永磁同步电机 PID参数自整定 BiLSTM 内在好奇心 熵正则化
下载PDF
基于预训练模型TD3的干扰目标分配方法
4
作者 余晨 唐建强 +1 位作者 杨益川 李昊 《电子信息对抗技术》 2024年第4期1-7,共7页
干扰机有效压制雷达目标探测范围对突防任务至关重要,针对多对多干扰目标分配场景中传统优化算法存在的干扰目标分配求解缓慢的问题,提出一种基于预训练模型TD3(Twin Delayed Deep Deterministic policy gradient algorithm)的干扰目标... 干扰机有效压制雷达目标探测范围对突防任务至关重要,针对多对多干扰目标分配场景中传统优化算法存在的干扰目标分配求解缓慢的问题,提出一种基于预训练模型TD3(Twin Delayed Deep Deterministic policy gradient algorithm)的干扰目标分配方法。该方法利用预训练的深度神经网络初始化TD3算法中的动作网络和评价网络,以提高TD3算法与环境的交互训练效率,使完成训练之后的TD3算法能够根据战场态势输出干扰目标分配方案。仿真验证表明,在多对多干扰目标分配场景中,该方法可实现秒量级以下的干扰目标分配方案有效决策。 展开更多
关键词 干扰目标分配 突防任务 深度神经网络 td3
下载PDF
基于TD3-PER的氢燃料电池混合动力汽车能量管理策略研究
5
作者 虞志浩 赵又群 +2 位作者 潘陈兵 何鲲鹏 李丹阳 《汽车技术》 CSCD 北大核心 2024年第1期13-19,共7页
为优化氢燃料电池混合动力汽车的燃料经济性及辅助动力电池性能,提出了一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。采用双延迟深度确定性策略梯度(TD3)算法,在防止训练过优估计的同时实现了更精准的连续控... 为优化氢燃料电池混合动力汽车的燃料经济性及辅助动力电池性能,提出了一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。采用双延迟深度确定性策略梯度(TD3)算法,在防止训练过优估计的同时实现了更精准的连续控制;同时结合优先经验采样(PER)算法,在获得更好优化性能的基础上加速了策略的训练。仿真结果表明:相较于深度确定性策略梯度(DDPG)算法,所提出的TD3-PER能量管理策略的百公里氢耗量降低了7.56%,平均功率波动降低了6.49%。 展开更多
关键词 氢燃料电池混合动力汽车 优先经验采样 双延迟深度确定性策略梯度 连续控制
下载PDF
基于改进型TD3算法的车载边缘计算任务卸载决策
6
作者 李亚 王卫岗 +1 位作者 张原 刘瑞鹏 《电子测量技术》 北大核心 2024年第6期64-70,共7页
为满足复杂车辆任务在时延、能耗和计算性能方面的要求,同时减少网络资源的竞争和消耗,设计了一种基于车载边缘计算(VEC)的任务卸载策略,以最小化任务处理延迟和能源消耗之间平衡的长期成本为目标,将车联网中的任务卸载问题建模为马尔... 为满足复杂车辆任务在时延、能耗和计算性能方面的要求,同时减少网络资源的竞争和消耗,设计了一种基于车载边缘计算(VEC)的任务卸载策略,以最小化任务处理延迟和能源消耗之间平衡的长期成本为目标,将车联网中的任务卸载问题建模为马尔可夫决策过程(MDP),提出了在传统双延时深度确定性策略梯度(TD3)的基础上,利用长短期记忆网络(LSTM)来逼近策略函数和价值函数,将系统状态进行归一化处理以加速网络收敛并增强训练稳定性的改进算法(LN-TD3)。仿真结果表明,LN-TD3性能与全部本地计算和全部卸载计算相比提高了两倍以上;收敛速度上与深度确定性策略梯度DDPG、TD3相比提高了约20%。 展开更多
关键词 车载边缘计算 td3算法 任务卸载 深度强化学习 马尔可夫决策过程
下载PDF
基于Advanced-TD3算法的卫星探索控制策略
7
作者 马志昕 骆淑云 《智能计算机与应用》 2024年第4期83-88,共6页
卫星控制算法在卫星控制领域拥有十分重要的地位,而深度强化学习则是当前前沿的卫星控制算法之一。针对目前太空环境日渐复杂的问题,提出了基于TD3算法的改进TD3(Advanced-TD3)算法,实现控制卫星到达预定目标区域。在开源环境中进行仿... 卫星控制算法在卫星控制领域拥有十分重要的地位,而深度强化学习则是当前前沿的卫星控制算法之一。针对目前太空环境日渐复杂的问题,提出了基于TD3算法的改进TD3(Advanced-TD3)算法,实现控制卫星到达预定目标区域。在开源环境中进行仿真实验,实验结果验证了该算法的空间探索能力,拥有较高的鲁棒性,可以较为精确地帮助卫星完成控制问题,增强卫星对复杂空间中的控制能力,提高卫星的运行效率。 展开更多
关键词 深度强化学习 Advanced-td3算法 卫星控制 空间探索
下载PDF
深度强化学习TD3算法在倒立摆系统中的应用 被引量:3
8
作者 何卫东 刘小臣 +1 位作者 张迎辉 姚世选 《大连交通大学学报》 CAS 2023年第1期38-44,共7页
针对现有控制算法在倒立摆系统控制中存在的局限性,融合强化学习和深度学习方法,提出一种基于双延迟深度确定性策略梯度(TD3)的倒立摆端到端控制方法。首先,利用倒立摆动力学模型搭建虚拟仿真环境,设计稀疏奖励函数;其次,通过深度神经... 针对现有控制算法在倒立摆系统控制中存在的局限性,融合强化学习和深度学习方法,提出一种基于双延迟深度确定性策略梯度(TD3)的倒立摆端到端控制方法。首先,利用倒立摆动力学模型搭建虚拟仿真环境,设计稀疏奖励函数;其次,通过深度神经网络构建从倒立摆状态输入到执行动作输出的端到端控制模型,分析倒立摆特性,来确定神经网络结构和参数;最后,将虚拟仿真环境中生成的模型移植到倒立摆实物平台并进行优化。试验结果表明:该方法生成的模型能够有效地建立倒立摆状态和执行动作之间的映射关系,在运动控制中具有一定的借鉴意义。 展开更多
关键词 深度强化学习 倒立摆控制 td3 端到端 稀疏奖励函数
下载PDF
基于改进TD3的MEC多任务计算卸载
9
作者 于波 毛鑫浩 《计算机系统应用》 2023年第12期95-103,共9页
在多用户多任务场景下,使用传统的决策算法去对短时间内接踵而来的任务进行计算卸载决策,已经不能满足用户对决策效率和资源利用率的要求.因此有研究提出使用深度强化学习算法来进行卸载决策以满足各种场景下的需求,但是这些算法大多只... 在多用户多任务场景下,使用传统的决策算法去对短时间内接踵而来的任务进行计算卸载决策,已经不能满足用户对决策效率和资源利用率的要求.因此有研究提出使用深度强化学习算法来进行卸载决策以满足各种场景下的需求,但是这些算法大多只考虑卸载优先的策略,这种策略使用户设备(UE)被大量闲置.我们提高了移动边缘计算(MEC)服务器和用户设备(UE)的资源利用率,降低计算卸载的错误率,提出了一种本地优先和改进TD3(twin delayed deep deterministic policy gradient)算法相结合的决策卸载模型,并设计了仿真实验,通过实验证明该模型确实可以提高MEC服务器和UE的资源利用率并降低错误率. 展开更多
关键词 移动边缘计算 计算卸载 双延迟深度确定性策略梯度(td3) 资源分配
下载PDF
带Q网络过滤的两阶段TD3深度强化学习方法 被引量:3
10
作者 周娴玮 包明豪 +1 位作者 叶鑫 余松森 《计算机技术与发展》 2023年第10期101-108,共8页
常规的深度强化学习模型训练方式从“零”开始,其起始策略为随机初始化,这将导致智能体在训练前期阶段探索效率低、样本学习率低,网络难以收敛,该阶段也被称为冷启动过程。为解决冷启动问题,目前大多数工作使用两阶段深度强化学习训练方... 常规的深度强化学习模型训练方式从“零”开始,其起始策略为随机初始化,这将导致智能体在训练前期阶段探索效率低、样本学习率低,网络难以收敛,该阶段也被称为冷启动过程。为解决冷启动问题,目前大多数工作使用两阶段深度强化学习训练方式;但是使用这种方式的智能体由模仿学习过渡至深度强化学习阶段后可能会出现遗忘演示动作的情况,表现为性能和回报突然性回落。因此,该文提出一种带Q网络过滤的两阶段TD3深度强化学习方法。首先,通过收集专家演示数据,使用模仿学习-行为克隆以及TD3模型Q网络更新公式分别对Actor网络与Critic网络进行预训练工作;进一步地,为避免预训练后的Actor网络在策略梯度更新时误选择估值过高的演示数据集之外动作,从而遗忘演示动作,提出Q网络过滤算法,过滤掉预训练Critic网络中过高估值的演示数据集之外的动作估值,保持演示动作为最高估值动作,有效缓解遗忘现象。在Deep Mind提供的Mujoco机器人仿真平台中进行实验,验证了所提算法的有效性。 展开更多
关键词 两阶段深度强化学习 冷启动问题 模仿学习 预训练网络 td3
下载PDF
基于TD3算法的热管堆功率控制算法优化研究
11
作者 宋霄森 余刃 +1 位作者 毛伟 殷少轩 《舰船电子工程》 2023年第8期104-109,共6页
核反应堆功率控制仍多采用PID控制算法,但其控制参数往往难以选择,也难以在不同功率水平下均保持最优的控制效果。论文针对热管冷却核反应堆的功率控制设计PID控制算法,并基于深度强化学习TD3算法来实现对PID控制器的参数寻优。对比基... 核反应堆功率控制仍多采用PID控制算法,但其控制参数往往难以选择,也难以在不同功率水平下均保持最优的控制效果。论文针对热管冷却核反应堆的功率控制设计PID控制算法,并基于深度强化学习TD3算法来实现对PID控制器的参数寻优。对比基于试凑法和参数寻优选取的PID参数的控制效果,采用深度强化学习TD3算法寻优参数可以获得更快速稳定的控制效果。 展开更多
关键词 热管冷却核反应堆 深度强化学习 td3算法 功率控制
下载PDF
基于SAC和TD3的含电动汽车虚拟电厂调度策略 被引量:1
12
作者 陶力 杨夏喜 +3 位作者 顾金辉 魏兵兵 张琳 王嘉宁 《电气传动》 2023年第9期25-34,共10页
虚拟电厂(VPP)可以聚合分布式电源(DER)参与电力市场和辅助服务市场运行,为配电网和输电网提供管理和辅助服务,其运行和控制得到广泛关注。针对含电动汽车(EV)充电站的虚拟电厂,构建了基于柔性行动器-评判器(SAC)算法和双延迟深度确定... 虚拟电厂(VPP)可以聚合分布式电源(DER)参与电力市场和辅助服务市场运行,为配电网和输电网提供管理和辅助服务,其运行和控制得到广泛关注。针对含电动汽车(EV)充电站的虚拟电厂,构建了基于柔性行动器-评判器(SAC)算法和双延迟深度确定性策略梯度(TD3)算法的VPP与EV充电站主从博弈模型。通过训练主从博弈网络参数,计算博弈均衡时的策略和解。算例结果表明,上述模型训练完成后,可以有效地降低EV充电站运行费用以及平缓功率,基于SAC强化学习方法能够整合VPP内部DER,并引导电动汽车有序充电。在VPP作为价格接受者参与日前电力市场时,也能够给出优化的交易策略;当VPP与EV之间存在主从博弈时,EV用确定性策略算法可以降低充电成本,VPP用随机性策略算法则可以提高收益。 展开更多
关键词 虚拟电厂 SAC算法 td3算法 电动汽车 主从博弈 实时调度
下载PDF
基于TD3算法的自动协商策略
13
作者 陈佐明 詹捷宇 《计算机系统应用》 2023年第3期15-24,共10页
协商是人们就某些议题进行交流寻求一致协议的过程.而自动协商旨在通过协商智能体的使用降低协商成本、提高协商效率并且优化协商结果.近年来深度强化学习技术开始被运用于自动协商领域并取得了良好的效果,然而依然存在智能体训练时间... 协商是人们就某些议题进行交流寻求一致协议的过程.而自动协商旨在通过协商智能体的使用降低协商成本、提高协商效率并且优化协商结果.近年来深度强化学习技术开始被运用于自动协商领域并取得了良好的效果,然而依然存在智能体训练时间较长、特定协商领域依赖、协商信息利用不充分等问题.为此,本文提出了一种基于TD3深度强化学习算法的协商策略,通过预训练降低训练过程的探索成本,通过优化状态和动作定义提高协商策略的鲁棒性从而适应不同的协商场景,通过多头语义神经网络和对手偏好预测模块充分利用协商的交互信息.实验结果表明,该策略在不同协商环境下都可以很好地完成协商任务. 展开更多
关键词 自动协商 协商策略 深度强化学习 td3算法 偏好预测
下载PDF
基于改进TD3算法的无人机决策研究
14
作者 蒋方庆 陈自力 +2 位作者 高喜俊 王春峰 贺道坤 《信息化研究》 2023年第3期36-42,共7页
针对无人机在执行打击任务时,对飞行区域的环境掌握甚少、飞行区域大、目标稀疏、火力威胁等相对不确定因素会导致任务的完成度低的问题。本文提出利用双策略网络对双延迟深度确定性策略梯度算法(TD3)进行改进,解决单策略动作波动大问... 针对无人机在执行打击任务时,对飞行区域的环境掌握甚少、飞行区域大、目标稀疏、火力威胁等相对不确定因素会导致任务的完成度低的问题。本文提出利用双策略网络对双延迟深度确定性策略梯度算法(TD3)进行改进,解决单策略动作波动大问题。针对优质训练样本利用率低导致的收敛速度慢问题,采用优先经验回放机制提高优质样本利用率。使用改进后的TD3算法训练无人机,通过改变偏航角、俯仰角以及速度控制无人机飞行,无人机在三维环境中完成抵近打击任务并规避威胁。实验结果表明,改进后的算法相比于传统TD3算法,算法收敛的速度更快,无人机的任务完成度可相对提高15%。 展开更多
关键词 无人机 双延迟深度确定性策略梯度算法 双策略网络 优先经验回放
下载PDF
基于动态延迟策略更新的TD3算法 被引量:2
15
作者 康朝海 孙超 +1 位作者 荣垂霆 刘鹏云 《吉林大学学报(信息科学版)》 CAS 2020年第4期474-481,共8页
在深度强化学习领域中,为进一步减少双延迟深度确定性策略梯度TD3(Twin Delayed Deep Deterministic Policy Gradients)中价值过估计对策略估计的影响,加快模型学习的效率,提出一种基于动态延迟策略更新的双延迟深度确定性策略梯度(DD-T... 在深度强化学习领域中,为进一步减少双延迟深度确定性策略梯度TD3(Twin Delayed Deep Deterministic Policy Gradients)中价值过估计对策略估计的影响,加快模型学习的效率,提出一种基于动态延迟策略更新的双延迟深度确定性策略梯度(DD-TD3:Twin Delayed Deep Deterministic Policy Gradients with Dynamic Delayed Policy Update)。在DD-TD3方法中,通过Critic网络的最新Loss值与其指数加权移动平均值的动态差异指导Actor网络的延迟更新步长。实验结果表明,与原始TD3算法在2000步获得较高的奖励值相比,DD-TD3方法可在约1000步内学习到最优控制策略,并且获得更高的奖励值,从而提高寻找最优策略的效率。 展开更多
关键词 深度强化学习 td3算法 动态延迟策略更新
下载PDF
TD3合金离子渗氮耐磨性能研究 被引量:3
16
作者 王红利 王文波 +3 位作者 高洋洋 梁朋飞 杨耀军 刘邱祖 《科学技术与工程》 北大核心 2017年第4期199-202,共4页
采用离子渗氮技术对TD3合金表面进行离子渗氮处理,采用金相显微镜、XRD,对渗氮层的组织形貌、物相结构进行观察分析;用显微硬度仪(维氏)测量渗氮层硬度,再用摩擦磨损试验机(往复式)进行常温干摩擦实验,对其耐磨性、磨痕形貌进行分析。... 采用离子渗氮技术对TD3合金表面进行离子渗氮处理,采用金相显微镜、XRD,对渗氮层的组织形貌、物相结构进行观察分析;用显微硬度仪(维氏)测量渗氮层硬度,再用摩擦磨损试验机(往复式)进行常温干摩擦实验,对其耐磨性、磨痕形貌进行分析。结果表明:渗氮层深度可达80μm,渗氮层显微硬度最高可达1 190 HV,较基材硬度提高2.3倍以上,渗氮层含TiN、Ti_2N。渗氮试样磨痕深度与宽度减小,耐磨性能比基材也有显著提高。 展开更多
关键词 td3合金 离子渗氮 显微硬度 耐磨性能
下载PDF
基于改进TD3的自动驾驶车道保持决策方法 被引量:2
17
作者 田康 于镝 +3 位作者 李擎 张宏昌 吴迎年 范玲玲 《北京交通大学学报》 CAS CSCD 北大核心 2022年第5期84-94,共11页
本文提出基于改进TD3算法的车道保持端到端决策新方案.首先,构建多数据融合TD3算法框架,感知自主车辆运动学数据信息和视觉图像信息来提升算法的稳定性.并且结合注意力机制思想细化图像特征,使得算法关注重要道路信息,以此增强算法可解... 本文提出基于改进TD3算法的车道保持端到端决策新方案.首先,构建多数据融合TD3算法框架,感知自主车辆运动学数据信息和视觉图像信息来提升算法的稳定性.并且结合注意力机制思想细化图像特征,使得算法关注重要道路信息,以此增强算法可解释性.其次,综合考虑驾驶的安全性、舒适性和效率性因素设计了指导型奖励函数,以引导智能体学到更加类人的驾驶策略.最后,采用分类与高价值优先级经验回放方法,以提高样本利用率和加快算法收敛速度.借助TORCS仿真平台,设计了多组对比实验,以验证所提方法的有效性和可行性;并且通过多个场景的仿真测试,验证了改进TD3算法的整体性能优于TD3算法. 展开更多
关键词 深度强化学习 车道保持 td3 多数据融合 注意力机制 经验回放:
下载PDF
改进TD3算法在四旋翼无人机避障中的应用 被引量:9
18
作者 唐蕾 刘广钟 《计算机工程与应用》 CSCD 北大核心 2021年第11期254-259,共6页
为了提高无人机(Unmanned Aerial Vehicle,UAV)系统的智能避障性能,提出了一种基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)的改进算法(Improved Twin Delayed Deep Deterministic Policy Gradi... 为了提高无人机(Unmanned Aerial Vehicle,UAV)系统的智能避障性能,提出了一种基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)的改进算法(Improved Twin Delayed Deep Deterministic Policy Gradient,I-TD3)。该算法通过设置两个经验缓存池分离成功飞行经验和失败飞行经验,并根据两个经验缓存池的不同使用目的分别结合优先经验回放(Prioritized Experience Replay)方法和经验回放(Experience Replay)方法,提高有效经验的采样效率,缓解因无效经验过高导致的训练效率低问题。改进奖励函数,解决因奖励设置不合理导致的训练效果差问题。在AirSim平台上实现仿真实验,结果表明在四旋翼无人机的避障问题上,I-TD3算法的避障效果优于TD3算法和深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法。 展开更多
关键词 双延迟深度确定性策略梯度(td3) 优先经验回放 避障 四旋翼无人机
下载PDF
一种面向Intranet的P2TD3R安全通信模型研究 被引量:1
19
作者 杨德胜 张义超 +1 位作者 郭星 李炜 《现代电子技术》 2012年第2期47-50,共4页
首先分析了P2DR网络安全模型和分布式网络安全模型,在吸收上述2个安全模型优点的基础上,考虑接入网络复杂性的基础上,提出一种P2TD3R安全网络安全模型,该模型将P2DR由网络入口点的检测拓宽到对网络的全面检测,采用端口镜像策略,规避了... 首先分析了P2DR网络安全模型和分布式网络安全模型,在吸收上述2个安全模型优点的基础上,考虑接入网络复杂性的基础上,提出一种P2TD3R安全网络安全模型,该模型将P2DR由网络入口点的检测拓宽到对网络的全面检测,采用端口镜像策略,规避了分布式安全模型对用户网络性能造成影响的缺点。最后,根据P2TD3R安全模型给出了组网实例,编写相应的检测软件和具体的实施细节。 展开更多
关键词 内容检测 接入网 安全体系 P2td3R
下载PDF
基于深度强化学习TD3算法的投资组合管理
20
作者 蒋美英 郑山红 《信息技术与信息化》 2022年第9期177-180,共4页
投资组合问题是指投资者在控制风险的情况下将资产重新分配到不同产品中,实现收益最大化。利用深度强化学习中的TD3算法,并构建基于长短期记忆网络(long short-term memory,LSTM)的TD3算法投资组合模型来进行研究,同时将股票投资组合交... 投资组合问题是指投资者在控制风险的情况下将资产重新分配到不同产品中,实现收益最大化。利用深度强化学习中的TD3算法,并构建基于长短期记忆网络(long short-term memory,LSTM)的TD3算法投资组合模型来进行研究,同时将股票投资组合交易过程定义为马尔可夫决策过程模型。结果表明,深度强化学习算法构建的投资组合模型在累计收益率,夏普比率,最大回撤等评价指标方面都要优于等权重投资组合。表明该方法可以优化投资组合策略,实现股票投资收益最大化,对于投资者来说具有有效的参考价值和研究意义,同时促进了计算机技术与金融领域更好地结合。 展开更多
关键词 td3 LSTM 投资组合 股票 深度强化学习
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部