期刊文献+
共找到673篇文章
< 1 2 34 >
每页显示 20 50 100
Distributed Platooning Control of Automated Vehicles Subject to Replay Attacks Based on Proportional Integral Observers
1
作者 Meiling Xie Derui Ding +3 位作者 Xiaohua Ge Qing-Long Han Hongli Dong Yan Song 《IEEE/CAA Journal of Automatica Sinica》 SCIE EI CSCD 2024年第9期1954-1966,共13页
Secure platooning control plays an important role in enhancing the cooperative driving safety of automated vehicles subject to various security vulnerabilities.This paper focuses on the distributed secure control issu... Secure platooning control plays an important role in enhancing the cooperative driving safety of automated vehicles subject to various security vulnerabilities.This paper focuses on the distributed secure control issue of automated vehicles affected by replay attacks.A proportional-integral-observer(PIO)with predetermined forgetting parameters is first constructed to acquire the dynamical information of vehicles.Then,a time-varying parameter and two positive scalars are employed to describe the temporal behavior of replay attacks.In light of such a scheme and the common properties of Laplace matrices,the closed-loop system with PIO-based controllers is transformed into a switched and time-delayed one.Furthermore,some sufficient conditions are derived to achieve the desired platooning performance by the view of the Lyapunov stability theory.The controller gains are analytically determined by resorting to the solution of certain matrix inequalities only dependent on maximum and minimum eigenvalues of communication topologies.Finally,a simulation example is provided to illustrate the effectiveness of the proposed control strategy. 展开更多
关键词 Automated vehicles platooning control proportional-integral-observers(PIOs) replay attacks TIME-DELAYS
下载PDF
An Innovative Approach Using TKN-Cryptology for Identifying the Replay Assault
2
作者 Syeda Wajiha Zahra Muhammad Nadeem +6 位作者 Ali Arshad Saman Riaz Muhammad Abu Bakr Ashit Kumar Dutta Zaid Alzaid Badr Almutairi Sultan Almotairi 《Computers, Materials & Continua》 SCIE EI 2024年第1期589-616,共28页
Various organizations store data online rather than on physical servers.As the number of user’s data stored in cloud servers increases,the attack rate to access data from cloud servers also increases.Different resear... Various organizations store data online rather than on physical servers.As the number of user’s data stored in cloud servers increases,the attack rate to access data from cloud servers also increases.Different researchers worked on different algorithms to protect cloud data from replay attacks.None of the papers used a technique that simultaneously detects a full-message and partial-message replay attack.This study presents the development of a TKN(Text,Key and Name)cryptographic algorithm aimed at protecting data from replay attacks.The program employs distinct ways to encrypt plain text[P],a user-defined Key[K],and a Secret Code[N].The novelty of the TKN cryptographic algorithm is that the bit value of each text is linked to another value with the help of the proposed algorithm,and the length of the cipher text obtained is twice the length of the original text.In the scenario that an attacker executes a replay attack on the cloud server,engages in cryptanalysis,or manipulates any data,it will result in automated modification of all associated values inside the backend.This mechanism has the benefit of enhancing the detectability of replay attacks.Nevertheless,the attacker cannot access data not included in any of the papers,regardless of how effective the attack strategy is.At the end of paper,the proposed algorithm’s novelty will be compared with different algorithms,and it will be discussed how far the proposed algorithm is better than all other algorithms. 展开更多
关键词 replay attack MALWARE message attack file encryption CRYPTOLOGY data security
下载PDF
Sampled-data control through model-free reinforcement learning with effective experience replay 被引量:2
3
作者 Bo Xiao H.K.Lam +4 位作者 Xiaojie Su Ziwei Wang Frank P.-W.Lo Shihong Chen Eric Yeatman 《Journal of Automation and Intelligence》 2023年第1期20-30,共11页
Reinforcement Learning(RL)based control algorithms can learn the control strategies for nonlinear and uncertain environment during interacting with it.Guided by the rewards generated by environment,a RL agent can lear... Reinforcement Learning(RL)based control algorithms can learn the control strategies for nonlinear and uncertain environment during interacting with it.Guided by the rewards generated by environment,a RL agent can learn the control strategy directly in a model-free way instead of investigating the dynamic model of the environment.In the paper,we propose the sampled-data RL control strategy to reduce the computational demand.In the sampled-data control strategy,the whole control system is of a hybrid structure,in which the plant is of continuous structure while the controller(RL agent)adopts a discrete structure.Given that the continuous states of the plant will be the input of the agent,the state–action value function is approximated by the fully connected feed-forward neural networks(FCFFNN).Instead of learning the controller at every step during the interaction with the environment,the learning and acting stages are decoupled to learn the control strategy more effectively through experience replay.In the acting stage,the most effective experience obtained during the interaction with the environment will be stored and during the learning stage,the stored experience will be replayed to customized times,which helps enhance the experience replay process.The effectiveness of proposed approach will be verified by simulation examples. 展开更多
关键词 Reinforcement learning Neural networks Sampled-data control MODEL-FREE Effective experience replay
下载PDF
浅谈Multiple Replay自由视角在体育赛事上的应用 被引量:1
4
作者 梁均浩 《现代电视技术》 2023年第11期93-97,共5页
在视频直播制作过程中,为达到更好的视觉效果,360°快速动、静态“时间凝结”的画面会让视觉效果更为丰富。本文通过自由视角环绕拍摄的应用实例介绍自由视角拍摄系统。通过视频帧采集、帧对齐、多机位帧画面矫正、动画效果渲染等... 在视频直播制作过程中,为达到更好的视觉效果,360°快速动、静态“时间凝结”的画面会让视觉效果更为丰富。本文通过自由视角环绕拍摄的应用实例介绍自由视角拍摄系统。通过视频帧采集、帧对齐、多机位帧画面矫正、动画效果渲染等处理技术,来实现多台摄像机中获取的画面在空间上和时间上的一致性,从而解决360°视频画面在视角切换时的平滑效果问题,满足自由视角在直播中的应用。 展开更多
关键词 360°视频画面 Multiple replay 自由视角 多机位拍摄
下载PDF
基于TD3-PER的氢燃料电池混合动力汽车能量管理策略研究 被引量:1
5
作者 虞志浩 赵又群 +2 位作者 潘陈兵 何鲲鹏 李丹阳 《汽车技术》 CSCD 北大核心 2024年第1期13-19,共7页
为优化氢燃料电池混合动力汽车的燃料经济性及辅助动力电池性能,提出了一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。采用双延迟深度确定性策略梯度(TD3)算法,在防止训练过优估计的同时实现了更精准的连续控... 为优化氢燃料电池混合动力汽车的燃料经济性及辅助动力电池性能,提出了一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。采用双延迟深度确定性策略梯度(TD3)算法,在防止训练过优估计的同时实现了更精准的连续控制;同时结合优先经验采样(PER)算法,在获得更好优化性能的基础上加速了策略的训练。仿真结果表明:相较于深度确定性策略梯度(DDPG)算法,所提出的TD3-PER能量管理策略的百公里氢耗量降低了7.56%,平均功率波动降低了6.49%。 展开更多
关键词 氢燃料电池混合动力汽车 优先经验采样 双延迟深度确定性策略梯度 连续控制
下载PDF
重放攻击下多智能体系统H_(∞)一致性PID控制
6
作者 宋金波 董宏丽 +1 位作者 申雨轩 侯男 《控制理论与应用》 EI CAS CSCD 北大核心 2024年第4期658-666,共9页
本文针对一类带有加性噪声和乘性噪声的离散多智能体系统,研究重放攻击下多智能体系统的H_(∞)一致性比例-积分-微分(PID)控制问题.首先,根据智能体的测量输出设计状态观测器,对智能体的状态进行有效估计,观测器设计过程中考虑了系统测... 本文针对一类带有加性噪声和乘性噪声的离散多智能体系统,研究重放攻击下多智能体系统的H_(∞)一致性比例-积分-微分(PID)控制问题.首先,根据智能体的测量输出设计状态观测器,对智能体的状态进行有效估计,观测器设计过程中考虑了系统测量输出从传感器传输到观测器过程中受到重放网络攻击的影响.然后,利用智能体与其邻居智能体的估计状态差设计PID控制器.利用李雅普诺夫稳定性理论和代数图论,证明在该控制策略下,多智能体系统在重放攻击存在的情况下达到预期的H_(∞)性能指标.最后,利用线性矩阵不等式(LMI)方法求解观测器和控制器增益,利用数值仿真验证了所设计的观测器和PID控制器的有效性. 展开更多
关键词 多智能体 重放攻击 PID控制 H_(∞)性能 观测器
下载PDF
互联网+微格教学法结合复盘教学方式在外科腹腔镜技能培训中的应用
7
作者 张明杰 张丹丹 +4 位作者 常青 王晓雪 白雪 姚达 谭晓冬 《中国高等医学教育》 2024年第3期90-92,共3页
目的:探讨互联网+微格教学法结合复盘教学方式在外科腹腔镜技能培训的应用效果。方法:选取在本院普通外科进行住院医师规范化培训且既往未受过其他腹腔镜培训的2020级学员30名,随机分为对照组及试验组,每组15人。对照组依照传统培训方... 目的:探讨互联网+微格教学法结合复盘教学方式在外科腹腔镜技能培训的应用效果。方法:选取在本院普通外科进行住院医师规范化培训且既往未受过其他腹腔镜培训的2020级学员30名,随机分为对照组及试验组,每组15人。对照组依照传统培训方式进行技能培训,试验组采用互联网+微格教学法结合复盘教学方式进行培训。分别于培训初始时,培训第8周对两组学员进行操作考核,所有培训结束后对两组学员进行满意度调查。分析两组学员的考核成绩以及教学满意度调查结果。结果:每个模块的考核成绩试验组均明显优于对照组(P<0.001);满意度方面,试验组在培训的教学方式、培训内容的兴趣程度、课程氛围、提升腔镜技能水平、学习成就感层面结果优于对照组(P<0.05)。结论:互联网+微格教学法结合复盘教学方式可以有效地提高学员腹腔镜技能操作水平,提升学员的学习兴趣,培养其主动学习能力,是值得应用的教学方法。 展开更多
关键词 互联网+ 微格教学法 复盘教学 腹腔镜技能培训 住院医师规范化培训
下载PDF
一种机载雷达信号级实时半实物仿真重演系统设计
8
作者 涂志亮 《空天预警研究学报》 CSCD 2024年第4期274-279,共6页
针对机载雷达杂波仿真实时性差、逼真度低的问题,提出了一种基于雷达实装设备开发的实时信号级仿真重演系统设计方案.该方案采用在记录仪回放实飞回波中叠加精细化实时仿真的目标与干扰信号,并可在线调整关键信号与数据处理参数,实现了... 针对机载雷达杂波仿真实时性差、逼真度低的问题,提出了一种基于雷达实装设备开发的实时信号级仿真重演系统设计方案.该方案采用在记录仪回放实飞回波中叠加精细化实时仿真的目标与干扰信号,并可在线调整关键信号与数据处理参数,实现了高逼真度的实时信号级仿真重演,可用于日常演训与作战研究、雷达性能验证改进等任务,具有重演效率高、涵盖内容广的特点.此外,该系统软件接口和通信方式与实装高度兼容,开发效率高且稳定性好. 展开更多
关键词 机载雷达 仿真重演 记录回放 目标模拟
下载PDF
基于ETL的飞行数据复盘软件设计研究
9
作者 王凯 殷华杰 张彦 《航空电子技术》 2024年第2期62-69,共8页
本文针对飞行数据集成复杂、处理效率低等问题,提出了一种基于ETL的飞行数据复盘软件系统设计方案。以飞行数据复盘技术为背景,结合大数据处理技术的ETL方法,提出了一种基于ETL工具的飞行数据融合处理流程和设计方法,描述了系统功能组... 本文针对飞行数据集成复杂、处理效率低等问题,提出了一种基于ETL的飞行数据复盘软件系统设计方案。以飞行数据复盘技术为背景,结合大数据处理技术的ETL方法,提出了一种基于ETL工具的飞行数据融合处理流程和设计方法,描述了系统功能组成、设计流程和实现原理。该方案降低了系统开发的复杂度,提高了飞行数据管理的效率和数据复盘自动化水平。 展开更多
关键词 飞行数据 ETL 数据复盘
下载PDF
基于威胁机制-双重深度Q网络的多功能雷达认知干扰决策
10
作者 黄湘松 查力根 潘大鹏 《应用科技》 CAS 2024年第4期145-153,共9页
针对传统深度Q网络(deep Q network,DQN)在雷达认知干扰决策中容易产生经验遗忘,从而重复执行错误决策的问题,本文提出了一种基于威胁机制双重深度Q网络(threat warning mechanism-double DQN,TW-DDQN)的认知干扰决策方法,该机制包含威... 针对传统深度Q网络(deep Q network,DQN)在雷达认知干扰决策中容易产生经验遗忘,从而重复执行错误决策的问题,本文提出了一种基于威胁机制双重深度Q网络(threat warning mechanism-double DQN,TW-DDQN)的认知干扰决策方法,该机制包含威胁网络和经验回放2种机制。为了验证算法的有效性,在考虑多功能雷达(multifunctional radar,MFR)工作状态与干扰样式之间的关联性的前提下,搭建了基于认知电子战的仿真环境,分析了雷达与干扰机之间的对抗博弈过程,并且在使用TW-DDQN进行训练的过程中,讨论了威胁半径与威胁步长参数的不同对训练过程的影响。仿真实验结果表明,干扰机通过自主学习成功与雷达进行了长时间的博弈,有80%的概率成功突防,训练效果明显优于传统DQN和优先经验回放DDQN(prioritized experience replay-DDQN,PER-DDQN)。 展开更多
关键词 干扰决策 认知电子战 深度Q网络 强化学习 干扰机 多功能雷达 经验回放 恒虚警率探测
下载PDF
一种基于深度Q网络改进的低轨卫星路由算法
11
作者 许向阳 彭文鑫 李京阳 《现代信息科技》 2024年第1期67-70,76,共5页
针对卫星节点高速移动,导致节点之间链路状态变化过快的问题,对基于深度强化学习的卫星路由算法进行了研究,由此提出一种基于深度Q网络改进的卫星路由算法。算法采用虚拟节点的思想,以最小跳数为原则,将跳数和距离设置为奖励函数相关参... 针对卫星节点高速移动,导致节点之间链路状态变化过快的问题,对基于深度强化学习的卫星路由算法进行了研究,由此提出一种基于深度Q网络改进的卫星路由算法。算法采用虚拟节点的思想,以最小跳数为原则,将跳数和距离设置为奖励函数相关参数。同时设置优先经验回放机制,使得算法训练中学习价值最高的样本;最后对网络进行参数的设置并且进行训练。仿真结果表明,从网络传输时延、系统吞吐量、丢包率方面有明显的提升,能有效地适应卫星节点之间链路状态高动态变化。 展开更多
关键词 卫星路由 虚拟节点 优先经验回放 深度Q网络
下载PDF
基于PER-PPO2的入侵检测技术
12
作者 黄迎春 任国杰 《沈阳理工大学学报》 CAS 2024年第5期7-13,共7页
随着万物信息化与智能化的快速发展,网络攻击范围不断扩大。传统的入侵检测算法,如主成分分析(PCA)结合随机森林和K近邻等,由于网络数据繁多,特征提取能力较差,分类准确率低。针对上述问题,提出一种新的入侵检测技术,称为优先经验采样... 随着万物信息化与智能化的快速发展,网络攻击范围不断扩大。传统的入侵检测算法,如主成分分析(PCA)结合随机森林和K近邻等,由于网络数据繁多,特征提取能力较差,分类准确率低。针对上述问题,提出一种新的入侵检测技术,称为优先经验采样的近端策略优化裁剪(prioritized experience replay-proximal policy optimization clip, PER-PPO2)算法,基于强化学习实现包裹法特征选择。深度强化学习通过构建以分类器混淆矩阵为基础的奖励函数,使智能体根据奖励反馈选择分类器的较优特征,结合优先经验采样优化算法的训练样本,提高算法的稳定性与收敛性能;使用性能较优的轻量级梯度提升机(LightGBM)作为分类器。使用NSL-KDD数据集对模型进行实验评估,结果表明模型将数据集的41维特征降低为8维时分类F1值达到0.871 3,可以满足入侵检测的要求。 展开更多
关键词 近端策略优化裁剪 优先经验采样 入侵检测 深度强化学习 LightGBM
下载PDF
基于门控机制与重放策略的持续语义分割方法
13
作者 杨静 何瑶 +3 位作者 李斌 李少波 胡建军 溥江 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第7期2908-2917,共10页
基于深度神经网络的语义分割模型在增量更新知识时由于新旧任务参数之间的干扰加之背景漂移现象,会加剧灾难性遗忘。此外,数据常常由于隐私、安全等因素无法被存储导致模型失效。为此,该文提出基于门控机制与重放策略的持续语义分割方... 基于深度神经网络的语义分割模型在增量更新知识时由于新旧任务参数之间的干扰加之背景漂移现象,会加剧灾难性遗忘。此外,数据常常由于隐私、安全等因素无法被存储导致模型失效。为此,该文提出基于门控机制与重放策略的持续语义分割方法。首先,在不存储旧数据的情况下,通过生成对抗网络生成及网页抓取作为数据来源,使用标签评估模块解决无监督问题、背景自绘模块解决背景漂移问题;接着,使用重放策略缓解灾难性遗忘;最后,将门控变量作为一种正则化手段增加模型稀疏性,研究了门控变量与持续学习重放策略结合的特殊情况。在Pascal VOC2012数据集上的评估结果表明,在复杂场景10-2,生成对抗网络(GAN)、Web的设置中,该文在全部增量步骤结束后的旧任务性能比基线分别提升了3.8%,3.7%,在场景10-1中,相比于基线分别提升了2.7%,1.3%。 展开更多
关键词 持续学习 语义分割 重放策略 门控变量
下载PDF
面向兵棋推演复盘分析的机器学习数据集构建
14
作者 张大永 杨镜宇 +1 位作者 马骏 宋晨烨 《系统仿真学报》 CAS CSCD 北大核心 2024年第3期608-624,共17页
运用机器学习进行兵棋推演复盘分析,首先要解决的是数据集构建问题。由于机器学习对数据结构的规范化要求,以及算力和存储限制,通过兵棋推演数据构建机器学习数据集,在如何描述兵棋推演状态,如何描述推演过程,如何处理高维数据,如何数... 运用机器学习进行兵棋推演复盘分析,首先要解决的是数据集构建问题。由于机器学习对数据结构的规范化要求,以及算力和存储限制,通过兵棋推演数据构建机器学习数据集,在如何描述兵棋推演状态,如何描述推演过程,如何处理高维数据,如何数据保真等方面,还面临不少问题。针对此类问题,构建了兵棋推演过程数据向机器学习数据集映射模型,在总体框架上对数据集构建的映射流程、态势描述数据范围和数据统计计算规则进行规范,并从时间关联数据、地理空间关联数据和高维数据降维3个视角设计针对性处理方法,以保证构建数据集的数据结构统一、高维数据降维需求和数据集保真要求。通过数据集构建实验进行了验证,结果表明:在时间分辨率和地理空间分辨率适中情况下,所构建数据集映射模型,既能较好对兵棋推演高维数据进行降维,又能较好防止构建的数据集失真。 展开更多
关键词 兵棋推演 复盘分析 机器学习 数据集 构建方法
下载PDF
基于优势后见经验回放的强化学习导航方法
15
作者 王少桐 况立群 +2 位作者 韩慧妍 熊风光 薛红新 《计算机工程》 CSCD 北大核心 2024年第1期313-319,共7页
目前强化学习在移动机器人领域表现出了强大的潜力,将强化学习算法与机器人导航相结合,不需要依赖先验知识就可以实现移动机器人的自主导航,但是在机器人强化学习过程中存在样本利用率低且泛化能力不强的问题。针对上述问题,在D3QN算法... 目前强化学习在移动机器人领域表现出了强大的潜力,将强化学习算法与机器人导航相结合,不需要依赖先验知识就可以实现移动机器人的自主导航,但是在机器人强化学习过程中存在样本利用率低且泛化能力不强的问题。针对上述问题,在D3QN算法的基础上提出优势后见经验回放算法用于经验样本的回放。首先计算轨迹样本中轨迹点的优势函数值,选择优势函数最大值的点作为目标点,然后对轨迹样本进行重新标记,将新旧轨迹样本一同放入经验池中增加经验样本的多样性,使智能体利用失败的经验样本学习,更高效地实现到目标点的导航。为评估该方法的有效性,基于Gazebo平台搭建不同的实验环境,并采用TurtleBot3机器人在仿真环境下进行导航训练与迁移测试,结果表明,该算法在训练环境下导航成功率高于当前主流算法,在迁移测试环境中导航成功率可达86.33%,能够有效提高导航样本利用率,降低导航策略学习难度,增强移动机器人在不同环境中的自主导航能力和迁移泛化能力。 展开更多
关键词 强化学习 移动机器人 后见经验回放 神经网络 样本利用率
下载PDF
网络控制系统中利用主动丢包的重放攻击检测方法
16
作者 胡健坤 尹逊和 陈丽红 《北京交通大学学报》 CAS CSCD 北大核心 2024年第2期134-143,共10页
为实现网络控制系统(Networked Control Systems,NCS)中重放攻击的检测,在现有研究利用物理水印检测重放攻击的启发下,设计了利用主动丢包对重放攻击进行实时检测的方法 .首先,在理论层面上,利用系统输出的残差构建检测函数,并通过受攻... 为实现网络控制系统(Networked Control Systems,NCS)中重放攻击的检测,在现有研究利用物理水印检测重放攻击的启发下,设计了利用主动丢包对重放攻击进行实时检测的方法 .首先,在理论层面上,利用系统输出的残差构建检测函数,并通过受攻击前后检测函数的变化,证明该检测方法的有效性.然后,以一辆四轮汽车为被控对象,比较车辆受攻击前后速度与检测函数的变化.最后,综合考虑车辆对重放攻击的检测结果与速度跟踪结果,确定车辆的最优主动丢包率的范围区间.结果表明:加入主动丢包前,车辆受到重放攻击时,速度会发生剧烈变化而检测函数几乎没有变化;加入主动丢包后,车辆受到重放攻击时,速度剧烈变化的同时检测函数也产生了剧烈的变化;主动丢包率为12%~16%时,系统既能够准确地检测出重放攻击,又能够保证车辆平稳行驶,为后续的重放攻击检测研究提供了参考. 展开更多
关键词 网络控制系统 重放攻击 主动丢包 卡方检测
下载PDF
图终身学习:综述
17
作者 刘壮 董子宸 +8 位作者 董宜琳 尚家名 张帆 陈雨然 楼佩妍 孙欣然 王昱 赵军 Wayne Lin 《计算机研究与发展》 EI CSCD 北大核心 2024年第8期2067-2096,共30页
图终身学习(lifelong graph learning,LGL)是一个新兴领域,旨在实现对图结构数据的持续学习,以解决现有任务上的灾难性遗忘问题,并使得顺序更新的模型能够适应新出现的图任务.尽管LGL展现出良好的学习能力,但如何持续提高其性能仍然是... 图终身学习(lifelong graph learning,LGL)是一个新兴领域,旨在实现对图结构数据的持续学习,以解决现有任务上的灾难性遗忘问题,并使得顺序更新的模型能够适应新出现的图任务.尽管LGL展现出良好的学习能力,但如何持续提高其性能仍然是一个至关重要的问题.为填补现有研究对这一方面的空白,对最近在LGL领域的研究进行了全面调查和总结.首先,重新分类了LGL的现有方法,重点关注克服灾难性遗忘的方法.随后,系统地分析了这些方法的优缺点,并探讨了实现持续性能提升的潜在解决方案.该研究着重于如何在持续学习的过程中避免对旧任务的遗忘,同时快速适应新任务的挑战.最后,还就LGL的未来发展方向进行了讨论,涵盖了其在应用领域、开放性问题等方面的潜在影响,并具体分析了这些方向对持续性能改进的潜在影响.这些讨论将有助于指导未来LGL研究的方向,推动这一领域的进一步发展与应用. 展开更多
关键词 图终身学习(LGL) 图神经网络(GNN) 重放 正则化 持续学习 增量学习 灾难性遗忘
下载PDF
基于多维度优先级经验回放机制的深度确定性策略梯度算法
18
作者 荣垂霆 李海军 +2 位作者 朱恒伟 刘延旭 于士军 《德州学院学报》 2024年第4期21-27,32,共8页
为进一步提高深度确定性策略梯度算法在处理强化学习连续动作任务中的收敛速度,提出了一种基于多维度优先级经验回放机制的深度确定性策略梯度算法。首先,针对经验回放机制中样本数据利用率低的问题,利用时间差分误差指标对样本进行分类... 为进一步提高深度确定性策略梯度算法在处理强化学习连续动作任务中的收敛速度,提出了一种基于多维度优先级经验回放机制的深度确定性策略梯度算法。首先,针对经验回放机制中样本数据利用率低的问题,利用时间差分误差指标对样本进行分类;其次,利用稀缺性和新奇性两个指标对样本进行评分,并将稀缺性和新奇性的评分进行加权组合,得到最终的优先级评分;最后,将设计的多维度优先级经验回放机制方法应用在深度确定性策略梯度算法中,在强化学习连续控制任务中对改进算法进行测试,实验结果表明,改进算法的收敛速度有所提升。 展开更多
关键词 深度确定性策略梯度算法 强化学习 经验回放机制 多维度优先级
下载PDF
COURIER:基于非抢占式优先排队和优先经验重放DRL的边缘计算任务调度与卸载方法
19
作者 杨秀文 崔允贺 +2 位作者 钱清 郭春 申国伟 《计算机科学》 CSCD 北大核心 2024年第5期293-305,共13页
边缘计算(Edge Computing,EC)将计算、存储等资源部署在网络边缘,以满足业务对时延和能耗的要求。计算卸载是EC中的关键技术之一。现有的计算卸载方法在估计任务排队时延时使用M/M/1/∞/∞/FCFS或M/M/n/∞/∞/FCFS排队模型,未考虑高时... 边缘计算(Edge Computing,EC)将计算、存储等资源部署在网络边缘,以满足业务对时延和能耗的要求。计算卸载是EC中的关键技术之一。现有的计算卸载方法在估计任务排队时延时使用M/M/1/∞/∞/FCFS或M/M/n/∞/∞/FCFS排队模型,未考虑高时延敏感型任务的优先执行问题,使得一些对时延要求不敏感的计算任务长期占用计算资源,导致系统的时延开销过大。此外,现有的经验重放方法大多采用随机采样方式,该方式不能区分经验的优劣,造成经验利用率低,神经网络收敛速度慢。基于确定性策略深度强化学习(Deep Reinforcement Learning,DRL)的计算卸载方法存在智能体对环境的探索能力弱和鲁棒性低等问题,降低了求解计算卸载问题的精度。为解决以上问题,考虑边缘计算中多任务移动设备、多边缘服务器的计算卸载场景,以最小化系统时延和能耗联合开销为目标,研究任务调度与卸载决策问题,并提出了基于非抢占式优先排队和优先经验重放DRL的计算卸载方法(Computation Offloading qUeuing pRioritIzed Experience Replay DRL,COURIER)。COURIER针对任务调度问题,设计了非抢占式优先排队模型(M/M/n/∞/∞/NPR)以优化任务的排队时延;针对卸载决策问题,基于软演员-评论家(Soft Actor Critic,SAC)提出了优先经验重放SAC的卸载决策机制,该机制在目标函数中加入信息熵,使智能体采取随机策略,同时优化机制中的经验采样方式以加快网络的收敛速度。仿真实验结果表明,COURIER能有效降低EC系统时延和能耗联合开销。 展开更多
关键词 边缘计算 计算卸载 非抢占式优先排队 信息熵 深度强化学习 优先经验重放
下载PDF
深度强化学习的通用插件研究综述
20
作者 钟欣见 王永华 李明 《河北科技大学学报》 CAS 北大核心 2024年第4期362-372,共11页
深度强化学习的通用插件是一种可附加于大部分原生算法之上,并与其他种类插件兼容的算法类型。根据环境的不同,原生算法加入合适的插件后形成了不同的变体,并在训练速度、稳定性等方面取得了更好的效果。根据各类变体包含的通用插件在... 深度强化学习的通用插件是一种可附加于大部分原生算法之上,并与其他种类插件兼容的算法类型。根据环境的不同,原生算法加入合适的插件后形成了不同的变体,并在训练速度、稳定性等方面取得了更好的效果。根据各类变体包含的通用插件在训练流程中的共性,将它们分为了6类,包括通用网络模型、内在奖励、经验回放、自我博弈、模仿学习和课程学习。综述了这6类算法中常用的通用插件,介绍了它们的应用场景和在深度强化学习中的主要作用,提出了未来的研究重点:1)提高经验利用效率;2)设计和训练出通用神经网络架构;3)提高算法在稀疏奖励环境的探索效率;4)提高算法在现实中应对各种突发状况的能力。 展开更多
关键词 人工智能理论 通用插件 深度强化学习 模型设计 内在奖励 经验回放 自我博弈
下载PDF
上一页 1 2 34 下一页 到第
使用帮助 返回顶部