期刊文献+
共找到41篇文章
< 1 2 3 >
每页显示 20 50 100
基于延迟策略的最大熵优势演员评论家算法 被引量:1
1
作者 祁文凯 桑国明 《小型微型计算机系统》 CSCD 北大核心 2020年第8期1656-1664,共9页
在强化学习中智能体通过与环境交互获得奖励值,更高的奖励值需要更优的策略,但在高维复杂的环境中,传统的强化学习算法交互产生的样本复杂度较高,并且会产生过估计问题,导致计算最优策略的过程产生较大的波动,算法难以收敛.针对上述问题... 在强化学习中智能体通过与环境交互获得奖励值,更高的奖励值需要更优的策略,但在高维复杂的环境中,传统的强化学习算法交互产生的样本复杂度较高,并且会产生过估计问题,导致计算最优策略的过程产生较大的波动,算法难以收敛.针对上述问题,提出了一种基于延迟策略的最大熵优势演员评论家强化学习算法(DAAC).DAAC算法基于传统的策略梯度演员评论家算法框架,使用了两个评论家网络,分别计算状态值函数和动作的优势估计值函数并最大化目标策略的预期熵,在评论家网络中使用延迟策略更新的技巧.该算法在基于Linux平台的OpenAI Gym的物理仿真模拟器Mu JoCo进行了实验,并与传统的强化学习算法DQN,TRPO,DDPG在不同的机器人模拟器中作对比,实验结果表明,DAAC算法有效地降低了计算过程的波动性,使策略更快收敛到最优解并获得了更高的奖励值. 展开更多
关键词 强化学习 策略梯度 延迟更新 最大熵 演员评论家网络
下载PDF
基于改进柔性演员评论家算法的研究 被引量:2
2
作者 胡仕柯 赵海军 《太原师范学院学报(自然科学版)》 2021年第3期48-52,共5页
针对柔性演员评论家算法训练速度慢且训练过程不稳定的问题,提出了一种改进柔性演员评论家算法.通过在原有算法中引入内在好奇心机制,提高智能体探索能力与样本利用效率,并在仿真环境中用于求解倒立摆问题,实验结果表明文章算法具有更... 针对柔性演员评论家算法训练速度慢且训练过程不稳定的问题,提出了一种改进柔性演员评论家算法.通过在原有算法中引入内在好奇心机制,提高智能体探索能力与样本利用效率,并在仿真环境中用于求解倒立摆问题,实验结果表明文章算法具有更佳的收敛速度与稳定性. 展开更多
关键词 深度强化学习 柔性演员评论家算法 内在好奇心 样本利用效率
下载PDF
基于柔性演员-评论家算法的决策规划协同研究
3
作者 唐斌 刘光耀 +3 位作者 江浩斌 田宁 米伟 王春宏 《交通运输系统工程与信息》 EI CSCD 北大核心 2024年第2期105-113,187,共10页
为了解决基于常规深度强化学习(Deep Reinforcement Learning, DRL)的自动驾驶决策存在学习速度慢、安全性及合理性较差的问题,本文提出一种基于柔性演员-评论家(Soft Actor-Critic,SAC)算法的自动驾驶决策规划协同方法,并将SAC算法与... 为了解决基于常规深度强化学习(Deep Reinforcement Learning, DRL)的自动驾驶决策存在学习速度慢、安全性及合理性较差的问题,本文提出一种基于柔性演员-评论家(Soft Actor-Critic,SAC)算法的自动驾驶决策规划协同方法,并将SAC算法与基于规则的决策规划方法相结合设计自动驾驶决策规划协同智能体。结合自注意力机制(Self Attention Mechanism, SAM)和门控循环单元(Gate Recurrent Unit, GRU)构建预处理网络;根据规划模块的具体实现方式设计动作空间;运用信息反馈思想设计奖励函数,给智能体添加车辆行驶条件约束,并将轨迹信息传递给决策模块,实现决策规划的信息协同。在CARLA自动驾驶仿真平台中搭建交通场景对智能体进行训练,并在不同场景中将所提出的决策规划协同方法与常规的基于SAC算法的决策规划方法进行比较,结果表明,本文所设计的自动驾驶决策规划协同智能体学习速度提高了25.10%,由其决策结果生成的平均车速更高,车速变化率更小,更接近道路期望车速,路径长度与曲率变化率更小。 展开更多
关键词 智能交通 自动驾驶 柔性演员-评论家算法 决策规划协同 深度强化学习
下载PDF
基于柔性演员-评论家算法的自适应巡航控制研究 被引量:4
4
作者 赵克刚 石翠铎 +2 位作者 梁志豪 李梓棋 王玉龙 《汽车技术》 CSCD 北大核心 2023年第3期26-34,共9页
针对目前自适应巡航控制技术中,深度强化学习的控制算法环境适应能力不足、模型迁移性及泛化能力较差的问题,提出一种基于最大熵原理和随机离线策略的柔性演员-评论家(SAC)控制算法。构建演员和评论家网络拟合动作值函数和动作策略函数... 针对目前自适应巡航控制技术中,深度强化学习的控制算法环境适应能力不足、模型迁移性及泛化能力较差的问题,提出一种基于最大熵原理和随机离线策略的柔性演员-评论家(SAC)控制算法。构建演员和评论家网络拟合动作值函数和动作策略函数,并使用自调节温度系数改善智能体的环境探索能力;针对奖励稀疏问题,运用奖励塑造思想设计奖励函数;此外,提出一种新的经验回放机制以提高样本利用率。将所提出的控制算法在不同场景中进行仿真及实车验证,并与深度确定性策略梯度(DDPG)算法进行比较,结果表明,该算法具有更好的模型泛化能力和实车迁移效果。 展开更多
关键词 自适应巡航控制 柔性演员-评论 可迁移性 深度强化学习
下载PDF
基于多智能体柔性演员-评论家学习的服务功能链部署算法 被引量:2
5
作者 唐伦 李师锐 +1 位作者 杜雨聪 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2023年第8期2893-2901,共9页
针对网络功能虚拟化(NFV)架构下业务请求动态变化引起的服务功能链(SFC)部署优化问题,该文提出一种基于多智能体柔性演员-评论家(MASAC)学习的SFC部署优化算法。首先,建立资源负载惩罚、SFC部署成本和时延成本最小化的模型,同时受限于SF... 针对网络功能虚拟化(NFV)架构下业务请求动态变化引起的服务功能链(SFC)部署优化问题,该文提出一种基于多智能体柔性演员-评论家(MASAC)学习的SFC部署优化算法。首先,建立资源负载惩罚、SFC部署成本和时延成本最小化的模型,同时受限于SFC端到端时延和网络资源预留阈值约束。其次,将随机优化问题转化为马尔可夫决策过程(MDP),实现SFC动态部署和资源的均衡调度,还进一步提出基于业务分工的多决策者编排方案。最后,在分布式多智能体系统中采用柔性演员-评论家(SAC)算法以增强探索能力,并引入了中央注意力机制和优势函数,能够动态和有选择性地关注获取更大部署回报的信息。仿真结果表明,所提算法可以实现负载惩罚、时延和部署成本的优化,并随业务请求量的增加能更好地扩展。 展开更多
关键词 网络功能虚拟化 服务功能链 柔性演员-评论家学习 多智能体强化学习
下载PDF
基于迁移演员-评论家学习的服务功能链部署算法 被引量:6
6
作者 唐伦 贺小雨 +1 位作者 王晓 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2020年第11期2671-2679,共9页
针对5G网络切片环境下由于业务请求的随机性和未知性导致的资源分配不合理从而引起的系统高时延问题,该文提出了一种基于迁移演员-评论家(A-C)学习的服务功能链(SFC)部署算法(TACA)。首先,该算法建立基于虚拟网络功能放置、计算资源、... 针对5G网络切片环境下由于业务请求的随机性和未知性导致的资源分配不合理从而引起的系统高时延问题,该文提出了一种基于迁移演员-评论家(A-C)学习的服务功能链(SFC)部署算法(TACA)。首先,该算法建立基于虚拟网络功能放置、计算资源、链路带宽资源和前传网络资源联合分配的端到端时延最小化模型,并将其转化为离散时间马尔可夫决策过程(MDP)。而后,在该MDP中采用A-C学习算法与环境进行不断交互动态调整SFC部署策略,优化端到端时延。进一步,为了实现并加速该A-C算法在其他相似目标任务中(如业务请求到达率普遍更高)的收敛过程,采用迁移A-C学习算法实现利用源任务学习的SFC部署知识快速寻找目标任务中的部署策略。仿真结果表明,该文所提算法能够减小且稳定SFC业务数据包的队列积压,优化系统端到端时延,并提高资源利用率。 展开更多
关键词 网络切片 服务功能链部署 马尔可夫决策过程 演员-评论家学习 迁移学习
下载PDF
基于异步优势演员-评论家学习的服务功能链资源分配算法 被引量:8
7
作者 唐伦 贺小雨 +3 位作者 王晓 谭颀 胡彦娟 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2021年第6期1733-1741,共9页
考虑网络全局信息难以获悉的实际情况,针对接入网切片场景下用户终端(UE)的移动性和数据包到达的动态性导致的资源分配优化问题,该文提出了一种基于异步优势演员-评论家(A3C)学习的服务功能链(SFC)资源分配算法。首先,该算法建立基于区... 考虑网络全局信息难以获悉的实际情况,针对接入网切片场景下用户终端(UE)的移动性和数据包到达的动态性导致的资源分配优化问题,该文提出了一种基于异步优势演员-评论家(A3C)学习的服务功能链(SFC)资源分配算法。首先,该算法建立基于区块链的资源管理机制,通过区块链技术实现可信地共享并更新网络全局信息,监督并记录SFC资源分配过程。然后,建立UE移动和数据包到达时变情况下的无线资源、计算资源和带宽资源联合分配的时延最小化模型,并进一步将其转化为马尔科夫决策过程(MDP)。最后,在所建立的MDP中采用A3C学习方法,实现资源分配策略的求解。仿真结果表明,该算法能够更加合理高效地利用资源,优化系统时延并保证UE需求。 展开更多
关键词 网络切片 服务功能链资源分配 马尔科夫决策过程 异步优势演员-评论家学习 区块链
下载PDF
基于优势演员-评论家算法的强化自动摘要模型 被引量:6
8
作者 杜嘻嘻 程华 房一泉 《计算机应用》 CSCD 北大核心 2021年第3期699-705,共7页
针对长文本自动摘要任务中抽取式模型摘要较为冗余,而生成式摘要模型时常有关键信息丢失、摘要不准确和生成内容重复等问题,提出一种面向长文本的基于优势演员-评论家算法的强化自动摘要模型(A2C-RLAS)。首先,用基于卷积神经网络(CNN)... 针对长文本自动摘要任务中抽取式模型摘要较为冗余,而生成式摘要模型时常有关键信息丢失、摘要不准确和生成内容重复等问题,提出一种面向长文本的基于优势演员-评论家算法的强化自动摘要模型(A2C-RLAS)。首先,用基于卷积神经网络(CNN)和循环神经网络(RNN)的混合神经网络的抽取器(extractor)来提取原文关键句;然后,用基于拷贝机制和注意力机制的重写器(rewriter)来精炼关键句;最后,使用强化学习的优势演员-评论家(A2C)算法训练整个网络,把重写摘要和参考摘要的语义相似性(BERTScore值)作为奖励(reward)来指导抽取过程,从而提高抽取器提取句子的质量。在CNN/Daily Mail数据集上的实验结果表明,与基于强化学习的抽取式摘要(Refresh)模型、基于循环神经网络的抽取式摘要序列模型(SummaRuNNer)和分布语义奖励(DSR)模型等模型相比,A2C-RLAS的最终摘要内容更加准确、语言更加流畅,冗余的内容有效减少,且A2C-RLAS的ROUGE和BERTScore指标均有提升。相较于Refresh模型和SummaRuNNer模型,A2C-RLAS模型的ROUGE-L值分别提高了6.3%和10.2%;相较于DSR模型,A2C-RLAS模型的F1值提高了30.5%。 展开更多
关键词 自动摘要模型 抽取式摘要模型 生成式摘要模型 编码器-解码器 强化学习 优势演员-评论家算法
下载PDF
基于优势演员-评论家算法的危险货物集装箱堆场安全堆存空间分配
9
作者 沈阳 黄诚 宓为建 《上海海事大学学报》 北大核心 2022年第3期13-20,61,共9页
针对危险货物集装箱(简称危货箱)堆场堆存空间分配的安全性问题,通过分析危货箱堆存的风险因素及安全堆存规范,提出一种以安全堆存空间利用率和安全指数最大为目标的危货箱堆场安全堆存空间分配多目标优化模型。设计优势演员-评论家(adv... 针对危险货物集装箱(简称危货箱)堆场堆存空间分配的安全性问题,通过分析危货箱堆存的风险因素及安全堆存规范,提出一种以安全堆存空间利用率和安全指数最大为目标的危货箱堆场安全堆存空间分配多目标优化模型。设计优势演员-评论家(advantage actor-critic,A2C)算法对模型进行求解,并通过算例分析和对比验证方法的有效性及优越性。结果表明,该方法能够获得在降低作业风险和提高事故应急处置能力条件下的危货箱堆场最优堆存空间分配策略,从而提高危货箱堆存安全性和堆场利用率。 展开更多
关键词 危险货物集装箱 安全堆存空间分配 多目标优化 优势演员-评论家算法
下载PDF
基于深度强化学习的自适应股票交易策略
10
作者 孙志磊 唐俊洋 +4 位作者 丰硕 刘炜 兰雪锋 张文珠 赵澄 《浙江工业大学学报》 CAS 北大核心 2024年第2期188-195,共8页
股票交易策略的制定在金融市场投资中起着至关重要的作用。为帮助投资者在多变复杂的股票市场作出最优决策,降低制定投资策略的难度,基于LSTM-SAC模型构建自适应股票交易策略。首先,将堆叠式长短期记忆网络(Long short-term memory,LSTM... 股票交易策略的制定在金融市场投资中起着至关重要的作用。为帮助投资者在多变复杂的股票市场作出最优决策,降低制定投资策略的难度,基于LSTM-SAC模型构建自适应股票交易策略。首先,将堆叠式长短期记忆网络(Long short-term memory,LSTM)预测的股票收益率与股票历史数据相结合来表示市场状况;其次,根据观测的市场信息强化学习智能体,基于自动熵调节(Soft actor-critic,SAC)进行自我交易决策调整以适应市场变化;最后,以微分夏普比率作为智能体学习的目标函数以平衡利益和风险,同时优化交易频率以降低交易成本。研究结果表明:相较于其他股票交易策略,该策略在道琼斯30和上证50市场均具有较高的年化收益,验证了其在不同市场的有效性和稳定性。 展开更多
关键词 深度强化学习 股票交易策略 堆叠式长短期记忆网络 柔性演员评论
下载PDF
基于深度强化学习的电子政务云动态化任务调度方法
11
作者 龙宇杰 修熙 +3 位作者 黄庆 黄晓勉 李莹 吴维刚 《计算机应用研究》 CSCD 北大核心 2024年第6期1797-1802,共6页
电子政务云中心的任务调度一直是个复杂的问题。大多数现有的任务调度方法依赖于专家知识,通用性不强,无法处理动态的云环境,通常会导致云中心的资源利用率降低和服务质量下降,任务的完工时间变长。为此,提出了一种基于演员评论家(actor... 电子政务云中心的任务调度一直是个复杂的问题。大多数现有的任务调度方法依赖于专家知识,通用性不强,无法处理动态的云环境,通常会导致云中心的资源利用率降低和服务质量下降,任务的完工时间变长。为此,提出了一种基于演员评论家(actor-critic,A2C)算法的深度强化学习调度方法。首先,actor网络参数化策略根据当前系统状态选择调度动作,同时critic网络对当前系统状态给出评分;然后,使用梯度上升的方式来更新actor策略网络,其中使用了critic网络的评分来计算动作的优劣;最后,使用了两个真实的业务数据集进行模拟实验。结果显示,与经典的策略梯度算法以及五个启发式任务调度方法相比,该方法可以提高云数据中心的资源利用率并缩短离线任务的完工时间,能更好地适应动态的电子政务云环境。 展开更多
关键词 电子政务 云计算 任务调度 深度强化学习 演员评论家算法
下载PDF
基于最大熵深度强化学习的双足机器人步态控制方法 被引量:1
12
作者 李源潮 陶重犇 王琛 《计算机应用》 CSCD 北大核心 2024年第2期445-451,共7页
针对双足机器人连续直线行走的步态稳定控制问题,提出一种基于最大熵深度强化学习(DRL)的柔性演员-评论家(SAC)步态控制方法。首先,该方法无需事先建立准确的机器人动力学模型,所有参数均来自关节角而无需额外的传感器;其次,采用余弦相... 针对双足机器人连续直线行走的步态稳定控制问题,提出一种基于最大熵深度强化学习(DRL)的柔性演员-评论家(SAC)步态控制方法。首先,该方法无需事先建立准确的机器人动力学模型,所有参数均来自关节角而无需额外的传感器;其次,采用余弦相似度方法对经验样本分类,优化经验回放机制;最后,根据知识和经验设计奖励函数,使双足机器人在直线行走训练过程中不断进行姿态调整,确保直线行走的鲁棒性。在Roboschool仿真环境中与其他先进深度强化学习算法,如近端策略优化(PPO)方法和信赖域策略优化(TRPO)方法的实验对比结果表明,所提方法不仅实现了双足机器人快速稳定的直线行走,而且鲁棒性更好。 展开更多
关键词 双足机器人 步态控制 深度强化学习 最大熵 柔性演员-评论家算法
下载PDF
基于SAC的炼厂原油储运调度方法
13
作者 马楠 李洪奇 +1 位作者 刘华林 杨磊 《化工进展》 EI CAS CSCD 北大核心 2024年第3期1167-1177,共11页
目前对于炼厂原油储运调度决策的研究大多采用基于数学规划的静态调度方案,求解时间较长并且无法针对环境的变化进行实时高效的储运调度优化。为此,本文结合深度强化学习算法建立了考虑炼厂生产约束的原油资源储运动态实时调度决策算法... 目前对于炼厂原油储运调度决策的研究大多采用基于数学规划的静态调度方案,求解时间较长并且无法针对环境的变化进行实时高效的储运调度优化。为此,本文结合深度强化学习算法建立了考虑炼厂生产约束的原油资源储运动态实时调度决策算法。该算法首先将炼厂原油资源调度问题转换为马尔可夫决策过程,其次提出了一种基于软演员-评论家(soft actor-critic,SAC)的深度强化学习算法来同时确定调度过程中的传输目标等离散决策以及传输速度等连续决策。结果表明,算法学习到的策略可行性较好,与基线算法相比,油轮在港时间、调度方案事件数量、加工计划执行率等重要指标方面均得到了较好的效果,在求解时间方面大幅提升至毫秒级,并有效控制随机事件对整体决策的影响范围。该算法可为沿海炼厂原油储运调度快速决策提供新的思路。 展开更多
关键词 炼厂原油储运 资源调度 深度强化学习 演员-评论
下载PDF
基于双智能体深度强化学习的交直流配电网经济调度方法
14
作者 赵倩宇 韩照洋 +3 位作者 王守相 尹孜阳 董逸超 钱广超 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2024年第6期624-632,共9页
随着大量直流电源和负荷的接入,交直流混合的配电网技术已成为未来配电网的发展趋势.然而,源荷不确定性及可调度设备的类型多样化给配电网调度带来了巨大的挑战.本文提出了基于分支决斗深度强化网络(branching dueling Q-network,BDQ)... 随着大量直流电源和负荷的接入,交直流混合的配电网技术已成为未来配电网的发展趋势.然而,源荷不确定性及可调度设备的类型多样化给配电网调度带来了巨大的挑战.本文提出了基于分支决斗深度强化网络(branching dueling Q-network,BDQ)和软演员-评论家(soft actor critic,SAC)双智能体深度强化学习的交直流配电网调度方法.该方法首先将经济调度问题与两智能体的动作、奖励、状态相结合,建立经济调度的马尔可夫决策过程,并分别基于BDQ和SAC方法设置两个智能体,其中,BDQ智能体用于控制配电网中离散动作设备,SAC智能体用于控制连续动作设备.然后,通过集中训练分散执行的方式,两智能体与环境进行交互,进行离线训练.最后,固定智能体的参数,进行在线调度.该方法的优势在于采用双智能体能够同时控制离散动作设备电容器组、载调压变压器和连续动作设备变流器、储能,同时通过对双智能体的集中训练,可以自适应源荷的不确定性.改进的IEEE33节点交直流配电网算例测试验证了所提方法的有效性. 展开更多
关键词 交直流配电网 深度强化学习 经济调度 分支决斗深度强化网络 演员-评论
下载PDF
基于深度强化学习的机械臂多模混合控制
15
作者 李家乐 张建锋 +2 位作者 李彬 刘天琅 陈检 《计算机工程与设计》 北大核心 2024年第9期2835-2843,共9页
针对基于深度强化学习控制的机械臂动态避障能力不足,在作业过程中存在多任务冲突问题,提出一种基于双重角色和正则化批评者算法(DARC)的多模混合控制方法。将任务分解为多段避障模式,借助人工势场法的斥力引力思想设计奖励函数并分别... 针对基于深度强化学习控制的机械臂动态避障能力不足,在作业过程中存在多任务冲突问题,提出一种基于双重角色和正则化批评者算法(DARC)的多模混合控制方法。将任务分解为多段避障模式,借助人工势场法的斥力引力思想设计奖励函数并分别进行训练;将经过初步训练的多个模式以距离阈值或奖励积累阈值进行切换控制,消除混合控制存在的冲突;结合机械臂单元运动学特点设计具有软体性质的多连杆机械臂平面仿真模型。实验验证所提方法能够有效提升机械臂动态避障能力,避免多任务间的冲突。 展开更多
关键词 深度强化学习 机械臂 双重演员正则化评论家算法(DARC) 奖励机制 动态避障 优先经验回放机制 连续动作控制
下载PDF
A3C深度强化学习模型压缩及知识抽取 被引量:2
16
作者 张晶 王子铭 任永功 《计算机研究与发展》 EI CSCD 北大核心 2023年第6期1373-1384,共12页
异步优势演员评论家(asynchronous advantage actor-critic,A3C)构建一主多从异步并行深度强化学习框架,其在最优策略探索中存在求解高方差问题,使主智能体难以保证全局最优参数更新及最佳策略学习.同时,利用百万计算资源构建的大规模... 异步优势演员评论家(asynchronous advantage actor-critic,A3C)构建一主多从异步并行深度强化学习框架,其在最优策略探索中存在求解高方差问题,使主智能体难以保证全局最优参数更新及最佳策略学习.同时,利用百万计算资源构建的大规模并行网络,难以部署低功耗近端平台.针对上述问题,提出紧凑异步优势演员评论家(Compact_A3C)模型,实现模型压缩及知识抽取.该模型冻结并评价A3C框架中所有子智能体学习效果,将评价结果转化为主智能体更新概率,保证全局最优策略获取,提升大规模网络资源利用率.进一步,模型将优化主智能体作为“教师网络”,监督小规模“学生网络”前期探索与策略引导,并构建线性衰减损失函数鼓励“学生网络”对复杂环境自由探索,强化自主学习能力,实现大规模A3C模型知识抽取及网络压缩.建立不同压缩比“学生网络”,在流行Gym Classic Control与Atari 2600环境中达到了与大规模“教师网络”一致的学习效果.模型代码公布在https://github.com/meadewaking/Compact_A3C. 展开更多
关键词 强化学习 深度强化学习 演员评论家模型 异步优势演员评论家模型 模型压缩
下载PDF
基于深度强化学习的零售库存管理
17
作者 朱鹏霖 《科技促进发展》 2024年第5期458-467,共10页
在数字化快速发展的商业环境下,为了在激烈的市场竞争中保持竞争力,实体零售商亟需采用高效的方法来优化其库存管理。本研究依托于深度强化学习理论,应用优势演员-评论家算法,为实体零售商优化库存管理提供科学指导。具体地,本研究利用... 在数字化快速发展的商业环境下,为了在激烈的市场竞争中保持竞争力,实体零售商亟需采用高效的方法来优化其库存管理。本研究依托于深度强化学习理论,应用优势演员-评论家算法,为实体零售商优化库存管理提供科学指导。具体地,本研究利用真实历史销售数据构建模拟训练环境,并采用深度神经网络学习并优化针对多品类商品在有限容量约束下的库存管理策略。本研究具有重要的理论意义和实际应用价值,为实体零售商在竞争激烈的市场环境中实现高效库存管理提供了新的思路和方法。 展开更多
关键词 深度强化学习 优势演员-评论 零售 库存管理
下载PDF
深度强化学习驱动下的智能电网通信网业务路由分配方法研究
18
作者 胡楠 张维 《通信电源技术》 2024年第10期43-45,共3页
在现代化背景下,为确保电力系统的稳定运行,相关人员需要结合实际情况逐步推进智能电网的构建。智能电网以各项数据的获取、处理、保护为核心,建立了集成通信系统。文章针对深度强化学习驱动下的智能电网通信网业务路由分配方法展开分析... 在现代化背景下,为确保电力系统的稳定运行,相关人员需要结合实际情况逐步推进智能电网的构建。智能电网以各项数据的获取、处理、保护为核心,建立了集成通信系统。文章针对深度强化学习驱动下的智能电网通信网业务路由分配方法展开分析,以提高通信资源利用率,提升业务路由方法的稳定性和可靠性。 展开更多
关键词 智能电网 通信网 深度Q网络(DQN)算法 异步优势演员-评论家(A3C)算法 深度学习
下载PDF
移动边缘计算辅助智能驾驶中基于高效联邦学习的碰撞预警算法 被引量:2
19
作者 唐伦 文明艳 +1 位作者 单贞贞 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2023年第7期2406-2414,共9页
智能驾驶中的碰撞避免任务存在对时延要求极高和隐私保护等挑战。首先,该文提出一种基于自适应调整参数的半异步联邦学习(SFLAAP)的门控循环单元联合支持向量机(GRU_SVM)碰撞多级预警算法,SFLAAP可根据训练和资源情况动态调整两个训练参... 智能驾驶中的碰撞避免任务存在对时延要求极高和隐私保护等挑战。首先,该文提出一种基于自适应调整参数的半异步联邦学习(SFLAAP)的门控循环单元联合支持向量机(GRU_SVM)碰撞多级预警算法,SFLAAP可根据训练和资源情况动态调整两个训练参数:本地训练次数和参与聚合的局部模型数量。然后,为解决资源受限的移动边缘计算(MEC)下碰撞预警模型协作训练的效率问题,根据上述参数与SFLAAP训练时延的关系,建立训练总时延最小化模型,并将其转化为马尔可夫决策过程(MDP)。最后,在所建立的MDP中采用异步优势演员-评论家(A3C)学习求解,自适应地确定最优训练参数,从而减少碰撞预警模型的训练完成时间。仿真结果表明,所提算法有效地降低训练总时延并保证预测精度。 展开更多
关键词 碰撞预警 联邦学习 移动边缘计算 异步优势演员-评论家算法
下载PDF
基于改进强化学习的移动机器人动态避障方法 被引量:5
20
作者 徐建华 邵康康 +1 位作者 王佳惠 刘学聪 《中国惯性技术学报》 EI CSCD 北大核心 2023年第1期92-99,共8页
针对未知环境下移动机器人动态避障存在规划轨迹长、行驶速度慢和鲁棒性差等问题,提出一种基于改进强化学习的移动机器人动态避障方法。移动机器人根据自身速度、目标位置和激光雷达信息直接得到动作信号,实现端到端的控制。基于距离梯... 针对未知环境下移动机器人动态避障存在规划轨迹长、行驶速度慢和鲁棒性差等问题,提出一种基于改进强化学习的移动机器人动态避障方法。移动机器人根据自身速度、目标位置和激光雷达信息直接得到动作信号,实现端到端的控制。基于距离梯度引导和角度梯度引导促使移动机器人向终点方向优化,加快算法的收敛速度;结合卷积神经网络从多维观测数据中提取高质量特征,提升策略训练效果。仿真试验结果表明,在多动态障碍物环境下,所提方法的训练速度提升40%、轨迹长度缩短2.69%以上、平均线速度增加11.87%以上,与现有主流避障方法相比,具有规划轨迹短、行驶速度快、性能稳定等优点,能够实现移动机器人在多障碍物环境下平稳避障。 展开更多
关键词 移动机器人 动态避障 强化学习 柔性演员评论家算法 卷积神经网络
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部