期刊文献+
共找到837篇文章
< 1 2 42 >
每页显示 20 50 100
基于深度强化学习的空天地一体化网络资源分配算法
1
作者 刘雪芳 毛伟灏 杨清海 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第7期2831-2841,共11页
空天地一体化网络(SAGIN)通过提高地面网络的资源利用率可以有效满足多种业务类型的通信需求,然而忽略了系统的自适应能力和鲁棒性及不同用户的服务质量(QoS)。针对这一问题,该文提出在空天地一体化网络架构下,面向城区和郊区通信的深... 空天地一体化网络(SAGIN)通过提高地面网络的资源利用率可以有效满足多种业务类型的通信需求,然而忽略了系统的自适应能力和鲁棒性及不同用户的服务质量(QoS)。针对这一问题,该文提出在空天地一体化网络架构下,面向城区和郊区通信的深度强化学习(DRL)资源分配算法。基于第3代合作伙伴计划(3GPP)标准中定义的用户参考信号接收功率(RSRP),考虑地面同频干扰情况,以不同域中基站的时频资源作为约束条件,构建了最大化系统用户的下行吞吐量优化问题。利用深度Q网络(DQN)算法求解该优化问题时,定义了能够综合考虑用户服务质量需求、系统自适应能力及系统鲁棒性的奖励函数。仿真结果表明,综合考虑无人驾驶汽车,沉浸式服务及普通移动终端通信业务需求时,表征系统性能的奖励函数值在2 000次迭代下,相较于贪婪算法提升了39.1%;对于无人驾驶汽车业务,利用DQN算法进行资源分配后,相比于贪婪算法,丢包数平均下降38.07%,时延下降了6.05%。 展开更多
关键词 空天地一体化网络 资源分配算法 深度强化学习 深度Q网络
下载PDF
基于强化学习的柴油机调速算法研究
2
作者 姚崇 董璕 +2 位作者 李瑞 龙云 宋恩哲 《内燃机工程》 CAS CSCD 北大核心 2024年第4期71-80,共10页
为了更好地调节柴油机转速,提出一种强化学习–比例积分微分(proportional integral derivative, PID)控制器,并应用到了柴油机转速控制中。基于连续动作空间的柔性动作–评价(soft actor-critic, SAC)算法,结合连续型PID控制器,设计了... 为了更好地调节柴油机转速,提出一种强化学习–比例积分微分(proportional integral derivative, PID)控制器,并应用到了柴油机转速控制中。基于连续动作空间的柔性动作–评价(soft actor-critic, SAC)算法,结合连续型PID控制器,设计了一种强化学习–PID控制器,可代替传统PID控制的转速环。优化设计了基于演员–评论家(actor-critic)框架的输入输出和奖励函数以匹配柴油机特性,采用随机动作增加寻优效率,形成SAC-PID控制柴油机转速的网络交互结构,达到快速调整转速,减小稳定时间的效果。构建了以柴油机D6114为原型机的MATLAB/Simulink平均值模型,并利用试验数据验证了仿真模型的有效性。利用平均值模型,仿真验证了该控制算法效果。经过仿真验证本算法使柴油机转速响应曲线超调量更小,响应时间更快,鲁棒性更强,SAC-PID控制负载瞬态调速率和稳定时间均已达到1级精度指标。仿真对比验证了SAC算法的联合控制效果,结果表明其较其他算法更佳。 展开更多
关键词 柴油机调速 比例积分微分控制器 强化学习算法 非线性复杂系统
下载PDF
基于强化学习的离散层级萤火虫算法检测蛋白质复合物
3
作者 张其文 郭欣欣 《计算机应用研究》 CSCD 北大核心 2024年第7期1977-1982,共6页
蛋白质复合物的检测有助于从分子水平上理解生命的活动过程。针对群智能算法检测蛋白质复合物时假阳/阴性率高、准确率低、种群多样性下降等问题,提出了基于强化学习的离散层级萤火虫算法检测蛋白质复合物(reinforcement learning-based... 蛋白质复合物的检测有助于从分子水平上理解生命的活动过程。针对群智能算法检测蛋白质复合物时假阳/阴性率高、准确率低、种群多样性下降等问题,提出了基于强化学习的离散层级萤火虫算法检测蛋白质复合物(reinforcement learning-based discrete level firefly algorithm for detecting protein complexes,RLDLFA-DPC)。引入强化学习思想提出一种自适应层级划分策略,动态调整层级结构,能有效解决迭代后期种群多样性下降的问题。在层级学习策略中个体向两个优秀层级学习,避免算法陷入局部最优。为了提高蛋白质复合物检测的精度,结合个体环境信息提出自适应搜索半径的局部搜索策略。最后,在酵母蛋白质的4个数据集上,与8种经典的蛋白质复合物检测方法进行对比,验证了该方法的有效性。 展开更多
关键词 蛋白质复合物 萤火虫算法 强化学习 层级学习策略 局部搜索策略
下载PDF
基于深度强化学习的高铁客票动态定价算法
4
作者 毕文杰 陈功 《计算机应用与软件》 北大核心 2024年第4期228-235,261,共9页
为了解决需求函数未知情况下的高铁客票动态定价问题。以最大化单列车期望收益为目标构建Markov多阶段决策模型并设计DQN(Deep Q Net)强化学习框架寻找动态定价最优策略。算法以当日收益为奖励,通过神经网络来逼近所有状态-动作组合的... 为了解决需求函数未知情况下的高铁客票动态定价问题。以最大化单列车期望收益为目标构建Markov多阶段决策模型并设计DQN(Deep Q Net)强化学习框架寻找动态定价最优策略。算法以当日收益为奖励,通过神经网络来逼近所有状态-动作组合的期望最优收益。为验证算法性能,基于市场动态和旅客行为,开发高铁客运需求模拟系统并进行仿真实验。实验结果表明,智能体动态定价策略可以在不同需求水平下灵活调整价格,其性能接近理论上界并且显著优于对比策略。 展开更多
关键词 收益管理 高铁客票定价 动态定价 动态规划 强化学习 环境模拟算法
下载PDF
基于路径模仿和SAC强化学习的机械臂路径规划算法 被引量:1
5
作者 宋紫阳 李军怀 +2 位作者 王怀军 苏鑫 于蕾 《计算机应用》 CSCD 北大核心 2024年第2期439-444,共6页
在机械臂路径规划算法的训练过程中,由于动作空间和状态空间巨大导致奖励稀疏,机械臂路径规划训练效率低,面对海量的状态数和动作数较难评估状态价值和动作价值。针对上述问题,提出一种基于SAC(Soft Actor-Critic)强化学习的机械臂路径... 在机械臂路径规划算法的训练过程中,由于动作空间和状态空间巨大导致奖励稀疏,机械臂路径规划训练效率低,面对海量的状态数和动作数较难评估状态价值和动作价值。针对上述问题,提出一种基于SAC(Soft Actor-Critic)强化学习的机械臂路径规划算法。通过将示教路径融入奖励函数使机械臂在强化学习过程中对示教路径进行模仿以提高学习效率,并采用SAC算法使机械臂路径规划算法的训练更快、稳定性更好。基于所提算法和深度确定性策略梯度(DDPG)算法分别规划10条路径,所提算法和DDPG算法规划的路径与参考路径的平均距离分别是0.8 cm和1.9 cm。实验结果表明,路径模仿机制能提高训练效率,所提算法比DDPG算法能更好地探索环境,使得规划路径更加合理。 展开更多
关键词 模仿学习 强化学习 SAC算法 路径规划 奖励函数
下载PDF
基于分区搜索和强化学习的多模态多目标头脑风暴优化算法 被引量:1
6
作者 李鑫 余墨多 +1 位作者 姜庆超 范勤勤 《计算机应用研究》 CSCD 北大核心 2024年第8期2374-2383,共10页
维持种群多样性和提高算法搜索效率是多模态多目标优化亟需解决的两大问题。为解决以上问题,提出了一种基于分区搜索和强化学习的多模态多目标头脑风暴优化算法(MMBSO-ZSRL)。在MMBSO-ZSRL中,首先将决策空间分解为多个子空间以降低搜索... 维持种群多样性和提高算法搜索效率是多模态多目标优化亟需解决的两大问题。为解决以上问题,提出了一种基于分区搜索和强化学习的多模态多目标头脑风暴优化算法(MMBSO-ZSRL)。在MMBSO-ZSRL中,首先将决策空间分解为多个子空间以降低搜索难度和维持种群多样性;然后,使用SARSA(state-action-reward-state-action)算法来平衡头脑风暴算法的全局探索和局部开发能力;并使用特殊拥挤距离来挑选个体来指导种群进化。为了验证所提算法的性能,选取六种先进的多模态多目标优化算法来进行比较,并选取IEEE CEC2019多模态多目标问题基准测试集来对所有比较算法的性能进行测试。实验结果表明,MMBSO-ZSRL的整体性能要显著优于其他六种比较算法。MMBSO-ZSRL不仅可以找到多样性和逼近性更好的帕累托前沿,而且可以在决策空间找到更多的帕累托最优解。 展开更多
关键词 多模态多目标优化 头脑风暴优化算法 强化学习 SARSA算法 分区搜索
下载PDF
基于深度强化学习算法的储能系统盈利策略研究
7
作者 杨国山 董鹏旭 +3 位作者 姚苏航 王永利 宋汶秦 周东 《电力需求侧管理》 2024年第2期20-26,共7页
在高比例新能源接入下,配置储能可以辅助电力系统削峰填谷,平抑波动。然而目前储能系统成本较高,需要政府进行支持。为此,提出了一种储能盈利策略,以在电网、储能运营商和用户组成的电力市场中实现运营利润最大化。结合智能算法提出了... 在高比例新能源接入下,配置储能可以辅助电力系统削峰填谷,平抑波动。然而目前储能系统成本较高,需要政府进行支持。为此,提出了一种储能盈利策略,以在电网、储能运营商和用户组成的电力市场中实现运营利润最大化。结合智能算法提出了一种考虑激励的盈利策略,为每个峰值时段的储能系统运营商提供不同权重的奖励分配。该算法一方面基于最小二乘支持向量机的深度学习,来建立价格和负荷预测模型;另一方面基于深度强化学习,考虑电网的峰值状态、用户负荷需求和储能系统运营商利润,确定最优充放电策略。最后通过案例分析,验证该策略可以显著提高储能系统运营商利润并减轻电网压力。 展开更多
关键词 储能系统 盈利策略 支持向量机 深度强化学习算法
下载PDF
基于强化学习的聚类算法
8
作者 李佳辉 徐应涛 张莹 《计算机科学与应用》 2024年第7期114-120,共7页
创新性地将强化学习技术引入聚类算法中,旨在解决传统聚类方法面临的两大难题:初始聚类中心选择的不确定性以及计算过程中欧氏距离划分样本导致的高时间复杂度。通过引入强化学习的奖惩机制,设计了一种基于“代理”Agent的行为选择策略... 创新性地将强化学习技术引入聚类算法中,旨在解决传统聚类方法面临的两大难题:初始聚类中心选择的不确定性以及计算过程中欧氏距离划分样本导致的高时间复杂度。通过引入强化学习的奖惩机制,设计了一种基于“代理”Agent的行为选择策略,有效替代了传统的欧氏距离计算过程,从而消除了初始聚类中心对算法稳定性的潜在影响,并大幅提升了算法的收敛速度。提出了一种全新的基于强化学习的聚类算法,不仅在数学上严谨证明了其收敛性,而且在实际应用中展现了显著优势。通过数值实验验证,该算法在聚类准确率上较传统方法有明显提升,同时在算法性能上也表现出更加优越的特点,这一研究对于提升数据处理效率和准确性具有重要意义。 展开更多
关键词 聚类算法 强化学习 贪婪策略 奖惩机制 强化信号 RLC算法
下载PDF
基于强化学习的多技能项目调度算法
9
作者 胡振涛 崔南方 +1 位作者 胡雪君 雷晓琪 《控制理论与应用》 EI CAS CSCD 北大核心 2024年第3期502-511,共10页
多技能项目调度存在组合爆炸的现象,其问题复杂度远超传统的单技能项目调度,启发式算法和元启发式算法在求解多技能项目调度问题时也各有缺陷.为此,根据项目调度的特点和强化学习的算法逻辑,本文设计了基于强化学习的多技能项目调度算法... 多技能项目调度存在组合爆炸的现象,其问题复杂度远超传统的单技能项目调度,启发式算法和元启发式算法在求解多技能项目调度问题时也各有缺陷.为此,根据项目调度的特点和强化学习的算法逻辑,本文设计了基于强化学习的多技能项目调度算法.首先,将多技能项目调度过程建模为符合马尔科夫性质的序贯决策过程,并依据决策过程设计了双智能体机制.而后,通过状态整合和行动分解,降低了价值函数的学习难度.最后,为进一步提高算法性能,针对资源的多技能特性,设计了技能归并法,显著降低了资源分配算法的时间复杂度.与启发式算法的对比实验显示,本文所设计的强化学习算法求解性能更高,与元启发式算法的对比实验表明,该算法稳定性更强,且求解速度更快. 展开更多
关键词 多技能资源 项目调度 智能算法 强化学习 并行调度
下载PDF
基于强化学习的网络拥塞控制算法 被引量:2
10
作者 李凡 李慧斯 马文丹 《科技创新与应用》 2024年第10期55-58,共4页
该文结合强化学习方法提出一种QLCC算法,此算法是将网络拥塞过程进行简化之后描述为马尔科夫决策过程,在Q-learning算法应用的基础上创新设计的新型网络拥塞控制算法。研究过程中首先介绍强化学习方法,并对网络拥塞过程中马尔科夫决策... 该文结合强化学习方法提出一种QLCC算法,此算法是将网络拥塞过程进行简化之后描述为马尔科夫决策过程,在Q-learning算法应用的基础上创新设计的新型网络拥塞控制算法。研究过程中首先介绍强化学习方法,并对网络拥塞过程中马尔科夫决策过程的构建条件及假设进行探讨,之后从框架结构、参数结构及定义、参数离散划分和更新步骤几个方面介绍QLCC算法,并采取仿真实验方法对该种新算法的网络吞吐量、公平性、随机丢包环境下的吞吐量分别进行检测,通过与其他3种传统网络拥塞控制算法进行对比分析,证实QLCC算法具有吞吐量较佳、公平性最高、抗丢包性能最优的性能,说明其是一种具有较高应用优势的智能化网络拥塞控制算法。 展开更多
关键词 强化学习 QLCC算法 网络拥塞控制 学习方法 仿真实验
下载PDF
稳定且受限的新强化学习SAC算法
11
作者 海日 张兴亮 +1 位作者 姜源 杨永健 《吉林大学学报(信息科学版)》 CAS 2024年第2期318-325,共8页
为解决由于固定温度SAC(Soft Actor Critic)算法中存在的Q函数高估可能会导致算法陷入局部最优的问题,通过深入分析提出了一个稳定且受限的SAC算法(SCSAC:Stable Constrained Soft Actor Critic)。该算法通过改进最大熵目标函数修复固... 为解决由于固定温度SAC(Soft Actor Critic)算法中存在的Q函数高估可能会导致算法陷入局部最优的问题,通过深入分析提出了一个稳定且受限的SAC算法(SCSAC:Stable Constrained Soft Actor Critic)。该算法通过改进最大熵目标函数修复固定温度SAC算法中的Q函数高估问题,同时增强算法在测试过程中稳定性的效果。最后,在4个OpenAI Gym Mujoco环境下对SCSAC算法进行了验证,实验结果表明,稳定且受限的SAC算法相比固定温度SAC算法可以有效减小Q函数高估出现的次数并能在测试中获得更加稳定的结果。 展开更多
关键词 强化学习 最大熵强化学习 Q值高估 SAC算法
下载PDF
利用强化学习的改进遗传算法求解柔性作业车间调度问题
12
作者 陈祉烨 胡毅 +2 位作者 刘俊 王军 张曦阳 《科学技术与工程》 北大核心 2024年第25期10848-10856,共9页
针对传统遗传算法在解决柔性作业车间调度问题时易陷入局部最优解、参数不能智能调整、局部搜索能力差的问题,建立以最大完工时间最小为目标的柔性作业车间调度模型,并提出一种基于强化学习的改进遗传算法(reinforcement learning impro... 针对传统遗传算法在解决柔性作业车间调度问题时易陷入局部最优解、参数不能智能调整、局部搜索能力差的问题,建立以最大完工时间最小为目标的柔性作业车间调度模型,并提出一种基于强化学习的改进遗传算法(reinforcement learning improved genetic algorithm,RLIGA)求解该模型。首先,在遗传算法迭代过程中,利用强化学习动态调整关键参数。其次,引入基于工序编码距离的离散莱维飞行机制,改进求解空间。最后,引入变邻域搜索机制,提升算法的局部开发能力。使用PyCharm运行Brandimarte算例,验证算法的求解性能,实验证明所提算法求解效率较高,跳出局部最优能力更强,求解结果更好。 展开更多
关键词 强化学习 遗传算法 离散莱维飞行 工序编码距离 变邻域搜索
下载PDF
基于高斯混合模型的分布式强化学习算法鲁棒性优化
13
作者 毕霄昀 鲁广东 蔡霞 《软件工程》 2024年第11期75-78,共4页
当前,分布式强化学习假设所有智能体均能正常工作,但在实际情况中可能存在异常智能体。为此,提出了一种基于高斯混合模型的聚类方法,用于优化分布式强化学习算法。首先,计算智能体上传梯度对应的高斯分布概率。其次,根据高斯分布更新聚... 当前,分布式强化学习假设所有智能体均能正常工作,但在实际情况中可能存在异常智能体。为此,提出了一种基于高斯混合模型的聚类方法,用于优化分布式强化学习算法。首先,计算智能体上传梯度对应的高斯分布概率。其次,根据高斯分布更新聚类模型参数,并重复执行上述步骤直至收敛。最后,根据聚类模型筛选异常梯度。实验结果表明,该方法能在存在异常智能体的场景下,有效维持分布式强化学习的训练效果,提高算法的鲁棒性。 展开更多
关键词 聚类算法 分布式强化学习 鲁棒性
下载PDF
基于强化学习知识获取共享算法的太阳电池模型参数辨识
14
作者 熊国江 辜再宇 《太阳能学报》 EI CAS CSCD 北大核心 2024年第9期334-344,共11页
为准确辨识太阳电池模型参数,提出一种基于强化学习的知识获取共享算法(RLGSK)。针对知识获取共享算法(GSK)初级阶段和高级阶段的选择机制过于死板,处理太阳电池模型参数辨识问题时难以充分平衡全局与局部搜索,存在收敛慢、精度低等问题... 为准确辨识太阳电池模型参数,提出一种基于强化学习的知识获取共享算法(RLGSK)。针对知识获取共享算法(GSK)初级阶段和高级阶段的选择机制过于死板,处理太阳电池模型参数辨识问题时难以充分平衡全局与局部搜索,存在收敛慢、精度低等问题,一方面,通过强化学习调整迭代时初级和高级阶段的个体比例,实现不同情景下知识获取与共享的灵活调整;另一方面,依靠性能导向的种群规模缩减实现计算资源的高效利用,提高算法性能。将RLGSK应用于5种案例,并与其他算法进行比较。结果表明,与GSK相比,RLGSK的搜索精度、稳定度和收敛速度提升极大,与其他算法相比也有很强的竞争力。 展开更多
关键词 参数辨识 太阳电池 光伏组件 强化学习 知识获取共享算法
下载PDF
基于深度强化学习算法的火力-目标分配方法
15
作者 李伟光 陈栋 《指挥控制与仿真》 2024年第3期62-69,共8页
针对火力-目标分配问题解空间较大、离散、非线性等特点,提出了一种基于DQN的深度强化学习算法,通过将6层全连接前馈神经网络与Q-learning算法相结合,充分发挥了深度学习的感知能力和强化学习的决策能力,通过模型性能测试对比,该方法拟... 针对火力-目标分配问题解空间较大、离散、非线性等特点,提出了一种基于DQN的深度强化学习算法,通过将6层全连接前馈神经网络与Q-learning算法相结合,充分发挥了深度学习的感知能力和强化学习的决策能力,通过模型性能测试对比,该方法拟合能力较强、收敛速度较快、方差抖动性较小,并通过实际作战场景对算法进行了验证,所得的分配结果符合作战期望,可为指挥员火力打击分配问题决策提供一定参考。 展开更多
关键词 火力-目标分配 深度强化学习 Q-learning算法 DQN算法
下载PDF
融合经验知识与深度强化学习的久棋Alpha-Beta算法优化研究
16
作者 张小川 杨小漫 +3 位作者 涂飞 王鑫 严明珠 梁渝卓 《重庆理工大学学报(自然科学)》 CAS 北大核心 2024年第5期115-120,共6页
藏族久棋作为一种传统的棋类博弈游戏,具备高度复杂的规则体系以及变幻莫测的棋局演变。传统的博弈策略在面对不同对手和棋局时不稳定,性能差,需要新的方法提高藏族久棋AI的博弈水平。以藏族久棋为研究对象,针对布局阶段,改进传统Alpha-... 藏族久棋作为一种传统的棋类博弈游戏,具备高度复杂的规则体系以及变幻莫测的棋局演变。传统的博弈策略在面对不同对手和棋局时不稳定,性能差,需要新的方法提高藏族久棋AI的博弈水平。以藏族久棋为研究对象,针对布局阶段,改进传统Alpha-Beta剪枝搜索算法,并结合经验知识,融入深度强化学习算法完成棋盘布局合理性的落子选择,以此为后续阶段铺路。在行棋阶段与飞子阶段,结合经验知识使用Alpha-Beta算法,完成行棋路径。最后,将所提算法和策略集成于久棋AI程序,在中国计算机博弈锦标赛中取得了良好的成绩,验证了该方法的有效性。 展开更多
关键词 藏族久棋 经验知识 Alpha-Beta算法 深度强化学习 计算机博弈
下载PDF
基于深度强化学习算法的弹性供应链调度优化方法 被引量:1
17
作者 张进军 《信息技术与信息化》 2024年第4期89-92,共4页
由于参与供应链的客户需求和供应者配置的多元性,导致供应链的配送成本难以得到有效控制,主要是因为在模型求解过程中,受困于参数本身的矛盾性,求解过程很容易陷入局部最优。为此,提出基于深度强化学习算法的弹性供应链调度优化方法研... 由于参与供应链的客户需求和供应者配置的多元性,导致供应链的配送成本难以得到有效控制,主要是因为在模型求解过程中,受困于参数本身的矛盾性,求解过程很容易陷入局部最优。为此,提出基于深度强化学习算法的弹性供应链调度优化方法研究。分别从供应者配置角度和客户需求角度构建了供应链模型,以供应链配送成本最小化为目标函数,应用深度强化学习算法中的深度Q网络(deepQ-network,DQN)算法进行训练,同步进行弹性供应链优化调度。DQN能够有效地处理这种高维状态空间,通过深度神经网络学习状态与动作之间的映射关系,自动提取关键特征,从而简化问题的复杂性。将收敛输出结果期望误差,输入供应链模型进行迭代计算,输出优化调度结果。测试结果表明,设计的方法可以实现对配送成本的有效控制。 展开更多
关键词 深度强化学习算法 弹性供应链调度 供应者配置 客户需求 供应链模型 配送成本最小化 DeepQ-Network 误差收敛
下载PDF
联合遗传算法和强化学习的虚拟网络功能映射与调度方法
18
作者 刘光远 曹晶仪 杜婕 《西安交通大学学报》 EI CAS CSCD 北大核心 2024年第8期175-184,共10页
网络功能虚拟化环境下,为满足用户不同需求并提高资源利用效率,将虚拟网络功能映射与调度联合考虑。首先,通过构建网络低时延、虚拟机资源高利用及能量低损耗的多目标优化模型,设计了一种强化学习(RL)联合第三代非支配排序遗传算法(NSGA... 网络功能虚拟化环境下,为满足用户不同需求并提高资源利用效率,将虚拟网络功能映射与调度联合考虑。首先,通过构建网络低时延、虚拟机资源高利用及能量低损耗的多目标优化模型,设计了一种强化学习(RL)联合第三代非支配排序遗传算法(NSGAⅢ)的优化方法RL-NSGAⅢ;然后,采用两段式初始化技术求得高质量初始解,利用强化学习的优势自适应调节交叉变异参数,以保持种群多样性;最后,基于参考点的第三代非支配排序遗传算法,将虚拟网络功能映射至虚拟机并进行调度服务,得到多目标优化策略。仿真结果表明:相较于已有的NSGAⅢ、NSGAⅡ和MOPSO算法,采用RL-NSGAⅢ算法计算得到的时延降低了17%~28%,节点负荷提高了9%~19%,能量损耗降低了12%~26%,表明所提算法在提高网络速率和降低网络运营支出上的有效性。 展开更多
关键词 网络功能虚拟化 虚拟网络功能 映射与调度 强化学习 第三代非支配排序遗传算法
下载PDF
基于强化学习PPO算法的上市公司投资组合管理
19
作者 代一方 《中国管理信息化》 2024年第5期140-143,共4页
传统的投资组合管理方法往往依赖于经验规则或数学模型,难以充分利用市场信息和动态调整投资策略。为了解决这一问题,文章提出一种基于强化学习PPO(Proximal Policy Optimization)算法的新方法。使用上市公司的历史数据进行训练和测试,... 传统的投资组合管理方法往往依赖于经验规则或数学模型,难以充分利用市场信息和动态调整投资策略。为了解决这一问题,文章提出一种基于强化学习PPO(Proximal Policy Optimization)算法的新方法。使用上市公司的历史数据进行训练和测试,与传统投资策略和其他强化学习算法进行比较,实验结果表明,基于强化学习PPO算法的投资组合管理方法在投资回报率和风险控制方面取得了显著的改进。 展开更多
关键词 强化学习 PPO算法 投资组合管理 上市公司
下载PDF
基于深度强化学习的分层自适应PID控制算法
20
作者 余文浩 齐立哲 +1 位作者 梁瀚文 孙云权 《计算机系统应用》 2024年第9期245-252,共8页
比例积分微分(PID)控制在工业控制和机器人控制领域应用非常广泛.然而,其在实际应用中存在参数整定复杂、系统无法精准建模以及对被控对象变化敏感的问题.为了解决这些问题,本文提出了一种基于深度强化学习算法的分层自适应PID控制算法,... 比例积分微分(PID)控制在工业控制和机器人控制领域应用非常广泛.然而,其在实际应用中存在参数整定复杂、系统无法精准建模以及对被控对象变化敏感的问题.为了解决这些问题,本文提出了一种基于深度强化学习算法的分层自适应PID控制算法,即TD3-PID,用于移动机器人的自动控制.其中,上层控制器通过实时观测当前环境状态和系统状态实现对下层PID控制器参数和输出补偿量进行调整,以实时补偿误差从而优化系统性能.本文将所提出的TD3-PID控制器应用于4轮移动机器人轨迹跟踪任务并和其他控制方法进行了真实场景实验对比.结果显示TD3-PID控制器表现出更优越的动态响应性能和抗干扰能力,整体响应误差显著减小,在提高控制系统性能方面具有显著的优势. 展开更多
关键词 深度强化学习 PID算法 自适应控制 确定性策略梯度算法 轨迹跟踪
下载PDF
上一页 1 2 42 下一页 到第
使用帮助 返回顶部