期刊文献+
共找到46篇文章
< 1 2 3 >
每页显示 20 50 100
基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度 被引量:1
1
作者 王桂兰 张海晓 +1 位作者 刘宏 曾康为 《计算机应用研究》 CSCD 北大核心 2024年第5期1508-1514,共7页
为了实现园区综合能源系统(PIES)的低碳化经济运行和多能源互补,解决碳捕集装置耗电与捕碳需求之间的矛盾,以及不确定性源荷实时响应的问题,提出了基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度方法。该方法通过在PIES中添... 为了实现园区综合能源系统(PIES)的低碳化经济运行和多能源互补,解决碳捕集装置耗电与捕碳需求之间的矛盾,以及不确定性源荷实时响应的问题,提出了基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度方法。该方法通过在PIES中添加碳捕集装置,解决了碳捕集装置耗电和捕碳需求之间的矛盾,进而实现了PIES的低碳化运行;通过采用近端策略优化算法对PIES进行动态调度,解决了源荷的不确定性,平衡了各种能源的供给需求,进而降低了系统的运行成本。实验结果表明:该方法实现了不确定性源荷的实时响应,并相比于DDPG(deep deterministic policy gradient)和DQN(deep Q network)方法在低碳化经济运行方面具有有效性及先进性。 展开更多
关键词 园区综合能源系统 碳捕集 不确定性 低碳经济调度 策略优化算法
下载PDF
基于改进近端策略优化算法控制的应急无人机飞行控制系统研究
2
作者 王进月 尹存珍 +1 位作者 佀庆民 付帅 《科学技术创新》 2024年第14期27-30,共4页
为进一步提高应急无人机在执行任务时的飞行控制的效果,提出利用维度裁剪技术,优化解决近端策略优化算法(PPO)的零梯度问题,在保持良好采样效率的同时,加快收敛速率,从而提高控制性能。仿真试验结果表明,改进PPO算法在不同迭代次数的准... 为进一步提高应急无人机在执行任务时的飞行控制的效果,提出利用维度裁剪技术,优化解决近端策略优化算法(PPO)的零梯度问题,在保持良好采样效率的同时,加快收敛速率,从而提高控制性能。仿真试验结果表明,改进PPO算法在不同迭代次数的准确率均大于90%,最高准确率为92%,而k-NN算法的准确率在不同迭代次数上存在一定波动,最高准确率为90%,最低准确率仅为80%。且改进PPO算法和PPO算法的总计算时间成本基本相同,均为1 932.4 s,但改进PPO算法在训练过程中能使损失值收敛得更快。 展开更多
关键词 策略优化算法 维度裁剪技术 准确率 控制性能
下载PDF
基于近端策略优化算法的燃料电池混合动力系统综合价值损耗最小能量管理方法
3
作者 李奇 刘鑫 +4 位作者 孟翔 谭逸 杨明泽 张世聪 陈维荣 《中国电机工程学报》 EI CSCD 北大核心 2024年第12期4788-4798,I0015,共12页
为了降低市域动车组燃料电池混合动力系统运行燃料经济成本,提升燃料电池耐久性,该文提出一种基于近端策略优化算法的能量管理方法。该方法将混合动力系统能量管理问题建模为马尔可夫决策过程,以综合考虑燃料经济性和燃料电池耐久性的... 为了降低市域动车组燃料电池混合动力系统运行燃料经济成本,提升燃料电池耐久性,该文提出一种基于近端策略优化算法的能量管理方法。该方法将混合动力系统能量管理问题建模为马尔可夫决策过程,以综合考虑燃料经济性和燃料电池耐久性的综合价值损耗最小为优化目标设置奖励函数,采用一种收敛速度较快的深度强化学习算法—近端策略优化算法求解,实现负载功率在燃料电池和锂电池间的合理有效分配,最后,采用市域动车组实际运行工况进行实验验证。实验结果表明,在训练工况下,所提方法相较基于等效氢耗最小能量管理方法和基于Q-learning能量管理方法,综合价值损耗分别降低19.71%和5.87%;在未知工况下,综合价值损耗分别降低18.05%和13.52%。结果表明,所提方法能够有效降低综合价值损耗,并具有较好的工况适应性。 展开更多
关键词 燃料电池混合动力系统 深度强化学习 综合价值损耗 策略优化算法 能量管理
下载PDF
基于近端策略优化算法的新能源电力系统安全约束经济调度方法 被引量:6
4
作者 杨志学 任洲洋 +3 位作者 孙志媛 刘默斯 姜晶 印月 《电网技术》 EI CSCD 北大核心 2023年第3期988-997,共10页
针对高比例新能源接入导致电力系统安全约束经济调度难以高效求解的问题,该文提出了一种基于近端策略优化算法的安全约束经济调度方法。首先,建立了新能源电力系统安全约束经济调度模型。在深度强化学习框架下,定义了该模型的马尔科夫... 针对高比例新能源接入导致电力系统安全约束经济调度难以高效求解的问题,该文提出了一种基于近端策略优化算法的安全约束经济调度方法。首先,建立了新能源电力系统安全约束经济调度模型。在深度强化学习框架下,定义了该模型的马尔科夫奖励过程。设计了近端策略优化算法的奖励函数机制,引导智能体高效生成满足交流潮流以及N-1安全约束的调度计划。然后,设计了调度模型与近端策略优化算法的融合机制,建立了调度训练样本的生成与提取方法以及价值网络和策略网络的训练机制。最后,采用IEEE 30节点和IEEE 118节点2个标准测试系统,验证了本文提出方法的有效性和适应性。 展开更多
关键词 安全约束经济调度 深度强化学习 策略优化算法 新能源
下载PDF
深度强化学习之近端策略优化研究 被引量:1
5
作者 金堃 邓向阳 于柯远 《物联网技术》 2023年第7期69-75,共7页
随着信息技术的不断发展,机器的智能化成为热点研究问题。深度学习能有效地提取出环境中的特征信息,强化学习能有效地提出行为策略,将二者进行融合形成深度强化学习是人工智能研究领域的必然趋势,多种深度强化学习算法也随之发展。其中... 随着信息技术的不断发展,机器的智能化成为热点研究问题。深度学习能有效地提取出环境中的特征信息,强化学习能有效地提出行为策略,将二者进行融合形成深度强化学习是人工智能研究领域的必然趋势,多种深度强化学习算法也随之发展。其中近端策略优化算法稳定性好、采样率高,在连续控制问题中有良好表现,在飞行器及机器人控制、机器博弈、无人驾驶等领域得到广泛应用。围绕深度强化学习的发展历程,总结深度强化学习常用算法的分类及各个算法的特点,包括基于值函数的方法、基于策略的方法、基于模型的方法和基于分层的方法,并重点介绍近端策略优化算法的原理、优化路径,涉及加入分布式计算、改进优势函数、分层优化等方向及相关优化算法的适用场景。 展开更多
关键词 策略优化算法 深度学习 强化学习 深度强化学习 马尔可夫决策过程 策略梯度
下载PDF
基于改进型PPO算法的公寓安全预警模型
6
作者 周亚凤 崔艳春 《信息化研究》 2023年第6期15-20,共6页
随着城市化的加速和公寓建筑的快速增长,确保居民的安全已成为当务之急。本文深入探讨了基于改进型近端策略优化(PPO)算法的公寓安全预警模型的开发。引入了一种新的深度学习架构,作为实时分析和预测潜在安全威胁的核心技术。实验结果表... 随着城市化的加速和公寓建筑的快速增长,确保居民的安全已成为当务之急。本文深入探讨了基于改进型近端策略优化(PPO)算法的公寓安全预警模型的开发。引入了一种新的深度学习架构,作为实时分析和预测潜在安全威胁的核心技术。实验结果表明,改进后的PPO算法在准确性、效率和响应时间方面明显优于传统方法。此外,该系统能够及时提供警报,确保公寓居民的安全。本文不仅强调了深度学习在安全和安防应用中的潜力,而且为智能生活环境领域的未来发展奠定了基础。 展开更多
关键词 改进型近端策略优化算法 算法优化 公寓安全 预警
下载PDF
基于样本优化的PPO算法在单路口信号控制的应用
7
作者 张国有 张新武 《计算机系统应用》 2024年第6期161-168,共8页
优化交通信号的控制策略可以提高道路车辆通行效率,缓解交通拥堵.针对基于值函数的深度强化学习算法难以高效优化单路口信号控制策略的问题,构建了一种基于样本优化的近端策略优化(MPPO)算法的单路口信号控制方法,通过对传统PPO算法中... 优化交通信号的控制策略可以提高道路车辆通行效率,缓解交通拥堵.针对基于值函数的深度强化学习算法难以高效优化单路口信号控制策略的问题,构建了一种基于样本优化的近端策略优化(MPPO)算法的单路口信号控制方法,通过对传统PPO算法中代理目标函数进行最大化提取,有效提高了模型选择样本的质量,采用多维交通状态向量作为模型观测值的输入方法,以及时跟踪并利用道路交通状态的动态变化过程.为了验证MPPO算法模型的准确性和有效性,在城市交通微观模拟软件(SUMO)上与值函数强化学习控制方法进行对比.仿真实验表明,相比于值函数强化学习控制方法,该方法更贴近真实的交通场景,显著加快了车辆累计等待时间的收敛速度,车辆的平均队列长度和平均等待时间明显缩短,有效提高了单路口车辆的通行效率. 展开更多
关键词 交通信号控制 深度强化学习 策略优化算法 代理目标函数 状态特征向量
下载PDF
基于分布式近端策略优化的热力站优化控制
8
作者 谭梦媛 李琦 孟祥然 《信息技术与信息化》 2022年第9期28-31,共4页
随着科学技术的发展,人们的生活水平越来越高,在追求物质基础的同时,也越来越重视生活品质,因而对建筑冬季供暖的质量提出了越来越高的要求。基于此,根据供热站的需求分布和均匀性,提出了基于分布式近端策略优化(distributed proximal p... 随着科学技术的发展,人们的生活水平越来越高,在追求物质基础的同时,也越来越重视生活品质,因而对建筑冬季供暖的质量提出了越来越高的要求。基于此,根据供热站的需求分布和均匀性,提出了基于分布式近端策略优化(distributed proximal policy optimization,DPPO)的供热站一次侧优化控制方法。结合集中供热系统运行机制,采用长短时记忆算法(long short-term memory,LSTM)对供热站进行建模,采用DPPO算法求解供热站的一次水流序列。通过利用包头市供热站历史数据进行模拟实验,并检验其效率,在一定程度上掌握了供热站的供热需求,提高了供热利用率。 展开更多
关键词 分布式策略 热力站建模 集中供热系统 优化控制 长短时记忆算法
下载PDF
考虑不同控制策略的独立型微电网优化配置 被引量:65
9
作者 陈健 王成山 +2 位作者 赵波 张雪松 葛晓慧 《电力系统自动化》 EI CSCD 北大核心 2013年第11期1-6,共6页
独立型微电网往往包含多种分布式电源和储能装置,协调运行与控制十分复杂,采用不同的控制策略会对其运行工况产生较大的影响。文中充分考虑独立型风光柴储微电网的不同控制策略,计及设备投资成本、运行和维护成本、燃料成本及置换成本,... 独立型微电网往往包含多种分布式电源和储能装置,协调运行与控制十分复杂,采用不同的控制策略会对其运行工况产生较大的影响。文中充分考虑独立型风光柴储微电网的不同控制策略,计及设备投资成本、运行和维护成本、燃料成本及置换成本,建立了基于不同控制策略的独立型风光柴储微电网优化配置模型,以供电经济性和环保性为优化目标,采用改进型非劣排序遗传算法(NSGA-Ⅱ)寻求优化控制策略下电源类型及其容量的最优配置方案。结果表明该方法可以全面评估不同控制策略对优化配置的作用与影响,以及不同配置方案下的经济性与环保性,从而为用户优化设计提供必要的依据。 展开更多
关键词 微电网(微网) 风电机组 光伏发电 蓄电池 柴油发电机 优化配置 控制策略 改进非劣排序遗传算法
下载PDF
基于近端优化的永磁同步电机温度预测方法 被引量:2
10
作者 岑岗 张晨光 +2 位作者 岑跃峰 马伟锋 赵澄 《汽车技术》 CSCD 北大核心 2021年第3期26-32,共7页
为了精准有效地实现永磁同步电机的温度预测,提出了一种基于近端策略优化(PPO)算法和强化学习(RL)网络的永磁同步电机温度预测模型,即PPO-RL模型,利用PPO算法定义模型训练的损失目标函数,选择Nadam算法作为模型优化器,通过强化学习的Act... 为了精准有效地实现永磁同步电机的温度预测,提出了一种基于近端策略优化(PPO)算法和强化学习(RL)网络的永磁同步电机温度预测模型,即PPO-RL模型,利用PPO算法定义模型训练的损失目标函数,选择Nadam算法作为模型优化器,通过强化学习的Actor-Critic框架最小化损失目标函数,进而完成模型的迭代训练。采用Kaggle公开的永磁同步电机测量数据集进行试验,结果表明,与指数加权移动平均法、循环神经网络和长短期记忆网络相比,PPO-RL模型具有更高的预测精度和可靠性。 展开更多
关键词 永磁同步电机 温度预测 策略优化算法 强化学习
下载PDF
基于改进BBO算法和模糊期望效果的反导武器目标分配建模与实现 被引量:3
11
作者 朱晓雯 范成礼 +2 位作者 卢盈齐 朱文正 吴暄 《系统工程与电子技术》 EI CSCD 北大核心 2023年第11期3544-3554,共11页
针对现有反导武器目标分配(weapon target allocation,WTA)由于忽略射击有利度和目标意图价值的不确定特征,而造成目标错分、漏分的问题,引入模糊期望理论,构建基于模糊期望效果的最大化费效比反导WTA模型。针对模型特点,提出基于改进... 针对现有反导武器目标分配(weapon target allocation,WTA)由于忽略射击有利度和目标意图价值的不确定特征,而造成目标错分、漏分的问题,引入模糊期望理论,构建基于模糊期望效果的最大化费效比反导WTA模型。针对模型特点,提出基于改进型生物地理优化(improved biogeography-based optimization,IBBO)算法。该算法采用基于整数的矩阵编码方式,通过余弦动态自适应策略改进迁移操作。同时,引入共生生物搜索(symbiotic organisms search,SOS)算法中相互作用思想,设计基于共生策略的变异操作。此外,在IBBO算法基础上结合模糊模拟形成混合智能算法,对模型进行求解。仿真实例表明,所提算法较好地协调了集约化和多样化的能力,提升了求解的精度与效率,满足不确定环境下反导辅助决策对求解精度和时效性的要求。 展开更多
关键词 模糊期望 反导武器目标分配 基于改进生物地理优化算法 余弦动态自适应策略 共生策略
下载PDF
基于改进PPO算法的机器人局部路径规划 被引量:4
12
作者 刘国名 李彩虹 +3 位作者 李永迪 张国胜 张耀玉 高腾腾 《计算机工程》 CAS CSCD 北大核心 2023年第2期119-126,135,共9页
利用强化学习训练机器人局部路径规划模型存在算法收敛速度慢、易陷入死锁区域导致目标不可达等问题。对传统近端策略优化(PPO)算法进行改进,引入长短期记忆(LSTM)神经网络并设计虚拟目标点法,提出LSTM-PPO算法。将PPO神经网络结构中的... 利用强化学习训练机器人局部路径规划模型存在算法收敛速度慢、易陷入死锁区域导致目标不可达等问题。对传统近端策略优化(PPO)算法进行改进,引入长短期记忆(LSTM)神经网络并设计虚拟目标点法,提出LSTM-PPO算法。将PPO神经网络结构中的全连接层替换为LSTM记忆单元,控制样本信息的记忆和遗忘程度,优先学习奖励值高的样本,从而更快地累积奖励优化模型。在此基础上,加入虚拟目标点,通过雷达传感器收集的环境信息判断机器人陷入死锁区域时弃用目标点给予机器人的引导,使机器人走出陷阱区域并趋向目标点,减少在死锁区域不必要的训练。分别在特殊障碍物场景和混合障碍物场景中对LSTM-PPO算法进行仿真验证,结果表明,与传统PPO算法和改进算法SDAS-PPO相比,该算法在两种场景训练中均能最快到达奖励峰值,可加快模型收敛速度,减少冗余路段,优化路径平滑度并缩短路径长度。 展开更多
关键词 机器人 局部路径规划 长短期记忆神经网络 策略优化算法 虚拟目标点
下载PDF
基于改进PPO算法的双足机器人自适应行走控制
13
作者 吴万毅 刘芳华 郭文龙 《扬州大学学报(自然科学版)》 CAS 北大核心 2023年第6期44-50,共7页
针对双足机器人在未知环境行走过程中步态不稳的问题,提出了一种基于近端策略优化(proximal policy optimization,PPO)的双足机器人控制方法.首先,构建动作网络和价值网络,引入长短时记忆(long short-term memory,LSTM),以缩小双足机器... 针对双足机器人在未知环境行走过程中步态不稳的问题,提出了一种基于近端策略优化(proximal policy optimization,PPO)的双足机器人控制方法.首先,构建动作网络和价值网络,引入长短时记忆(long short-term memory,LSTM),以缩小双足机器人与未知环境交互时的状态估计值与期望值之间的偏差;其次,在动作网络中引入注意力机制,自适应改变神经网络自主学习的权重系数,以提高学习效率,得到适应不同环境的稳定步态;最后,通过仿真实验验证所提算法的有效性.结果表明:改进后近端策略优化算法的收敛速度更快,学习效率更高,能够有效提高双足机器人自适应行走的稳定性. 展开更多
关键词 策略优化算法 长短时记忆 注意力机制 双足行走机器人 神经网络
下载PDF
基于裁剪优化和策略指导的近端策略优化算法
14
作者 周毅 高华 田永谌 《计算机应用》 2024年第8期2334-2341,共8页
针对近端策略优化(PPO)算法难以严格约束新旧策略的差异和探索与利用效率较低这2个问题,提出一种基于裁剪优化和策略指导的PPO(COAPG-PPO)算法。首先,通过分析PPO的裁剪机制,设计基于Wasserstein距离的信任域裁剪方案,加强对新旧策略差... 针对近端策略优化(PPO)算法难以严格约束新旧策略的差异和探索与利用效率较低这2个问题,提出一种基于裁剪优化和策略指导的PPO(COAPG-PPO)算法。首先,通过分析PPO的裁剪机制,设计基于Wasserstein距离的信任域裁剪方案,加强对新旧策略差异的约束;其次,在策略更新过程中,融入模拟退火和贪心算法的思想,提升算法的探索效率和学习速度。为了验证所提算法的有效性,使用MuJoCo测试基准对COAPG-PPO与CO-PPO(PPO based on Clipping Optimization)、PPO-CMA(PPO with Covariance Matrix Adaptation)、TR-PPO-RB(Trust Region-based PPO with RollBack)和PPO算法进行对比实验。实验结果表明,COAPG-PPO算法在大多数环境中具有更严格的约束能力、更高的探索和利用效率,以及更高的奖励值。 展开更多
关键词 深度强化学习 策略优化 信任域约束 模拟退火 贪心算法
下载PDF
基于注意力的循环PPO算法及其应用
15
作者 吕相霖 臧兆祥 +1 位作者 李思博 王俊英 《计算机技术与发展》 2024年第1期136-142,共7页
针对深度强化学习算法在部分可观测环境中面临信息掌握不足、存在随机因素等问题,提出了一种融合注意力机制与循环神经网络的近端策略优化算法(ARPPO算法)。该算法首先通过卷积网络层提取特征;其次采用注意力机制突出状态中重要的关键信... 针对深度强化学习算法在部分可观测环境中面临信息掌握不足、存在随机因素等问题,提出了一种融合注意力机制与循环神经网络的近端策略优化算法(ARPPO算法)。该算法首先通过卷积网络层提取特征;其次采用注意力机制突出状态中重要的关键信息;再次通过LSTM网络提取数据的时域特性;最后基于Actor-Critic结构的PPO算法进行策略学习与训练提升。基于Gym-Minigrid环境设计了两项探索任务的消融与对比实验,实验结果表明ARPPO算法较已有的A2C算法、PPO算法、RPPO算法具有更快的收敛速度,且ARPPO算法在收敛之后具有很强的稳定性,并对存在随机因素的未知环境具备更强的适应力。 展开更多
关键词 深度强化学习 部分可观测 注意力机制 LSTM网络 策略优化算法
下载PDF
面向无人机集群察打场景的PPO算法设计
16
作者 李俊慧 张振华 +2 位作者 边疆 聂天常 车博山 《火力与指挥控制》 CSCD 北大核心 2024年第3期25-34,共10页
无人机集群决策问题是智能化战争的重要研究方向。以构建的典型无人机集群侦察打击的任务场景为例,研究复杂不确定条件下的无人机集群任务分配与运动规划问题。针对该问题,从战场环境模型参数化设计与典型集群侦察打击任务角度,阐述任... 无人机集群决策问题是智能化战争的重要研究方向。以构建的典型无人机集群侦察打击的任务场景为例,研究复杂不确定条件下的无人机集群任务分配与运动规划问题。针对该问题,从战场环境模型参数化设计与典型集群侦察打击任务角度,阐述任务决策的复杂性与战场环境不确定性。设计通用性较强的状态空间、奖励函数、动作空间和策略网络,其中,为捕捉多元态势信息,设计并处理了多种类型特征作为状态空间,同时设计与察打任务紧密相关的多种类型奖励;动作策略输出采取主谓宾的形式,更好表达复杂操作;策略网络设计了编码器-时序聚合-注意力机制-解码器结构,充分融合特征信息,促进了训练效果。基于近端策略优化算法(proximal policy optimization,PPO)的深度强化学习(deep reinforcement learning,DRL)进行求解。最后,通过仿真环境实验验证了无人机集群在复杂不确定条件下实现察打任务决策的可行性和有效性,展现了集群任务分配与运动规划的智能性。 展开更多
关键词 策略优化算法设计 任务分配 运动规划 侦察打击 决策
下载PDF
基于PPO的异构UUV集群任务分配算法
17
作者 董经纬 姚尧 +2 位作者 冯景祥 李亚哲 尤岳 《舰船科学技术》 北大核心 2024年第12期84-89,共6页
无人水下航行器(Unmanned Underwater Vehicle,UUV)集群的任务分配问题是UUV集群形成水下功能的重要问题之一,但是,受限于通信以及探测能力,UUV在水下只能获取有限的信息,不能得到很好的应用。提出一种基于深度强化学习的任务分配算法,... 无人水下航行器(Unmanned Underwater Vehicle,UUV)集群的任务分配问题是UUV集群形成水下功能的重要问题之一,但是,受限于通信以及探测能力,UUV在水下只能获取有限的信息,不能得到很好的应用。提出一种基于深度强化学习的任务分配算法,针对水下信息缺失、奖励稀少的问题,在近端策略优化算法的基础上加入Curiosity模块,给智能体一种减小环境中不确定性的期望,鼓励UUV探索环境中不可预测的部分,实现UUV集群的最优任务分配。最后的仿真实验表明,相较于传统智能算法,该方法收敛更快,可靠性更强。 展开更多
关键词 任务分配 策略优化算法 集群
下载PDF
基于智能反射面辅助的无人机主动监听优化方法
18
作者 王贤明 杨超群 +2 位作者 邵晋梁 龚成龙 张恒 《无人系统技术》 2024年第1期106-114,共9页
针对可疑用户可能利用无线通信危害公共安全的问题,通过智能反射面和无人机组合的方法来帮助合法监视器监听可疑链路。首先,考虑了无人机与地面用户以及地面用户之间复杂的信道交互,构建了一个合法监视器监听速率最大的优化问题。其次,... 针对可疑用户可能利用无线通信危害公共安全的问题,通过智能反射面和无人机组合的方法来帮助合法监视器监听可疑链路。首先,考虑了无人机与地面用户以及地面用户之间复杂的信道交互,构建了一个合法监视器监听速率最大的优化问题。其次,为了解决这个复杂的非凸优化问题,采用深度强化学习技术,将无人机的轨迹规划和智能反射面的相移变化问题建模为马尔可夫决策过程,设计了相应的奖励函数,并基于最大熵的深度强化学习算法实现无人机和智能反射面相移设计的联合优化。最后,从仿真结果看,与无智能反射面的优化方案相比,有智能反射面的优化方案不仅提高了合法监视器的监听速率,还降低了无人机的能耗,另外智能反射面反射单元的不同数量也会对监听速率产生影响。同时,相较于近端策略优化,基于最大熵的深度强化学习算法的优化策略拥有更稳定的训练过程和更快的收敛速度。 展开更多
关键词 智能反射面 无人机 最大熵的深度强化学习算法 监听速率 策略优化 主动监听
下载PDF
基于改进型遗传算法的强化学习特征选择方法
19
作者 张坤 姚媛 蔡宇 《电子技术与软件工程》 2022年第24期191-195,共5页
本文针对强化学习的特征选择过程中存在的组合爆炸问题,提出了基于改进型遗传算法的特征选择方法,并以自回避行走问题中的寻路任务进行有效性验证。首先针对自回避行走任务环境设计了17种独立特征,而后设计了渐进式的遗传算法并改进了... 本文针对强化学习的特征选择过程中存在的组合爆炸问题,提出了基于改进型遗传算法的特征选择方法,并以自回避行走问题中的寻路任务进行有效性验证。首先针对自回避行走任务环境设计了17种独立特征,而后设计了渐进式的遗传算法并改进了适应度函数,最后进行了对比实验。实验结果表明,该方法在不降低算法性能的条件下,特征数量减少了70.59%,适应度提高了23.98%,是一种行之有效的特征选择方法。 展开更多
关键词 自回避行走 策略优化 遗传算法
下载PDF
WSN中基于改进自适应遗传算法的移动代理路由算法 被引量:2
20
作者 方旺盛 黎飞龙 《计算机与数字工程》 2010年第12期4-7,32,共5页
文章针对无线传感器网络能量消耗和延时问题,结合移动代理路由策略,提出了一种改进型自适应遗传算法,利用此算法求出移动代理在网络中的最佳迁移节点序列,以达到优化网络效果。通过仿真实验结果表明,与标准遗传算法相比,此算法具有更小... 文章针对无线传感器网络能量消耗和延时问题,结合移动代理路由策略,提出了一种改进型自适应遗传算法,利用此算法求出移动代理在网络中的最佳迁移节点序列,以达到优化网络效果。通过仿真实验结果表明,与标准遗传算法相比,此算法具有更小的网络能量消耗和延时。 展开更多
关键词 WSN 改进自适应遗传算法 移动代理 代理路由算法 Adaptive Genetic ALGORITHM Improved Based Routing ALGORITHM Agent 无线传感器网络 能量消耗 标准遗传算法 延时 网络效果 实验结果 路由策略 节点序列 改进 优化 问题
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部