期刊文献+
共找到309篇文章
< 1 2 16 >
每页显示 20 50 100
一种改进的近端策略优化算法
1
作者 费正顺 王焰平 +2 位作者 龚海波 项新建 郭峻豪 《浙江科技学院学报》 CAS 2023年第1期23-29,共7页
近端策略优化(proximal policy optimization, PPO)是从一个已知的分布附近来采样估计另一个分布,通过用新策略在老策略的附近学习来实现优化的,其中老策略作为新策略的近似分布。【目的】针对PPO算法在强化学习中学习效率及收敛性不够... 近端策略优化(proximal policy optimization, PPO)是从一个已知的分布附近来采样估计另一个分布,通过用新策略在老策略的附近学习来实现优化的,其中老策略作为新策略的近似分布。【目的】针对PPO算法在强化学习中学习效率及收敛性不够好的问题,提出一种改进的PPO算法。【方法】首先提出一种新损失函数来更新PPO算法中的网络参数,采用泛化优势估计(generalized dominance estimation, GAE)对优势函数进行描述;然后采用类似异步优势演员-评论家(asynchronous actor-critic, A3C)算法中的多线程策略来训练智能体;最后设计新的参数更新方式来实现对主副两种网络中的参数更新。【结果】本方法能够使智能体更快地完成学习训练,其训练过程中收敛性更好;由于多线程,其算法的训练速度会比常规的PPO算法至少快5倍。【结论】改进的PPO算法其性能更好,这为后续强化学习算法的研究提供了新思路。 展开更多
关键词 强化学习 策略优化 泛化优势估计 多线程
下载PDF
基于改进近端策略优化算法的移动机械臂抓取实验设计
2
作者 王永华 钟欣见 李明 《实验技术与管理》 CAS 北大核心 2024年第4期73-80,共8页
针对在训练移动机械臂时,近端策略优化算法的学习困难和易陷入局部最优问题,引入了6种可行的改进方法,包括优势值标准化、状态标准化、奖励缩放、策略熵、梯度裁剪和标准差限制,并且使用这些方法在数据采集和训练的各个阶段对近端策略... 针对在训练移动机械臂时,近端策略优化算法的学习困难和易陷入局部最优问题,引入了6种可行的改进方法,包括优势值标准化、状态标准化、奖励缩放、策略熵、梯度裁剪和标准差限制,并且使用这些方法在数据采集和训练的各个阶段对近端策略优化算法的步骤进行了调整,完成了对算法稳定性和学习效率的优化,并针对每个改进点设计了相关的实验。实验结果表明,在训练移动机械臂夹取物体的任务上,6个改进方法对近端策略优化算法均有不同程度的提升。改进后的PPO算法使移动机械臂的奖励曲线获得很大改善,能够迅速收敛到理想的结果。 展开更多
关键词 策略优化 移动机械臂 深度强化学习
下载PDF
基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度
3
作者 王桂兰 张海晓 +1 位作者 刘宏 曾康为 《计算机应用研究》 CSCD 北大核心 2024年第5期1508-1514,共7页
为了实现园区综合能源系统(PIES)的低碳化经济运行和多能源互补,解决碳捕集装置耗电与捕碳需求之间的矛盾,以及不确定性源荷实时响应的问题,提出了基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度方法。该方法通过在PIES中添... 为了实现园区综合能源系统(PIES)的低碳化经济运行和多能源互补,解决碳捕集装置耗电与捕碳需求之间的矛盾,以及不确定性源荷实时响应的问题,提出了基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度方法。该方法通过在PIES中添加碳捕集装置,解决了碳捕集装置耗电和捕碳需求之间的矛盾,进而实现了PIES的低碳化运行;通过采用近端策略优化算法对PIES进行动态调度,解决了源荷的不确定性,平衡了各种能源的供给需求,进而降低了系统的运行成本。实验结果表明:该方法实现了不确定性源荷的实时响应,并相比于DDPG(deep deterministic policy gradient)和DQN(deep Q network)方法在低碳化经济运行方面具有有效性及先进性。 展开更多
关键词 园区综合能源系统 碳捕集 不确定性 低碳经济调度 策略优化算法
下载PDF
基于近端策略优化算法的端到端车道保持算法研究
4
作者 宋建辉 崔永阔 《通信与信息技术》 2024年第3期92-97,共6页
为提高车道保持算法的成功率,增强无人车导航能力,提出了一种基于改进的近端策略优化算法(Proxi-mal Policy Optimization,PPO)的端到端车道保持算法研究。通过将PPO算法中的一个隐藏层替换为LSTM网络及重新设计奖励函数创建端到端的车... 为提高车道保持算法的成功率,增强无人车导航能力,提出了一种基于改进的近端策略优化算法(Proxi-mal Policy Optimization,PPO)的端到端车道保持算法研究。通过将PPO算法中的一个隐藏层替换为LSTM网络及重新设计奖励函数创建端到端的车道保持算法框架,该框架可以将用于训练的算法策略与模拟器相结合,框架以车前方摄像头的RGB图像、深度图像、无人车的速度、偏离车道线值与碰撞系数等无人车周围环境变量为输入,以车前方摄像头的油门、刹车、方向盘转角等无人车周围环境变量为输出。在Airsim仿真平台下不同的地图中进行训练与测试,并与原算法进行对比实验。实验结果证明改进的LSTM-PPO算法能够训练出有效的车道保持算法,改进后的算法能显著减少训练时间并增加算法的鲁棒性。 展开更多
关键词 自动驾驶 强化学习 策略优化 长短期记忆网络
下载PDF
结合注意力机制与好奇心驱动的近端策略优化算法
5
作者 陈至栩 张荣芬 +2 位作者 刘宇红 王子鹏 黄继辉 《计算机应用与软件》 北大核心 2024年第3期258-265,275,共9页
大多数真实世界的问题中外在世界的激励往往极其稀疏,Agent因得不到反馈而缺乏有效的机制更新策略函数。单纯利用内在好奇心机制驱动会受到无用或有害好奇心的影响导致探索任务失败。针对以上问题,提出一种结合注意力机制与好奇心驱动... 大多数真实世界的问题中外在世界的激励往往极其稀疏,Agent因得不到反馈而缺乏有效的机制更新策略函数。单纯利用内在好奇心机制驱动会受到无用或有害好奇心的影响导致探索任务失败。针对以上问题,提出一种结合注意力机制与好奇心驱动的近端策略优化算法,Agent能够通过好奇心驱动探索未知环境,同时结合注意力机制的理性好奇心能够有效控制Agent因有害好奇心导致的异常探索,使近端策略优化算法保持较快速度和更稳定的状态进行策略更新。实验结果表明该方法下Agent有更好的性能,能取得更高的平均奖励回报。 展开更多
关键词 深度强化学习 注意力机制 策略优化 好奇心机制
下载PDF
应用改进遗传算法的低轨星座部署策略优化方法
6
作者 马林 刘玥 +2 位作者 侯祥震 常新亚 王淼 《航天器工程》 CSCD 北大核心 2024年第2期9-15,共7页
考虑发射场任务间隔时间约束,提出应用改进遗传算法的低轨星座部署策略优化方法。对近地圆轨道星座部署过程进行动力学建模,给出了部署窗口与入轨点相位差的关系,以及入轨后相位调整的代价分析。将星座部署位置组合进行参数化,加上各颗... 考虑发射场任务间隔时间约束,提出应用改进遗传算法的低轨星座部署策略优化方法。对近地圆轨道星座部署过程进行动力学建模,给出了部署窗口与入轨点相位差的关系,以及入轨后相位调整的代价分析。将星座部署位置组合进行参数化,加上各颗卫星部署日期间隔作为优化变量,使得在大范围日期区间内的搜索问题简化为有限维度的整数规划问题。引入改进遗传算法进行局部搜索,进而对部署策略进行寻优计算。以9颗卫星的Walker星座部署任务为例,对优化方法进行验证。结果表明:优化方法相对穷举搜索法的计算量有约7个数量级的降低,且能够用50代以内的演化计算快速得到满足发射间隔约束条件且兼顾部署总时间和相位转移量的最优解。 展开更多
关键词 低轨星座部署 策略优化 发射计划约束 改进遗传算法
下载PDF
基于近端策略优化模板更新的实时目标跟踪方法
7
作者 孙愉亚 龚声蓉 +2 位作者 钟珊 周立凡 范利 《计算机工程与设计》 北大核心 2024年第5期1499-1507,共9页
基于孪生网络的目标跟踪算法往往采用第一帧的外观特征作为固定模板,难以应对目标外观剧烈变化等问题。为此,所提算法在孪生网络的基础上,引入深度强化学习,将模板更新问题建模为马尔可夫决策过程,采用近端策略优化算法进行优化,减少因... 基于孪生网络的目标跟踪算法往往采用第一帧的外观特征作为固定模板,难以应对目标外观剧烈变化等问题。为此,所提算法在孪生网络的基础上,引入深度强化学习,将模板更新问题建模为马尔可夫决策过程,采用近端策略优化算法进行优化,减少因目标外观变化带来的误差积累。针对孪生网络跟踪算法搜索域太小,无法全局搜索目标的问题,引入全局检测算法,找回丢失的目标。所提跟踪算法能够自适应更新模板和全局检测丢失的目标,在OTB数据集和GOT-10k数据集上进行测试,实验结果表明,该方法较代表性方法,具有实时性强和准确率高的优点,能够很好应对目标外观形变以及目标丢失。 展开更多
关键词 目标跟踪 深度强化学习 策略优化 马尔可夫决策过程 全局检测 更新模板 孪生网络
下载PDF
一种多策略改进鲸鱼优化算法的混沌系统参数辨识
8
作者 潘悦悦 吴立飞 杨晓忠 《智能系统学报》 CSCD 北大核心 2024年第1期176-189,共14页
针对混沌系统参数辨识精度不高的问题,以鲸鱼优化算法(whale optimization algorithm,WOA)为基础,提出一种多策略改进鲸鱼优化算法(multi-strategy improved whale optimization algorithm,MIWOA)。采用Chebyshev混沌映射选取高质量初... 针对混沌系统参数辨识精度不高的问题,以鲸鱼优化算法(whale optimization algorithm,WOA)为基础,提出一种多策略改进鲸鱼优化算法(multi-strategy improved whale optimization algorithm,MIWOA)。采用Chebyshev混沌映射选取高质量初始种群,采用非线性收敛因子和自适应权重,提高算法收敛速度,为了避免算法陷入局部最优,动态选择自适应t分布或蚁狮优化算法更新后期位置,提高处理局部极值的能力。通过对10个基准函数和高维测试函数进行仿真试验,表明MIWOA具有良好的稳定性和收敛精度。将MIWOA应用于辨识Rossler和Lu混沌系统参数,仿真结果优于现有成果,表明本文MIWOA辨识混沌系统参数的高效性和实用性。 展开更多
关键词 策略改进鲸鱼优化算法 混沌系统 参数辨识 Chebyshev混沌映射 自适应t分布 蚁狮优化算法 基准函数 Wilcoxon秩和检验
下载PDF
多策略改进的蛇优化算法
9
作者 权浩迪 刘勇国 +4 位作者 傅翀 朱嘉静 张云 兰刚 李巧勤 《计算机技术与发展》 2024年第5期117-125,共9页
为改进蛇优化算法(Snake Optimizer,SO)在探索方式、变量计算、空间搜索方式和种群更新方式等方面存在的不足,提出了一种多策略改进的蛇优化算法(Improved Snake Optimizer,ISO)。首先,提出探索寻优策略,根据个体相对于优势个体的位置... 为改进蛇优化算法(Snake Optimizer,SO)在探索方式、变量计算、空间搜索方式和种群更新方式等方面存在的不足,提出了一种多策略改进的蛇优化算法(Improved Snake Optimizer,ISO)。首先,提出探索寻优策略,根据个体相对于优势个体的位置更新自身的位置,使种群在前期快速收敛到最优解附近。其次,优化变量计算方式,将SO算法中的指数运算改进为多项式运算,提高SO的时间效率。同时引入动态调整搜索空间的机制,随种群进化迭代次数的增加逐步扩展搜索范围以提高寻优能力。最后,引入优势进化策略,淘汰适应度较差的个体并结合优势个体的基因产生新个体,快速提高种群优势基因比例以增加收敛速度。对不同基准测试函数进行寻优实验,分别与经典SO算法和5种启发式算法进行对比,结果表明ISO具有较强的寻优能力。为进一步验证所提算法的高效性和实用性,将ISO应用于全连接神经网络的优化问题,结果表明基于ISO优化的神经网络具有更优的分类效果。 展开更多
关键词 优化算法 启发式算法 优化问题 策略改进 神经网络
下载PDF
基于近端策略动态优化的多智能体编队方法
10
作者 全家乐 马先龙 沈昱恒 《空天防御》 2024年第2期52-62,共11页
无人机集群系统具有能力冗余、抗毁能力强、适应复杂场景等优势,能够实现高效的任务执行和信息获取。近年来,深度强化学习技术被引入无人机集群编队控制方法中,以解决集群维度爆炸和集群系统建模困难的弊端,但深度强化学习面临训练效率... 无人机集群系统具有能力冗余、抗毁能力强、适应复杂场景等优势,能够实现高效的任务执行和信息获取。近年来,深度强化学习技术被引入无人机集群编队控制方法中,以解决集群维度爆炸和集群系统建模困难的弊端,但深度强化学习面临训练效率低等问题。本文提出了一种基于改进近端策略优化方法的集群编队方法,通过引入动态估计法作为评价机制,解决了传统近端策略优化方法收敛速度慢和忽视高价值动作问题,有效提升了数据利用率。仿真试验证明,该方法能够提高训练效率,解决样本复用问题,具有良好的决策性能。 展开更多
关键词 无人机集群 深度强化学习 策略优化 逆强化学习 集群决策
下载PDF
基于相关熵诱导度量的近端策略优化算法
11
作者 张会珍 王强 《吉林大学学报(信息科学版)》 CAS 2023年第3期437-443,共7页
在深度强化学习算法中,近端策略优化算法PPO(Proximal Policy Optimization)在许多实验任务中表现优异,但具有自适应KL(Kullback-Leibler)散度的KL-PPO由于其不对称性而影响了KL-PPO策略更新效率,为此,提出了一种基于相关熵诱导度量的... 在深度强化学习算法中,近端策略优化算法PPO(Proximal Policy Optimization)在许多实验任务中表现优异,但具有自适应KL(Kullback-Leibler)散度的KL-PPO由于其不对称性而影响了KL-PPO策略更新效率,为此,提出了一种基于相关熵诱导度量的近端策略优化算法CIM-PPO(Correntropy Induced Metric-PPO)。该算法具有对称性更适合表征新旧策略的差异,能准确地进行策略更新,进而改善不对称性带来的影响。通过OpenAI gym实验测试表明,相比于主流近端策略优化算法Clip-PPO和KL-PPO算法均能获得高于50%以上的奖励,收敛速度在不同环境均有500~1 100回合左右的加快,同时也具有良好的鲁棒性。 展开更多
关键词 KL散度 策略优化(PPO) 相关熵诱导度量(CIM) 替代目标 深度强化学习
下载PDF
一类分式优化问题的带非单调线搜索的近端梯度次梯度算法研究
12
作者 张景 《应用数学进展》 2024年第3期1129-1139,共11页
本文主要研究一类分式优化问题,其中分子是凸非光滑连续函数与非凸光滑函数的和,分母为凸 非光滑函数。 首先给出了问题的一阶最优性条件,然后给出了求解分式优化问题的新算法,即带 非单调线搜索的近端梯度次梯度算法(简称NL-PGSA)。此... 本文主要研究一类分式优化问题,其中分子是凸非光滑连续函数与非凸光滑函数的和,分母为凸 非光滑函数。 首先给出了问题的一阶最优性条件,然后给出了求解分式优化问题的新算法,即带 非单调线搜索的近端梯度次梯度算法(简称NL-PGSA)。此外,基于Kurdyka-L- ojasiewicz性质, 可以保证算法生成的整个序列的全局收敛性,最后,对l1/l2稀疏信号恢复问题进行了数值实验,验 证了该算法的有效性。 展开更多
关键词 分式优化 梯度次梯度算法 收敛性分析
下载PDF
基于近端策略优化算法的新能源电力系统安全约束经济调度方法 被引量:5
13
作者 杨志学 任洲洋 +3 位作者 孙志媛 刘默斯 姜晶 印月 《电网技术》 EI CSCD 北大核心 2023年第3期988-997,共10页
针对高比例新能源接入导致电力系统安全约束经济调度难以高效求解的问题,该文提出了一种基于近端策略优化算法的安全约束经济调度方法。首先,建立了新能源电力系统安全约束经济调度模型。在深度强化学习框架下,定义了该模型的马尔科夫... 针对高比例新能源接入导致电力系统安全约束经济调度难以高效求解的问题,该文提出了一种基于近端策略优化算法的安全约束经济调度方法。首先,建立了新能源电力系统安全约束经济调度模型。在深度强化学习框架下,定义了该模型的马尔科夫奖励过程。设计了近端策略优化算法的奖励函数机制,引导智能体高效生成满足交流潮流以及N-1安全约束的调度计划。然后,设计了调度模型与近端策略优化算法的融合机制,建立了调度训练样本的生成与提取方法以及价值网络和策略网络的训练机制。最后,采用IEEE 30节点和IEEE 118节点2个标准测试系统,验证了本文提出方法的有效性和适应性。 展开更多
关键词 安全约束经济调度 深度强化学习 策略优化算法 新能源
下载PDF
基于改进鲸鱼优化算法的永磁同步电机控制策略
14
作者 陈德海 陈志文 +1 位作者 李志远 张吉祥 《无线电工程》 2024年第6期1529-1535,共7页
永磁同步电机(Permanent Magnet Synchronous Motor,PMSM)调速系统中普遍存在转速超调不稳定和受负载干扰大等现象,对此提出一种改进鲸鱼优化算法(Improved Whale Optimization Algorithm,IWOA)对转速环的传统PI控制参数整定进行优化。... 永磁同步电机(Permanent Magnet Synchronous Motor,PMSM)调速系统中普遍存在转速超调不稳定和受负载干扰大等现象,对此提出一种改进鲸鱼优化算法(Improved Whale Optimization Algorithm,IWOA)对转速环的传统PI控制参数整定进行优化。在鲸鱼算法(Whale Algorithm,WOA)的基础上引入非线性惯性权重来平衡算法的局部和全局搜索能力。依据学习策略的思想,对鲸鱼种群中每个个体的位置进行优化。在Matlab/Simulink上搭建电机调速系统仿真模型并进行仿真实验,仿真结果表明,基于IWOA的控制策略相比于传统WOA控制超调率由3%减少到1.5%,而PI控制超调率为5%,进一步增强了系统抗负载扰动能力,显著地提高了PMSM的各方面性能。 展开更多
关键词 永磁同步电机 改进鲸鱼优化算法 非线性惯性权重 学习策略
下载PDF
基于近端策略优化的空战决策算法研究 被引量:1
15
作者 张博超 温晓玲 +2 位作者 刘璐 张雅茜 王宏光 《航空工程进展》 CSCD 2023年第2期145-151,共7页
面对未来有/无人机协同作战场景,实时准确的空战决策是制胜的关键。复杂的空中环境、瞬变的态势数据以及多重繁琐的作战任务,使有/无人机协同作战将替代单机作战成为未来空战的发展趋势,但多智能体建模和训练过程却面临奖励分配困难、... 面对未来有/无人机协同作战场景,实时准确的空战决策是制胜的关键。复杂的空中环境、瞬变的态势数据以及多重繁琐的作战任务,使有/无人机协同作战将替代单机作战成为未来空战的发展趋势,但多智能体建模和训练过程却面临奖励分配困难、网络难收敛的问题。针对5v5有/无人机协同的空战场景,抽象出有人机和无人机智能体的特征模型,提出基于近端策略优化算法的空战智能决策算法,通过设置态势评估奖励引导空战过程中有/无人机智能体的决策行为向有利态势发展,实现在与环境的实时交互中,输出空战决策序列。通过仿真实验对所提空战决策算法进行验证,结果表明:本文提出的算法在经过训练学习后,能够适应复杂的战场态势,在连续动作空间中得到稳定合理的决策策略。 展开更多
关键词 空战决策 智能决策 强化学习 策略优化 有/无人机协同
下载PDF
双裁切近端策略优化算法
16
作者 张骏 王红成 《计算机系统应用》 2023年第4期177-186,共10页
近端策略优化(proximal policy optimization,PPO)是一种稳定的深度强化学习算法,该算法的关键点之一是使用裁切后的代理目标限制更新步长.实验发现当使用经验最优的裁切系数时,KL散度(Kullback-Leibler divergence)无法被确立上界,这... 近端策略优化(proximal policy optimization,PPO)是一种稳定的深度强化学习算法,该算法的关键点之一是使用裁切后的代理目标限制更新步长.实验发现当使用经验最优的裁切系数时,KL散度(Kullback-Leibler divergence)无法被确立上界,这有悖于置信域优化理论.本文提出一种改进的双裁切近端策略优化算法(proximal policy optimization with double clipping boundaries,PPO-DC).该算法通过基于概率的两段裁切边界调整KL散度,将参数限制在置信域内,以保证样本数据得到充分利用.在多个连续控制任务中,PPO-DC算法取得了好于其他算法的性能. 展开更多
关键词 强化学习 策略梯度 策略优化 裁切机制
下载PDF
基于深度强化学习近端策略优化的电网无功优化方法 被引量:4
17
作者 张沛 朱驻军 谢桦 《电网技术》 EI CSCD 北大核心 2023年第2期562-570,共9页
新能源和负荷波动给无功优化带来更大的挑战。考虑新能源和负荷时变特性,将无功优化问题构建成强化学习问题。提出了约束–目标划分和目标预设的方法设计奖励函数,并采用近端策略优化算法求解强化学习问题,获得无功优化策略。以改进的IE... 新能源和负荷波动给无功优化带来更大的挑战。考虑新能源和负荷时变特性,将无功优化问题构建成强化学习问题。提出了约束–目标划分和目标预设的方法设计奖励函数,并采用近端策略优化算法求解强化学习问题,获得无功优化策略。以改进的IEEE39系统开展案例分析,结果表明所提的奖励函数能提高智能体收敛速度,基于强化学习求解的无功优化策略在决策效果和决策时间上优于传统确定性优化算法。 展开更多
关键词 无功优化 新型电力系统 深度强化学习 策略优化 数据驱动
下载PDF
基于生成对抗近端策略优化的机动策略优化算法
18
作者 付宇鹏 邓向阳 +2 位作者 朱子强 高阳 张立民 《海军航空大学学报》 2023年第3期257-261,300,共6页
针对传统强化学习算法在生成空战机动策略时存在收敛效率低、专家经验利用不足的问题,研究了基于生成对抗-近端策略优化的策略生成算法。算法采用判别器-策略-价值(DAC)网络框架,在近端策略优化(PPO)算法基础上,利用专家数据和环境交互... 针对传统强化学习算法在生成空战机动策略时存在收敛效率低、专家经验利用不足的问题,研究了基于生成对抗-近端策略优化的策略生成算法。算法采用判别器-策略-价值(DAC)网络框架,在近端策略优化(PPO)算法基础上,利用专家数据和环境交互数据训练判别器网络,并反馈调节策略网络,实现了约束策略向专家策略方向优化,提高了算法收敛效率和专家经验利用率。仿真环境为基于JSBSim开源平台的F-16飞机空气动力学模型。仿真结果表明,本文算法收敛效率高于PPO算法,生成的策略模型具备较好的智能性。 展开更多
关键词 生成对抗模仿学习 策略优化 机动决策 强化学习 模仿学习
下载PDF
基于混合近端策略优化的交叉口信号相位与配时优化方法 被引量:5
19
作者 陈喜群 朱奕璋 吕朝锋 《交通运输系统工程与信息》 EI CSCD 北大核心 2023年第1期106-113,共8页
交通信号优化控制是从供给侧缓解城市交通拥堵的重要手段,随着交通大数据技术的发展,利用深度强化学习进行信号控制成为重点研究方向。现有控制框架大多属于离散相位选择控制,相位时间通过决策间隔累积得到,可能与智能体探索更优动作相... 交通信号优化控制是从供给侧缓解城市交通拥堵的重要手段,随着交通大数据技术的发展,利用深度强化学习进行信号控制成为重点研究方向。现有控制框架大多属于离散相位选择控制,相位时间通过决策间隔累积得到,可能与智能体探索更优动作相冲突。为此,本文提出基于混合近端策略优化(Hybrid Proximal Policy Optimization,HPPO)的交叉口信号相位与配时优化方法。首先在考虑相位时间实际应用边界条件约束下,将信号控制动作定义为参数化动作;然后通过提取交通流状态信息并输入到双策略网络,自适应生成下一相位及其相位持续时间,并通过执行动作后的交通状态变化,评估获得奖励值,学习相位和相位时间之间的内在联系。搭建仿真平台,以真实交通流数据为输入对新方法进行测试与算法对比。结果表明:新方法与离散控制相比具有更低的决策频率和更优的控制效果,车辆平均行程时间和车道平均排队长度分别降低了27.65%和23.65%。 展开更多
关键词 智能交通 混合动作空间 深度强化学习 混合策略优化 智能体设计
下载PDF
基于改进差分进化算法的自由曲面测量路径优化 被引量:1
20
作者 王冠中 王士军 冉川东 《制造技术与机床》 北大核心 2024年第3期51-56,共6页
为解决传统差分进化算法存在收敛速度慢、易陷入局部最优解以及由于个体选择的随机性导致求优稳定性差的问题,文章通过引入多重启动策略,多次运行算法并使用不同的随机种子,增加算法对空间的探索性,在一定程度上解决算法易陷入局部最优... 为解决传统差分进化算法存在收敛速度慢、易陷入局部最优解以及由于个体选择的随机性导致求优稳定性差的问题,文章通过引入多重启动策略,多次运行算法并使用不同的随机种子,增加算法对空间的探索性,在一定程度上解决算法易陷入局部最优解问题;通过使用新的突变策略,在求优稳定性提高了约10%;通过引入参数自适应调节机制,动态地调整算法参数的取值,使收敛速度提高了约10%,并提高了算法的鲁棒性。 展开更多
关键词 改进差分进化算法 自由曲面 自适应调节 突变策略 多重启动 路径优化
下载PDF
上一页 1 2 16 下一页 到第
使用帮助 返回顶部