期刊文献+
共找到698篇文章
< 1 2 35 >
每页显示 20 50 100
基于Q学习的高超声速飞行器自抗扰控制研究
1
作者 高强 李旭 +1 位作者 吉月辉 刘俊杰 《控制工程》 CSCD 北大核心 2024年第4期577-582,共6页
为实现高超声速飞行器姿态自抗扰控制的参数整定,提出一种模糊Q学习算法。首先,采用强化学习中的Q学习算法来实现姿态自抗扰控制参数的离线闭环快速自适应整定;然后,根据模糊控制的思路,将控制参数划分为不同区域,通过设定奖励,不断更新... 为实现高超声速飞行器姿态自抗扰控制的参数整定,提出一种模糊Q学习算法。首先,采用强化学习中的Q学习算法来实现姿态自抗扰控制参数的离线闭环快速自适应整定;然后,根据模糊控制的思路,将控制参数划分为不同区域,通过设定奖励,不断更新Q表;最后,将训练好的Q表用于飞行器的控制。仿真结果表明,相对于传统的线性自抗扰控制(linear active disturbance rejection control,LADRC)和滑模控制,基于Q学习的LADRC省去了人工调试参数的繁琐过程,且仍具有良好的跟踪效果。蒙特卡罗仿真测试结果验证了基于Q学习的LADRC的鲁棒性。 展开更多
关键词 高超声速飞行器 姿态控制 自抗扰控制 q学习 参数整定
下载PDF
基于改进Q学习算法和组合模型的超短期电力负荷预测
2
作者 张丽 李世情 +2 位作者 艾恒涛 张涛 张宏伟 《电力系统保护与控制》 EI CSCD 北大核心 2024年第9期143-153,共11页
单一模型在进行超短期负荷预测时会因负荷波动而导致预测精度变差,针对此问题,提出一种基于深度学习算法的组合预测模型。首先,采用变分模态分解对原始负荷序列进行分解,得到一系列的子序列。其次,分别采用双向长短期记忆网络和优化后的... 单一模型在进行超短期负荷预测时会因负荷波动而导致预测精度变差,针对此问题,提出一种基于深度学习算法的组合预测模型。首先,采用变分模态分解对原始负荷序列进行分解,得到一系列的子序列。其次,分别采用双向长短期记忆网络和优化后的深度极限学习机对每个子序列进行预测。然后,利用改进Q学习算法对双向长短期记忆网络的预测结果和深度极限学习机的预测结果进行加权组合,得到每个子序列的预测结果。最后,将各个子序列的预测结果进行求和,得到最终的负荷预测结果。以某地真实负荷数据进行预测实验,结果表明所提预测模型较其他模型在超短期负荷预测中表现更佳,预测精度达到98%以上。 展开更多
关键词 q学习算法 负荷预测 双向长短期记忆 深度极限学习 灰狼算法
下载PDF
Q学习博弈论的WSNs混合覆盖漏洞恢复
3
作者 张鸰 《机械设计与制造》 北大核心 2024年第2期22-29,共8页
针对恶劣环境下分布式无线传感器网络,为了降低成本与恢复能力,提出了一种Q学习博弈论的无线传感器网络混合覆盖漏洞恢复方法。首先设计了一种能够以分散、动态和自治的方式缩小覆盖差距的混合算法,该方法利用基于Q学习算法的博弈论概念... 针对恶劣环境下分布式无线传感器网络,为了降低成本与恢复能力,提出了一种Q学习博弈论的无线传感器网络混合覆盖漏洞恢复方法。首先设计了一种能够以分散、动态和自治的方式缩小覆盖差距的混合算法,该方法利用基于Q学习算法的博弈论概念,融合了节点重新定位和功率传输调整两种覆盖控制方案。对于所制定的潜在博弈论,传感器节点可以仅使用局部熟悉来恢复覆盖漏洞,从而减小覆盖间隙,每个传感器节点选择节点重新定位和调整感知范围。最后仿真结果表明,这里的提出的方法能够在存在连续随机覆盖漏洞条件下保持网络的整体覆盖。 展开更多
关键词 无线传感器网络 q学习 博弈论 覆盖漏洞
下载PDF
基于区间分块Q学习的智能车辆安全舒适刹车算法
4
作者 余欣磊 周贤文 +1 位作者 张依恋 顾伟 《计算机应用研究》 CSCD 北大核心 2024年第1期183-187,共5页
针对当前智能汽车刹车场景下的安全与舒适性问题,提出一种基于区间分块的Q学习算法。首先在Q表中将前车加速度以一定间隔划分入等长区间,用区间中值做间隔来划分后车加速度。其次通过在安全条件下与加速度呈负相关的奖励设置,使智能体... 针对当前智能汽车刹车场景下的安全与舒适性问题,提出一种基于区间分块的Q学习算法。首先在Q表中将前车加速度以一定间隔划分入等长区间,用区间中值做间隔来划分后车加速度。其次通过在安全条件下与加速度呈负相关的奖励设置,使智能体在保证安全的前提下尽量降低刹车加速度。最后在智能体训练的过程中遵循ε-贪心策略以减少随机性,在训练完毕后遵循贪心策略以最大程度利用智能体。将提出的算法与传统Q学习算法在三种常见道路场景上进行仿真测试。实验结果显示使用提出算法的智能车辆在刹车场景中安全率100%、平均刹车加速度小于2 m/s~2且能处理连续刹车加速度,表明提出的算法能够在确保智能汽车安全刹车的同时实现较低的刹车加速度。同时在连续刹车加速度与离线环境等复杂情况下,算法均能正常使用。 展开更多
关键词 智能汽车 智能刹车 q学习 区间分块
下载PDF
基于Q学习的蜂窝车联网边缘计算系统PC-5/Uu接口联合卸载策略
5
作者 冯伟杨 林思雨 +3 位作者 冯婧涛 李赟 孔繁鹏 艾渤 《电子学报》 EI CAS CSCD 北大核心 2024年第2期385-395,共11页
智能驾驶等智能交通服务对时延要求高,在车辆本身算力不足的情况下,车辆需要周围车辆和路旁边缘计算单元帮助其一起完成任务的计算处理.本文在既有车联网边缘计算卸载策略基础上,考虑了蜂窝车联网系统5G-NR接口与PC-5接口链路的特征差异... 智能驾驶等智能交通服务对时延要求高,在车辆本身算力不足的情况下,车辆需要周围车辆和路旁边缘计算单元帮助其一起完成任务的计算处理.本文在既有车联网边缘计算卸载策略基础上,考虑了蜂窝车联网系统5G-NR接口与PC-5接口链路的特征差异,提出了一种基于Q学习的PC-5/Uu接口联合边缘计算卸载策略.在对蜂窝车联网PC-5链路传输成功率进行建模的基础上,推导了PC-5链路的传输速率表征方法.以最小化蜂窝车联网任务处理时延为目标,以任务车辆发射功率与边缘计算车辆的计算能量损耗为约束,构建了系统时延最小化的有约束马尔科夫决策过程.通过拉格朗日方法,将有约束马尔科夫决策过程问题转化为一个等价的极小极大的无约束马尔科夫决策过程,引入Q学习设计卸载策略,进而提出基于Q学习的蜂窝车联网边缘计算系统卸载策略.仿真结果表明,与其他基线方案相比,本文提出的算法可以降低系统时延27.3%以上. 展开更多
关键词 蜂窝车联网 边缘计算 有约束马尔科夫过程 计算迁移 q学习
下载PDF
Q学习差分进化算法求解热电动态经济排放调度
6
作者 方帅 陈旭 李康吉 《电子科技》 2024年第5期9-17,共9页
热电联产动态经济排放调度同时考虑了燃料成本花费和污染气体排放两个目标值,且下一时间段的热电产量受当前时间段热电产量的影响,这是近年来电力系统运行中的一个重要问题。文中提出一种基于Q学习强化多目标差分进化(Q Learning Multi-... 热电联产动态经济排放调度同时考虑了燃料成本花费和污染气体排放两个目标值,且下一时间段的热电产量受当前时间段热电产量的影响,这是近年来电力系统运行中的一个重要问题。文中提出一种基于Q学习强化多目标差分进化(Q Learning Multi-Objective Differential Evolution,QLMODE)算法,以此求解热电联产动态经济排放调度(Combined Heat and Power Dynamic Economic Emission Dispatch,CHPDEED)问题。在QLMODE中,采用Q学习技术调整算法的比例因子参数,即在迭代过程中利用子代解和父代解之间的支配关系确定动作奖励和惩罚,并通过Q学习调整参数值,以获得最适合环境模型的算法参数。文中将所提QLMODE用于求解11机组和33机组的热电联产动态经济排放调度问题。仿真结果表明,与4种成熟的多目标优化算法相比,QLMODE算法燃料成本最小,污染气体排放最少,收敛性和多样性指标优于其他4种算法,且QLMODE在两组问题上都获得了更好的Pareto最优前沿。 展开更多
关键词 q学习 强化学习 多目标算法 差分进化 热电联产 经济排放调度 动态调度 电力系统
下载PDF
基于Q学习算术优化算法的无人机三维航迹规划
7
作者 丁兵兵 匡珍春 卢来 《电光与控制》 CSCD 北大核心 2024年第3期61-69,共9页
针对传统方法求解无人机三维航迹规划易导致规划代价高、精度差和容易陷入局部最优的不足,提出基于Q学习算术优化算法的无人机三维航迹规划算法。为了提升算术优化算法的寻优精度,引入Circle混沌映射提高初始种群多样性和分布均匀性,引... 针对传统方法求解无人机三维航迹规划易导致规划代价高、精度差和容易陷入局部最优的不足,提出基于Q学习算术优化算法的无人机三维航迹规划算法。为了提升算术优化算法的寻优精度,引入Circle混沌映射提高初始种群多样性和分布均匀性,引入Q学习根据个体状态自适应调整数学优化加速函数更新,均衡算法全局搜索与局部开发,设计最优解邻域扰动优化全局搜索能力。通过建立无人机三维航迹规划模型,将航迹规划转化为多目标函数优化问题,并利用改进算法求解无人机三维航迹规划,以综合考虑航迹代价、地形代价和边界代价的目标函数评估粒子适应度,对航迹规划迭代寻优。仿真实验结果表明,所提算法规划的航迹具有更低的总代价和适应不同复杂地形环境的稳定性。 展开更多
关键词 无人机 航迹规划 算术优化算法 q学习 航迹代价
下载PDF
基于双重限制Q学习的机器人控制方法
8
作者 周维庆 王飞 赵德京 《自动化与仪表》 2024年第3期61-65,共5页
离线强化学习凭借不需要智能体与环境交互即可训练出令人满意效果的优势,在近期得到了非常迅速的发展。为了缓解外推误差和离线强化学习算法过于保守的问题,文中提出了基于双重限制Q学习的离线强化学习算法DIQL,限制Q值网络对数据分布外... 离线强化学习凭借不需要智能体与环境交互即可训练出令人满意效果的优势,在近期得到了非常迅速的发展。为了缓解外推误差和离线强化学习算法过于保守的问题,文中提出了基于双重限制Q学习的离线强化学习算法DIQL,限制Q值网络对数据分布外(out-of-distribution,OOD)动作估计值不应与经数据增强后的状态V估计值差距过大,限制策略产生的OOD动作距离数据集分布的均方差不应过大,在双重限制的前提下鼓励算法探索,当数据集质量较差的情况下仍能取得较好的效果。为了验证算法的有效性,特在双足六自由度机器人步态控制环境中进行实验,结果表明DIQL算法可以有效的处理OOD动作,缓解了外推误差和算法过于保守的问题。 展开更多
关键词 离线强化学习 OOD q学习 外推误差 双足机器人
下载PDF
基于虚拟目标制导的自适应Q学习路径规划算法
9
作者 李子怡 胡祥涛 +1 位作者 张勇乐 许建军 《计算机集成制造系统》 EI CSCD 北大核心 2024年第2期553-568,共16页
针对经典强化学习算法用于未知环境下机器人路径规划问题时,存在探索效率低、收敛速度慢、易陷入地形陷阱,以及学习过程缺少中间态导致探索盲目性等问题,设计了双重记忆机制、虚拟目标引导方法、自适应贪婪因子,提出基于虚拟目标引导的... 针对经典强化学习算法用于未知环境下机器人路径规划问题时,存在探索效率低、收敛速度慢、易陷入地形陷阱,以及学习过程缺少中间态导致探索盲目性等问题,设计了双重记忆机制、虚拟目标引导方法、自适应贪婪因子,提出基于虚拟目标引导的自适应Q学习算法。设计了4种环境地图,同其他改进算法进行了对比仿真实验,并通过四驱麦克纳姆轮机器人虚拟仿真实验验证算法性能。实验结果表明,新算法显著减少了迭代次数,提高了强化学习收敛速度,且对复杂环境具有较好的鲁棒性,能够有效避免地形陷阱,提高移动机器人导航系统性能,为移动机器人自主路径规划提供了参考。 展开更多
关键词 q学习 路径规划 强化学习 移动机器人
下载PDF
融合Q学习算法和人工势场算法的无人机航迹规划方法
10
作者 刘冬 余文泉 +2 位作者 霍文健 李瑞 姜伟月 《火力与指挥控制》 CSCD 北大核心 2024年第2期119-124,共6页
针对基于Q学习算法规划出的航线存在与静态障碍物发生碰撞危险的问题,提出融合Q学习算法和人工势场算法的航迹规划方法。该方法首先利用Q学习算法规划出一条航线,其次根据地图统计该航线每个航段内包含的障碍物,最后对每个包含障碍物的... 针对基于Q学习算法规划出的航线存在与静态障碍物发生碰撞危险的问题,提出融合Q学习算法和人工势场算法的航迹规划方法。该方法首先利用Q学习算法规划出一条航线,其次根据地图统计该航线每个航段内包含的障碍物,最后对每个包含障碍物的航段采用改进的人工势场法进行重新规划。实验结果显示,提出的融合方法能够在牺牲少量轨迹长度和时间的情况下,得到与静态障碍物避免发生碰撞的最短路径。 展开更多
关键词 航迹规划 q学习算法 人工势场 无人机
下载PDF
一种基于动作采样的Q学习算法
11
作者 赵德京 马洪聪 +1 位作者 廖登宇 崔浩岩 《控制工程》 CSCD 北大核心 2024年第1期70-79,共10页
强化学习使用马尔可夫决策过程的形式化框架,使用状态、动作和奖励定义学习型智能体与环境的交互过程。多智能体强化学习存在联合动作数随智能体个数的增加呈指数级增长的问题。为缓解此问题,提出一种基于动作采样的Q学习(action-sampli... 强化学习使用马尔可夫决策过程的形式化框架,使用状态、动作和奖励定义学习型智能体与环境的交互过程。多智能体强化学习存在联合动作数随智能体个数的增加呈指数级增长的问题。为缓解此问题,提出一种基于动作采样的Q学习(action-sampling based Q-learning,ASQ)算法。该算法采用集中训练-分散执行的框架,在集中训练阶段更新联合动作Q值时并没有遍历所有联合动作Q值,而只对部分联合动作Q值进行采样。在动作选择和执行阶段,每个智能体又独立选择动作,有效减少了学习阶段的计算量。实验结果表明,该算法能够以100%的成功率学习到最优联合策略。 展开更多
关键词 多智能体强化学习 强化学习 q学习 动作采样
下载PDF
加权双Q学习算法优化的PHEV能量管理策略研究 被引量:1
12
作者 郭玉帆 沈世全 +2 位作者 刘冠颖 古鸿吉 高顺 《重庆理工大学学报(自然科学)》 CAS 北大核心 2023年第2期86-96,共11页
插电式混合动力汽车(plug-in hybrid electric vehicles,PHEV)具有节能、环保、无续航里程焦虑的优点,是汽车领域发展的重点方向。但PHEV整车控制策略较为复杂,涉及到多动力源的能量分配,如何设计高效可靠的能量管理策略已经成为PHEV研... 插电式混合动力汽车(plug-in hybrid electric vehicles,PHEV)具有节能、环保、无续航里程焦虑的优点,是汽车领域发展的重点方向。但PHEV整车控制策略较为复杂,涉及到多动力源的能量分配,如何设计高效可靠的能量管理策略已经成为PHEV研究的热点与难点。为了提升PHEV的燃油经济性和整车性能,提出了一种基于加权双Q学习的插电式混合动力汽车能量管理控制策略,采用加权双Q学习算法求解PHEV的能量分配。为了验证所提策略的有效性及可靠性,在Matlab/Simulink中搭建整车模型并进行仿真验证。研究结果表明:本文所提策略相比基于规则的CD/CS策略,燃油经济性在不同的行驶工况下平均提高6.38%;在不同的工况下,基于加权双Q学习策略的燃油经济性可达随机动态规划策略的98%,验证了本文所提策略具有较好的燃油经济性及工况适应性。 展开更多
关键词 能量管理策略 加权双q学习 混合动力汽车 q学习
下载PDF
基于分簇与改进Q学习的车联网V2V复合路由算法 被引量:1
13
作者 毕翔 黄晃 +1 位作者 张本宏 卫星 《计算机工程》 CAS CSCD 北大核心 2023年第3期221-230,247,共11页
针对现有车联网路由算法存在路由维护开销大、动态适应性差的问题,提出一种基于改进Q学习的多跳分簇复合路由算法。在簇维护阶段,簇头根据网关效用性函数选择边缘车辆中通信性能较优且速度相对稳定的节点作为网关节点。在路由建立阶段,... 针对现有车联网路由算法存在路由维护开销大、动态适应性差的问题,提出一种基于改进Q学习的多跳分簇复合路由算法。在簇维护阶段,簇头根据网关效用性函数选择边缘车辆中通信性能较优且速度相对稳定的节点作为网关节点。在路由建立阶段,通过考虑链路通信质量、数据包传输方向和节点移动性三个方面,设计节点性能评估函数,用于评估所选择下一跳节点的综合性能,以避免出现“盲路”问题,在Q学习阶段,通过定量化方法表示相邻节点的链路持续时间和距离,并将其作为学习率和折扣率,以提升Q学习的学习效率。在德国科隆和国内某市移动数据集上的实验仿真结果表明,相比RSAR、GPSR和TCRA路由算法,该算法的路由生存时间、吞吐量平均提高17.71%和32.56%,通信延迟和丢包率平均降低14.3%和66.32%,能适应复杂多变的车辆自组织网络。 展开更多
关键词 车辆自组织网络 分簇机制 网关选择 复合路由 q学习
下载PDF
改进蚁群与动态Q学习融合的机器人路径规划
14
作者 薛颂东 余欢 《计算机系统应用》 2023年第8期189-197,共9页
基本Q学习算法应用于路径规划时,动作选择的随机性导致算法前期搜索效率较低,规划耗时长,甚至不能找到完整的可行路径,故提出一种改进蚁群与动态Q学习融合的机器人路径规划算法.利用精英蚂蚁模型和排序蚂蚁模型的信息素增量机制,设计了... 基本Q学习算法应用于路径规划时,动作选择的随机性导致算法前期搜索效率较低,规划耗时长,甚至不能找到完整的可行路径,故提出一种改进蚁群与动态Q学习融合的机器人路径规划算法.利用精英蚂蚁模型和排序蚂蚁模型的信息素增量机制,设计了一种新的信息素增量更新方法,以提高机器人的探索效率;利用改进蚁群算法的信息素矩阵为Q表赋值,以减少机器人初期的无效探索;设计了一种动态选择策略,同时提高收敛速度和算法稳定性.在不同障碍物等级的二维静态栅格地图下进行的仿真结果表明,所提方法能够有效减少寻优过程中的迭代次数与寻优耗时. 展开更多
关键词 q学习 路径规划 信息素 动态搜索 栅格地图
下载PDF
基于Q学习的汽车起重机回转冲击抑制方法
15
作者 臧其亮 李顺 王洋 《工程技术研究》 2023年第11期87-89,共3页
文章提出了一种基于Q学习理论的汽车起重机回转冲击抑制方法。通过对实际操作结果的在线训练,得出不同工况状态下能较好实现削减回转冲击的斜坡设定值,在后续操作中以不同的斜坡值分段构建斜坡曲线,弥补了现行方法斜坡值设定过于主观、... 文章提出了一种基于Q学习理论的汽车起重机回转冲击抑制方法。通过对实际操作结果的在线训练,得出不同工况状态下能较好实现削减回转冲击的斜坡设定值,在后续操作中以不同的斜坡值分段构建斜坡曲线,弥补了现行方法斜坡值设定过于主观、固定,对环境适应性弱的不足,能有效减小汽车起重机回转系统停止过程中的液压冲击。 展开更多
关键词 起重机回转 液压冲击 q学习 冲击抑制
下载PDF
基于Q学习的多无人机协同航迹规划方法 被引量:4
16
作者 尹依伊 王晓芳 周健 《兵工学报》 EI CAS CSCD 北大核心 2023年第2期484-495,共12页
针对多无人机同时到达目标的航迹规划问题,建立战场环境模型和单无人机航迹规划的马尔可夫决策模型,基于Q学习算法解算航程最短的最优航迹,应用基于Q学习算法得到的经验矩阵快速解算各无人机的最短航迹并计算协同航程,通过调整绕行无人... 针对多无人机同时到达目标的航迹规划问题,建立战场环境模型和单无人机航迹规划的马尔可夫决策模型,基于Q学习算法解算航程最短的最优航迹,应用基于Q学习算法得到的经验矩阵快速解算各无人机的最短航迹并计算协同航程,通过调整绕行无人机的动作选择策略,得到各无人机满足时间协同的航迹组。考虑多无人机的避碰问题,通过设计后退参数确定局部重规划区域,基于深度Q学习理论,采用神经网络替代Qtable对局部多无人机航迹进行重规划,避免维度爆炸问题。对于先前未探明的障碍物,参考人工势场法思想设计障碍物Q矩阵,将其叠加至原Q矩阵,实现无人机的避碰。仿真结果表明:所提基于Q学习的多无人机协同航迹规划算法能够得到时间协同与碰撞避免的协同航迹,并对环境建模时所未探明的障碍物进行躲避;与A*算法相比,针对在线应用问题,新算法具有更高的求解效率。 展开更多
关键词 多无人机 航迹规划 q学习 时间协同 碰撞避免
下载PDF
基于元Q学习与DDPG的机械臂接近技能学习方法 被引量:1
17
作者 李茂捷 徐国政 +1 位作者 高翔 谭彩铭 《南京邮电大学学报(自然科学版)》 北大核心 2023年第1期96-103,共8页
针对深度强化学习方法在机械臂的接近技能学习中普遍存在的样本效率低、泛化性差的问题,提出一种基于元Q学习的技能学习方法。首先利用结合后视经验回放(Hindsight Experience Replay, HER)的DDPG训练机械臂以指定姿态到达目标点,验证... 针对深度强化学习方法在机械臂的接近技能学习中普遍存在的样本效率低、泛化性差的问题,提出一种基于元Q学习的技能学习方法。首先利用结合后视经验回放(Hindsight Experience Replay, HER)的DDPG训练机械臂以指定姿态到达目标点,验证了算法在接近任务中的有效性;其次,在相关任务集上构造多任务目标作为优化对象,利用结合HER的DDPG训练模型,得到泛化性强的元训练模型和元训练数据,此外利用GRU获取轨迹上下文变量;最后,先在新任务上进行少量训练,再利用元训练数据训练模型进一步提升性能。仿真实验表明,在初始性能、学习速率和收敛性能三方面元Q学习均带来明显提升,其中达到期望性能所需样本量降低77%,平均成功率提高15%。 展开更多
关键词 机器人学习 元强化学习 深度确定性策略梯度 q学习 样本效率
下载PDF
基于双深度Q学习网络的面向设备负荷稳定的智能车间调度方法 被引量:2
18
作者 黎声益 马玉敏 刘鹃 《计算机集成制造系统》 EI CSCD 北大核心 2023年第1期91-99,共9页
在车间管理中,设备负荷是一个关键性能指标,负荷稳定直接影响了生产效率与生产成本,但目前鲜有研究关注如何实现设备负荷稳定的问题。为此,提出一种面向设备负荷稳定的智能车间调度方法。该方法通过一个含有深度神经网络调度模型的调度... 在车间管理中,设备负荷是一个关键性能指标,负荷稳定直接影响了生产效率与生产成本,但目前鲜有研究关注如何实现设备负荷稳定的问题。为此,提出一种面向设备负荷稳定的智能车间调度方法。该方法通过一个含有深度神经网络调度模型的调度智能体,分析车间生产状态与设备负荷间的相关性,及时输出满足期望目标的调度方案。针对深度神经网络调度模型,设计了一个基于双深度Q学习网络(DDQN)的深度神经网络调度模型训练器,其利用奖惩学习免监督地形成调度样本,借此对深度神经网络调度模型进行网络参数更新,实现模型自学习。所提方法在MiniFab半导体生产车间模型中进行了验证,证明了所提调度方法能实现对智能车间设备负荷的控制,从而保证车间整体设备负荷的稳定性。 展开更多
关键词 智能车间 设备负荷 调度 深度q学习网络
下载PDF
离散多智能体有限时间Q学习协同输出调节 被引量:1
19
作者 唐静远 魏文军 《计算机应用研究》 CSCD 北大核心 2023年第1期204-208,共5页
针对离散多智能体系统输出调节,提出了一种基于Q学习的最优控制策略。对于传统多智能体系统的输出调节,获取系统的精确动力学模型并依此求得其HJB方程的解为主要障碍。该策略通过智能体之间的局部通信,在不依赖系统动态模型的前提下实... 针对离散多智能体系统输出调节,提出了一种基于Q学习的最优控制策略。对于传统多智能体系统的输出调节,获取系统的精确动力学模型并依此求得其HJB方程的解为主要障碍。该策略通过智能体之间的局部通信,在不依赖系统动态模型的前提下实现了对每个智能体输出的全局最优控制。为实现对系统响应速率的优化,提出了一种新的有限时间局部误差公式,不仅保证了算法原有的全局最优性能,而且将输出同步时间缩短了近50%,并对所提算法的稳定性进行了分析。仿真结果表明,该策略在避免建立复杂系统模型和求解离散HJB方程的前提下实现了对系统的最优控制,采用更新后的有限时间局部误差公式有效缩短了收敛时间。 展开更多
关键词 离散多智能体系统 q学习 协同输出调节 快速收敛
下载PDF
基于改进Q学习的虚拟电厂参与调峰辅助服务策略 被引量:1
20
作者 陈聪磊 钟继涵 +2 位作者 曹晓波 罗晓东 徐俊 《电器与能效管理技术》 2023年第3期1-10,32,共11页
新型电力系统推进建设中,大规模光伏并网及优先消纳可能会导致电网阻塞而加剧火电机组调峰压力,使其运行工况恶化和成本增加。为此提出虚拟电厂参与系统日前深度调峰辅助服务策略。首先,分析计算电动汽车群组成的虚拟电厂调峰特性和运... 新型电力系统推进建设中,大规模光伏并网及优先消纳可能会导致电网阻塞而加剧火电机组调峰压力,使其运行工况恶化和成本增加。为此提出虚拟电厂参与系统日前深度调峰辅助服务策略。首先,分析计算电动汽车群组成的虚拟电厂调峰特性和运行费用,并根据火电机组的煤耗和排放数据,计算供电煤耗和建立环保指标;其次,基于运行费用和指标,以火电机组调峰裕度为优化目标,运用模拟退火改进的Q学习求解机组深度调峰电量和分摊费用。算例结果表明,虚拟电厂参与系统调峰可提高调峰灵活性和降低运行费用,缓解火电机组调峰压力。 展开更多
关键词 虚拟电厂 调峰辅助服务 改进q学习 光伏消纳 协调调度
下载PDF
上一页 1 2 35 下一页 到第
使用帮助 返回顶部