期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于Q学习和TD误差的传感器节点任务调度算法 被引量:1
1
作者 徐祥伟 魏振春 +1 位作者 冯琳 张岩 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2017年第4期470-475,521,共7页
针对现有合作学习算法存在频繁通信、能量消耗过大等问题,应用目标跟踪建立任务模型,文章提出一种基于Q学习和TD误差(Q-learning and TD error,QT)的传感器节点任务调度算法。具体包括将传感器节点任务调度问题映射成Q学习可解决的学习... 针对现有合作学习算法存在频繁通信、能量消耗过大等问题,应用目标跟踪建立任务模型,文章提出一种基于Q学习和TD误差(Q-learning and TD error,QT)的传感器节点任务调度算法。具体包括将传感器节点任务调度问题映射成Q学习可解决的学习问题,建立邻居节点间的协作机制以及定义延迟回报、状态空间等基本学习元素。在协作机制中,QT使得传感器节点利用个体和群体的TD误差,通过动态改变自身的学习速度来平衡自身利益和群体利益。此外,QT根据Metropolis准则提高节点学习前期的探索概率,优化任务选择。实验结果表明:QT具备根据当前环境进行动态调度任务的能力;相比其他任务调度算法,QT消耗合理的能量使得单位性能提高了17.26%。 展开更多
关键词 无线传感器网络(WSNs) 传感器节点 任务调度 Q学习 td误差 协作机制
下载PDF
基于改进优先经验回放的SAC算法路径规划 被引量:1
2
作者 崔立志 钟航 董文娟 《空间控制技术与应用》 CSCD 北大核心 2023年第5期55-64,共10页
为解决智能体在复杂环境下的路径规划问题,提出一种基于改进优先经验回放方法的在线异策略深度强化学习算法模型.该模型采用柔性动作评价算法,通过设计智能体的状态空间、动作空间及奖励函数等实现智能体无碰撞路径规划;利用样本状态优... 为解决智能体在复杂环境下的路径规划问题,提出一种基于改进优先经验回放方法的在线异策略深度强化学习算法模型.该模型采用柔性动作评价算法,通过设计智能体的状态空间、动作空间及奖励函数等实现智能体无碰撞路径规划;利用样本状态优先度与TD误差构建的样本混合优先度的离散度计算样本采样概率,进一步提出基于改进优先经验回放方法的柔性动作评价算法,提高模型学习效率.仿真实验结果验证了提出的改进柔性动作评价算法在各个参数配合下的有效性及改进优先经验回放方法在连续控制任务中模型学习效率的优越性. 展开更多
关键词 状态优先度 td误差 离散度 优先经验回放 学习效率
下载PDF
基于优先经验回放的多智能体协同算法 被引量:3
3
作者 黄子蓉 甯彦淞 王莉 《太原理工大学学报》 CAS 北大核心 2021年第5期747-753,共7页
针对多智能体协同训练中存在的经验缓存机制构建和回放问题,提出一种基于优先经验回放的多智能体协同算法(prioritized experience replayfor multi-agent cooperation,PEMAC)。该算法在MAAC(actor-attention-critic for multi-agent re... 针对多智能体协同训练中存在的经验缓存机制构建和回放问题,提出一种基于优先经验回放的多智能体协同算法(prioritized experience replayfor multi-agent cooperation,PEMAC)。该算法在MAAC(actor-attention-critic for multi-agent reinforcement learning)算法的基础上引入优先经验回放的思想。训练过程中,算法基于TD误差(temporal-difference)对经验数据比例优先级进行标记,每次采样均采取优先级较高的经验数据更新网络。实验结果表明该算法提升了训练数据的质量,从而提升了模型收敛速度和学习效率,且该算法在合作寻宝和漫游者-发射塔环境中的表现性能均优于基线算法。 展开更多
关键词 深度强化学习 多智能体协同 优先经验缓存回放 td误差
下载PDF
基于概率型支持向量分类机的Q学习 被引量:1
4
作者 程玉虎 高阳 王雪松 《中国矿业大学学报》 EI CAS CSCD 北大核心 2010年第3期408-413,共6页
按TD误差标准,把Q学习系统的状态-动作空间粗略地划分为正负2类.为了描述分类的不确定性和避免简单分类导致的学习精度下降问题,利用概率型支持向量分类机(PSVCM)来使得样本的分类同时具有定性的解释和定量的评价.PSVCM的输入为系统的... 按TD误差标准,把Q学习系统的状态-动作空间粗略地划分为正负2类.为了描述分类的不确定性和避免简单分类导致的学习精度下降问题,利用概率型支持向量分类机(PSVCM)来使得样本的分类同时具有定性的解释和定量的评价.PSVCM的输入为系统的连续状态和离散动作,输出为带有概率值的类别标签.对由PSVCM判定为正类的离散动作按其概率值进行加权求和,即可得到连续动作空间下的Q学习控制策略.小船靠岸问题的仿真结果表明,与基于传统支持向量分类机的Q学习相比,所提方法不仅能够有效解决具有连续状态和连续动作的非线性系统的Q学习控制,而且其控制性能对初始动作的设置不敏感. 展开更多
关键词 概率 支持向量分类机 td误差 Q学习
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部