期刊文献+
共找到33篇文章
< 1 2 >
每页显示 20 50 100
A geospatial service composition approach based on MCTS with temporal-difference learning
1
作者 Zhuang Can Guo Mingqiang Xie Zhong 《High Technology Letters》 EI CAS 2021年第1期17-25,共9页
With the complexity of the composition process and the rapid growth of candidate services,realizing optimal or near-optimal service composition is an urgent problem.Currently,the static service composition chain is ri... With the complexity of the composition process and the rapid growth of candidate services,realizing optimal or near-optimal service composition is an urgent problem.Currently,the static service composition chain is rigid and cannot be easily adapted to the dynamic Web environment.To address these challenges,the geographic information service composition(GISC) problem as a sequential decision-making task is modeled.In addition,the Markov decision process(MDP),as a universal model for the planning problem of agents,is used to describe the GISC problem.Then,to achieve self-adaptivity and optimization in a dynamic environment,a novel approach that integrates Monte Carlo tree search(MCTS) and a temporal-difference(TD) learning algorithm is proposed.The concrete services of abstract services are determined with optimal policies and adaptive capability at runtime,based on the environment and the status of component services.The simulation experiment is performed to demonstrate the effectiveness and efficiency through learning quality and performance. 展开更多
关键词 geospatial service composition reinforcement learning(RL) Markov decision process(MDP) Monte Carlo tree search(MCTS) temporal-difference(td)learning
下载PDF
基于TD-Mask R-CNN的机械装配体图像实例分割 被引量:1
2
作者 唐若仪 陈成军 +1 位作者 王金磊 代成刚 《组合机床与自动化加工技术》 北大核心 2024年第4期135-140,共6页
在机械产品装配过程中,为了准确识别机械装配体零件信息以减少零件漏装、错装等现象,提出一种改进的机械装配体图像实例分割方法TD-Mask R-CNN。首先,在主干网络ResNet101中引入可变形卷积(deformable convolutional networks, DCN)以... 在机械产品装配过程中,为了准确识别机械装配体零件信息以减少零件漏装、错装等现象,提出一种改进的机械装配体图像实例分割方法TD-Mask R-CNN。首先,在主干网络ResNet101中引入可变形卷积(deformable convolutional networks, DCN)以增加网络模型的泛化能力;其次,使用Transfiner结构作为掩码分支以提高机械零件边缘的分割精度;最后,在Transfiner结构中引入离散余弦变换(discrete cosine transform, DCT)模块以提升模型对机械装配体图像整体的分割能力。实验结果表明,提出的实例分割方法在合成深度图像数据集和真实彩色图像数据集上得到的掩码平均精度(average precision, AP)分别为87.7%和92.0%,与其他主流实例分割算法相比均有所提升。 展开更多
关键词 深度学习 装配监测 实例分割 td-Mask R-CNN
下载PDF
TD learning,PER和Epsilon:深度学习对高等教育教学的启示
3
作者 张慧 《教育教学论坛》 2018年第31期239-241,共3页
本文从研究深度学习出发,提出深度学习在增强学习领域能被高等教育借鉴的三种重要算法:时间差分学习、优先经验回放、创新指数,通过对这些算法的具体分析,总结这些算法如何优势互补,综合运用到高等教育教学实践上,提高高等教育教学效果。
关键词 深度学习 时间差分学习 优先经验回放 创新指数
下载PDF
Self-Play and Using an Expert to Learn to Play Backgammon with Temporal Difference Learning
4
作者 Marco A. Wiering 《Journal of Intelligent Learning Systems and Applications》 2010年第2期57-68,共12页
A promising approach to learn to play board games is to use reinforcement learning algorithms that can learn a game position evaluation function. In this paper we examine and compare three different methods for genera... A promising approach to learn to play board games is to use reinforcement learning algorithms that can learn a game position evaluation function. In this paper we examine and compare three different methods for generating training games: 1) Learning by self-play, 2) Learning by playing against an expert program, and 3) Learning from viewing ex-perts play against each other. Although the third possibility generates high-quality games from the start compared to initial random games generated by self-play, the drawback is that the learning program is never allowed to test moves which it prefers. Since our expert program uses a similar evaluation function as the learning program, we also examine whether it is helpful to learn directly from the board evaluations given by the expert. We compared these methods using temporal difference methods with neural networks to learn the game of backgammon. 展开更多
关键词 Board GAMES Reinforcement learning td(λ) Self-Play learning From Demonstration
下载PDF
基于免疫算法的TD-SCDMA网络基站选址优化 被引量:23
5
作者 张英杰 毛赐平 +1 位作者 俎云霄 孙先佑 《通信学报》 EI CSCD 北大核心 2014年第5期44-48,共5页
针对已有3G基站选址优化算法的不足和TD-SCDMA网络的特点,提出了一种基于免疫算法的TD-SCDMA网络基站选址优化方案。建立了基站选址问题的数学模型,设计了基于反学习的种群初始化方案和精英交叉策略,给出了免疫优化算法框架。实验结果表... 针对已有3G基站选址优化算法的不足和TD-SCDMA网络的特点,提出了一种基于免疫算法的TD-SCDMA网络基站选址优化方案。建立了基站选址问题的数学模型,设计了基于反学习的种群初始化方案和精英交叉策略,给出了免疫优化算法框架。实验结果表明,该算法不仅能够以较小的建站代价获得较高的网络覆盖率,而且算法具有较好的收敛性。 展开更多
关键词 免疫算法 反学习 td-SCDMA网络 基站选址
下载PDF
一种二阶TD Error快速Q(λ)算法 被引量:5
6
作者 傅启明 刘全 +3 位作者 孙洪坤 高龙 李瑾 王辉 《模式识别与人工智能》 EI CSCD 北大核心 2013年第3期282-292,共11页
Q(λ)学习算法是一种结合值迭代与随机逼近的思想的基于模型无关的多步离策略强化学习算法.针对经典的Q(λ)学习算法执行效率低、收敛速度慢的问题,从TD Error的角度出发,给出n阶TD Error的概念,并将n阶TD Error用于经典的Q(λ)学习算法... Q(λ)学习算法是一种结合值迭代与随机逼近的思想的基于模型无关的多步离策略强化学习算法.针对经典的Q(λ)学习算法执行效率低、收敛速度慢的问题,从TD Error的角度出发,给出n阶TD Error的概念,并将n阶TD Error用于经典的Q(λ)学习算法,提出一种二阶TD Error快速Q(λ)学习算法——SOE-FQ(λ)算法.该算法利用二阶TD Error修正Q值函数,并通过资格迹将TD Error传播至整个状态动作空间,加快算法的收敛速度.在此基础之上,分析算法的收敛性及收敛效率,在仅考虑一步更新的情况下,算法所要执行的迭代次数T主要指数依赖于1/1-γ、1/ε.将SOE-FQ(λ)算法用于Random Walk和Mountain Car问题,实验结果表明,算法具有较快的收敛速度和较好的收敛精度. 展开更多
关键词 强化学习 马尔科夫决策过程 二阶td ERROR 资格迹 Q(λ)算法
下载PDF
平均和折扣准则MDP基于TD(0)学习的统一NDP方法 被引量:5
7
作者 唐昊 周雷 袁继彬 《控制理论与应用》 EI CAS CSCD 北大核心 2006年第2期292-296,共5页
为适应实际大规模M arkov系统的需要,讨论M arkov决策过程(MDP)基于仿真的学习优化问题.根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行... 为适应实际大规模M arkov系统的需要,讨论M arkov决策过程(MDP)基于仿真的学习优化问题.根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行逼近策略评估;然后,根据性能势的逼近值,通过逼近策略迭代来实现两种准则下统一的神经元动态规划(neuro-dynam ic programm ing,NDP)优化方法.研究结果适用于半M arkov决策过程,并通过一个数值例子,说明了文中的神经元策略迭代算法对两种准则都适用,验证了平均问题是折扣问题当折扣因子趋近于零时的极限情况. 展开更多
关键词 MARKOV决策过程 性能势 td(0)学习 神经元动态规划
下载PDF
TD再励学习在卫星姿态控制中的应用 被引量:1
8
作者 刘向东 崔晓婷 +1 位作者 王华 张宇河 《北京理工大学学报》 EI CAS CSCD 北大核心 2006年第3期248-250,共3页
随着卫星姿态控制系统对控制精度、鲁棒性和抗干扰要求的不断提高,将模糊神经网络控制引入到三轴稳定卫星的姿态控制中,并采用基于时差(TD)法的再励学习来解决模糊神经网络参数在线调整的问题,可以在无需训练样本的前提下实现控制器的... 随着卫星姿态控制系统对控制精度、鲁棒性和抗干扰要求的不断提高,将模糊神经网络控制引入到三轴稳定卫星的姿态控制中,并采用基于时差(TD)法的再励学习来解决模糊神经网络参数在线调整的问题,可以在无需训练样本的前提下实现控制器的在线学习.仿真结果表明,这种结合再励学习的控制算法不仅可以满足对姿态控制精度的要求,有效地抵制了外界干扰,并对卫星的不确定性有较强的鲁棒性. 展开更多
关键词 模糊神经网络 再励学习 时差法(td)
下载PDF
基于TD学习的网格资源预测方法 被引量:1
9
作者 张树东 曹元大 廖乐键 《计算机工程》 EI CAS CSCD 北大核心 2005年第21期17-18,68,共3页
提出了一种新的网格资源预测方法。该算法基于TD学习,不需建立模型,直接从预测环境获得反馈信息,再从反馈信息中学习相应的规则。给出了该算法Java语言的一种实现,并用该系统对电信的接入主机的性能进行了预测试验。结果表明,该预测算... 提出了一种新的网格资源预测方法。该算法基于TD学习,不需建立模型,直接从预测环境获得反馈信息,再从反馈信息中学习相应的规则。给出了该算法Java语言的一种实现,并用该系统对电信的接入主机的性能进行了预测试验。结果表明,该预测算法是有效的。同时给出了学习速度参数和历史信息相关度参数对预测的影响。 展开更多
关键词 强化学习 瞬时差分学习 网格 资源预测
下载PDF
基于TD-error自适应校正的深度Q学习主动采样方法 被引量:12
10
作者 白辰甲 刘鹏 +1 位作者 赵巍 唐降龙 《计算机研究与发展》 EI CSCD 北大核心 2019年第2期262-280,共19页
强化学习中智能体与环境交互的成本较高.针对深度Q学习中经验池样本利用效率的问题,提出基于TD-error自适应校正的主动采样方法.深度Q学习训练中样本存储优先级的更新滞后于Q网络参数的更新,存储优先级不能准确反映经验池中样本TD-erro... 强化学习中智能体与环境交互的成本较高.针对深度Q学习中经验池样本利用效率的问题,提出基于TD-error自适应校正的主动采样方法.深度Q学习训练中样本存储优先级的更新滞后于Q网络参数的更新,存储优先级不能准确反映经验池中样本TD-error的真实分布.提出的TD-error自适应校正主动采样方法利用样本回放周期和Q网络状态建立优先级偏差模型,估计经验池中样本的真实优先级.在Q网络迭代中使用校正后的优先级选择样本,偏差模型在学习过程中分段更新.分析了Q网络学习性能与偏差模型阶数和模型更新周期之间的依赖关系,并对算法复杂度进行了分析.方法在Atari 2600平台进行了实验,结果表明,使用TD-error自适应校正的主动采样方法选择样本提高了智能体的学习速度,减少了智能体与环境的交互次数,同时改善了智能体的学习效果,提升了最优策略的质量. 展开更多
关键词 样本优先级 td-error校正 自适应 主动采样 深度Q学习 强化学习
下载PDF
基于Q学习和TD误差的传感器节点任务调度算法 被引量:1
11
作者 徐祥伟 魏振春 +1 位作者 冯琳 张岩 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2017年第4期470-475,521,共7页
针对现有合作学习算法存在频繁通信、能量消耗过大等问题,应用目标跟踪建立任务模型,文章提出一种基于Q学习和TD误差(Q-learning and TD error,QT)的传感器节点任务调度算法。具体包括将传感器节点任务调度问题映射成Q学习可解决的学习... 针对现有合作学习算法存在频繁通信、能量消耗过大等问题,应用目标跟踪建立任务模型,文章提出一种基于Q学习和TD误差(Q-learning and TD error,QT)的传感器节点任务调度算法。具体包括将传感器节点任务调度问题映射成Q学习可解决的学习问题,建立邻居节点间的协作机制以及定义延迟回报、状态空间等基本学习元素。在协作机制中,QT使得传感器节点利用个体和群体的TD误差,通过动态改变自身的学习速度来平衡自身利益和群体利益。此外,QT根据Metropolis准则提高节点学习前期的探索概率,优化任务选择。实验结果表明:QT具备根据当前环境进行动态调度任务的能力;相比其他任务调度算法,QT消耗合理的能量使得单位性能提高了17.26%。 展开更多
关键词 无线传感器网络(WSNs) 传感器节点 任务调度 Q学习 td误差 协作机制
下载PDF
TD-LTE网络中大气波导干扰的分析与预测 被引量:10
12
作者 孙天宇 周婷 杨旸 《中兴通讯技术》 2018年第2期19-24,共6页
使用来自于江苏移动的实时网络侧数据来分析大气波导干扰(ADI)的特征,同时结合网络侧数据与气象数据,使用两种机器学习方法对ADI强度进行预测,并相互比较。仿真结果表明:使用机器学习可以获得不错的ADI预测效果,当训练样本达到40 000条... 使用来自于江苏移动的实时网络侧数据来分析大气波导干扰(ADI)的特征,同时结合网络侧数据与气象数据,使用两种机器学习方法对ADI强度进行预测,并相互比较。仿真结果表明:使用机器学习可以获得不错的ADI预测效果,当训练样本达到40 000条时,准确率与召回率分别可以达到72%与75%以上。 展开更多
关键词 时分复用长期演进(td-LTE) 大气波导 机器学习 干扰预测
下载PDF
基于强化学习TD算法的乒乓游戏击球策略优化
13
作者 陈功 周谊成 王辉 《电脑知识与技术》 2011年第10期6926-6927,共2页
计算机乒乓游戏是出现在个人计算机上最早的游戏之一,该文利用强化学习中的TD算法,将状态的变化与得分的统计规律统计出来,就是研究在当前状态S下,球拍怎样移动获利最大,让机器击球手快速运动并准确击球。
关键词 机器学习 td算法 策略优化
下载PDF
基于改进优先经验回放的SAC算法路径规划 被引量:1
14
作者 崔立志 钟航 董文娟 《空间控制技术与应用》 CSCD 北大核心 2023年第5期55-64,共10页
为解决智能体在复杂环境下的路径规划问题,提出一种基于改进优先经验回放方法的在线异策略深度强化学习算法模型.该模型采用柔性动作评价算法,通过设计智能体的状态空间、动作空间及奖励函数等实现智能体无碰撞路径规划;利用样本状态优... 为解决智能体在复杂环境下的路径规划问题,提出一种基于改进优先经验回放方法的在线异策略深度强化学习算法模型.该模型采用柔性动作评价算法,通过设计智能体的状态空间、动作空间及奖励函数等实现智能体无碰撞路径规划;利用样本状态优先度与TD误差构建的样本混合优先度的离散度计算样本采样概率,进一步提出基于改进优先经验回放方法的柔性动作评价算法,提高模型学习效率.仿真实验结果验证了提出的改进柔性动作评价算法在各个参数配合下的有效性及改进优先经验回放方法在连续控制任务中模型学习效率的优越性. 展开更多
关键词 状态优先度 td误差 离散度 优先经验回放 学习效率
下载PDF
基于时间差分误差的离线强化学习采样策略 被引量:2
15
作者 张龙飞 冯旸赫 +3 位作者 梁星星 刘世旋 程光权 黄金才 《工程科学学报》 EI CSCD 北大核心 2023年第12期2118-2128,共11页
离线强化学习利用预先收集的专家数据或其他经验数据,在不与环境交互的情况下离线学习动作策略.与在线强化学习相比,离线强化学习具有样本效率高、交互成本低的优势.强化学习中通常使用Q值估计函数或Q值估计网络表示状态-动作的价值.因... 离线强化学习利用预先收集的专家数据或其他经验数据,在不与环境交互的情况下离线学习动作策略.与在线强化学习相比,离线强化学习具有样本效率高、交互成本低的优势.强化学习中通常使用Q值估计函数或Q值估计网络表示状态-动作的价值.因无法通过与环境交互及时修正Q值估计误差,离线强化学习往往面临外推误差严重、样本利用率低的问题.为此,提出基于时间差分误差的离线强化学习采样方法,使用时间差分误差作为样本优先采样的优先度度量,通过使用优先采样和标准采样相结合的采样方式,提升离线强化学习的采样效率并缓解分布外误差问题.同时,在使用双Q值估计网络的基础上,根据目标网络的不同计算方法,比较了3种时间差分误差度量所对应的算法的性能.此外,为消除因使用优先经验回放机制的偏好采样产生的训练偏差,使用了重要性采样机制.通过在强化学习公测数据集—深度数据驱动强化学习数据集上与已有研究成果相比,基于时间差分误差的离线强化学习采样方法在最终性能、数据效率和训练稳定性上均有更好的表现.消融实验表明,优先采样和标准采样相结合的采样方式对算法性能的发挥至关重要,同时,使用最小化双目标Q值估计的时间差分误差优先度度量所对应的算法,在多个任务上具有最优的性能.基于时间差分误差的离线强化学习采样方法可与任何基于Q值估计的离线强化学习方法结合,具有性能稳定、实现简单、可扩展性强的特点. 展开更多
关键词 离线 强化学习 采样策略 经验回放 时间差分误差
下载PDF
On a novel tracking differentiator design based on iterative learning in a moving window
16
作者 Xiangyang Li Rafal Madonski +1 位作者 Zhiqiang Gao Senping Tian 《Control Theory and Technology》 EI CSCD 2023年第1期46-55,共10页
Differential signals are key in control engineering as they anticipate future behavior of process variables and therefore are critical in formulating control laws such as proportional-integral-derivative(PID).The prac... Differential signals are key in control engineering as they anticipate future behavior of process variables and therefore are critical in formulating control laws such as proportional-integral-derivative(PID).The practical challenge,however,is to extract such signals from noisy measurements and this difficulty is addressed first by J.Han in the form of linear and nonlinear tracking differentiator(TD).While improvements were made,TD did not completely resolve the conflict between the noise sensitivity and the accuracy and timeliness of the differentiation.The two approaches proposed in this paper start with the basic linear TD,but apply iterative learning mechanism to the historical data in a moving window(MW),to form two new iterative learning tracking differentiators(IL-TD):one is a parallel IL-TD using an iterative ladder network structure which is implementable in analog circuits;the other a serial IL-TD which is implementable digitally on any computer platform.Both algorithms are validated in simulations which show that the proposed two IL-TDs have better tracking differentiation and de-noise performance compared to the existing linear TD. 展开更多
关键词 Tracking differentiator(td) Iterative learning Iterative learning tracking differentiator(IL-td) Active disturbance rejection control(ADRC)-Two-dimensional system(2-D system)
原文传递
强化学习原理、算法及应用 被引量:19
17
作者 黄炳强 曹广益 王占全 《河北工业大学学报》 CAS 2006年第6期34-38,共5页
强化学习(ReinforcementLearningRL)是从动物学习理论发展而来的,它不需要有先验知识,通过不断与环境交互来获得知识,自主的进行动作选择,具有自主学习能力,在自主机器人行为学习中受到广泛重视.本文综述了强化学习的基本原理,各种算法... 强化学习(ReinforcementLearningRL)是从动物学习理论发展而来的,它不需要有先验知识,通过不断与环境交互来获得知识,自主的进行动作选择,具有自主学习能力,在自主机器人行为学习中受到广泛重视.本文综述了强化学习的基本原理,各种算法,包括TD算法、Q-学习和R学习等,最后介绍了强化学习的应用及其在多机器人系统中的研究热点问题. 展开更多
关键词 强化学习 td算法 Q-学习 R-学习
下载PDF
一种变结构的时间序列预测算法及其在电力系统暂态稳定预测中的应用 被引量:7
18
作者 吕志来 张保会 哈恒旭 《电工技术学报》 EI CSCD 北大核心 2002年第3期82-87,共6页
针对电力系统机电暂态过程存在首摆失稳和多摆失稳的特点 ,提出了一种变结构的时间序列预测算法 ,即针对不同的失稳模式采用不同结构的预测算法。利用多项式与智能动态修正相结合实时快速预测发电机的功角 ,若预测功角的多项式不存在极... 针对电力系统机电暂态过程存在首摆失稳和多摆失稳的特点 ,提出了一种变结构的时间序列预测算法 ,即针对不同的失稳模式采用不同结构的预测算法。利用多项式与智能动态修正相结合实时快速预测发电机的功角 ,若预测功角的多项式不存在极值点 ,即为首摆失稳 ,可终止预测过程 ;多摆失稳是利用同步多参量测量装置实测的数据和多项式预测功角的结果 ,提出的一种基于相邻实际输出之间差别驱动的TD算法与具有遗忘因子的改进BP算法相结合的混合算法 ,并用该算法对电力系统机电暂态过程的不平衡功率和功角的时间序列进行了多步预测。预测结果表明 ,该算法是有效和可行的 ,达到了满意的精度 。 展开更多
关键词 时间序列 预测 在线学习 td方法 BP算法
下载PDF
基于时间差分和局部加权偏最小二乘算法的过程自适应软测量建模 被引量:17
19
作者 袁小锋 葛志强 宋执环 《化工学报》 EI CAS CSCD 北大核心 2016年第3期724-728,共5页
工业过程软测量模型常常因为过程的变量漂移、非线性和时变等问题而使得预测性能下降。因此,时间差分已被应用于解决过程变量漂移问题。但是,时间差分框架下的全局模型往往不能很好地描述过程非线性和时变等特性。为此,提出了一种融合... 工业过程软测量模型常常因为过程的变量漂移、非线性和时变等问题而使得预测性能下降。因此,时间差分已被应用于解决过程变量漂移问题。但是,时间差分框架下的全局模型往往不能很好地描述过程非线性和时变等特性。为此,提出了一种融合时间差分模型和局部加权偏最小二乘算法的自适应软测量建模方法。时间差分模型可以大大减少过程变量漂移的影响,而局部加权偏最小二乘算法作为一种即时学习方法,可以有效解决过程非线性和时变问题。该方法的有效性在数值例子和工业过程实例中得到了有效验证。 展开更多
关键词 时间差分模型 局部加权偏最小二乘算法 即时学习 软测量建模 质量预测
下载PDF
基于递推最小二乘法的多步时序差分学习算法 被引量:5
20
作者 陈学松 杨宜民 《计算机工程与应用》 CSCD 北大核心 2010年第8期52-55,共4页
强化学习是一种重要的机器学习方法。为了提高强化学习过程的收敛速度和减少学习过程值函数估计的误差,提出了基于递推最小二乘法的多步时序差分学习算法(RLS-TD(λ))。证明了在满足一定条件下,该算法的权值将以概率1收敛到唯一解,并且... 强化学习是一种重要的机器学习方法。为了提高强化学习过程的收敛速度和减少学习过程值函数估计的误差,提出了基于递推最小二乘法的多步时序差分学习算法(RLS-TD(λ))。证明了在满足一定条件下,该算法的权值将以概率1收敛到唯一解,并且得出和证明了值函数估计值的误差应满足的关系式。迷宫实验表明,与RLS-TD(0)算法相比,该算法能加快学习过程的收敛,与传统的TD(λ)算法相比,该算法减少了值函数估计误差,从而提高了精度。 展开更多
关键词 强化学习 时序差分 最小二乘 收敛 RLS—td(λ)算法
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部