期刊文献+
共找到22篇文章
< 1 2 >
每页显示 20 50 100
基于Metropolis准则的Q-学习算法研究 被引量:14
1
作者 郭茂祖 王亚东 +1 位作者 刘 扬 孙华梅 《计算机研究与发展》 EI CSCD 北大核心 2002年第6期684-688,共5页
探索与扩张是Q-学习算法中动作选取的关键问题,一味地扩张将使智能体很快地陷入局部最优,虽然探索可以跳出局部最优并加速学习,而过多的探索将影响算法的性能.通过把Q-学习中寻求最优策略表示为组合优化问题中最优解的搜索,将模拟退火... 探索与扩张是Q-学习算法中动作选取的关键问题,一味地扩张将使智能体很快地陷入局部最优,虽然探索可以跳出局部最优并加速学习,而过多的探索将影响算法的性能.通过把Q-学习中寻求最优策略表示为组合优化问题中最优解的搜索,将模拟退火算法的Metropolis准则用于Q-学习中探索和扩张之间的折衷处理,提出基于Metropolis准则的Q-学习算法SA-Q-learning.通过实验比较,它具有更快的收敛速度,而且避免了过多探索引起的算法性能下降. 展开更多
关键词 机器学习 METROPOLIS准则 q-学习算法
下载PDF
基于Q-学习算法的交通控制与诱导协同模式的在线选择 被引量:3
2
作者 杨庆芳 杨朝 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2010年第5期1215-1219,共5页
采用Q-学习算法实现了交通控制与诱导协同模式的在线选择。首先,采用Q-学习算法训练多智能体,根据多智能体内部的推理得到不同交通状态下的最优协同模式,最终实现交通控制与交通诱导协同模式的在线选择与转换。仿真结果表明,本文提出的... 采用Q-学习算法实现了交通控制与诱导协同模式的在线选择。首先,采用Q-学习算法训练多智能体,根据多智能体内部的推理得到不同交通状态下的最优协同模式,最终实现交通控制与交通诱导协同模式的在线选择与转换。仿真结果表明,本文提出的基于Q-学习算法的协同模式选择方法在一般交通拥挤状态下具有较好的协同控制效果,对比离线式模式选择方法更能适应交通状态的不断变化,从而达到有效避免严重交通拥堵、改善路网性能的目的。 展开更多
关键词 交通运输工程 交通控制与诱导协同 模式选择 q-学习算法 回报函数
下载PDF
基于经验知识的Q-学习算法 被引量:7
3
作者 宋清昆 胡子婴 《自动化技术与应用》 2006年第11期10-12,共3页
为了提高智能体系统中的典型的强化学习——Q-学习的学习速度和收敛速度,使学习过程充分利用环境信息,本文提出了一种基于经验知识的Q-学习算法。该算法利用具有经验知识信息的函数,使智能体在进行无模型学习的同时学习系统模型,避免对... 为了提高智能体系统中的典型的强化学习——Q-学习的学习速度和收敛速度,使学习过程充分利用环境信息,本文提出了一种基于经验知识的Q-学习算法。该算法利用具有经验知识信息的函数,使智能体在进行无模型学习的同时学习系统模型,避免对环境模型的重复学习,从而加速智能体的学习速度。仿真实验结果表明:该算法使学习过程建立在较好的学习基础上,从而更快地趋近于最优状态,其学习效率和收敛速度明显优于标准的Q-学习。 展开更多
关键词 强化学习 q-学习算法 智能体 经验知识
下载PDF
基于Q-学习算法的异常检测模型
4
作者 唐素芬 覃伯平 庞坤 《微计算机信息》 北大核心 2006年第04X期87-89,共3页
针对网络入侵的不确定性导致异常检测系统误报率较高的不足,提出一种基于Q-学习算法的异常检测模型(QLADM)。该模型把Q-学习、行为意图跟踪和入侵预测结合起来,可获得未知入侵行为的检测和响应。通过感知环境状况、选择适当行为并从环... 针对网络入侵的不确定性导致异常检测系统误报率较高的不足,提出一种基于Q-学习算法的异常检测模型(QLADM)。该模型把Q-学习、行为意图跟踪和入侵预测结合起来,可获得未知入侵行为的检测和响应。通过感知环境状况、选择适当行为并从环境中获得不确定奖赏值,有效地判断动态系统的入侵行为和降低误报率。给出了该模型框架和各模块的功能描述,经实验验证该模型是有效的。 展开更多
关键词 网络安全 异常检测 模型 q-学习算法
下载PDF
基于Q-学习算法的有状态网络协议模糊测试方法研究 被引量:4
5
作者 荆琛 傅晓彤 +1 位作者 董伟 赵云飞 《电子技术应用》 2020年第4期49-52,56,共5页
现有的有状态网络协议模糊测试技术在测试时,辅助类型报文重复交互,测试效率低,且为确保测试用例有效性,仅向协议实体输入报文类型与被测状态相对应的测试用例,导致无法发现由报文异常输入顺序所引出的协议缺陷。针对这些问题,基于Q-学... 现有的有状态网络协议模糊测试技术在测试时,辅助类型报文重复交互,测试效率低,且为确保测试用例有效性,仅向协议实体输入报文类型与被测状态相对应的测试用例,导致无法发现由报文异常输入顺序所引出的协议缺陷。针对这些问题,基于Q-学习算法设计出一种有状态网络协议模糊测试方法,不需要引导状态的辅助报文,且能在确保一定的测试用例有效性前提下,进行报文异常输入顺序测试。实验结果表明,所提出的模糊测试方法可以显著提高测试效率和漏洞挖掘能力。 展开更多
关键词 模糊测试 漏洞挖掘 q-学习算法 强化学习
下载PDF
基于Q-学习算法的矿井自适应OFDM调制研究 被引量:1
6
作者 朱静茹 张育芝 +1 位作者 王安义 李萍 《工矿自动化》 北大核心 2021年第6期109-115,共7页
针对传统基于固定信噪比门限的自适应OFDM(正交频分复用)调制技术应用于复杂矿井信道时,由于反馈信道状态与实际信道状态不能完全匹配,导致误码率高和吞吐量低的问题,提出了一种基于Q-学习算法的自适应OFDM调制方法,并将其应用于矿井自... 针对传统基于固定信噪比门限的自适应OFDM(正交频分复用)调制技术应用于复杂矿井信道时,由于反馈信道状态与实际信道状态不能完全匹配,导致误码率高和吞吐量低的问题,提出了一种基于Q-学习算法的自适应OFDM调制方法,并将其应用于矿井自适应OFDM调制系统。该系统由发送端、矿井无线信道和接收端组成,发送端为矿井下装有传感器的小车,可以在狭长的巷道内自由移动。发送端利用Q-学习算法在与矿井无线信道的动态交互中不断更新状态-动作值函数,并根据更新的状态-动作值函数,采用贪婪策略来选择调制方式,逼近最优自适应调制策略,以达到降低系统误码率、提高通信吞吐量的目的。与基于SARSA算法、固定信噪比门限的2种矿井自适应OFDM调制系统性能进行仿真对比,结果表明:矿井小车在匀速和移动速度变化状态下,基于Q-学习算法的自适应OFDM调制系统平均误码率分别为1.1×10-3,2.1×10-3,总吞吐量分别为3115 bit,2719 bit,均优于基于SARSA算法和固定信噪比门限的自适应OFDM调制系统,且系统中Q-学习算法收敛速度优于SARSA算法。 展开更多
关键词 矿井无线通信 信道自适应调制 正交频分复用 强化学习 q-学习算法 SARSA算法 OFDM
下载PDF
基于人工情感的Q-学习算法在机器人行为决策中的应用 被引量:5
7
作者 谷学静 高贝贝 朱朝月 《自动化与仪表》 2015年第7期13-16,48,共5页
为了提高经典强化学习算法在机器人行为最优控制策略中学习的效率和收敛速度,在利用环境模型提高强化学习速度方法的基础上,将人类情感具有的趋利避害生存机理应用于环境模型经验知识的学习中,提出了基于人工情感的Q-学习算法,并将该算... 为了提高经典强化学习算法在机器人行为最优控制策略中学习的效率和收敛速度,在利用环境模型提高强化学习速度方法的基础上,将人类情感具有的趋利避害生存机理应用于环境模型经验知识的学习中,提出了基于人工情感的Q-学习算法,并将该算法应用于机器人的行为决策。在有障碍的二维栅格环境下对机器人路径寻优进行了仿真测试,仿真实验结果表明该算法较基于环境模型的Q-学习算法具有更高的学习效率和收敛速度。其改进算法对于提高机器人自主决策能力具有较高的理论意义及推广应用价值。 展开更多
关键词 强化学习 q-学习算法 人工情感 机器人 最优控制策略
下载PDF
城市交通干线的Q-学习控制算法 被引量:3
8
作者 马凤伟 刘智勇 《五邑大学学报(自然科学版)》 CAS 2007年第3期16-22,共7页
针对城市交通干线协调控制的要求,提出了利用Q-学习控制算法和模糊算法的分层递阶控制的方法.采用两层结构,第1层为控制层,针对单个路口,对下一个时间段内路口各个方向的相位饱和度进行预测,并在此基础上计算出下一个时间段内各个路口... 针对城市交通干线协调控制的要求,提出了利用Q-学习控制算法和模糊算法的分层递阶控制的方法.采用两层结构,第1层为控制层,针对单个路口,对下一个时间段内路口各个方向的相位饱和度进行预测,并在此基础上计算出下一个时间段内各个路口的周期、各个方向上的绿信比;第2层是协调层,采用Q-学习控制算法对干线各个路口间的相位差进行调整.采用TSIS交通分析软件对由5个路口组成的交通干线进行仿真,Q-学习控制算法与定时控制和遗传算法进行比较,结果表明:Q-学习控制算法具有明显的优越性. 展开更多
关键词 交通干线协调控制 强化学习 q-学习控制算法 智能体
下载PDF
基于偏向信息学习的双层强化学习算法 被引量:8
9
作者 林芬 石川 +1 位作者 罗杰文 史忠植 《计算机研究与发展》 EI CSCD 北大核心 2008年第9期1455-1462,共8页
传统的强化学习存在收敛速度慢等问题,结合先验知识预置某些偏向可以加快学习速度.但是当先验知识不正确时又可能导致学习过程不收敛.对此,提出基于偏向信息学习的双层强化学习模型.该模型将强化学习过程和偏向信息学习过程结合起来:偏... 传统的强化学习存在收敛速度慢等问题,结合先验知识预置某些偏向可以加快学习速度.但是当先验知识不正确时又可能导致学习过程不收敛.对此,提出基于偏向信息学习的双层强化学习模型.该模型将强化学习过程和偏向信息学习过程结合起来:偏向信息指导强化学习的行为选择策略,同时强化学习指导偏向信息学习过程.该方法在有效利用先验知识的同时能够消除不正确先验知识的影响.针对迷宫问题的实验表明,该方法能够稳定收敛到最优策略;并且能够有效利用先验知识提高学习效率,加快学习过程的收敛. 展开更多
关键词 强化学习 q-学习算法 偏向信息 偏向信息学习 先验知识
下载PDF
强化学习的模型、算法及应用 被引量:8
10
作者 战忠丽 王强 陈显亭 《电子科技》 2011年第1期47-49,共3页
强化学习不需要具有先验知识,通过试错与环境交互获得策略的改进,具有自学习和在线学习能力,是构造智能体的核心技术之一。文中首先综述了强化学习模型和基本原理,然后介绍了强化学习的主要算法,包括Sarsa算法、TD算法、Q-学习算法及函... 强化学习不需要具有先验知识,通过试错与环境交互获得策略的改进,具有自学习和在线学习能力,是构造智能体的核心技术之一。文中首先综述了强化学习模型和基本原理,然后介绍了强化学习的主要算法,包括Sarsa算法、TD算法、Q-学习算法及函数估计算法,最后介绍了强化学习的应用情况及未来研究方向。 展开更多
关键词 强化学习 Sarsa算法 瞬时差分算法 q-学习算法 函数估计
下载PDF
移动雾计算中基于强化学习的伪装攻击检测算法 被引量:5
11
作者 于金亮 涂山山 孟远 《计算机工程》 CAS CSCD 北大核心 2020年第1期38-44,共7页
在移动雾计算中,雾节点与移动终端用户之间的通信容易受到伪装攻击,从而带来通信和数据传输的安全问题。基于移动雾环境下的物理层密钥生成策略,提出一种基于强化学习的伪装攻击检测算法。构建移动雾计算中的伪装攻击模型,在该模型下设... 在移动雾计算中,雾节点与移动终端用户之间的通信容易受到伪装攻击,从而带来通信和数据传输的安全问题。基于移动雾环境下的物理层密钥生成策略,提出一种基于强化学习的伪装攻击检测算法。构建移动雾计算中的伪装攻击模型,在该模型下设计基于Q-学习算法的伪装攻击检测算法,实现在动态环境下对伪装攻击的检测,在此基础上,分析密钥生成策略在假设检验中的漏报率、误报率和平均错误率以检验算法性能。实验结果表明,该算法能够在动态环境中有效地防范伪装攻击,可使检测性能迅速收敛并达到稳定,且具有较低的平均检测错误率。 展开更多
关键词 q-学习算法 物理层安全 伪装攻击 物理层密钥生成 假设检验
下载PDF
未知环境下机器人Q学习覆盖算法 被引量:2
12
作者 常宝娴 丁洁 +1 位作者 朱俊武 章永龙 《南京理工大学学报》 EI CAS CSCD 北大核心 2013年第6期792-798,812,共8页
为提高未知环境下机器人区域覆盖率,提出一种Q-学习覆盖算法(QLCA)。对环境建立栅格模型,在栅格地图中随机部署机器人和障碍位置。机器人根据QLCA自主学习得到的Qtable指导其后续的动作选择和路径规划,减少了机器人移动次数。从机器人... 为提高未知环境下机器人区域覆盖率,提出一种Q-学习覆盖算法(QLCA)。对环境建立栅格模型,在栅格地图中随机部署机器人和障碍位置。机器人根据QLCA自主学习得到的Qtable指导其后续的动作选择和路径规划,减少了机器人移动次数。从机器人数目、环境等方面分析了各类参数变化对该算法的影响。仿真实验结果表明:与随机选择覆盖算法对比,QLCA在完成覆盖的执行步数及冗余效果等方面均有明显优化。 展开更多
关键词 未知环境 q-学习覆盖算法 机器人 区域覆盖 栅格模型
下载PDF
基于Markov对策和强化学习的多智能体协作研究 被引量:7
13
作者 李晓萌 杨煜普 许晓鸣 《上海交通大学学报》 EI CAS CSCD 北大核心 2001年第2期288-292,共5页
MAS的协作机制研究 ,当前比较适用的研究框架是非零和 Markov对策及基于 Q-算法的强化学习 .但实际上在这种框架下的 Agent强调独立学习而不考虑其他 Agent的行为 ,故 MAS缺乏协作机制 .并且 ,Q-算法要求 Agent与环境的交互时具有完备... MAS的协作机制研究 ,当前比较适用的研究框架是非零和 Markov对策及基于 Q-算法的强化学习 .但实际上在这种框架下的 Agent强调独立学习而不考虑其他 Agent的行为 ,故 MAS缺乏协作机制 .并且 ,Q-算法要求 Agent与环境的交互时具有完备的观察信息 ,这种情况过于理想化 .文中针对以上两个不足 ,提出了在联合行动和不完备信息下的协调学习 .理论分析和仿真实验表明 ,协调学习算法具有收敛性 . 展开更多
关键词 MARKOV对策 q-学习算法 协调学习 多智能体系统 强化学习
下载PDF
自适应蚁群算法的多机协同空战目标分配方法 被引量:12
14
作者 于雷 任波 鲁艺 《火力与指挥控制》 CSCD 北大核心 2008年第6期49-51,共3页
对目标超视距空战将是今后空战的主要形式和发展趋势,多机协同多目标攻击中的关键问题是空战决策。首先建立了空战态势评估方法,结合蚁群算法思想,提出了一种新型的目标分配算法模型,并进行了算法实验。实验结果表明基于自适应蚁群算法... 对目标超视距空战将是今后空战的主要形式和发展趋势,多机协同多目标攻击中的关键问题是空战决策。首先建立了空战态势评估方法,结合蚁群算法思想,提出了一种新型的目标分配算法模型,并进行了算法实验。实验结果表明基于自适应蚁群算法解决多机协同空战的目标分配问题是有效的,特别是问题规模较大时更显示出其较快的收敛速度和较高的精度。 展开更多
关键词 目标分配 q-学习蚁群算法 多目标攻击
下载PDF
基于多种硬件实现方式探索的软硬件划分算法
15
作者 牛晓霞 吴艳霞 +2 位作者 朱若平 顾国昌 刘海波 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2014年第4期1088-1093,共6页
提出了一种改进的遗传算法,该算法在求解划分问题的同时也解决了多种硬件方式探索问题。算法依据硬件实现方式的硬件延时-面积矛盾的特征,结合Q-学习算法和贪婪规则,自适应地选择合适变异方向,减少变异盲目性,增强遗传算法的局部搜索能... 提出了一种改进的遗传算法,该算法在求解划分问题的同时也解决了多种硬件方式探索问题。算法依据硬件实现方式的硬件延时-面积矛盾的特征,结合Q-学习算法和贪婪规则,自适应地选择合适变异方向,减少变异盲目性,增强遗传算法的局部搜索能力。实验结果表明,与BUB算法和标准遗传算法相比,本文方法在搜索质量、收敛性方面具有更好的效果。 展开更多
关键词 计算机工程 可重构系统 现场可编程门阵列 软硬件划分算法 遗传算法 q-学习算法
下载PDF
基于有效实例的改进U树算法
16
作者 宋佳佳 王作为 《计算机工程与科学》 CSCD 北大核心 2019年第1期185-190,共6页
传统U-Tree算法对于部分观测马尔可夫决策过程POMDP问题的解决已取得较为显著的成效,但是由于边缘节点生长过于随意,所以仍存在树的规模庞大、内存需求比较大、计算复杂度过高的问题。在原U-Tree算法的基础上,通过得到下一步观测值,来... 传统U-Tree算法对于部分观测马尔可夫决策过程POMDP问题的解决已取得较为显著的成效,但是由于边缘节点生长过于随意,所以仍存在树的规模庞大、内存需求比较大、计算复杂度过高的问题。在原U-Tree算法的基础上,通过得到下一步观测值,来划分同一个叶子节点中做相同动作的实例,提出了一种基于有效实例来扩展边缘节点的EIU-Tree算法,大大缩减了计算规模,以此来帮助智能体更好更快地学习,并且在4×3经典栅格问题中做了仿真实验,对比于原有的U-Tree算法,该算法运行效果更好。 展开更多
关键词 部分观测马尔可夫决策过程 强化学习 U-树 q-学习算法
下载PDF
基于逐位逼近Q学习的PID参数优化方法
17
作者 曹文凯 洪杰 +2 位作者 袁也 吴怀江 姜冲 《电子技术与软件工程》 2022年第5期122-127,共6页
本文在分析强化学习工作机制的基础上,提出了一种基于强化学习算法的PID参数自整定方法。通过与其他算法的对比以及控制系统的鲁棒性分析,证明该算法具有良好的收敛性,能很好的满足控制任务要求。
关键词 q-学习算法 PID控制 自整定 性能评价指标
下载PDF
基于MAS的城市交通信号小区域控制 被引量:1
18
作者 汤志康 王伟智 《工业控制计算机》 2008年第12期87-89,共3页
城市交通问题已经成为困扰城市发展重要因素之一,而原有交通模式下的控制系统已经形成城市发展中木桶理论的"短板效应"。提出基于多智能体技术建立一个小区域的信号控制系统,利用对策论和社会经验进行各TSCA间的协调,并通过... 城市交通问题已经成为困扰城市发展重要因素之一,而原有交通模式下的控制系统已经形成城市发展中木桶理论的"短板效应"。提出基于多智能体技术建立一个小区域的信号控制系统,利用对策论和社会经验进行各TSCA间的协调,并通过仿真实验利用平均延误时间、车流总通过量作为评价指标,验证了控制方法的可行性。 展开更多
关键词 智能交通 多智能体系统 q-学习算法
下载PDF
基于BIM的多元数据在建筑运行节能中的探索 被引量:4
19
作者 杜华明 李冬梅 +1 位作者 刘禹 王冬松 《建筑电气》 2021年第1期19-27,共9页
以BIM模型的数据结构为基础,融合建筑设计静态数据、室内环境数据和设备运行数据,采用自适应动态规划方法,建立基于BIM的建筑-环境-运行数据多元表达模型,构建面向环境舒适度与建筑能效提升的建筑运行节能管理系统。并通过实例验证测试... 以BIM模型的数据结构为基础,融合建筑设计静态数据、室内环境数据和设备运行数据,采用自适应动态规划方法,建立基于BIM的建筑-环境-运行数据多元表达模型,构建面向环境舒适度与建筑能效提升的建筑运行节能管理系统。并通过实例验证测试,评估系统在建筑运行节能中的有效性。 展开更多
关键词 BIM 建筑节能 多元环境 运维 数据融合 边缘计算 物联网 q-学习算法
下载PDF
电动汽车同时充电负荷优化策略及调控技术 被引量:1
20
作者 王健 卢超杰 +1 位作者 陈洪涛 王娟 《科学技术创新》 2017年第22期1-2,共2页
环境污染与气候恶化正成为社会面临的严重问题,电动汽车不直接使用化石能源可以有效解决高污染、高排放问题,因此受到学术界和产业界越来越多的关注。然而,形成一定规模的电动汽车充放电会对现有配电网系统产生极大影响。基于规模化电... 环境污染与气候恶化正成为社会面临的严重问题,电动汽车不直接使用化石能源可以有效解决高污染、高排放问题,因此受到学术界和产业界越来越多的关注。然而,形成一定规模的电动汽车充放电会对现有配电网系统产生极大影响。基于规模化电动汽车充电负荷对配电网的影响分析,本文提出基于最小充电费用Q-学习算法,得到最优控制策略,并制定相应的优化措施。通过仿真分析,所提出的算法和系统方案达到了较好的性能。 展开更多
关键词 配电网 电动汽车 优化充电 q-学习算法
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部