期刊文献+
共找到75篇文章
< 1 2 4 >
每页显示 20 50 100
Q学习博弈论的WSNs混合覆盖漏洞恢复
1
作者 张鸰 《机械设计与制造》 北大核心 2024年第2期22-29,共8页
针对恶劣环境下分布式无线传感器网络,为了降低成本与恢复能力,提出了一种Q学习博弈论的无线传感器网络混合覆盖漏洞恢复方法。首先设计了一种能够以分散、动态和自治的方式缩小覆盖差距的混合算法,该方法利用基于Q学习算法的博弈论概念... 针对恶劣环境下分布式无线传感器网络,为了降低成本与恢复能力,提出了一种Q学习博弈论的无线传感器网络混合覆盖漏洞恢复方法。首先设计了一种能够以分散、动态和自治的方式缩小覆盖差距的混合算法,该方法利用基于Q学习算法的博弈论概念,融合了节点重新定位和功率传输调整两种覆盖控制方案。对于所制定的潜在博弈论,传感器节点可以仅使用局部熟悉来恢复覆盖漏洞,从而减小覆盖间隙,每个传感器节点选择节点重新定位和调整感知范围。最后仿真结果表明,这里的提出的方法能够在存在连续随机覆盖漏洞条件下保持网络的整体覆盖。 展开更多
关键词 无线传感器网络 q学习 博弈论 覆盖漏洞
下载PDF
基于Q学习的自适应电子战博弈对抗系统总体设计
2
作者 韩如明 马献德 +1 位作者 郭波 李光启 《舰船电子工程》 2024年第9期83-86,共4页
针对传统电子战系统面临的新挑战,基于人工智能技术构建实现动态干扰决策和自适应干扰生成的博弈对抗系统是电子战技术的重要发展方向之一。论文基于Q学习技术,设计了具有智能学习能力的博弈对抗系统,完成了系统总体设计,开发了仿真分... 针对传统电子战系统面临的新挑战,基于人工智能技术构建实现动态干扰决策和自适应干扰生成的博弈对抗系统是电子战技术的重要发展方向之一。论文基于Q学习技术,设计了具有智能学习能力的博弈对抗系统,完成了系统总体设计,开发了仿真分析软件,针对博弈对抗场景开展了仿真分析,分析结果表明所设计的博弈对抗系统能够在复杂场景下完成雷达信号侦察、动态干扰决策和自适应干扰生成。 展开更多
关键词 q学习 智能博弈对抗 自适应干扰生成
下载PDF
基于DDQN改进方法的“斗地主”策略
3
作者 孔燕 吴晓聪 +1 位作者 芮烨锋 史鸿远 《信息技术》 2024年第5期66-72,80,共8页
基于当前一些已有方法在牌类博弈中训练时间长、动作空间大、胜率低等问题,提出了针对DDQN算法网络架构、编码方式的改进方法。采用二进制对手牌特征进行编码,采用手牌拆分的方法把神经网络分为主牌神经网络和副牌神经网络,并且增加GRU... 基于当前一些已有方法在牌类博弈中训练时间长、动作空间大、胜率低等问题,提出了针对DDQN算法网络架构、编码方式的改进方法。采用二进制对手牌特征进行编码,采用手牌拆分的方法把神经网络分为主牌神经网络和副牌神经网络,并且增加GRU神经网络处理序列动作。经实验表明,该算法训练时间比传统DQN算法缩短了13%,在“地主”和“农民”位置上的平均胜率为70%和75%,高于DQN算法的28%和60%,证明了改进算法在上述部分指标方面的优势。 展开更多
关键词 深度强化学习 Double deep q-learning 计算机博弈 Gate Recurrent Unit神经网络 大规模离散动作空间
下载PDF
基于情感计算和Q-learning的agent自主追逐行为过程研究 被引量:3
4
作者 李木军 刘箴 +1 位作者 林君焕 于力鹏 《计算机应用研究》 CSCD 北大核心 2014年第6期1710-1713,1718,共5页
针对目前智能体间追逐过程中对智能体的情感因素考虑不充分的问题,提出一种新的解决方案:首先通过情感建模将个性、情感融入以两个智能体为基元的追逐行为中,使其运动更有多样性;其次通过博弈论引导决策的选取;最后收集对方运动的轨迹点... 针对目前智能体间追逐过程中对智能体的情感因素考虑不充分的问题,提出一种新的解决方案:首先通过情感建模将个性、情感融入以两个智能体为基元的追逐行为中,使其运动更有多样性;其次通过博弈论引导决策的选取;最后收集对方运动的轨迹点,用Q-learning加强学习方式学习归纳,以寻找最优追逐运动路径。在Visual Studio 2012编译环境下得到整个具有可信度的运动动画以及智能体的情感、体力等因素的变化规律图像。演示结果表明,此解决方案对于智能体间高效的追逐有很好的促进作用。 展开更多
关键词 情感计算 q学习 博弈论 多智能体 自主追逐
下载PDF
基于博弈论及Q学习的多Agent协作追捕算法 被引量:5
5
作者 郑延斌 樊文鑫 +1 位作者 韩梦云 陶雪丽 《计算机应用》 CSCD 北大核心 2020年第6期1613-1620,共8页
多Agent协作追捕问题是多Agent协调与协作研究中的一个典型问题。针对具有学习能力的单逃跑者追捕问题,提出了一种基于博弈论及Q学习的多Agent协作追捕算法。首先,建立协作追捕团队,并构建协作追捕的博弈模型;其次,通过对逃跑者策略选... 多Agent协作追捕问题是多Agent协调与协作研究中的一个典型问题。针对具有学习能力的单逃跑者追捕问题,提出了一种基于博弈论及Q学习的多Agent协作追捕算法。首先,建立协作追捕团队,并构建协作追捕的博弈模型;其次,通过对逃跑者策略选择的学习,建立逃跑者有限的Step-T累积奖赏的运动轨迹,并把运动轨迹调整到追捕者的策略集中;最后,求解协作追捕博弈得到Nash均衡解,每个Agent执行均衡策略完成追捕任务。同时,针对在求解中可能存在多个均衡解的问题,加入了虚拟行动行为选择算法来选择最优的均衡策略。C#仿真实验表明,所提算法能够有效地解决障碍环境中单个具有学习能力的逃跑者的追捕问题,实验数据对比分析表明该算法在同等条件下的追捕效率要优于纯博弈或纯学习的追捕算法。 展开更多
关键词 多AGENT 协作追捕 博弈论 q学习 强化学习
下载PDF
基于Q-学习的进化博弈决策模型 被引量:3
6
作者 刘伟兵 黎民 王先甲 《武汉大学学报(工学版)》 CAS CSCD 北大核心 2008年第4期122-125,共4页
基于Q-强化学习算法,建立了进化博弈中代理人的决策模型.考虑到强化学习算法不需要建立环境模型,可用于不完全、不确定信息问题,将Q-强化学习算法引入到进化博弈中,研究了进化博弈中两种Q-学习决策模型:单代理人Q-学习决策模型和多代理... 基于Q-强化学习算法,建立了进化博弈中代理人的决策模型.考虑到强化学习算法不需要建立环境模型,可用于不完全、不确定信息问题,将Q-强化学习算法引入到进化博弈中,研究了进化博弈中两种Q-学习决策模型:单代理人Q-学习决策模型和多代理人Q-学习决策模型,并针对不同结构的进化博弈选择不同的决策模型和算法进行了讨论.仿真算例的结果说明基于Q-学习的决策模型能指导代理人学习、选择最优策略. 展开更多
关键词 进化博弈 强化学习 q-学习 决策模型
下载PDF
基于NashCC-Q学习的两交叉口信号灯协调控制 被引量:2
7
作者 赵晓华 李振龙 +1 位作者 于泉 李云驰 《系统仿真学报》 EI CAS CSCD 北大核心 2008年第17期4660-4663,共4页
提出一种NashCC-Q学习算法用于解决两交叉口信号灯协调控制问题。根据博弈论概念,相邻两交叉口之间的协调控制问题属于二人非零和合作博弈类型。在Nash-Q学习算法的基础上,将Q值函数的更新建立在Nash合作博弈中提出的Nash"公理方法... 提出一种NashCC-Q学习算法用于解决两交叉口信号灯协调控制问题。根据博弈论概念,相邻两交叉口之间的协调控制问题属于二人非零和合作博弈类型。在Nash-Q学习算法的基础上,将Q值函数的更新建立在Nash合作博弈中提出的Nash"公理方法"求博弈谈判解的基础上,进而解决合作博弈的问题,实现两交叉口信号灯协调控制。采用Paramics仿真软件进行仿真,结果表明该方法的有效性。 展开更多
关键词 q学习算法 博弈论 Nash公理谈判解 两交叉口信号灯协调控制
下载PDF
基于Q学习算法的两交叉口信号灯博弈协调控制 被引量:4
8
作者 赵晓华 李振龙 +1 位作者 于泉 荣建 《系统仿真学报》 EI CAS CSCD 北大核心 2007年第18期4253-4256,共4页
Q学习和博弈论相结合解决相邻两交叉口信号灯协调控制问题。在基本Q学习算法的基础上引入博弈论,以Q值作为赢得函数建立赢得矩阵。相邻两交叉口之间的协调关系属于二人非零和合作博弈,采用Nash公理方法求得其谈判解,并以此作为Q学习策... Q学习和博弈论相结合解决相邻两交叉口信号灯协调控制问题。在基本Q学习算法的基础上引入博弈论,以Q值作为赢得函数建立赢得矩阵。相邻两交叉口之间的协调关系属于二人非零和合作博弈,采用Nash公理方法求得其谈判解,并以此作为Q学习策略选择的依据实现两交叉口协调控制。应用Paramics交通仿真软件进行算法仿真,结果表明该方法的有效性。 展开更多
关键词 博弈论 q学习算法 Nash公理方法 两交叉口信号灯协调控制
下载PDF
基于不完全信息随机博弈与Q-learning的防御决策方法 被引量:10
9
作者 张红旗 杨峻楠 张传富 《通信学报》 EI CSCD 北大核心 2018年第8期56-68,共13页
针对现有随机博弈大多以完全信息假设为前提,且与网络攻防实际不符的问题,将防御者对攻击者收益的不确定性转化为对攻击者类型的不确定性,构建不完全信息随机博弈模型。针对网络状态转移概率难以确定,导致无法确定求解均衡所需参数的问... 针对现有随机博弈大多以完全信息假设为前提,且与网络攻防实际不符的问题,将防御者对攻击者收益的不确定性转化为对攻击者类型的不确定性,构建不完全信息随机博弈模型。针对网络状态转移概率难以确定,导致无法确定求解均衡所需参数的问题,将Q-learning引入随机博弈中,使防御者在攻防对抗中通过学习得到的相关参数求解贝叶斯纳什均衡。在此基础上,设计了能够在线学习的防御决策算法。仿真实验验证了所提方法的有效性。 展开更多
关键词 网络攻防 随机博弈 q-LEARNING 贝叶斯纳什均衡 防御决策
下载PDF
Q型聚类分析对第30届奥运会男子篮球赛参赛队伍综合能力分析 被引量:7
10
作者 景怀国 王军 《广州体育学院学报》 CSSCI 北大核心 2012年第6期68-72,共5页
运用文献资料法、对比分析法和数理统计法对参加第30届奥运会男篮比赛的12支队伍的10项技术数据进行研究,使用Q型聚类方法经过11次聚类成功将12支队伍分成四类,阿根廷、澳大利亚和巴西队属于第一类,法国、俄罗斯和西班牙属于第二类,英... 运用文献资料法、对比分析法和数理统计法对参加第30届奥运会男篮比赛的12支队伍的10项技术数据进行研究,使用Q型聚类方法经过11次聚类成功将12支队伍分成四类,阿根廷、澳大利亚和巴西队属于第一类,法国、俄罗斯和西班牙属于第二类,英国、立陶宛、尼日利亚、突尼斯和中国属于第三类,美国属于第四类,这四类反映了当今篮坛综合实力的基本格局。美国队实力超群,综合实力明显高于其它队伍;阿根廷、澳大利亚和巴西硬朗的防守作风和快速整体的进攻打法让队伍在进攻端优势明显;西班牙、俄罗斯和法国队将欧洲传统的整体作战风格和NBA速度快、对抗强的风格相结合,具备了与美国队抗衡的实力;处于第3类的5支队伍整体实力稍差,尚不具备与其他队抗衡的实力。 展开更多
关键词 q型聚类 第30届奥运会 男子篮球 综合能力
下载PDF
智能电网中基于Q学习的能量双边拍卖算法 被引量:3
11
作者 刘迪迪 张泉景 +3 位作者 邹艳丽 秦运柏 孙浩天 胡聪 《南方电网技术》 CSCD 北大核心 2021年第7期109-115,共7页
针对智能电网中多个参与电力市场交易的终端用户,首先通过引入双边拍卖机制,构造了一个包含多用户的能量交易市场模型,然后将设计的多用户交易模型转化成信息不完全的非合作博弈模型,为使多个用户间能量交易趋于稳定,基于Q学习创新地提... 针对智能电网中多个参与电力市场交易的终端用户,首先通过引入双边拍卖机制,构造了一个包含多用户的能量交易市场模型,然后将设计的多用户交易模型转化成信息不完全的非合作博弈模型,为使多个用户间能量交易趋于稳定,基于Q学习创新地提出了一种自适应学习算法,为参与博弈的用户找到最优混合策略,并且使整体博弈达到混合策略纳什均衡,从而使多用户能量交易能够稳定运行,最后通过数值仿真生成混合策略纳什均衡的策略概率分布,证实了提出的多用户能量交易算法的有效性。 展开更多
关键词 能量拍卖 非合作博弈 双边拍卖 q学习 智能电网
下载PDF
未知环境中基于图型博弈和multi-Q学习的动态信道选择算法 被引量:2
12
作者 李方伟 唐永川 朱江 《通信学报》 EI CSCD 北大核心 2013年第11期1-7,共7页
研究了分布式无线网络中,没有任何信息交换、也没有环境变化先验知识情况下的动态信道接入算法。运用图型博弈模型对用户的实际拓扑进行建模分析,证明了此博弈模型存在纯策略纳什均衡并且此纳什均衡是全局最优解。同时,采用multi-Q学习... 研究了分布式无线网络中,没有任何信息交换、也没有环境变化先验知识情况下的动态信道接入算法。运用图型博弈模型对用户的实际拓扑进行建模分析,证明了此博弈模型存在纯策略纳什均衡并且此纳什均衡是全局最优解。同时,采用multi-Q学习求解模型的纯策略纳什均衡解。仿真实验验证了multi-Q学习能获得较高的系统容量以及在图型博弈模型中用户的效用主要由节点的度决定,而与用户数量无直接关系。 展开更多
关键词 动态信道选择 图型博弈 multi-q学习 纯策略纳什均衡
下载PDF
一种基于Q学习的有限理性博弈模型及其应用 被引量:2
13
作者 陈荣钦 林君焕 陈月芬 《系统仿真技术》 2014年第3期203-210,共8页
传统博弈理论模型建立在人的完全理性基础之上,难以切合实际。有限理性博弈则能够很好地描述实际问题。有限理性的博弈者参与到不完全信息博弈中,对博弈的规则、结构以及对手等博弈信息有一个逐渐适应和了解的过程,因此博弈应是动态进... 传统博弈理论模型建立在人的完全理性基础之上,难以切合实际。有限理性博弈则能够很好地描述实际问题。有限理性的博弈者参与到不完全信息博弈中,对博弈的规则、结构以及对手等博弈信息有一个逐渐适应和了解的过程,因此博弈应是动态进化的模型。针对这一问题,提出了一种基于Q学习算法的不完全信息博弈模型,根据Littman的最大最小原则建立了多指标体系下的策略选择概率分布;构建了Q学习与博弈融合的数学模型,使用Q学习机制来实现博弈模型的动态进化;最后将模型应用于两人追逐的仿真实验,结果表明所提出的模型能够很好地再现追逐情景。 展开更多
关键词 q学习 有限理性博弈 追逐 多指标收益
下载PDF
Q学习演化博弈中决策机制对网络合作水平的影响
14
作者 张尊栋 王岩楠 +1 位作者 周慧娟 张艺帆 《计算机工程》 CAS CSCD 北大核心 2023年第6期99-106,114,共9页
针对博弈决策过程中个体无法获取邻居收益的问题,基于Q学习自我经验学习的特性,提出Q学习演化博弈模型。考虑到不同Q学习决策机制会对网络合作水平产生不同的影响,采用ε-greedy决策机制、Boltzmann决策机制和Max-plus决策机制,针对不... 针对博弈决策过程中个体无法获取邻居收益的问题,基于Q学习自我经验学习的特性,提出Q学习演化博弈模型。考虑到不同Q学习决策机制会对网络合作水平产生不同的影响,采用ε-greedy决策机制、Boltzmann决策机制和Max-plus决策机制,针对不同的网络类型、不同的博弈模型参数和不同的强化学习参数进行对比实验,量化分析决策机制对网络合作水平的影响。实验结果表明:与传统的演化博弈模型相比,Q学习演化博弈模型能够普遍提高网络的合作水平,并且不同的Q学习决策机制会对网络合作水平产生不同的影响,使用ε-greedy决策机制的模型合作水平比另两种模型高约35%和37%;较低的学习率、较高的折扣率以及适中的收益均匀性能够促进网络中个体间的合作,使用ε-greedy决策机制的模型合作水平比在较高学习率和较低折扣率下的合作水平分别高约40%和45%;在较高的探索率下,引入考虑个体全局属性的Max-plus决策机制的网络平均收益比引入另两种决策机制的Q学习模型高约22%和17%。 展开更多
关键词 q学习 决策机制 网络演化博弈 合作水平 折扣率
下载PDF
Q-sort方法在提线玩偶产品设计中的应用
15
作者 周祺 丁柳 《包装工程》 CAS 北大核心 2019年第12期212-217,共6页
目的探究Q-sort方法在传统提线玩偶产品设计中的创新与应用。方法从现代化的游戏形式和现代玩具设计的发展趋势入手,通过Q-sort方法提取提线玩偶的隐性特征,将这些隐性特征与现代趣味性电子玩具的设计方法及现代益智类游戏的游戏形式相... 目的探究Q-sort方法在传统提线玩偶产品设计中的创新与应用。方法从现代化的游戏形式和现代玩具设计的发展趋势入手,通过Q-sort方法提取提线玩偶的隐性特征,将这些隐性特征与现代趣味性电子玩具的设计方法及现代益智类游戏的游戏形式相结合,设定该提线玩偶游戏玩具的游戏规则和总体功能,并分析其关键技术与实现手段。结论传统提线玩偶文化产物与现代设计理念的结合,不仅在设计上创新突破,达到增强产品趣味性与刺激性的目的,同时在实际应用中也能满足儿童在心智方面发展的需求,使儿童从寓教于乐之中受益。融合了现代设计理念和技巧的提线玩偶游戏玩具构建了现代游戏玩具设计的新风格,对于提升传统提线玩偶的内在价值,传播文化信息,弘扬民族特色具有重要意义。 展开更多
关键词 q-sort方法 提线玩偶 游戏 玩具设计 创新设计
下载PDF
基于多组并行深度Q网络的连续空间追逃博弈算法 被引量:4
16
作者 刘冰雁 叶雄兵 +2 位作者 岳智宏 董献洲 张其扬 《兵工学报》 EI CAS CSCD 北大核心 2021年第3期663-672,共10页
为解决连续空间追逃博弈(PEG)问题,提出一种基于多组并行深度Q网络(DQN)的连续空间PEG算法。应对连续行为空间中为避免传统强化学习存在的维数灾难不足,通过构建Takagi-Sugeno-Kang模糊推理模型来表征连续空间;为应对离散动作集自学习... 为解决连续空间追逃博弈(PEG)问题,提出一种基于多组并行深度Q网络(DQN)的连续空间PEG算法。应对连续行为空间中为避免传统强化学习存在的维数灾难不足,通过构建Takagi-Sugeno-Kang模糊推理模型来表征连续空间;为应对离散动作集自学习复杂且耗时不足,设计基于多组并行DQN的PEG算法。以4轮战车PEG问题为例设计仿真环境与运动模型,进行了运动计算,并与Q-learning算法、基于资格迹的强化学习算法、基于奖励的遗传算法结果相比对。仿真实验结果表明,连续空间PEG算法能够较好地解决连续空间PEG问题,且随着学习次数的增加不断提升问题处理能力,具备自主学习耗时少、追捕应用时间短的比较优势。 展开更多
关键词 追逃博弈 连续空间 深度q网络 神经网络 微分对策 智能战车
下载PDF
基于内嵌增广拉格朗日函数Q-learning方法的虚拟电厂市场博弈策略 被引量:14
17
作者 刘天奇 韩冬 +1 位作者 汪延德 董晓天 《电网技术》 EI CSCD 北大核心 2021年第10期4000-4008,共9页
聚合了多品类能源资源的虚拟电厂为多主体参与下的竞争电力市场增添了较多不确定性。为了刻画虚拟电厂在市场博弈行为中的特点,探寻更高效的电力市场交易机制,提出了一种含虚拟电厂的电力市场古诺博弈模型,并证明了其纳什均衡解的唯一... 聚合了多品类能源资源的虚拟电厂为多主体参与下的竞争电力市场增添了较多不确定性。为了刻画虚拟电厂在市场博弈行为中的特点,探寻更高效的电力市场交易机制,提出了一种含虚拟电厂的电力市场古诺博弈模型,并证明了其纳什均衡解的唯一存在性。由于传统优化算法难以准确模拟现实中发电商之间的竞争过程,而适用于不完全信息博弈的Q-learning算法又难以处理复杂的约束条件,提出了基于多智体框架下Q-learning算法内嵌拉格朗日函数的联合求解算法,对含虚拟电厂的电力市场博弈模型进行求解。算例分别采用遗传算法与所提算法对模型进行仿真测试,结果表明,在电能需求总量恒定且统一出清模式的电力市场中,虚拟电厂较传统电厂有着优越的资源整合与盈利能力,且所提算法能够获得更为稳定的收敛结果。 展开更多
关键词 电力市场 虚拟电厂 古诺博弈 q-LEARNING 增广拉格朗日法
下载PDF
引入谈判博弈的Q-学习下的城市交通信号协调配时决策 被引量:4
18
作者 夏新海 许伦辉 《科学技术与工程》 北大核心 2018年第33期108-116,共9页
由于城市交通路网中交叉口间交通信号决策是相互影响的,并且车联网技术使得交叉口交通信号配时agent间能进行直接交互,此决策问题可用博弈框架来描述。建立了城市路网中相邻交叉口间交通流关联模型,通过嵌入谈判博弈模型来设计Q-学习方... 由于城市交通路网中交叉口间交通信号决策是相互影响的,并且车联网技术使得交叉口交通信号配时agent间能进行直接交互,此决策问题可用博弈框架来描述。建立了城市路网中相邻交叉口间交通流关联模型,通过嵌入谈判博弈模型来设计Q-学习方法,此方法中利用谈判参考点来进行配时行为的选择。仿真实验分析表明,相对于无协调的Q-学习算法,谈判博弈Q-学习取得更好的控制效果和稳定性能。谈判博弈Q-学习在处理交通拥挤及干扰交通流时,能根据交通条件灵活地改变交通信号配时决策,具有较强的适应能力。 展开更多
关键词 谈判博弈 q-学习 交通信号 配时决策
下载PDF
基于多Agent Q学习的RoboCup局部配合策略 被引量:2
19
作者 赵发君 李龙澍 《计算机工程与应用》 CSCD 2014年第23期127-130,共4页
针对Robo Cup(Robot World Cup)中,多Agent之间的配合策略问题,采用了一种局部合作的多Agent Q-学习方法:通过细分球场区域和Agent回报值的方法,加强了Agent之间的协作能力,从而增强了队伍的进攻和防守能力。同时通过约束此算法的使用范... 针对Robo Cup(Robot World Cup)中,多Agent之间的配合策略问题,采用了一种局部合作的多Agent Q-学习方法:通过细分球场区域和Agent回报值的方法,加强了Agent之间的协作能力,从而增强了队伍的进攻和防守能力。同时通过约束此算法的使用范围,减少了学习所用的时间,确保了比赛的实时性。最后在仿真2D平台上进行的实验证明,该方法比以前的效果更好,完全符合初期的设计目标。 展开更多
关键词 随机对策 q-学习 实时性 局部合作 RoboCup仿真2D 配合策略
下载PDF
结合行为树与Q-learning优化UT2004中agent行为决策 被引量:6
20
作者 刘晓伟 高春鸣 《计算机工程与应用》 CSCD 北大核心 2016年第3期113-118,共6页
针对FPS游戏UT2004中的NPC(Non-Player-Character,即非玩家角色)的行为决策不够灵活多变,不够智能等问题,结合行为树与Q-learning强化学习算法,提出了一种预处理与在线学习结合的方式优化NPC行为决策的方法。通过在行为树上的强化学习,... 针对FPS游戏UT2004中的NPC(Non-Player-Character,即非玩家角色)的行为决策不够灵活多变,不够智能等问题,结合行为树与Q-learning强化学习算法,提出了一种预处理与在线学习结合的方式优化NPC行为决策的方法。通过在行为树上的强化学习,NPC行为决策更为灵活、智能,即human-like。实验结果表明了该方法的有效性与可行性。 展开更多
关键词 行为决策 游戏人工智能(AI) q学习 强化学习 行为树
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部