期刊文献+
共找到205篇文章
< 1 2 11 >
每页显示 20 50 100
基于改进DQN算法的应召搜潜无人水面艇路径规划方法 被引量:1
1
作者 牛奕龙 杨仪 +3 位作者 张凯 穆莹 王奇 王英民 《兵工学报》 EI CAS CSCD 北大核心 2024年第9期3204-3215,共12页
针对应召反潜中无人水面艇航向和航速机动的情形,提出一种基于改进深度Q学习(Deep Q-learning,DQN)算法的无人艇路径规划方法。结合应召搜潜模型,引入改进的深度强化学习(Improved-DQN,I-DQN)算法,通过联合调整无人水面艇(Unmanned Surf... 针对应召反潜中无人水面艇航向和航速机动的情形,提出一种基于改进深度Q学习(Deep Q-learning,DQN)算法的无人艇路径规划方法。结合应召搜潜模型,引入改进的深度强化学习(Improved-DQN,I-DQN)算法,通过联合调整无人水面艇(Unmanned Surface Vessel,USV)的动作空间、动作选择策略和奖励等,获取一条最优路径。算法采用时变动态贪婪策略,根据环境和神经网络的学习效果自适应调整USV动作选择,提高全局搜索能力并避免陷入局部最优解;结合USV所处的障碍物环境和当前位置设置分段非线性奖惩函数,保证不避碰的同时提升算法收敛速度;增加贝塞尔算法对路径平滑处理。仿真结果表明,在相同环境下新方法规划效果优于DQN算法、A^(*)算法和人工势场算法,具有更好的稳定性、收敛性和安全性。 展开更多
关键词 无人水面艇 路径规划 深度q学习算法 应召搜索
下载PDF
基于规则与Q学习的作业车间动态调度算法
2
作者 王艳红 尹涛 +3 位作者 谭园园 张俊 李冬 崔悦 《计算机集成制造系统》 EI CSCD 北大核心 2024年第10期3535-3546,共12页
为了在特定的作业条件下找到最优调度规则,提高调度规则在不确定动态条件下的自适应、自寻优能力,提出一种调度规则与Q学习算法集成的作业车间动态调度算法。考虑车间中作业随机到达的动态情况,以最小化最大延迟时间为调度目标,在Q学习... 为了在特定的作业条件下找到最优调度规则,提高调度规则在不确定动态条件下的自适应、自寻优能力,提出一种调度规则与Q学习算法集成的作业车间动态调度算法。考虑车间中作业随机到达的动态情况,以最小化最大延迟时间为调度目标,在Q学习框架下设计了新的状态特征、奖励机制以及以Boltzmann采样函数为主体的搜索策略,提高了算法探索和利用规则的能力;以最短加工时间优先和最早交货期等经典调度规则构成动作集,继承了调度规则的可解释性,使智能体能实时处理随机到达的作业任务,通过持续学习和迭代更新获得不同作业场景下的最优调度规则。仿真研究和对比测试验证了所提算法的优越性。 展开更多
关键词 动态调度 q学习算法 调度规则 作业车间调度
下载PDF
基于改进Q学习算法和组合模型的超短期电力负荷预测
3
作者 张丽 李世情 +2 位作者 艾恒涛 张涛 张宏伟 《电力系统保护与控制》 EI CSCD 北大核心 2024年第9期143-153,共11页
单一模型在进行超短期负荷预测时会因负荷波动而导致预测精度变差,针对此问题,提出一种基于深度学习算法的组合预测模型。首先,采用变分模态分解对原始负荷序列进行分解,得到一系列的子序列。其次,分别采用双向长短期记忆网络和优化后的... 单一模型在进行超短期负荷预测时会因负荷波动而导致预测精度变差,针对此问题,提出一种基于深度学习算法的组合预测模型。首先,采用变分模态分解对原始负荷序列进行分解,得到一系列的子序列。其次,分别采用双向长短期记忆网络和优化后的深度极限学习机对每个子序列进行预测。然后,利用改进Q学习算法对双向长短期记忆网络的预测结果和深度极限学习机的预测结果进行加权组合,得到每个子序列的预测结果。最后,将各个子序列的预测结果进行求和,得到最终的负荷预测结果。以某地真实负荷数据进行预测实验,结果表明所提预测模型较其他模型在超短期负荷预测中表现更佳,预测精度达到98%以上。 展开更多
关键词 q学习算法 负荷预测 双向长短期记忆 深度极限学习机 灰狼算法
下载PDF
融合Q学习算法和人工势场算法的无人机航迹规划方法
4
作者 刘冬 余文泉 +2 位作者 霍文健 李瑞 姜伟月 《火力与指挥控制》 CSCD 北大核心 2024年第2期119-124,共6页
针对基于Q学习算法规划出的航线存在与静态障碍物发生碰撞危险的问题,提出融合Q学习算法和人工势场算法的航迹规划方法。该方法首先利用Q学习算法规划出一条航线,其次根据地图统计该航线每个航段内包含的障碍物,最后对每个包含障碍物的... 针对基于Q学习算法规划出的航线存在与静态障碍物发生碰撞危险的问题,提出融合Q学习算法和人工势场算法的航迹规划方法。该方法首先利用Q学习算法规划出一条航线,其次根据地图统计该航线每个航段内包含的障碍物,最后对每个包含障碍物的航段采用改进的人工势场法进行重新规划。实验结果显示,提出的融合方法能够在牺牲少量轨迹长度和时间的情况下,得到与静态障碍物避免发生碰撞的最短路径。 展开更多
关键词 航迹规划 q学习算法 人工势场 无人机
下载PDF
基于双深度Q网络算法的多用户端对端能源共享机制研究
5
作者 武东昊 王国烽 +2 位作者 毛毳 陈玉萍 张有兵 《高技术通讯》 CAS 北大核心 2024年第7期755-764,共10页
端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷... 端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷变动问题。为此,本文建立了一种以多类型用户为基础的多用户P2P能源社区交易模型,并引入基于双深度Q网络(DDQN)的强化学习(RL)算法对其进行求解。所提方法通过DDQN算法中的预测网络以及目标网络读取多用户P2P能源社区中的环境信息,训练后的神经网络可通过实时的光伏、负荷以及电价数据对当前社区内的多用户P2P交易问题进行求解。案例仿真结果表明,所提方法在促进社区内用户间P2P能源交易共享的同时,保证了多用户P2P能源社区的经济性。 展开更多
关键词 端对端(P2P)能源共享 强化学习(RL) 能源交易市场 双深度q网络(DDqN)算法
下载PDF
基于Q学习算法和遗传算法的动态环境路径规划 被引量:17
6
作者 于乃功 王琛 +1 位作者 默凡凡 蔡建羡 《北京工业大学学报》 CAS CSCD 北大核心 2017年第7期1009-1016,共8页
针对Q学习算法在动态连续环境中应用时因状态连续、数量过多,导致Q值表出现存储空间不足和维数灾的问题,提出了一种新的Q值表设计方法,并设计了适用于连续环境的R值和动作.不同于以状态-动作为索引,将时间离散化为时刻,以时刻-动作为索... 针对Q学习算法在动态连续环境中应用时因状态连续、数量过多,导致Q值表出现存储空间不足和维数灾的问题,提出了一种新的Q值表设计方法,并设计了适用于连续环境的R值和动作.不同于以状态-动作为索引,将时间离散化为时刻,以时刻-动作为索引来建立Q值表.将在某状态应选择某一动作的问题转化为在某时刻应选择某一动作的问题,实现了Q学习算法在动态连续环境中的应用.采用了先利用遗传算法进行静态全局路径规划,然后利用Q学习算法进行动态避障.整个方法为一种先"离线"后"在线"的分层路径规划方法,成功实现了移动机器人的路径规划.仿真结果验证了所提出方法的有效性. 展开更多
关键词 动态环境 连续环境 路径规划 q学习算法
下载PDF
大用户直购中基于Q学习算法的多代理两阶段谈判策略 被引量:11
7
作者 张森林 屈少青 +3 位作者 陈皓勇 张浩 荆朝霞 匡卫洪 《电力系统自动化》 EI CSCD 北大核心 2010年第6期37-41,共5页
利用多代理对大用户直购电中不同类型交易者的谈判行为进行了模拟,采取基于历史报价数据的Q学习算法增加了代理的自主学习能力,使代理能根据对手动作及时调整己方报价。此外,为保证市场竞争的公平性,提出了基于"谈判+拍卖"的... 利用多代理对大用户直购电中不同类型交易者的谈判行为进行了模拟,采取基于历史报价数据的Q学习算法增加了代理的自主学习能力,使代理能根据对手动作及时调整己方报价。此外,为保证市场竞争的公平性,提出了基于"谈判+拍卖"的两阶段谈判机制,给予因对谈判形势估计不足致使谈判破裂但又拥有成本优势的发电商再一次出价的机会,使得合同电价反映出不同发电成本间的真实差异,以此激励发电商以降低成本的方式来换取谈判中的主动权。 展开更多
关键词 一对多谈判 q学习算法 电力市场 大用户直购电 双边合同
下载PDF
集装箱码头集卡调度模型与Q学习算法 被引量:37
8
作者 曾庆成 杨忠振 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2008年第1期1-4,共4页
研究集装箱码头装卸过程中集卡调度问题,建立了集卡调度动态模型,目的是使装卸桥等待时间最小.设计了基于Q学习算法的求解方法,获得在不同状态下的集卡调度策略.提出了应用Q学习算法求解集卡最优调度时系统状态、动作规则、学习步长与... 研究集装箱码头装卸过程中集卡调度问题,建立了集卡调度动态模型,目的是使装卸桥等待时间最小.设计了基于Q学习算法的求解方法,获得在不同状态下的集卡调度策略.提出了应用Q学习算法求解集卡最优调度时系统状态、动作规则、学习步长与折扣因子的选择方法.结果表明,随着集卡数量的增加,Q学习算法获得的结果优于最长等待时间、最远距离、固定分配集卡等调度策略. 展开更多
关键词 集装箱码头 强化学习 集卡调度 q学习算法
下载PDF
基于AS3992的防碰撞Q算法分析与改进 被引量:4
9
作者 邓敦建 安勇 +1 位作者 牟荣增 阎跃鹏 《传感器与微系统》 CSCD 北大核心 2013年第3期7-10,共4页
基于超高频(UHF)射频识别(RFID)ISO/IEC 18000-6C协议的防碰撞Q算法存在标签数和所选时隙数不确定的局限性,使得系统自适应能力不足。通过先理论估算标签的数量,并计算该标签下的最佳时隙,后在软件上优化估算的标签数,对Q算法进行改进。... 基于超高频(UHF)射频识别(RFID)ISO/IEC 18000-6C协议的防碰撞Q算法存在标签数和所选时隙数不确定的局限性,使得系统自适应能力不足。通过先理论估算标签的数量,并计算该标签下的最佳时隙,后在软件上优化估算的标签数,对Q算法进行改进。在AS3992专用集成电路读写器芯片和STM32f103微控制器组成的实验平台上验证,实验结果表明:与原算法相比,改进算法在不降低识别效率和不增加平均功耗的情况下自适应能力有所提高,且估算标签数量误差控制在10%以内。 展开更多
关键词 射频识别 防碰撞 q算法 动态帧时隙算法 自适应
下载PDF
射频识别防碰撞Q算法的分析及改进 被引量:7
10
作者 韩振伟 宋克非 《计算机工程与设计》 CSCD 北大核心 2011年第7期2314-2318,共5页
为了减少射频识别系统多个标签防碰撞过程中所消耗的动态功耗,通过对RFID领域超高频频段EPCglobal Class-1Gen-2标准中的标签识别层所采用的防碰撞技术及相关指令的分析,在其基础上对Q算法提出改进方案。该方案使用稳定缓变的帧长度来... 为了减少射频识别系统多个标签防碰撞过程中所消耗的动态功耗,通过对RFID领域超高频频段EPCglobal Class-1Gen-2标准中的标签识别层所采用的防碰撞技术及相关指令的分析,在其基础上对Q算法提出改进方案。该方案使用稳定缓变的帧长度来适应现场标签数量,使帧长度保持在最优值,减小标签内部门电路翻转频率,从而降低了标签防碰撞过程中总动态功耗81.8%。仿真实验结果表明,改进后的Q算法帧长度调整频率低于改进前的Q算法帧长度调整频率。 展开更多
关键词 防碰撞 q算法 EPCGLOBAL Class-1 Gen-2标准 射频识别 标签
下载PDF
Q学习算法在库存控制中的应用 被引量:20
11
作者 蒋国飞 吴沧浦 《自动化学报》 EI CSCD 北大核心 1999年第2期236-241,共6页
Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的... Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的控制策略和用值迭代法在模型已知的情况下所求得的最优策略非常逼近,从而证实了Q学习算法在一些系统模型未知的工程控制问题中的应用潜力. 展开更多
关键词 马尔可夫决策 库存控制 运筹学 q学习算法
下载PDF
新型Q值防碰撞算法在RFID系统中的研究 被引量:6
12
作者 王进 易灵芝 王根平 《计算机工程与科学》 CSCD 北大核心 2011年第6期182-185,共4页
RFID系统在某些应用领域中需要高效的标签识别算法。针对标签数目不固定且数量变化范围大的情况下,多标签同时回复一个阅读器而产生碰撞丢失标签信息的问题,本文提出一种改进型的Q值算法。在该算法中,阅读器根据变化的标签数目自适应修... RFID系统在某些应用领域中需要高效的标签识别算法。针对标签数目不固定且数量变化范围大的情况下,多标签同时回复一个阅读器而产生碰撞丢失标签信息的问题,本文提出一种改进型的Q值算法。在该算法中,阅读器根据变化的标签数目自适应修改Q值,分化C值调整帧长度,极大地提高了标签的识别速度,并减少了读取的误码率,且不会因为数目变化范围大而造成标签识别延时增大。文中详细介绍了算法设计流程,并通过建立数学模型对算法的可行性进行分析,根据统计数据来获得最优算法参数,最后用实际案例进一步证明了该算法在识别大量标签时效率明显优于原Q值算法和自适应帧时隙阿罗哈算法(FSA)。 展开更多
关键词 RFID 防碰撞 q+算法 q算法 标签碰撞 自适应阿罗哈算法
下载PDF
基于Q学习算法的综合能源系统韧性提升方法 被引量:11
13
作者 吴熙 唐子逸 +1 位作者 徐青山 周亦洲 《电力自动化设备》 EI CSCD 北大核心 2020年第4期146-152,共7页
将综合能源系统随机动态优化问题建模为马尔可夫决策过程,并引入Q学习算法实现该复杂问题的求解。针对Q学习算法的弊端,对传统的Q学习算法做了2个改进:改进了Q值表初始化方法,采用置信区间上界算法进行动作选择。仿真结果表明:Q学习算... 将综合能源系统随机动态优化问题建模为马尔可夫决策过程,并引入Q学习算法实现该复杂问题的求解。针对Q学习算法的弊端,对传统的Q学习算法做了2个改进:改进了Q值表初始化方法,采用置信区间上界算法进行动作选择。仿真结果表明:Q学习算法在实现问题求解的同时保证了较好的收敛性,改进的初始化方法和采用的置信区间上界算法能显著提高计算效率,使结果收敛到更优解;与常规混合整数线性规划模型相比,Q学习算法具有更好的优化结果。 展开更多
关键词 综合能源系统 孤岛运行 马尔可夫决策过程 q学习算法 韧性
下载PDF
基于Q学习算法的发电公司决策新模型 被引量:8
14
作者 宋依群 吴炯 《上海交通大学学报》 EI CAS CSCD 北大核心 2006年第4期568-571,共4页
提出了基于Q学习的发电公司决策新模型,应用于求解发电公司在具有不完全信息的电力市场环境下为获取最优长期利润而制定的决策问题.以电力市场重复运行具有的典型Markov过程特性,应用Q学习算法构建以长期利润最优为目标的发电公司决策模... 提出了基于Q学习的发电公司决策新模型,应用于求解发电公司在具有不完全信息的电力市场环境下为获取最优长期利润而制定的决策问题.以电力市场重复运行具有的典型Markov过程特性,应用Q学习算法构建以长期利润最优为目标的发电公司决策模型,并通过算例仿真验证了该模型的有效性.所提出的决策新模型可以根据发电公司对市场状态变化的不同预估状态转移概率模拟该公司在市场环境下的不同竞价策略,并给出不确定市场环境下的最优决策. 展开更多
关键词 电力市场 q学习算法 MARKOV决策过程 策略行为
下载PDF
基于Q学习算法的摘挂列车调车作业计划优化 被引量:5
15
作者 施俊庆 陈林武 +2 位作者 林柏梁 孟国连 夏顺娅 《中国铁道科学》 EI CAS CSCD 北大核心 2022年第1期163-170,共8页
针对摘挂列车编组调车作业计划编制问题,基于强化学习技术和Q学习算法,提出1种调车作业计划优化方法。在表格调车法的基础上,将调车作业计划分为下落和重组2个部分。通过动作、状态和奖励3要素构建调车作业问题的强化学习模型,以调车机... 针对摘挂列车编组调车作业计划编制问题,基于强化学习技术和Q学习算法,提出1种调车作业计划优化方法。在表格调车法的基础上,将调车作业计划分为下落和重组2个部分。通过动作、状态和奖励3要素构建调车作业问题的强化学习模型,以调车机车为智能体,以车组下落的股道编号为动作,以待编车列的下落情况为状态,形成车组挂车、摘车具体条件和车辆重组流程,并依据车组下落的连接状态和车辆重组后产生的总调车程设计奖励函数。改进Q学习算法求解模型,以最小化调车程为目标,建立待编车列与最优调车作业计划之间的映射关系,智能体学习充分后即可求解得到最优的调车作业计划。通过3组算例对比验证本方法效果,结果表明:相较于统筹对口法和排序二叉树法,本方法使用的股道数量更少、调车作业计划更优;相较于分支定界法,本方法可在更短时间内求解质量近似的调车作业计划。因而,本方法有助于提高车站调车作业计划编制的智能化决策水平。 展开更多
关键词 铁路运输 调车作业 强化学习 摘挂列车 q学习算法
下载PDF
Q学习算法中网格离散化方法的收敛性分析 被引量:9
16
作者 蒋国飞 高慧琪 吴沧浦 《控制理论与应用》 EI CAS CSCD 北大核心 1999年第2期194-198,共5页
Q学习算法是Watkins[1] 提出的求解信息不完全马尔可夫决策问题的一种强化学习方法 .要用Q学习算法来求解有连续状态和决策空间的随机最优控制问题 ,则需要先离散化问题的状态和决策空间 .在本文中 ,我们证明了在满足一定的Lipschitz连... Q学习算法是Watkins[1] 提出的求解信息不完全马尔可夫决策问题的一种强化学习方法 .要用Q学习算法来求解有连续状态和决策空间的随机最优控制问题 ,则需要先离散化问题的状态和决策空间 .在本文中 ,我们证明了在满足一定的Lipschitz连续性和有关集合为紧集的条件下 ,随着网格密度的增加 ,空间离散化后Q学习算法求得的最优解依概率 展开更多
关键词 q学习算法 网格离散化 收敛性 马尔可夫决策
下载PDF
基于Q学习算法的变论域模糊控制新算法 被引量:4
17
作者 余涛 于文俊 李章文 《控制理论与应用》 EI CAS CSCD 北大核心 2011年第11期1645-1650,共6页
变论域模糊控制器的控制函数被"复制"到后代中,往往存在着"失真"现象,这种现象的后果是造成算法本身的误差.针对这一问题,本文提出了一种基于Q学习算法的变论域模糊控制优化设计方法.本算法在变论域模糊控制算法基... 变论域模糊控制器的控制函数被"复制"到后代中,往往存在着"失真"现象,这种现象的后果是造成算法本身的误差.针对这一问题,本文提出了一种基于Q学习算法的变论域模糊控制优化设计方法.本算法在变论域模糊控制算法基础上提出了一种利用伸缩因子、等比因子相互协调来调整论域的构想,且通过用Q学习算法来寻优参数使控制器性能指标最小,使其在控制过程中能够降低"失真率",从而进一步提高控制器性能.最后,把算法运用于一个二阶系统与非最小相位系统,实验表明,该算法不但具有很好的鲁棒性及动态性能,且与变论域模糊控制器比较起来,其控制性能也更加提高. 展开更多
关键词 变论域模糊控制 q学习算法 伸缩因子 等比因子
下载PDF
一种基于线性函数逼近的离策略Q(λ)算法 被引量:26
18
作者 傅启明 刘全 +3 位作者 王辉 肖飞 于俊 李娇 《计算机学报》 EI CSCD 北大核心 2014年第3期677-686,共10页
将函数逼近用于强化学习是目前机器学习领域的一个新的研究热点.针对传统的基于查询表及函数逼近的Q(λ)学习算法在大规模状态空间中收敛速度慢或者无法收敛的问题,提出一种基于线性函数逼近的离策略Q(λ)算法.该算法通过引入重要性关... 将函数逼近用于强化学习是目前机器学习领域的一个新的研究热点.针对传统的基于查询表及函数逼近的Q(λ)学习算法在大规模状态空间中收敛速度慢或者无法收敛的问题,提出一种基于线性函数逼近的离策略Q(λ)算法.该算法通过引入重要性关联因子,在迭代次数逐步增长的过程中,使得在策略与离策略相统一,确保算法的收敛性.同时在保证在策略与离策略的样本数据一致性的前提下,对算法的收敛性给予理论证明.将文中提出的算法用于Baird反例、Mountain-Car及Random Walk仿真平台,实验结果表明,该算法与传统的基于函数逼近的离策略算法相比,具有较好的收敛性;与传统的基于查询表的算法相比,具有更快的收敛速度,且对于状态空间的增长具有较强的鲁棒性. 展开更多
关键词 强化学习 函数逼近 离策略 q(A)算法 机器学习中图法
下载PDF
基于有限样本的最优费用关联值递归Q学习算法 被引量:4
19
作者 殷苌茗 陈焕文 谢丽娟 《计算机工程与应用》 CSCD 北大核心 2002年第11期65-67,共3页
一个激励学习Agent通过学习一个从状态到动作映射的最优策略来求解决策问题。求解最优决策一般有两种途径,一种是求最大奖赏方法,另一种是求最优费用方法。该文利用求解最优费用函数的方法给出了一种新的Q学习算法。Q学习算法是求解信... 一个激励学习Agent通过学习一个从状态到动作映射的最优策略来求解决策问题。求解最优决策一般有两种途径,一种是求最大奖赏方法,另一种是求最优费用方法。该文利用求解最优费用函数的方法给出了一种新的Q学习算法。Q学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法。文章从求解最优费用函数的方法出发,给出了Q学习的关联值递归算法,这种方法的建立,可以使得动态规划(DP)算法中的许多结论直接应用到Q学习的研究中来。 展开更多
关键词 有限样本 最优费用 关联值递归 q学习算法 人工智能
下载PDF
基于Q学习算法的两交叉口信号灯博弈协调控制 被引量:4
20
作者 赵晓华 李振龙 +1 位作者 于泉 荣建 《系统仿真学报》 EI CAS CSCD 北大核心 2007年第18期4253-4256,共4页
Q学习和博弈论相结合解决相邻两交叉口信号灯协调控制问题。在基本Q学习算法的基础上引入博弈论,以Q值作为赢得函数建立赢得矩阵。相邻两交叉口之间的协调关系属于二人非零和合作博弈,采用Nash公理方法求得其谈判解,并以此作为Q学习策... Q学习和博弈论相结合解决相邻两交叉口信号灯协调控制问题。在基本Q学习算法的基础上引入博弈论,以Q值作为赢得函数建立赢得矩阵。相邻两交叉口之间的协调关系属于二人非零和合作博弈,采用Nash公理方法求得其谈判解,并以此作为Q学习策略选择的依据实现两交叉口协调控制。应用Paramics交通仿真软件进行算法仿真,结果表明该方法的有效性。 展开更多
关键词 博弈论 q学习算法 Nash公理方法 两交叉口信号灯协调控制
下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部