期刊文献+
共找到149篇文章
< 1 2 8 >
每页显示 20 50 100
基于改进Q-Learning的移动机器人路径规划算法
1
作者 王立勇 王弘轩 +2 位作者 苏清华 王绅同 张鹏博 《电子测量技术》 北大核心 2024年第9期85-92,共8页
随着移动机器人在生产生活中的深入应用,其路径规划能力也需要向快速性和环境适应性兼备发展。为解决现有移动机器人使用强化学习方法进行路径规划时存在的探索前期容易陷入局部最优、反复搜索同一区域,探索后期收敛率低、收敛速度慢的... 随着移动机器人在生产生活中的深入应用,其路径规划能力也需要向快速性和环境适应性兼备发展。为解决现有移动机器人使用强化学习方法进行路径规划时存在的探索前期容易陷入局部最优、反复搜索同一区域,探索后期收敛率低、收敛速度慢的问题,本研究提出一种改进的Q-Learning算法。该算法改进Q矩阵赋值方法,使迭代前期探索过程具有指向性,并降低碰撞的情况;改进Q矩阵迭代方法,使Q矩阵更新具有前瞻性,避免在一个小区域中反复探索;改进随机探索策略,在迭代前期全面利用环境信息,后期向目标点靠近。在不同栅格地图仿真验证结果表明,本文算法在Q-Learning算法的基础上,通过上述改进降低探索过程中的路径长度、减少抖动并提高收敛的速度,具有更高的计算效率。 展开更多
关键词 路径规划 强化学习 移动机器人 q-Learning算法 ε-decreasing策略
下载PDF
基于多步信息辅助的Q-learning路径规划算法
2
作者 王越龙 王松艳 晁涛 《系统仿真学报》 CAS CSCD 北大核心 2024年第9期2137-2148,共12页
为提升静态环境下移动机器人路径规划能力,解决传统Q-learning算法在路径规划中收敛速度慢的问题,提出一种基于多步信息辅助机制的Q-learning改进算法。利用ε-greedy策略中贪婪动作的多步信息与历史最优路径长度更新资格迹,使有效的资... 为提升静态环境下移动机器人路径规划能力,解决传统Q-learning算法在路径规划中收敛速度慢的问题,提出一种基于多步信息辅助机制的Q-learning改进算法。利用ε-greedy策略中贪婪动作的多步信息与历史最优路径长度更新资格迹,使有效的资格迹在算法迭代中持续发挥作用,用保存的多步信息解决可能落入的循环陷阱;使用局部多花朵的花授粉算法初始化Q值表,提升机器人前期搜索效率;基于机器人不同探索阶段的目的,结合迭代路径长度的标准差与机器人成功到达目标点的次数设计动作选择策略,以增强算法对环境信息探索与利用的平衡能力。实验结果表明:该算法具有较快的收敛速度,验证了算法的可行性与有效性。 展开更多
关键词 路径规划 q-LEaRNING 收敛速度 动作选择策略 栅格地图
下载PDF
基于CQL-SAC的自动驾驶防撞决策方法
3
作者 刘玉辉 于镝 《北京信息科技大学学报(自然科学版)》 2024年第3期16-24,共9页
针对深度强化学习在自动驾驶任务中存在价值函数过估计、学习效率低、安全性差等问题,提出了一种自动驾驶防撞决策方法。首先,将保守Q学习(conservative Q-learning, CQL)算法与软行动评论(soft actor-critic, SAC)算法融合,提出CQL-SA... 针对深度强化学习在自动驾驶任务中存在价值函数过估计、学习效率低、安全性差等问题,提出了一种自动驾驶防撞决策方法。首先,将保守Q学习(conservative Q-learning, CQL)算法与软行动评论(soft actor-critic, SAC)算法融合,提出CQL-SAC算法,以缓解价值过估计问题。然后,在算法训练过程中引入专家经验,实现算法快速收敛,以解决学习效率低的问题。最后,利用防撞模块对CQL-SAC算法输出的动作进行安全检查和矫正,避免车辆碰撞。在基于高速公路的仿真场景下对方法有效性进行验证。仿真结果表明,在训练阶段,CQL-SAC算法相比SAC算法和样本内行动评论(in-sample actor-critic, InAC)算法收敛速度分别提升12.5%、5.4%,引入专家经验后算法收敛速度进一步提升14.3%;在测试阶段,本文算法与SAC和InAC算法相比,成功率分别提升17、12百分点,平均回合奖励分别提升23.1%、10.7%。 展开更多
关键词 智慧交通 自动驾驶决策 保守q学习算法 软行动评论算法 专家经验 防撞策略
下载PDF
基于UPLC-Q-TOF/MS技术的白及中菲类化学成分分析
4
作者 张天姣 魏丽超 +5 位作者 朱晓慧 夏雯昕 张桂彬 周地 李宁 孙璐 《沈阳药科大学学报》 CAS CSCD 2024年第8期1026-1038,共13页
目的采用UPLC-Q-TOF/MS技术结合整合定性策略对白及中菲类化学成分进行快速定性分析。方法采用ACQUITY UPLC HSS T3柱(100 mm×2.1 mm,1.8μm),以乙腈溶液(A)-体积分数为0.1%甲酸溶液(B)为流动相体系进行梯度洗脱,柱温为40℃,流速为... 目的采用UPLC-Q-TOF/MS技术结合整合定性策略对白及中菲类化学成分进行快速定性分析。方法采用ACQUITY UPLC HSS T3柱(100 mm×2.1 mm,1.8μm),以乙腈溶液(A)-体积分数为0.1%甲酸溶液(B)为流动相体系进行梯度洗脱,柱温为40℃,流速为0.4 mL·min^(-1);采用Xevo G2 Q-TOF质谱,ESI离子源,负离子检测模式;整合了质量亏损过滤技术、产物离子过滤技术、中性丢失过滤技术和化学结构-色谱保留关联技术,对白及的质谱测试结果进行数据挖掘,通过化学成分数据库建立、UNIFI平台自动筛查、对照品比对和人工校验核实等步骤对菲类化学成分进行表征。结果在白及中共表征了104种化学成分。结论该方法能够快速准确的表征白及中菲类化学成分,为阐明白及的药效物质基础和建立质量控制标准提供了科学依据。 展开更多
关键词 白及 菲类 UPLC-q-TOF/MS技术 整合定性策略
下载PDF
基于Q-强化学习的多Agent协商策略及算法 被引量:7
5
作者 隋新 蔡国永 史磊 《计算机工程》 CAS CSCD 北大核心 2010年第17期198-200,共3页
针对传统Agent协商策略学习能力不足,不能满足现代电子商务环境需要的问题,采用Q-强化学习理论对Agent的双边协商策略加以改进,提出基于Q-强化学习的Agent双边协商策略,并设计实现该策略的算法。通过与时间协商策略比较,证明改进后的Ag... 针对传统Agent协商策略学习能力不足,不能满足现代电子商务环境需要的问题,采用Q-强化学习理论对Agent的双边协商策略加以改进,提出基于Q-强化学习的Agent双边协商策略,并设计实现该策略的算法。通过与时间协商策略比较,证明改进后的Agent协商策略在协商时间、算法效率上优于未经学习的时间策略,能够增强电子商务系统的在线学习能力,缩短协商时间,提高协商效率。 展开更多
关键词 q-强化学习 aGENT 协商策略
下载PDF
基于不完全信息随机博弈与Q-learning的防御决策方法 被引量:9
6
作者 张红旗 杨峻楠 张传富 《通信学报》 EI CSCD 北大核心 2018年第8期56-68,共13页
针对现有随机博弈大多以完全信息假设为前提,且与网络攻防实际不符的问题,将防御者对攻击者收益的不确定性转化为对攻击者类型的不确定性,构建不完全信息随机博弈模型。针对网络状态转移概率难以确定,导致无法确定求解均衡所需参数的问... 针对现有随机博弈大多以完全信息假设为前提,且与网络攻防实际不符的问题,将防御者对攻击者收益的不确定性转化为对攻击者类型的不确定性,构建不完全信息随机博弈模型。针对网络状态转移概率难以确定,导致无法确定求解均衡所需参数的问题,将Q-learning引入随机博弈中,使防御者在攻防对抗中通过学习得到的相关参数求解贝叶斯纳什均衡。在此基础上,设计了能够在线学习的防御决策算法。仿真实验验证了所提方法的有效性。 展开更多
关键词 网络攻防 随机博弈 q-LEaRNING 贝叶斯纳什均衡 防御决策
下载PDF
基于经验回放Q-Learning的最优控制算法 被引量:6
7
作者 黄小燕 《计算机工程与设计》 北大核心 2017年第5期1352-1355,1365,共5页
针对实时系统的在线最优控制策略学计算开销高的缺点,提出基于经验回放和Q-Learning的最优控制算法。采用经验回放(experience replay,ER)对样本进行重复利用,弥补实时系统在线获取样本少的不足;通过Q-Learning算法并采用梯度下降方法... 针对实时系统的在线最优控制策略学计算开销高的缺点,提出基于经验回放和Q-Learning的最优控制算法。采用经验回放(experience replay,ER)对样本进行重复利用,弥补实时系统在线获取样本少的不足;通过Q-Learning算法并采用梯度下降方法对值函数参数向量进行更新;定义基于经验回放和Q-Learning的ER-Q-Learning算法,分析其计算复杂度。仿真结果表明,相比Q-Learning算法、Sarsa算法以及批量的BLSPI算法,ER-Q-Learning算法能在有限时间内平衡更多时间步,具有最快的收敛速度。 展开更多
关键词 控制策略 经验回放 q学习 实时系统 样本
下载PDF
流量拥堵空域内一种基于Q-Learning算法的改航路径规划
8
作者 向征 何雨阳 全志伟 《科学技术与工程》 北大核心 2022年第32期14494-14501,共8页
目前,空中流量激增导致空域资源紧张的问题越发凸显,为了缓解这一现状,基于流量管理层面对航空器进行改航路径的研究。首先采用栅格化的方式对空域环境进行离散化处理,根据航路点流量的拥挤程度把空域划分为3种不同类型的栅格区域。其... 目前,空中流量激增导致空域资源紧张的问题越发凸显,为了缓解这一现状,基于流量管理层面对航空器进行改航路径的研究。首先采用栅格化的方式对空域环境进行离散化处理,根据航路点流量的拥挤程度把空域划分为3种不同类型的栅格区域。其次通过改进强化学习中马尔科夫决策过程的奖励函数对其进行建模,并基于ε-greedy策略运用Q-Learning算法对该模型进行迭代求解,对相应的参数取值进行探究比较以提高结果的可适用性。最后经过仿真运行,计算出不同参数赋值下的最优路径及相应的性能指标。结果表明:应用该模型和算法可以针对某一时段内的流量拥堵空域搜索出合适的改航路径,使飞机避开流量拥挤的航路点,缩短空中延误时间,有效改善空域拥堵的现况。 展开更多
关键词 改航路径规划 流量拥堵 强化学习 马尔科夫决策过程 q-Learning算法 ε-greedy策略
下载PDF
基于Q学习的Agent智能防守策略研究与应用 被引量:6
9
作者 马勇 李龙澍 李学俊 《计算机技术与发展》 2008年第12期106-108,112,共4页
模拟机器人足球比赛(Robot World Cup,RoboCup)作为多Agent系统的一个通用的实验平台,通过它可以来评价各种理论、算法和框架等,已经成为人工智能的研究热点。针对RoboCup仿真中的守门员防守问题,基于Q学习算法,描述了在特定场景中应用... 模拟机器人足球比赛(Robot World Cup,RoboCup)作为多Agent系统的一个通用的实验平台,通过它可以来评价各种理论、算法和框架等,已经成为人工智能的研究热点。针对RoboCup仿真中的守门员防守问题,基于Q学习算法,描述了在特定场景中应用Q学习训练守门员的方法和过程。在RobCup中验证了该算法,实现了守门员防守策略的优化。 展开更多
关键词 q学习 智能体 机器人足球比赛 防守策略
下载PDF
基于Q(λ)-learning的移动机器人路径规划改进探索方法 被引量:4
10
作者 王健 赵亚川 +1 位作者 赵忠英 张平陆 《自动化与仪表》 2019年第11期39-41,67,共4页
强化学习算法广泛的应用于路径规划,使移动机器人能够与环境交互并实现自主避障、获取最优路径。传统Q(λ)-learning算法所采用的探索策略存在探索利用平衡问题,由于收敛过早,往往得不到最优解。本文提出一种动态调整探索因子的探索方法... 强化学习算法广泛的应用于路径规划,使移动机器人能够与环境交互并实现自主避障、获取最优路径。传统Q(λ)-learning算法所采用的探索策略存在探索利用平衡问题,由于收敛过早,往往得不到最优解。本文提出一种动态调整探索因子的探索方法,以探索成功率判断机器人对环境的熟悉程度,指导探索过程,从而找到最优路径;采用栅格法建立地图。通过仿真和对比试验证明了该方法可以得到全局最优策略。 展开更多
关键词 路径规划 强化学习 q(λ)学习算法 移动机器人 搜索策略
下载PDF
发电商基于Q-Learning算法的日前市场竞价策略 被引量:8
11
作者 王帅 《能源技术经济》 2010年第3期34-39,共6页
电力市场仿真可以研究市场规则、市场结构对价格形成的影响和市场参与者的动态行为。初步建立了用智能多代理模拟日前市场发电商竞价策略的模型,采用Q-Learning算法优化自身策略。改进了增强学习算法中探索参数的选取,使程序在开始阶段... 电力市场仿真可以研究市场规则、市场结构对价格形成的影响和市场参与者的动态行为。初步建立了用智能多代理模拟日前市场发电商竞价策略的模型,采用Q-Learning算法优化自身策略。改进了增强学习算法中探索参数的选取,使程序在开始阶段以较大的概率进行新的搜索,避免过早陷入局部最优。改进了阶梯形报价曲线的构造方法,减小了计算量,提高了计算速度。 展开更多
关键词 电力市场 定价 智能代理 q—Learning算法 竞价策略
下载PDF
绿盲蝽、Q型烟粉虱、赤拟谷盗对云木香气味物质的嗅觉反应及其在防治中的应用 被引量:4
12
作者 尹海辰 许冬 +4 位作者 杨妮娜 李栋 丛胜波 杨甜甜 万鹏 《植物保护》 CAS CSCD 北大核心 2023年第2期129-136,142,共9页
选择17种云木香挥发物测定绿盲蝽对其电生理及行为学反应。结果表明,芳樟醇和5-羟甲基糠醛可引起绿盲蝽强烈的电生理反应,且芳樟醇对绿盲蝽雌、雄虫均具有极显著的驱避作用,选择反应率均低于40%。而5-羟甲基糠醛原液与100倍稀释液均能... 选择17种云木香挥发物测定绿盲蝽对其电生理及行为学反应。结果表明,芳樟醇和5-羟甲基糠醛可引起绿盲蝽强烈的电生理反应,且芳樟醇对绿盲蝽雌、雄虫均具有极显著的驱避作用,选择反应率均低于40%。而5-羟甲基糠醛原液与100倍稀释液均能显著地引诱绿盲蝽,选择反应率分别为51.43%和70.59%。此外,芳樟醇原液对Q型烟粉虱驱避与5-羟甲基糠醛对其的引诱作用同样显著。将这两种化合物组合形成“推-拉”策略后,寄主上绿盲蝽和Q型烟粉虱平均虫量分别为(2.2±0.6)头和(1.9±1.0)头,粘虫板上虫量分别为(7.7±0.7)头和(21.9±1.6)头,与对照组差异显著。5-羟甲基糠醛未对赤拟谷盗表现出引诱作用,但芳樟醇驱避作用显著,选择反应率为25%。表明利用“推-拉”策略防治经济害虫具有良好应用前景。 展开更多
关键词 “推-拉”策略 绿盲蝽 赤拟谷盗 q型烟粉虱 挥发物
下载PDF
基于多Agent Q学习的RoboCup局部配合策略 被引量:2
13
作者 赵发君 李龙澍 《计算机工程与应用》 CSCD 2014年第23期127-130,共4页
针对Robo Cup(Robot World Cup)中,多Agent之间的配合策略问题,采用了一种局部合作的多Agent Q-学习方法:通过细分球场区域和Agent回报值的方法,加强了Agent之间的协作能力,从而增强了队伍的进攻和防守能力。同时通过约束此算法的使用范... 针对Robo Cup(Robot World Cup)中,多Agent之间的配合策略问题,采用了一种局部合作的多Agent Q-学习方法:通过细分球场区域和Agent回报值的方法,加强了Agent之间的协作能力,从而增强了队伍的进攻和防守能力。同时通过约束此算法的使用范围,减少了学习所用的时间,确保了比赛的实时性。最后在仿真2D平台上进行的实验证明,该方法比以前的效果更好,完全符合初期的设计目标。 展开更多
关键词 随机对策 q-学习 实时性 局部合作 RoboCup仿真2D 配合策略
下载PDF
基于CAS-FQL算法的区域交通控制 被引量:1
14
作者 李文 刘智勇 《五邑大学学报(自然科学版)》 CAS 2012年第3期67-73,共7页
针对Q-学习算法收敛慢、易陷入局部最优的缺陷,提出了一种基于灾变模糊Q-学习(CAS-FQL)算法的区域交通协调控制方法,即将灾变策略引入到模糊Q-学习算法的学习过程中,以提高和改进Q-学习的寻优能力和学习效率.具体是,利用CAS-FQL算法分... 针对Q-学习算法收敛慢、易陷入局部最优的缺陷,提出了一种基于灾变模糊Q-学习(CAS-FQL)算法的区域交通协调控制方法,即将灾变策略引入到模糊Q-学习算法的学习过程中,以提高和改进Q-学习的寻优能力和学习效率.具体是,利用CAS-FQL算法分别优化路网中各交叉口的周期和相位差,绿信比则采用常规方法优化.TSIS软件交通仿真的结果表明,相比基于Q-学习的控制方法,CAS-FQL算法能显著加快算法的收敛速度、提高交通效率. 展开更多
关键词 区域交通控制 CaS-FqL 灾变策略 q-学习 模糊控制
下载PDF
基于Q-Learning的深度神经网络自适应退避策略 被引量:1
15
作者 毛中杰 俞晖 +1 位作者 麻智超 王政 《遥测遥控》 2021年第1期19-25,共7页
针对无人机自组织网络,结合Q-Learning和深度神经网络,提出一种自适应退避策略,以提高基于竞争的MAC协议通信性能。以Matlab为仿真平台,仿真比较了自适应退避策略与二进制指数退避策略的性能。
关键词 无人机 q-LEaRNING 深度神经网络 退避策略
下载PDF
改进的WF^(2)Q+动态感知调度策略的设计
16
作者 黄敏 刘志方 《信息与电脑》 2023年第17期74-76,共3页
随着互联网的快速发展,网络流量增长导致的网络拥塞问题日益严重。为了解决这一问题,研究者提出了各种流量调度算法。其中,改进的最坏情况下公平的加权公平队列(Worst-case Fair Weighted Fair Queueing plus,WF^(2)Q+)算法结合了加权... 随着互联网的快速发展,网络流量增长导致的网络拥塞问题日益严重。为了解决这一问题,研究者提出了各种流量调度算法。其中,改进的最坏情况下公平的加权公平队列(Worst-case Fair Weighted Fair Queueing plus,WF^(2)Q+)算法结合了加权公平队列(Weighted Fair Queueing,WFQ)算法和差额循环调度(Deficit Round Robin,DRR)算法的优点,能够实现公平的带宽分配和低延迟的服务质量。然而,由于网络环境的动态性,传统的WF^(2)Q+算法无法适应网络流量的变化。因此,提出了一种基于动态感知策略的改进WF^(2)Q+算法,以提高网络性能、用户体验及网络流量的管理水平。 展开更多
关键词 动态感知 调度策略 最坏情况下公平的加权公平队列(WF^(2)q+) 队列
下载PDF
Fuzzy Controller Based 3Phase 4Wire Shunt Active Filter for Mitigation of Current Harmonics with Combined p-q and Id-Iq Control Strategies 被引量:4
17
作者 Mikkili Suresh Anup Kumar Panda Y. Suresh 《Energy and Power Engineering》 2011年第1期43-52,共10页
As more and more variable frequency drives (VFDs), electronic ballasts, battery chargers, and static Var compensators are installed in facilities, the problems related to harmonics are expected to get worse. As a resu... As more and more variable frequency drives (VFDs), electronic ballasts, battery chargers, and static Var compensators are installed in facilities, the problems related to harmonics are expected to get worse. As a result Active power filter (APF) gains much more attention due to excellent harmonic compensation. But still the performance of the active filter seems to be in contradictions with different control strategies. This paper presents detailed analysis to compare and elevate the performance of two control strategies for ex-tracting reference currents of shunt active filters under balanced, un-balanced and non-sinusoidal conditions by using Fuzzy controller. The well known methods, instantaneous real active and reactive power method (p-q) and active and reactive current method (id-iq) are two control methods which are extensively used in active filters. Extensive Simulations are carried out with fuzzy controller for both p-q and Id-Iq methods for different voltage conditions and adequate results were presented. Simulation results validate the superior per-formance of active and reactive current control strategy (id-iq) with fuzzy controller over active and reactive power control strategy (p-q) with fuzzy controller. 展开更多
关键词 HaRMONIC Compensation SHUNT active Power Filter p-q CONTROL strategy id-iq CONTROL strategy Fuzzy Controller
下载PDF
加权双Q学习算法优化的PHEV能量管理策略研究 被引量:1
18
作者 郭玉帆 沈世全 +2 位作者 刘冠颖 古鸿吉 高顺 《重庆理工大学学报(自然科学)》 CAS 北大核心 2023年第2期86-96,共11页
插电式混合动力汽车(plug-in hybrid electric vehicles,PHEV)具有节能、环保、无续航里程焦虑的优点,是汽车领域发展的重点方向。但PHEV整车控制策略较为复杂,涉及到多动力源的能量分配,如何设计高效可靠的能量管理策略已经成为PHEV研... 插电式混合动力汽车(plug-in hybrid electric vehicles,PHEV)具有节能、环保、无续航里程焦虑的优点,是汽车领域发展的重点方向。但PHEV整车控制策略较为复杂,涉及到多动力源的能量分配,如何设计高效可靠的能量管理策略已经成为PHEV研究的热点与难点。为了提升PHEV的燃油经济性和整车性能,提出了一种基于加权双Q学习的插电式混合动力汽车能量管理控制策略,采用加权双Q学习算法求解PHEV的能量分配。为了验证所提策略的有效性及可靠性,在Matlab/Simulink中搭建整车模型并进行仿真验证。研究结果表明:本文所提策略相比基于规则的CD/CS策略,燃油经济性在不同的行驶工况下平均提高6.38%;在不同的工况下,基于加权双Q学习策略的燃油经济性可达随机动态规划策略的98%,验证了本文所提策略具有较好的燃油经济性及工况适应性。 展开更多
关键词 能量管理策略 加权双q学习 混合动力汽车 q学习
下载PDF
基于DRQN的视觉SLAM参数自适应调整
19
作者 陈青梅 秦进 +2 位作者 黄仁婧 崔虎 黄初华 《计算机工程与设计》 北大核心 2022年第11期3235-3242,共8页
为解决传统视觉SLAM算法中的参数调整问题,提出一种基于深度循环Q网络的视觉SLAM参数自适应调整方法。筛选视觉SLAM参数构建动作空间;采用地标点的协方差矩阵描述视觉定位的不确定性,用地标点的不确定性构建奖励函数;参数智能体通过ε-g... 为解决传统视觉SLAM算法中的参数调整问题,提出一种基于深度循环Q网络的视觉SLAM参数自适应调整方法。筛选视觉SLAM参数构建动作空间;采用地标点的协方差矩阵描述视觉定位的不确定性,用地标点的不确定性构建奖励函数;参数智能体通过ε-greedy策略选择Q值最大的动作作用于视觉SLAM环境,根据环境的反馈更新网络参数。EuRoC和TUM-VI数据集上的实验结果表明,该方法提高了室内场景下的位姿轨迹精度,避免了复杂的参数调整过程。 展开更多
关键词 视觉SLaM 深度循环q网络 ε-greedy策略 不确定度 参数自适应调整
下载PDF
毫米波网络中基于Q-Learning的阻塞感知功率分配 被引量:4
20
作者 施钊 孙长印 江帆 《计算机工程》 CAS CSCD 北大核心 2020年第12期185-192,共8页
毫米波通信可在5G无线通信系统超密集网络场景中提供显著的系统容量增益,但毫米波通信场景中干扰复杂多变,并且小区边缘用户动态链路的高阻塞率会引起中断问题。为此,基于Q-Learning算法,提出一种考虑毫米波链路高间歇性概率的功率分配... 毫米波通信可在5G无线通信系统超密集网络场景中提供显著的系统容量增益,但毫米波通信场景中干扰复杂多变,并且小区边缘用户动态链路的高阻塞率会引起中断问题。为此,基于Q-Learning算法,提出一种考虑毫米波链路高间歇性概率的功率分配方案。基于泊松簇过程对随机部署的基站用户系统进行建模,分析链路阻断对有用信号和干扰信号带来的不同影响,并将利己利他策略引入Q-Learning算法的状态和回报函数设计中,通过机器学习策略得到功率分配最优解。仿真结果表明,与未考虑链路阻塞概率的CDP-Q方案相比,该方案由于根据链路动态链接状况进行最优功率分配,显著提升了系统总容量。 展开更多
关键词 毫米波通信 链路阻塞 q-Learning算法 功率分配 泊松簇过程 利己利他策略
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部