期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于竞争双深度Q网络的频谱感知和接入
1
作者 梁燕 胡垚林 惠莹 《电讯技术》 北大核心 2023年第11期1661-1669,共9页
认知用户通过频谱感知和接入过程识别频谱状态并占用空闲频谱,可有效利用频谱资源。针对频谱感知中存在感知错误和频谱接入中存在用户碰撞的问题,首先建立多用户多信道模型,设计频谱感知和频谱接入过程;然后通过结合双深度Q网络和竞争Q... 认知用户通过频谱感知和接入过程识别频谱状态并占用空闲频谱,可有效利用频谱资源。针对频谱感知中存在感知错误和频谱接入中存在用户碰撞的问题,首先建立多用户多信道模型,设计频谱感知和频谱接入过程;然后通过结合双深度Q网络和竞争Q网络,设计竞争双深度Q网络,解决过估计问题的同时优化网络结构;最后通过智能体与所设计模型中状态、观测、回报和策略的交互,完成使用竞争双深度Q网络解决频谱感知和接入问题的一体化研究。仿真结果表明,相比于已有深度强化学习方法,使用竞争双深度Q网络得到的数值结果更稳定且感知正确率和信道利用率都提高了4%。 展开更多
关键词 频谱感知 频谱接入 深度强化学习 竞争深度q网络
下载PDF
基于竞争双深度Q网络的动态频谱接入 被引量:2
2
作者 梁燕 惠莹 《电讯技术》 北大核心 2022年第12期1715-1721,共7页
针对多信道动态频谱接入问题,建立了存在感知错误与接入碰撞的复杂信道场景,提出了一种结合双深度Q网络和竞争Q网络的竞争双深度Q网络学习框架。双深度Q网络将动作的选择和评估分别用不同值函数实现,解决了值函数的过估计问题,而竞争Q... 针对多信道动态频谱接入问题,建立了存在感知错误与接入碰撞的复杂信道场景,提出了一种结合双深度Q网络和竞争Q网络的竞争双深度Q网络学习框架。双深度Q网络将动作的选择和评估分别用不同值函数实现,解决了值函数的过估计问题,而竞争Q网络解决了神经网络结构优化问题。该方案保证每个次要用户根据感知和回报结果做出频谱接入决策。仿真结果表明,在同时存在感知错误和次要用户冲突的多信道情况下,竞争双深度Q网络相比于同类方法具有较好的损失预测模型,其回报更稳定且提高了4%。 展开更多
关键词 认知无线电 频谱感知 动态频谱接入 深度强化学习 竞争深度q网络
下载PDF
面向B5G多业务场景基于D3QN的双时间尺度网络切片算法 被引量:2
3
作者 陈赓 齐书虎 +1 位作者 沈斐 曾庆田 《通信学报》 EI CSCD 北大核心 2022年第11期213-224,共12页
为了有效满足不同切片的差异化服务质量需求,面向B5G多业务场景提出了一种基于竞争双深度Q网络(D3QN)的双时间尺度网络切片算法。研究了联合资源切片和调度问题,以归一化处理后的频谱效率和不同切片用户服务质量指数的加权和作为优化目... 为了有效满足不同切片的差异化服务质量需求,面向B5G多业务场景提出了一种基于竞争双深度Q网络(D3QN)的双时间尺度网络切片算法。研究了联合资源切片和调度问题,以归一化处理后的频谱效率和不同切片用户服务质量指数的加权和作为优化目标。在大时间尺度内,SDN控制器根据每种业务的资源需求利用D3QN算法预先分配给不同的切片,然后根据基站负载状态执行基站级资源更新。在小时间尺度内,基站通过轮询调度算法将资源调度到终端用户。仿真结果表明,所提算法在保证切片用户服务质量需求、频谱效率和系统效用方面具有优异的性能。与其他4种基准算法相比,所提算法的系统效用分别提升了3.22%、3.81%、7.48%和21.14%。 展开更多
关键词 时间尺度 资源分配 网络切片 竞争深度q网络 系统效用
下载PDF
车联网中时延感知的计算卸载和资源分配策略 被引量:3
4
作者 江帆 李妍 宋琦琳 《西安邮电大学学报》 2023年第1期1-8,共8页
对车联网中多个车辆用户设备(Vehicle User Equipment,VUE)卸载过程中的资源分配问题进行研究,提出一种时延感知的计算卸载和资源分配策略。采用支持向量机将卸载任务根据时延和能耗的要求选择移动边缘计算(Mobile Edge Computing,MEC)... 对车联网中多个车辆用户设备(Vehicle User Equipment,VUE)卸载过程中的资源分配问题进行研究,提出一种时延感知的计算卸载和资源分配策略。采用支持向量机将卸载任务根据时延和能耗的要求选择移动边缘计算(Mobile Edge Computing,MEC)服务器辅助卸载和VUE辅助卸载两种处理模式,考虑MEC服务器的计算资源分配以及车到车链路复用蜂窝链路的干扰问题,建立最小化总成本的优化问题。最后,使用深度竞争双Q网络算法完成不同处理模式下相应的资源分配过程。为了验证所提策略的有效性,将其与基于深度Q网络算法的资源分配策略、基于正交多址接入的资源分配策略和随机资源分配策略等3种策略相比。验证结果表明,所提策略可以在最大时延限制内有效降低卸载总成本。 展开更多
关键词 车联网 移动边缘计算 计算卸载 资源分配 支持向量机 深度竞争双q网络
下载PDF
混合交通流环境下基于改进强化学习的可变限速控制策略 被引量:3
5
作者 韩磊 张轮 郭为安 《交通运输系统工程与信息》 EI CSCD 北大核心 2023年第3期110-122,共13页
现有的可变限速(VSL)控制策略灵活性较差,响应速度较慢,对驾驶人遵从度和交通流状态预测模型的依赖性较高,且单纯依靠可变限速标志(VMS)向驾驶人发布限速值,难以在智能网联车辆(CAVs)与人工驾驶车辆(HDVs)混行的交通环境中实现较好的控... 现有的可变限速(VSL)控制策略灵活性较差,响应速度较慢,对驾驶人遵从度和交通流状态预测模型的依赖性较高,且单纯依靠可变限速标志(VMS)向驾驶人发布限速值,难以在智能网联车辆(CAVs)与人工驾驶车辆(HDVs)混行的交通环境中实现较好的控制效果。对此,结合深度强化学习无需建立交通流预测模型,能自动适应复杂环境,以及CAVs可控性的优势,提出一种混合交通流环境下基于改进竞争双深度Q网络(IPD3QN)的VSL控制策略,即IPD3QN-VSL。首先,将优先经验回放机制引入深度强化学习的竞争双深度Q网络(D3QN)框架中,提升网络的收敛速度和参数更新效率;并提出一种新的自适应ε-贪婪算法克服深度强化学习过程中探索与利用难以平衡的问题,实现探索效率和稳定性的提高。其次,以最小化路段内车辆总出行时间(TTS)为控制目标,将实时交通数据和上个控制周期内的限速值作为IPD3QN算法的输入,构造奖励函数引导算法输出VSL控制区域内执行的动态限速值。该策略通过基础设施到车辆通信(I2V)向CAVs发布限速信息,HDVs则根据VMS上公布的限速值以及周围CAVs的行为变化做出决策。最后,在不同条件下验证IPD3QN-VSL控制策略的有效性,并与无控制情况、反馈式VSL控制和D3QN-VSL控制进行控制效果上的优劣对比。结果表明:在30%渗透率下,所提策略即可发挥显著控制性能,在稳定和波动交通需求情境中均能有效提升瓶颈区域的通行效率,缩小交通拥堵时空范围,与次优的D3QN-VSL控制相比,两种情境中的TTS分别改善了14.46%和10.36%。 展开更多
关键词 智能交通 可变限速控制 改进竞争深度q网络 混合交通流 智能网联车辆 深度强化学习
下载PDF
基于对手动作预测的智能博弈对抗算法 被引量:1
6
作者 韩润海 陈浩 +1 位作者 刘权 黄健 《计算机工程与应用》 CSCD 北大核心 2023年第7期190-197,共8页
智能博弈对抗场景中,多智能体强化学习算法存在“非平稳性”问题,智能体的策略不仅取决于环境,还受到环境中对手(其他智能体)的影响。根据对手与环境的交互信息,预测其策略和意图,并以此调整智能体自身策略是缓解上述问题的有效方式。... 智能博弈对抗场景中,多智能体强化学习算法存在“非平稳性”问题,智能体的策略不仅取决于环境,还受到环境中对手(其他智能体)的影响。根据对手与环境的交互信息,预测其策略和意图,并以此调整智能体自身策略是缓解上述问题的有效方式。提出一种基于对手动作预测的智能博弈对抗算法,对环境中的对手进行隐式建模。该算法通过监督学习获得对手的策略特征,并将其与智能体的强化学习模型融合,缓解对手对学习稳定性的影响。在1v1足球环境中的仿真实验表明,提出的算法能够有效预测对手的动作,加快学习收敛速度,提升智能体的对抗水平。 展开更多
关键词 对手动作预测 竞争深度q网络(D3qN) 智能博弈对抗 深度强化学习
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部