期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
频分多址系统分布式强化学习功率控制方法
1
作者 李烨 司轲 《计算机应用研究》 CSCD 北大核心 2023年第12期3772-3777,共6页
近年来,深度强化学习作为一种无模型的资源分配方法被用于解决无线网络中的同信道干扰问题。然而,基于常规经验回放策略的网络难以学习到有价值的经验,导致收敛速度较慢;而人工划定探索步长的方式没有考虑算法在每个训练周期上的学习情... 近年来,深度强化学习作为一种无模型的资源分配方法被用于解决无线网络中的同信道干扰问题。然而,基于常规经验回放策略的网络难以学习到有价值的经验,导致收敛速度较慢;而人工划定探索步长的方式没有考虑算法在每个训练周期上的学习情况,使得对环境的探索存在盲目性,限制了系统频谱效率的提升。对此,提出一种频分多址系统的分布式强化学习功率控制方法,采用优先经验回放策略,鼓励智能体从环境中学习更重要的数据,以加速学习过程;并且设计了一种适用于分布式强化学习、动态调整步长的探索策略,使智能体得以根据自身学习情况探索本地环境,减少人为设定步长带来的盲目性。实验结果表明,相比于现有算法,所提方法加快了收敛速度,提高了移动场景下的同信道干扰抑制能力,在大型网络中具有更高的性能。 展开更多
关键词 分布式强化学习 频分多址系统 功率控制 贪心策略 优先经验回放 动态步长调整
下载PDF
基于分布式强化学习的功率控制算法研究
2
作者 司轲 李烨 《软件工程与应用》 2023年第3期530-542,共13页
强化学习作为一种无模型的控制方法被应用于解决蜂窝网络中的同信道干扰问题。然而,在基于值的强化学习算法中,函数逼近存在误差导致Q值被高估,使算法收敛至次优策略而对信道干扰的抑制性能不佳,且在高频带场景中收敛速度缓慢。对此提... 强化学习作为一种无模型的控制方法被应用于解决蜂窝网络中的同信道干扰问题。然而,在基于值的强化学习算法中,函数逼近存在误差导致Q值被高估,使算法收敛至次优策略而对信道干扰的抑制性能不佳,且在高频带场景中收敛速度缓慢。对此提出一种适用于分布式部署下的控制方法,使用DDQN学习离散策略,以添加三元组批评机制的延迟深度确定性策略梯度算法学习连续策略;使算法对动作价值的估计更准确,以提升算法在不同频带数量场景下对干扰的抑制性能。通过数量的扩展性实验表明了所提算法在不同频带数量场景下,保证更快收敛速度的同时对信道干扰有更好的抑制效果,证明了算法的有效性与扩展性。 展开更多
关键词 分布式强化学习 功率控制 Actor-Critic算法 双重深度Q网络 延迟深度确定性策略梯度
下载PDF
不同温度储藏糙米对糙米酵素活性成分的影响 被引量:1
3
作者 司轲 姜忠丽 +1 位作者 夏晓林 付俏 《农业科技与装备》 2017年第4期41-43,46,共4页
用糙米制备酵素可保留糙米中多种营养成分。研究不同储藏条件对糙米性质及其酵素中活性成分的影响。结果表明:随着储藏时间增加,糙米酵素中γ-氨基丁酸含量呈现先上升后下降趋势,且常温储藏糙米和30℃条件下储藏糙米其酵素中γ-氨基丁... 用糙米制备酵素可保留糙米中多种营养成分。研究不同储藏条件对糙米性质及其酵素中活性成分的影响。结果表明:随着储藏时间增加,糙米酵素中γ-氨基丁酸含量呈现先上升后下降趋势,且常温储藏糙米和30℃条件下储藏糙米其酵素中γ-氨基丁酸含量在储藏第60 d时达到最大值,40℃条件下储藏糙米在储藏第30 d时达到最大值;糙米脂肪酸值呈现上升趋势,糙米粘度呈现下降趋势,且温度越高,脂肪酸值上升越快,粘度下降越快。 展开更多
关键词 糙米 酵素 储藏 温度 时间 Γ-氨基丁酸
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部