-
题名频分多址系统分布式强化学习功率控制方法
- 1
-
-
作者
李烨
司轲
-
机构
上海理工大学光电信息与计算机工程学院
-
出处
《计算机应用研究》
CSCD
北大核心
2023年第12期3772-3777,共6页
-
基金
华为技术有限公司合作资助项目(YBN2019115054)。
-
文摘
近年来,深度强化学习作为一种无模型的资源分配方法被用于解决无线网络中的同信道干扰问题。然而,基于常规经验回放策略的网络难以学习到有价值的经验,导致收敛速度较慢;而人工划定探索步长的方式没有考虑算法在每个训练周期上的学习情况,使得对环境的探索存在盲目性,限制了系统频谱效率的提升。对此,提出一种频分多址系统的分布式强化学习功率控制方法,采用优先经验回放策略,鼓励智能体从环境中学习更重要的数据,以加速学习过程;并且设计了一种适用于分布式强化学习、动态调整步长的探索策略,使智能体得以根据自身学习情况探索本地环境,减少人为设定步长带来的盲目性。实验结果表明,相比于现有算法,所提方法加快了收敛速度,提高了移动场景下的同信道干扰抑制能力,在大型网络中具有更高的性能。
-
关键词
分布式强化学习
频分多址系统
功率控制
贪心策略
优先经验回放
动态步长调整
-
Keywords
distributed reinforcement learning
frequency division multiple access system
power control
greedy strategy
priority experience replay
dynamic step size adjustment
-
分类号
TP929.5
[自动化与计算机技术]
-
-
题名基于分布式强化学习的功率控制算法研究
- 2
-
-
作者
司轲
李烨
-
机构
上海理工大学光电信息与计算机工程学院
-
出处
《软件工程与应用》
2023年第3期530-542,共13页
-
文摘
强化学习作为一种无模型的控制方法被应用于解决蜂窝网络中的同信道干扰问题。然而,在基于值的强化学习算法中,函数逼近存在误差导致Q值被高估,使算法收敛至次优策略而对信道干扰的抑制性能不佳,且在高频带场景中收敛速度缓慢。对此提出一种适用于分布式部署下的控制方法,使用DDQN学习离散策略,以添加三元组批评机制的延迟深度确定性策略梯度算法学习连续策略;使算法对动作价值的估计更准确,以提升算法在不同频带数量场景下对干扰的抑制性能。通过数量的扩展性实验表明了所提算法在不同频带数量场景下,保证更快收敛速度的同时对信道干扰有更好的抑制效果,证明了算法的有效性与扩展性。
-
关键词
分布式强化学习
功率控制
Actor-Critic算法
双重深度Q网络
延迟深度确定性策略梯度
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-
-
题名不同温度储藏糙米对糙米酵素活性成分的影响
被引量:1
- 3
-
-
作者
司轲
姜忠丽
夏晓林
付俏
-
机构
沈阳师范大学粮食学院
-
出处
《农业科技与装备》
2017年第4期41-43,46,共4页
-
基金
辽宁省教育厅科学研究一般项目(L2014436)
辽宁省自然科学基金项目(2015020803)
+1 种基金
辽宁省沈阳师范大学大学生科研项目
大创项目(201610166200067)
-
文摘
用糙米制备酵素可保留糙米中多种营养成分。研究不同储藏条件对糙米性质及其酵素中活性成分的影响。结果表明:随着储藏时间增加,糙米酵素中γ-氨基丁酸含量呈现先上升后下降趋势,且常温储藏糙米和30℃条件下储藏糙米其酵素中γ-氨基丁酸含量在储藏第60 d时达到最大值,40℃条件下储藏糙米在储藏第30 d时达到最大值;糙米脂肪酸值呈现上升趋势,糙米粘度呈现下降趋势,且温度越高,脂肪酸值上升越快,粘度下降越快。
-
关键词
糙米
酵素
储藏
温度
时间
Γ-氨基丁酸
-
Keywords
coarse rice
enzymes
store
temperature
time
γ-aminobutyric acid
-
分类号
TS210.9
[轻工技术与工程—粮食、油脂及植物蛋白工程]
-