基于深度强化学习的存内计算部署优化算法

Processing in memory deployment optimization algorithm based on deep reinforcement learning

下载PDF

导出

摘要针对存内计算大规模神经网络部署导致的计算延迟、运行功耗较大等问题,提出了基于深度强化学习的神经网络部署优化算法。首先,建立了马尔可夫决策过程的任务模型,优化神经网络的延迟和功耗,完成片上计算核心的部署。其次,针对优化部署过程中,存在求解空间过大、探索能力不足等问题,提出了一种基于深度强化学习的智能部署优化算法,从而得到近似最优的神经网络部署策略。最后,针对强化学习探索能力不足的问题,提出了一种基于内在激励的奖励策略,鼓励探索未知解空间,提高部署质量,解决陷入局部最优等问题。实验结果表明,该算法与目前强化学习算法相比能进一步优化功耗和延迟。 To address the issues of computational latency and high operational power consumption caused by the deployment of large-scale neural networks for in-memory computing,this paper proposed a deep reinforcement learning-based optimization algorithm for neural network deployment.Firstly,it established a task model for Markov decision processes,which optimized the latency and power consumption of the neural network and completed the deployment of the on-chip computing core.Secondly,to tackle the challenges of excessive solution space and insufficient exploration capability during the optimization process,it introduced a deployment optimization algorithm based on deep reinforcement learning to obtain a near-optimal neural network deployment strategy.Lastly,it proposed a reward strategy grounded in intrinsic motivation to address the lack of exploration abi-lity in reinforcement learning,encouraging the exploration of unknown solution spaces,enhancing the quality of deployment,and resolving issues such as getting trapped in local optimality.Experimental results demonstrate that the proposed algorithm further optimizes power consumption and latency compared to current reinforcement learning algorithms.

作者胡益笛夏银水 Hu Yidi;Xia Yinshui(Faculty of Electrical Engineering&Computer Science,Ningbo University,Ningbo Zhejiang 315211,China)

机构地区宁波大学信息科学与工程学院

出处《计算机应用研究》 CSCD 北大核心 2023年第9期2616-2620,共5页 Application Research of Computers

基金国家自然科学基金资助项目(62131010,U22A2013) 浙江省创新群体资助项目(LDT23F4021F04) 宁波高新区重大技术创新资助项目(2022BCX050001)。

关键词存内计算深度强化学习神经网络部署近端策略优化内在激励 processing in memory deep reinforce learning neural network deployment proximal policy optimization intrinsic reward

分类号 TP391.7 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1杨惟轶,白辰甲,蔡超,赵英男,刘鹏.深度强化学习中稀疏奖励问题研究综述[J].计算机科学,2020,47(3):182-191. 被引量：40

二级参考文献3

1赵星宇,丁世飞.深度强化学习研究综述[J].计算机科学,2018,45(7):1-6. 被引量：62
2张凯峰,俞扬.基于逆强化学习的示教学习方法综述[J].计算机研究与发展,2019,56(2):254-261. 被引量：10
3白辰甲,刘鹏,赵巍,唐降龙.基于TD-error自适应校正的深度Q学习主动采样方法[J].计算机研究与发展,2019,56(2):262-280. 被引量：12

共引文献39

1李瑜,张占强,孟克其劳,魏皓天.基于改进深度确定性策略梯度算法的微电网能量优化调度[J].电子测量技术,2023,46(2):73-80. 被引量：6
2张博,黄山,张浛芮,李应昆,涂海燕.基于强化学习的艾灸机器人温度控制策略研究[J].电子测量技术,2022,45(24):60-66. 被引量：1
3何忠文.电网信息物理系统耦合决策控制技术研究进展[J].集成电路应用,2020,37(6):1-3.
4杨瑞,严江鹏,李秀.强化学习稀疏奖励算法研究——理论与实验[J].智能系统学报,2020,15(5):888-899. 被引量：18
5张永超,于智伟,丁丽林.基于强化学习的煤矸石分拣机械臂智能控制算法研究[J].工矿自动化,2021,47(1):36-42. 被引量：10
6张振,黄炎焱,张永亮,陈天德.基于近端策略优化的作战实体博弈对抗算法[J].南京理工大学学报,2021,45(1):77-83. 被引量：18
7王瑞星,董诗音,江飞龙,黄胜全.稀疏奖励下基于强化学习的异构多智能体对抗[J].信息技术,2021,45(5):12-20. 被引量：2
8宋宏川,詹浩,夏露,李向阳,刘艳.基于深度确定性策略梯度算法的战机规避中距空空导弹研究[J].航空工程进展,2021,12(3):85-94. 被引量：3
9周仕承,刘京菊,钟晓峰,卢灿举.基于深度强化学习的智能化渗透测试路径发现[J].计算机科学,2021,48(7):40-46. 被引量：15
10赵毓,郭继峰,颜鹏,白成超.稀疏奖励下多航天器规避决策自学习仿真[J].系统仿真学报,2021,33(8):1766-1774. 被引量：5

1金剑.试分析5G专网及部署策略[J].中国新通信,2023,25(14):16-18.
2陈云,刘之光,陶伟宜.基于5G SA网络的智慧港口网络部署方案研究[J].邮电设计技术,2023(9):1-5.
3张睿,白晓露,潘理虎.求解高维昂贵多目标问题的约束型Dropout代理辅助进化算法[J].电子学报,2023,51(7):1859-1867. 被引量：2
4孙建成,孙嘉颍,缪德山,李春林.5G NTN网络架构标准化演进的思考[J].电信科学,2023,39(9):76-86. 被引量：11
5张立欣,李文华,杨翠芳,张倩,陈纪龙.遗传算法优化神经网络的胡杨材积预测[J].塔里木大学学报,2023,35(3):95-101.
6侯有岐.求解空间几何体体积问题的基本策略[J].数理化解题研究,2023(25):8-14.
7李莹,李艳杰,崔小欣,倪庆龙,周崟灏.脉冲神经网络权重量化方法与对抗鲁棒性分析[J].电子与信息学报,2023,45(9):3218-3227.
8刘乔寿,周雄,刘爽,邓义锋.基于深度强化学习的OFDM自适应导频设计[J].通信学报,2023,44(9):104-114. 被引量：2
9陈思霞,王希瑞,卢盛峰.政社合作开发模式下的土地出让价格策略及激励机制[J].经济研究,2023,58(7):191-208. 被引量：4
10鄢姣,孟大虎.高等教育性别差异逆转:驱动因素与典型表征——来自宏观层面和微观层面的经验证据[J].河南师范大学学报（哲学社会科学版）,2023,50(5):95-100. 被引量：1

计算机应用研究

2023年第9期

浏览历史

内容加载中请稍等...

基于深度强化学习的存内计算部署优化算法

参考文献1

二级参考文献3

共引文献39

相关作者

相关机构

相关主题

浏览历史