基于深度强化学习的码率自适应算法研究被引量：2

Research of Adaptive Bitrate Algorithm Based on Deep Reinforcement Learning

下载PDF

导出

摘要码率自适应(Adaptive BitRate,ABR)算法是视频客户端提高用户体验质量(Quality of Experience,QoE)的一种有效途径.针对现有ABR算法存在频繁缓冲、视频卡顿、画质较低和网络吞吐量预测不准确等问题,本文提出一种基于深度强化学习的码率自适应(Deep Reinforcement Learning based ABR,DRLA)算法.DRLA用实际网络带宽数据训练神经网络,通过收集客户端缓冲区占用率和网络吞吐量向视频服务器请求最佳码率的视频.首先,DRLA用基线函数方法优化损失函数L,用熵随机探索方法防止损失函数局部收敛;其次利用约束条件限制新旧策略的散度更新幅度提高算法的鲁棒性;最后通过置信域(trust region)优化找到最优策略,使得QoE达到最优.与现有ABR算法对比的实验结果表明:DRLA减少了训练时间,能进一步提高算法的鲁棒性和用户的QoE,并在实际环境下验证了算法的有效性. Modern video players employ adaptive bitrate(ABR)algorithms to improve user quality of experience(QoE).Aiming at the problems of the existing ABR algorithms,for example,these algorithms usually lead to frequent rebuffering,video freezes,low video quality,or inaccurate network throughput prediction.In this paper,we propose a deep reinforcement learning algorithm based on ABR(DRLA).DRLA trains the neural network with the actual network bandwidth data,and requests the video with the best bit rate from the video server by collecting the client buffer occupancy rate and network throughput.DRLA optimizes the loss function with the baseline function method.To encourage exploration,we add an entropy regularization term to the update rule of the policy network.Then,DRLA uses constraints to limit the divergence of the new and old policies.Besides,DRLA optimizes the policy to use trust region to improve QoE.Compared with the existing ABR algorithms on the QoE metrics,DRLA reduces training time,is more robust,and can further improve QoE,and the experimental results verify the effectiveness of this algorithm.

作者易令李泽平 YI Ling;LI Ze-ping(School of Computer Science and Technology,Guizhou University,Guiyang,Guizhou 550025,China)

机构地区贵州大学计算机科学与技术学院

出处《电子学报》 EI CAS CSCD 北大核心 2022年第5期1192-1200,共9页 Acta Electronica Sinica

基金国家自然科学基金(No.61462014)。

关键词码率自适应算法体验质量深度强化学习基线函数熵置信域 adaptive bitrate algorithm quality of experience deep reinforcement learning baseline function entropy trust region

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1曹燕,董一鸿,邬少清,陈华辉,钱江波,潘善亮.动态网络表示学习研究进展[J].电子学报,2020,48(10):2047-2059. 被引量：5

二级参考文献8

1刘华玲,郑建国,孙辞海.基于贪心扰动的社交网络隐私保护研究[J].电子学报,2013,41(8):1586-1591. 被引量：17
2Nahla Mohamed Ahmed,Ling Chen,Yulong Wang,Bin Li,Yun Li,Wei Liu.DEEPEYE: Link Prediction in Dynamic Networks Based on Non-negative Matrix Factorization[J].Big Data Mining and Analytics,2018,1(1):19-33. 被引量：12
3国琳,左万利,彭涛.基于隶属度的社会化网络重叠社区发现及动态集群演化分析[J].电子学报,2016,44(3):587-594. 被引量：6
4李志宇,梁循,徐志明,齐金山,陈燕方.DNPS:基于阻尼采样的大规模动态社会网络结构特征表示学习[J].计算机学报,2017,40(4):805-823. 被引量：7
5涂存超,杨成,刘知远,孙茂松.网络表示学习综述[J].中国科学：信息科学,2017,47(8):980-996. 被引量：98
6胡小娟,刘磊,邱宁佳.基于主动学习和否定选择的垃圾邮件分类算法[J].电子学报,2018,46(1):203-209. 被引量：16
7张号逵,李映,姜晔楠.深度学习在高光谱图像分类领域的研究现状与展望[J].自动化学报,2018,44(6):961-977. 被引量：70
8任开旭,王玉龙,刘同存,李炜.融合多维语义表示的概率矩阵分解模型[J].电子学报,2019,47(9):1848-1854. 被引量：10

共引文献4

1吴铮,陈鸿昶,张建朋.基于时序模体注意力图卷积的动态网络链路预测算法[J].计算机应用研究,2021,38(10):3143-3147. 被引量：2
2居翔,李沛武,王奇,韩飞,章荣辉.服务功能链中基于单纯形法的路径规划算法[J].数字通信世界,2021(10):75-80. 被引量：1
3孙全明,常磊,马铖,曲志坚.基于图嵌入和CaGBDT的多模态出行推荐[J].北京邮电大学学报,2021,44(5):81-87. 被引量：1
4刘华玲,张国祥,马俊.图嵌入算法研究进展[J].浙江大学学报（理学版）,2022,49(4):443-456. 被引量：1

同被引文献6

1梁天新,杨小平,王良,韩镇远.基于强化学习的金融交易系统研究与发展[J].软件学报,2019,30(3):845-864. 被引量：13
2吉爱国,栾云哲.基于缓存补偿的视频码率自适应算法[J].计算机应用,2022,42(9):2816-2822. 被引量：2
3王博,张远,杨咏蓓.基于模仿学习的决策树码率自适应算法研究[J].计算机工程,2023,49(5):206-214. 被引量：1
4黄思嘉,陈卫中,郑宁敏,陈世勇,郑子墨.融合碳交易的电力市场交易机制及交易模式探索[J].能源与环境,2023(2):65-67. 被引量：4
5王谊,虞勇,徐杰,杨建立.基于遗传算法的综合能源市场交易优化决策[J].电气技术与经济,2023(7):211-213. 被引量：1
6黄天驰,李朝阳,张睿霄,李文哲,孙立峰.决策树码率自适应算法的无数据蒸馏框架[J].计算机学报,2024,47(1):113-130. 被引量：1

引证文献2

1杜宸罡,李博,画芊昊.基于MPC的音视频同步码率自适应测试[J].计算机测量与控制,2024,32(4):54-60.
2王浩宇,牛圣凯,鞠云,徐鑫伟,戴丽.基于自适应算法的市场交易系统动态调整与性能优化[J].家电维修,2024(5):55-57.

1Xiaobin Tan,Shunyi Wang,Quan Zheng,Bei Liu,Yi He,Xiangyang Wu.A Stochastic Optimization Approach for Dynamic Adaptive Streaming over NDN[J].Journal of Communications and Information Networks,2021,6(3):267-279.
2刘浩,刘志斌,李金凤.基于多智能体强化学习的边缘网络视频调度[J].信息技术与信息化,2022(4):99-103.
3李英华,秦永松.相协误差下部分线性模型的经验似然推断[J].应用数学,2022,35(3):485-497.
4Guanyu Gao,Yonggang Wen.Video transcoding for adaptive bitrate streaming over edge-cloud continuum[J].Digital Communications and Networks,2021,7(4):598-604. 被引量：1
5王鼎,尹洁昕,郑娜娥,聂福全.信号传播速度未知下基于运动单站到达频率的定位新方法[J].电子学报,2022,50(5):1181-1191. 被引量：1
6杜艳瑾.幼儿园混龄教育的价值及方法探索[J].新一代（理论版）,2022(10):0246-0247.
7Ethan Court,Kapilan Radhakrishnan,Kemi Ademoye,Stephen Hole.Recommendations for Big Data in Online Video Quality of Experience Assessment[J].Journal of Computer and Communications,2016,4(5):24-31.
8凤雷,王宾涛,刘冰,李喜鹏.基于FPGA的深度强化学习硬件加速技术研究[J].计算机测量与控制,2022,30(6):242-247. 被引量：3
9王波.论中学物理教学中的科学方法教育[J].数理天地（初中版）,2022(4):73-75.
10Liming Li,Mei Qin,Heng Wang.A Regularized Newton Method with Correction for Unconstrained Convex Optimization[J].Open Journal of Optimization,2016,5(1):44-52.

电子学报

2022年第5期

浏览历史

内容加载中请稍等...

基于深度强化学习的码率自适应算法研究被引量：2

参考文献1

二级参考文献8

共引文献4

同被引文献6

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的码率自适应算法研究 被引量：2

参考文献1

二级参考文献8

共引文献4

同被引文献6

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的码率自适应算法研究被引量：2