基于强化学习的DASH自适应码率决策算法研究被引量：1

DASH Adaptive Bitrate Decision Algorithm Based on Reinforcement Learning

下载PDF

导出

摘要目前的DASH客户端码率决策依赖基于特定环境的低准确性的建模来实现固定的控制算法,很难捕获和反映真实网络环境中动态网络的变化情况。本文采用了强化学习中的近端策略优化和深度神经网络相结合的算法,能够学习网络环境的动态变化特性做出决策,并根据价值网络输出调整策略网络的参数,逐渐收敛到最优策略。通过对真实网络轨迹数据集的实验证明:该算法比现有算法可获得更高的用户体验质量,具有较少的缓冲区下溢,并且保证了视频播放的流畅性。 The current client-based DASH bitrate decision relies on low-accuracy modeling based on a specific environment to implement a fixed contro algorithm,which is difficult to capture and reflect changes in the dynamic network in a real network environment.In this paper,the algorithm combining the proximal policy optimization in reinforcement learning and deep neural network is adopted.The algorithm can learn the dynamic characteristics of the network environment to make decisions,constantly update the policy network parameters based on the output of the value network to gradually converge to the optimal policy.Through experiments on real network trace datasets,the algorithm used in this paper can achieve higher user experience quality than existing algorithms,and has less buffer underflow,and ensures smooth video playback.

作者冯苏柳姜秀华 Feng Su-liu;Jiang Xiu-hua(School of Communication and Information Engineering Communication University of China,Beijing 100024,China)

机构地区中国传媒大学信息与通信工程学院

出处《中国传媒大学学报（自然科学版）》 2020年第2期59-64,83,共7页 Journal of Communication University of China：Science and Technology

关键词自适应流媒体传输 DASH 深度强化学习近端策略优化 HTTP adaptive streaming DASH deep reinforcement learning proximal policy optimization

分类号 TN919.8 [电子电信—通信与信息系统]

引文网络
相关文献

同被引文献11

1滕举元,许洪斌,王毅,张哲.采摘机器人机械臂运动轨迹规划设计仿真[J].计算机仿真,2017,34(4):362-367. 被引量：20
2王曌,胡立生.基于深度Q学习的工业机械臂路径规划方法[J].化工自动化及仪表,2018,45(2):141-145. 被引量：6
3熊超,解武杰,董文瀚.基于碰撞锥改进人工势场的无人机避障路径规划[J].计算机工程,2018,44(9):314-320. 被引量：19
4马冀桐,王毅,何宇,王恺,张艺谭.基于构型空间先验知识引导点的柑橘采摘机械臂运动规划[J].农业工程学报,2019,35(8):100-108. 被引量：18
5毕松,高峰,陈俊文,张潞.基于深度卷积神经网络的柑橘目标识别方法[J].农业机械学报,2019,50(5):181-186. 被引量：61
6王毅,滕举元,张哲,许洪斌.六自由度采摘机械臂采摘姿态规划研究[J].机械设计与制造,2019(8):235-238. 被引量：13
7李跃,邵振洲,赵振东,施智平,关永.面向轨迹规划的深度强化学习奖励函数设计[J].计算机工程与应用,2020,56(2):226-232. 被引量：9
8薛阳,俞志程,吴海东,张宁,孙越.基于改进人工势场法的双机械臂避障路径规划[J].机械传动,2020,44(3):39-45. 被引量：20
9熊俊涛,郑镇辉,梁嘉恩,钟灼,刘柏林,孙宝霞.基于改进YOLO v3网络的夜间环境柑橘识别方法[J].农业机械学报,2020,51(4):199-206. 被引量：71
10周祺杰,刘满禄,李新茂,张华.基于深度强化学习的固体放射性废物抓取方法研究[J].计算机应用研究,2020,37(11):3363-3367. 被引量：3

引证文献1

1熊俊涛,李中行,陈淑绵,郑镇辉.基于深度强化学习的虚拟机器人采摘路径避障规划[J].农业机械学报,2020,51(S02):1-10. 被引量：25

二级引证文献25

1张勤,乐晓亮,李彬,蒋先平,熊征,徐灿.基于CTB-RRT*的果蔬采摘机械臂运动路径规划[J].农业机械学报,2021,52(10):129-136. 被引量：19
2刘顿,王毅.改进Informed-RRT^(*)算法的柑橘采摘机械臂运动路径规划[J].重庆理工大学学报（自然科学）,2021,35(11):158-165. 被引量：8
3段洁利,王昭锐,叶磊,杨洲.水果采摘机械臂运动规划研究进展与发展趋势[J].智能化农业装备学报（中英文）,2021,2(2):7-17. 被引量：7
4李文彪.基于深度强化学习的工业机器人避障路径规划方法[J].制造业自动化,2022,44(1):127-130. 被引量：11
5王涛,黎玉康,刘文学.无人车辆路径规划算法发展现状[J].舰船电子工程,2022,42(5):15-22. 被引量：2
6李萍.基于移动通信终端控制的采摘机器人系统设计[J].农机化研究,2023,45(7):206-209. 被引量：1
7李贤.基于RRT算法的采茶机器人路径规划研究[J].农机化研究,2023,45(9):180-183. 被引量：5
8张趁香.基于目标搜索算法的植保机作业轨迹规划设计[J].农机化研究,2023,45(8):211-214.
9马爱华.基于数学轨迹算法的采摘机器人精准化作业[J].农机化研究,2023,45(10):86-90. 被引量：1
10熊春源,熊俊涛,杨振刚,胡文馨.基于深度强化学习的柑橘采摘机械臂路径规划方法[J].华南农业大学学报,2023,44(3):473-483. 被引量：5

1刘秋妍,吕华章,李铭轩,张忠皓,李福昌,冯毅,朱常波,李佳俊.面向用户体验的5G视频业务边云协同策略[J].自动化博览,2020,37(4):48-51.
2罗朴英.高中历史教学中德育渗透的路径探索[J].今天,2020(15):299-299.
3石宜金,谭贵生,王勇刚.基于ESP8226的物联网实验箱设计[J].牡丹江师范学院学报（自然科学版）,2020(3):75-77. 被引量：2
4高亚洲.基于MIKE21预测不同位置的溢油事故对水厂的影响[J].节能,2020,39(3):142-143. 被引量：3
5江黄能,陈锋,张洁,林宇鹏.异构无线网络下实时视频传输码率控制策略[J].计算机工程与设计,2019,40(12):3407-3412. 被引量：7
6宋颖丽,白会肖,郭献崇.ZFDk码的构作及应用[J].数学的实践与认识,2020,50(12):266-270.
7宫树娟.毛细管辐射吊顶表面温度的动态变化特性[J].制冷与空调（四川）,2020,34(3):331-334. 被引量：1
8黄惊.学前教育专业实训课教学方法初探[J].求学,2020(20):27-28.
9许宇彤.基于人眼视觉系统的虚拟现实视频传输策略研究[J].科技与创新,2020(14):55-56. 被引量：1
10蔡菲,张鑫,牟晓慧,陈杰,蔡珣.深度非负矩阵分解的链路预测方法研究[J].计算机工程与应用,2020,56(15):153-161. 被引量：2

中国传媒大学学报（自然科学版）

2020年第2期

浏览历史

内容加载中请稍等...

基于强化学习的DASH自适应码率决策算法研究被引量：1

同被引文献11

引证文献1

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于强化学习的DASH自适应码率决策算法研究 被引量：1

同被引文献11

引证文献1

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于强化学习的DASH自适应码率决策算法研究被引量：1