码率自适应(Adaptive BitRate,ABR)算法是视频客户端提高用户体验质量(Quality of Experience,QoE)的一种有效途径.针对现有ABR算法存在频繁缓冲、视频卡顿、画质较低和网络吞吐量预测不准确等问题,本文提出一种基于深度强化学习的码率...码率自适应(Adaptive BitRate,ABR)算法是视频客户端提高用户体验质量(Quality of Experience,QoE)的一种有效途径.针对现有ABR算法存在频繁缓冲、视频卡顿、画质较低和网络吞吐量预测不准确等问题,本文提出一种基于深度强化学习的码率自适应(Deep Reinforcement Learning based ABR,DRLA)算法.DRLA用实际网络带宽数据训练神经网络,通过收集客户端缓冲区占用率和网络吞吐量向视频服务器请求最佳码率的视频.首先,DRLA用基线函数方法优化损失函数L,用熵随机探索方法防止损失函数局部收敛;其次利用约束条件限制新旧策略的散度更新幅度提高算法的鲁棒性;最后通过置信域(trust region)优化找到最优策略,使得QoE达到最优.与现有ABR算法对比的实验结果表明:DRLA减少了训练时间,能进一步提高算法的鲁棒性和用户的QoE,并在实际环境下验证了算法的有效性.展开更多
针对现有的码率自适应(adaptive bitrate,ABR)算法存在控制规则简单,不能有效提升用户体验质量(quality of experience,QoE),提出一种基于元学习的LABR(reinforcement learning based ABR)算法。采用策略梯度训练策略网络,利用元学习(me...针对现有的码率自适应(adaptive bitrate,ABR)算法存在控制规则简单,不能有效提升用户体验质量(quality of experience,QoE),提出一种基于元学习的LABR(reinforcement learning based ABR)算法。采用策略梯度训练策略网络,利用元学习(meta-learning)方法学习基线(baseline)函数来减少因网络吞吐量差异产生的方差,进一步提高模型的准确性和鲁棒性;通过在策略函数中加入熵损失方法提高累计期望奖励值。实验结果表明,LABR算法具有泛化性与鲁棒性,能有效提高用户的视频体验质量。展开更多
文摘码率自适应(Adaptive BitRate,ABR)算法是视频客户端提高用户体验质量(Quality of Experience,QoE)的一种有效途径.针对现有ABR算法存在频繁缓冲、视频卡顿、画质较低和网络吞吐量预测不准确等问题,本文提出一种基于深度强化学习的码率自适应(Deep Reinforcement Learning based ABR,DRLA)算法.DRLA用实际网络带宽数据训练神经网络,通过收集客户端缓冲区占用率和网络吞吐量向视频服务器请求最佳码率的视频.首先,DRLA用基线函数方法优化损失函数L,用熵随机探索方法防止损失函数局部收敛;其次利用约束条件限制新旧策略的散度更新幅度提高算法的鲁棒性;最后通过置信域(trust region)优化找到最优策略,使得QoE达到最优.与现有ABR算法对比的实验结果表明:DRLA减少了训练时间,能进一步提高算法的鲁棒性和用户的QoE,并在实际环境下验证了算法的有效性.
文摘针对现有的码率自适应(adaptive bitrate,ABR)算法存在控制规则简单,不能有效提升用户体验质量(quality of experience,QoE),提出一种基于元学习的LABR(reinforcement learning based ABR)算法。采用策略梯度训练策略网络,利用元学习(meta-learning)方法学习基线(baseline)函数来减少因网络吞吐量差异产生的方差,进一步提高模型的准确性和鲁棒性;通过在策略函数中加入熵损失方法提高累计期望奖励值。实验结果表明,LABR算法具有泛化性与鲁棒性,能有效提高用户的视频体验质量。