针对现有的码率自适应(adaptive bitrate,ABR)算法存在控制规则简单,不能有效提升用户体验质量(quality of experience,QoE),提出一种基于元学习的LABR(reinforcement learning based ABR)算法。采用策略梯度训练策略网络,利用元学习(me...针对现有的码率自适应(adaptive bitrate,ABR)算法存在控制规则简单,不能有效提升用户体验质量(quality of experience,QoE),提出一种基于元学习的LABR(reinforcement learning based ABR)算法。采用策略梯度训练策略网络,利用元学习(meta-learning)方法学习基线(baseline)函数来减少因网络吞吐量差异产生的方差,进一步提高模型的准确性和鲁棒性;通过在策略函数中加入熵损失方法提高累计期望奖励值。实验结果表明,LABR算法具有泛化性与鲁棒性,能有效提高用户的视频体验质量。展开更多
文摘针对现有的码率自适应(adaptive bitrate,ABR)算法存在控制规则简单,不能有效提升用户体验质量(quality of experience,QoE),提出一种基于元学习的LABR(reinforcement learning based ABR)算法。采用策略梯度训练策略网络,利用元学习(meta-learning)方法学习基线(baseline)函数来减少因网络吞吐量差异产生的方差,进一步提高模型的准确性和鲁棒性;通过在策略函数中加入熵损失方法提高累计期望奖励值。实验结果表明,LABR算法具有泛化性与鲁棒性,能有效提高用户的视频体验质量。