为适应实际大规模M arkov系统的需要,讨论M arkov决策过程(MDP)基于仿真的学习优化问题.根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行...为适应实际大规模M arkov系统的需要,讨论M arkov决策过程(MDP)基于仿真的学习优化问题.根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行逼近策略评估;然后,根据性能势的逼近值,通过逼近策略迭代来实现两种准则下统一的神经元动态规划(neuro-dynam ic programm ing,NDP)优化方法.研究结果适用于半M arkov决策过程,并通过一个数值例子,说明了文中的神经元策略迭代算法对两种准则都适用,验证了平均问题是折扣问题当折扣因子趋近于零时的极限情况.展开更多
随着互联网技术的快速发展以及智能设备的普及,基于HTTP的动态自适应流媒体(Dynamic Adaptive Streaming over HTTP,DASH)业务发展迅速.但在带宽受限网络中,大规模用户的视频请求,将会加重网络负载,严重影响网络带宽资源的有效利用,同...随着互联网技术的快速发展以及智能设备的普及,基于HTTP的动态自适应流媒体(Dynamic Adaptive Streaming over HTTP,DASH)业务发展迅速.但在带宽受限网络中,大规模用户的视频请求,将会加重网络负载,严重影响网络带宽资源的有效利用,同时用户码率调节缺乏全局协调控制机制,容易造成网络拥塞.针对软件定义网络中的DASH视频传输业务,将视频业务提供商长期平均收益最大化作为优化目标,设计并实现了基于神经元动态规划的DASH视频路由和用户码率调节联合决策算法.最后,通过在Mininet平台上建立SDN(Software-Defined Networking)网络环境并进行对比实验,我们验证了本文提出的联合决策算法能够提高网络带宽资源利用率,最大化DASH视频业务提供商长期平均收益.展开更多
文摘为适应实际大规模M arkov系统的需要,讨论M arkov决策过程(MDP)基于仿真的学习优化问题.根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行逼近策略评估;然后,根据性能势的逼近值,通过逼近策略迭代来实现两种准则下统一的神经元动态规划(neuro-dynam ic programm ing,NDP)优化方法.研究结果适用于半M arkov决策过程,并通过一个数值例子,说明了文中的神经元策略迭代算法对两种准则都适用,验证了平均问题是折扣问题当折扣因子趋近于零时的极限情况.