网络直播广告作为一种新型营销方式快速发展,优化直播广告运营主体努力水平及定价策略是一项值得深入研究的课题。本文基于广告投放效果的两种定价模式,构建了包含两个广告商和一个主播的网络直播广告定价决策模型,探索广告商与主播的...网络直播广告作为一种新型营销方式快速发展,优化直播广告运营主体努力水平及定价策略是一项值得深入研究的课题。本文基于广告投放效果的两种定价模式,构建了包含两个广告商和一个主播的网络直播广告定价决策模型,探索广告商与主播的最优努力水平选择及广告定价策略。研究发现:CPW(cost per watch)定价模式下,广告商承担了消费者是否购买的不确定性风险,当消费者敏感性系数偏低时,广告商会提交较低的出价,且B/D两类广告商赢得竞拍的概率相等;对比CPW模式,在CPA(cost per action)定价模式下广告商的努力水平更低,且CPA定价模式中B型(品牌型)广告商赢得竞拍的概率更大,但赢得竞拍的广告商边际利润往往较低;与广告商相反,主播在CPA定价模式下的收益大于CPW,且随消费者敏感性系数的增加,两种定价模式下的收益差逐渐增大;CPW定价模式下预期观看直播的用户量和购买率均高于CPA,网络直播市场倾向于从CPW广告定价合同中获得较大收益。展开更多
无人驾驶技术的关键是决策层根据感知环节输入信息做出准确指令。强化学习和模仿学习比传统规则更适用于复杂场景。但以行为克隆为代表的模仿学习存在复合误差问题,使用优先经验回放算法对行为克隆进行改进,提升模型对演示数据集的拟合...无人驾驶技术的关键是决策层根据感知环节输入信息做出准确指令。强化学习和模仿学习比传统规则更适用于复杂场景。但以行为克隆为代表的模仿学习存在复合误差问题,使用优先经验回放算法对行为克隆进行改进,提升模型对演示数据集的拟合能力;原DDPG(deep deterministic policy gradient)算法存在探索效率低下问题,使用经验池分离以及随机网络蒸馏技术(random network distillation,RND)对DDPG算法进行改进,提升DDPG算法训练效率。使用改进后的算法进行联合训练,减少DDPG训练前期的无用探索。通过TORCS(the open racing car simulator)仿真平台验证,实验结果表明该方法在相同的训练次数内,能够探索出更稳定的道路保持、速度保持和避障能力。展开更多
文摘网络直播广告作为一种新型营销方式快速发展,优化直播广告运营主体努力水平及定价策略是一项值得深入研究的课题。本文基于广告投放效果的两种定价模式,构建了包含两个广告商和一个主播的网络直播广告定价决策模型,探索广告商与主播的最优努力水平选择及广告定价策略。研究发现:CPW(cost per watch)定价模式下,广告商承担了消费者是否购买的不确定性风险,当消费者敏感性系数偏低时,广告商会提交较低的出价,且B/D两类广告商赢得竞拍的概率相等;对比CPW模式,在CPA(cost per action)定价模式下广告商的努力水平更低,且CPA定价模式中B型(品牌型)广告商赢得竞拍的概率更大,但赢得竞拍的广告商边际利润往往较低;与广告商相反,主播在CPA定价模式下的收益大于CPW,且随消费者敏感性系数的增加,两种定价模式下的收益差逐渐增大;CPW定价模式下预期观看直播的用户量和购买率均高于CPA,网络直播市场倾向于从CPW广告定价合同中获得较大收益。
文摘无人驾驶技术的关键是决策层根据感知环节输入信息做出准确指令。强化学习和模仿学习比传统规则更适用于复杂场景。但以行为克隆为代表的模仿学习存在复合误差问题,使用优先经验回放算法对行为克隆进行改进,提升模型对演示数据集的拟合能力;原DDPG(deep deterministic policy gradient)算法存在探索效率低下问题,使用经验池分离以及随机网络蒸馏技术(random network distillation,RND)对DDPG算法进行改进,提升DDPG算法训练效率。使用改进后的算法进行联合训练,减少DDPG训练前期的无用探索。通过TORCS(the open racing car simulator)仿真平台验证,实验结果表明该方法在相同的训练次数内,能够探索出更稳定的道路保持、速度保持和避障能力。