期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
泛化界正则项:理解权重衰减正则形式的统一视角 被引量:1
1
作者 李翔 陈硕 杨健 《计算机学报》 EI CAS CSCD 北大核心 2021年第10期2122-2134,共13页
经验风险最小化(Empirical Risk Minimization,ERM)旨在学习一组模型参数来尽可能地拟合已观测到的样本,使得模型具有基础的识别能力.除了ERM,权重衰减(Weight Decay,WD)对于进一步提升模型的泛化能力,即对未观测样本的精准识别也非常重... 经验风险最小化(Empirical Risk Minimization,ERM)旨在学习一组模型参数来尽可能地拟合已观测到的样本,使得模型具有基础的识别能力.除了ERM,权重衰减(Weight Decay,WD)对于进一步提升模型的泛化能力,即对未观测样本的精准识别也非常重要.然而,WD的具体形式仅仅是在优化过程中不断缩小所学习的模型参数,这很难与提升泛化能力这个概念直接地联系起来,尤其是对于多层深度网络而言.本文首先从计算学习理论(learning theory)中的鲁棒性(robustness)与泛化性(generalization)之间的量化关系出发,推导出了一个统一的泛化界正则项(Generalization Bound Regularizer,GBR)来理解WD的作用.本文证明了优化WD项(作为损失目标函数的一部分)本质上是在优化GBR的上界,而GBR则与模型的泛化能力有着理论上的直接关联.对于单层线性系统,本文可以直接推导出该上界;对于多层深度神经网络,该上界可以通过几个不等式的松弛来获得.本文通过引入均等范数约束(Equivalent Norm Constraint,ENC)即保证上述不等式的取等条件来进一步压缩GBR与其上界之间的距离,从而获得具有更好泛化能力的网络模型,该模型的识别性能在大型ImageNet数据集上得到了全面的验证. 展开更多
关键词 泛化界正则项 经验风险最小 权重衰减 均等范数约束 深度神经网络
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部