-
题名泛化界正则项:理解权重衰减正则形式的统一视角
被引量:1
- 1
-
-
作者
李翔
陈硕
杨健
-
机构
南京理工大学计算机科学与工程学院pcalab
-
出处
《计算机学报》
EI
CAS
CSCD
北大核心
2021年第10期2122-2134,共13页
-
基金
国家自然科学基金(No.U1713208)
111项目(AH92005)资助.
-
文摘
经验风险最小化(Empirical Risk Minimization,ERM)旨在学习一组模型参数来尽可能地拟合已观测到的样本,使得模型具有基础的识别能力.除了ERM,权重衰减(Weight Decay,WD)对于进一步提升模型的泛化能力,即对未观测样本的精准识别也非常重要.然而,WD的具体形式仅仅是在优化过程中不断缩小所学习的模型参数,这很难与提升泛化能力这个概念直接地联系起来,尤其是对于多层深度网络而言.本文首先从计算学习理论(learning theory)中的鲁棒性(robustness)与泛化性(generalization)之间的量化关系出发,推导出了一个统一的泛化界正则项(Generalization Bound Regularizer,GBR)来理解WD的作用.本文证明了优化WD项(作为损失目标函数的一部分)本质上是在优化GBR的上界,而GBR则与模型的泛化能力有着理论上的直接关联.对于单层线性系统,本文可以直接推导出该上界;对于多层深度神经网络,该上界可以通过几个不等式的松弛来获得.本文通过引入均等范数约束(Equivalent Norm Constraint,ENC)即保证上述不等式的取等条件来进一步压缩GBR与其上界之间的距离,从而获得具有更好泛化能力的网络模型,该模型的识别性能在大型ImageNet数据集上得到了全面的验证.
-
关键词
泛化界正则项
经验风险最小化
权重衰减
均等范数约束
深度神经网络
-
Keywords
generalization bound regularizer
empirical risk minimization
weight decay
equivalent norm constraint
deep neural network
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-