-
题名基于正则化KL距离的交叉验证折数K的选择
被引量:6
- 1
-
-
作者
褚荣燕
王钰
杨杏丽
李济洪
-
机构
山西大学数学科学学院
山西大学现代教育技术学院
山西大学软件学院
-
出处
《计算机技术与发展》
2021年第3期52-57,共6页
-
基金
山西省应用基础项目研究计划(201901D111034,201801D211002)
国家自然科学基金资助项目(61806115)。
-
文摘
在机器学习中,K折交叉验证方法常常通过把数据分成多个训练集和测试集来进行模型评估与选择,然而其折数K的选择一直是一个公开的问题。注意到上述交叉验证数据划分的一个前提假定是训练集和测试集的分布一致,但是实际数据划分中,往往不是这样。因此,可以通过度量训练集和测试集的分布一致性来进行K折交叉验证折数K的选择。直观地,KL(Kullback-Leibler)距离是一种合适的度量方法,因为它度量了两个分布之间的差异。然而直接基于KL距离进行K的选择时,从多个数据实验结果发现随着K的增加KL距离也在增大,显然这是不合适的。为此,提出了一种基于正则化KL距离的K折交叉验证折数K的选择准则,通过最小化此正则KL距离来选择合适的折数K。进一步多个真实数据实验验证了提出准则的有效性和合理性。
-
关键词
k折交叉验证
折数k的选择
kL(kullback-Leibler)距离
正则化
机器学习
-
Keywords
k-fold cross-validation
selection of the fold k
kL distance(kullback-Leibler distance)
regularized
machine learning
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-