期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
泛Kennard-Stone算法的数据集代表性度量与分块采样策略 被引量:6
1
作者 武晴滢 祝震予 +1 位作者 吴剑鸣 徐昕 《高等学校化学学报》 SCIE EI CAS CSCD 北大核心 2022年第10期290-297,共8页
在大数据机器学习时代,选择更具代表性的数据集对于模型的训练和验证尤为重要.Kennard-Stone(KS)算法及其各种变种(泛KS算法)是一大类优异的数据集分割方法,但其采样比例或采样数的选择仅能依靠经验或根据建模结果事后评判.KS算法依据... 在大数据机器学习时代,选择更具代表性的数据集对于模型的训练和验证尤为重要.Kennard-Stone(KS)算法及其各种变种(泛KS算法)是一大类优异的数据集分割方法,但其采样比例或采样数的选择仅能依靠经验或根据建模结果事后评判.KS算法依据原始文献的计算复杂度为O(K^(3)),难以用于超大数据样本量的计算.本文基于数据集完备性的讨论,提出泛KS算法的数据集代表性度量,以简正振动采样的甲烷分子中碳氢键数据特征分布为例展示采样集代表性效果.简化KS采样过程的筛选算法,提高算法效率至O'(K^(2)).提出将数据集切分成多个子集分别实施KS采样的分块采样策略,可进一步提高算法效率至O″(K).偏最小二乘回归测试结果表明,该方法在提高采样效率的同时仍可保障采样集的代表性. 展开更多
关键词 Kennard-Stone算法 数据完备性 采样集代表性 线性标度
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部