-
题名基于随机森林模型的成分数据缺失值填补法
被引量:32
- 1
-
-
作者
张晓琴
程誉莹
-
机构
山西大学数学科学学院
-
出处
《应用概率统计》
CSCD
北大核心
2017年第1期102-110,共9页
-
基金
山西省高等学校教学改革项目(批准号:J2014006)
山西省自然科学基金面上项目(批准号:2015011044)
山西省国际科技合作计划项目(批准号:2015081020)资助
-
文摘
缺失数据处理是数据挖掘领域中进行数据预处理的一个重要环节,由于成分数据特殊的几何性质,传统的缺失值填补方法不能直接用于这种类型的数据.因此,对成分数据而言,缺失值的填补具有十分重要的意义.为了解决这个问题,本文利用了成分数据和欧氏数据之间的关系,提出了一种基于随机森林的成分数据缺失值迭代填补法,该方法的实施和评估采用模拟和真实的数据集.实验结果表明:新的填补方法可广泛应用于多种类型的数据集且具有较高准确性.
-
关键词
缺失值填补
成分数据
随机森林
-
Keywords
imputation of missing values
compositional data
random forest
-
分类号
O212.1
[理学—概率论与数理统计]
-
-
题名基于修正Sigmoid核的成分数据缺失值填补法
- 2
-
-
作者
程誉莹
张晓琴
-
机构
山西大学数学科学学院
-
出处
《云南民族大学学报(自然科学版)》
CAS
2016年第6期531-535,共5页
-
基金
山西省自然科学基金(2015011044)
山西省高等学校教学改革项目(J2014006)
山西省国际交流合作项目(2015081020)
-
文摘
大多数统计分析方法基于完整的数据集,这些方法不能直接用于包括缺失值的数据集.此外,由于成分数据的特殊属性,传统的缺失值插补方法直接用于这种类型的数据可能得到不良的结果.因此,对成分数据而言,缺失值的填补具有十分重要的意义.为了解决这个问题,根据核函数的性质,提出了一种基于修正Sigmoid核的成分数据缺失值非参数插补方法.该方法使用模拟和真实的数据集与k近邻插补法和最小二乘迭代回归插补法进行比较.实验结果表明,新的插补方法可以得到更准确的估计.
-
关键词
缺失值
成分数据
Sigmoid核函数
非参数填补
-
Keywords
missing values
compositional data
Sigmoid kernel function
nonparametric imputation
-
分类号
O212.1
[理学—概率论与数理统计]
-