期刊文献+

基于马氏距离和H-K聚类的空值估计研究

下载PDF
导出
摘要 传统的基于欧氏距离和K-means聚类算法的空值估计算法容易因为欧氏距离对量纲的敏感性和初始聚类中心对K-means聚类效果的影响产生估值误差。将层次聚类算法和K-means聚类算法有机结合起来的H-K聚类算法克服了K-means算法对初始聚类中心的敏感性,从而改善了聚类效果。与欧氏距离不同,马氏距离可以避免量纲的影响。为此提出一种改进的空值估计算法,将H-K聚类应用到空值估计算法中进行聚类,在聚类时采用马氏距离代替欧氏距离,在聚类后使用多元线性回归法计算样本中的空值。实验结果表明改进后的空值估计算法使得估计值的绝对误差率(MAER)得到降低。
出处 《计算机光盘软件与应用》 2014年第20期86-88,91,共4页 Computer CD Software and Application
  • 相关文献

参考文献5

二级参考文献14

  • 1庞新生.多重插补处理缺失数据方法的理论基础探析[J].统计与决策,2005,21(02X):12-14. 被引量:19
  • 2西安市统计局.2000-2006年西安市主要统计指标[OB/OL].http://www.xatj.gov.cn/news/ndsj/2007822103354.htm,2008-09-05.
  • 3[1](美)Kish L.抽样调查[M].倪加勋,等译.北京:中国统计出版社,1997.624-625.
  • 4[3](美) Donald B Rubin. Multiple Imputation For Nonresponse In Surveys[ M] . New York :John Wiley & Sons Inc, 1987.15 -23.
  • 5[1]Marco Ramoni,Paola Sebastiani.Robust Bayes classifiers[J].Artificial Intelligence,2001,125(1-2):209-226
  • 6[2]Sameer Agarwal.Learning from incomplete data[OL].http://www.cs.ucsd.edu/user/elkan/254springol/sagarwalrep.pdf,2006
  • 7[3]Zoubin Ghahramani,Michael I Jordan.Learning from incomplete data[R].MIT Center for Biological and Computational Learning,Tech Rep:AIM-1509,1994
  • 8[4]R J A Little,D B Rubin.Statistical Analysis with Missing Data[M].Wiley Series in Probability and Mathematical Statistics.New York:Wiley and Sons,1987
  • 9[6]J W Grzymala-Busse,M Fu.A comparison of several approaches to missing attribute values in data mining[C].In:Proc of the 2nd Int'l Conf on Rough Sets and Current Trends in Computing.Berlin:Springer-Verlag,2000.378-385
  • 10[7]David Heckerman.Bayesian networks for data mining[G].In:Data Mining and Knowledge Discovery.Berlin:Springer,1997.79-119

共引文献37

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部