基于马氏距离和H-K聚类的空值估计研究

下载PDF

导出

摘要传统的基于欧氏距离和K-means聚类算法的空值估计算法容易因为欧氏距离对量纲的敏感性和初始聚类中心对K-means聚类效果的影响产生估值误差。将层次聚类算法和K-means聚类算法有机结合起来的H-K聚类算法克服了K-means算法对初始聚类中心的敏感性,从而改善了聚类效果。与欧氏距离不同,马氏距离可以避免量纲的影响。为此提出一种改进的空值估计算法,将H-K聚类应用到空值估计算法中进行聚类,在聚类时采用马氏距离代替欧氏距离,在聚类后使用多元线性回归法计算样本中的空值。实验结果表明改进后的空值估计算法使得估计值的绝对误差率(MAER)得到降低。

作者陈睿进张聪毛宇光

机构地区南京航空航天大学计算机科学与技术学院计算机软件新技术国家重点实验室(南京大学)

出处《计算机光盘软件与应用》 2014年第20期86-88,91,共4页 Computer CD Software and Application

关键词 K-MEANS算法层次聚类 H-K聚类算法马氏距离空值估计

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1金勇进.处理缺失数据中辅助信息的利用[J].统计研究,1998(1):43-45. 被引量：7
2庞新生.缺失数据处理中相关问题的探讨[J].统计与信息论坛,2004,19(5):29-32. 被引量：19
3梁怡.缺失数据的插补调整方法[J].西安文理学院学报（自然科学版）,2009,12(1):74-76. 被引量：1
4Ling Wang Dongmei Fu Qing Li Zhichun Mu.Modelling method with missing values based on clustering and support vector regression[J].Journal of Systems Engineering and Electronics,2010,21(1):142-147. 被引量：2
5乔珠峰,田凤占,黄厚宽,陈景年.缺失数据处理方法的比较研究[J].计算机研究与发展,2006,43(z1):171-175. 被引量：13

二级参考文献14

1庞新生.多重插补处理缺失数据方法的理论基础探析[J].统计与决策,2005,21(02X):12-14. 被引量：19
2西安市统计局.2000-2006年西安市主要统计指标[OB/OL].http://www.xatj.gov.cn/news/ndsj/2007822103354.htm,2008-09-05.
3[1](美)Kish L.抽样调查[M].倪加勋,等译.北京:中国统计出版社,1997.624-625.
4[3](美) Donald B Rubin. Multiple Imputation For Nonresponse In Surveys[ M] . New York :John Wiley & Sons Inc, 1987.15 -23.
5[1]Marco Ramoni,Paola Sebastiani.Robust Bayes classifiers[J].Artificial Intelligence,2001,125(1-2):209-226
6[2]Sameer Agarwal.Learning from incomplete data[OL].http://www.cs.ucsd.edu/user/elkan/254springol/sagarwalrep.pdf,2006
7[3]Zoubin Ghahramani,Michael I Jordan.Learning from incomplete data[R].MIT Center for Biological and Computational Learning,Tech Rep:AIM-1509,1994
8[4]R J A Little,D B Rubin.Statistical Analysis with Missing Data[M].Wiley Series in Probability and Mathematical Statistics.New York:Wiley and Sons,1987
9[6]J W Grzymala-Busse,M Fu.A comparison of several approaches to missing attribute values in data mining[C].In:Proc of the 2nd Int'l Conf on Rough Sets and Current Trends in Computing.Berlin:Springer-Verlag,2000.378-385
10[7]David Heckerman.Bayesian networks for data mining[G].In:Data Mining and Knowledge Discovery.Berlin:Springer,1997.79-119

共引文献37

1田兵.缺失数据的单一插补方法[J].阴山学刊（自然科学版）,2011,25(3):17-19. 被引量：3
2孙凤.微观计量分析中缺失数据的极大似然估计[J].数量经济技术经济研究,2005,22(11):51-56. 被引量：6
3刘桂林,张韻慧,李平,刘雅莉.医药产业科技进步与发展实证分析[J].科技进步与对策,2010,27(10):52-54. 被引量：6
4吴自军.基于回答随机性下的总体均值的估计[J].统计与决策,2010,26(22):31-32.
5沐守宽,周伟.缺失数据处理的期望-极大化算法与马尔可夫蒙特卡洛方法[J].心理科学进展,2011,19(7):1083-1090. 被引量：15
6李建更,郭庆雷,贺益恒.时序基因表达缺失值的加权双向回归估计算法[J].数据采集与处理,2013,28(2):136-140. 被引量：4
7高峰,迟春梅.决策表中属性的重排[J].山东大学学报（工学版）,2013,43(5):6-12.
8戴明锋,金勇进,查奇芬,刘寅飞.二分类Logistic回归插补法及其应用[J].数学的实践与认识,2013,43(21):162-167. 被引量：7
9庞智强,牛成英.非抽样误差函数的构建--基于不完备抽样框下无回答误差的讨论[J].统计与信息论坛,2013,28(12):15-19. 被引量：1
10王帅,邢延,蔡延光,李格人.基于OpenShift的非均衡数据完整性评估[J].电脑编程技巧与维护,2014(2):36-38.

1刘艳红.用模糊聚类和线性回归对数据库空值估计[J].电脑知识与技术,2009,5(10X):8351-8353.
2柴世红,康正军.基于模糊聚类的网站用户分类[J].甘肃科技,2008,24(3):20-22. 被引量：5
3秦福高.一种基于遗传算法改进的蚁群聚类算法[J].福建电脑,2014,30(6):96-98.
4顾榕,王小平,曹立明.一种基于潜在语义分析的查询扩展算法[J].计算机工程与应用,2004,40(18):23-25. 被引量：8
5赵立江.聚类分析在个性化学习中的研究与应用[J].福建电脑,2006(12):13-13. 被引量：2
6战玉彩,刘希玉.基于层次聚类的分类挖掘[J].网络安全技术与应用,2013(1):54-55. 被引量：1
7徐静,蔡琼,喻俊杰.基于模糊聚类的Web日志挖掘的应用研究[J].电脑知识与技术,2006(7):53-54. 被引量：1
8袁正午,邓思兵,李恭伟.基于多元线性回归快速迭代的室内定位方法研究[J].计算机应用研究,2007,24(12):121-122. 被引量：6
9许慧,王正友,杨欢庆.蚁群算法及其聚类应用[J].矿山机械,2007,35(1):114-116. 被引量：5
10吴艳文,胡学钢,王东波.基于特征加权的k-modes聚类应用[J].中国科技信息,2007(16):271-272.

计算机光盘软件与应用

2014年第20期

浏览历史

内容加载中请稍等...

基于马氏距离和H-K聚类的空值估计研究

参考文献5

二级参考文献14

共引文献37

相关作者

相关机构

相关主题

浏览历史