一种面向数据缺失问题的K-means改进算法被引量：5

An improved K-means algorithm for the data-missing problem

下载PDF

导出

摘要文章针对聚类分析中部分数据缺失问题,提出了一种改进的K均值聚类算法,即改变原算法中计算每个数据到各簇距离的度量方法和新中心点生成方法,从而屏蔽空值数据的影响;通过选择UCI中Iris数据集,随机抽空部分数据进行测试表明,该算法可直接对存在数据空缺的数据集合进行聚类分析,并能有效屏蔽数据空缺对聚类结果的影响。 In this paper, an improved K-means clustering algorithm is presented to solve the data-missing problem in clustering analysis. The improved algorithm can reduce the disturbance of missing data through changing the method of measuring distance and generating new centers. In the experiment, original Iris data from UCI are used and some of them removed randomly. The result shows that this algorithm can analyze data sets with missing data directly and reduce the disturbance of missing data to the result of clustering effectively.

作者张建民姚亮胡学钢

机构地区合肥工业大学计算机与信息学院

出处《合肥工业大学学报（自然科学版）》 CAS CSCD 北大核心 2008年第9期1455-1457,共3页 Journal of Hefei University of Technology：Natural Science

关键词聚类分析 K-MEANS算法数据缺失 clustering analysis K-means algorithm data missing

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1钱卫宁,周傲英.从多角度分析现有聚类算法(英文)[J].软件学报,2002,13(8):1382-1394. 被引量：86
2宋宇辰,张玉英,孟海东.一种基于加权欧氏距离聚类方法的研究[J].计算机工程与应用,2007,43(4):179-180. 被引量：36
3王清毅,蔡智,邹翔,蔡庆生.部分数据缺失环境下的知识发现方法[J].软件学报,2001,12(10):1516-1524. 被引量：18
4陆勤,蔡庆生.一种基于约束的空缺数据预处理算法[J].计算机工程与应用,2004,40(5):196-199. 被引量：2
5李桂林,陈晓云.关于聚类分析中相似度的讨论[J].计算机工程与应用,2004,40(31):64-65. 被引量：26

二级参考文献48

1李桂林,陈晓云.关于聚类分析中相似度的讨论[J].计算机工程与应用,2004,40(31):64-65. 被引量：26
2Jhah等著范明等译.数据挖掘:概念和技术[M].北京:机械工业出版社,2001-08..
3WH普雷斯等著王璞等译.数值方法大全-科学计算的艺术[M].兰州大学出版社,1991..
4[1]Fasulo, D. An analysis of recent work on clustering algorithms. Technical Report, Department of Computer Science and Engineering, University of Washington, 1999. http://www.cs.washington.edu.
5[2]Baraldi, A., Blonda, P. A survey of fuzzy clustering algorithms for pattern recognition. IEEE Transactions on Systems, Man and Cybernetics, Part B (Cybernetics), 1999,29:786～801.
6[3]Keim, D.A., Hinneburg, A. Clustering techniques for large data sets - from the past to the future. Tutorial Notes for ACM SIGKDD 1999 International Conference on Knowledge Discovery and Data Mining. San Diego, CA, ACM, 1999. 141～181.
7[4]McQueen, J. Some methods for classification and Analysis of Multivariate Observations. In: LeCam, L., Neyman, J., eds. Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability. 1967. 281～297.
8[5]Zhang, T., Ramakrishnan, R., Livny, M. BIRCH: an efficient data clustering method for very large databases. In: Jagadish, H.V., Mumick, I.S., eds. Proceedings of the 1996 ACM SIGMOD International Conference on Management of Data. Quebec: ACM Press, 1996. 103～114.
9[6]Guha, S., Rastogi, R., Shim, K. CURE: an efficient clustering algorithm for large databases. In: Haas, L.M., Tiwary, A., eds. Proceedings of the 1998 ACM SIGMOD International Conference on Management of Data. Seattle: ACM Press, 1998. 73～84.
10[7]Beyer, K.S., Goldstein, J., Ramakrishnan, R., et al. When is 'nearest neighbor' meaningful? In: Beeri, C., Buneman, P., eds. Proceedings of the 7th International Conference on Data Theory, ICDT'99. LNCS1540, Jerusalem, Israel: Springer, 1999. 217～235.

共引文献159

1刘英林,陈玉柱,丁文静,程红云.钢卷表面缺陷分布特征发现方法研究[J].冶金自动化,2020,44(1):27-31. 被引量：2
2毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
3李华,贾雪.基于FM度量的自适应K-Means聚类的工业生产运行基准挖掘[J].长春大学学报,2022,32(4):22-27.
4Qi Zhang,Jianshe Cao,Yanfeng Sui.Development of a research platform for BEPCⅡ accelerator fault diagnosis[J].Radiation Detection Technology and Methods,2020,4(3):269-276.
5谢川,倪世宏,张宗麟.基于支持向量机的缺失飞行参数预测方法[J].弹箭与制导学报,2004,24(S2):350-352. 被引量：1
6郭景峰,赵玉艳,边伟峰,李晶.基于改进的凝聚性和分离性的层次聚类算法[J].计算机研究与发展,2008,45(z1):202-206. 被引量：15
7李斌,刘苏洋,李春洪,谢涌纹.探索性仿真实验仿真想定空间筛选[J].火力与指挥控制,2012,37(S1):142-145. 被引量：4
8王建会,申展,胡运发.一种实用高效的聚类算法[J].软件学报,2004,15(5):697-705. 被引量：26
9张虎,郑家恒,刘江.语料库词性标注一致性检查方法研究[J].中文信息学报,2004,18(5):11-16. 被引量：9
10杨涛,李龙澍.一种基于粗糙集聚类的数据约简算法[J].系统仿真学报,2004,16(10):2195-2197. 被引量：5

同被引文献47

1崔林,宋瀚涛,龚永罡,陆玉昌.基于Web使用挖掘的个性化服务技术研究[J].计算机系统应用,2005,14(3):23-26. 被引量：7
2吕艳丽.基于Web使用挖掘的图书馆个性化系统研究[J].图书馆学刊,2006,28(4):135-137. 被引量：1
3贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：228
4Mobasher B, Cooley R, Srivastava J. Automatic personaliza- tion based on Web usage mining[J]. Communication of the ACM, 2000,43(8):142--151.
5Lazcorreta E, Botella F, Fernaindez-Caballero A. Towards personalized recommendation by two-step modified Apriori data mining algorithm [J]. Expert Systems with Applica- tions, 2008,35 (3): 1422--1429.
6Tug E, Skiroglu M, Arslan A. Automatic discovery of the sequential accesses from Web log data files via a genetic al- gorithm [ J]. Knowledge-Based Systems, 2006, 9 ( 3 ) : 180--186.
7Wang Shuqing,She Li, Liu Zhen, et al. Algorithm research on user interests extracting via Web log data[C]//2009 In- ternational Conference on Web Information Systems and Mining,WISM 2009,2009: 93--97.
8Zaiane O R, Xin Man, Han J iaweil. Discovering Web access patterns and trends by applying OLAP and data mining technology on Web logs[C]//Proceedings of the 1998 IEEE Forum on Research and Technology Advances in Digital Li- hrariea. ADL:1998: 19--29.
9刘业政,焦宁,姜元春.连续属性离散化算法比较研究[J].计算机应用研究,2007,24(9):28-30. 被引量：20
10张娜,何建民.基于项目与客户聚类的协同过滤推荐方法[J].合肥工业大学学报（自然科学版）,2007,30(9):1159-1162. 被引量：10

引证文献5

1周锐,胡学钢.基于聚类的决策树连续属性离散化改进算法[J].微计算机信息,2011,27(6):183-184. 被引量：1
2唐秋鸿,曹红兵,唐小新,李高虎,高嵩.基于Web挖掘的图书馆个性化服务系统研究[J].合肥工业大学学报（自然科学版）,2012,35(2):184-188. 被引量：7
3闫新庆,王换换,栗青霞,傅喆.基于改进K-Means聚类的煤炭交易者信誉度划分[J].计算机工程与应用,2014,50(2):231-236. 被引量：1
4赵霞,张勇,尹宝才,刘浩,张可.基于改进k~*-means算法的不完整公交到站时间填充[J].北京工业大学学报,2018,44(1):135-143. 被引量：3
5王成,崔紫薇,杜梓林,高悦尔.基于DBSCAN算法和多源数据的缺失公交到站数据修补[J].计算机应用,2019,39(11):3184-3190. 被引量：4

二级引证文献16

1李琳.智慧图书馆个性化服务发展现状及优化方向探究[J].传媒论坛,2023,6(16):112-114. 被引量：4
2陈清文,廖学斌.基于Web网络的教学参考资源定制系统的设计与实现[J].中国教育信息化（高教职教）,2013(2):36-38. 被引量：1
3张兴旺,黄晓斌.图书情报学视角下Web挖掘研究述评[J].图书情报工作,2014,58(4):117-126. 被引量：2
4张黄.刍议数据挖掘功能在图书馆个性化服务系统中的应用[J].湖北函授大学学报,2014,27(7):82-83. 被引量：2
5薄利军,夏文杰,闫新庆.基于贝叶斯概率的煤炭销售推荐[J].电子科技,2014,27(9):33-36.
6李根,樊龙,万定生,余宇峰.基于Map/Reduce的决策树分类挖掘方法应用研究[J].计算机与数字工程,2016,44(8):1504-1510. 被引量：4
7李庆华,洪丽平,关庆娟,杨燕梅.基于新技术的图书馆个性化服务应用模式的探讨[J].福建电脑,2018,34(1):73-74.
8陈禹默,宋剑萍.同城物流配送车辆调度问题研究——以西安飞雕电器为例[J].甘肃科学学报,2018,30(5):142-147. 被引量：3
9王成,崔紫薇,杜梓林,高悦尔.基于DBSCAN算法和多源数据的缺失公交到站数据修补[J].计算机应用,2019,39(11):3184-3190. 被引量：4
10高峥,徐震.基于多元回归KNN的油田缺失数据填充方法[J].信息技术,2020,44(4):79-83. 被引量：9

1李亢,李新明,刘东.多源异构装备数据集成研究综述[J].中国电子科学研究院学报,2015,10(2):162-168. 被引量：15
2张峰,邵秀丽,李耀芳.基于Web Service的异构集成查询方案[J].计算机工程,2009,35(12):50-53.
3冯文超.基于XML的数据中心网络统一配置方法[J].自动化与仪器仪表,2017(2):119-121. 被引量：1
4李争,黄静宾.数据访问设计模式的应用研究[J].微计算机应用,2010,31(10):36-40. 被引量：2
5陈昕,高明,宋瀚涛.基于语义对象模型的无结构化数据集成的研究[J].计算机工程与应用,2003,39(5):200-201. 被引量：7
6为机器人安全地传输数据[J].国内外机电一体化技术,2010(9):56-56.
7王舒.面向对象技术的应用及发展[J].上海微型计算机,1997(10):37-37.
8何保锋,孙洪伟.基于本体和树形结构的语义信息集成方法[J].科学技术与工程,2013,21(9):2387-2392.
9冯建周,宋沙沙,孔令富.物联网语义关联和决策方法的研究[J].自动化学报,2016,42(11):1691-1701. 被引量：8
10企业让用户数据面临风险[J].网络运维与管理,2013(11):7-7.

合肥工业大学学报（自然科学版）

2008年第9期

浏览历史

内容加载中请稍等...

一种面向数据缺失问题的K-means改进算法被引量：5

参考文献5

二级参考文献48

共引文献159

同被引文献47

引证文献5

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

一种面向数据缺失问题的K-means改进算法 被引量：5

参考文献5

二级参考文献48

共引文献159

同被引文献47

引证文献5

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

一种面向数据缺失问题的K-means改进算法被引量：5