一种不完备混合数据集成聚类算法被引量：20

A Clustering Ensemble Algorithm for Incomplete Mixed Data

下载PDF

导出

摘要集成聚类技术由于具有较好的泛化能力,目前引起了研究者的高度关注.已有研究主要关注数值型完备数据的集成聚类问题.然而,实际应用中面临的数据往往是兼具数值属性和分类属性共同描述的混合型数据,而且通常带有缺失值.为此,针对不完备混合数据提出了一种集成聚类算法,首先利用3种缺失值填充方法对不完备混合数据进行完备化处理;其次在3种填充后的不同完备数据集上分别多次执行K-Prototypes算法产生基聚类结果;最后对基聚类结果进行集成.在UCI真实数据集上与传统聚类算法通过实验进行了比较分析,实验结果表明提出的算法是有效的. Cluster ensembles have recently emerged a powerful clustering analysis technology and caught high attention of researchers due to their good generalization ability. From the existing work, these techniques held great promise, most of which generate the final results for complete data sets with numerical attributes. However, real life data sets are usually incomplete mixed data described by numerical and categorical attributes at the same time. And these existing algorithms are not very effective for an incomplete mixed data set. To overcome this deficiency, this paper proposes a new clustering ensemble algorithm which can be used to ensemble final clustering results for mixed numerical and categorical incomplete data. Firstly, the algorithm conducts completion of incomplete mixed data using three different missing value filling methods. Then, a set of clustering solutions are produced by executing K-Prototypes clustering algorithm on three different kinds of complete data sets multiple times, respectively. Next, a similarity matrix is constructed by considering all the clustering solutions. After that, the final clustering result is obtained by hierarchical clustering algorithms based on the similarity matrix. The effectiveness of the proposed algorithm is empirically demonstrated over some UCI real data sets and three benchmark evaluation measures. The experimental results show that the proposed algorithm is able to generate higher clustering quality in comparison with several traditional clustering algorithms.

作者史倩玉梁吉业赵兴旺

机构地区山西大学计算机与信息技术学院计算智能与中文信息处理教育部重点实验室(山西大学)

出处《计算机研究与发展》 EI CSCD 北大核心 2016年第9期1979-1989,共11页 Journal of Computer Research and Development

基金国家自然科学基金重点项目(61432011) 国家自然科学基金项目(61573229 61502289) 山西省科技基础条件平台建设项目(2012091002-0101) 山西省自然科学基金项目(201601D202039) 山西省研究生教育创新项目(2016SY002)~~

关键词集成聚类不完备数据混合数据缺失值填充 K原型聚类算法 clustering ensemble incomplete data mixed data missing value imputation K-Prototypesclustering algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献19

1Han Jiawei, Kamber M, Pei Jian. Data Mining Concepts and Techniques [M]. 3rd ed. San Francisco, CA Morgan Kaufmann, 2011.
2孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1072
3Xo Rui, Wunsch D. Survey of clustering algorithm [J]. IEEE Trans on Neural Networks, 2005, 16(3) 645-678.
4Strehl A, Ghosh J. Cluster ensembles.. A knowledge reuse {ramework {or combining multiple partitions [J]. Journal of Machine Learning Research, 2002, 3: 583-617.
5Fred A L, Jaln A K. mbining multiple elusterings using evidence accumulation [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2005, 27(6) 8315-850.
6lain-On N, ongoen T. Comparative study of matrix refinement approaches for ensemble clustering [J], Machine Learning, 2015,. 98(1.[2) 69-300.
7Ghosh J, Acharya A. Cluster ensembles[J]. Wiley InterdisCiplinary Reviews: Data Mining and Knowledge Discovery, 2011, 1(4): 305-315.
8He Zengyou, Xu xiao][ei, Deng Shengchun. Clustering mixed numeric and categorical data: A duster ensemble approach [OL]. ArXiv es/050901t, 2005:1-14 [2015-09-08]. http:// arxiv, org/ahs/cs[050901].
9Shaqsi J, Wang Wenjia. A clustering ensemble method for clustering mixed data [C] //Proe of the Int Joint Conf on Neural Networks. Piseataway, N J: IEEE, 2010 1-8.
10罗会兰,危辉.一种基于聚类集成技术的混合型数据聚类算法[J].计算机科学,2010,37(11):234-238. 被引量：6

二级参考文献20

1李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：114
2[1]Marco Ramoni,Paola Sebastiani.Robust Bayes classifiers[J].Artificial Intelligence,2001,125(1-2):209-226
3[2]Sameer Agarwal.Learning from incomplete data[OL].http://www.cs.ucsd.edu/user/elkan/254springol/sagarwalrep.pdf,2006
4[3]Zoubin Ghahramani,Michael I Jordan.Learning from incomplete data[R].MIT Center for Biological and Computational Learning,Tech Rep:AIM-1509,1994
5[4]R J A Little,D B Rubin.Statistical Analysis with Missing Data[M].Wiley Series in Probability and Mathematical Statistics.New York:Wiley and Sons,1987
6[6]J W Grzymala-Busse,M Fu.A comparison of several approaches to missing attribute values in data mining[C].In:Proc of the 2nd Int'l Conf on Rough Sets and Current Trends in Computing.Berlin:Springer-Verlag,2000.378-385
7[7]David Heckerman.Bayesian networks for data mining[G].In:Data Mining and Knowledge Discovery.Berlin:Springer,1997.79-119
8[8]Nir Friedman,Dan Geiger,Moises Goldszmidt.Bayesian network classifiers[J].Machine Learning,1997,29(2-3):131-163
9Mckusick K B,Thompson K.COBWEB/3:A portable imple-mentation. FIA-90-6-182 . 1990
10Reich Y,,Fenves S.The formation and use of abstract concepts in design Concept Formation:Knowledge and Experience in Un-supervised Learning[]..1991

共引文献1147

1丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
2王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85.
3林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
4高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
5毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
6张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：3
7李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
8尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56.
9段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
10何睿,余娜,李淼,张峻巍,王浩杰,赵玉茗.基于单细胞RNA测序数据的细胞类型聚类算法[J].智能计算机与应用,2020,10(7):104-108. 被引量：2

同被引文献98

1李武翰,魏东兴,王建国,刘军民.基于BP网络和多抽样率处理的缺失音频信号恢复方法[J].大连理工大学学报,2004,44(5):729-732. 被引量：2
2唐伟,周志华.基于Bagging的选择性聚类集成[J].软件学报,2005,16(4):496-502. 被引量：95
3孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1072
4任玉珑,史乐峰,张谦,韩维建,黄守军.电动汽车充电站最优分布和规模研究[J].电力系统自动化,2011,35(14):53-57. 被引量：111
5吴伟志,米据生,李同军.无限论域中的粗糙近似空间与信任结构[J].计算机研究与发展,2012,49(2):327-336. 被引量：5
6于彦伟,王沁,邝俊,何杰.一种基于密度的空间数据流在线聚类算法[J].自动化学报,2012,38(6):1051-1059. 被引量：28
7李丹,顾宏,张立勇.基于属性加权的不完全数模糊c均值聚类算法[J].大连理工大学学报,2012,52(5):749-754. 被引量：5
8武森,冯小东,单志广.基于不完备数据聚类的缺失数据填补方法[J].计算机学报,2012,35(8):1726-1738. 被引量：62
9周星宇,王阜存,曹红.多媒体CAI技术在体育教学中的应用研究[J].北京体育大学学报,2000,23(2):245-246. 被引量：148
10庞新生.缺失数据插补处理方法的比较研究[J].统计与决策,2012,28(24):18-22. 被引量：40

引证文献20

1袁浩.网络教学资源利用率优化管理仿真研究[J].计算机仿真,2017,34(10):221-224. 被引量：8
2裴卫杰,庞天杰.一种基于动态填充的不完备数据聚类算法[J].太原师范学院学报（自然科学版）,2018,17(1):50-55. 被引量：3
3吴伟志,杨丽,谭安辉,徐优红.广义不完备多粒度标记决策系统的粒度选择[J].计算机研究与发展,2018,55(6):1263-1272. 被引量：21
4李文,张林郁.智能型医疗器械产品并行开发数据集成仿真[J].计算机仿真,2018,35(8):357-360. 被引量：1
5刘克铜,赵江招,孙海英.智慧教育体系中的多媒体教学技术分析[J].电脑知识与技术,2019,15(2Z):151-152. 被引量：2
6徐晓,丁世飞,孙统风,廖红梅.基于网格筛选的大规模密度峰值聚类算法[J].计算机研究与发展,2018,55(11):2419-2429. 被引量：24
7武时龙.海量异构电子商务信息的集成算法研究[J].滁州学院学报,2019,21(5):71-74.
8李峰,李明祥,张宇敬.局部迭代的快速K-means聚类算法[J].计算机工程与应用,2020,56(13):63-71. 被引量：9
9施虹,杨鑫,王平心.改进的均值插补不完备数据聚类算法[J].江苏科技大学学报（自然科学版）,2020,34(4):51-56. 被引量：9
10毕春光,逄锦秀,袁帅,皇可.关联数据信息深度摘取中的核心特征聚类仿真[J].计算机仿真,2020,37(9):312-316.

二级引证文献138

1於立峰,胡凯波,夏志凌,沙建飞.基于改进Lightgbm的CPS网络攻击识别模型[J].系统仿真技术,2022,18(1):23-27. 被引量：2
2金铭,陈锦坤,孙亚超.基于边界域条件熵的最优尺度约简[J].南京大学学报（自然科学版）,2023,59(6):1034-1047.
3吴伟志.多粒度粗糙集数据分析研究的回顾与展望[J].西北大学学报（自然科学版）,2018,48(4):501-512. 被引量：9
4王文双,刘崇屹,许才雄,朱桂芳,徐廷学.导弹故障诊断与预测系统的设计[J].海军航空工程学院学报,2018,33(5):486-492. 被引量：2
5逯海涛.“互联网+”背景下高校会计专业教学改革的研究与实践[J].大众投资指南,2019(2):238-239. 被引量：1
6刘克铜,赵江招,孙海英.智慧教育体系中的多媒体教学技术分析[J].电脑知识与技术,2019,15(2Z):151-152. 被引量：2
7谢迟.基于计算机辅助的舞蹈教学资源管理系统设计[J].现代电子技术,2018,41(16):100-103. 被引量：7
8孟敏.基于审美教育的小学语文教学策略研究[J].华夏教师,2019,0(7):36-37. 被引量：1
9刘岩.多元情境互动教学模式在高中体育教学中的应用研究[J].当代体育科技,2019,9(9):63-64. 被引量：2
10王虹元,宋清滔.汉字笔画教学对小学低年级语文教学的影响[J].小学生作文辅导（读写双赢）,2019,0(6):54-54.

1郑晓东,丁浩.局部一致性集成聚类算法研究[J].计算机应用与软件,2014,31(9):228-230.
2朱长明,李晶,顾国昌,宫滨生,刘海波,沈晶.谱聚类集成的淋巴结超声图像分割算法[J].计算机辅助设计与图形学学报,2009,21(10):1480-1486. 被引量：4
3刘星毅,农国才.几种不同缺失值填充方法的比较[J].南宁师范高等专科学校学报,2007,24(3):148-150. 被引量：8
4张红霞.缺失值填充:基于信息增益的方法[J].计算机工程与设计,2006,27(24):4810-4812. 被引量：8
5覃泽.基于信息增益的数据库缺失值填充算法[J].微计算机信息,2007,23(04X):180-181. 被引量：4
6苏毅娟,孙可,邓振云,尹科军.基于LPP和l_(2,1)的KNN填充算法[J].广西师范大学学报（自然科学版）,2015,33(4):55-62.
7金连,王宏志,黄沈滨,高宏.基于Map-Reduce的大数据缺失值填充算法[J].计算机研究与发展,2013,50(S1):312-321. 被引量：18
8朱曼龙.MkNNI:基于相互最近邻的缺失值填充新方法[J].现代计算机,2012,18(21):8-11. 被引量：3
9赵晖.基于聚类集成的网络入侵检测算法[J].科学技术与工程,2012,20(23):5797-5800. 被引量：4
10马海云,党建武.随机测试用例的优化技术研究[J].自动化与仪器仪表,2009(3):87-90.

计算机研究与发展

2016年第9期

浏览历史

内容加载中请稍等...

一种不完备混合数据集成聚类算法被引量：20

参考文献19

二级参考文献20

共引文献1147

同被引文献98

引证文献20

二级引证文献138

相关作者

相关机构

相关主题

浏览历史

一种不完备混合数据集成聚类算法 被引量：20

参考文献19

二级参考文献20

共引文献1147

同被引文献98

引证文献20

二级引证文献138

相关作者

相关机构

相关主题

浏览历史

一种不完备混合数据集成聚类算法被引量：20