改进的混合属性数据聚类算法被引量：8

Improved clustering algorithm for mixture data sets

下载PDF

导出

摘要 k-prototypes是目前处理数值属性和分类属性混合数据主要的聚类算法,但其聚类结果对初值有明显的依赖性。对k-prototypes初值选取方法进行了分析和研究,提出一种新的改进方法。该方法有更高的稳定性和较强的伸缩性,可减少一定程度的上随机性。实际数据集仿真结果表明,改进算法是正确和有效的。 The k-prototypes algorithm has become popular technique in solving mixed numeric and categorical data clustering problems in different application domains. However, it requires random selection of initial points for the clusters. So it is obvious that outputs are especially sensitive to initial. Different initial points often lead to considerable distinct clustering results. The method of random selection is analysed and a method of searching initial starting points is proposed through grouping data sets. Experiments show that new initialization method leads to better accurate and scalable.

作者赵立江黄永青刘玉龙

机构地区徐州师范大学计算机学院

出处《计算机工程与设计》 CSCD 北大核心 2007年第20期4850-4852,共3页 Computer Engineering and Design

基金国家自然科学基金项目(70171033) 江苏省高校自然科学基础研究基金项目(07KJ520216) 江苏省计算机处理技术重点实验室基金项目(X2100112049811) 徐州师范大学青年科研基金项目(03X1B18)

关键词数据挖掘聚类 k-原型算法混合型数据相异度 data mining clustering k-prototypes mixture data dissimilarity

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1HanJiawei KamberM.Data Mining Concepts and Techniques[M].北京：机械工业出版社,2001..
2Huang Zhexue.Extensions to the k-means algorithm for clustering large data sets with categorical values[J].Data Mining and Knowledge Discovery,1998(2):283-304.
3Daniel Barbara.Using self-similarity to cluster large data sets[J].Data Mining and Knowledge Discovery,2003(7):123-152.
4Dharmendra S Modha,Scott Spangler W.Feature weighting k-means cluytering[J].Machine Learning,2003,52(3):217-237.
5Sun Y,Zhu Q,Chen Z.An iterative initial-points refinement algorithm for categorical data clustering[J].Pattern Recognition Letters,2002,23 (7):875-884.
6Gan G,Yang Z,Wu J.A genetic k-modes algorithm for clustering categorical data[C].Wuhan:Proc of ADMA'05,2005:195-202.
7赵立江.基于数值型和分类型混合属性数据集的聚类算法研究[D].杭州:浙江大学硕士学位论文,2005.
8Blake C,Merz J.UCI repository of machine learning databases[EB/OL].http://www.ics.uci.edu/-mlearn/MLRepository.html.

共引文献12

1朱睿,刘槟.飞机健康管理数据挖掘方法研究[J].中国民航学院学报,2004,22(B06):150-153. 被引量：7
2尹纪龙,李大永,彭颖红.数值仿真结果中知识发现的模糊-粗糙集方法[J].上海交通大学学报,2004,38(9):1448-1452. 被引量：4
3邵虹,张继武,崔文成,孙中原,赵宏.基于图象内容的颅骨缺如自动分析研究[J].中国图象图形学报（A辑）,2003,8(2):214-218. 被引量：4
4徐爱萍,刘德喜.关联规则的下钻研究[J].计算机工程,2006,32(1):87-89.
5高振中,蒋华,刘巍.基于频繁项集的一种关联规则改进方法[J].计算机与现代化,2006(7):53-55. 被引量：1
6王鑫,王洪国,王珺,王金枝.数据挖掘中聚类方法比较研究[J].计算机技术与发展,2006,16(10):20-22. 被引量：22
7杨学兵,张俊.决策树算法及其核心技术[J].计算机技术与发展,2007,17(1):43-45. 被引量：87
8张建萍,刘希玉.基于聚类分析的K-means算法研究及应用[J].计算机应用研究,2007,24(5):166-168. 被引量：124
9卢云彬,曹汉强.基于Hash表的关联规则挖掘算法的改进[J].计算机技术与发展,2007,17(6):12-14. 被引量：10
10徐林章,韩臻,张艳宁.一种基于粗糙集的纳税人属性约简方法[J].微电子学与计算机,2008,25(8):212-215.

同被引文献51

1陈孝新.熵权法在股票市场的应用[J].商业研究,2004(16):139-140. 被引量：9
2蒋盛益,李庆华.一种基于引力的聚类方法[J].计算机应用,2005,25(2):286-288. 被引量：9
3汪加才,朱艺华.模糊K-Prototypes算法中的加权指数研究[J].计算机应用,2005,25(2):348-351. 被引量：4
4冯兴杰,黄亚楼.带约束条件的聚类算法研究[J].计算机工程与应用,2005,41(7):12-14. 被引量：12
5蒋盛益,李庆华,李新.数据流挖掘算法研究综述[J].计算机工程与设计,2005,26(5):1130-1132. 被引量：21
6徐章艳,刘作鹏,杨炳儒,宋威.一个复杂度为max（O（｜C｜｜U｜），O（｜C^2｜U／C｜））的快速属性约简算法[J].计算机学报,2006,29(3):391-399. 被引量：234
7王宇,杨莉.基于凝聚函数的混合属性数据聚类算法[J].大连理工大学学报,2006,46(3):446-448. 被引量：2
8赵宇,李兵,李秀,刘文煌,任守榘.混合属性数据聚类融合算法[J].清华大学学报（自然科学版）,2006,46(10):1673-1676. 被引量：9
9王燕.聚类类别数目自动学习算法研究[J].计算机工程与设计,2007,28(2):252-253. 被引量：6
10HAN Jiawei,KAMBER M.Data mining:concepts and techniques[M].New York:Morgan Kaufmann Puhlishers,2001:251.

引证文献8

1吴天虹,黄德才,翁挺,马晨明.基于维度距离的混合属性密度聚类算法研究[J].浙江工业大学学报,2009,37(4):445-448. 被引量：4
2苏晓珂,兰洋,程耀东,万仁霞.基于约束的混合属性增量聚类算法[J].计算机工程与设计,2010,31(8):1799-1801.
3陈韡,王雷,蒋子云.基于K-prototypes的混合属性数据聚类算法[J].计算机应用,2010,30(8):2003-2005. 被引量：16
4王晓辉,陈昌爱.基于混合属性处理的无监督异常检测[J].福建电脑,2012,28(5):95-97. 被引量：2
5孙浩军,高玉龙,闪光辉,袁婷.基于熵权法的混合属性聚类算法[J].汕头大学学报（自然科学版）,2013,28(4):58-65. 被引量：5
6刘强,邓磊,贾振红,覃锡忠.一种改进的加权K-prototypes算法[J].激光杂志,2014,35(1):18-20. 被引量：5
7杨志勇,江峰,于旭,杜军威.采用离群点检测技术的混合型数据聚类初始化方法[J].智能系统学报,2023,18(1):56-65. 被引量：5
8倪丹,李泽文.基于K-prototypes的混合属性数据聚类算法改进[J].科技创新与应用,2024,14(28):31-34.

二级引证文献33

1纪祥敏,陈秋妹,景林.面向下一代互联网的异常检测模型研究[J].福建电脑,2013,29(1):7-10. 被引量：3
2邵国强,孔铁臣,王涛.ASP.NET随机考试系统的设计与实现[J].福建电脑,2013,29(1):29-29.
3黄树成,李甜,沙爱晖.一种基于图划分的混合属性数据聚类算法[J].计算机应用与软件,2013,30(7):11-13. 被引量：2
4孙浩军,高玉龙,闪光辉,袁婷.基于熵权法的混合属性聚类算法[J].汕头大学学报（自然科学版）,2013,28(4):58-65. 被引量：5
5刘强,邓磊,贾振红,覃锡忠.一种改进的加权K-prototypes算法[J].激光杂志,2014,35(1):18-20. 被引量：5
6高雪,谢仪,侯红卫.基于多指标面板数据的改进的聚类方法及应用[J].浙江工业大学学报,2014,42(4):468-472. 被引量：10
7高翠芳,黄珊维,沈莞蔷,殷萍.基于信息熵加权的协同聚类改进算法[J].计算机应用研究,2015,32(4):1016-1018. 被引量：6
8欧阳浩,戴喜生,王智文,王萌.基于信息熵的粗糙K-prototypes聚类算法[J].计算机工程与设计,2015,36(5):1239-1243. 被引量：4
9欧阳浩,王智文,戴喜生,刘智琦.基于信息增益的模糊K-prototypes聚类算法[J].计算机工程与科学,2015,37(5):1009-1014.
10蔡臣,李晓,赵颖文,陈春燕.川西地区经济发展与农业现代化协同发展研究[J].山西农业科学,2015,43(9):1183-1187. 被引量：2

1郝红英,范礼.工业控制中的仿人智能控制[J].自动化应用,2015(11):36-37. 被引量：1
2王培进,马文明.仿人智能控制原型算法的改进[J].烟台大学学报（自然科学与工程版）,2008,21(1):61-65. 被引量：2
3白天,冀进朝,何加亮,周春光.混合属性数据聚类的新方法[J].吉林大学学报（工学版）,2013,43(1):130-134. 被引量：7
4杨丽,万敏.基于MATLAB的一种改进仿人智能控制器的仿真研究[J].自动化与仪器仪表,2015(3):173-175. 被引量：5
5王晓辉,陈昌爱.基于混合属性处理的无监督异常检测[J].福建电脑,2012,28(5):95-97. 被引量：2
6陈丹,王振华.一种改进的混合属性数据聚类算法[J].电脑知识与技术（过刊）,2010(13):2713-2716. 被引量：1
7陆建江,徐宝文.挖掘典型的语言值关联规则[J].东南大学学报（自然科学版）,2004,34(3):318-321. 被引量：3
8罗忠,柳洪义,王菲,姜杨.基于规则的仿人智能控制方法及其应用[J].控制工程,2009,16(1):83-87. 被引量：5
9柳波,聂幼三,燕继坤.SOM在网络数据分析中的应用研究[J].电信技术研究,2007(4):7-12.
10郭光辉.仿人智能控制算法的现状及趋势[J].安徽职业技术学院学报,2007,6(3):13-15. 被引量：1

计算机工程与设计

2007年第20期

浏览历史

内容加载中请稍等...

改进的混合属性数据聚类算法被引量：8

参考文献8

共引文献12

同被引文献51

引证文献8

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

改进的混合属性数据聚类算法 被引量：8

参考文献8

共引文献12

同被引文献51

引证文献8

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

改进的混合属性数据聚类算法被引量：8