考虑加权排序的分类数据聚类算法被引量：2

Clustering algorithm of categorical data in consideration of sorting by weight

导出

摘要针对部分聚类算法对数据输入顺序敏感的问题,定义了不干涉序列指数,提出了应用不干涉序列指数对分类数据进行加权排序的方法,并基于该方法对受数据输入顺序影响的CABOSFV C分类数据高效聚类算法进行改进,提出了考虑加权排序的聚类算法(CABOSFV CSW),消除了算法对数据输入顺序的敏感性.采用UCI基准数据集进行实验,发现应用加权升序排序的CABOSFV CSW算法在处理分类数据时,聚类质量较原始CABOSFV C算法和其他受数据输入顺序影响的算法在准确性上有改善,在稳定性上有显著提高. Aimed at solving the problem that part of clustering algorithms are sensitive to the data input order, a non-interference sequence index was defined, and an approach applying the non-interference sequence was proposed to sort categorical data by weight. Based on this approach, a new clustering algorithm considering sorting by weight （CABOSFV_CSW） was presented to improve CABOSFV^C, which is an efficient clustering algorithm for categorical data but sensitive to the data input order. This approach eliminates sensitivity to the data input order. UCI benchmark data sets were used to compare the proposed CABOSFV_CSW algorithm with traditional CABOSFV_C algorithm and other algorithms sensitive to the data input order. Empirical tests show that the new CABOSFV_CSW clustering algorithm for categorical data improves the accuracy and increases the stability effectively.

作者武森王蔷姜敏魏青

机构地区北京科技大学东凌经济管理学院

出处《北京科技大学学报》 EI CAS CSCD 北大核心 2013年第8期1093-1098,共6页 Journal of University of Science and Technology Beijing

基金国家自然科学基金资助项目(71271027) 中央高校基本科研业务费专项(FRF-TP-10-006B)

关键词数据挖掘聚类算法排序分类数据 data mining clustering algorithm sorting categorical data

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1韩凌波,王强,蒋正锋,郝志强.一种改进的k-means初始聚类中心选取算法[J].计算机工程与应用,2010,46(17):150-152. 被引量：92
2武森,王静,谭一松.考虑数据排序的改进CABOSFV聚类[J].计算机工程与应用,2011,47(34):127-129. 被引量：2

二级参考文献10

1Sen Wu,Xuedong Gao Management School, University of Science and Technology Beijing, Beijing 100083, China.CABOSFV algorithm for high dimensional sparse data clustering[J].Journal of University of Science and Technology Beijing,2004,11(3):283-288. 被引量：7
2袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
3Tan Pang-ning,Steinbaeh M,Kumar V.Introduction to data mining[M]. [S.l.] : Addison Wesley, 2005.
4Han Jia-wei,Kamber M.Data mining:Concepts and techniques[M]. [S.l.]:Morgan Kaufmann Publishers,2001.
5刘希宋,喻登科,李玥.基于客户知识的客户CABOSFV聚类[J].情报杂志,2008,27(2):7-9. 被引量：3
6赖玉霞,刘建平.K-means算法的初始聚类中心的优化[J].计算机工程与应用,2008,44(10):147-149. 被引量：74
7杨博,刘大有,LIU Jiming,金弟,马海宾.复杂网络聚类方法[J].软件学报,2009,20(1):54-66. 被引量：207
8单世民,王新艳,张宪超.高维分类属性的子空间聚类算法[J].小型微型计算机系统,2009,30(10):2016-2021. 被引量：6
9姚忠,魏佳,吴跃.基于高维稀疏数据聚类的协同过滤推荐算法[J].信息系统学报,2008,2(2):78-96. 被引量：8
10马帅,王腾蛟,唐世渭,杨冬青,高军.一种基于参考点和密度的快速聚类算法[J].软件学报,2003,14(6):1089-1095. 被引量：108

共引文献92

1吴东飞,金玉龙,蒋建国.基于TMS320DM6467和TMS320C6472的高清视频处理系统[J].数据采集与处理,2012,27(S2):227-234.
2杨会锋,曹洁,帅立国.基于改进K-均值聚类算法的背景建模方法[J].电子测量与仪器学报,2010,24(12):1114-1118. 被引量：14
3魏新红,张凯.一种改进的PSO-Means聚类优化算法[J].河南科技大学学报（自然科学版）,2011,32(2):41-43. 被引量：7
4黄敏.聚类算法在教学评价中的应用研究[J].中国电力教育,2011(6):63-64. 被引量：1
5仝雪姣,孟凡荣,王志晓.对k-means初始聚类中心的优化[J].计算机工程与设计,2011,32(8):2721-2723. 被引量：29
6黄敏,何中市,邢欣来,陈英.一种新的k-means聚类中心选取算法[J].计算机工程与应用,2011,47(35):132-134. 被引量：20
7黄芬,朱艳,梁敬东,伍艳莲,姜海燕.优化初始中心点的小麦品质区域聚类[J].计算机工程与应用,2011,47(36):34-37. 被引量：1
8谢娟英,郭文娟,谢维信,高新波.基于样本空间分布密度的初始聚类中心优化K-均值算法[J].计算机应用研究,2012,29(3):888-892. 被引量：53
9陈福集,蒋芳.基于2d-距离改进的K-means聚类算法研究[J].太原理工大学学报,2012,43(2):114-118. 被引量：8
10陈英,何中市,黄敏.一种优化的K-means聚类中心算法研究[J].制造业自动化,2012,34(8):19-22. 被引量：5

同被引文献21

1JIANG Sheng-yi,WANG Lian-xi. Unsupervised feature selectionbased on clustering[C] //Proc of the 5th IEEE International Conference on Bio-Inspired Computing:Theories and Applications. 2010:263-270.
2MITRA P,MURTHY C,PAL S. Unsupervised feature selection using similarity[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2002,24(3):301-312.
3IENCO D,MEO R. Exploration and reduction of the feature space by hierarchical clustering[C] //Proc of SIAM Conference on Data Mi-ning. 2008:577-587.
4WITTEN D,TIBSHIRNI R. A framework for feature selection in clustering[J].Journal of the American Statistical Association,2010,105(490):713-726.
5LIU Hua-wen,WU Xin-dong,ZHANG Shi-chao. Feature selection using hierarchical feature clustering[C] //Proc of the 20th ACM International Conference on Information and Knowledge Management. New York:ACM Press,2011:979-984 .
6ZHAO Xi,DENG Wei,SHI Yong. Feature selection with attributes clustering by maximal information coefficient[J].Procedia Compu-ter Science,2013,17:70-79.
7BANDYOPADHYAY S,BHADRA T,MITRA P,et al. Integration of dense subgraph finding with feature clustering for unsupervised feature selection[J].Pattern Recognition Letters,2014,40(4):104-112.
8JIANG Sheng-yi,SONG Xiao-yu,WANG Hui,et al. A clustering-based method for unsupervised intrusion detections[J].Pattern Recognition Letters,2006,27(7):802-810.
9HALL M A. Correlation-based feature selection for categorical and numeric class machine learning[C] //Proc of the 17th International Conference on Machine Learning. 2000:359-366.
10DASH M,LIU Huan. Consistency-based search in feature selection[J].Artificial Intelligence,2003,151(1-2):155-176.

引证文献2

1王连喜,蒋盛益.一种基于特征聚类的特征选择方法[J].计算机应用研究,2015,32(5):1305-1308. 被引量：20
2詹岑,董辉,徐型平.基于视频数据治理技术的社区安全管控应用浅析[J].警察技术,2019,0(6):15-18.

二级引证文献20

1王辉,王晗.基于遗传算法和近邻分类器识别率的特征选择方法[J].林业机械与木工设备,2015,43(9):26-27. 被引量：1
2董兰芳,巢中迪.一种拟合聚类结果的特征重要性评价方法[J].小型微型计算机系统,2016,37(6):1284-1288.
3黄章树,叶志龙.基于改进的CHI统计方法在文本分类中的应用[J].计算机系统应用,2016,25(11):136-140. 被引量：13
4林伟.中文微博舆情分类中一种改进的特征选择方法[J].中国人民公安大学学报（自然科学版）,2017,23(2):72-75. 被引量：1
5胡峰,杨梦.基于特征聚类的封装特征选择算法[J].计算机工程与设计,2018,39(1):230-237. 被引量：3
6胡敏杰,郑荔平,唐莉,林耀进.联合谱聚类与邻域互信息的特征选择算法[J].模式识别与人工智能,2017,30(12):1121-1129. 被引量：12
7曾碧,黄文.一种融合多特征聚类集成的室内点云分割方法[J].计算机工程,2018,44(3):281-286. 被引量：8
8李丽媛,江国华.一种面向软件缺陷预测的特征聚类选择方法[J].计算技术与自动化,2018,37(2):126-131. 被引量：3
9徐冠华,赵景秀,杨红亚,刘爽.文本特征提取方法研究综述[J].软件导刊,2018,17(5):13-18. 被引量：16
10王伟,徐文彦.基于单信息初始搜索的特征选择方法研究[J].河南科学,2018,36(10):1511-1515.

1武森,叶俞飞,俞晓莉.拓展集合差异度高维数据聚类[J].计算机应用研究,2011,28(9):3253-3255.
2杨中,李国庆,于文洋,解吉波,颜韵旋.基于CSW的空间资源统一化发现服务设计实现[J].计算机工程与设计,2014,35(5):1816-1822. 被引量：2
3耿晓阳,谢东亮,路召希.基于SWE的无线传感器网络数据目录服务研究与实现[J].软件,2012,33(12):56-61. 被引量：1
4刘希宋,喻登科,李玥.基于客户知识的客户CABOSFV聚类[J].情报杂志,2008,27(2):7-9. 被引量：3
5王东波,朱丹浩.基于CABOSFV聚类算法的汉语词汇类别知识挖掘研究[J].计算机科学,2013,40(7):211-215. 被引量：1
6向浩.DS-CABOSFV流数据聚类算法[J].中国科技成果,2011(16):64-66.
7马莉,刘洪锦.USB技术简介[J].科学与财富,2012(2):6-6. 被引量：1
8高学东,吴玲玉.基于高维聚类技术的中文关键词提取算法[J].中国管理信息化,2011,14(9):23-27. 被引量：2
9徐德,谭维,杨燕,侯天子,黄乐.I-Miner环境下聚类分析算法研究与实现[J].现代计算机,2009,15(2):30-34.
10周畅,朱德森.USB CSw对ACPI的支持[J].微型机与应用,2001,20(7):22-25.

北京科技大学学报

2013年第8期

浏览历史

内容加载中请稍等...

考虑加权排序的分类数据聚类算法被引量：2

参考文献2

二级参考文献10

共引文献92

同被引文献21

引证文献2

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

考虑加权排序的分类数据聚类算法 被引量：2

参考文献2

二级参考文献10

共引文献92

同被引文献21

引证文献2

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

考虑加权排序的分类数据聚类算法被引量：2