基于改进预测强度的大数据K-均值聚类方法被引量：1

A Large Data Clustering Method Based on Improved Prediction Strength

下载PDF

导出

摘要为了降低偶然因素的影响,提出了一种基于改进预测强度的大数据K-均值聚类方法,其基本思想是:首先将数据集若干等分,每一等分轮流作为测试集,取其平均预测强度,然后根据预测强度确定聚类数和聚类变量,再用K-均值聚类方法对数据集进行聚类。用上述方法研究了访客在某网站各栏目的平均停留时间,结果表明,基于预测强度的聚类方法较常规聚类方法更适宜于大数据的聚类分析。 In order to reduce the influence of accidental factor,a large data K-means clustering method based on improved prediction strength is put forward.The basic idea of method is that first data set is divided into equal parts,and each part is set up test set in turn.The average strength prediction is computed,and clustering number is determined according to the strength prediction,then K-means clustering method is applied for data set.By means of the above method,the average residence time of the visitors in a website is studied.The results show that the clustering method based on the prediction strength is more suitable for the cluster analysis of large data.

作者蔡洪山许峰

机构地区安徽理工大学计算机学院安徽理工大学理学院

出处《软件导刊》 2016年第5期4-6,共3页 Software Guide

基金安徽省教育厅自然科学基金项目(2014KB236)

关键词大数据 K-均值聚类预测强度网站栏目关注度 Big Data K-Means Clustering Prediction Strength Website Column Access Analysis

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献5

1卞亦文.大样本数据聚类的改进方法[J].统计与决策,2009,25(1):12-13. 被引量：5
2陈丽敏,杨静,张健沛.一种基于加速迭代的大数据集谱聚类方法[J].计算机科学,2012,39(5):172-176. 被引量：7
3陈思慧.基于MIP和改进模糊K-Means算法的大数据聚类设计[J].计算机测量与控制,2014,22(4):1270-1272. 被引量：4
4古凌岚.面向大数据集的有效聚类算法[J].计算机工程与设计,2014,35(6):2183-2187. 被引量：7
5ROBERT TIBSHIRANI. Cluster validation by predication strength [J]. 2001. http://citeseerx, ist. psu. edu/viewdoc/summary? Doi = 10.1.1.24. 2960.

二级参考文献45

1胡建军,唐常杰,段磊,左劼,彭京,元昌安.基因表达式编程初始种群的多样化策略[J].计算机学报,2007,30(2):305-310. 被引量：44
2Mac Queen J. Some Methods for Classification and Analysis of Multivariate Observations[J]. Proceeding of the 5th Berkeley Symposium on Mathematics Statistic Problem, 1967, (1).
3Huang Z. Extensions to The K-means Algorithm for Clustering Large Data Set with Categorical Values [J]. Data Mining and Knowledge Discovery,1998,(2).
4Dubes R C,Jain A K.Validity Studies in Clustering Methodologies[J]. Pattern Recognition, 1979, 12(11).
5Siddheswar Ray, Rose H. Tuff. Determination of Number of Clusters in K-Means Clustering and Application in Color Image Segmentation[J]. ICAPRDT'99, Calcutta,India,1999,(12).
6Tsunenori Ishioka. Extended K-means with an Efficient Estimation of the Number of Clusters[J]. Proceedings of the Second International Conference on Intelligent Data Engineering and Automated Learning (IDEAL 2000), Hong Kong, China, 2000.
7Pal N R and J. C. Bezdek. On Cluster Validity for the Fuzzy cmeans Model[J]. IEEE Transaction on Fuzzy Systems,1995.
8Moguerza J M, Munoz A, Martin-Merino M. Detecting the Number of Clusters Using a Support Vector Machine Approach[J]. International Conference on Artificial Neural Networks-ICANN,2002.
9Von Luxburg U. A tutorial on spectral clustering[R]. TR-149. Max Planck Institute for Biological Cybernetics, 2006.
10Shi J, Malik J. Normalized cuts and image segmentation [J]. IEEE Transactions on Pattern Analysis and Machine Intelli- gence,2000,22(8) :888-905.

共引文献17

1郑帅,吕芳.模糊K-means算法在临床路径决策中的应用[J].辽宁师专学报（自然科学版）,2019,21(3):81-88. 被引量：3
2张丽娜,周润景,那日苏.基于黄金分割法的ISODATA算法的大样本特征数据提取方法[J].内蒙古大学学报（自然科学版）,2013,44(1):93-96. 被引量：2
3张丽娜,姜新华,那日苏.基于改进的ISODATA算法的大样本数据聚类方法研究[J].内蒙古农业大学学报（自然科学版）,2013,34(1):133-137. 被引量：5
4王灿田,孙玉宝,刘青山.基于稀疏重构的超图谱聚类方法[J].计算机科学,2014,41(2):145-148. 被引量：2
5陈思慧.基于MIP和改进模糊K-Means算法的大数据聚类设计[J].计算机测量与控制,2014,22(4):1270-1272. 被引量：4
6阮梦黎.基因表达式编程的种群多样性优化策略与应用[J].山东师范大学学报（自然科学版）,2015,30(3):58-62. 被引量：1
7杨龙光,吴晶妹.基于统计的聚类模型构建研究[J].统计与决策,2015,31(17):28-31. 被引量：1
8卢威,戴文娟,黄雅馨,张峰,陈靓瑜.面向表层海水温度的时空数据挖掘研究[J].海洋信息,2015,30(3):9-15.
9党耀国,侯荻青.基于特征提取的多指标面板数据聚类方法[J].统计与决策,2016,32(19):68-72. 被引量：18
10王振辉,夏鸿斌.模糊加权多视角可能性聚类算法[J].计算机应用与软件,2017,34(4):294-298. 被引量：4

同被引文献9

1唐东明.基于Hadoop的仿射传播大数据聚类分析方法[J].计算机工程与应用,2015,51(4):29-34. 被引量：8
2武霞,董增寿,孟晓燕.基于大数据平台hadoop的聚类算法K值优化研究[J].太原科技大学学报,2015,36(2):92-96. 被引量：11
3周国兵,吴建鑫,周嵩.一种基于近邻表示的聚类方法[J].软件学报,2015,26(11):2847-2855. 被引量：11
4钱晓东,曹阳.基于社区极大类发现的大数据并行聚类算法[J].南京理工大学学报,2016,40(1):117-123. 被引量：6
5张宇.基于极值特征的雷达侦察数据BIRCH聚类方法[J].电子设计工程,2016,24(9):15-18. 被引量：8
6司福明,卜天然.一种基于Hadoop云计算平台大数据聚类算法设计[J].楚雄师范学院学报,2016,31(3):49-55. 被引量：6
7于洪,毛传凯.基于k-means的自动三支决策聚类方法[J].计算机应用,2016,36(8):2061-2065. 被引量：17
8郭晨晨,朱红康.基于Hadoop MapReduce和粗粒度并行遗传算法的大数据聚类方法改进[J].黑龙江大学工程学报,2016,7(3):87-91. 被引量：3
9王东强,王晓霞.云存储中大数据优化粒子群聚类算法[J].电子设计工程,2017,25(2):26-30. 被引量：13

引证文献1

1屈洁.虚拟环境下大数据智能并行聚类方法研究[J].计算机测量与控制,2017,25(6):257-260. 被引量：4

二级引证文献4

1胡东明,刘旭敏,徐维祥.MapReduce框架下一种负载均衡的Top-k连接查询算法[J].计算机测量与控制,2018,26(8):238-242. 被引量：1
2杨雁莹.大数据背景下的聚类算法的相关研究[J].电脑编程技巧与维护,2019(1):68-71. 被引量：1
3赵云强,韩翼,崔慧茹,郑琳.聚类目标函数下混合属性大数据集分析系统[J].电子设计工程,2020,28(4):73-76. 被引量：3
4万晓燕.基于聚类划分的大数据处理方法研究[J].智库时代,2019,0(39):280-280. 被引量：4

1王品,姚佩阳.二阶多智能体系统快速一致性协议[J].华中科技大学学报（自然科学版）,2017,45(1):57-62. 被引量：2
2尹旭日,周志华,何佳洲,陈世福.一种基于Rough集理论的数据过滤方法[J].计算机研究与发展,2000,37(9):1082-1086. 被引量：13
3安爱芬.一种加速的k-均值聚类方法[J].韶关学院学报,2012,33(12):15-18. 被引量：1
4张莉,孙钢,郭军.基于K-均值聚类的无监督的特征选择方法[J].计算机应用研究,2005,22(3):23-24. 被引量：29
5孙德山,李海清.基于线性规划的支持向量聚类算法[J].计算机工程与设计,2010,31(6):1305-1307. 被引量：2
6王晓东,田俊.聚类分析分类结果合理性考核方法[J].数学的实践与认识,2008,38(20):110-113. 被引量：1
7盛靖友,张洪伟.基于预测强度的变量自动加权K-Means算法的研究与应用[J].四川理工学院学报（自然科学版）,2016,29(2):25-29. 被引量：1
8李兴生,李德毅.一种基于云模型的决策表连续属性离散化方法[J].模式识别与人工智能,2003,16(1):33-38. 被引量：30
9孟文清,牛建广.基于BP神经网络的改性废灰砖强度预测[J].山西建筑,2006,32(19):1-2. 被引量：1
10李斌.数据备份轻松搞定[J].互联网天地,2005(5):46-47.

软件导刊

2016年第5期

浏览历史

内容加载中请稍等...

基于改进预测强度的大数据K-均值聚类方法被引量：1

参考文献5

二级参考文献45

共引文献17

同被引文献9

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于改进预测强度的大数据K-均值聚类方法 被引量：1

参考文献5

二级参考文献45

共引文献17

同被引文献9

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于改进预测强度的大数据K-均值聚类方法被引量：1