大样本数据聚类的改进方法被引量：5

下载PDF

导出

摘要 K-means算法是处理大样本数据的聚类分析的常用算法之一。该算法的不足之处是聚类的数目k必须事先给定。文章提出应用黄金分割法来度量有关该聚类的有效性,该方法能自动优化确定最佳的聚类个数,以此实现大样本数据的有效聚类;并采用实际数据说明了方法的合理性和有效性。

作者卞亦文

机构地区上海大学悉尼工商学院

出处《统计与决策》 CSSCI 北大核心 2009年第1期12-13,共2页 Statistics & Decision

关键词大样本数据 K-MEANS算法有效性指标黄金分割法

分类号 F224.0 [经济管理—国民经济]

引文网络
相关文献

参考文献8

1Mac Queen J. Some Methods for Classification and Analysis of Multivariate Observations[J]. Proceeding of the 5th Berkeley Symposium on Mathematics Statistic Problem, 1967, (1).
2Huang Z. Extensions to The K-means Algorithm for Clustering Large Data Set with Categorical Values [J]. Data Mining and Knowledge Discovery,1998,(2).
3Dubes R C,Jain A K.Validity Studies in Clustering Methodologies[J]. Pattern Recognition, 1979, 12(11).
4姜园,张朝阳,仇佩亮,戚玉鹏.对聚类算法普遍存在问题的解决办法[J].电路与系统学报,2004,9(3):92-99. 被引量：10
5Siddheswar Ray, Rose H. Tuff. Determination of Number of Clusters in K-Means Clustering and Application in Color Image Segmentation[J]. ICAPRDT'99, Calcutta,India,1999,(12).
6Tsunenori Ishioka. Extended K-means with an Efficient Estimation of the Number of Clusters[J]. Proceedings of the Second International Conference on Intelligent Data Engineering and Automated Learning (IDEAL 2000), Hong Kong, China, 2000.
7Pal N R and J. C. Bezdek. On Cluster Validity for the Fuzzy cmeans Model[J]. IEEE Transaction on Fuzzy Systems,1995.
8Moguerza J M, Munoz A, Martin-Merino M. Detecting the Number of Clusters Using a Support Vector Machine Approach[J]. International Conference on Artificial Neural Networks-ICANN,2002.

二级参考文献68

1刘静,钟伟才,刘芳,焦李成.免疫进化聚类算法[J].电子学报,2001,29(z1):1868-1872. 被引量：43
2钱云涛,谢维信.一种由模糊逻辑神经元网络实现的聚类分析方法[J].西安电子科技大学学报,1995,22(1):1-7. 被引量：12
3Barbara D, Chen P. Using the fractal dimension to cluster datasets [A]. Proceedings of the 6th ACM SIGKDD [C]. Boston, MA., 2000, 260-264.
4Kandogan E. Visualizing multi-dimensional clusters, trends and outliers using star coordinates [A]. Proceedings of the 7th ACM SIGKDD [C]. San Francisco, CA., 2001, 107-116.
5Bezdek J C. Pattern Recognition With Fuzzy Objective Function Algorithms [M]. New York: Plenums Press, 1981, 95-107.
6Pal N R, Bezdek J C. On Cluster Validity for the Fuzzy C-Means Model [J]. IEEE Trans on Fuzzy System, 1995, 3(3): 370-379.
7Engleman L, Hartigan J. Percentage points of a test for clusters [J]. Journal of the American Statistical Association, 1969, 64: 1647-1648.
8Millgan G, Cooper M. An examination of procedures for determining the number of clusters in a data set [J]. Psychometrika, 1985, 50: 159-179.
9史忠植刘少辉郑毅傅伟鹏吴斌.一种基于群体智能的Web文档聚类算法[J].计算机研究与发展,2003,39(11).
10Knorr E, Ng R. Algorithms for mining distance-based outliers in large datasets [A]. Proceedings of the 24h Conference on VLDB [C]. New York, 1998, 392-403.

共引文献9

1李新叶,苑津莎.一种用于Web搜索的高效聚类算法[J].计算机工程,2006,32(20):38-39. 被引量：3
2程汉文,吴乐南.基于星座图和相似性度量的调制方式识别[J].应用科学学报,2008,26(2):111-116. 被引量：13
3陈韬伟,金炜东,陈振兴.基于灰关联分析的雷达辐射源信号盲分类[J].计算机工程与设计,2009,30(20):4686-4689. 被引量：3
4林森.彩色图像的聚类分析在地板砖质量检测中的应用[J].微型电脑应用,2009(11):34-35. 被引量：1
5陈韬伟,金炜东,李杰.基于灰关联测度的分裂式层次聚类算法[J].西南交通大学学报,2010,45(2):296-301. 被引量：6
6陈韬伟,金炜东,李杰.雷达辐射源信号聚类分选算法[J].电路与系统学报,2011,16(3):56-61. 被引量：4
7关欣,孙祥威,何友.基于灰关联度和距离的特征关联算法研究[J].雷达科学与技术,2013,11(4):363-367. 被引量：3
8杨金花,刘显为.K-means算法中k值优化问题研究[J].河南科学,2017,35(9):1388-1395. 被引量：2
9罗仁欢,刘丹丹,李一兵.基于二维直方图加权的高斯核FCM图像分割[J].信息技术,2016,40(12):71-73.

同被引文献29

1张文杰,蒋烈辉.基于MapReduce并行化计算的大数据聚类算法[J].计算机应用研究,2020,37(1):53-56. 被引量：20
2宋巨龙,钱富才.基于黄金分割的全局最优化方法[J].计算机工程与应用,2005,41(4):94-95. 被引量：35
3何霁,滕奇志,罗代升,何小海.一种改进的ISODATA算法及在彩色荧光图像中的应用[J].四川大学学报（自然科学版）,2007,44(3):563-568. 被引量：18
4边肇棋等.模式识别(第二版)[M].北京：清华大学出版社,2000..
5Pal N R and J. C. Bezdek. On Cluster Validity for the Fuzzy c -means Model[ J]. IEEE Transaction on Fuzzy Systems,1995.
6Moguerza J M, Munoz A, Martin - Merino M. Detecting the Number of Clusters Using a Support Vector Machine Approach[J]. International Conference on Artificial Neural Networks- ICANN,2002.
7ROBERT TIBSHIRANI. Cluster validation by predication strength [J]. 2001. http://citeseerx, ist. psu. edu/viewdoc/summary? Doi = 10.1.1.24. 2960.
8WangX, Wirth A, Wang L. Structure-based Statistical Features andMultivariate Time Series Clustering[R]. Proceedings of the SeventhIEEE International Conference on Data Mining,2007.
9徐华锋,方志耕.面板数据聚类分析的投影寻踪模型[J].统计与决策,2010,26(4):161-163. 被引量：9
10王洪明.我国区域道路交通安全形势对比与影响因素分析[J].中国安全科学学报,2010,20(6):140-145. 被引量：11

引证文献5

1张丽娜,周润景,那日苏.基于黄金分割法的ISODATA算法的大样本特征数据提取方法[J].内蒙古大学学报（自然科学版）,2013,44(1):93-96. 被引量：2
2张丽娜,姜新华,那日苏.基于改进的ISODATA算法的大样本数据聚类方法研究[J].内蒙古农业大学学报（自然科学版）,2013,34(1):133-137. 被引量：5
3蔡洪山,许峰.基于改进预测强度的大数据K-均值聚类方法[J].软件导刊,2016,15(5):4-6. 被引量：1
4党耀国,侯荻青.基于特征提取的多指标面板数据聚类方法[J].统计与决策,2016,32(19):68-72. 被引量：17
5宋阳,石鸿雁.基于MapReduce框架下的K-means聚类算法的改进[J].计算机与现代化,2019,0(8):28-32. 被引量：7

二级引证文献32

1金培源,高波涌,陆慧娟.一种黄金分割优化的极限学习机算法[J].中国计量学院学报,2014,25(2):209-212. 被引量：5
2吴德,刘三阳,梁锦锦.多类文本分类算法GS-SVDD[J].计算机科学,2016,43(8):190-193. 被引量：4
3何茂录,甘浪雄,郑元洲,徐才云.基于ISODATA算法的水上交通事故黑点识别[J].安全与环境学报,2017,17(2):413-417. 被引量：4
4屈洁.虚拟环境下大数据智能并行聚类方法研究[J].计算机测量与控制,2017,25(6):257-260. 被引量：4
5李润青,谢明鸿,黄冰晶.一种基于初始点密度最大的改进型ISODATA聚类算法[J].软件导刊,2017,16(12):94-98. 被引量：7
6窦婷,张正军.基于IGS方法的最佳分类数研究[J].重庆工商大学学报（自然科学版）,2017,34(6):29-33.
7甘浪雄,徐才云,周春辉,郑元洲,陈润.基于卡尔曼滤波和ISODATA的航标漂移预警方法[J].上海海事大学学报,2017,38(4):26-31. 被引量：5
8戴大洋,邓光明.基于主成分特征提取的面板数据聚类方法[J].统计与决策,2018,0(21):72-76. 被引量：10
9宗秋,金京,左晓琴,张爽爽,彭建良.杭州等10城市R&D经费投入的聚类分析[J].浙江科技学院学报,2018,30(2):92-95. 被引量：1
10王泽东,邓光明.基于趋势距离的面板数据聚类方法探讨[J].统计与决策,2019,35(8):35-38. 被引量：5

1唐凯,王玉坤.黄金分割法在求解内部收益率中的应用[J].技术经济,2002,21(7):57-58. 被引量：6
2郭兴宇.黄金分割法：关于职工下岗的具体操作[J].五月风,2000(2):22-22.
3郭小园,耿改智.黄金分割法在物质与精神激励中的应用[J].企业导报,2010(12S):204-205.
4陈华.基于数据挖掘技术的企业信用评估研究[J].科学学与科学技术管理,2007,28(7):192-194. 被引量：3
5张洪烈,潘雪冬.中国跨国公司外派人员跨文化管理有效性指标体系构建研究——以云南省外派至东南亚国家为例[J].经济问题探索,2011(8):141-148. 被引量：3
6李玮婷,彭岩.基于K-means算法的企业服务创新方向选择研究[J].价值工程,2011,30(25):7-8.
7刘萍.再谈与会员沟通的艺术[J].中国资产评估,2000(6):41-42.
8赵坊芳.客户细分中聚类的应用[J].电脑知识与技术（过刊）,2010(13):2653-2654.
9韩平,刘向宇.黄金分割法在奖金分配中的运用[J].经营与管理,2010(2):51-52. 被引量：3
10苏彬.“黄金分割”法在激励中的运用[J].现代交际,2011(3):78-78.

统计与决策

2009年第1期

浏览历史

内容加载中请稍等...

大样本数据聚类的改进方法被引量：5

参考文献8

二级参考文献68

共引文献9

同被引文献29

引证文献5

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

大样本数据聚类的改进方法 被引量：5

参考文献8

二级参考文献68

共引文献9

同被引文献29

引证文献5

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

大样本数据聚类的改进方法被引量：5