一种基于层次聚类的k均值算法研究被引量：7

A K-means Clustering Algorithm based on Hierarchy

下载PDF

导出

摘要依据信息论的思想,对基于层次的K-均值聚类算法(HKMA)过程进行了分析,该算法首先采用层次方法对文档进行初始聚类,得到的聚类总数作为k均值算法中的k值,在此基础上,通过k均值聚类对聚类结果进行修正。实验结果表明,HKMA执行时间整体上优于k-means算法,而且随着数据量的增大执行时间的增长幅度也较小。 Probabilistic hierarchical clustering based on document information quantity.From an information theory angle,we study a K-means clustering algorithm based on hierarchy in this paper.Firstly,this algorithm classifies documents into one or more predefined categories using hierarchical methods,the total classified number is taken for the number of clusters.Secondly,it uses k-means to modify the clustering results.Experimental results showed that these algorithms have higher mining efficiency in execution time,memory usage and CPU utilization than most current ones like k-means.

作者张红云李萍萍

机构地区张家口教育学院宣化分校装甲兵工程学院基础部

出处《微计算机信息》 2010年第12期228-229,232,共3页 Control & Automation

关键词聚簇 K-MEANS 层次方法文本挖掘 Cluster k-means hierarchical methods text mining

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1陈良维.数据挖掘中聚类算法研究[J].微计算机信息,2006(07X):209-211. 被引量：32
2P. S. Bradley and U. M. Fayyad, "Refining initial points for K- means clustering", Proceedings of the Fifteenth International Conference on Machine Learning (ICML98), 1998, pp. 91-99.
3The Analysis of a Simple K-Means Algorithm. T. Kanungo, D. M. Mount, N.S. Netanyahu, C. Piatko, R. Silverman and A.Y. Wu. 2000.
4R. Kannan, S. Vempala, and Adrian Vetta, "On Clusterings: Good, Bad, and Spectral", Proc. of the 41st Foundations of Computer Science, Redondo Beach, 2000.
5S. Kantabutra, Efficient Representation of Cluster Structure in Large Data Sets, Ph.D. Thesis, Tufts University, Medford, MA, September 2001.

二级参考文献8

1荆丰伟,刘冀伟,王淑盛.改进的K-均值算法在岩相识别中的应用[J].微计算机信息,2004,20(7):41-42. 被引量：5
2韩家炜 Michelin K.数据挖掘:概念与技术[M].北京:机械工业出版社,2001..
3A. K. J ain , R. C. Dubes. Algorithm for Clustering Data[C].Prentice Hall, 19881
4Kanungo T, Mount DM, Netanyahu NS. An efficient k-menas clustering algorithm: analysis and implementation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002,24(7):881-892.
5Kohonen T. The Self-Organizing Maps[J]. Proceedings of the IEEE, 1990,78(9):1464-1480.
6Kohonen T. Self organization of a massive document collection[EB/OL].http://lib.hut.fgDiss/2000/isbn95122.52600/articl -e7.pdf,2000.
7王实,高文,李锦涛.Web数据挖掘[J].计算机科学,2000,27(4):28-31. 被引量：119
8汤效琴,戴汝源.数据挖掘中聚类分析的技术方法[J].微计算机信息,2003,19(1):3-4. 被引量：87

共引文献31

1柳炳祥,李海林.一种基于云模型的综合评判方法[J].微计算机信息,2007,23(32):262-263. 被引量：16
2刘茂.一种基于模糊神经网的超短波信号自动识别算法[J].成都信息工程学院学报,2007,22(5):588-592.
3王核成,林晓.基于聚类分析方法的区域大中型工业企业自主创新能力的划分[J].工业技术经济,2007,26(11):108-110. 被引量：3
4陈步英.数据挖掘技术在机械设备更新决策中的应用[J].拖拉机与农用运输车,2008,35(1):6-7.
5王核成,林晓.对浙江省自主创新能力的分析[J].统计与决策,2008,24(4):106-108. 被引量：1
6张斌,苏一丹,曹波.基于蚁群聚类模型的增量式Web用户聚类[J].微计算机信息,2008,24(15):231-233. 被引量：3
7李业刚,宋道金,王淑君,赵公波.农业电子商务中模糊数据挖掘技术的应用[J].农机化研究,2008,30(1):178-180. 被引量：8
8田慧,刘希玉,李章泉.一种基于粗糙集的加权聚类算法[J].微计算机信息,2008,24(27):239-240. 被引量：3
9程国建,王晓燕.基于涌现自组织映射的聚类分析与可视化处理[J].微计算机信息,2008,24(27):257-259. 被引量：1
10易跃明,梁戈夫.上市公司财务实证比较——以房地产行业与汽车制造业为例[J].中国管理信息化,2008,11(20):49-55. 被引量：4

同被引文献65

1陈挺,刘嘉勇,夏天,范刚.基于平板型Web论坛的信息抽取研究[J].成都信息工程学院学报,2009,24(1):1-4. 被引量：9
2褚娜,马利庄,王彦.聚类趋势问题的研究综述[J].计算机应用研究,2009,26(3):801-803. 被引量：6
3杨艳.人工神经网络和支持向量机在剪接位点识别上的应用[J].科技资讯,2007,5(22):215-216. 被引量：1
4李凯,李昆仑,崔丽娟.模型聚类及在集成学习中的应用研究[J].计算机研究与发展,2007,44(z2):203-207. 被引量：7
5逄玉俊,柳明,李元.k均值聚类分析在过程改进中的应用[J].华中科技大学学报（自然科学版）,2009,37(S1):245-247. 被引量：9
6肖云,韩崇昭,王选宏,张俊杰.基于核的自组织映射聚类[J].西安交通大学学报,2005,39(12):1307-1310. 被引量：3
7范艳峰,徐朝辉.基于聚类遗传算法的神经网络规则抽取及应用[J].计算机工程与应用,2006,42(23):225-228. 被引量：2
8贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：222
9田铮,李小斌,句彦伟.谱聚类的扰动分析[J].中国科学（E辑）,2007,37(4):527-543. 被引量：33
10赵林,杨保安,谢志鸣.一种新的基于结构的神经网络规则抽取方法[J].计算机应用与软件,2007,24(6):28-29. 被引量：2

引证文献7

1张仲明,于明光,郭东伟.基于聚类的神经网络规则抽取算法[J].吉林大学学报（信息科学版）,2010,28(5):506-512. 被引量：4
2胡伟.一种改进的K_means聚类方法[J].计算机与现代化,2012(1):22-24. 被引量：6
3胡伟.基于神经网络的聚类方法研究[J].微计算机信息,2012,28(1):159-160. 被引量：3
4董安国,薛方.基于随机谱聚类的图像分割算法[J].数学的实践与认识,2013,43(23):169-174. 被引量：4
5刘春梅,郭岩,俞晓明,赵岭,刘悦,程学旗.针对开源论坛网页的信息抽取研究[J].计算机科学与探索,2017,11(1):114-123. 被引量：10
6吕计男,王昕江,许云涛,刘燚,杜鹏飞.一种用于柔性飞机风洞静气动弹性试验的数据处理方法[J].兵器装备工程学报,2018,39(10):6-10.
7夏永泉,孙静茹,WU Xin-wen,支俊,王兵,谢希望.基于改进K均值聚类算法的星点聚类研究[J].图学学报,2019,40(2):358-363. 被引量：4

二级引证文献31

1许静涵,林礼娜,武义天,张德威,Pascal Grange,袁玲龙.基于引力模型和聚类分析的城市群经济结构研究——以长三角23市为例[J].浙江金融,2021(2):64-74. 被引量：1
2钟毅,刘桂霞,郑明,沈威,赖丽娜,周春光.基于AP算法支持向量机的设计与应用[J].吉林大学学报（理学版）,2011,49(5):906-910. 被引量：3
3刘树海,郑传涛,徐琳,宋宏伟.基于恒电流源的电阻式气敏传感器检测系统[J].吉林大学学报（信息科学版）,2012,30(4):376-380. 被引量：10
4张强,王春霞,赵健,武龙举,李静永.基于聚类和局部信息的离群点检测算法[J].吉林大学学报（理学版）,2012,50(6):1214-1217. 被引量：1
5郭慧玲,邓文怡,李晓英.基于近红外光谱技术的常见塑料快速分类方法研究[J].现代科学仪器,2012,29(5):28-31. 被引量：9
6王碧璇,张科,宋军艳.基于PDCRAN-SIFT的特征匹配技术研究[J].计算机与现代化,2013(6):76-81.
7赵魏雨,唐文秀.基于BP神经网络聚类算法的P2P流量识别[J].化工自动化及仪表,2013,40(4):515-518. 被引量：3
8侯彩虹.Research and Implementation of the Enterprise Evaluation Based on a Fusion Clustering Model of AHP-FCM[J].Journal of Donghua University(English Edition),2014,31(2):147-151. 被引量：2
9段桂芹.基于均值与最大距离乘积的初始聚类中心优化K-means算法[J].计算机与数字工程,2015,43(3):379-382. 被引量：17
10刘高杰,李云霞,张二喜,白林.易家湾表层土壤污染状况及污染源分析[J].佳木斯大学学报（自然科学版）,2015,33(2):286-289.

1黄志红.基于层次聚类的k均值算法研究[J].电脑开发与应用,2009,22(7):1-2. 被引量：5
2张帅钦,张波涛.基于层次的K-均值聚类[J].现代电子技术,2008,31(16):163-165. 被引量：2
3人民银行参加亚太地区央行解决计算机2000年问题研讨会有关情况概述[J].金融科技时代,1998,0(5):12-12.
4香港特区政府对“千年虫”问题采取措施[J].金融科技时代,1998,0(6):51-51.

微计算机信息

2010年第12期

浏览历史

内容加载中请稍等...

一种基于层次聚类的k均值算法研究被引量：7

参考文献5

二级参考文献8

共引文献31

同被引文献65

引证文献7

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

一种基于层次聚类的k均值算法研究 被引量：7

参考文献5

二级参考文献8

共引文献31

同被引文献65

引证文献7

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

一种基于层次聚类的k均值算法研究被引量：7