基于密度和最近邻的K-means文本聚类算法被引量：29

K-means text clustering algorithm based on density and nearest neighbor

下载PDF

导出

摘要初始中心点的选择对于传统的K-means算法聚类结果影响较大,容易使聚类陷入局部最优解。针对这个问题,引入密度和最近邻思想,提出了生成初始聚类中心的算法Initial。将所选聚类中心用于K-means算法,得到了更好的应用于文本聚类的DN-K-means算法。实验结果表明,该算法可以生成聚类质量较高并且稳定性较好的结果。 The selection of initial focal point has great influence on the clustering results of traditional K-means algorithm,for it tends to get a local optimal solution when inappropriately assigned.In view of this issue,initial algorithm that can generate the initial cluster center was proposed,through introducing the density and nearest neighbor idea.These selected centers were used for K-means algorithm;a better text clustering algorithm called DN-K-means was put forward.The results of experiments indicate that the algorithm can lead to results with high and steady clustering quality.

作者张文明吴江袁小蛟

机构地区西北大学信息科学与技术学院

出处《计算机应用》 CSCD 北大核心 2010年第7期1933-1935,共3页 journal of Computer Applications

基金西北大学科研启动基金资助项目(PR08067) 西北大学研究生自主创新基金资助项目(08YZZ35)

关键词文本聚类密度最近邻 F度量 text clustering density nearest neighbor F-measure

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1范明,孟小峰.数据挖掘:概念与应用[M].北京:机械工业出版社,2004.
2何飞,蒋冬初.基于向量空间模型的文档聚类算法研究[J].湖南城市学院学报,2003,24(3):114-116. 被引量：8
3钱卫宁,周傲英.从多角度分析现有聚类算法(英文)[J].软件学报,2002,13(8):1382-1394. 被引量：86
4马帅,王腾蛟,唐世渭,杨冬青,高军.一种基于参考点和密度的快速聚类算法[J].软件学报,2003,14(6):1089-1095. 被引量：108
5DUDA R O,HART P E.Pattern classification and scene analysis[M].New York:John Wiley and Sons,1973.
6FABER V.Clustering and the continuous K-means algorithm[EB/OL].[2009-10-03].http://library.lanl.gov/cgi-bin/ getfilefi00412967.pdf.
7刘艳丽,刘希云.一种基于密度的K-均值算法[J].计算机工程与应用,2007,43(32):153-155. 被引量：15
8STEINBACH M,KARYPIS G,KUMAR V.A comparison of document clustering techniques[EB/OL].[2009-10-03].http://cs.fit.edu/～pkc/classes/ml-internet/papers/steinbach00tr.pdf.
9吴启明,易云飞.文本聚类综述[J].河池学院学报,2008,28(2):86-91. 被引量：21
10SALTON G,WONG A,YANG C S.A vector space model for automatic indexing[J].Communications of the ACM,1975,18(5):613-620.

二级参考文献80

1任江涛,孙婧昊,施潇潇,黄焕宇,印鉴.一种用于文本聚类的改进的K均值算法[J].计算机应用,2006,26(B06):73-75. 被引量：24
2赵世奇,刘挺,李生.一种基于主题的文本聚类方法[J].中文信息学报,2007,21(2):58-62. 被引量：23
3黄永光,刘挺,车万翔,胡晓光.面向变异短文本的快速聚类算法[J].中文信息学报,2007,21(2):63-68. 被引量：17
4赵鹏,蔡庆生.一种基于《知网》的中文文本聚类算法的研究[J].计算机工程与应用,2007,43(12):162-163. 被引量：7
5何婷婷,戴文华,焦翠珍.基于混合并行遗传算法的文本聚类研究[J].中文信息学报,2007,21(4):55-60. 被引量：11
6王永恒,贾焰,杨树强.海量短语信息文本聚类技术研究[J].计算机工程,2007,33(14):38-40. 被引量：13
7[1]Fasulo, D. An analysis of recent work on clustering algorithms. Technical Report, Department of Computer Science and Engineering, University of Washington, 1999. http://www.cs.washington.edu.
8[2]Baraldi, A., Blonda, P. A survey of fuzzy clustering algorithms for pattern recognition. IEEE Transactions on Systems, Man and Cybernetics, Part B (Cybernetics), 1999,29:786～801.
9[3]Keim, D.A., Hinneburg, A. Clustering techniques for large data sets - from the past to the future. Tutorial Notes for ACM SIGKDD 1999 International Conference on Knowledge Discovery and Data Mining. San Diego, CA, ACM, 1999. 141～181.
10[4]McQueen, J. Some methods for classification and Analysis of Multivariate Observations. In: LeCam, L., Neyman, J., eds. Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability. 1967. 281～297.

共引文献228

1刘英林,陈玉柱,丁文静,程红云.钢卷表面缺陷分布特征发现方法研究[J].冶金自动化,2020,44(1):27-31. 被引量：2
2毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
3李华,贾雪.基于FM度量的自适应K-Means聚类的工业生产运行基准挖掘[J].长春大学学报,2022,32(4):22-27.
4Qi Zhang,Jianshe Cao,Yanfeng Sui.Development of a research platform for BEPCⅡ accelerator fault diagnosis[J].Radiation Detection Technology and Methods,2020,4(3):269-276.
5原福永,杨治秋,王海霞.一种基于向量空间模型的文档聚类算法研究[J].信号处理,2005,21(z1):606-608.
6赵大伟,肖周芳.一种改进的基于密度和样本数量的K-means算法[J].科技信息,2008(28):170-172. 被引量：1
7郭景峰,赵玉艳,边伟峰,李晶.基于改进的凝聚性和分离性的层次聚类算法[J].计算机研究与发展,2008,45(z1):202-206. 被引量：15
8李玉鑑.自适应K-均值聚类算法[J].计算机研究与发展,2007,44(z2):100-104. 被引量：5
9王建会,申展,胡运发.一种实用高效的聚类算法[J].软件学报,2004,15(5):697-705. 被引量：26
10张虎,郑家恒,刘江.语料库词性标注一致性检查方法研究[J].中文信息学报,2004,18(5):11-16. 被引量：9

同被引文献277

1郭景峰,赵玉艳,边伟峰,李晶.基于改进的凝聚性和分离性的层次聚类算法[J].计算机研究与发展,2008,45(z1):202-206. 被引量：15
2唐亚松,张鑫,蔡焕杰,王健.一种基于回归分析与时序分析的降水预报模型[J].水土保持通报,2009,29(1):88-91. 被引量：8
3朱颢东,钟勇,赵向辉.一种优化初始中心点的K-Means文本聚类算法[J].郑州大学学报（理学版）,2009,41(2):29-32. 被引量：13
4郭庆琳,吴克河,吴慧芳,李存斌.基于文本聚类的多文档自动文摘研究[J].计算机研究与发展,2007,44(z2):140-144. 被引量：5
5张红荣,张峰.传统的K-means聚类算法的研究与改进[J].咸阳师范学院学报,2010,25(4):59-62. 被引量：4
6吴世农,黄世忠.企业破产的分析指标和预测模型[J].中国经济问题,1987(6):8-15. 被引量：123
7刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
8包金龙.基于向量空间模型的信息检索系统的设计[J].情报杂志,2005,24(7):44-45. 被引量：16
9张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：60
10王惠文.变量多重相关性对主成分分析的危害[J].北京航空航天大学学报,1996,22(1):65-70. 被引量：17

引证文献29

1陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
2吴夙慧,成颖,郑彦宁,潘云涛.K-means算法研究综述[J].现代图书情报技术,2011(5):28-35. 被引量：160
3熊忠阳,陈若田,张玉芳.一种有效的K-means聚类中心初始化方法[J].计算机应用研究,2011,28(11):4188-4190. 被引量：86
4李翠霞,史苇杭,李占波.一种基于密度的加权模糊均值聚类算法[J].计算机科学,2012,39(5):180-182. 被引量：8
5杨慧中,董陶,陶洪峰.基于改进K-means聚类算法的组合模型建模[J].控制工程,2013,20(2):201-203. 被引量：18
6张凯,谢庆华.K均值算法影响因素的可视化分析[J].山西电子技术,2013(3):8-10.
7吐尔地.托合提,艾海麦提江.阿布来提,米也塞.艾尼玩,艾斯卡尔.艾木都拉.一种结合GAAC和K-means的维吾尔文文本聚类算法[J].计算机工程与科学,2013,35(7):149-155. 被引量：5
8李正兵,罗斌,翟素兰,涂铮铮.基于关联图划分的Kmeans算法[J].计算机工程与应用,2013,49(21):141-144. 被引量：14
9曹永春,蔡正琦,邵亚斌.基于K-means的改进人工蜂群聚类算法[J].计算机应用,2014,34(1):204-207. 被引量：41
10宁永恒,杨小兵,王康健.一种多聚类中心的划分方法[J].中国计量学院学报,2014,25(2):204-208.

二级引证文献488

1卢功靖,卢林艳,李媛媛,王成军.基于议题类型的临近预测:使用社交媒体预测新冠肺炎疫情确诊人数[J].中国网络传播研究,2021(4):93-117. 被引量：1
2杨惠烽,张琦,徐莉.改进的K-Means和Grabcut相结合的壁画分割方法[J].忻州师范学院学报,2023,39(5):26-33.
3卢文跃,刘彦斌.基于复杂网络的公共自行车调度区域划分方法研究[J].智能物联技术,2020,52(6):9-15.
4黄鹤,李潇磊,王珺,王会峰,茹锋.基于随机跳跃蝠鲼算法优化的电影信息数据聚类[J].南京大学学报（自然科学版）,2022,58(5):856-867.
5薛潇.船舶水下通信系统中海声信道文本数据聚类方法研究[J].舰船科学技术,2019,0(20):115-117.
6唐辉,刘晓波,韩祥民,邱知,徐邦贤.基于混沌剑鱼算法的K_means算法[J].智能计算机与应用,2022,12(1):69-73.
7卢洪.基于深度学习聚类算法的城市数据分类分级方法[J].工业技术创新,2021,8(4):73-78. 被引量：3
8赵莉华,赵茂林,夏炜,王仲.基于K-means和SOM混合算法的高压断路器操作机构状态评估[J].高压电器,2020,56(1):36-42. 被引量：8
9左晓飞,刘怀亮,范云杰,赵辉.基于概念语义场的文本聚类算法研究[J].情报杂志,2012,31(5):180-184. 被引量：2
10王生昌,李良敏,杨立本,邱兆文.营运车辆驾驶人适宜性甄别检测评价系统研究[J].交通信息与安全,2013,31(1):65-69. 被引量：2

1徐维林,朱宗,高丽,刘金岭.基于主题模型的网络微博舆情分析[J].软件导刊,2016,15(5):153-154. 被引量：2
2冯应柱.基于数据场的k-means改进算法[J].信息通信,2016,29(11):23-25. 被引量：1
3夏战国,万玲,蔡世玉,孙鹏辉.一种面向入侵检测的半监督聚类算法[J].山东大学学报（工学版）,2012,42(6):1-7. 被引量：9
4陆静.k-means算法在电信客户关系管理中的应用[J].福建电脑,2012,28(8):83-84. 被引量：1
5肖强,钱晓东.基于K-means算法的Web访问用户关联规则挖掘算法[J].图书情报工作,2011,55(16):136-139. 被引量：1
6邵晶晶,蒋林利.基于点概率的K-means算法的改进[J].柳州师专学报,2015,30(6):108-110.
7巨瑜芳,雷小锋,戴斌,庄伟,宋丰泰.基于傅里叶变换和连通图的聚类分析方法[J].计算机应用研究,2012,29(8):2837-2840. 被引量：1
8李城梁,马芸,张锐,魏伟.基于半监督谱核聚类的转子系统故障诊断[J].振动．测试与诊断,2016,36(3):562-567. 被引量：3
9张靖,段富.优化初始聚类中心的改进k-means算法[J].计算机工程与设计,2013,34(5):1691-1694. 被引量：56
10谢日敏,陈杰,游贵荣.高校信息系统使用率聚类分析[J].西安文理学院学报（自然科学版）,2016,19(5):40-43.

计算机应用

2010年第7期

浏览历史

内容加载中请稍等...

基于密度和最近邻的K-means文本聚类算法被引量：29

参考文献11

二级参考文献80

共引文献228

同被引文献277

引证文献29

二级引证文献488

相关作者

相关机构

相关主题

浏览历史

基于密度和最近邻的K-means文本聚类算法 被引量：29

参考文献11

二级参考文献80

共引文献228

同被引文献277

引证文献29

二级引证文献488

相关作者

相关机构

相关主题

浏览历史

基于密度和最近邻的K-means文本聚类算法被引量：29