一种优化初始中心点的K平均文本聚类算法被引量：6

Variant of K-means algorithm for document clustering: optimization initial centers

下载PDF

导出

摘要文本聚类在信息过滤,网页分类中有着很好的应用。但它面临数据量大,特征维度高的难点。由于K平均算法易于实现,对数据依赖度底,在文本聚类中得到应用。然而,传统K平均以及它的变种会产生有较大波动的聚类结果。因此对K平均算法进行了改进,通过优化聚类初始中心的选择,得到一种适合对文本数据聚类分析的改进算法。大量实验显示,该算法可以生成质量较高而且聚类质量波动性较小的结果。 Document clustering had been employed in information filtering, web page classification and so on. K-means is one of the widely used clustering techniques because of its simplicity and high scalability. Owing to its random selection of initial centers, unstable results were often got when using traditional K-means and its variants. Here a technique of optimization initial centers of clustering was proposed. Combined with incremental iteration, it can produce clustering results with high purity, low entropy as well as good stableness.

作者赵万磊王永吉张学杰李娟

机构地区云南大学信息学院中国科学院软件研究所

出处《计算机应用》 CSCD 北大核心 2005年第9期2037-2040,共4页 journal of Computer Applications

基金国家863计划资助项目(2001AA1131802002AA116080)

关键词优化文本聚类 K平均 optimize document clustering K-means

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1钱卫宁,周傲英.从多角度分析现有聚类算法(英文)[J].软件学报,2002,13(8):1382-1394. 被引量：86

二级参考文献36

1[1]Fasulo, D. An analysis of recent work on clustering algorithms. Technical Report, Department of Computer Science and Engineering, University of Washington, 1999. http://www.cs.washington.edu.
2[2]Baraldi, A., Blonda, P. A survey of fuzzy clustering algorithms for pattern recognition. IEEE Transactions on Systems, Man and Cybernetics, Part B (Cybernetics), 1999,29:786～801.
3[3]Keim, D.A., Hinneburg, A. Clustering techniques for large data sets - from the past to the future. Tutorial Notes for ACM SIGKDD 1999 International Conference on Knowledge Discovery and Data Mining. San Diego, CA, ACM, 1999. 141～181.
4[4]McQueen, J. Some methods for classification and Analysis of Multivariate Observations. In: LeCam, L., Neyman, J., eds. Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability. 1967. 281～297.
5[5]Zhang, T., Ramakrishnan, R., Livny, M. BIRCH: an efficient data clustering method for very large databases. In: Jagadish, H.V., Mumick, I.S., eds. Proceedings of the 1996 ACM SIGMOD International Conference on Management of Data. Quebec: ACM Press, 1996. 103～114.
6[6]Guha, S., Rastogi, R., Shim, K. CURE: an efficient clustering algorithm for large databases. In: Haas, L.M., Tiwary, A., eds. Proceedings of the 1998 ACM SIGMOD International Conference on Management of Data. Seattle: ACM Press, 1998. 73～84.
7[7]Beyer, K.S., Goldstein, J., Ramakrishnan, R., et al. When is 'nearest neighbor' meaningful? In: Beeri, C., Buneman, P., eds. Proceedings of the 7th International Conference on Data Theory, ICDT'99. LNCS1540, Jerusalem, Israel: Springer, 1999. 217～235.
8[8]Ester, M., Kriegel, H.-P., Sander, J., et al. A density-based algorithm for discovering clusters in large spatial databases with noises. In: Simoudis, E., Han, J., Fayyad, U.M., eds. Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining (KDD'96). AAAI Press, 1996. 226～231.
9[9]Ester, M., Kriegel, H.-P., Sander, J., et al. Incremental clustering for mining in a data warehousing environment. In: Gupta, A., Shmueli, O., Widom, J., eds. Proceedings of the 24th International Conference on Very Large Data Bases. New York: Morgan Kaufmann, 1998. 323～333.
10[10]Sander, J., Ester, M., Kriegel, H.-P., et al. Density-Based clustering in spatial databases: the algorithm GDBSCAN and its applications. Data Mining and Knowledge Discovery, 1998,2(2):169～194.

共引文献85

1刘英林,陈玉柱,丁文静,程红云.钢卷表面缺陷分布特征发现方法研究[J].冶金自动化,2020,44(1):27-31. 被引量：2
2毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
3李华,贾雪.基于FM度量的自适应K-Means聚类的工业生产运行基准挖掘[J].长春大学学报,2022,32(4):22-27.
4Qi Zhang,Jianshe Cao,Yanfeng Sui.Development of a research platform for BEPCⅡ accelerator fault diagnosis[J].Radiation Detection Technology and Methods,2020,4(3):269-276.
5郭景峰,赵玉艳,边伟峰,李晶.基于改进的凝聚性和分离性的层次聚类算法[J].计算机研究与发展,2008,45(z1):202-206. 被引量：15
6王建会,申展,胡运发.一种实用高效的聚类算法[J].软件学报,2004,15(5):697-705. 被引量：26
7张虎,郑家恒,刘江.语料库词性标注一致性检查方法研究[J].中文信息学报,2004,18(5):11-16. 被引量：9
8杨涛,李龙澍.一种基于粗糙集聚类的数据约简算法[J].系统仿真学报,2004,16(10):2195-2197. 被引量：5
9张虎,郑家恒,刘江.汉语语料库词性标注自动校对方法研究[J].计算机应用,2005,25(1):17-19. 被引量：1
10栾丽华,吉根林.一种基于四叉树的快速聚类算法[J].计算机应用,2005,25(5):1001-1003. 被引量：6

同被引文献61

1黄波,刘传才.基于加权TextRank的中文自动文本摘要[J].计算机应用研究,2020,37(2):407-410. 被引量：19
2李莹,张晓辉,王华勇,常桂然.一种应用向量聚合技术的KNN中文文本分类方法[J].小型微型计算机系统,2004,25(6):993-996. 被引量：13
3车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：115
4王俭.科研机构和家评价方法研究[J].科研管理,2005,26(4):152-155. 被引量：13
5尉景辉,何丕廉,孙越恒.基于K-Means的文本层次聚类算法研究[J].计算机应用,2005,25(10):2323-2324. 被引量：18
6费洪晓,巩艳玲,谢文彪,倪敏.基于混合学习策略的多Agent信息过滤系统[J].计算机应用,2006,26(2):267-269. 被引量：3
7刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
8牛强,王志晓,陈岱,夏士雄.基于支持向量机的Web文本分类方法[J].微电子学与计算机,2006,23(9):102-104. 被引量：19
9苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：378
10孙海霞,成颖.信息集成中的字符串匹配技术研究[J].现代图书情报技术,2007(7):22-26. 被引量：9

引证文献6

1费洪晓,穆珺,刘正.基于文本聚类和权重调整的用户兴趣建模算法[J].计算机技术与发展,2007,17(2):128-130. 被引量：3
2谢志强,于亮,杨静.多维数据的改进最小生成树聚类算法[J].哈尔滨工程大学学报,2008,29(8):851-857. 被引量：1
3刘海峰,刘守生,姚泽清,张学仁.一种基于改进K-means聚类的文本特征选择模型[J].微电子学与计算机,2009,26(6):29-31. 被引量：2
4刘海峰,刘守生,张学仁.聚类模式下一种优化的K-means文本特征选择[J].计算机科学,2011,38(1):195-197. 被引量：12
5孙海霞,李军莲,吴英杰.基于K-means的机构归一化研究[J].医学信息学杂志,2013,34(7):41-44. 被引量：10
6刘航冶,富铁楠,杨勇.互联网开源文本情报智能分析技术综述[J].情报杂志,2023,42(2):12-16. 被引量：2

二级引证文献30

1吴英杰,李军莲,孙海霞,王蕾,陈颖.基于著者共现的CBM机构名称规范研究[J].医学信息学杂志,2019,40(12):48-53. 被引量：3
2谢志强,高丽,杨静.改进的球结构SVM多分类增量学习算法[J].哈尔滨工程大学学报,2009,30(9):1041-1046. 被引量：5
3李会,王立峰.Web网页文本特征选择方法研究[J].计算机工程与设计,2010,31(16):3724-3727. 被引量：4
4由欣,印桂生.基于有向图构造的数据流预测算法[J].微电子学与计算机,2011,28(5):40-44.
5宋毅,徐志明.个性化搜索中的用户兴趣模型研究[J].计算机技术与发展,2011,21(11):153-155. 被引量：3
6袁创国.浓香型白酒生产如何改造低产质窖池[J].酿酒科技,2000(3):40-41.
7孙雨生,刘伟,仇蓉蓉,黄传慧.国内用户兴趣建模研究进展[J].情报杂志,2013,32(5):145-149. 被引量：12
8刘锦峰,朱少强.招聘网站职位与简历的双向匹配推荐算法[J].时代经贸,2014,12(4):278-279.
9王庆福.基于PageRank算法的文本关键词权重计算研究[J].网络新媒体技术,2015,4(3):37-41.
10李俊州,武莹.基于改进K-medoids算法的科技文献特征选择方法[J].华中师范大学学报（自然科学版）,2015,49(4):541-545. 被引量：1

1张济强,高玉良.遗传模拟退火算法在k—means聚类中的应用[J].电脑知识与技术,2012,8(3):1611-1613. 被引量：1
2代逸生,赵阳.数据挖掘在旅行社CRM中的应用研究[J].陕西科技大学学报（自然科学版）,2012,30(6):126-130. 被引量：1
3文志诚,陈志刚,唐军.基于聚类分析的网络安全态势评估方法[J].上海交通大学学报,2016,50(9):1407-1414. 被引量：18
4刘福荣,王宏伟,高晓智.基于粒子群优化聚类的汽轮机组振动故障诊断[J].振动与冲击,2010,29(8):9-12. 被引量：7
5季越江,吕佳.基于聚类分析的客户细分研究[J].办公自动化（综合月刊）,2009(4):36-39. 被引量：1
6孙晓静,王克峰,姚平经.基于聚类分析和可视化的增强遗传算法——II.算例分析及有效性验证[J].过程工程学报,2004,4(6):536-543.
7鲜敏,郑翔.模拟退火算法优化聚类头节点的MANET服务质量改进[J].计算机应用与软件,2015,32(4):326-329. 被引量：1
8庞天杰.基于模糊改进聚类分析的数据挖掘模型[J].太原师范学院学报（自然科学版）,2016,15(2):40-45. 被引量：1
9朱贵良,赵凯,赵锋.基于组合优化方法的K-means聚类算法实现[J].华北水利水电学院学报,2007,28(5):43-45. 被引量：2
10孙琛琛,申德荣,寇月,聂铁铮,于戈.面向实体识别的聚类算法[J].软件学报,2016,27(9):2303-2319. 被引量：8

计算机应用

2005年第9期

浏览历史

内容加载中请稍等...

一种优化初始中心点的K平均文本聚类算法被引量：6

参考文献1

二级参考文献36

共引文献85

同被引文献61

引证文献6

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

一种优化初始中心点的K平均文本聚类算法 被引量：6

参考文献1

二级参考文献36

共引文献85

同被引文献61

引证文献6

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

一种优化初始中心点的K平均文本聚类算法被引量：6