文档聚类中k-means算法的一种改进算法被引量：29

An Improved k-means Algorithm for Documents Clustering

下载PDF

导出

摘要介绍了文档聚类中基于划分的k-means算法，k-means算法适合于海量文档集的处理，但它对孤立点很敏感。为此，文章提出将聚类均值点与聚类种子相分离的思想，并具体给出了基于该思想的对k-means算法的改进算法。实验表明，该改进算法比原k-means算法具有更高的准确性和稳定性。 This paper first introduces the partitioning-based k-means algorithms for documents clustering. The k-means algorithm adapts to processing the vast amount of documents, but it is sensitive to outliers. So this paper puts forward an idea to separate the clustering centroid from the clustering seed and brings forward an algorithm based on this idea to improve the k-means algorithm. The paper shows the results of the experiments to prove that this algorithm is more veracious and stable than the k-means algorighm.

作者万小军杨建武陈晓鸥

机构地区北京大学计算机研究所文字信息处理技术国家重点实验室

出处《计算机工程》 CAS CSCD 北大核心 2003年第2期102-103,157,共3页 Computer Engineering

关键词文档聚类 K-MEANS算法划分聚类算法数据库 Document clustering k-means algorithm Partition-based clustering algorithm

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1Jain AK,Dubes RC.Algorithms for Clustering Data[]..1988
2Kaufman L,Rousseeuw PJ.Finding groups in data:an introduction to cluster analysis[]..1990
3Rijsbergen G J V.Information Retrieval (Second Edition)[]..1989
4Kowalski G.Information Retrieval Systems - Theory and Implementation[]..1997
5Fasulo D.An Analysis of Recent Work on Clustering Algorithms[]..1999
6Steinbach M,Karypis G,Kumar V.A Comparison of Document Clustering Techniques[].Dept of Computer and Infor- mation Science Technical Report.1995

同被引文献200

1陈耀东,王挺,陈火旺.浅层语义分析研究[J].计算机研究与发展,2008,45(z1):321-325. 被引量：12
2李莹,张晓辉,王华勇,常桂然.一种应用向量聚合技术的KNN中文文本分类方法[J].小型微型计算机系统,2004,25(6):993-996. 被引量：13
3钟敏娟,林亚平,陈治平.基于分类和关键词组抽取的信息检索算法[J].系统仿真学报,2004,16(5):1009-1012. 被引量：11
4马燕,邹显春,包骏杰,李明.一种互联网智能元搜索引擎模型的设计[J].重庆师范大学学报（自然科学版）,2004,21(3):15-18. 被引量：5
5陆声链,林士敏.基于距离的孤立点检测研究[J].计算机工程与应用,2004,40(33):73-75. 被引量：44
6袁方,孟增辉,于戈.对k-means聚类算法的改进[J].计算机工程与应用,2004,40(36):177-178. 被引量：48
7姜园,张朝阳,仇佩亮,周东方.用于数据挖掘的聚类算法[J].电子与信息学报,2005,27(4):655-662. 被引量：68
8陈浩,何婷婷,姬东鸿.基于k-means聚类的无导词义消歧[J].中文信息学报,2005,19(4):10-16. 被引量：16
9赵万磊,王永吉,张学杰,李娟.一种优化初始中心点的K平均文本聚类算法[J].计算机应用,2005,25(9):2037-2040. 被引量：6
10李明琴,李涓子,王作英,陆大.语义分析和结构化语言模型[J].软件学报,2005,16(9):1523-1533. 被引量：7

引证文献29

1赵大伟,肖周芳.一种改进的基于密度和样本数量的K-means算法[J].科技信息,2008(28):170-172. 被引量：1
2马国俊,贠卫国.基于潜在语义索引的中文文本聚类的研究[J].现代电子技术,2005,28(10):58-59. 被引量：4
3谷淑化,吕维先.基于消息传递的并行聚类算法[J].现代计算机,2006,12(1):82-84. 被引量：3
4何兴无.用户兴趣实例模型与K_means算法的改进[J].重庆师范大学学报（自然科学版）,2006,23(2):38-41. 被引量：4
5刘海峰,王元元,王倩.基于分类的VSM模式下文本检索研究[J].情报科学,2006,24(11):1700-1703. 被引量：11
6刘海峰,王元元,丘国防.密度聚类模式下一种基于层次的自动文摘方法研究[J].情报杂志,2007,26(3):55-57. 被引量：2
7李业丽,秦臻.一种改进的k-means算法[J].北京印刷学院学报,2007,15(2):63-65. 被引量：9
8刘海峰,王元元,张学仁.基于潜在语义空间的文本检索问题研究[J].情报科学,2007,25(5):748-753. 被引量：9
9何婷婷,戴文华,焦翠珍.基于混合并行遗传算法的文本聚类研究[J].中文信息学报,2007,21(4):55-60. 被引量：11
10吉雍慧.数字图书馆中的检索结果聚类和关联推荐研究[J].现代图书情报技术,2008(2):69-75. 被引量：13

二级引证文献167

1林嘉鸿,贺天慈,樊莲香.自塑和他塑视角下中国女性运动员媒介形象建构和传播策略——以北京冬奥会相关报道为例[J].新闻知识,2023(1):55-62. 被引量：2
2黄辉雨,赵翠薇,李雪莲.新课标下高中地理教科研热点可视化分析[J].新课程导学,2023(4):21-24.
3刘香,杨效忠,彭敏,李冬花,陆林.游客视角下古道旅游地文化记忆感知特征及路径——以徽杭古道为例[J].中国生态旅游,2024,14(3):529-543.
4胡根根,张卫.两宋城守兵书的城池防御空间营建体系研究——以陈规、汤璹《守城录》为例[J].建筑学报,2023(S02):24-30.
5刘泽政.基于CNKI的教育政策评价研究现状分析[J].中国教育法制评论,2023(1):255-271.
6陈燕青.基于文献计量分析的近七十年日本语篇研究述评与展望[J].高等日语教育,2022(2):52-71.
7周桃义.大数据背景下高职工商管理专业学生岗位需求分析[J].区域治理,2018,0(43):61-61.
8宋宇辰,吕文亮.基于聚类分析的固体废弃物现状的实证研究.[J].中国软科学,2010(S2):129-136. 被引量：2
9刘天元,郑志国,包海峰.基于聚类算法的客户分析在通讯行业中的应用研究[J].长春理工大学学报（自然科学版）,2007,30(4):131-134.
10刘希宋,喻登科,李玥.基于客户知识的客户CABOSFV聚类[J].情报杂志,2008,27(2):7-9. 被引量：3

1王冲,雷秀娟.新的小生境萤火虫划分聚类算法[J].计算机工程,2014,40(5):173-177. 被引量：7
2孟娜娜,徐振明.一种基于划分的无监督优化算法[J].计算机工程,2011,37(S1):168-170. 被引量：1
3杜红刚,吴岳忠.基于云存储的网络文档共享系统[J].湖南工业大学学报,2015,29(5):72-76. 被引量：1
4疾速滚轮浏览“无限” 全新罗技无线激光鼠标MX620[J].电脑迷,2007,0(14):21-21.
5蔡静颖.特征文本提取的网络社团划分聚类算法[J].微计算机信息,2012,28(6):182-183.
6刘雷,王洪国,邵增珍,尹会娟.一种基于蜂群原理的划分聚类算法[J].计算机应用研究,2011,28(5):1699-1702. 被引量：6
7李琳,李肯立.基于图形处理器的划分聚类算法效率研究[J].计算机应用研究,2009,26(4):1276-1278. 被引量：2
8徐红波,郝忠孝.一种采用Hilbert曲线网格划分聚类算法[J].小型微型计算机系统,2010,31(10):1979-1983. 被引量：2
9王纵虎,刘志镜,陈东辉.基于统计学习的自适应文本聚类[J].四川大学学报（工程科学版）,2012,44(1):106-111. 被引量：2
10赵立永,赵冲冲,时鹏,胡长军.半监督二次划分聚类算法及其报表系统应用[J].小型微型计算机系统,2011,32(3):499-505. 被引量：3

计算机工程

2003年第2期

浏览历史

内容加载中请稍等...

文档聚类中k-means算法的一种改进算法被引量：29

参考文献6

同被引文献200

引证文献29

二级引证文献167

相关作者

相关机构

相关主题

浏览历史

文档聚类中k-means算法的一种改进算法 被引量：29

参考文献6

同被引文献200

引证文献29

二级引证文献167

相关作者

相关机构

相关主题

浏览历史

文档聚类中k-means算法的一种改进算法被引量：29