期刊文献+

Web文档聚类中k-means算法的一种改进算法 被引量:1

An Improved K-means Algorithm for Web Document Clustering
下载PDF
导出
摘要 文章介绍了Web文档聚类中普遍使用的基于分割的k-means算法,分析了k-means算法所使用的向量空间模型和基于距离的相似性度量的局限性,从而提出了一种改善向量空间模型以及相似性度量的方法。实验表明,改进后的k-means算法不仅保留了原k-means算法效率高的优点,而且具有更高的准确性。 This paper introduced the popular partitioning-based k-means algorithm for Web document clustering,and analyzed the limitations of the VSM that k-means algorithm uses and the distance-based similarity computing.An improved algorithm was presented in this paper to solve these limitations,and experiments showed it is more precise than the k-means algorithm.
出处 《微型电脑应用》 2007年第8期6-8,4,共3页 Microcomputer Applications
关键词 文档聚类 k—means算法 向量空间模型 相似性度量 权重评价函数 Document clustering K-means algorithm VSM Similarity computing Weighting value function
  • 相关文献

参考文献6

  • 1C.Fraley and A.E.Raftery.How Many Clusters? Which Clustering Method? Answers Via Model-based Cluster Analysis[R].Technical Report No.329,1998.
  • 2Ravi Kothari,Dax Pitts.On finding the number of clusters[J].Pattern Recognition Letters 20(1999)405-416.
  • 3M.F Jiang,S.S.Tseng,C.M.Su.Two-phase clustering process for outliers detection[J].Pattern Recognition Letters 22(2001)691-700.
  • 4RS.Bradley,Usama Fayyad,and Cory Reina.Scaling Clustering Algorithms to Large Databases[R].Microsoft Research Report,1998.
  • 5Pierre Michaud.Clustering techniques[J].Future Generation Computer System 13(1997)135-147.
  • 6lwayama Makoto,Tokunaga Takenobu.Hierarchical Bayesian clustering for automatic text classification[Z].TR95-0015.1995.

同被引文献3

引证文献1

二级引证文献3

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部