期刊文献+

基于频繁特征项集的文档聚类研究 被引量:1

Documents clustering based on frequent term sets
下载PDF
导出
摘要 提出了基于频繁特征项集的文档聚类方法。对预处理后的文档,通过Apriori算法找出文档频繁特征项集,依据其子集中频繁特征词语对相关文档进行聚类,该方法能够有效降低特征项的维数,并能够通过频繁特征词语集合对聚类后的类别进行适当的描述。 Novel method of frequent term sets-based text clustering was presented. For the pre-treated documents, such frequent sets could be efficiently discovered by using the Apriori method, which subset was used for documents clustering according to frequent terms' correlation. This method allows us to reduce drastically the dimensionality of the term sets and provides an understandable description of the discovered clusters by their frequent terms sets.
作者 郑小慎
出处 《计算机应用》 CSCD 北大核心 2006年第4期875-877,共3页 journal of Computer Applications
基金 天津市高等学校科技发展基金项目(20051505) 天津科技大学引进人才科技启动基金(20050420)
关键词 频繁特征项集 文档聚类 文档挖掘 frequent term sets text clustering text mining
  • 相关文献

参考文献3

  • 1ACKERMAN M,BILLSUS D,GAFFNEY S.Learning probabilistic user profiles[J].AI Magazine,1997,18(2):47-56.
  • 2ZAMIR O,ETZIONI O.Web Document Clustering:A Feasibility Demonstration[A].Proceedings of ACM SIGIR 98[C].1998.46-54.
  • 3LEWIS DD.Reuters-21578[DB/OL].http://www.daviddlewis.com/resources/testcollections/,2005.

同被引文献5

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部