期刊文献+

基于HAC的文本话题聚类研究

下载PDF
导出
摘要 凝聚层次聚类算法是聚类算法实际应用的核心,算法简单效率高并能有效处理大数据集。本文利用数据挖掘技术文本凝聚层次聚类实现对中文文本的话题聚类,具体过程包括中文特征计算、文本分词、话题聚类以及结果展示,主要研究不同粒度中文文本话题聚类方法的实现,通过构建凝聚层次聚类模型(Hierarchical Agglomerative Cluster,HAC)进行文本话题聚类,采用模型参数的调控来改变聚类的粒度。不同粒度的文本话题聚类能展示不同层次的文本归并结果,有效实现定制式的个性化文本信息聚类。
出处 《通讯世界》 2015年第6期312-313,共2页 Telecom World
基金 国家自然科学基金(61202044) 四川省教育厅科研基金(12ZB326) 绵阳市网络融合工程实验室开放课题(12ZXWK04) 西南科技大学博士研究基金(12ZX7116)
  • 相关文献

参考文献3

二级参考文献8

  • 1王永成.中文信息处理技术及其基础[M].上海:上海交通大学出版社,1990..
  • 2Hatzivassiloglou V. Simfinder: A Flexible Clustering Tool for Summarization[C]//Proc of NAACL Workshop on Automatic Summarization, Association for Computational Linguistics. Pittsburgh, USA: [s. n.]. 2001: 4-14.
  • 3Fang Y C. Parthasarathy S, Schwartz F. Using Clustering to Boost Text Classification[C]//Proc. of the IEEE ICDM Workshop on Text Mining. Maebashi City, Japan: [s. n.], 2002: 1-9.
  • 4Cutting D, Karger D. Scatter/Gather: A Cluster Based Approach to Browsing Large Document Collection[C]//Proc. of SIGIR'92. New York, USA: ACM Press, 1992:318-329.
  • 5Salton G, Wong A, Yang C S. A Vector Space Model for Automatic Indexing[J]. Communications of ACM, 1995, 18( 11 ): 613-620.
  • 6Ackennan M, Billsus D, Gaffney S. Learning Probabilistic User Profiles[J]. AI Magazine, 1997, 18(2): 47-56.
  • 7Cheeseman P, Stutz J. Bayesian Classification(AutoClass): Theory and Results[C]//Proc. of Advances in Knowledge Discovery and Data Mining. Menlo Park, CA, USA: American Association for Artificial Intelligence, 1996: 153-180.
  • 8()MargaretH.Dunham著,郭崇慧,田凤占,靳晓明等.数据挖掘教程[M]清华大学出版社,2005.

共引文献53

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部