期刊文献+

大规模短文本的不完全聚类 被引量:35

Incomplete Clustering for Large Scale Short Texts
下载PDF
导出
摘要 聚类分析是数据挖掘的一个重要手段,人们可以通过聚类发现信息中潜在的热点或规律。至今,已经有大量聚类算法被研究和提出。随着互联网的日益普及,查询日志、Twitter等短文本信息逐渐在人们生活中起着越来越重要的作用。这类短文本信息数量巨大,通常可达到千万乃至亿级,现有的聚类算法在对这类大规模短文本信息进行聚类分析时往往显得异常无力。该文通过对实际应用中的短文本信息进行实验分析,发现了这类数据类别所具有的"长尾现象",并由此提出了不完全聚类思想,可以有效地提高这类短文本信息的聚类性能。 Clustering is an unsupervised classification of patterns(observations,data items,or feature vectors) into groups(clusters).So far,many clustering algorithms have been proposed.With the rapid development of internet,short texts such as query logs and Twitter messages play a more and more important role in our daily life.Most existing clustering methods are hard to be applied in dealing with this kind of information due to the huge scale of data.This paper reveals the long tail distribution of this kind of information,and proposes an incomplete clustering algorithm.The experimental results show that the proposed method can cluster the short texts effectively and efficiently.
出处 《中文信息学报》 CSCD 北大核心 2011年第1期54-59,共6页 Journal of Chinese Information Processing
基金 国家自然科学基金重点资助课题(60933005 60903139) 国家973资助课题(2007CB311103) 国家242专项资助项目(2009F108 2009A19 2009A91)
关键词 短文本 聚类分析 不完全聚类 short texts clustering incomplete clustering
  • 相关文献

参考文献9

  • 1A.K. JAIN, M.N. MURTY, P.J. FLYNN. Data Clustering: A Review[J]. ACM Computing Surveys, September 1999, 31(3).
  • 2Wang L, Jia Y, Han W H. Instance message clustering based on extended vector space model[EB/OL]. Proceedings of 2^nd Iternational Symposium on Intelligence Computation and Applications. Wuhan, China: Springer, 2007: 435-443.
  • 3He H, Chen B, Xu W R, Guo J. Short text feature extraction and clustering for web topic mining [EB/ OL]. Proceeding of the 3^rd International Conference on Semantics, Knowledge and Grid. Washington D. C. , USA: IEEE, 2007: 382-385.
  • 4黄永光,刘挺,车万翔,胡晓光.面向变异短文本的快速聚类算法[J].中文信息学报,2007,21(2):63-68. 被引量:17
  • 5贺涛,曹先彬,谭辉.基于免疫的中文网络短文本聚类算法[J].自动化学报,2009,35(7):896-902. 被引量:18
  • 6http://tech. ifeng. com/internet/detail _ 2010 _ 08/09/ 1600761_0.shtml[DB/OL].
  • 7HARTIGAN, J. and WONG, M. Algorithm AS136: A k-means clustering algorithm[J]. Applied Statistics, 1979,28: 100-108.
  • 8Horatiu Mocian. Survey of Distributed Clustering Techniques[EB/OL]. 1^st term ISO report, 2009.
  • 9M. E. J. Newman. Power laws, Pareto distributions and Zipf's law [J]. Contemporary Physics, 2005,46 (5):323-351.

二级参考文献25

共引文献31

同被引文献383

引证文献35

二级引证文献316

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部