期刊文献+

基于稀疏特征的中文微博短文本聚类方法研究 被引量:4

下载PDF
导出
摘要 微博文本聚类是依据微博主题不同将描述同一类主题的微博文本汇聚到一起的过程。由于微博文本非常短,在使用常规的机器学习方法对微博短文本进行聚类时,常会出现严重的数据稀疏问题,继而对聚类性能产生影响。分析了中文微博文本的数据稀疏特征,并基于这一特征分析比较了几种中文微博文本表示及聚类方法,为中文微博文本聚类分析的难点问题提供了一定的解决途径。
作者 熊祖涛
出处 《软件导刊》 2014年第1期133-135,共3页 Software Guide
基金 安庆职业技术学院2013年院级自然科学研究项目(2013ZRKX004)
  • 相关文献

参考文献6

二级参考文献69

  • 1张猛,王大玲,于戈.一种基于自动阈值发现的文本聚类方法[J].计算机研究与发展,2004,41(10):1748-1753. 被引量:16
  • 2刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量:65
  • 3Fung B C M,Wang K,Ester M.Hierarchical document clustering//Wang John ed.The Encyclopedia of Data Warehousing and Mining,idea Group.2005:970-975.
  • 4Salton G.The SMART Retrieval System-Experiments in Automatic Document Processing.Englewood Cliffs,New Jersey:Prentice Hall Inc,1971.
  • 5Wang Y,Julia H.Document clustering with semantic analysis//Proceedings of the 39th Hawaii International Conferences on System Sciences.Hawaii,US,2006:54-63.
  • 6Hotho A,Staab S,Stumme G.Wordnet improves text document clustering//Proceedings of the Semantic Web Workshop at SIGIR-2003,26th Annual International ACM SIGIR Conference.Toronto,Canada,2003:541-550.
  • 7Hall P,Dowling G.Approximate string matching.Computing Survey,1980,12(4):381-402.
  • 8Coelho T,Calado P,Souza L,Ribeiro-Neto B,Muntz R.Image retrieval using multiple evidence ranking.IEEETransactions on Knowledge and Data Engineering,2004,16(4):408-417.
  • 9Ko Y,Park J,Seo J.Improving text categorization using the importance of sentences.lnformation Processing and Management,2004,40(1):65-79.
  • 10Erkan G,Radev D.Lexrank:Graph-based lexical centrality as salience in text summarization.Journal of Artificial Intelligence Research,2004,22(7):457-479.

共引文献496

同被引文献32

  • 1单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量:25
  • 2Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2008:148-154.
  • 3Changchun Yang, Hong Ding, Jing Yang, Hengxin Xue. Mining Mi-croblog Community Based on Clustering Analysis [C] //Proceedings of the International Conference on Information Engineering and Applica-tions (IEA) 2012. Springer London, 2013:825-832.
  • 4Olariu A. Hierarchical clustering in improving microblog stream sum- marization [M] //Computational Linguistics and Intelligent Text Pro- cessing. Springer Berlin Heidelberg, 2013:424-435.
  • 5Muhammad Atif Qureshi, Colm O'Riordan, Gabriella Pasi. Clustering with Error-Estimation for Monitoring Reputation of Companies on Twit-ter [M] //Information Retrieval Technology Lecture Notes in Computer Science, 2013:170-180.
  • 6Bo Huang, Yan Yang, Amjad Mahmood, Hongjun Wang. Microblog topic detection based on LDA model and single-pass clustering [C] //Rough Sets and Current Trends in Computing. Springer Berlin Hei-delberg, 2012:166-171.
  • 7Elena Baralis, Tania Cerquitelli, Silvia Chiusano, Luigi Grimaudo, Xin Xiao. Analysis of Twitter Data Using a Multiple-level Clustering Strategy [C] //Model and Data Engineering Lecture Notes in Comput- er Science, 2013:13-24.
  • 8黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量:221
  • 9张军伟,王念滨,黄少滨,蔄世明.二分K均值聚类算法优化及并行化研究[J].计算机工程,2011,37(17):23-25. 被引量:23
  • 10吴夙慧,成颖,郑彦宁,潘云涛.文本聚类中文本表示和相似度计算研究综述[J].情报科学,2012,30(4):622-627. 被引量:23

引证文献4

二级引证文献24

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部