期刊文献+

一种短文本主题特征的改进方法

An Improved Method of Short Text Features
下载PDF
导出
摘要 主题模型被用来进行文本主题挖掘已经被证明是一个非常有效的手段,随着即时通讯的发展,挖掘短文本的主题特征也变得越来越重要。由于短文本的稀疏性,把传统的主题模型(如LDA)直接用在短文本上,生成的主题特征效果并不好。在研究LDA主题模型的基础上,提出一种改进的短文本主题特征提取方法。在此方法中,通过对每篇短文本获取"词对"共现的方式来对文本建模,代替传统的"词"共现的方式,这种方式一定程度上能缓解数据稀疏的问题,提高了主题特征的效果。在真实数据集上的实验表明,方法相比于传统主题模型,在短文本特征提取方面有较好的提升。 This paper presents an improved method for short text based on LDA.In this case,acquiring couple word cooccurrence to model instead of the traditional word co-occurrence way.The method can alleviate the data sparseness problem and improve the performance of the model.The experimental results on real data sets show that the performance of this method has better promotion compared to the traditional topic model.
作者 郑诚 代宁
出处 《工业控制计算机》 2015年第8期110-112,共3页 Industrial Control Computer
基金 安徽省高校自然科学研究重点项目(KJ2013A020) 安徽省自然科学基金(11040606M133)
关键词 数据挖掘 短文本 词对 LDA 主题模型 data mining short text couple word LDA topic model
  • 相关文献

参考文献8

  • 1Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J].the Journal of machine Learning research, 2003, 3: 993- 1022.
  • 2Phan X H, Nguyen L M,Horiguchi S.Learning to classify short and sparse text & web with hidden topics from large-scale data collections [C]//Proceedings of the 17th international conference on World Wide Web. ACM, 2008:91-100.
  • 3Bollegala D, Matsuo Y, Ishizuka M. Measuring semantic sim- ilarity between words using web search engines [EB].www, 2007, 7:757-766.
  • 4Hotho A, Staab S, Stumme G. Ontologies improve text doc- ument clustering[C]//Data Mining, 2003. ICDM 2003. Third IEEE International Conference on. IEEE, 2003:541-544.
  • 5Gruber A,Weiss Y,Rosen-Zvi M. Hidden topic Markov models [C]//International Conference on Artificial Intelligence and Statistics. 2007:163-170.
  • 6Weng J, Lim E P, Jiang J, et al. Twitterrank: finding topic- sensitive influential twitterers [C]//Proceedings of the third ACM international conference on Web search and data min- ing. ACM, 2010:261-270.
  • 7Hong L,Davison B D.Empirical study of topic modeling in twitter[C]//Proceedings of the First Workshop on Social Me- dia Analytics. ACM, 2010:80-88.
  • 8Zhao W X,Jiang J,Weng J, et al. Comparing twitter and tra- ditional media using topic models[M]//Advances in Informa- tion Retrieval. Springer Berlin.Heidelberg, 2011:338-349.

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部