期刊文献+

动态时间分布LDA的网络舆情热点词链提取研究 被引量:1

Hotspot Words Chain Abstraction in Web Public Opinion Text Based on Dynamic Time Distribution LDA
下载PDF
导出
摘要 由于网络舆情文本的数据量非常大,用人工方式很难从舆情文本中发现舆情热点。利用LDA(Latent Dirichlet Allocation)主题模型的文本降维及词语聚类功能,能够从海量的舆情文本中自动提取所关注的焦点主题词。但由于缺乏动态的时间分布机制,LDA难以捕捉随时间变化的热点词链。本文提出了加入动态时间层的DTD-LDA(Dynamic Time Distribution LDA)模型,增加了文档-时间和时间-主题的动态分布机制,改善了LDA主题词对时间变化的敏感性,可以有效提取迅速变化的舆情文本热点词链。实验表明,DTD-LDA相比较同类模型,在动态热点词链的提取上具有更好的准确率和召回率。 In view of the large amount of opinion data, it is difficult to effectively carry out the analysis and treatment of hotspots by manual way. The Latent Dirichlet Allocation topic model can reduce text dimension and realize words clustering, as well as extract the focus topical words from the large number of the public opinion text automatically. Due to the lack of time layer for dynamic distribution mechanism, LDA is unable to capture the hotspot word chains with the time variation. This paper put forward the dynamic time layer added model DTD-LDA, which forms the dynamic distribution mechanism in document-time and time-topic layer, and improves the sensitivity of topic words in LDA for the changing time, so makes the model find the hotspot words chain that change rapidly in deferent time effectively. The experiments show that DTD-LDA discovers hotspot word chains with better precision and recall than other similar topic models.
作者 万红新
出处 《江西科技师范大学学报》 2016年第6期110-115,共6页 Journal of Jiangxi Science & Technology Normal University
基金 国家自然科学基金项目(61662032) 江西省社会科学规划项目(14TQ04) 江西省教育厅科技课题(GJJ150816)
关键词 网络舆情 主题模型 LDA模型 热点词链 动态时间分布 Web public opinion topic model Latent Dirichlet Allocation model hotspot words chain dynamic time distribution
  • 相关文献

参考文献11

二级参考文献143

共引文献279

同被引文献3

引证文献1

二级引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部