-
题名基于MB-HDP模型的微博主题挖掘
被引量:31
- 1
-
-
作者
刘少鹏
印鉴
欧阳佳
黄云
杨晓颖
-
机构
中山大学信息科学与技术学院计算机科学系
-
出处
《计算机学报》
EI
CSCD
北大核心
2015年第7期1408-1419,共12页
-
基金
国家自然科学基金(61033010
61272065
+6 种基金
61472453
U1401256)
广东省自然科学基金(S2011020001182
S2012010009311)
广东省科技计划项目(2011B040200007
2011B031700004
2012A010701013)资助~~
-
文摘
主题模型是挖掘微博潜在主题的重要工具.然而,现有的主题模型多由Latent Dirichlet Allocation(LDA)派生,它需要用户预先指定主题数目.为了自动挖掘微博主题,作者提出了一个基于分层Dirichlet过程(Hierarchical Dirichlet Process,HDP)的非参数贝叶斯模型MB-HDP.首先,针对微博应用场景,假设消息是不可交换的;接着,利用微博的时间信息、用户兴趣以及话题标签,聚合主题相关的消息以解决微博短文本的数据稀疏问题;然后,扩展Chinese Restaurant Franchise(CRF)对微博数据进行主题建模;最后,设计一个相应的Markov Chain Monte Carlo(MCMC)采样方法,推导MB-HDP模型的分布参数.实验表明,在生成主题质量、内容困惑度和模型复杂度等指标上,MB-HDP模型明显优于LDA和HDP两种模型.
-
关键词
主题挖掘
微博
分层Dirichlet过程
mb-hdp
-
Keywords
topic mining
microblog
hierarchical Dirichlet process
mb-hdp
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-