-
题名基于PBTM的海量微博主题发现
被引量:2
- 1
-
-
作者
郑涛
王路路
杨冰
姬东鸿
-
机构
武汉大学计算机学院
-
出处
《计算机应用研究》
CSCD
北大核心
2015年第3期768-770,785,共4页
-
基金
国家自然科学基金重点项目(61133012)
国家自然科学基金面上项目(61173062)
-
文摘
BTM(biterm topic model)能较好挖掘出微博主题。但面对海量微博,BTM无法胜任,因为BTM挖掘主题速度过慢。基于此,提出一种基于吉布斯采样本主机biterm元组来更新主题单词全局矩阵的分布式的BTM模型PBTM(parallel biterm topic model),通过多台主机同时对语料库进行本主机biterm吉布斯采样,然后每次迭代后更新全局主题单词矩阵,直到采样收敛。通过MPI集群实现PBTM模型,实验结果表明,PBTM主题挖掘微博文本速度较BTM大大加快。
-
关键词
主题模型
主题发现
pbtm
吉布斯采样
分布式计算
-
Keywords
topic model
topic discovery
pbtm( parallel biterm topic model)
Gibbs sample
distributed computing
-
分类号
R391.1
[医药卫生—基础医学]
-