摘要
由于微博跟现实生活有着密不可分的联系,微博的话题聚类可以发掘人们所关注的话题,有利于引导公众舆情。由于传统的文本聚类方法主要适用于长文本,LDA(Latent Dirichlet Allocation)话题模型是一个比较成熟也比较全面的话题聚类方法,实验中利用LDA模型来发掘当前公众讨论的热点话题,提出一种文本关联词算法。利用LDA得到的关键词进行聚类分析,也可以对LDA话题聚类后的结果进行优化调整,得到的结果与标注数据集进行对比分析,实验结果证明该算法能够提高聚类的正确率、召回率和F值。
Microblog has great relationship with real life. Topic clustering of microblog aims to explore the topic people concerned about, which benefits guiding public opinion. Traditional text clustering mainly used in long texts. LDA topic model is a comparatively mature and perfect theme clustering algorithm. Therefore, this paper uses LDA topic discovery to explore the current hot topic of public discussion. Then it presents a text correlative algorithm to do clustering with the keywords LDA gave and optimize and adjust the LDA topic clustering results. After that this paper verified the effect of the algorithm through comparison and analysis. The experimental results show that the algorithm can improve the accuracy, the recall rate and F values of clustering.
出处
《计算机应用与软件》
北大核心
2018年第1期264-268,共5页
Computer Applications and Software
基金
国家自然科学基金项目(61262074)
广西可信软件重点实验室课题
广西高校优秀人才资助计划(桂教人201065)
桂林电子科技大学计算机软件创新团队项目
桂林电子科技大学研究生创新项目(YJCXS201542)
关键词
微博
主题模型
文本聚类
关联词算法
Microblog Topic modal Text clustering Text correlative algorithm